Retour à l'accueil Remonter

1. A sociological approach to Knowledge Engineering 11 1 The coming of age of Expert Systems 11.1.1 Univers scientifiques et universitaires 11.1.2 Univers industriels 21.1.3 Univers administratifs 31.1.4 Problmes de mŽthodes 31.2 Discourse analysis as a Knowledge Engineering Framework 41.2.1 Discourse analysis as a mean for conceptual domain analysis 52.The ACTE project 62.1. The project's context 62.2 Philosophy of ACTE 61.2 L'expertise du Centre d'Ato 71.3 Le projet d'un atelier logiciel cognitif et textuel 83 Description de SATO et D_expert 93.1 SATO 93.1.1 Les caractŽristiques de SATO 93.1.2 Description gŽnŽrale 103.1.3Les outils d'analyse de SATO 103.1.4 Une syntaxe simple et efficace 123.2 D_expert 133.2.1 ReprŽsentation de la connaissance 143.2.2 ƒditeur de la connaissance 153.2.3 Moteur d'infŽrences4. ACTEdevis gŽnŽral 164.1 PrŽsentation 164.2 Une ergonomie intŽgrŽe 184.3 Une refonte des structures internes 205. ACTEUn outil au service des organisations 21Bibliography 241. A sociological approach to Knowledge Engineering

The first part of the paper exposes some neglected aspects of knowledge engineering.and we emphasize the possible contribution of discourse sociology to this process. The second part presents the ACTE (Atelier COgnitif TExtuel) project. ACTE is a integrated system being developed at Le Centre d'Analyse de Textes par Ordinateur of Universite du Quebec a Montreal. The third part is a description of the D_expert and SATO software applications. Dans une quatrième partie, nous esquissons la stratégie d'intégration des deux logiciels. En conclusion, nous avançons quelques-unes des raisons qui militent en faveur de la réalisation du projet ACTE et de son implantation au sein des structures administratives publiques et para-publiques.

1 1 The coming of age of Expert Systems

In the last twenty years or so we have witnessed the impressive development of Expert Systems (Farreny, H. 1985). Practical and technical knowledge associated with the definition and building of Expert Systems has become "textbook" material (McGraw, K.L. & Harbison-Briggs, K. 1989). Computer technology with its growing capacity facilitates greatly the embodiment of "expert minds". This technology is also having an important side-effect : information processing is becoming a daily reality in public institutions. This poses an important problem : to what extent is it possible to confine “expertise” to scientific and technical activity? Indeed, the clerical organization of administrative structures requires problem-solving abilities that, in the end, are not structurally different (though content may vary widely) from those that one finds in “traditional” scientific and technical activity.

1.1.1 Univers scientifiques et universitaires

For the most part of expert system history (Farreny, H., 1985:27-45), the type of "minds" encapsulated in expert systems represented a very small domain of overall minds in activity, namely the sphere of scientific and technical activity. The principal problem these researchers were confronted with was one of representing the cognitive components of an expertise. If one was to eventually use a computerized problem-solving tool, one had to be able to translate knowledge structures into data processing format. Not surprinsingly, “formal” models were devised to achieve the representation of expertise since the initial knowledge domain was already highly structured and documented (e.g. le piston est une partie du moteur qui est une partie de l'automobile).

1.1.2 Univers industriels

Avec l'implantation micro de la technologie, la notion de système expert síapplique de plus en plus à des univers variés. Depuis le milieu des années 80, il y a une demande grandissante pour des applications dans les sphères de líactivité industrielle. Dans ce contexte, le problème de la représentation des connaissances díun domaine díexpertise se double de celui de líacquisition des connaissances. Líacquisition des connaissances propres à un domaine présente deux sortes de difficultés.

S'il est relativement facile, dans de tels univers, de faire l'inventaire des unités cognitives pertinentes, le problème est de discerner les différents rôles qu'elles sont appelées à jouer. Plus problématique encore est líidentification des fonctions cognitives devant être remplies et les moments où celles-ci doivent stratégiquement être réalisées pour simuler le raisonnement de l'expert. Par ailleurs, il faut que le système d'acquisition des connaissances puisse assurer de manière continue l'assimilation des nouvelles "entrées".

La variété des applications de type S-E pose aussi le problème plus général de la délimitation des savoirs. En effet, une des premières tâches dans la conception et líimplantation de systèmes experts est díidentifier les fonctions (Marcus, S. 1988) du domaine de compétence quíil faut structurer. Or comme chaque domaine est spécifique, la structuration des concepts et des stratégies doit être effectuée spécifiquement. Autrement dit, chaque domaine présente ses idiosyncrasies épistémologiques, théoriques et méthodologiques devant être intégralement prises en compte. On doit reconnaÎtre que les stratégies de résolution ou de calcul des solutions des problèmes symboliques sont encore mal identifiées; il manque à ce jour une classification claire des méthodes utilisées par les différents types de systèmes experts (McDermot, 1988). On ne peut que constater la montée des expériences de type “méthodologiques” avec tout le foisonnement terminologique que cela suppose.

La conception de S-E utilisés dans un univers industriel ajoute au problème de la représentation de la connaissance celui du transfert des expertises. Líutilité díun système expert réside dans le fait de pouvoir refléter et conserver ce que les experts díun domaine connaissent. Ceci pose le problème de líefficacité communicationnelle dans la mesure où les messages produits par le S-E doivent être conformes à ceux que produirait un expert. Un S-E doit pouvoir expliquer, justifier et préciser les parcours quíil emprunte; à la limite, un S-E doit offrir un support de type pédagogique à ses utilisateurs (Barr, A. & Feigenbaum, E. 1982). Líutilisation du S-E pose également le problème de la mise-à-jour des connaissances.

1.1.3 Univers administratifs

If we look at other type of expertise, say administrative expertise, we find that the development of knowledge based systems is yet to be achieved. Dans ce type díunivers, les préoccupations des utilisateurs et des concepteurs concernent principalement la manipulation (production, analyse, gestion, etc.) de données textuelles. Il existe des problèmes qui se posent en amont de leur simulation dans le cadre d'une application de type S-E. On pense ici notamment aux difficultés que posent les activités (Gingras, M. 1988) de stockage, díindexation conceptuelle et díexploitation díimmenses bases de données textuelles en format libre. Le terme de format libre désigne un format qui ressemble à celui díun livre ou díune revue. Ce format, à géométrie variable (le paragraphe, la page ou le chapitre), est le véhicule principal de la connaissance propre à cet univers : les textes de jurisprudence, les répertoires de politiques et de décrets, etc.

1.1.4 Problèmes de méthodes

Les modèles díanalyse utilisés par les approches de type “sciences et techniques” sont fortement inspirés des analyses en psychologie cognitive, centrées sur la genèse et la production des concepts (Eliot, L. B. 1987; Reitman Olson, J. & Rueter, H. H., 1987). On doit reconnaÎtre que la structuration sociale de la pratique scientifique et technique a tendance a favoriser des foyers bien identifiés : pour les domaines scientifiques les experts sont généralement connus, ils ont une notoriété particulière qui les désigne spontanément comme points d'origine lors de la constitution d'un domaine d'expertise. Dans le cas des secteurs où le savoir est stocké dans des archives textuelles, les experts ne sont pas aussi aisément identifiables. Bien souvent, on constate que l'expert est un groupe dont chacun des membres contrôle une zone d'expertise bien spécifique. On a qu'à penser au secteur des politiques administratives des institutions gouvernementales pour se convaincre des différences qui caractérisent l'opposition entre "sciences dures" et "sciences humaines". Dans le second cas, le savoir est structuré comme un univers polysémique où les raisonnements présentent des aspects divergents pour ne pas dire contradictoire. On voit bien alors que les expertises ne.peuvent être appréhendées qu'en fonction des caractéristiques socio-cognitives des groupes d'intervenants.

Les méthodes strictement cognitivistes laissent dans líombre la dimension sociale de l'expertise. Le savoir est construit par et dans líactivité discursive et les interactions micro-sociales. Il faut alors tenir compte des multiples perspectives surtout lorsque le savoir est afférent à des domaines moins bien définis comme ceux que líon retrouve dans les organisations publiques et para-publiques. Par exemple, une notion telle que "l'intention de frauder" s'analyse difficilement in abstracto; le recours au contexte fourni par les archives s'avère indispensable. L'utilisation efficace du potentiel offert par les archives textuelles requiert une adaptation des méthodes d'acquisition des connaissances aux réalités quotidiennes de la pratique administrative. Ceci nous semble important parce que les archives textuelles représentent le mode dominant de conservation des structures soco-cognitives que sont les savoirs afférents à telle ou telle pratique sociale. En dernière analyse, il faut bien reconnaÎtre que toute forme de savoir dépend en tout ou en partie d'une structure socio-linguistique qui permet le stockage, la manipulation et la transmission des éléments d'un domaine de savoir.

1.2 Discourse analysis as a Knowledge Engineering Framework

If Expert Systems are spawning rapidly, the same cannot be said of our theoretical grasp of what is expert knowledge.and of the socio-linguistic structure acting as a life support system. Oddly enough, knowledge engineering remains the "principal bottleneck in the development of expert systems" (Feingenbaum, E.A. & Barr, A. 1982:84). We would suggest that this is so because the current definitions of knowledge neglect the collective and contingent dimensions (Poitou, J.-P., 1987). Knowledge is basically a group product and as such it is the direct result of collective organization. Knowledge is also contingent upon time. It is embedded in textual archives, e.g., discursive structures that are dependent upon institutional frameworks. As such, they are constantly modified and updated. Administration domain experts are dealing with information that is not stable, unified, of homogeneous. These aspects of knowledge formation have not yet been taken into account as such in the discursive matrix where they are stored : texts (working papers, accounts, progress reports, articles, etc.). La prise en compte of textual format will enable a more productive knowledge engineering.

1.2.1 Discourse analysis as a mean for conceptual domain analysis

L'analyse du discours (telle qu'elle se pratique en sociologie) (Ghiglione, R., & Matalon, B., 1985; Lecomte A., 1985-1988) repose en grande partie sur l'hypothèse suivante: les énoncés d'un discours se présentent comme des formes d'objets-noyaux, des faisceaux, aux configurations régulières. Analyser la morphologie d'un discours revient à construire un modèle du texte. Une telle construction díeffectue en répertoriant à travers les strates de la matière syntaxique des objets conceptuels et en reconstituant les itinéraires sémantiques que ces objets empruntent. Ce type d'analyse du discours exploite la particularité du langage naturel d'être à lui-même son propre métalangage, c'est-à-dire qu'il sert à la fois à représenter la réalité et à représenter la représentation de la réalité. Il síagit en somme díune lecture par extraction et échantillonnage de segments de texte représentant les enjeux importants du discours. Ces segments, articulés les uns aux autres, forment un nouveau texte se donnant comme résultat de l'acte d'interprétation. La construction des séquences d'un texte s'effectue selon l'axe nominal et selon l'axe verbal. Dans le premier cas, le fil du texte se dessine à partir des relations qu'organisent les formes nominales. Ce sera, par exemple, la reprise systématique d'une catégorie sémantique, au moyen de différentes expressions nominales ou pronominales. Dans le second cas, les formes verbales et les formes déverbales (nom formé par dérivation d'un verbe) instaurent une logique de l'action en orientant les parcours empruntés par les sujets des énoncés. Ainsi, certaines formes verbales seront utilisées pour marquer les oppositions entre le continu et le discontinu, entre le potentiel et l'actuel, etc. Dans une telle perspective, la logique naturelle guide notre examen de la structuration des objets; la grammaire (sémantique et syntaxe) nous sert à isoler les régularités matérielles de la langue qui les représente.

L'analyse de discours représente donc une modalité d'intervention sur les textes qui peut prendre en compte les éléments conceptuels et l'organisation que ces derniers supposent. Jusqu'à maintenant le bénéfice méthodologique du lien entre analyse de discours n'as pas, dans le domaine de l'acquisition des connaissances (transfert d'expertise), été apprécié à sa juste valeur. par les cogniticiens qui pourtant reconnaissent l'importance de l'analyse des protocoles, pour ne nommer que cette modalité particulière de l'archive textuelle.

2.The ACTE project

2.1. The project's context

Dans les grands organismes, dont ceux de l'appareil gouvernemental, la production textuelle - faite de rapports, de directives, de projets, de correspondance, etc. - connaÎt un volume grandissant qui rend de plus en plus difficile leur exploitation. Ainsi, les "travailleurs du texte", chercheurs, gestionnaires, décideurs, etc. dont la lecture et l'analyse de texte constituent la principale activité, sont débordés par une masse de documents qu'ils doivent analyser en fonction d'objectifs qui leur sont propres: accumulation de faits, d'événements ou de connaissances, interprétation, élaboration de stratégies, prise de décision, etc.

D'un autre côté, les outils et les méthodes informatiques pour la compréhension des textes n'ont cessé de se diversifier et de se perfectionner dans les laboratoires de recherche, tant sur le plan de la performance que sur celui de la validité théorique. De plus, l'utilisation généralisée des programmes de "traitement de textes" et celle des bases de données textuelles ont rendu possible l'exploitation de cette ressource non-négligeable de savoir et d'expertise que représente l'ensemble des textes produits par une organisation.

Les conditions sont donc favorables pour un transfert d'expertise des laboratoires vers les organisations.

2.2 Philosophy of ACTE

The ACTE project is specifically oriented towards the integration of primary textual sources in the process of knowledge engineering. From the textual basis, knowledge can be extracted and formatted to serve either as goals, facts,rules, and inference mechanisms. ACTE will be designed as a interactive environment interfacing standard and textual databases, a textual parser and an expert system generator. The textual databases and the textual parser will be managed by SATO (Systeme d'Analyse de Textes par Ordinateur). Once the textual data has been properly translated into goals formulation, facts or inference rules, the data may be taken in charge by D_EXPERT environment for the generation of expert systems.

1.2 L'expertise du Centre d'Ato

Le Centre d'ATO possède une expérience de plus d'une décennie en développement d'outils informatiques en analyse de texte par ordinateur (ATO). Citons entre autres des logiciels, tels SATO, Déredec, FX et D_expert. Les chercheurs du Centre d'Analyse de Textes par Ordinateur possèdent une expérience d'intervention dans les organisations publiques et para-publiques, en particulier comme agent de formation en ingénierie cognitive et en analyse de textes par ordinateur. Voici une liste approximative des projets du Centre d'ATO avec le Gouvernement du Québec:

- Au ministère des Affaires municipales, utilisation de SATO pour l'analyse des lois municipales;

- Au ministère de l'Agriculture, utilisation du D_expert et de Faisceaux dans le contexte de systèmes de diagnostic;

- Au secrétariat du Conseil du Trésor, utilisation de SATO pour le traitement du répertoire des politiques administratives, utilisation du D_expert pour la mise au point d'un système expert sur l'attribution d'une certaine classe de contrats de service (SAGAC);

- Au Comité consultatif en gestion du personnel (CCGP), utilisation de SATO pour l'indexation assistée de conventions collectives et autres textes; projet analogue avec le Conseil du Trésor;

- Au ministère de l'Education, utilisation de SATO pour repérer le vocabulaire du domaine de l'évaluation, pour élaborer une stratégie de calibrage des textes, utilisation du D_expert dans le cadre d'un système expert pour guider le choix de stratégies statistiques;

- Au ministère de l'Environnement, utilisation de SATO et du D_expert dans le projet SAGEE (Système d'analyse pour la gestion des évaluations environnementales);

- Au ministère du Revenu, projet d'utilisation conjointe de SATO et du D_expert dans le cadre d'un programme de formation des vérificateurs fiscaux.

Constitué à l'origine autour de quelques chercheurs, le centre d'ATO a d'abord été un regroupement de chercheurs (1983), puis un organisme de service à la recherche (FCAR, en 1984) et un laboratoire de recherche (UQAM, en 1986). Il compte maintenant dix chercheurs à temps complet et son budget approche le demi-million de dollars.

1.3 Le projet d'un atelier logiciel cognitif et textuel

Le projet d'un atelier cognitif et textuel (ACTE) est né d'un double besoin. D'abord, il est nécessaire d'augmenter la robustesse et la convivialité des systèmes existants. C'est le cas en particulier du D_expert, prototype fonctionnel en LISP dont on voudrait extraire un module exécutable et portable sur les micro-ordinateurs en usage.

L'association intime des deux systèmes (SATO et D_expert) semble apporter une réponse appropriée au développement et à la généralisation des projets en cours. En effet, la méthodologie développée pour l'extraction des connaissances repose en bonne partie sur l'analyse de données textuelles. De plus, la manipulation des textes avec des outils informatiques pourrait profiter grandement de la méthodologie des systèmes experts qui permettent la construction graduelle d'algorithmes complexes.

Schématiquement, la pertinence du projet ACTE se résume aux arguments suivants:

- Premièrement, la faisabilité d'un tel outil repose sur l'existence de logiciels dont on a vérifié la pertinence et le potentiel.

- Deuxièmement, le projet permettra de développer et de consolider les logiciels existants afin d'en augmenter la performance et l'efficacité.

- Troisièmement, le projet ACTE sera l'occasion d'améliorer et d'uniformiserl'ergonomie des outils existants en vue de leur union dans le module intégré.

- Quatrièmement, ce projet sera l'occasion d'augmenter la connectivité bureautique du système par l'adjonction d'un protocole de communication permettant de programmer l'accès à des banques de données.

- Finalement, en mariant ainsi deux technologies majeures pour le travail dit de bureau, on se donne une plateforme solide et générale pour développer des applications particulières susceptibles de répondre à une variété de besoins.

Le projet est divisé en deux phases consécutives:

D'abord l'intégration et l'optimisation des outils existants: SATO un analyseur lexico-textuel et D_expert un générateur de systèmes experts. En parallèle, la section de linguistique computationnelle du Centre d'ATO poursuit les recherches en vue du développement d'un analyseur lexico-syntaxique du français, ALSF, en collaboration avec l'Institut national de la langue française (CNRS, France). Ensuite l'installation dans l'atelier d'un certain nombre d'applications linguistiques valorisant les descriptions potentielles de l'analyseur, telles le dépouillement des termes, la construction automatique d'index structurés, la production de résumés automatiques, etc.

Cet atelier, sans compromis avec la convivialité, pourra s'attaquer en temps réel à de très grandes masses de textes, tout en n'imposant aucune préconstruction théorique quant aux modalités du traitement des textes. Son architecture favorisera l'intégration éventuelle de modules ou procédures de provenance diverse et les raccords avec des serveurs aux spécifications différentes.

3 Description de SATO et D_expert

3.1 SATO

3.1.1 Les caractéristiques de SATO

SATO (Daoust, F., 1985-1989) est donc un système d'analyse de texte par ordinateur destiné à faciliter les analyses de contenu. Il s'agit, en quelque sorte, d'un système de base de données textuelles qui permet d'annoter des textes multilingues et de les manipuler de diverses façons: repérage de concordances, construction de lexiques, catégorisation des mots, dénombrements de tout ordre et analyseurs lexicométriques. SATO fonctionne en mode menu ou en mode commande et dispose d'un mécanisme d'aide en contexte.

3.1.2 Description générale

Le système SATO est conçu pour permettre à l'utilisateur d'interroger son texte et de contrôler pas à pas les diverses étapes de traitement. Pour ce faire, cependant, il faut d'abord que SATO lise le texte et en reconnaisse les multiples composantes: mots, ponctuations, paragraphes, références de pagination, etc. Ce traitement constitue une étape préalable dont les résultats sont gardés en permanence dans des fichiers d'un format spécifique à SATO.

C'est au cours de ce pré-traitement que SATO construit, à partir des mots du texte, le lexique, c'est-à-dire le catalogue de l'ensemble des formes (mots, ponctuations, nombres...) contenues dans le texte.

Une des caractéristiques intéressantes du système SATO, c'est qu'il est possible d'associer aux mots du texte, ou aux formes, des propriétés à valeur numérique ou symbolique. C'est un peu comme si l'on pouvait rajouter des dimensions au texte afin de l'annoter.

On peut imaginer par exemple que définir une propriété pour le lexique revient à rajouter une colonne au catalogue des formes du texte. De même, on peut imaginer que définir une propriété pour le texte revient à rajouter au texte original une ligne sur laquelle il est possible d'inscrire une annotation pour chacun des mots du texte.

3.1.3Les outils d'analyse de SATO

Les outils d'analyse fournis dans SATO peuvent être regroupés en six catégories.

La génération de lexiques, avec le nombre d'occurrences de chaque forme dans le texte ou une partie quelconque du texte.

Le repérage de concordances, c'est-à-dire de segments de texte dans lesquels apparaissent un ou plusieurs mots.

La production de dénombrements, c'est-à-dire de décomptes de mots dans une suite de segments de texte : phrases, paragraphes, etc.

L'application d'analyseurs automatiques destinés à produire des avis d'interprétation sur le texte :

LISIBILITE fournit divers indices de difficulté/facilité de lecture du texte.

PARTICIPATION permet d'évaluer la part relative d'une classe quelconque de mots dans un ensemble de sous-textes.

DISTANCE fournit une mesure de distanciation, ou de différenciation lexicale, entre divers textes. L'algorithme permet aussi de repérer les mots ou classes de mots qui contribuent le plus à distinguer ces textes.

DECRIRE permet de calculer la distribution d'une propriété sur le texte ou le lexique.

Finalement, l'utilisateur peut élaborer ses propres analyseurs en combinant les outils primitifs déjà décrits. Le schéma d'analyse ainsi produit pourra prendre la forme d'une procédure qu'on peut appeler par la commande

EXECUTER.

Des commandes de catégorisation permettent d'affecter des valeurs, généralement des catégories, aux mots du texte ou aux formes :

PROPRIETE permet de définir une nouvelle propriété, d'effacer ou de modifier une propriété existante. SATO est doté d'un mécanisme d'héritage: une nouvelle propriété peut hériter des valeurs d'une propriété mère; une propriété lexicale peut être "projetée" sur le texte et une propriété textuelle (symbolique) peut être "résumée" au niveau du lexique.

VALEUR permet d'affecter une valeur à un ou à plusieurs mots ou formes.

DICTIONNAIRE permet de consulter un dictionnaire préalablement inscrit sur fichier.

CONCORDANCE permet aussi d'affecter des valeurs à des mots dans un contexte de locutions ou cooccurrences.

Enfin, il y a un catégorisateur plein écran qui permet d'annoter très facilement tout mot ou forme lexicale. Cette annotation est modifiable tout aussi facilement et n'altère d'aucune façon le texte lui-même dont l'intégralité est garantie.

Des commandes de service qui permettent de contrôler à loisir l'impression et l'affichage des résultats. Ainsi on peut décider de masquer lors de l'affichage certains mots ou annotations de propriétés. On peut souligner (ou afficher en différentes couleurs) des mots qui possèdent une morphologie donnée ou des valeurs de propriétés particulières : par exemple des mots d'une certaine longueur ou fréquence, des mots annotés selon une certaine catégorie grammaticale ou sémantique, etc.

L'intérêt de ces techniques provient surtout du fait qu'on peut les utiliser dans le cadre d'analyses comparatives. Un lexique par exemple, considéré de façon isolé, a un intérêt limité. Mais, quand on compare plusieurs lexiques, provenant de plusieurs textes ou parties distinctes d'un même texte, on peut voir des régularités ou irrégularités significatives. Dans SATO, la commande DOMAINE permet de définir un sous-ensemble quelconque des mots du texte, de manière à y opérer de telles analyses comparatives.

Ainsi, on pourrait comparer des chapitres. Il est aussi possible de définir un domaine qui serait composé des phrases où apparaissent un ou plusieurs mots déterminés. On pourrait aussi comparer des sous-textes formés de mots ayant reçu une catégorie particulière. Imaginons par exemple que, dans le texte d'une pièce de théâtre, on ait identifié les réparties de chacun des personnages. On pourrait alors définir comme autant de sous-textes les interventions de chacun d'eux.

3.1.4 Une syntaxe simple et efficace

Le système SATO est construit autour d'une syntaxe qui permet de décrire très facilement, et avec beaucoup de flexibilité, les objets primitifs du texte, à savoir les mots. Cette description représente en effet un véritable patron de fouille qui couvre tant les caractères d'édition du mot que ses valeurs de propriétés.

Voici quelques exemples:

parle le mot "parle";

parle$ tous les mots débutant par "parle";

p|ent tous les mots débutant par "p" et se terminant par "ent";

p_rle tous les mots débutant par "p" suivi d'un caractère

quelconque et se terminant par "rle" comme "parle" ou

"perle";

parl(e,ent,ure) "parle", "parlent", "parlure";

|ent*freq=5,>5 tous les mots se terminant par "ent" et dont la fréquence

est plus grande ou égale à 5;

ab$*ALP=(fr,an) tous les mots débutant par "ab" et provenant des alphabets

français ou anglais.

$*ALP~fr tous les mots qui ne sont pas en français.

Cette syntaxe de description des mots, combinée à une structure de commandes également très générale, confère à SATO une grande souplesse. C'est ainsi qu'on dispose d'une base solide pour implanter des analyseurs et assurer une communication efficace entre l'utilisateur-trice et le texte informatisé. En fait, les possibilités d'utilisation de SATO sont presqu'illimitées, d'autant plus que le système est capable de manipuler des centaines de pages de façon très efficace.

3.2 D_expert

D_expert (auparavant appelé Déredec-EXPERT*) (Paquin, L.-C., 1986-1989) est un générateur de systèmes experts (GSE) développé en français au Québec. La présente version, écrite en Le_LISP, fonctionne sur Macintosh avec un minimum de 2 mo de mémoire, sur Ies IBM compatibles sous OS2 avec 3 mo de mémoire et sur VAX/VMS.

Ce GSE a été développé de façon à ce que des experts non-informaticiens puissent générer des systèmes experts par eux-mêmes. Nous préconisons en effet une intervention externe en ingénierie cognitive de type décroissante afin que l'organisation devienne autonome dans l'instanciation et la maintenance du SE qui lui convient. Le D_expert se caractérise donc en tout premier lieu par son aisance d'utilisation. Il n'y a pas de commandes à apprendre, seule un compréhension minimale de son architecture est nécessaire pour en exploiter toutes les possibilités. Une formation de 6 heures est habituellement suffisante pour s'y initier.

3.2.1 Représentation de la connaissance

La clarté de la représentation n'a pas été sacrifiée pour la performance du programme. La longueur des chaÎnes de caractères (256 au maximum) favorise l'expression naturelle de la terminologie du domaine d'expertise où les termes sont, la plupart du temps, composés de plusieurs mots. La structuration de la connaissance proposée est celle de l'objet valué (appelé "granule") qui offre modularité, flexibilité et lisibilité. L'objet valué est défini par la valeur de ses caractéristiques (appelés "traits"). Il permet la réduction d'une multiplicité de termes divers mais apparentés en des systèmes cognitifs. Les valeurs des traits ne sont jamais des procédures, ce qui assure l'indépendance des granules.

Pour en faciliter la gestion, les granules sont regroupés en vertu de critères taxinomiques quelconques en des ensembles appelés bases. Les granules peuvent être inscrits dans un tableau de dépendance cognitive; un procédé d'héritage sélectif multiple des propriétés permet d'établir avec les autres granules autant de liens que nécessaire et de gérer la transmission des valeurs. La sémantique des liens est laissée à l'utilisateur. Les traits et les liens sont gérés de façon indépendante des granules.

La règle d'inférences est la seule structure de contrôle: en plus de produire des faits (inférer), elle permet:

- de poser des questions à l'utilisateur en lui faisant instancier la valeur d'un trait (sur le Macintosh, le choix peut être fait par la sélection d'une zone dans une image);

- d'effectuer des quêtes dans des bases de données;

- d'effectuer des calculs;

- de transférer des valeurs d'un fait à un autre;

- de gérer l'itérativité;

- d'émettre des messages;

- d'évaluer des expressions LISP;

- transmettre des commandes au systèmes d'exploitation: DOS, OS2 ou VMS(VAX).

Le registre des actions disponibles ne cesse de s'étendre selon les besoins des utilisateurs.

Les faits relatifs à un problème donné sont regroupés en requêtes. Ceci permet de soumettre un problème et d'obtenir un résultat provisoire, de soumettre un autre problème, puis de compléter ou de réviser le premier problème pour le traiter de nouveau et ainsi de suite.

3.2.2 Éditeur de la connaissance

L'utilisateur construit et révise son système expert par des sélections dans

des menus emboÎtés. Avec le D_expert, le système expert est construit et révisé par des sélections dans des menus emboÎtés. Tous les granules disponibles sont décrits avec toutes les valeurs admissibles de chacun de leurs traits dans un dictionnaire (appelé ici "structures cognitives"). Les filtres et les inférences des règles, de même que les faits, sont construits en choisissant dans le dictionnaire un granule, puis en sélectionnant une valeur pour chacun des traits du granule retenu.

En tout temps, on peut ajouter ou retirer dans le dictionnaire:

- des granules

- des traits aux granules déjà déclarés

- des valeurs à des traits de granules déjà déclarés

Un propagateur prend en charge la mise à niveau des règles déjà construites avec les réaménagements apportés au dictionnaire. Un correcteur orthographique permet de modifier toute chaÎne de caractères désignant une base, un granule, un trait ou une valeur à partir de l'affichage d'une base de granule, règle ou requête. Toutes les occurences de cette chaÎne à la même position, tant dans les structures cognitives que dans les règles et les requêtes seront alors remplacées.

De nombreux liens import-export ont été développés via fichiers-texte:

- toute chaÎne de caractères peut être fournie à partir d'un fichier en format texte en la sélectionnant et en actionnant une clé

- lexiques de termes pour constituer des registres de valeur

- import-export des structures cognitives en format MORE 1.1 et Thinktank

- import-export des structures cognitives et des requêtes au moteur d'inférences en format base de données matricielles

3.2.3 Moteur d'inférences:

Le moteur d'inférences compare la prémisse des règles d'inférences aux faits (chaÎnage avant); à chacun des cycles, toutes les règles pertinentes sont invoquées (l'arbre de recherche est parcouru en largeur); le conflit entre plusieurs règles pertinentes est résolu par une mise en ordre croissante selon le nombre de filtres contenus par leur prémisse; le traitement de l'incertitude se fait par combinaison de coefficients de confiance (Mycin); le traceur est multi-niveau, il est possible de préciser quelles informations quant au déroulement d'un traitement sont souhaitées: l'identité des règles, le résultat du filtrage, le cumul des coefficients et des statistiques.

Les valeurs d'un trait faisant l'objet d'un questionnement peuvent être documentées d'un texte en format libre. Un mécanisme permet la navigation dans une hiérarchie de question en sélectionnant l'option par défaut "Aucun(e)". Les faits construits sur un même granule sont unifiés si la valeur de leurs traits ne présentent aucune contradiction de valeur. De plus, les faits qui présentent des liens hiérarchiques sont généralisés: des faits parents sont générés avec les valeurs de l'enfant. Les résultats obtenus, de même que les réponses fournies peuvent être conservés. Il est possible de générer un rapport en fusionnant certains résultats avec le fichier primaire d'un traitement de textes.

* Le Déredec-EXPERT s'est mérité un prix au congrès d'Avignon: Les systèmes experts et leurs applications en 1987.

4. ACTE: devis général

4.1 Présentation

L'Atelier cognitif et textuel (ACTE) sera donc constitué par l'intégration de SATO et du D_expert. Au niveau méthodologique, cette intégration est motivée par l'intérêt de faire appel à la technologie combinée de l'analyse de texte et des systèmes experts. Les domaines d'application d'un tel atelier sont très nombreux. Citons, entre autres,

- la gestion documentaire;

- la construction de systèmes d'analyse des textes consacrés à des besoins

précis;

- l'ingénierie cognitive à partir du matériau textuel;

- l'accès à l'information sur différents serveurs sans apprentissage de langages d'interrogation;

- la génération de systèmes experts ou à base de connaissance; etc.

Au niveau informatique, l'intégration de SATO et du D_expert dans un même environnement de programmation présente des avantages importants. Les deux modules partageront au maximum des librairies de fonctions communes (gestion d'écran, accès au disque, etc.). Cette mise en commun entraÎne une économie de code et donc de temps requis pour son écriture et son épuration. Le passage physique des fonctionnalités d'un module à celles de l'autre se trouvera facilité et accéléré. Au lieu d'un échange d'informations par voie de fichier, les deux modules seront dotés d'un espace mémoire commun (tableau noir).

Actuellement, le D_expert est à l'état d'un prototype fonctionnel; son cycle de développement est terminé, ses fonctionnalités ont été validées sur le terrain. Présentement en LISP et avec toutes les structures en mémoire vive, l'inévitable accroissement du dictionnaire de la connaissance et de la base de règles d'inférences qui accompagne le passage des systèmes experts développés de l'état de maquettes à celui de prototype, fait apparaÎtre les limites de l'état présent du système. L'encombrement de la mémoire vive nécessite une configuration de plus en plus grande et rend impossible en même temps la cohabitation avec une autre application.

Cet état de fait amène une double nécessité. D'une part, on devra dégager les fonctionnalités propres au moteur d'inférences de celles qui relèvent de la gestion des données (dictionnaire de la connaissance, règles d'inférences et requêtes). Ces données, dont la structure est présentement arborescente, prendront la forme de fiches et seront gardées sur disque; seuls les index permettant leur accès seront gardés en mémoire vive. D'autre part, on devra passer du code LISP interprété à du code compilé (C ou Pascal) pour plus de robustesse et d'efficacité.

Aussi, l'intégration du D_expert dans l'environnement logiciel de SATO fera en sorte que les règles d'inférences pourront utiliser directement les patrons de fouille de SATO, exécuter des commandes SATO, accéder à des serveurs d'information, etc.

A l'inverse, SATO profitera directement des capacités du module d'inférences. Comme nous l'avons vu dans la section précédente, SATO peut être vu comme une boÎte à outils offrant un ensemble d'instruments performants qui sont manipulés interactivement pour "disséquer" un texte, ou vérifier des hypothèses de lecture. Des fichiers comportant des commandes peuvent être exécutés en lots donnant lieu ainsi à des macro-commandes. Cependant nous aurions besoin de construire des analyseurs particuliers plus sophistiqués incorporant des stratégies de contrôle plus complexes, telles l'exécution conditionnelle d'actions, des boucles avec échappement. Pour construire ces analyseurs, l'utilisation de règles d'inférences, un mode de modélisation qui se répand de plus en plus, semble plus opportun que le développement d'un langage ad hoc. De plus, l'adjonction d'un gestionnaire de base de données permettra d'instancier des propriétés autant au lexique qu'au texte par des valeurs en format libre (chaÎne de caractères).

L'atelier cognitif et textuel comportera un moteur d'analyse lexico-textuel fourni par SATO et un moteur d'inférences fourni par le D_expert. Son interface proviendra en grande partie de SATO alors que la gestion des données sera confiée à un module spécialisé.

4.2 Une ergonomie intégrée

SATO et D_expert partageront un même interface-usager où l'écran (25 lignes de 80 caractères) est composé de trois zones: un éditeur de texte en haut, un éditeur d'objets au centre et une barre de menu en bas. Une commande permettra de passer d'un écran à l'autre. Le principe directeur est d'éviter les superpositions de fenêtres, tel les menus déroulants, car des délais de restauration d'écran sont encourus; délais inacceptables à des vitesses de télécommunication de 2400 bauds.

La barre de menu des commandes, sauf sur Macintosh, est empruntée à la librairie SATO. Elle est situé au bas de l'écran et son défilement est accompli au moyen des curseurs; l'accès direct à une commande est possible en tapant la première lettre; la sélection courante est affichée en vidéo inverse.

L'éditeur d'objets est un tampon (page virtuelle) qui admet un certain nombre d'objets, les mots du lexique et du texte en SATO et les éléments des objets valués en D_expert. En SATO, cet éditeur permet d'annoter manuellement les mots en fournissant une valeur à une de leurs propriétés. En D_expert, il permet de sélectionner une partie de structure à réviser, par exemple un trait d'un granule; les commandes au niveau d'emboÎtement relatif à la sélection sont alors proposées; pour le trait on trouverait "Effacer le trait" et "Ajouter une valeur". L'éditeur d'objets est tiré de l'actuel écran d'annotation SATO; cependant des modifications lui seront apportées pour élargir la typologie des objets admissibles à ceux du D_expert et permettre un défilement arrière limité.

L'éditeur de texte, un nouveau développement, est doté d'un tampon en mémoire vive d'une centaine de lignes. Il présente un minimum de fonctionnalités qui sont offertes dans la barre de menu et permet le chargement et la sauvegarde de "petits-fichiers". Les commandes composées à l'aide des menus emboÎtés y sont affichées (journal des commandes). Il sera possible, le cas échéant, d'apporter des modifications aux commandes déjà effectuées, puis de les sélectionner et de les soumettre à nouveau. Ce dispositif facilite la mise au point de fichiers exécutables et permet d'introduire des commandes SATO dans les règles d'inférences. Au moyen de l'écran D_expert, la rédaction d'une règle d'inférence dont les actions sont des commandes SATO est entreprise; la prémisse complétée, on passe à l'écran SATO et, par tentative, les actions SATO sont mises au point sur un texte. Lorsque le résultat est satisfaisant, les commandes sont sélectionnées, un retour à l'écran D_expert est effectué et les commandes sélectionnées viennent compléter la règle en cours d'écriture. L'éditeur de texte sert aussi à la saisie et à la révision des chaÎnes de caractères qui constituent les objets cognitifs et les propriétés symboliques en format libre pour les mots.

L'aide contextuelle, couplée à la librairie de menus, est affichée en boucle par dessus l'éditeur de texte. Présentement, le texte réside sur un fichier externe, mais est mis en mémoire en début d'exécution. L'atelier utilisera un fichier indexé pour limiter l'utilisation de la mémoire. Seront aussi affichés à cet endroit: la documentation adjointe aux traits et aux valeurs par le constructeur du système expert de même que les avertissements et les messages d'erreur.

En plus du mode interactif, l'atelier disposera d'un langage de commandes. SATO possède déjà un tel langage et nous devrons en définir un pour D_expert. Finalement, une syntaxe unique permettra d'unifier les deux langages. Une boÎte à outils d'interface sera fournie pour que le développeur puisse, selon ses besoins, définir l'ergonomie des écrans de saisie et de choix multiples qui seront offerts à l'utilisateur.

4.3 Une refonte des structures internes

Le D_expert est composé de deux modules: un éditeur de la connaissance et un moteur d'inférences. Le recodage du D_expert implique deux types de tâches: d'une part le transfert des fonctions d'interface et de rétention des données cognitives vers les librairies d'interface SATO et un SGBD interne à ACTE; et d'autre part, un recodage en PASCAL à partir du code LISP des fonctions propres au générateur de systèmes experts. Ainsi, lors d'un cycle d'inférences, la restriction, c'est-à-dire le repérage de toutes les règles dont la prémisse est susceptible d'appariement avec la conjoncture factuelle (base de faits), se fera selon une stratégie de base de données. L'accès aux règles d'inférences résidentes sur disque sera direct, leur adresse étant répertoriée dans un index résidant en mémoire vive.

Ce passage sera accompagné d'une transformation de la structure de données, présentement arborescente en fiches standardisées. Un seul modèle de fiche pourra représenter toutes les données cognitives: le dictionnaire de la connaissance, les règles d'inférences (les filtres de la prémisse et les actions de la conclusion) de même que les requêtes (ensembles de faits). Ce modèle de fiche permettra une meilleure documentation des données cognitives: dates de création, de révision, et commentaires en plein texte. La clé d'accès aux données cognitives sera composée du triplet base-granule-trait. Le granule ne sera plus représenté par un arbre, mais par un ensemble de fiches qui auront en commun leurs deux premiers identificateurs: base-granule. Le statut de l'objet sera explicite et non plus déduit de la position qu'il occupe dans une arborescence donnée. Les opérateurs de filtrage affecteront les inférences et les faits; leur gamme sera étendue à la nécessité, l'obligation, la facultativité, etc. La valeur pourra être un patron.

L'intégration du D_expert et de SATO nécessitera enfin des adaptations à ce dernier module. D'abord, l'ingénierie cognitive des résultats SATO devra être faite; une base de granules SATO sera mise sur pied, de même que des prédicats pour tester les résultats générés par SATO en position de prémisse dans les règles d'inférences. Chacun des résultats sera décomposé en trait/valeur; par exemple la description d'une propriété numérique aura pour traits i) la classe de mots décrite (patron de mot); ii) le nombre de mots qu'il comporte; iii) la fréquence moyenne; iv) l'écart type. Ensuite, les résultats de SATO, présentement affichés ou déposés dans un fichier unique, doivent être retenus afin qu'ils puissent être filtrés par les règles d'inférences. Cette rétention nécessitera l'instanciation de fiches de dépendances des commandes SATO pour conserver et expliciter les contextes des résultats.

5. ACTE: Un outil au service des organisations

L'atelier proposé est conçu de façon à répondre aux besoins actuels des organisations en bases de données textuelles, principalement l'accès sélectif aux connaissances contenues dans les textes. Cet accès pourra être direct en temps réel au moyen de patrons de fouille; par exemple trouver dans toutes les conventions collectives les passages où il est question de congés de maternité. Si, par contre, les textes résident dans une base de données conventionnelle et que leur accès doit se faire par le biais d'un thésaurus, l'atelier intervient dans l'étape d'indexation des textes, soit le choix de termes représentatifs du contenu accompagnés de leur référence.

De plus, l'atelier vient enrichir les méthodologies pour le transfert d'expertise humaine contenue dans les textes vers les systèmes à base de connaissance. Ses fonctionnalités d'inscription de propriétés autant au lexique qu'au texte qui peuvent ensuite être questionnées permet un dépistage des concepts constant, objectif, reproductible et indépendant des problématiques définies dans les textes. Il s'agit donc d'utiliser le métalangage inhérent au texte lui-même pour isoler par leur récurrence les invariants organisés et hiérarchisés. Après une catégorisation morphologique des mots du texte, un dépistage des locutions terminologiques peut être effectué à partir de la co-occurrence de catégories; par exemple: traitement de textes {[nom] de [nom]}

D'une part, l'analyse des groupes nominaux d'un corpus de textes permet le dépistage d'unités cognitives et leur structuration en objets valués. Une fois que, parmi tous les substantifs, les concepts pertinents ont été retenus, les configurations nominales, appelés ingrédients, qui leur sont associés sont recherchées. Ainsi, par exemple pour le substantif "projet" on aura des configurations telles, l'assujettissement d'un projet, la pertinence d'un projet, etc. Les formes adjectivales présentes dans les contextes dépistés font apparaÎtre les quantifications et les échelles argumentatives qui positionnent virtuellement les autres valeurs qualitatives ou quantitatives possibles.

D'autre part, l'analyse des groupes verbaux assiste la rédaction des règles d'inférences. En effet, l'examen des verbes d'action permet le dépistage des opérations définies sur les objets. Leurs flexions et leur contexte en fournissent la modulation (actif, passif, nécessaire, facultatif, etc.), la localisation et la temporalité.

En plus de permettre l'accès sélectif aux textes par une recherche de contenu, en plus de fournir une assistance à la conversion des objets du discours en objets valués, l'atelier est aussi conçu comme un outil général pour l'analyse du contenu des textes. La neutralité de l'instrument, qui permet la coexistence de plusieurs niveaux d'analyse potentiellement contradictoires, favorise une démarche d'aller-retour entre la constitution de modèles sur les textes et leur validation empirique.

Il faut voir en effet, qu'il n'y a pas dans ACTE de projection déterministe d'un modèle pré-construit sur le texte. Le savoir sémantique et procédural appartient à l'usager. L'approche privilégiée par l'atelier est donc la mise à jour de l'organisation du texte par l'ajout de descriptions successives du texte en alternance avec l'exploration de résultats provisoires. Grâce à l'analyseur lexico-textuel, l'usager peut très facilement projeter sur le texte ses propres systèmes de catégories issus d'hypothèses explicites quant à l'interprétation du texte. Ainsi, les dénombrements pourront être effectués sur les catégories tout autant que sur les mots. Cette façon de faire amène le lecteur à expliciter les éléments textuels susceptibles d'être porteurs de sens et à arrêter les critères à partir desquels ceux-ci seront retenus et comptabilisés.

Voilà, brièvement décrites, les caractéristiques de la composante d'analyse lexico-textuelle de l'atelier. Par ailleurs, le générateur de systèmes experts permet, au moyen d'un dictionnaire de connaissances et de règles d'inférences exploitant cette connaissance, de modéliser et d'encapsuler des expertises qui, par la suite, seront exploitées par des utilisateurs.

Cette composante de l'atelier permettra la mise sur pied d'expertises incorporant la connaissance de langages d'interrogation de bases de données, textuelles ou non. Ainsi, par le biais de l'atelier, l'accès à des informations contenues sur différents supports, ayant chacun leurs particularités, n'exigera plus la maÎtrise de multiples langages d'interrogation.

Le mécanisme du moteur d'inférences, qui déclenche des actions lorsque des conjonctures factuelles sont réalisées, convient non seulement à l'analyse de textes ou de scénarios de décisions, mais aussi à la génération de textes (lettres, rapports, etc...) Une conjoncture de faits donnée peut provoquer, en plus de l'adjonction d'inférences aux faits, l'émission de segments textuels décrivant et commentant la situation rencontrée. Ces usages sont loin d'épuiser les possibilités de l'atelier cognitif et textuel. D'une part, il a le potentiel pour changer notre rapport au texte jusqu'ici linéaire, fortement marqué par les dimensions du temps (vitesse de lecture) et d'espace (de la première à la dernière page), pour un rapport instantané où les questions qui sont adressées aux textes sont immédiatement répondues et les réponses obtenues peuvent être à leur tour questionnées, etc. La créativité de l'utilisateur ainsi stimulée encourage le recours systématique aux textes. D'autre part il s'agit d'un puissant outil de modélisation des tâches textuelles permettant de construire de façon autonome des "applications textuelles" sur mesure intégrées par la suite aux procédures quotidiennes de l'organisation.

The integration of the SATO and D_expert software packages will possibly help the non "guru" population (e.g. humanists...) to have a direct access at the process of knowledge engineering. In this manner, we hope that semantic and cognitive data processing and non-numerical computational processes will be made available to those out here wishing for a more complete analysis of the means by which social reality is constructed.
Bibliography

Cicourel, A.V., (1986) "Social Measurement as the Creation of Expert Systems", Dans : Metatheory in Social Science. Pluralisms and Subjectivities, Chicago, The University of Chicago Press,1986, pp. 246-270, 390 pages.

Paquin, L., D-EXPERT (Version 2.0), Université du Québec à Montréal, Centre d'Analyse de Textes par Ordinateur,1987, 119 pages.

Politakis, P.G., Empirical Analysis for Expert Systems, Massachusetts, Pitman Publishing Inc.,1985, Research Notes in Artificial Intelligence, #6, 181 pages.