ACTE : l'ingénierie cognitive et textuelle

ACTE : l'ingénierie cognitive et textuelle

pour l'indexation hypertextuelle

François Daoust, Luc Dupuy et Louis-Claude Paquin

Centre d'Analyse de Textes par Ordinateur

Université du Québec à Montréal

Case postale 8888, Succursale A

Montréal, P.Q.

Canada H3C 3P8

Tél.: (514) 987-8256

Fax.: (514) 987-8538

S640@UQAM.Bitnet

Introduction

L'hypertexte est une (nouvelle) technologie de l'information qui s'inscrit dans la thématique de notre centre de recherches: l'analyse de textes par ordinateur. Notre contribution consiste d'une part à mettre en relief le caractère "textuel" des documents mis en réseaux et, d'autre part, à proposer une (autre?) approche computationnelle à l'analyse des textes. Cette approche ou ingénierieÎ est duelle: textuelle et cognitive. Elle est textuelle en ce que l'analyse prend non seulement en compte l'enchaÎnement des mots dans les phrases, mais aussi les conditions de production, le projet communicationnel sous-jacent, l'insertion du texte dans la trame des voisins <référence à SACAO>. Elle est cognitive parce que la délimitation de l'extension des concepts et leurs manipulations prime sur la causalité et les modalités linguistiques. La méthodologie d'analyse qui découle de cette approche nous semble offrir le cadre d'un passage plus efficace et viable du texte à l'hypertexte.

De cette approche computationnelle découle un projet d'atelier cognitif et textuel (ACTE) commandité par un consortium inter-ministériel du Gouvernement du Québec <note> Cet atelier est essentiellement le lieu de l'intégration de systèmes (experts) à base de connaissance et d'un "concordancier". L'objectif poursuivi est l'accomplissement efficace en temps réel et sur de très larges corpus de textes des opérations fondamentales de l'analyse de texte. Celles-ci sont limitées: le tri, l'étiquettage, le filtrage (pattern matching) et le stockage. Ces opérations fondamentales peuvent être combinées en des opérations de plus haut niveau et contrôlées par des règles d'inférences. Pour le passage du texte à l'hypertexte l'opération importante est l'établissement de relations multiples mais sélectives entre n'importe quel terme ou segment et n'importe quel autre terme ou segment, à l'intérieur comme à l'extérieur de l'espace textuel, à partir de n'importe quel point du texte analysé. Pour être pertiente, la sélection des relations doit être faite à partir d'un modèle riche du texte.

Cette contribution vise à montrer à partir des caractéristiques de l'hypertextualité et de celles de la textualité que le passage du texte à l'hypertexte doit être inséré dans une démarche "analytique". Le cadre d'analyse de textes proposé pour l'indexation hypertextuelle est la logique naturelle qui s'applique aux schématisations. ACTE est ensuite présenté comme un environnement qui permet d'opérationnaliser ce type d'analyse.

L'hypertextualité

Dans la perspective de la documentation logicielle, hypertexte (Barret, E. 1988,1989; McCarty, W.,1988) est défini comme l'ensemble des ressources documentaires “on-line” auxquelles il est possible díaccéder de multiples façons. Le stockage et l'exploitation de documents structurés en réseau de références s'est généralisé et répandu. Le noeuds du réseau sont des segments de textes à géométrie variable; leurs liens sont les chemins possible díexploration. Ce dispositif dégage le texte de ses contraintes linéaire et séquentielle imposées par le format du support “livre” pour l'inscrire dans un espace multidimentionnel où la recherche n'est plus filtrage mais navigation. L'hypertexte séduit parce qu'il va à l'encontre de la thèse skinérienne de la formation aux activités documentaires: líutilisation de la documentation sous format textuel qui nous condamne à des parcours labyrintesquesÎ <note>. Le modèle proposé est plutôt celui de la co-opération: le parcours et la production de liens. Cette architecture permet une production (écriture) et une consommation.(lecture) de textes non plus linéaires mais associatives..Le concept de navigation, typique de líenvironnement des SGBD, permet présentement l'accès le plus “intelligent” aux archives ou banques documentaires.

Une première revue de littérature nous montre cependant líexistence díune opposition importante entre la définition de líhypertexte comme stratégie díécriture et celle où líon insiste plutôt sur le processus de lecture comme stratégie de navigation dans le contenu des textes. Cette opposition est-elle attribuable aux caractéristiques intrinsèques du médium hypertexte plutôt qu'à des pratiques différentes? En effet, la dimension de la vitesse d'accès à l'information n'est pas le seul critère démarquant les documents de la génération “hypertexte” des documents de la génération “Gutenberg”. Si la notion díhypertexte est prometteuse du point de vue díune nouvelle structuration de líespace de lecture/écriture, elle se fonde paradoxalement sur des applications logicielles, certes rapides, mais qui sont loin díoffrir les avantages du format “livre” dans un espace à trois dimensions (je pense ici aux différents PIMs - personal information management systems - qui ont certes leur pertinence mais qui reposent largement sur la notion plutôt limitée de fiche ou díarticle de base de donnée). Pour satisfaire les besoins de la lecture comme acte díinterprétation des textes (vision du lecteur “humaniste”), l'hypertexte doit être assujetti à une méthodologie qui respecte les schèmes socio-culturels régissant l'acte de lecture/écriture.

Si la critique que les humanistes (McCarty, W., 1988) font des présupposés “modernistes” (instantanéité et multi-accès) est pertinente (le livre níest jamais lu strictement de façon linéaire; líacte narratologique est lui aussi un dialogisme), il reste quíelle met justement en lumière une des forces de líhypertextualité : líaccès aux documents hypertextuels est supporté précisément par des procédures díaccès plus efficaces que le recours aux tables onomastiques ou index livresques. Les entités identifiées dans la structure de définition de líespace textuel deviennent les portes díentrée pour avoir accès au texte. Díune certaine manière, le modèle entités-relations (re)donne au données textuelles leur troisième dimension, voire leur nième dimension. À la différence des index référentiels (onomastiques, conceptuels) fondés largement sur la notion de concordance (ou adjacences explicitement réalisées dans le texte) les index hypertextuels reposent sur la notion díaccès transversal aux documents. Cet accès se fait selon une logique de type associative.

Toutefois le modèle hypertexte ne fournit pas de cadre pour "bien" délimiter les noeuds/segments_de textes ou encore pour "bien" établir et classer les liens. Nous proposons le recours au modèle textuel. Les partitions (ou domaines de textes) sont alors définies à partir des points de convergences thématiques, argumentatifs, rhétoriques, etc. Celles-ci peuvent être “intra-textuelles” ou “extra-textuelles”. Ces deux dimensions organisent en quelque sorte les itinéraires textuels; elles structurent la discursivité textuelle. Donc, jusqu'à un certain point, le succès de l'indexation hypertexte repose sur la richesse des relations conceptuelles explicitées dans le discours mais définies pour et dans le domaine de savoir (Foucault, M., 1969). Pour permettre líexplicitation des éléments d'un savoir, hypertextualité doit refléter la structure d'un discours socialement construit et partagé par un ensemble díutilisateurs et non pas d'un discours issu d'une socialisation solitaire de líacte d'écriture.

La navigation dans les archives textuelles suppose la clarification/explicitation d'un projet spécifique de lecture/écriture partagé par un groupe donné de personnes. L'indexation hypertextuelle nécessite d'une part l'analyse des textes et de l'autre la délimitation. le réseau social de líacte de lecture.

l'hypertexte pose le problème fondamental d'une organisation sémantico-pragmatique de l'information; on rétablit en fait les causes d'un malaise autour de l'insaisissable de l'information que Wiener définissait comme n'étant ni matière ni énergie. L'information est un rapport problématologique qui s'est matérialisé sous forme de texte; c'est en fait le principe même du cycle de développement et de vue du texte, cette idée de mise en forme définie non comme état mais comme processus (reprendre l'étymologie in-formation);

La textualité

Dans les grands organismes, dont ceux de l'appareil gouvernemental, la production textuelle - faite de rapports, de directives, de projets, de correspondance, etc. - connaÎt un volume grandissant qui rend de plus en plus difficile leur exploitation. Ainsi, les "travailleurs du texte", chercheurs, gestionnaires, décideurs, etc. dont l'analyse de données textuelles (lecture díarchives et de documents, rédaction de rapports, etc.) constitue líactivité principale, sont débordés par une masse de documents qu'ils doivent analyser en fonction d'objectifs qui leur sont spécifiques: accumulation de faits, d'événements ou de connaissances, interprétation, élaboration de stratégies, prise de décision, etc. Le texte prend de multiples formes en fonction du projet communicationnel qui lui est assigné: études, rapports, directives, décrets, réponse en format libre à des questionnaires, retranscription d'entrevues, etc.

Le texte n'est pas un univers de données discrètes ou numériques est díabord et avant tout discours et acte de langage.sur des savoir (Foucault, M., 1969). Le texte est, au-delà de son apparence première, un objet stratifié qui ne se réduit pas plus à l'ensemble des mots qui le composent qu'aux relations réunissant ceux-ci en énoncés ou encore à un contenu pur et simple. Le modèle du texte préconisé ici est un ensemble des systèmes interreliés. Le terme ensemble est employé au lieu de hiérarchie à dessein parce que les systèmes entretiennent entre eux de multiples relations de dépendance parfois mutuelle. La compréhension de la parole relève du système phonologique; celle du texte repose sur le système typographique. La référence des mots au monde par le dictionnaire constitue le système lexical; le rôle de chacun des mots dans l'énoncé est le fait de deux systèmes (complémentaires?): morphologique, le système des marques que portent les mots et syntaxique, celui qui régit la combinatoire des mots dans les énoncés. Les autres systèmes sont moins définis. Le système sémantique est pensé comme une sorte de calcul sur les propriétés lexicales des mots et leur position morpho-syntaxique dans un segment donné. Il est à noter que la complexité graduelle est du à l'exposé. Dans les conditions normales de lecture il nous faut composer avec l'intrication des systèmes. Il est par exemple virtuellement impossible de choisir automatiquement entre deux ou plus de catégorisation de surface potentiellement contradictoire sans une description de la structure profonde de l'énoncé. Telle est la conception linguistique du texte.

Au niveau informatique nous disposons depuis longtemps de systèmes fabriquant des index (tri et comptage de formes) et des concordances (extraction par patron de fouille de mots qui apparaÎssent dans un contexte réduit) <note sur SATO et sur JEUDEMO et celui de Oxford> . Ces opérations ont rendu possible une analyse de type quantitative qui a essuyé des critiques justifiées en raison du peu de sensibilité linguistique de la définition des formes à compter: suite de caractères délimitée par un séparateur (le blanc)Î.. On a très tôt pensé que les dénombrements analysés devraient être préalablement syntaxiquement décrits pour que tant la catégorisation que les résultats obtenus tiennent compte du contexte des populations de mots filtrées. Il y a cependant peu de programmes qui effectuent la description arborescente de la syntaxe réalisée dans des énoncés parcourus ou parsés. Après plus de trente ans de recherches dans le domaine du traitement automatique de la langue naturelle, J. Sowa un membre de l'équipe de recherche en systèmes de IBM affirme que les succès sur un domaine restreint et leur échec lorsque le domaine est sans restrcictions s'explique par la nature fondamentale du langage. Une grammaire volumineuse se suffit pas à étendre la couverture d'un petit système en un traitement de la langue naturelle sans aucune restriction. Depuis plus de douze ans, P. Plante du Centre d'ATO s'intéresse aux problèmes du parsage; il collabore présentement à la confection d'un analyseur lexical et syntaxique du français (ALSF) qui est basé sur un modèle théorique qui lui permet souplesse et transparence pour résoudre les principaux problèmes reliés au parsage.<note sur les travaux de P. Plante>.

Il n'a jusqu'à présent été question que des micro-structures du texte. Le texte est analysé sous l'angle de la distribution de fréquences d'apparition des mots désignant des concepts dans diverses parties d'un corpus de textes. Avec le premier type d'outil, les fréquences retenues sont brutes; dans le second, elles sont qualifiées à la syntaxe, c'est-à-dire elles gardent la trace de la structure et du contenu de leur contexte d'énonciation. Une analyse de texte, telle que pratiquée dans les sciences humaines demande des niveaux de description supplémentaires, proprement textuels appelées macro-structures <note>. Parmi ces derniers mentionnons les figures de style ou de pensées, la logique du réseau d'argumentation, l'environnement communicationnel, la thématique, etc. Ces systèmes s'appliquent à des unités d'une autre nature: à géométrie variable tels la phrase, le paragraphe ou encore tout autre découpage arbitraire justifié par une grille ou d'autres critères. Leur description ne semble pas uniquement dépendre de la structure arborescente de la description lexico-syntaxique. Dans la plupart des cas, les indices ne sont pas assez nombreux pour qu'une analyse puisse se faire. Par contre, lorsqu'il y a des indices, un filtrage basé sur des séquences de patrons morphologiques semble suffisant. Une connaissance du cadre formel propre au type de texte est de plus requise. Est-ce une lettre, un mémo, une documentation, un règlement, un article de loi, le résumé d'un texte, etc?

Qui plus est, non seulement une connaissance de l'univers particulier du texte est requise, mais le lecture doit être informée des conventions sociales qui ont présidées à l'émergence du texte. Cette dimension, appelée intertextualité, situe le texte à dé-coder au-delà les systèmes linguistiques. La seule façon de contourner l'incertitude quant aux indices nécessaires et fournir quant même un cadre computationnel utile, c'est d'inclure le lecteur dans le processus de la fabrication du sens. Cette intuition est confirmée autant par les dernières théories de la psychologie <note> que de la sociologie <note> affirmant que les textes n'ont pas un sens univoque; le sens est plutôt construit par le lecteur au travers ses structures cognitives et culturelles résultantes de sa socialisation. Dans cette perspective, l'expertise de la lecture doit être prise en compte par le système. Pour ce faire sans introduire de biais, les techniques d'ingénierie cognitive utilisées pour construire les sytèmes (experts) à base de connaissance: l'entrevue, l'analyse de protocoles (verbalisations durant l'accomplissement d'une action); ou d'interruption (questionnement).

Les systèmes à base de connaissance résolvent des problèmes en parcourant une chaÎne d'informations générée à partir des faits de l'espace de problème (base de faits). Cette façon de faire nous a inspiré un renversement d'approche computationnelle, le passage d'une stratégie de parsage déterministe pour une sémantique procédurale. Par ce terme nous entendons la reconstruction de la signification au moyen d'une chaÎne inférentielle dirigée par un but particulier: l'hypothèse de lecture. Cette chaÎne est faite par le déclenchement de règles d'interprétation ou de recatégorisation des segments à partir des faits dont on dispose. D'un côté, la configuration d'indices relevés dans les descriptions disponibles (morphologiques, syntaxiques, sémantiques) et les heuristiques du lecteur (sens commun). Cette stratégie présente l'attrait de respecter le caractère hautement associatif des propriétés associées aux unités lexicales.

A base de connaissance ou non, l'analyse de texte par ordinateur doit être encadrée par une méthodologie fiable et appropriée. On doit y retrouver minimalement les étapes suivantes: la formulation d'hypothèses, la description des documents, l'extraction des données et l'analyse proprement dite. La plupart du temps l'analyse de texte est un processus cyclique où les résultats d'une précédente analyse participent à la reformulation des hypothèses.

Du texte à líhypertexte

La tâche de construire un hypertexte à partir d'un corpus de textes se nomme l'indexation hypertextuelle. Elle comporte deux opérations fondamentales: découper le texte en segments et établir des liens entre ceux-ci. Le découpage des segments destinés à devenir des unités hypertextuelles, appelées noeuds de base, doit répondre aux deux critères suivants: d'une part leur format doit pouvoir síafficher à líécran et/ou être imprimé sur une page; d'autre part il doit être cohérent.et complet c'est-à-dire compréhensible par lui-même. Une bonne façon de respecter le contenu du texte serait de faire de chacun des paragraphes du texte un noeud hypertextuel. Cependant comme les paragraphes sont contigus, une économie de dénotation est établie, les concepts en présence dans l'énoncé sont remplacés par des mots-outils (anaphores) ou des concepts associés (re-catégorisation.). Il n'existe pas, à notre connaissance, de programmes d'analyse syntaxique qui puisse dé-anaphoriser le texte. Les noeuds doivent donc être revus par un lecteur/auteur qui "intervient" dans le texte “officiel”. L'intervention est double: rétablir la référence au contexte en désambiguant l'anaphorisation et en restituant la chaÎne de re-catégorisation; indiquer pour la recherche la place du segment dans la structure du document par l'assigantion díune étiquette unique. Il est à noter que le principe-même de découpage implique un démembrement des macro-structure du texte (cf. supra). Pour pallier à cette perte, nous proposons le recours à l'analyse de textes.

L'autre opération de l'indexation hypertextuelle est le liage des noeuds. Un lien est un chemin possible d'exploration entre un noeud de départ et un noeud d'arrivée. A chacun de ces types, une réthorique, c'est-à-dire un ensemble de règles ou critères régissant soit l'émission d'un lien, soit sa réception. Les critères d'association des liens hypertextuels ne reposent plus que sur leur contiguité. Les noeuds sont assemblés en “modules”; il s'agit d'une activité de classification.qui demande de líévaluation, donc difficilement transposable en algorithme. La typologie des liens hypertextuels n'est pas figée: deux classes tendent à s'établir: les liens par la référence, par la hiérarchie. Les liens par la référence sont explicites ou implicites c'est-à-dire que dans le premier cas il existe dans le texte lui-même des indications facilitant leur repérage automatique alors que dans le second il n'y en a pas. Les références sont explicites soit typographiquement (par ex.: entourés de parenthèses (Paquin 1988, p. 37) soit par des suites de caractères isolés des autres mots par un alinéa (par ex.: l'article de la loi de la Protection de l'environnement Q q a 4Î), soit au moyen d'expressions (par ex.: comme le dit Minsky:Î.

Les références explicites peuvent avoir pour destination: soi-même (par ex.: une autre partie du texte où le concept employé est défini); díautres textes à l'intérieur du corpus. Si les références sont précédées du texte, il s'agit d'une citation. Les références implicites ne présentent pas comme tel de marques textuelles, ce qui les rend très difficle à dépister automatiquement. Leur dépistage requiert le jugement et l'intuition d'un lecteur/auteur hypertextuel. A titre d'illustration deux types de références implicites. Au niveau micro-textuel le regroupement des synonymes: la tâche consiste à reconnaÎtre, à faire valider et à documenter la similitude observée, à sélectionner un terme qui sera préféré et à le relier aux autres termes qui se trouvent à être non préférés. Au niveau macro-textuel le discours indirect libre: une citation sans référence. Le dépistage et le marquage du discours indirect libre apporte à l'hypertexte une dimension importante. Les passages du texte qui sont rapportés sont re-liés aux textes-sources.

Les liens hiérarchiques servent à rattacher les concepts manipulés dans le discours à une structure conceptuelle, la plupart du temps hiérarchique. Ainsi un objet se trouve rattaché à son générique (sous-classe) et cette dernière à l'instance (classe). Ce type de lien est pertient dans les domaines déjà structurés: la description de méchanismes par exemple. Par ailleurs, il y a des domaines où le concept de hiérarchie n'est pas pertinent: les décrets tombent souvent dans cette catégorie. La description d'autres domaines demandera l'entrecroisement de plusieurs hiérarchies <trouver un exemple>. Dans les textes, les liens hiérarchiques établis entre les concept sont, la plupart du temps, dénoncés par des marques linguistiques, telles: est un (le moineau EST UN oiseau), partie (le fer fait partie de l'acier), etc. Dans tous les cas, il s'agit d'une structure externe au texte lui-même que l'hypertextualité permet de rajouter. D'autres peuvent être établis à la discrétion du lecteur/auteur; on les dira procéduraux lorsque leur destination sera déterminée par l'exécution d'une fonction avec des paramètres donnés.

Le lecteur/auteur qui transforme le texte en l'hypertexte, revise la formulation du texte des noeuds, lie les textes entre eux en opérationnalisant le jeu des références croisées, rattache les concepts en présence à leurs synonymes, à leur générique ou encore à leur définition. De plus, celui-ci peut annoter les textes, c'est-à-dire lier un commentaire à un passage du texte. Il va sans dire que le passage du textuel à líhypertextuel requiert une planification basée sur une étude be besoin. Cette activité exige de la part du lecteur/auteur outre des compétences en analyse de textes, les connaissances suivantes: les dimensions critiques de l'espace d'idée concernée; les caractéristiques qui distinguent une idée d'une autre et enfin les schèmes de nomination appropriés. De plus, le réseau construit doit être validé par une représentation graphique.

La logique naturelle comme cadre d'analyse

Le concept d'hypertexte met en évidence le fait fondamental que tout texte est un parcours organisé, une suite "régie" d'éléments qui trouvent leur identité non seulement à l'intérieur de ce parcours, le contexte, mais qui sont également déterminés par le co-texte, l'ensemble de tous les textes avoisinnants. Avoisinnant car c'est d'un espace qu'il s'agit. La lecture et l'écriture sont toujours topiques, localisés dans un espace textuel en fonction de la structure pressentie. Cet idée d'espace textuel est très près de celle d'un réseau hypertextuel; la métaphore spatiale constitue un point de contact, de passage de l'un à l'autre. Notre modèle du texte (cf. supra) présente le texte comme un révélateur des rapports sociaux de production de l'information; le cadre de notre analyse doit donc mettre à jour les transactions et les tractations au milieu desquelles se construisent les concepts au travers un corpus.

Les logiques formelles font généralement abstraction de la nature des objets qu'elles manipulent. Dans les situations discursives, les objets manipulés ne sont jamais quelconques, ils sont toujours spécifiés (mis en contexte) à un certain degré. Les concepts sont efficacement représentés comme des objets symboliques dotés de plusieurs variables dont les valeurs ne sont pas boléennes mais scalaires. Par expemple le concept de température pourrait être vu comme un doublet de variables. La première variable serait la mesure en degré centigrades avec comme valeur un nombre avec une précision de deux chiffres. La seconde variable serait l'appréciation avec comme valeur un élément de l'ensemble suivant: bouillant, chaud, tiède, froid, glacéÎ. Comme on peut le voir, la variable ne s'évalue pas de façon boléenne (par oui ou par non), mais par la sélection d'un élément dans un ensemble. La notion ensembliste d'élément discrets n'est pas adéquate pour décrire l'attribution d'une position sur une échelle parce qu'il s'agit de la graduation coninue d'une qualité. On appelle classe méréologique le complexe de relations entre un tout et ses parties, entre les parties de parties; voici un exemple simple: la main et ses doigts; chacun des doigts n'est pas tant une partie de la main que son prolongement. L'échelle est une espèce très contrainte de classe méréonomique.

Dans les textes les concepts ne sont pas manipulés à des fins de démonstration. mais de schématisation. Les schématisations sont des opérations discursives structurant des objets cognitifs et les articulant dans l'espace d'un savoir. Ainsi nous avons recours à la logique naturelle parce qu'elle s'intéresse à de telles opérations mises en jeu par les locuteurs impliqués dans une pratique discursive. Quatre postulats caractérisent cette approche:

1) Chaque fois qu'un locuteur A fait un discours, il propose une schématisation à un interlocuteur B.

2) Les activités logico-discursives de A s'exercent dans une situation d'interlocution déterminée.

3) La schématisation que A propose à B est fonction de la finalité de A mais aussi des représentations qu'il se fait de B, de la relation qu'il soutient avec B et de ce dont il est question, c'est-à-dire du thème T.

4) La schématisation comporte des images de A, de B et de T. Elle contient aussi des marques de son élaboration..

Dans le cadre de la logique naturelle, les propriétés des objets d'une schématisation, de même que les relations qui peuvent exister entre eux, sont représentées par des prédicats. En plus des relations utilisées dans le cadre des logiques formelles (implication, relation de contraire, d'équivalence, etc.), on retrouve des relations de transformation d'objets, des relations méta-fonctionnelles (l'introduction d'un texte, d'un auteur, etc.).

L'opération d'ancrage est le processus par lequel l'unité sémantico-cognitive vient prendre place dans un processus de schématisation. Les unités se trouvent à être stabilisées à l'intérieur des formes linguistiques soit nominales soit verbales. Les ancrages nominaux matérialisent au sein du discours des classes méréologiques d'objets. On comprendra qu'une notion comme celle de projet n'a pas en soi de "sens"; elle trouve son sens seulement à partir des éléments (ingrédients) qui en précisent les limites (par ex.: "Le projet à l'étude consiste en la réfection de l'émissaire d'eaux usées de l'usine de pâtes et papier"). Les ancrages verbaux fournissent les éléments de la dynamique des objets: les propriétés et les relations (par ex.: "Le projet a pour objectif d'améliorer la production de sauvagine du marais"). Dans la perspective où la langue naturelle est à elle-même son propre métalangage, l'analyse de texte consiste à utiliser ce métalangage pour isoler, par leur configuration et leur récurrence, des noyaux conceptuels. Suite à une classification des contextes, ces noyaux sont transformés en concepts multi-facettes et hiérarchisés. Suite à un examen des séquences où apparaÎssent les concepts-clé, les concepts sont insérés des transitions d'états telles la modification, l'accroissement, l'intervention, etc. Ainsi, une analyse conforme aux principes de la logique naturelle s'intéresse aux entités nominales et aux entités verbales.

L'analyse des entités nominales d'un corpus de textes permet le dépistage des termes et leur structuration en concepts. L'effet de référence au réel dans un discours donné est tributaire de formes nominales qui consolident d'autres formes nominales en classes-objets. Ainsi, les marques référentielles proviennent des configurations d'énoncés et des transformations linéaires engendrant la dynamique textuelle. Ces marques sont identifiables linguistiquement à partir des stratégies discursives qui confèrent à certaines formes nominales une fonction de régie textuelle. Une fois que, parmi tous les substantifs, les concepts pertinents ont été retenus, les configurations nominales, appelés ingrédients, qui leur sont associés sont recherchées. Ainsi, par exemple pour le substantif "projet" on aura des configurations telles, l'assujettissement d'un projet, la pertinence d'un projet, etc. Les formes adjectivales présentes dans les contextes dépistés font apparaÎtre les quantifications et les échelles argumentatives qui positionnent virtuellement les autres valeurs qualitatives ou quantitatives possibles.

L'analyse des groupes verbaux permet le dépistage transitions d'état (opérations) définies sur les concepts. Les verbes jugés pertients au domaine servent à sélectionner des segments. Leurs flexions et leur contexte fournissent la modulation (actif, passif, nécessaire, facultatif, etc.), la localisation et la temporalité du processus en cours. La classification des segments est une opération qui consiste d'abord à examiner un large contexte des verbes jugés représentatifs, puis à délimiter le segment, selon un critère d'homogénéité, des bornes inférieure et supérieures sont assignées parfois arbitrairement et enfin à caractériser la structure du segment. Les énoncés peuvent être structurés en segments de textes significatifs de manière plus ou moins complexe (configurations à 1, 2, ... , n énoncés). Voici une liste partielle des connecteurs: conjonctions, concessions, restrictions, transitions, etc.

Au lieu d'une description arborescente de chacune des phrases qui s'avère lourde et difficile à valoriser l'analyse par la logique naturelle produit des inventaires, des classifications ou encore des partitions du texte. Cette approche à l'analyse de texte dans le cadre de la construction d'un hypertexte permettrait une indexation des itinéraires de lecture selon un classement méréologique s'approchant de la pensée naturelle. Ces itinéraires instancient en quelque sorte une forme de représentation socio-cognitive en offrant la dynamique díun espace topologique.

<idée de géométrie variable du processus de la séméiosis (Veron)>.

Le passage du texte à l'hypertexte, dans le cadre d'une analyse des schématisations, est constitué d'une suite d'opérations: la description morpho-syntaxique, l'extraction des termes pertinents, la classification des contextes dépistés, délimitation du segment, étiquetage des liens. Plutôt que de dessiner et développer un logiciel offrant un ensemble de fonctions permettant d'appliquer un modèle théorique donné, nous avons privilégié une approche interactive "atelier logiciel" où la dimension heuristique prime. Nous croyons fermement que non seulement la validation, mais aussi la gouverne (contrôle) des opérations doit être laissée aux lecteurs/auteurs chargés de la construction de l'hypertexte. Notre contribution consiste à développer des logiciels utiles pour analyser les textes, à assister les lecteurs/auteurs dans leur démarche avec nos outils. et à adapter ces applications à leurs besoins spécifiques dans la mesure du possible. Ces trois temps caractérisent une démarche de type recherche-action: les outils sont en évolution constante, la méthodologie est redéfinie par les nouveaux contextes d'application et enfin les buts de la recherches sont dictés en permanence par un besoin concret dans les organisations gouvernementales commenditaires.

ACTE

L'idée de développer un environnement computationnel intégré pour effectuer de l'analyse de textes par ordinateur est dans l'air depuis 1986 Le projet SACAO visait à définir un Système d'Analyse de Contenu Assisté par Ordinateur avec les contraintes suivantes: convivialité de l'interface, précision, régularité, transparence et validité des procédures. Il s'en est suivi une réflexion sur les fonctionnalités de base de l'analyse de textes par ordinateur et leur combinaison en des opérations complexes. Ces fonctionnalités qui sont en nombre limité : le tri, l'étiquettage, le filtrage, le stockage doivent cependant être effectuées très rapidement et sur de très très grandes masses de textes. Pour qu'un outil interactif soit intéressant, il faut une grande rapidité d'exécution entre les interactions, sinon perte d'intérêt. Pour que les indications soient repérables, l'analyse doit être menée sur un vaste échantillonnage représentatif de textes: le vocabulaire doit être stable <note sur la loi de Zipft>.

Les opérations complexes doivent être signifiées à l'aide d'un formalisme. Ce formalisme doit être associé à une structure de contrôle sur le déroulement de ces opérations. Nous avons retenu l'approche système expert et non pas un (autre) langage ad hoc, pourquoi? D'une part parce que les règles d'inférences en tant que moyen de modélisation tendent à se répandre de façon constante. Comme aucun apprentissage de langage de programmation n'est requis, il facilite le transfert de technologie qui doit s'effectuer à l'usager-final afin que celui-ci soit en mesure d'être son propre développeur. D'autre part, en autant que le moteur d'inférences offre des performances satisfaisantes, l'approche par les règles permet un développement modulaire et par tentative (trial and error). L'assemblage de règles d'inférences construites en pointant avec la souris dans les options d'un menu ou dans le dictionnaire de connaissance permet la construction graduelle d'analyseurs plus sophistiqués et plus spécifiques basés sur des stratégies de contrôle sensibles au contexte. Ces analyseurs pourront par la suite être incorporés en exécutable (run-time).

Le devis de ACTE, un acronyme pour Atelier Cognitif et Textuel, a été conçu en 1989, il a été accepté par un consortium de ministères du Gouvernement du Québec; il est entré en phase développement depuis février 1990. L'originalité de ACTE, en tant qu'approche computationnelle à l'analyse de texte, repose sur l'intégration de deux logiciels: SATO une base de donnée textuelle et un ensemble de fontionnalités pour l'analyse de textes et D_expert un générateur de systèmes à base de connaissances. le troisième élément est une série de bases de données lexicales. La principale comportent les catégories morphologiques, une autre des locutions, une autre encore une grille de catégories sociologiques, etc. L'interaction avec le systéme est standardisé: menus déroulants emboÎtés et souris, les messages et requêtes explicités on-line, etc. ACTE est aussi conçu comme un atelier ouvert. Ainsi, il pourra communiquer avec des serveurs d'information, intégrer l'information obtenue au traitement en cours d'une part et de l'autre accueillir des descriptions linguistiques complexes. Voici un schéma des modules décrits:

L'intégration des fonctionnalités permet l'extension de l'espace de recherche (base de faits) usuel au texte dans son plein format. La prémisse des règles d'inférences peuvent filtrer des configurations complexes d'énoncés. Les registre des actions est étendu à la manipulation des textes: la catégorisation, le filtrage, la comparaison de lexiques ou sous-textes. Les résultats de ces actions des valeurs numériques ou symboliques, des sous-lexiques, des segments de texte (concordance), peuvent devenir des faits. C'est ainsi que s'effectue une chaÎne interprétative (cf. supra, p.5). Plus profondément, le recours à la technique des systèmes experts change la façon dont les analyses sont menées. Dans le domaine des analyseurs syntaxiques (parseurs), l'utilisation de PROLOG, un moteur d'inférence avec variables dont le principe est l'unification, a rétro-agit sur la théorie du parsage voire la théorie syntaxique; on parle maintenant de grammaire d'unificationÎ. L'analyse n'est plus conçue comme un algorithme avec des stratégies de contrôle peut-être souples (sensibilité aux contexte), mais toujours déterministes, modulaire certes, mais monolithique; le contrôle est assuré par les faits dont la présence fait déclencher des règles d'inférences dont les actions consistent en des interventions textuelles ou l'ajout de faits qui, à leur tour feront déclencher d'autres règles.

SATO produit des lexiques et des concordances à partir d'une chaÎne comportant jusqu'à 5 patrons de fouilles complexes sur de larges corpus de textes <formuler un patron de fouille et donner le temps de réponses sur 4 megs de texte avec un 80386)>. Il est suffisamment performant pour permettre une interrogation interactive. SATO est surtout doté de fonctionnalités permettant non seulement l'annotation de mots ou de segments de textes, mais aussi l'annotation du dictionnaire des mots. L'inscription de propriétés (symboliques ou numériques) autant au lexique qu'au texte qui peuvent ensuite être questionnées, permet le dépassement du mot à mot du texte, des formes différentes d'un même mot. Les propriétés ont un type: numérique (divers types de fréquences ou pondérations) ou symbolique (étiquettage en langue naturelle) peut être structuré. Les propriétés couvrent les aspects paradigmatiques <expliciter le terme> et les aspects syntagmatiques <expliciter le terme>.des mots. L'usager peut très facilement projeter sur le texte ses propres systèmes de catégories issus dont les hypothèses quant à l'interprétation du texte sont préférablement explicites. Ainsi, les dénombrements pourront être effectués sur les catégories tout autant que sur les mots.

Cette façon de faire amène le lecteur à expliciter les éléments textuels susceptibles d'être porteurs de sens et à arrêter les critères à partir desquels ceux-ci seront retenus et comptabilisés. La neutralité de l'instrument, qui permet la coexistence de plusieurs niveaux d'analyse potentiellement contradictoires, favorise une démarche d'aller-retour entre la constitution de modèles sur les textes et leur validation empirique. Il faut voir en effet, qu'il n'y a pas dans ACTE de projection déterministe d'un modèle pré-construit sur le texte. Le savoir sémantique et procédural, qui sera inscrit dans le format de règles d'inférences appartient à l'usager. L'approche privilégiée par l'atelier est donc la mise à jour de l'organisation du texte par l'ajout de descriptions successives du texte en alternance avec l'exploration de résultats provisoires.

La référence au réel.est le fait des nominaux (cf. supra). Le dépistage et la structuration des concepts en vue d'une indexation hypertextuelle, passe donc par une catégorisation morphologique des mots du texte. SATO permet la projection de dictionnaires ou bases de données lexicales; dont celle des parties du discours {nom, pronom, adjectif, verbe, adverbe, préposition, conjonction, etc.}. Sur la base de configurations morphologiques, le dépistage des concepts et leurs relations sera exhaustif, objectif, reproductible parce qu'indépendant des problématiques définies dans les textes. Ces configurations sont formulées sous forme séquence de patron de fouille.filtrant la co-occurrence de catégories particulières (par ex: traitement de textes {[nom] de [nom]}). Lorsque les patrons de fouilles sont réalisés, SATO permet l'assigantion de valeur à des propriétés. Il en va ainsi pour le blocage des locutions: littéralement ajoute la valeur liéÎ à la propriété édition.

SATO permet de re-catégoriser un mot ou un segment de texte n'importe où dans le texte ou encore dans le dictionnaire des mots à partir d'un certain point et selon certaines conditions dont les seuil peuvent être exprimés sous forme de règle d'inférences:

Si <condition> et <condition> ... alors <action> ...

condition ::= test sur les faits / patron SATO

action ::= inférence / question / action SATO (fouille, catégorisation)

Le moteur d'inférence en chaÎnage avant offre une structure de contrôle qui permet le dépassement d'une lecture linéaire, du début à la fin du texte. Une hypothèse est d'abord formulée sous forme de patron de fouille; puis, de multiples analyses approfondies sont menées séquentiellement sur chacun des contextes proches. Chacune des analyse peut mener à une re-catégorisation et est susceptible d'aboutir dans la formulation d'un autre patron de fouille, etc.

La tâches finale du moteur d'inférences sera génération des codes nécessaires pour la conversion en hypertexte. Les principaux standards d'importation des fichiers textes déjà formattés seront appris, c'est-à-dire convertis en forme de règles d'inférences. Ultérieurement une révision pourra se faire par l'éditeur hypertextuel du système utilisé.

Conclusion

Dans les grands organismes, dont ceux de l'appareil gouvernemental, la production textuelle, faite de rapports, de directives, de projets, de correspondance, etc., connaÎt un volume grandissant qui rend de plus en plus difficile son exploitation. Ainsi, les "travailleurs du texte", (chercheurs, gestionnaires, décideurs, etc.) dont l'analyse de données textuelles (lecture díarchives et de documents, rédaction de rapports, etc.) constitue líactivité principale, sont débordés par une masse de documents qu'ils doivent analyser en fonction d'objectifs qui leur sont spécifiques : accumulation de faits, d'événements ou de connaissances, interprétation, élaboration de stratégies, prise de décision, etc.

Depuis plus de deux ans nous intervenons au sein de la structure administrative du Gouvernement du Québec en analyse-conseil en ingénierie cognitive. Dans tous les cas, le mandat de superviser la construction d'un système expert, qui constituait le point d'entrée de notre intervention, _ objet d'une entente contractuelle avec livraisons spécifiques _ a été élargie en une intervention cognitive en profondeur: analyse documentaire constitution d'une base de données textuelles, consolidation terminologique: blocage des multi-termes, constitution d'un dictionnaire de concept (index a posteriori), etc. Face à l'intérêt suscité par la démonstration de l'analyse de texte, la demande se fait forte pour des plateforme de livraison du corpus de textes alternatives aux bases de données. Au cours de la prochaÎne année, une ou plusieurs implantations hypertextuelles expérimentales seront faites sur des corpus tels: la politque administrative, les lois et règlements relatifs à la loi sur l'impôt, les avertissements agricoles, etc.

En dernière analyse, au même titre que les systèmes experts et les bases de données "plein texte" mais avec des modalités différentes que le systéme nous considérons l'hypertexte comme une plateforme d'accès à l'information qui répond à une gamme de besoin dans les organisations où les objets et concepts manipulés sont si complexes que leur documentation fait problème sur les supports séquentiels conventionnels comme le livre imprimé. Voici en terminant un schéma de l'ingénierie textuelle