L'informaticien, le lecteur et le texte L'approche SATO Par François Daoust, Centre d'analyse de textes par ordinateur, UQAM Dans cet article, nous tenterons de situer le texte comme objet informatisable. Cette intention se comprend de deux façons. D'abord nous parlerons de l'informatique, et des informaticiens, dans leur rapport au texte. Ensuite, et c'est là le plus important, nous examinerons le rapport entre le lecteur et le texte informatisé (1). L'informatique et le texte: rappel historique Très tôt, l'informatique a dû faire appel au texte. Les codes binaires, en effet, sont indigestes même pour l'informaticien. Voilà pourquoi la programmation a très rapidement fait appel à des systèmes symboliques, les langages de programmation. Et ces langages, tout artificiels fussent-ils, firent appel aux caractères, aux mots et à la syntaxe. Les caractères, bien entendu, "parlaient anglais" et n'avaient pas d'accent. Les mots appartenaient à un lexique pré-défini, par exemple des codes d'instruction, ou au lexique du programmeur, par exemple des noms de variables. La syntaxe se devait d'être non-ambigüe. Elle permettait de définir la micro-structure, l'énoncé, et la macro-structure, le programme. On a là en petit tous les ingrédients d'un texte. Les informaticiens ont aussi développé des analyseurs permettant de compiler le texte programme et de le traduire dans la langue des codes binaires de l'ordinateur. Certains langages de programmation ont d'ailleurs été développés spécifiquement pour manipuler l'information textuelle. Ce sont les langages de traitement de chaîne, par exemple SNOBOL et son successeur ICON, ou, de façon plus limitée, les programmes d'édition et de traitement de textes. La linguistique computationnelle s'est largement inspirée de ces traitements lorsqu'elle a défini les langues naturelles comme son objet d'étude. Les préoccupations de l'informatique pour le langage ne sont donc pas nouvelles. C'est cependant la question du texte qui a été davantage négligée. Comment? Ne s'agit-il donc pas là de la même question? Pas tout-à-fait, justement. La problématique du texte origine davantage des sciences humaines ou de ce que les anglophones appellent les "humanities". Les pionniers étaient des théologiens, des latinistes, des médiévistes, des littéraires qui réalisaient des concordances sur ordinateur central. Ces concordances étaient ensuites éditées et permettaient de retrouver tous les contextes d'apparition des formes lexicales triées. Ce sont les littéraires qui développèrent des techniques d'authentification des textes. Ce sont aussi des chercheurs en sciences humaines qui développèrent des méthodes d'analyse de contenu et d'analyse de discours. Ces recherches s'effectuaient sur ordinateur central, dans les universités et touchaient très peu la "grande informatique". Certes, les informaticiens manipulaient des caractères mais le texte comme objet informatisable n'avait pas encore véritablement émergé. Le projet SATO lancé au début de 1970 par Jean-Guy Meunier, professeur de philosophie à l'UQAM, est un de ceux qui a posé le plus clairement la question du rapport au texte informatisé. Le choix qui démarquait déjà SATO des concordanciers de la première génération s'appelait "interactivité". Il ne s'agissait donc plus seulement de produire des résultats mais de placer le lecteur, chercheur ou étudiant, devant son texte en lui fournissant des outils pour l'interroger. Une anecdote datant de cette époque et rapportée par Jean-Guy Meunier est significative de ce nouveau rapport au texte que permet l'outil informatique. C'est l'histoire de cette étudiante qui a fondu en larmes en voyant un texte littéraire avec lequel elle avait visiblement un rapport intime, et qu'un horrible et bruyant télétype manipulait comme du vulgaire papier journal. C'est comme si la mécanique venait profaner le rapport personnel, affectif même, du lecteur avec son livre. Il aura cependant fallu attendre la révolution de la micro-informatique pour que ce nouveau rapport aux textes puisse se manifester comme un phénomène d'envergure. Le traitement de texte, à lui seul, a permis de faire éclater une première frontière culturelle. Même les écrivains ont troqué aujourd'hui la plume pour l'ordinateur. L'outil informatique n'est plus l'ennemi du texte. Au contraire, il en devient l'allié. Et cet allié arrive à point, en particulier dans le milieu administratif. On y constate en effet que le texte est la réalité première de l'information, celle-là même que l'informatique est sensée traiter. Certes, les informaticiens savent très bien manipuler des chaînes de caractères. Ils sont habitués de les manipuler à l'intérieur des bases de données et des systèmes documentaires. Mais, ce qui est nouveau ici, c'est l'activité de l'utilisateur non-informaticien par rapport au texte. Cet utilisateur ne se contente pas de consulter un champ dans une base de données. Il veut lire son texte, il veut l'analyser, l'annoter, le comprendre. Ce nouveau rapport au texte définit le texte informatisé comme un tout autre objet en termes informatiques. Le lecteur et le texte informatisé Si, pour l'ordinateur, le texte se présente d'abord comme une suite de caractères, pour le lecteur, le texte est appréhendé d'abord comme une suite de mots, c'est-à-dire d'unités langagières. Bien sûr, le lecteur perçoit les mots écrits à travers un système de transcription alphabétique, de la même façon que le locuteur les perçoit à travers un système de phonèmes. Cependant, les caractères de même que les phonèmes agissent ici comme simple support matériel pour les unités langagières. Cette familiarité préalable du lecteur avec l'univers des mots (univers lexical) implique que le texte, du point de vue du lecteur, comporte dès le départ une double dimension. La première dimension est explicite. C'est l'axe "horizontal" ou syntagmatique qui voit le texte se dérouler comme une séquence linéaire correspondant à l'ordre conventionnel de la lecture. Le mot se perçoit dans un voisinage, un contexte où il participe à une intention de communication. Cet axe cependant n'est compréhensible, ne fait sens, que parce que les mots ainsi ordonnés participent à un autre système, un autre axe que nous appellerons "vertical" ou paradigmatique. Cet axe fonctionne dans l'univers de la langue d'usage au sens socio-linguistique, c'est-à-dire dans des systèmes langagiers et sémantiques partagés par les locuteurs, plus précisément ici le rédacteur du texte et la communauté des lecteurs. L'objectif premier réalisé par SATO est de rendre explicite cette double dimension du textue. Partant de la surface du texte, il s'agit de tranformer la "perception machine" du texte pour l'inscrire dans un modèle informatique qui corresponde davantage à la façon dont les humains appréhendent le texte. Le modèle opérationnel qui permet à l'ordinateur de manipuler un texte, c'est, nous l'avons vu, de le considérer comme une suite de caractères inscrits sur un fichier de données. Le modèle que nous voulons construire représente le texte comme une suite de mots correspondant à autant d'occurrences d'unités langagières. Si on en restait à ce niveau de généralité, on pourrait présumer qu'un tel modèle du texte suppose la connaissance préalable des unités langagières, ce qui est déjà un problème immense. Plus encore, la représentation du texte serait alors essentiellement multiple puisque les unités langagières participent à des ensembles sémantiques qui les définissent différemment. C'est le cas en particulier des termes complexes dont le degré de figement est très variable. Tantôt, ces termes pourront être perçus comme des séquences d'unités simples sur l'axe syntagmatique. Tantôt, ils seront vus sur l'axe paradigmatique comme autant d'unités complexes dépassant les règles normales de transcription des mots. Ainsi, par exemple, dans un texte technique sur les ordinateurs, l'expression "mémoire vive" agit à la manière d'un mot composé (unité complexe) désignant un objet unique que la langue anglaise traduit par l'acronyme RAM (Ramdom Access Memory). Dans un autre contexte de communication, par exemple un texte dressant un portrait psychologique, l'expression "mémoire vive" pourra être perçue comme un état de vivacité qualifiant la mémoire entendue ici dans le sens d'une fonctionnalité associée au cerveau: "Diable qu'il a la mémoire vive...". On aurait donc ici une séquence formée de deux unités simples, "mémoire" et "vive". En fait, si on ne veut pas quitter la structure de surface du texte, et si on ne veut pas partir du résultat de l'analyse avant même de l'avoir entamée, il faut s'en tenir à une définition stricte des unités langagières. Cette définition nous est donnée par les règles de transcription alphabétique associée à chaque langue. Elle nous est donnée aussi par les règles d'édition permettant d'inscrire des références de pagination, de mise en page, de titrage, etc. Elle nous est donnée finalement par des règles explicites d'annotation permettant, par exemple, de distinguer les locuteurs quand on rapporte un dialogue. Dans SATO, les unités langagières que permettent d'identifier ces règles se nomment formes lexicales, ou lexique du texte. Ce lexique du texte est à distinguer clairement des lexiques de domaine, ou glossaires, qui rassemblent le vocabulaire d'un domaine de spécialisation. Le lexique du texte dressé par SATO contient la liste des unités produites par l'application des règles de transcription alphabétiques ou éditiques données en paramètres. Pour un texte donné et pour un ensemble donné de règles de transcription, on obtient donc un lexique unique. Sur la base de ce lexique, on est en mesure de représenter le texte comme une suite de mots définis comme autant d'occurrences des unités lexicales. Dans SATO, l'axe syntagmatique représente les mots en contexte alors que l'axe paradigmatique ou lexical représente les mots hors contexte. Les règles de codification ne sont pas toujours suffisantes pour distinguer ce que le lecteur appréhende comme unité langagière. Outre la question des termes complexes qui relèvent de l'analyse, on retrouve des ambiguïtés dans l'utilisation de certains marqueurs. Par exemple, le trait d'union relie les termes d'un mot composé, ou marque une inversion syntaxique, ou introduit un nombre négatif, ou sert de marque de coupure de mot à la fin d'une ligne... En fait, plusieurs de ces ambiguïtés ne peuvent être levées que parce que le lecteur connaît la langue et ses unités lexicales. Il reste cependant que la transformation (appelons-là T1) réalisée en interprétant les règles de codification sur les mots permet d'aboutir à une représentation unique et bijective entre le texte comme "chaîne de caractères" et le texte comme "chaîne d'occurrences de formes lexicales". C'est donc dire qu'il est toujours possible d'appliquer la transformation inverse (appelons-là T1') pour retrouver le modèle "chaîne de caractères". Les avantages informatiques de la représentation lexicale Du point de vue informatique, le modèle de données réalisé par la tranformation T1 offre de très nombreux avantages. D'abord, ce modèle nous libère d'une partie importante du travail associé au traitement des caractères. Ainsi, pour un texte comportant disons dix millions de caractères, on se retrouve avec un lexique qui comprend peut-être cent mille caractères. A cette réduction de la quantité se rajoute aussi une réduction de la complexité. Le repérage des mots d'un texte imbriqués dans une structure éditique et de mise en page est une tâche qui exige beaucoup d'opérations. Comme le module SATOGEN, qui réalise la transformation T1, n'a besoin d'être appelé qu'une seule fois, toutes les opérations subséquentes sont libérées de ces fonctions de décodage. De plus le module SATOGEN a, au cours des années, été largement optimisé. Cette structure de données permet aussi de simplifier de façon importante un grand nombre d'opérations sur le texte. Si on recherche un mot, par exemple, il suffit de vérifier s'il existe dans le lexique. Bien sûr l'organisation du lexique a été prévue pour que cette vérification soit très rapide. Si le mot n'existe pas, il n'est pas nécessaire de parcourir le texte. De plus, comme dans la structure SATO on a pris soin de chaîner toutes les occurrences de chacune des formes lexicales, la consultation du mot en contexte devient extrêmement simple. Il suffit en effet de suivre la chaîne des occurrences pour passer du lexème au mot en contexte. Il faut comprendre en effet que SATO n'agit plus ici sur le texte linéaire original mais sur une transformation de ce texte destinée à en faciliter la manipulation informatique. Le modèle de données permet finalement une très grande économie dans la représentation des annotations. D'abord, une notation lexicale n'a pas à être répétée pour chaque occurrence. Ensuite, puisque chaque lexème et chaque mot a reçu de façon explicite et unique un numéro d'ordre, il est très facile de rajouter des couches d'annotation sans modifier le texte original. Ces considérations nous amènent à faire une remarque générale sur la question de l'efficacité en informatique. En effet, l'arrivée de la micro-informatique et son évolution accélérée a pu faire croire que les critères d'efficacité n'ont plus d'importance en raison de l'accélération de la circuiterie. Certes, l'augmentation de la puissance de traitement de ces petites machines a été phénoménale. Cependant le rythme de cette augmentation ne sera pas toujours le même. De plus, en ce qui concerne l'analyse de textes, cette augmentation de la puissance des ordinateurs a constamment été rattrapée par l'augmentation du volume à traiter. Et cette équation n'est pas à la veille de se modifier. Mais il y a plus encore. La notion de temps de traitement doit, en particulier pour la micro-informatique, s'évaluer en temps humain. Par exemple, le Macintosh ne serait pas ce qu'il est si les informaticiens d'Apple n'avaient pas réussi à rendre l'interface graphique suffisamment efficace pour qu'elle puisse, à l'échelle humaine, paraître instantanée. De la même façon, le rapport d'interactivité sur le texte exige des programmes efficaces. Or, il faut bien s'en rendre compte, l'informatique textuelle est une informatique lourde qui, pour être vraiment fonctionnelle, doit faire appel à toutes les "règles de l'art" de l'informatique dite traditionnelle. La clé du succès pour le développement de l'informatique textuelle repose donc sur une liaison étroite entre l'utilisateur qui emploie l'instrument, le chercheur en sciences humaines et l'informaticien de métier. Les avantages méthodologiques de la représentation lexicale Les avantages de cette transformation du texte par SATO sont-ils simplement informatiques? Certainement pas. Déjà, nous l'avons vu, le rapport au texte est modifié parce qu'il permet au lecteur d'effectuer des lectures thématiques de son texte, des lectures instantanées qui sont autant de coupes transversales dans le matériau textuel. En ce sens, SATO agit à la manière d'un hypertexte et permet de réaliser le caractère pluriel de l'acte de lecture. Mais il y a plus. Car, en rendant explicite l'axe paradigmatique, SATO fournit au lecteur un nouvel outil de distanciation. En effet, le lexique apparaît un peu comme un rayon X qui révèle de quoi le texte est fait. Sa nature matérielle, objective dépasse donc le papier (ou le fichier) sur lequel il est inscrit. En effet, au-delà de sa singularité, le texte s'inscrit comme une intervention discursive dans un champ sémantique dont la trace est clairement marquée par la "signature lexicale" du texte. Parce que l'instrument informatique facilite la distanciation, la lecture devient alors plus facilement analyse. Le clavier de l'ordinateur devient le tableau de bord permettant de cheminer dans le texte, de le décrire, de l'exploiter, tel un gisement dont on veut extirper le minerai. On saisit mieux dans ce contexte l'ergonomie de SATO basée sur l'idée de la boîte à outils. Si l'instrument veut permettre un nouveau rapport au texte, il ne doit pas obscurcir l'objet qu'il veut servir. Bien loin de se substituer à la lecture, qui est essentiellement acte de compréhension au sens étymologique du mot, SATO se veut un instrument pour décupler nos capacités de lecture. Voilà pourquoi SATO, dès le départ, a été conçu comme un programme interactif permettant de maintenir ce rapport intime avec le texte. La nature des outils d'analyse que fournit SATO et le soin apporté à la performance du système correspondent à cet objectif. Les outils qui sont actuellement disponibles dans SATO, et qu'il était prioritaire de développer, sont surtout orientés vers l'annotation du texte dans ses deux dimensions, lexicale et contextuelle. Voilà pourquoi une part importante du logiciel est consacrée au système des propriétés qui permet de supporter une variété d'annotations et de réaliser du repérage sur la base des caractères et des annotations. L'annotation elle-même se fait par intervention ponctuelle sur des objets affichés (lexèmes ou mots en contexte) ou par catégorisation automatique basée sur le dépistage de régularités sur les caractères ou sur les annotations. Dans le cas de la catégorisation en contexte, on peut exploiter non seulement les caractéristiques des mots pris individuellement mais aussi les régularités de voisinage. Dans le cas du lexique, on dispose de facilités pour constituer et consulter des dictionnaires lexicaux. On a aussi introduit la notion d'héritage permettant de projeter des annotations du lexique au contexte et du contexte au lexique. Sur la base de ces annotations on peut se définir des sous-textes et des sous-lexiques correspondant à des lectures spécifiques. Des analyseurs permettent de mettre en évidence les différences entre ces sous-textes. Ces outils, mis bout à bout, permettent de mettre en oeuvre des processus analytiques qui, une fois au point, peuvent constituer des macro-commandes qui décuplent la puissance de l'outil. Dans plusieurs applications, un des premiers niveaux de l'analyse consiste à opérer une consolidation terminologique. En effet, puisque la transformation réalisée par SATO ne permet pas toujours de rendre compte des unités langagières significatives, il peut être utile d'utiliser les facilités de marquage de SATO pour identifier des unités langagières dépassant la graphie conventionnelle. Il est clair que ce marquage appartient déjà au domaine de l'analyse et va dépendre des objectifs de cette analyse. Ainsi, va-t-on décider ou pas de faire appel à des glossaires pour bloquer en contexte des expressions complexes appartenant à des domaines de spécialités. De la même façon, on pourra décider de bloquer des marqueurs d'argumentation si on s'intéresse de façon particulière à la structure argumentative du texte. On pourra même décider de bloquer tout type de syntagme que l'on trouverait intéressant de faire basculer sur l'axe lexical. Cette opération de blocage s'effectue donc en deux étapes. D'abord on marque en contexte les expressions devant constituer un terme complexe. Ensuite on regénère le texte de façon à inscrire ces termes dans le lexique. Ainsi par exemple, l'expresion "mémoire vive", composée à l'origine de deux lèxemes distincts, sera reconnue comme un lexème unique, "mémoire_vive". Le caractère de soulignement à l'intérieur du nouveau lexème permet de garder une trace de l'opération de blocage. Aller plus loin Les outils d'analyse susceptibles de prendre appui sur le modèle de données fourni par SATO pourraient aller bien au delà de ce qui a été développé jusqu'à ce jour. Du côté lexical, le modèle de données offre la possibilité de brancher le texte au domaine des thésaurus et des dictionnaires de mots ou de concepts. La charnière permettant de réaliser ce branchement, c'est le mot fléchi ou forme lexicale tel que reconnu par SATO. On calcule qu'une langue comme le français fait appel à environ un demi-million de ces formes, si on exclut les expressions complexes qui sont des assemblages de ces formes. S'il fallait, pour chaque occurrence d'un lexème, consulter cette banque de formes, on ferait face à une tâche de calcul très lourde compte-tenu des outils informatiques dont nous disposons aujourd'hui. Par ailleurs, apparier le lexique d'un texte au lexique de la langue est une tâche beaucoup plus simple. En effet, le vocabulaire du texte tend à plafonner très rapidement. Par exemple, un texte administratif comprenant des centaines de pages ne va guère dépasser les dix ou douze mille formes lexicales. De plus, comme le texte s'inscrit dans un domaine sémantique identifiable, cet appariement, en plus de ne choisir que les formes utilisées, pourrait permettre de ne sélectionner, parmi les traits lexicaux associés à ces formes, que ceux qui ont le plus de pertinence. On pourrait également imaginer le processus inverse et concevoir que la fréquentation du lexique de la langue par le lexique des textes pourrait permettre d'en qualifier les domaines usuels d'application. La partie du dictionnaire de la langue associée à un texte donné est donc relativement restreinte et sa sélection à travers le lexique du texte est une tâche de calcul qui peut être réalisée facilement par un micro-ordinateur. Pour réaliser cette liaison, nous disposons dans SATO d'un mécanisme efficace permettant de lier des formes lexicales avec des valeurs de propriété, par exemple la catégorie lexicale, ou le lemme correspondant à l'entrée standardisée du dictionnaire de la langue, ou tout autre annotation que l'on jugerait bon de définir. Nous travaillons à rassembler ce bassin d'un demi-million de formes lexicales correspondant au français d'usage. Nous prévoyons déposer ce lexique dans le domaine public sous la forme d'un dictionnaire SATO. Cela implique cependant la collaboration de la communauté des usagers afin de valider cette liste et de la compléter à même le traitement de nouveaux corpus. Sur l'axe syntagmatique, on voit aussi l'intérêt de la structure de données de SATO pour confectionner des analyseurs textuels ou syntaxiques efficaces. Car, si ces analyseurs se concentrent particulièrement sur l'analyse de la séquence, ils s'appuient nécessairement sur les traits lexicaux. En retour, un des résultats de l'analyse sur la séquence est de choisir parmi les traits lexicaux ceux qui s'appliquent dans le contexte. Le mécanisme d'héritage des propriétés qui, dans SATO, permet de faire basculer un système de description du lexique au texte ou du texte au lexique serait donc un dispositif très utile pour faciliter le travail de l'analyseur et pour en tirer profit. Il faudra sans doute examiner plus à fond le rapport à établir entre les mécanismes de rétention de l'information et le savoir procédural. Il n'est peut-être pas toujours nécessaire, utile ou même possible de déployer a-priori tous les arbres syntagmatiques que l'on pourrait imaginer. Il est peut-être encore moins nécessaire d'en conserver la trace en permanence. L'analyse et le raisonnement est un processus qui se déploie en fonction d'un but. Ce que l'on est intéressé à conserver, c'est surtout les conclusions et le mécanisme. Un analyseur qui utiliserait la structure SATO pourrait donc développer une stratégie consistant à effectuer un pré-traitement, plus lourd en termes de calcul, et qui permettrait de déposer sur les mots un certain nombre de traits qui pourraient par la suite guider un déploiement simplifié ou spécifique de l'analyseur. Cela nous amène naturellement à un dernier ordre de considérations. La nature de SATO comme outil d'accès au texte en fait un instrument privilégié de modélisation. A défaut de théories unifiées et de modèles formels, l'analyse de texte se traduit le plus souvent par des heuristiques permettant de modéliser des fonctionnements localisés du discours. Voilà pourquoi nous avons proposé de doter SATO d'un moteur d'inférences permettant de réaliser des systèmes à base de connaissance pour exploiter le matériau textuel. Il s'agit en somme de faire appel au mécanisme des systèmes experts pour tenter de modéliser des lectures. La technique des systèmes experts semble en effet très appropriée pour manipuler des savoirs heuristiques. De plus, c'est un mécanisme assez simple que l'on peut réaliser de façon économique et donc sans remettre en question le rapport interactif au texte qui est à la base de SATO. Finalement, il s'agit là d'un outil de modélisation dont l'utilisation se répand et qui ne fait pas appel à des habiletés particulières de programmation. Nous allons donc intégrer dans SATO un moteur d'inférences réalisant les fonctionnalités du D_expert développé par Louis-Claude Paquin du Centre d'ATO de l'UQAM. Ce nouveau système sera appelé ACTe pour atelier cognitif et textuel (2). Ce projet reçoit l'appui financier d'un consortium de ministères coordonné par le Ministère des Communications du Québec. Il faudra sans doute expérimenter ce nouvel environnement pendant quelques années pour en mesurer la portée et les limites. L'atout premier de ce projet reste par ailleurs sa très grande applicabilité. Le bassin des utilisateurs susceptibles de recourir au système ACTe et de le faire évoluer est considérable. Avec ACTe, nous allons disposer d'un véritable laboratoire qui va nous permettre de concevoir de nouveaux modèles de traitement textuel. Guidé par des objectifs d'efficacité, le système va permettre de tester ces modèles dans de véritables environnements de travail, d'enseignement et de recherche. Le projet ACTe risque donc d'élargir et d'approfondir ce nouveau rapport au texte rendu possible par l'outil informatique. Notes (1) Le lecteur notera la nature plutôt "philosophique" du présent article. Il s'agit d'un choix délibéré puisque l'on retrouve ailleurs dans ce numéro un article sur l'utilisation concrète du logiciel SATO (voir Analyse de textes et acquisition des connaissances: aspects méthodologiques). Le lecteur qui n'a aucune connaissance de SATO aurait donc avantage à lire d'abord l'article de nos collègues. (2) Pour une explicitation du projet ACTE, on pourra se référer à l'article suivant: ACTE: Workbench for Knowledge Engineering and Textual Data Analysis in the Social Sciences, François Daoust, Luc Dupuy et Louis-Claude Paquin, Proceedings of the Fourth International Conference on Symbolic and Logical Computing, Dakota State University, 1989. Note biographique François Daoust est analyste de l'informatique et chercheur au Centre d'analyse de textes par ordinateur (ATO) de l'Université du Québec à Montréal (UQAM) où il coordonne l'équipe d'ingénierie textuelle et cognitive (ITC). Détenteur d'une maîtrise en sciences (département de mathématiques et d'informatique de l'UQAM), il est impliqué depuis 1974 dans le domaine de l'ATO, en particulier dans le projet SATO (Système d'analyse de textes par ordinateur). Il agit actuellement comme chef de projet pour la réalisation de l'Atelier cognitif et textuel (ACTe). |