Retour à l'accueil Remonter

L'EVOLUTION DE LA GESTION DE L'INFORMATION DOCUMENTAIRE SOUS

L'IMPULSION DES NOUVELLES TECHNOLOGIES

Par

Suzanne Bertrand-Gastaldy

"La documentation électronique est le point culminant, grâce aux nouvelles

technologies, de la gestion de l'information." (Lubkov, 1989, p.28)

INTRODUCTION

L'information est désormais perçue comme une ressource indispensable dans tous les secteurs de l'activité humaine, politiques, économiques, administratifs et culturels. Sa gestion (création, collecte, stockage, traitement et diffusion) connaÎt depuis quelques années une véritable révolution, sous la pression des nouvelles technologies. De plus en plus de documents scientifiques et techniques sont numérisés et deviennent, par conséquent, exploitables par ordinateur. Les méthodes de traitement et de représentation des textes s'en trouvent bouleversées: la langue, véhicule prioritaire de la communication, est au centre des préoccupations des spécialistes des sciences de l'information. Entre les industries de l'information et les industries de la langue, se tissent de nombreux liens .

Après avoir rapidement passé en revue les facteurs de changement, nous examinerons les fonctions qui, au sein d'un système d'information documentaire, sont les plus concernées par les recherches en informatique linguistique et en intelligence artificielle: l'indexation, l'interrogation en langue naturelle, la génération de réponses synthétiques et la représentation des connaissances. Nous fournirons des exemples de systèmes déjà commercialisés ou encore au stade de prototypes.

1. FACTEURS RAPPROCHANT LA DOCUMENTATION DES INDUSTRIES DE LA LANGUE

Bien que la majorité de l'information soit encore sur papier (93% contre 5% sur microformes et 2% sous forme de fichiers informatiques, d'après Lubkov, 1989, p.34), la situation évolue rapidement.

Les techniques de saisie par lecture optique permettent de digitaliser les données qui figurent sur papier et microformes, la bureautique et l'édition électronique multiplient les documents lisibles par ordinateur. Les logiciels de saisie fournissent des représentations plus fidèles, moins appauvrissantes. Les supports optiques et magnétiques sont plus compacts que le papier et se consultent plus rapidement. La téléinformatique (interrogation des banques de données à distance, courrier électronique, vidéotex)rend les informations disponibles sans interruption et sans déplacement.

De nouvelles techniques de programmation voient le jour qui transforment le rapport au texte (hypertexte) et aux autres médias (hypermédia) grâce à des liens qui permettent de se déplacer de façon non linéaire à travers la documentation.

Le traitement de l'information repose sur de nouvelles théories et l'on parle désormais de

machines parallèles et de systèmes neuronaux.

Tous ces facteurs font que la documentation électronique prolifère et que la nature de son contenu ne cesse de se diversifier.

Les bases de données bibliographiques produites par les services secondaires, les archives, les bibliothèques et les centres de documentation continuent de se multiplier et de se spécialiser pour tenter de répondre aux nouveaux domaines d'activités et de recherche. Mais leur croissance est désormais moindre que celle des bases de données en plein texte. Celles-ci contiennent toutes sortes de documents: administratifs (politiques, procédures, directives, mémos, correspondance, procès-verbaux), juridiques (lois, règlements, jurisprudence, causes en appel), techniques (entretien du matériel); lexicologiques, terminologiques et encyclopédiques; oeuvres littéraires; articles de périodiques; articles de journaux; bulletins de nouvelles; dépêches de presse; rapports de recherche, etc. Cette documentation inclut non seulement du texte, mais aussi des graphiques, des images, des tables numériques, et même des sons.

Dans les entreprises, les administrations et même le secteur culturel, de nouvelles techniques de gestion intégrée de ces informations diverses se développent, motivées par la recherche de la productivité et de la rentabilité. Pour contrer la concurrence, des méthodes de veille technologique sont élaborées qui font un large usage des banques de données pour la surveillance de l'information scientifique, économique et technique. Mais tout délai dans l'accession aux données pertinentes est pénalisant. Aussi est-il important que des procédures fiables de traitement, de repérage et de synthèse automatiques soient mises au point. L'information stratégique, celle qui sert de support à la décision, n'est en effet rien d'autre que la réorganisation de données existantes en fonction d'un objectif particulier.

Grâce au télédéchargement et à la récupération du contenu des CD-ROM avec un logiciel de traitement de texte, il est relativement facile de se constituer, à partir de son clavier, des banques de données taillées sur mesure dont on souhaite également personnaliser l'exploitation, selon ses propres besoins. Ainsi foisonnent de nouvelles clientèles, de tous âges et de toute formation. Moins tolérantes aux frustrations que les traditionnels utilisateurs de produits bibliographiques, moins motivées à apprendre les procédures et les langages complexes pour accéder à l'information, elles réclament une communication en langage quasi-naturel avec l'ordinateur. Ce sont elles qui vont bénéficier le plus des recherches multidisciplinaires sur le traitement automatique des langues naturelles et le dialogue personne-machine.

2. EN QUOI CONSISTE LA GESTION DE L'INFORMATION DOCUMENTAIRE

Traditionnellement, un système d'information documentaire a pour mission d' organiser les documents et l'information qu'ils contiennent en vue d'en faciliter l'utilisation.

Les banques de données constituées à partir des références bibliographiques et de la représentation formalisée du contenu ne fournissent à l'utilisateur que des indications sommaires sur le ou les sujets traités dans chaque document. Il lui incombe de localiser et de consulter les articles de périodiques., les rapports, mémoires et thèses, etc. identifiés lors de sa recherche.

Depuis quelques années, grâce aux facteurs que nous avons énumérés précédemment, il est de plus en plus fréquent que le texte intégral soit enregistré dans la base de données et par conséquent directement accessible. Lorsque les textes ont été formatés au préalable en titres, sous-titres, paragraphes, phrases, il devient possible de consulter sur écran les seuls passages du texte qui répondent à la question. Avec certains logiciels, on peut même regrouper tous les extraits jugés pertinents pour constituer un nouveau texte que l'on nomme à sa guise, jouissant ainsi de fonctions semblables à celles d'hypertexte. Cette facilité est encore trop rare, particulièrement lorsqu'on interroge les bases de données accessibles auprès des grands serveurs comme DIALOG ou BRS.

Bien des utilisateurs, cependant, voudraient que leur soit épargnée jusqu'à la consultation des documents ou des passages de documents. Seule la réponse brève, synthétique, pertinente les intéresse. Il faut donc que la base de données textuelles soit dotée de mécanismes de traitement de la langue naturelle presque équivalents à la puissance de compréhension et de production d'énoncés possédée par l'être humain, avec toutes les connaissances linguistiques et extra-linguistiques que cela suppose.

Comme les matériels et les supports sont de plus en plus répandus, les utilisateurs finals supportent difficilement de dépendre d'un intermédiaire pour interroger une BdD ou s'en constituer une. L'hermétisme des langages de commande, des langages d'indexation et d'interrogation les rebute et risque de les éloigner des sources d'information.

Les opérations traditionnellement effectuées par des êtres humains (utilisateurs et intermédiaires: bibliothécaires, documentalistes, archivistes, gestionnaires de documents, etc.) deviennent assistées par ordinateur ou sont remplacées par des méthodes entièrement automatiques. Les fontions qui consistent en une simple manipulation de données textuelles, sans interprétation, ont été les premières à bénéficier de la mise au point de logiciels (Carmel et Vidalenc, 1989), objet de ce qu'il est convenu d'appeler l'informatique documentaire. Nous les passons rapidement en revue.

Pour la constitution de la banque de données, une première série d'activités consiste à choisir et à colliger les documents. La disponibilité des répertoires bibliographiques et des bases de données sur CD-ROM facilite la tâche de repérage et d'extraction des références (Silver Platter Search and Retrieval Software). Le télédéchargement depuis des serveurs joue le même rôle. Des logiciels aident au branchement à un serveur, au télédéchargement et au formatage des données récupérées (DialogLink, ProSearch). Dans les bibliothèques, centres de documentation et services d'archives, le courrier électronique accélère les communications avec les fournisseurs et des logiciels (Bib-Base Acq) ou modules d'acquisition permettent la gestion des commandes, le paiement des factures, le suivi budgétaire, etc.

Une fois le document acquis, il faut le décrire et l'analyser (cela va de la classification à la condensation sous forme de résumé en passant par l'indexation avec différents types de langages documentaires). Là encore, la téléinformatique accélère considérablement les opérations. Les bibliothèques membres de grands réseaux de catalogage (OCLC, UTLAS, RENARD) se partagent la responsabilité du catalogage. Les autres peuvent opter pour la récupération par télédéchargement ou extraction par traitement de texte ou effectuer seules leur catalogage avec des logiciels appropriés (Bib-Base Cat et Bib-Base Marc, UTLAS M/10).

Certaines agences prennent la responsabilité du développement et de la gestion des langages documentaires qu'elles diffusent sur support électronique: par exemple, la Library of Congress Subject Heading List et la liste des vedettes-matière de l'Université Laval adaptée dans le " thésaurus " français RAMEAU ou plusieurs thésaurus, comme celui d l'OCDE, ou celui d' INSPEC. Les services documentaires qui ont besoin de langages mieux adaptés à leur clientèle peuvent récupérer tout ou partie de ces langages et les faire évoluer à leur gré, grâce à des logiciels spécialisés (Astute, Palmer Thesaurus, THESAUPLUS) ou modules de logiciels de gestion de bases de données bibliographiques (Alexis, Basis, Minisis). Les fonctionnalités de plusieurs d'entre eux ont été passées en revue dans Rohou (1987). La possibilité de gérer plusieurs langages en même temps ou un même langage en plusieurs langues naturelles est souvent nécessaire, surtout au Canada et en Europe.

Le stockage des données issues des opérations précédentes, l'organisation des fichiers et leur exploitation pour l'édition et l'interrogation en direct s'effectuent grâce à des logiciels qui sont de plus en plus nombreux à tourner sur micro-ordinateurs: logiciels de bases de données relationnelles (4ème Dimension, Oracle), logiciels de bases de données bibliographiques (Edibase, CDS/ISIS) ou logiciels de bases de données textuelles (Finder, Folio Views, Fulltext, Marcon Plus, Textract, ZyIndex).

Un module permet une interrogation dans les différents fichiers. Il s'agit du fichier bibliographique et éventuellement du fichier textuel, ainsi que des divers index constitués par inversion des éléments descriptifs (auteur, maisons d'édition, dates, etc.), analytiques (indices de classification, descripteurs ou vedettes-matière) et textuels (mots extraits de titres, des résumés et des textes intégraux). Dans certains systèmes, on peut aussi consulter les listes d'autorité. Des logiciels peuvent également aider à passer d'un serveur à un autre (EasyNet) et à modifier la stratégie de recherche pour l'adapter aux différentes bases de données (...).

Un logiciel (Circulation Plus) ou un module permet de réserver un document temporairement sorti, de prêter un document, d'émettre des lettres de rappel en cas de retard, dans les catalogues automatisés, et l'on peut commander un document (BookPath) que l'on aura préalablement localisé dans une autre institution (REFCATTSII d'UTLAS, DOBIS de la Bibliothèque nationale du Canada) grâce au catalogue collectif automatisé, ou effectuer ces deux opérations avec le même logiciel (OCLC Interlibrary-Loan Subsystem, UTLAS ILL).

Ce sont là des fonctions classiques que l'on trouve intégrées dans la plupart des systèmes automatisés, avec des variantes, selon qu'ils sont destinés plutôt:

1) à des bibliothèques ou centres de documentation qui ont à gérer une collection documentaire, des abonnements (Serial Control System) et une circulation de périodiques au sein de l'entreprise (Multilis, BestSeller-bibliothèque, GLIS de Geac, Dobis, Notis);

2) à des services de gestion de documents administratifs qui doivent tenir compte de certaines particularités comme le calendrier de conservation (Ad-hoc, MicroBestSeller corporatif);

3) à la gestion de très nombreuses bases de données rassemblées par des serveurs et rendues accessibles à distance (BRS, Stairs, Dialog, Questel);

4) à des banques de données bibliographiques locales qui signalent les documents ou les donnent sous forme intégrale;

5) ou bien à des chercheurs soucieux d'établir une bibliographie dans le respect des normes, sans avoir eux-mêmes à se préoccuper des détails de la présentation (ProCite; EndNote).

On constate une tendance au rapprochement entre tous ces logiciels: parfois partis d'un besoin spécifique, ils intègrent petit à petit les autres fonctions, de telle sorte que l'utilisateur puisse effectuer toutes les opérations nécessaires à la réalisation de son projet sans avoir à passer d'un logiciel à l'autre. Seuls peut-être, les logiciels d'édition d'index (de livres, de périodiques, d'encyclopédies sur papier demeurent très spécialisés et relativement isolés (Cindex, IndexAid 2, Macrex).

Plusieurs fonctions sont encore largement remplies par l'être humain: surtout l'indexation du contenu des documents textuels non disponibles sur support électronique et des documents visuels ou sonores. Cependant, de plus en plus de travaux de recherche aboutissent à la mise au point de techniques qui prennent en charge totalement ou partiellement l'analyse des textes, la constitution de lexiques et de thésaurus, le choix de la banque de données, l'expression du besoin, la soumission de la question en langue quasi-naturelle, la formulation de la stratégie de recherche et son adaptation à d'autres banques, ainsi que l'évaluation de la pertinence probable des documents repérés. Ce qui est encore plus nouveau, c'est le développement de logiciels capables de comprendre et même de générer des énoncés longs et complexes en langue naturelle, en plusieurs langues naturelles d'ailleurs. Nous allons maintenant examiner les réalisations dans ces domaines, en partant des premiers travaux en analyse humaine.

3 L'EVOLUTION DES METHODES DE TRAITEMENT ET DE GENERATION DU LANGAGE NATUREL

3.1 Indexation des documents

L'indexation a pour but de réduire, organiser et rassembler l'information en vue du repérage rapide d'un document, d'un groupe de documents, de passages de textes, en réponse à une question portant sur le contenu souhaité de ces derniers. Elle consiste à assigner ou à extraire du document un élément censé représenter ce dont il traite, son thème. Parallèlement, le contenu de la question est indexé lui aussi. Il y a ensuite comparaison entre les deux, au moyen de fichiers inverses où figurent, selon l'ordre alphabétique, les termes augmentés, au minimum de leur localisation dans le document, et, de plus en plus souvent, de leur position à l'intérieur du document (paragraphe, phrase, rang dans la phrase). Ce qui est récupéré est soumis à l'utilisateur qui le parcourt et décide si cela répond à son besoin.

La fonction de l'index est donc de diriger vers la source d'information.

3.1.1 Indexation humaine

Les représentations issues d'une analyse humaine sont multiples, selon les langages documentaires employés pour exprimer les notions retenues. Bien que ces langages aient évolué en fonction des supports, ils subsistent tous dans les fichiers informatisés.

En gros, on trouve:

- des langages classificatoires hiérarchiques et énumératifs de type alphanumérique ou numérique comme la classification de la Bibliothèque du Congrès, le système de classification décimale Dewey , ou tout autre système ad hoc de classement.

- des listes de vedettes-matière qui expriment, a priori, plusieurs notions dans un ordre prédéterminé, au moyen d'une syntaxe artificielle fixe très rudimentaire et non constante. Conçues à l'origine pour la recherche manuelle sans l'emploi de la logique booléenne, elles sont tant bien que mal exploitées dans les catalogues automatisés. Leurs nombreux défauts les rendent inaptes à une représentation fidèle, précise et cohérente du contenu.

- des systèmes à mots clés libres ou contrôlés par un thésaurus, dépourvus de toute syntaxe au moment de l'analyse. Une reconstitution de liens syntaxiques est possible lors du repérage, mais avec beaucoup d'imprécision, puisqu'on ne dispose alors que des opérateurs booléens ET, OU, SAUF et des opérateurs de proximité. Cela entraÎne le repérage de documents non pertinents ("bruit" documentaire). Lorsque le vocabulaire est libre, l'utilisateur porte la charge d'imaginer tous les synonymes, toutes les variantes orthographiques, tous les cas de polysémie et d'homographie. Lorsqu'il est contrôlé, il faut alors impérativement consulter la liste structurée des termes autorisés, à moins que l'ordinateur ne s'en charge.

- des systèmes analytico-synthétiques qui permettent de combiner une liste de termes contrôlés au moyen d'opérateurs syntaxiques en nombre limité: REMEDE en médecine, PRECIS (Preserved Contex Index System) qui peut s'adapter à tout domaine. Ce dernier s'appuie sur une analyse syntaxico-sémantique inspirée de la grammaire des cas de Fillmore. Effectuée par l'indexeur, elle est ensuite prise en charge par l'ordinateur pour la formulation des syntagmes nominaux et l'édition de l'index. Grâce à un thésaurus en ligne, des renvois sont insérés dans l'index. Utilisé dès le début des années '70 à la British National Library, puis par plusieurs autres bibliothèques ou centres de documentation, ce système a souffert de la non-commercialisation du logiciel, pendant près de vingt ans. Une firme québécoise vient de concevoir PC-PRECIS pour l'Office National du Film. D'autres systèmes d'indexation reposent sur des principes semblables: SYNTOL, VERCINGETORIX, POPSI, CIFT, PTOSYS, POPSI,PASI, mais certains d'entre eux n'ont jamais été exploités de façon opérationnelle. Ce sont les langages qui se rapprochent le plus du langage naturel, car ils tiennent compte à la fois de la composante syntaxique et de la composante sémantique tout en préservant la capacité de générer de nouveaux énoncés. Mais ils nécessitent un certain effort de la part des indexeurs, car les processus d'analyse ne sont pas automatisés quoiqu'assistés par ordinateur.

Subjectivité, manque de cohérence, temps et coPt sont les principaux problèmes associés à l'indexation humaine. D'autre part, la substitution du texte de départ par un énoncé extrêmement réduit et souvent imprécis, produit en tenant compte de facteurs pragmatiques (comme les besoins présumés d'une clientèle mal connue, avec des intérêts changeants) explique l'insuffisance des taux de rappel et de précision lors du repérage.

3.1.2 L'extraction automatique des unités linguistiques du texte et des questions

C'est pourquoi, dès qu'on a commencé à disposer de données textuelles lisibles par machine, à la fin des années 1950, on a cherché à automatiser le processus d'indexation dans les bases de données bibliographiques.

Les méthodes auxquelles on a alors eu recours sont encore très largement répandues aujourd'hui. Il s'agit des fichiers inverses et aussi des index permutés de type KWIC ("keyword in Context) et KWOC (Keyword out of Context) sur les titres qu'on a tenté d'améliorer par des interventions humaines pour pallier les problèmes dus au seul traitement alors possible: les chaÎnes de caractères. Mais le pré-codage des expressions composées, la différenciation de certaines catégories de termes, comme les noms propres, l'introduction de renvois entre différentes graphies, tout cela allait à l'encontre des économies visées.

On a également exploité très tôt les éléments du contexte qui peuvent, plus ou moins directement, conduire au contenu des documents: par exemple, les références bibliographiques pour constituer automatiquement des index de citations. Les produits de l'ISI (Institute for Scientific Information) sont célébres: Social Science Citation Index, Science Citation Index, pour ne citer que les plus connus. Ils sont consultables sur papier, en ligne et depuis peu sur CD-ROM, avec hypertexte.

La plupart des logiciels actuels de repérage en texte intégral, apparus d'abord pour traiter les textes juridiques au début des années soixante, fonctionnent selon le principe de l'extraction et du classement alphabétique des chaÎnes de caractères, avec indication de leur position dans le texte et élimination des mots vides au moyen d'un anti-dictionnaire. Rapides, peu coPteux, ils provoquent à la fois bruit et silence au repérage et sont exigeants pour l'utilisateur, à un point tel d'ailleurs que celui-ci peut les rejeter (c'est ce qui est arrivé à DATUM au Québec). Depuis, on a développé des fonctions de repérage qui permettent de recréer des simulacres de liens syntaxiques auxquels on a fait allusion plus haut et de regroupements sémantiques (troncature, masque). Plusieurs évaluations sur l'efficacité comparée de l'indexation humaine et de l'indexation automatique des textes intégraux sont effectuées depuis quelques années et, bien qu' aboutissant parfois à des résultats contradictoires, elles n'en révèlent pas moins l'insuffisance d'un traitement aussi rudimentaire des textes. Cependant, la facilité de mise en oeuvre et l'attrait d'un accès direct au texte sans apprentissage d'un langage documentaire, sans opération préalable d'analyse, expliquent leur popularité.

Pour améliorer l'indexation et le repérage automatiques, on recourt à plusieurs types d'approches: pondération des termes selon divers indices statistiques, prise en compte de facteurs linguistiques et sémantiques et combinaison des deux approches.

3.1.3 Les méthodes statistiques ou linguistico-statistiques

Les études statistiques ont connu et continuent de connaÎtre un grand succès, surtout chez les chercheurs américains. Amorcées par H. P. Luhn à la fin des années cinquante, elles reposaient, au début, sur la simple fréquence d'occurrence des mots dans les documents à indexer. Seuls les termes moyennement fréquents étaient retenus.

Depuis, on a tenu compte d'autres propriétés statistiques, comme la fréquence dans l'ensemble du corpus, la fréquence relative et la régularité de la répartition, pour pondérer les termes en fonction de leur capacité à discriminer les documents. On y ajoute des traitements morphologiques qui permettent de travailler sur des radicaux, des regroupements en syntagmes pour les termes les plus fréquents et des regroupements sémantiques au moyen d'un thésaurus pour les termes les moins fréquents (les recherches de Salton et son système SMART, conçu dans les années 70 sont célèbres).

En réalité, les méthodes statistiques sans traitement linguistique évolué sont très peu performantes aussi bien pour l'indexation que pour le repérage, car il s'agit de trouver la meilleure représentation du texte, selon une démarche analogue à celle qu'accomplirait un bon indexeur. Nous sommes face à un problème de choix des éléments représentatifs du contenu, du choix des unités de sens et pas seulement des formes de surface (les phénomèmes d'anaphore, entre autres, doivent être pris en compte). Certaines parties de la phrase (le thème ou le rhème), du paragraphe, du document tout entier sont-elles plus riches que d'autres en termes signifiants? Il y a là des processus cognitifs complexes de structuration et de compréhension des textes à découvrir.

Lorsqu'on dispose d'un corpus de textes en langue naturelle déjà indexés par une équipe d'indexeurs, on peut, au bout d'un certain temps, réduire les coPts en créant un programme qui exploite les décisions antérieures des experts. C'est, par exemple, la méthode utilisée par AIR (Automatic Indexing and Retrieval System) mise au point par G. Lustig. On calcule le taux d'association des descripteurs du thésaurus avec les mots contenus dans les textes de la base de données auxquels ces descripteurs ont été assignés. L'indexation automatique des nouveaux documents suit les patrons de co-occurrences mis en évidence par l'analyse statistique (Keitz, 1986).

De la même façon, un système expert testé sur plus de 26 000 documents de Energy Data Base, veille au contrôle de la qualité de l'analyse, notamment de la cohérence, en corrigeant les erreurs de catégorisation. La base de connaissances est constituée à partir des liens entre les descripteurs du thésaurus et les indices de classification résultatn de l'utilisation simultaée de ces deux langages documentaires par les indexeurs (Todeschini et Farrell, 1989).

3.1.4 Les méthodes linguistiques sans consultation de thésaurus établi a priori

Pour pallier le caractère trop approximatif des méthodes statistiques, même augmentées d'éléments linguistiques, on applique des connaissances syntaxiques, même partielles, qui s'ajoutent à des analyses morpho-statistiques ou morpho-lexicales. L'objectif consiste à détecter les syntagmes nominaux. C'est l'approche adoptée par le groupe SYDO de Lyon et le CRISS de Grenoble, par DIALECT de Bassano et par SPIRIT (commercialisé depuis 1980 par SYSTEX) qui résoud aussi les synonymies et certaines homographies. On tente alors de résoudre les problèmes à un niveau purement formel,

sans recours à une base de connaissances, sous prétexte que celle-ci est longue et difficile à constituer et nuit à la transportabilité du système, puisqu'elle est spécifique à un domaine (Membrado, 1989).

Pour la langue anglaise, on pense, entre autres, à MORPHS de Bells et Jones, à FASIT de Dillon également.

3.1.5 Les méthodes automatisées avec consultation de thésaurus

Aux habituelles méthodes linguistiques qui extraient des listes d'expressions présentes dans un corpus, on peut adjoindre une dimension sémantique pour traiter les concepts, par la consultation de dictionnaires ou de thésaurus dont le nombre est élevé dans à peu près tous les domaines de la connaissance, mais surtout en sciences (Bertrand-Gastaldy et Davidson, 1986).

Cette consultation peut résulter en l'ajout de synonymes ou de variantes autour d'une racine, en décomposition des termes composés (nombreux en allemand): c'est ce que fait PASSAT de la compagnie SIEMENS AG, à Munich (Keitz, 1986). La gestion du thésaurus nécessite une intervention humaine.

Membrado (1989) rapporte des travaux menés autour de l'application de listes hiérarchiques de concepts médicaux: SNOP (Systematized Nomenclature of Pathology) et SNOMED (extension de la précédente à la médecine clinique) "privilégiant l'aspect sémantique et morphosémantique des énoncés" et limitant l'analyse syntaxique. Le texte est segmenté selon le groupe nominal correspondant à l'entrée la plus longue dans le SNOP-SNOMED. Il s'agit, dans certaines applications, de faire coincider deux ensembles non ordonnés de mots, et aussi de reconnaÎtre automatiquement des concepts en détectant des paraphrases et des ellipses. .Par contre, l'analyse se limite à la phrase et ne prend pas en compte la dimension textuelle, pas plus que la plupart des systèmes, d'ailleurs. Cependant des travaux sur l'anaphore (Liddy, Vidalenc), le thème principal et les thèmes secondaires (Grau, Hiérarchie????) commencent à prendre en compte la sémantique du texte.

3.1.6 Les méthodes automatisées avec consultation de thésaurus a priori et application de règles

La première tentative pour modéliser les décisions d'un indexeur a été tentée par le Central Abstracting & Indexing Service de l'American Petroleum Institute, en 1982. La base de connaissances est constituée du Thesaurus API et de règles qui établissent une correspondance entre les mots des résumés et les descripteurs. Elles tiennent compte du contexte (cooccurences d'autres mots ou de l'indice de classification attribuée au document), des concepts implicites et recourent aux liens et aux rôles pour l'indexation des concepts chimiques.

Un autre système, celui de BIOSIS, est conçu pour assister l'indexation à partir des titres. Après traduction de ceux-ci en représentation sémantique à base de primitives classées en catégories et de "frames", il les convertit en termes acceptés par le langage documentaire, les "Concepts Headings", selon des règles dérivées des politiques d'indexation du service.

Le système CTX développé à l'Université de Saarland en Allemagne génère des termes complexes. Il s'appuie sur un important dictionnaire morpho-syntaxique et un thésaurus incluant des relations sémantiques (Keitz, 1986).

3.1.7 Systèmes d'indexation avec traduction automatique

CTX a été testé pour la traduction automatique de grandes quantités de textes, avec comme objectif visé la compréhensibilité plutôt que la qualité stylistique.

Des essais sur les capacités translinguistiques de PRECIS avaient conclu à la lourdeur des connaissances à inclure pour que les énoncés produits dans la langue-cible soient acceptables. Pourtant la traduction s'effectuait sur des énoncés réduits à syntaxe artificielle. TITUS, qui procède selon des principes semblables, fonctionne depuis longtemps en France. La contrainte réside dans le passage obligé par une reformulation et un codage humains.

Les systèmes actuels de compréhension de textes en langue naturelle mettent en oeuvre des connaissances beaucoup plus complexes et plusieurs réalisations devraient voir le jour.

3.2 Formatage automatique des bases de données textuelles

L'inconvénient de l'indexation, c'est qu'elle oblige l'utilisateur à passer par le filtre d'une représentation condensée. Dans les bases de données bibliographiques indexée, ne sont retenus que quelques mots-clés en fonction des besoins, intérêts et usages terminologiques du moment. Dans les bases de données textuelles, sont extraits - au mieux - des syntagmes nominaux qui ne prennent pas en considération les faits, mais les mots et, dans les bases de données factuelles ne sont colligés que les faits que l'on envisage réutiliser dans un objectif bien précis.

Aussi a-t-on eu l'idée de combiner les avantages des différentes approches en formatant automatiquement les textes.

Le Linguistic String Project consiste à stocker en mémoire d'ordinateur des textes écrits en langage naturel, à leur faire subir une série de traitements automatiques qui convertissent le tout en base de données formatée apte à répondre à des questions précises comme on en pose dans des systèmes questions-réponses (Hirshman, 1975). Une banque de données en langage naturel formatée devrait permettre toutes sortes de recherches rétrospectives à partir d'hypothèses que l'on n'avait pas prévues lors de sa conception (Sager et al., 1982). Pour établir le format, les chercheurs ont mis au point un analyseur syntaxique, basé sur la grammaire transformationnelle de Harris et une série de restrictions propres au domaine ainsi qu'un analyseur de co-occurrences permettant de regrouper dans une même classe les mots ou expressions qui sont les plus similaires parce qu'ils co-occurrent avec d'autres mots, sur la base de relations syntaxiques: noms sujets de verbes, noms compléments. On obtient ainsi une série de catégories qui correspondent aux différentes facettes du domaine: type de malade, nom de l'hôpital, symptômes, moment de l'admission, médicament administré, action du médicament, etc. Il reste à programmer l'ordinateur pour l'analyse automatique du contenu. Celle-ci s'effectue en quatre étapes:

- Dépistage des structures syntaxiques;

- Régularisation grammaticale, par une série de transformations paraphrastiques visant à réduire la diversité des expressions (décomposition de toute assertion en sujet, verbe, complément; conversion de la voix passive en voix active; développement des expressions contenant des conjonctions de coordination, lemmatisation, affectation de marqueurs temporels adéquats aux formes canoniques des verbes);

- Formatage de l'information (alignement des éléments d'information semblables sous la même catégorie). On obtient ainsi une série de colonnes (une cinquantaine en pédiatrie). Chaque assertion élémentaire est susceptible de contenir différents modificateurs, comme NEG(ation), MODAL (incertitude, évidence) et le temps.

- Normalisation. Cette étape consiste à remplir les cases vides avec les éléments implicites d'information contenus dans l'ensemble du texte.

Les recherches de Schank et de ses étudiants sur la compréhension des histoires et des articles de journaux vont dans le même sens.

L'avantage de ce genre de système réside dans sa relative indépendance par rapport au domaine et dans sa relative transportabilité.

3.3 Remplacement des bases de données par des bases de connaissances

Zarri (1988) note une approche intermédiaire entre une base de données relationnelles et un système documentaire: SIGMINI qui "est utilisé de manière opérationnelle pour la gestion de documents textuels dans le domaine minier et aussi pour la gestion d'objets archéologiques." (Zarri, 1988, p.35)., avec une indexation manuelle. La structure est établie au fur et à mesure de l'ajout d'informations dans la base, selon un modèle auto-structurant.

Mais, pour la fourniture de réponses synthétiques, ce ne sont plus des documents ou des passages de documents qui doivent être fournis, mais une réponse "intelligente", adaptée au niveau de connaissance et aux intérêts de l'interlocuteur. Les documents et les questions y disparaissent au profit d'une représentation conceptuelle. Ainsi certaines bases de données seront, à l'avenir, remplacées par des bases de connaissances.

SCISOR (System for Conceptual Information Summarization, Organization and Retrieval) est

un prototype qui analyse les dépêches de presse concernant les opérations d'acquisition et de fusion de sociétés financières. En plus de répondre à une question, il peut résumer toutes les informations qu'il possède sur un événement et tenir au courant un utilisateur des nouveaux faits qu'il reçoit après une interrogation.

Quant à RESEDA, il s'agit d'un système expert sur des biographies de personnages célèbres au Moyen-Age, dont la première version a été réalisée par Zarri entre 1978 et 1984 et dont une version réduite réalisée en LE_LISP est disponible sur machines UNIX et sur Apple, depuis avril 1987. La continuation de ce projet, entreprise en 1987 s'attaque, entre autres, à "la définition d'un langage de description des connaissances (Knowledge Description Language = KDL) très avancé qui tient compte, par exemple, de la distinction entre connaissances de type "assertionnel", "en extension" (Snoopy est le briquet de Charlie Brown") et connaissances de type "terminologique", "en intension" ("Un briquet est un type de chien de meute /un chien de meute est un chien ...) et à la création d'outils d'"acquisition automatique des connaissances" pour parvenir à une automatisation, du moins partielle, du "remplissage" des IIRSs/LKBS (Zarri, 1988, p.34).

Un autre projet est signalé par Zarri également:

"La stratégie consistant à traduire une question d'utilisateur dans un langage de représentation des connaissances évolué, et de se servir de la représentation obtenue pour apparier une description, dans les termes du même langage, du "contenu sémantique" d'un document est utilisée aussi par De Jaco et Gerbolino 1986) dans le projet "Information Retrieval Based on Artificial Intelligence Techniques" (De Jaco et Gerbolino 1986) en cours de réalisation au CSI de Turin (Italie). Le langage de représentation des connaissances retenu pour ce projet est inspiré par le "métalangage" de RESEDA." (Zarri, 1988, p.34)

3.4 Interfaces en langue naturelle

Pour permettre aux utilisateurs d'accéder directement aux bases de données et, sans passer par un intermédiaire et sans avoir à apprendre les langages d'indexation, de commande et d'interrogation, on a développé ces dernières années plusieurs systèmes intelligents, capables d'interpréter des énoncés en langue quasi-naturelle. Dans les versions les plus élaborées, ils sont dotés de mécanismes de compréhension et de génération automatiques ainsi que de mécanismes d'inférences.

Ces systèmes vont bien au-delà des interfaces intelligentes commercialisées (Deschâtelets, 1986) qui se "bornent" à accomplir des technicalités de communication comme le branchement à un serveur, la conversion d'une stratégie de recherche en une autre lorsque l'on passe d'une base à l'autre ou d'un serveur à un autre, le formatage des données récupérées pour le transfert dans un système personnel ou même l'analyse statistique de quelques caractéristiques des résultats de la recherche.

Les connaissances linguistiques et extra-linguistiques nécessaires varient selon que l'interface exploite une base de données bibliographiques, une base de données relationnelles contenant certains faits sélectionnés ou une base de données textuelles.

Dans les systèmes documentaires, les interfaces transforment la question en une équation de recherche qui va fouiller les fichiers inverses, après avoir consulté une base de connaissances constituée la plupart du temps d'un thésaurus. Elles affichent des documents et peuvent tirer parti du contenu de ceux qui sont jugés pertinents par l'utilisateur pour reformuler la question, comme le font DIALECT et SPIRIT. Elles exploitent donc la structure et le contenu habituels des banques de données. IOTA de Chiaramella et Defude modélise l'utilisateur, de même que IR-NLI II de Brajnik, Guida et Tasso. I3R de Croft et Thomson, prévoit sept systèmes experts.

Pour les interfaces des bases de données relationnelles, on pense, entre autres, à TELI (Ballard, 1987) et à FIDO (Eugenio, 1987) et aux interfaces de la firme ERLI (Clemencin, 1988) et de Herman, Sabah et Vilnat (1988) pour l'interrogation des Pages jaunes en France. Elles peuvent avoir à générer une réponse en langue naturelle. Il en est de même des systèmes qui résument un ensemble d'informations textuelles sous forme d'une réponse synthétique et que nous verrons dans la section suivante.

3.4.1 Modélisation de l'intermédiaire

Dans un système documentaire, l'intermédaire effectue quatre tâches principales:

1) il interprète le besoin de l'utilisateur à partir du problème exprimé en langue naturelle;

2) il choisit la ou les meilleures bases de données susceptibles de fournir le plus de réponses adaptées à ce besoin;

3) il aide à formuler la question sous une forme admissible par l'ordinateur, donc en consultant le langage documentaire approprié (liste d'autorité, thésaurus) et en utilisant la syntaxe d'interrogation propre au système.

4) A partir des résultats et des jugements de pertinence posés par l'utilisateur et lui-même, il reformule la question jusqu'à l'obtention de résultats satisfaisants.

Pour les auteurs d'EURISKO (Barthes et Glize), "l'ensemble des opérations accomplies par l'intermédiaire [...] se rapproche des techniques de "planning" et de "génération de plan" [...] dans l'acception "intelligence artificielle" de ces termes." (Zarri, 1988, p.29)

Pour cela, il doit posséder un certain nombre de connaissances spécialisées et avoir, entre autres, un modèle des BdD, un modèle de l'utilisateur, un modèle du stade de définition du problème auquel est parvenu cet utilisateur, etc. Des études fonctionnelles sur le dialogue entre un bibliothécaire de référence et un utilisateur, menées surtout en Angleterre, ont permis de préciser ces modèles et ont servi de prélude à des réalisations concrètes.

3.4.2 Modélisation de l'utilisateur

Pour fournir une réponse adaptée, il faut connaÎtre son interlocuteur, ses motivations, ses connaissances, etc. C'est pourquoi on commence à doter les systèmes de modèles d'utilisateurs. Ceux-ci peuvent être permanents, dynamiques ou temporaires et déduits de la question posée. Leur complexité varie.

3.4.3 Modélisation du dialogue

Certains chercheurs se préoccupent tout particulièrement des aspects coopératifs du dialogue personne-machine (Kalita, Joshi, entre autres)et s'appuient sur les théories de l'énonciation et des actes de langage.

3.4.4 Connaissances linguistiques, sémantiques et pragmatiques

Selon que l'interface n'a que des questions à interpréter ou bien doit aussi comprendre les textes de la base de données et générer des réponses elles aussi en langue naturelle, les niveaux de connaissances nécessaires peuvent varier grandement. Il devient de plus en plus difficile de se passer de connaissances sémantiques et la résolution des anaphores, des ellipses, des énoncés vagues et des ambiguités lexicales nécesitent bien souvent des connaissances pragmatiques.


3.5 Création d'outils d'aide à l'analyse, au repérage et à la synthèse:

thésaurus a priori et a posteriori, bases de connaissances

La qualité des méthodes d'analyse et de repérage automatiques dans les bases de données repose en grande partie sur la qualité des représentations du domaine.

Dans les systèmes documentaires, elle sont habituellement fournies par des thésaurus. Or, ceux-ci sont souvent constitués "manuellement", tout en étant gérés, édités et consultés par ordinateur, comme nous l'avons dit plus haut. La conception a priori de thésaurus souffre des mêmes défauts que l'indexation humaine: subjective, parfois peu cohérente, elle est également longue et coPteuse et les résultats deviennent vite désuets.

Aussi a-t-on eu très tôt (avec Doyle, au début des années soixante) l'idée de constituer des thésaurus a posteriori, à l'aide des algorithmes de classification automatique qui font ressortir les liens d'association entre les mots des textes ou les descripteurs assignés par des indexeurs; c'est donc une méthodologie facilement transportable et implantable sur de grands corpus. Ainsi, AID (Associative Interactive Dictionary) a été mis au point sur une collection de 500 000 références bibliographiques accompagnées de leurs résumé (Doszkocs, 1979).

Parce qu'il est construit à partir du lexique des banques de données, le thésaurus a posteriori s'avère très utile pour assister l'utilisateur dans la formulation de sa question. Il constitue une représentation des thématiques de la BdD, des différents angles sous lesquels telle ou telle notion est envisagée dans le corpus (Lexinet et Leximappe à l'INIST, en France). En outre, des systèmes experts d'aide à l'interrogation recherchent les similarités de contenu ou de structure entre les mots contenus dans les questions formulées en langue naturelle et le contenu des BdD: c'est le cas de IOTA, par exemple.

Mais les mêmes interrogations sur la nature des unités à retenir se posent que celles que nous avons soulevées à propos de l'indexation automatique, avec, en plus, le choix de la longueur de l'intervalle entre les termes cooccurrents. Enfin, les cooccurrences ne font que mettre en évidence les phénomènes de surface sans qualifier les divers rapports qui se nouent entre eux, en structure profonde. L'interprétation reste à la charge de l'être humain. Des traitements syntaxiques contribuent à affiner la méthode, comme nous l'avons vu à propos du LSP. REALIST (Retrieval Aids by Linguistics and Statistics) dévelopé à Munich (Thurmair, 1986) se fonde lui aussi sur une analyse morpho-syntaxique et statistique pour élaborer un outil d'aide au repérage consulté par l'utilisateur (Zarri, 1989, p.22). La disponibilité de dictionnaires sur support lisible par ordinateur et la consultation de banques de terminologie peuvent aider à préciser, sans intervention humaine, certains liens lexico-sémantiques qui pourraient permettre d' élargir ou de rétrécir une stratégie de recherche. L'analyse automatique ou assistée par ordinateur des corpus textuels peut aider à constituer des représentations plus conceptuelles dans lesquelles les liens sont qualifiés.

.

HIERARCHIE DE Lyddia.???

Quant aux bases de connaissances, elles posent, elles aussi, tout le problème de la diversité des représentations en fonction de la nature des connaissances à représenter et de l'utilisation qu'on veut en faire, de même que le problème de l'acquisition et de la mise à jour. Les textes en langue naturelle fournissent un gisement de termes et de connaissances que l'on a intérêt à exploiter, dans une perspective d'intégration des différents outils de représentation plutôt que de façon compartimentée, selon des traditions disciplinaires qui tendent à disparaÎtre devant l'expèce de continuum que représentent les diverses utilisations possibles des sources textuelles par les utilisateurs.

CONCLUSION

Nous avons constaté que les systèmes d'information documentaire sont concernés au premier chef par les recherches en linguistique informatique et en intelligence artificielle. Ils ont toujours traité des données textuelles, mais de façon relativement sommaire, d'une part à cause de la grande quantité de données, d'autre part à cause du développement insuffisant des méthodes d'analyse de textes. Mais les méthodes de gestion de l'information documentaire sont effectivement en pleine mutation. Même si les systèmes documentaires ont eu recours à l'ordinateur dès le tout début et si les logiciels qui leur sont destinés constituent une part importante des industries de l'information, l'utilisation qu'ils en font actuellement est bien différente, au fur et à mesure que le stockage des textes intégraux se répand et que les clientèles se diversifient. Les logiciels qui sont actuellement mis au point dans les laboratoires de recherche et qui commencent à apparaÎtre sur le marché exploitent les résultats des recherches sur la compréhension et la génération automatiques des énoncés en langue naturelle. Ils nécessitent des études encore plus poussées sur les modes d'acquisition et de représentation des connaissances. Ces logiciels appartiennent non seulement à l'informatique documentaire, mais aussi aux industries de la langue.

Ainsi les progrès technologiques sont-ils accompagnés d'une forte demande de recherches théoriques sur la communication humaine en langue naturelle. Plusieurs disciplines convergent (sciences cognitives, sciences de l'information, informatique documentaire, linguistique informatique, philosophie), plusieurs applications s'intègrent.

Tout ceci conduit non seulement à des transformations importantes dans les tâches des bibliothécaires et des documentalistes, mais aussi à l'urgence de modifier et enrichir les programmes de formation et à établir des passerelles entre les différents programmes.

Enfin, l'enjeu est considérable pour la survie et le développemetn de la langue française, comme l'a récemment souligné Becle:

"Le développement des systèmes de communication homme/machine en langage naturel ou pseudo-naturel nécessite des efforts particuliers dans le domaine du traitement automatique du français. Assurer à la langue française les fonctions de médiation avec les technologies nouvelles correspond à un enjeu stratégique. La langue est en effet le vecteur essentiel de l'appropriation du savoir, du transfert de l'information, et il convient en ce sens de maÎtriser les technologies les plus pointues qui permettront d'accéder en français aux sources d'information les plus variées." (Becle, 1989, p.7)

BIBLIOGRAPHIE DES SOURCES CITEES

Carmel, Lucie; Vidalenc, Isabelle. "Typologie des logiciels utilisés dans le domaine de la bibliothéconomie et des sciences de l'information." Montréal: Ecole de bibliothéconomie et des sciences de l'information; juin 1989. 9 p. dactylographié.

Deschâtelets, Gilles. "The intelligent interface concept in online searching." The Canadian Journal Of Information Science / Revue de l'Association canadienne pour les sciences de l'information, 11(2),1986, pp.13-34..

Doszkocs, Tamas E. AID: an associative interactive dictionary for online bibliographic searching. Thèse. Ann Arbor: University of Maryland, 1979. 110 p.

Hirschman, L. et al. "Grammatically-based automatic word classs formation." Information Processing and Mangement, 11, 1975, pp.39-57.

Keitz, Wolfgang von. "Automatic indexing and the dissemination of information." INSPEL, 20(1), 1986, pp.46-67.

Lubkov, M. "De l'inforamtique documentaire à la documentation électronique." Archimag, no 23, 1989, pp. 28-30.

Membrado, M. "Génération d'un système conceptuel capable de traiter un langage de type semi-naturel" . Bulletin du C.I.D.; l'informatique documentaire., mars 1989, pp.9-67.

Rohou, C. "La gestion automatisée des thésaurus." Documentaliste, 24(3), mai-juin 1987, pp. 103-108.

Sager, N. et al. "Automatic encoding of clinical narrative." Comput. Biol. Med., 12(1),1982, pp.43-56.

Todeschini, C. et Farrell, M.P. "An expert system for quality control in bibliographic databases." Journal of the American Society for Information Science, 40(1), 1989, pp.1-11.

Zarri, G.P. "Etat de l'art - les nouvelles tendances de l'informatique documentaire." Bulletin du C.I.D.; l'informatique documentaire, 32, décembre 1988, pp.11-40.