L'IMPULSION DES NOUVELLES TECHNOLOGIES
Par
Suzanne
Bertrand-Gastaldy "La documentation électronique est le point culminant, grâce aux nouvelles
technologies, de la gestion de l'information."
(Lubkov, 1989, p.28)
INTRODUCTION L'information est désormais perçue comme une ressource indispensable dans tous les secteurs de l'activité humaine, politiques, économiques, administratifs et culturels. Sa gestion (création, collecte, stockage, traitement et diffusion) connaÎt depuis quelques années une véritable révolution, sous la pression des nouvelles technologies. De plus en plus de documents scientifiques et techniques sont numérisés et deviennent, par conséquent, exploitables par ordinateur. Les méthodes de traitement et de représentation des textes s'en trouvent bouleversées: la langue, véhicule prioritaire de la communication, est au centre des préoccupations des spécialistes des sciences de l'information. Entre les industries de l'information et les industries de la langue, se tissent de nombreux liens .
Après avoir rapidement passé en revue
les facteurs de changement, nous examinerons les fonctions qui,
au sein d'un système d'information documentaire, sont les
plus concernées par les recherches en informatique linguistique
et en intelligence artificielle: l'indexation, l'interrogation
en langue naturelle, la génération de réponses
synthétiques et la représentation des connaissances.
Nous fournirons des exemples de systèmes déjà
commercialisés ou encore au stade de prototypes.
1. FACTEURS RAPPROCHANT LA DOCUMENTATION DES INDUSTRIES
DE LA LANGUE
Bien que la majorité de l'information soit
encore sur papier (93% contre 5% sur microformes et 2% sous forme
de fichiers informatiques, d'après Lubkov, 1989, p.34),
la situation évolue rapidement.
Les techniques de saisie par lecture optique permettent
de digitaliser les données qui figurent sur papier et microformes,
la bureautique et l'édition électronique multiplient
les documents lisibles par ordinateur. Les logiciels de saisie
fournissent des représentations plus fidèles, moins
appauvrissantes. Les supports optiques et magnétiques
sont plus compacts que le papier et se consultent plus rapidement.
La téléinformatique (interrogation des banques de
données à distance, courrier électronique,
vidéotex)rend les informations disponibles sans interruption
et sans déplacement. De nouvelles techniques de programmation voient le jour qui transforment le rapport au texte (hypertexte) et aux autres médias (hypermédia) grâce à des liens qui permettent de se déplacer de façon non linéaire à travers la documentation. Le traitement de l'information repose sur de nouvelles théories et l'on parle désormais de
machines parallèles et de systèmes
neuronaux.
Tous ces facteurs font que la documentation électronique
prolifère et que la nature de son contenu ne cesse de se
diversifier.
Les bases de données bibliographiques produites
par les services secondaires, les archives, les bibliothèques
et les centres de documentation continuent de se multiplier et
de se spécialiser pour tenter de répondre aux nouveaux
domaines d'activités et de recherche. Mais leur croissance
est désormais moindre que celle des bases de données
en plein texte. Celles-ci contiennent toutes sortes de documents:
administratifs (politiques, procédures, directives, mémos,
correspondance, procès-verbaux), juridiques (lois, règlements,
jurisprudence, causes en appel), techniques (entretien du matériel);
lexicologiques, terminologiques et encyclopédiques; oeuvres
littéraires; articles de périodiques; articles de
journaux; bulletins de nouvelles; dépêches de presse;
rapports de recherche, etc. Cette documentation inclut non seulement
du texte, mais aussi des graphiques, des images, des tables numériques,
et même des sons.
Dans les entreprises, les administrations et même
le secteur culturel, de nouvelles techniques de gestion intégrée
de ces informations diverses se développent, motivées
par la recherche de la productivité et de la rentabilité.
Pour contrer la concurrence, des méthodes de veille technologique
sont élaborées qui font un large usage des banques
de données pour la surveillance de l'information scientifique,
économique et technique. Mais tout délai dans l'accession
aux données pertinentes est pénalisant. Aussi est-il
important que des procédures fiables de traitement, de
repérage et de synthèse automatiques soient mises
au point. L'information stratégique, celle qui sert de
support à la décision, n'est en effet rien d'autre
que la réorganisation de données existantes en fonction
d'un objectif particulier.
Grâce au télédéchargement
et à la récupération du contenu des CD-ROM
avec un logiciel de traitement de texte, il est relativement facile
de se constituer, à partir de son clavier, des banques
de données taillées sur mesure dont on souhaite
également personnaliser l'exploitation, selon ses propres
besoins. Ainsi foisonnent de nouvelles clientèles, de tous
âges et de toute formation. Moins tolérantes aux
frustrations que les traditionnels utilisateurs de produits bibliographiques,
moins motivées à apprendre les procédures
et les langages complexes pour accéder à l'information,
elles réclament une communication en langage quasi-naturel
avec l'ordinateur. Ce sont elles qui vont bénéficier
le plus des recherches multidisciplinaires sur le traitement automatique
des langues naturelles et le dialogue personne-machine.
2. EN QUOI CONSISTE LA GESTION DE L'INFORMATION
DOCUMENTAIRE
Traditionnellement, un système d'information
documentaire a pour mission d' organiser les documents et l'information
qu'ils contiennent en vue d'en faciliter l'utilisation.
Les banques de données constituées
à partir des références bibliographiques
et de la représentation formalisée du contenu ne
fournissent à l'utilisateur que des indications sommaires
sur le ou les sujets traités dans chaque document. Il lui
incombe de localiser et de consulter les articles de périodiques.,
les rapports, mémoires et thèses, etc. identifiés
lors de sa recherche.
Depuis quelques années, grâce aux facteurs
que nous avons énumérés précédemment,
il est de plus en plus fréquent que le texte intégral
soit enregistré dans la base de données et par conséquent
directement accessible. Lorsque les textes ont été
formatés au préalable en titres, sous-titres, paragraphes,
phrases, il devient possible de consulter sur écran les
seuls passages du texte qui répondent à la question.
Avec certains logiciels, on peut même regrouper tous les
extraits jugés pertinents pour constituer un nouveau texte
que l'on nomme à sa guise, jouissant ainsi de fonctions
semblables à celles d'hypertexte. Cette facilité
est encore trop rare, particulièrement lorsqu'on interroge
les bases de données accessibles auprès des grands
serveurs comme DIALOG ou BRS.
Bien des utilisateurs, cependant, voudraient que
leur soit épargnée jusqu'à la consultation
des documents ou des passages de documents. Seule la réponse
brève, synthétique, pertinente les intéresse.
Il faut donc que la base de données textuelles soit dotée
de mécanismes de traitement de la langue naturelle presque
équivalents à la puissance de compréhension
et de production d'énoncés possédée
par l'être humain, avec toutes les connaissances linguistiques
et extra-linguistiques que cela suppose.
Comme les matériels et les supports sont
de plus en plus répandus, les utilisateurs finals supportent
difficilement de dépendre d'un intermédiaire pour
interroger une BdD ou s'en constituer une. L'hermétisme
des langages de commande, des langages d'indexation et d'interrogation
les rebute et risque de les éloigner des sources d'information.
Les opérations traditionnellement effectuées
par des êtres humains (utilisateurs et intermédiaires:
bibliothécaires, documentalistes, archivistes, gestionnaires
de documents, etc.) deviennent assistées par ordinateur
ou sont remplacées par des méthodes entièrement
automatiques. Les fontions qui consistent en une simple manipulation
de données textuelles, sans interprétation, ont
été les premières à bénéficier
de la mise au point de logiciels (Carmel et Vidalenc, 1989), objet
de ce qu'il est convenu d'appeler l'informatique documentaire.
Nous les passons rapidement en revue.
Pour la constitution de la banque de données,
une première série d'activités consiste à
choisir et à colliger les documents. La disponibilité
des répertoires bibliographiques et des bases de données
sur CD-ROM facilite la tâche de repérage et d'extraction
des références (Silver Platter Search and Retrieval
Software). Le télédéchargement depuis des
serveurs joue le même rôle. Des logiciels aident au
branchement à un serveur, au télédéchargement
et au formatage des données récupérées
(DialogLink, ProSearch). Dans les bibliothèques, centres
de documentation et services d'archives, le courrier électronique
accélère les communications avec les fournisseurs
et des logiciels (Bib-Base Acq) ou modules d'acquisition permettent
la gestion des commandes, le paiement des factures, le suivi budgétaire,
etc.
Une fois le document acquis, il faut le décrire
et l'analyser (cela va de la classification à la condensation
sous forme de résumé en passant par l'indexation
avec différents types de langages documentaires). Là
encore, la téléinformatique accélère
considérablement les opérations. Les bibliothèques
membres de grands réseaux de catalogage (OCLC, UTLAS,
RENARD) se partagent la responsabilité du catalogage. Les
autres peuvent opter pour la récupération par télédéchargement
ou extraction par traitement de texte ou effectuer seules leur
catalogage avec des logiciels appropriés (Bib-Base Cat
et Bib-Base Marc, UTLAS M/10).
Certaines agences prennent la responsabilité
du développement et de la gestion des langages documentaires
qu'elles diffusent sur support électronique: par exemple,
la Library of Congress Subject Heading List et la liste des vedettes-matière
de l'Université Laval adaptée dans le " thésaurus "
français RAMEAU ou plusieurs thésaurus, comme celui
d l'OCDE, ou celui d' INSPEC. Les services documentaires qui ont
besoin de langages mieux adaptés à leur clientèle
peuvent récupérer tout ou partie de ces langages
et les faire évoluer à leur gré, grâce
à des logiciels spécialisés (Astute, Palmer
Thesaurus, THESAUPLUS) ou modules de logiciels de gestion de bases
de données bibliographiques (Alexis, Basis, Minisis). Les
fonctionnalités de plusieurs d'entre eux ont été
passées en revue dans Rohou (1987). La possibilité
de gérer plusieurs langages en même temps ou un même
langage en plusieurs langues naturelles est souvent nécessaire,
surtout au Canada et en Europe.
Le stockage des données issues des opérations
précédentes, l'organisation des fichiers et leur
exploitation pour l'édition et l'interrogation en direct
s'effectuent grâce à des logiciels qui sont de plus
en plus nombreux à tourner sur micro-ordinateurs: logiciels
de bases de données relationnelles (4ème Dimension,
Oracle), logiciels de bases de données bibliographiques
(Edibase, CDS/ISIS) ou logiciels de bases de données textuelles
(Finder, Folio Views, Fulltext, Marcon Plus, Textract, ZyIndex).
Un module permet une interrogation dans les différents
fichiers. Il s'agit du fichier bibliographique et éventuellement
du fichier textuel, ainsi que des divers index constitués
par inversion des éléments descriptifs (auteur,
maisons d'édition, dates, etc.), analytiques (indices
de classification, descripteurs ou vedettes-matière) et
textuels (mots extraits de titres, des résumés et
des textes intégraux). Dans certains systèmes, on
peut aussi consulter les listes d'autorité. Des logiciels
peuvent également aider à passer d'un serveur à
un autre (EasyNet) et à modifier la stratégie de
recherche pour l'adapter aux différentes bases de données
(...).
Un logiciel (Circulation Plus) ou un module permet
de réserver un document temporairement sorti, de prêter
un document, d'émettre des lettres de rappel en cas de
retard, dans les catalogues automatisés, et l'on peut commander
un document (BookPath) que l'on aura préalablement localisé
dans une autre institution (REFCATTSII d'UTLAS, DOBIS de la Bibliothèque
nationale du Canada) grâce au catalogue collectif automatisé,
ou effectuer ces deux opérations avec le même logiciel
(OCLC Interlibrary-Loan Subsystem, UTLAS ILL). Ce sont là des fonctions classiques que l'on trouve intégrées dans la plupart des systèmes automatisés, avec des variantes, selon qu'ils sont destinés plutôt: 1) à des bibliothèques ou centres de documentation qui ont à gérer une collection documentaire, des abonnements (Serial Control System) et une circulation de périodiques au sein de l'entreprise (Multilis, BestSeller-bibliothèque, GLIS de Geac, Dobis, Notis); 2) à des services de gestion de documents administratifs qui doivent tenir compte de certaines particularités comme le calendrier de conservation (Ad-hoc, MicroBestSeller corporatif); 3) à la gestion de très nombreuses bases de données rassemblées par des serveurs et rendues accessibles à distance (BRS, Stairs, Dialog, Questel); 4) à des banques de données bibliographiques locales qui signalent les documents ou les donnent sous forme intégrale;
5) ou bien à des chercheurs soucieux d'établir
une bibliographie dans le respect des normes, sans avoir eux-mêmes
à se préoccuper des détails de la présentation
(ProCite; EndNote).
On constate une tendance au rapprochement entre
tous ces logiciels: parfois partis d'un besoin spécifique,
ils intègrent petit à petit les autres fonctions,
de telle sorte que l'utilisateur puisse effectuer toutes les opérations
nécessaires à la réalisation de son projet
sans avoir à passer d'un logiciel à l'autre. Seuls
peut-être, les logiciels d'édition d'index (de livres,
de périodiques, d'encyclopédies sur papier demeurent
très spécialisés et relativement isolés
(Cindex, IndexAid 2, Macrex).
Plusieurs fonctions sont encore largement remplies
par l'être humain: surtout l'indexation du contenu des
documents textuels non disponibles sur support électronique
et des documents visuels ou sonores. Cependant, de plus en plus
de travaux de recherche aboutissent à la mise au point
de techniques qui prennent en charge totalement ou partiellement
l'analyse des textes, la constitution de lexiques et de thésaurus,
le choix de la banque de données, l'expression du besoin,
la soumission de la question en langue quasi-naturelle, la formulation
de la stratégie de recherche et son adaptation à
d'autres banques, ainsi que l'évaluation de la pertinence
probable des documents repérés. Ce qui est encore
plus nouveau, c'est le développement de logiciels capables
de comprendre et même de générer des énoncés
longs et complexes en langue naturelle, en plusieurs langues naturelles
d'ailleurs. Nous allons maintenant examiner les réalisations
dans ces domaines, en partant des premiers travaux en analyse
humaine.
3 L'EVOLUTION DES METHODES DE TRAITEMENT ET DE
GENERATION DU LANGAGE NATUREL
3.1 Indexation des documents
L'indexation a pour but de réduire, organiser
et rassembler l'information en vue du repérage rapide d'un
document, d'un groupe de documents, de passages de textes, en
réponse à une question portant sur le contenu souhaité
de ces derniers. Elle consiste à assigner ou à extraire
du document un élément censé représenter
ce dont il traite, son thème. Parallèlement, le
contenu de la question est indexé lui aussi. Il y a ensuite
comparaison entre les deux, au moyen de fichiers inverses où
figurent, selon l'ordre alphabétique, les termes augmentés,
au minimum de leur localisation dans le document, et, de plus
en plus souvent, de leur position à l'intérieur
du document (paragraphe, phrase, rang dans la phrase). Ce qui
est récupéré est soumis à l'utilisateur
qui le parcourt et décide si cela répond à
son besoin.
La fonction de l'index est donc de diriger vers
la source d'information.
3.1.1 Indexation humaine
Les représentations issues d'une analyse
humaine sont multiples, selon les langages documentaires employés
pour exprimer les notions retenues. Bien que ces langages aient
évolué en fonction des supports, ils subsistent
tous dans les fichiers informatisés.
En gros, on trouve: - des langages classificatoires hiérarchiques et énumératifs de type alphanumérique ou numérique comme la classification de la Bibliothèque du Congrès, le système de classification décimale Dewey , ou tout autre système ad hoc de classement. - des listes de vedettes-matière qui expriment, a priori, plusieurs notions dans un ordre prédéterminé, au moyen d'une syntaxe artificielle fixe très rudimentaire et non constante. Conçues à l'origine pour la recherche manuelle sans l'emploi de la logique booléenne, elles sont tant bien que mal exploitées dans les catalogues automatisés. Leurs nombreux défauts les rendent inaptes à une représentation fidèle, précise et cohérente du contenu. - des systèmes à mots clés libres ou contrôlés par un thésaurus, dépourvus de toute syntaxe au moment de l'analyse. Une reconstitution de liens syntaxiques est possible lors du repérage, mais avec beaucoup d'imprécision, puisqu'on ne dispose alors que des opérateurs booléens ET, OU, SAUF et des opérateurs de proximité. Cela entraÎne le repérage de documents non pertinents ("bruit" documentaire). Lorsque le vocabulaire est libre, l'utilisateur porte la charge d'imaginer tous les synonymes, toutes les variantes orthographiques, tous les cas de polysémie et d'homographie. Lorsqu'il est contrôlé, il faut alors impérativement consulter la liste structurée des termes autorisés, à moins que l'ordinateur ne s'en charge.
- des systèmes analytico-synthétiques
qui permettent de combiner une liste de termes contrôlés
au moyen d'opérateurs syntaxiques en nombre limité:
REMEDE en médecine, PRECIS (Preserved Contex Index System)
qui peut s'adapter à tout domaine. Ce dernier s'appuie
sur une analyse syntaxico-sémantique inspirée de
la grammaire des cas de Fillmore. Effectuée par l'indexeur,
elle est ensuite prise en charge par l'ordinateur pour la formulation
des syntagmes nominaux et l'édition de l'index. Grâce
à un thésaurus en ligne, des renvois sont insérés
dans l'index. Utilisé dès le début des années
'70 à la British National Library, puis par plusieurs autres
bibliothèques ou centres de documentation, ce système
a souffert de la non-commercialisation du logiciel, pendant près
de vingt ans. Une firme québécoise vient de concevoir
PC-PRECIS pour l'Office National du Film. D'autres systèmes
d'indexation reposent sur des principes semblables: SYNTOL, VERCINGETORIX,
POPSI, CIFT, PTOSYS, POPSI,PASI, mais certains d'entre eux n'ont
jamais été exploités de façon opérationnelle.
Ce sont les langages qui se rapprochent le plus du langage naturel,
car ils tiennent compte à la fois de la composante syntaxique
et de la composante sémantique tout en préservant
la capacité de générer de nouveaux énoncés.
Mais ils nécessitent un certain effort de la part des
indexeurs, car les processus d'analyse ne sont pas automatisés
quoiqu'assistés par ordinateur. Subjectivité, manque de cohérence, temps et coPt sont les principaux problèmes associés à l'indexation humaine. D'autre part, la substitution du texte de départ par un énoncé extrêmement réduit et souvent imprécis, produit en tenant compte de facteurs pragmatiques (comme les besoins présumés d'une clientèle mal connue, avec des intérêts changeants) explique l'insuffisance des taux de rappel et de précision lors du repérage.
3.1.2 L'extraction automatique des unités
linguistiques du texte et des questions
C'est pourquoi, dès qu'on a commencé
à disposer de données textuelles lisibles par machine,
à la fin des années 1950, on a cherché à
automatiser le processus d'indexation dans les bases de données
bibliographiques. Les méthodes auxquelles on a alors eu recours sont encore très largement répandues aujourd'hui. Il s'agit des fichiers inverses et aussi des index permutés de type KWIC ("keyword in Context) et KWOC (Keyword out of Context) sur les titres qu'on a tenté d'améliorer par des interventions humaines pour pallier les problèmes dus au seul traitement alors possible: les chaÎnes de caractères. Mais le pré-codage des expressions composées, la différenciation de certaines catégories de termes, comme les noms propres, l'introduction de renvois entre différentes graphies, tout cela allait à l'encontre des économies visées.
On a également exploité très
tôt les éléments du contexte qui peuvent,
plus ou moins directement, conduire au contenu des documents:
par exemple, les références bibliographiques pour
constituer automatiquement des index de citations. Les produits
de l'ISI (Institute for Scientific Information) sont célébres:
Social Science Citation Index, Science Citation Index, pour ne
citer que les plus connus. Ils sont consultables sur papier, en
ligne et depuis peu sur CD-ROM, avec hypertexte.
La plupart des logiciels actuels de repérage
en texte intégral, apparus d'abord pour traiter les textes
juridiques au début des années soixante, fonctionnent
selon le principe de l'extraction et du classement alphabétique
des chaÎnes de caractères, avec indication de leur
position dans le texte et élimination des mots vides au
moyen d'un anti-dictionnaire. Rapides, peu coPteux, ils provoquent
à la fois bruit et silence au repérage et sont exigeants
pour l'utilisateur, à un point tel d'ailleurs que celui-ci
peut les rejeter (c'est ce qui est arrivé à DATUM
au Québec). Depuis, on a développé des fonctions
de repérage qui permettent de recréer des simulacres
de liens syntaxiques auxquels on a fait allusion plus haut et
de regroupements sémantiques (troncature, masque). Plusieurs
évaluations sur l'efficacité comparée de
l'indexation humaine et de l'indexation automatique des textes
intégraux sont effectuées depuis quelques années
et, bien qu' aboutissant parfois à des résultats
contradictoires, elles n'en révèlent pas moins l'insuffisance
d'un traitement aussi rudimentaire des textes. Cependant, la facilité
de mise en oeuvre et l'attrait d'un accès direct au texte
sans apprentissage d'un langage documentaire, sans opération
préalable d'analyse, expliquent leur popularité.
Pour améliorer l'indexation et le repérage
automatiques, on recourt à plusieurs types d'approches:
pondération des termes selon divers indices statistiques,
prise en compte de facteurs linguistiques et sémantiques
et combinaison des deux approches.
3.1.3 Les méthodes statistiques ou linguistico-statistiques
Les études statistiques ont connu et continuent
de connaÎtre un grand succès, surtout chez les chercheurs
américains. Amorcées par H. P. Luhn à la
fin des années cinquante, elles reposaient, au début,
sur la simple fréquence d'occurrence des mots dans les
documents à indexer. Seuls les termes moyennement fréquents
étaient retenus.
Depuis, on a tenu compte d'autres propriétés
statistiques, comme la fréquence dans l'ensemble du corpus,
la fréquence relative et la régularité de
la répartition, pour pondérer les termes en fonction
de leur capacité à discriminer les documents. On
y ajoute des traitements morphologiques qui permettent de travailler
sur des radicaux, des regroupements en syntagmes pour les termes
les plus fréquents et des regroupements sémantiques
au moyen d'un thésaurus pour les termes les moins fréquents
(les recherches de Salton et son système SMART, conçu
dans les années 70 sont célèbres).
En réalité, les méthodes statistiques
sans traitement linguistique évolué sont très
peu performantes aussi bien pour l'indexation que pour le repérage,
car il s'agit de trouver la meilleure représentation du
texte, selon une démarche analogue à celle qu'accomplirait
un bon indexeur. Nous sommes face à un problème
de choix des éléments représentatifs du contenu,
du choix des unités de sens et pas seulement des formes
de surface (les phénomèmes d'anaphore, entre autres,
doivent être pris en compte). Certaines parties de la
phrase (le thème ou le rhème), du paragraphe, du
document tout entier sont-elles plus riches que d'autres en termes
signifiants? Il y a là des processus cognitifs complexes
de structuration et de compréhension des textes à
découvrir.
Lorsqu'on dispose d'un corpus de textes en langue
naturelle déjà indexés par une équipe
d'indexeurs, on peut, au bout d'un certain temps, réduire
les coPts en créant un programme qui exploite les décisions
antérieures des experts. C'est, par exemple, la méthode
utilisée par AIR (Automatic Indexing and Retrieval System)
mise au point par G. Lustig. On calcule le taux d'association
des descripteurs du thésaurus avec les mots contenus dans
les textes de la base de données auxquels ces descripteurs
ont été assignés. L'indexation automatique
des nouveaux documents suit les patrons de co-occurrences mis
en évidence par l'analyse statistique (Keitz, 1986).
De la même façon, un système
expert testé sur plus de 26 000 documents de Energy Data
Base, veille au contrôle de la qualité de l'analyse,
notamment de la cohérence, en corrigeant les erreurs de
catégorisation. La base de connaissances est constituée
à partir des liens entre les descripteurs du thésaurus
et les indices de classification résultatn de l'utilisation
simultaée de ces deux langages documentaires par les indexeurs
(Todeschini et Farrell, 1989). 3.1.4 Les méthodes linguistiques sans consultation de thésaurus établi a priori
Pour pallier le caractère trop approximatif des méthodes statistiques, même augmentées d'éléments linguistiques, on applique des connaissances syntaxiques, même partielles, qui s'ajoutent à des analyses morpho-statistiques ou morpho-lexicales. L'objectif consiste à détecter les syntagmes nominaux. C'est l'approche adoptée par le groupe SYDO de Lyon et le CRISS de Grenoble, par DIALECT de Bassano et par SPIRIT (commercialisé depuis 1980 par SYSTEX) qui résoud aussi les synonymies et certaines homographies. On tente alors de résoudre les problèmes à un niveau purement formel,
sans recours à une base de connaissances,
sous prétexte que celle-ci est longue et difficile à
constituer et nuit à la transportabilité du système,
puisqu'elle est spécifique à un domaine (Membrado,
1989).
Pour la langue anglaise, on pense, entre autres,
à MORPHS de Bells et Jones, à FASIT de Dillon également.
3.1.5 Les méthodes automatisées avec
consultation de thésaurus
Aux habituelles méthodes linguistiques qui
extraient des listes d'expressions présentes dans un corpus,
on peut adjoindre une dimension sémantique pour traiter
les concepts, par la consultation de dictionnaires ou de thésaurus
dont le nombre est élevé dans à peu près
tous les domaines de la connaissance, mais surtout en sciences
(Bertrand-Gastaldy et Davidson, 1986). Cette consultation peut résulter en l'ajout de synonymes ou de variantes autour d'une racine, en décomposition des termes composés (nombreux en allemand): c'est ce que fait PASSAT de la compagnie SIEMENS AG, à Munich (Keitz, 1986). La gestion du thésaurus nécessite une intervention humaine.
Membrado (1989) rapporte des travaux menés
autour de l'application de listes hiérarchiques de concepts
médicaux: SNOP (Systematized Nomenclature of Pathology)
et SNOMED (extension de la précédente à la
médecine clinique) "privilégiant l'aspect sémantique
et morphosémantique des énoncés" et
limitant l'analyse syntaxique. Le texte est segmenté selon
le groupe nominal correspondant à l'entrée la plus
longue dans le SNOP-SNOMED. Il s'agit, dans certaines applications,
de faire coincider deux ensembles non ordonnés de mots,
et aussi de reconnaÎtre automatiquement des concepts en
détectant des paraphrases et des ellipses. .Par contre,
l'analyse se limite à la phrase et ne prend pas en compte
la dimension textuelle, pas plus que la plupart des systèmes,
d'ailleurs. Cependant des travaux sur l'anaphore (Liddy, Vidalenc),
le thème principal et les thèmes secondaires (Grau,
Hiérarchie????) commencent à prendre en compte la
sémantique du texte.
3.1.6 Les méthodes automatisées avec
consultation de thésaurus a priori et application de règles
La première tentative pour modéliser
les décisions d'un indexeur a été tentée
par le Central Abstracting & Indexing Service de l'American
Petroleum Institute, en 1982. La base de connaissances est constituée
du Thesaurus API et de règles qui établissent une
correspondance entre les mots des résumés et les
descripteurs. Elles tiennent compte du contexte (cooccurences
d'autres mots ou de l'indice de classification attribuée
au document), des concepts implicites et recourent aux liens et
aux rôles pour l'indexation des concepts chimiques.
Un autre système, celui de BIOSIS, est conçu
pour assister l'indexation à partir des titres. Après
traduction de ceux-ci en représentation sémantique
à base de primitives classées en catégories
et de "frames", il les convertit en termes acceptés
par le langage documentaire, les "Concepts Headings",
selon des règles dérivées des politiques
d'indexation du service.
Le système CTX développé à
l'Université de Saarland en Allemagne génère
des termes complexes. Il s'appuie sur un important dictionnaire
morpho-syntaxique et un thésaurus incluant des relations
sémantiques (Keitz, 1986).
3.1.7 Systèmes d'indexation avec traduction
automatique
CTX a été testé pour la traduction
automatique de grandes quantités de textes, avec comme
objectif visé la compréhensibilité plutôt
que la qualité stylistique.
Des essais sur les capacités translinguistiques
de PRECIS avaient conclu à la lourdeur des connaissances
à inclure pour que les énoncés produits dans
la langue-cible soient acceptables. Pourtant la traduction s'effectuait
sur des énoncés réduits à syntaxe
artificielle. TITUS, qui procède selon des principes semblables,
fonctionne depuis longtemps en France. La contrainte réside
dans le passage obligé par une reformulation et un codage
humains.
Les systèmes actuels de compréhension
de textes en langue naturelle mettent en oeuvre des connaissances
beaucoup plus complexes et plusieurs réalisations devraient
voir le jour.
3.2 Formatage automatique des bases de données
textuelles
L'inconvénient de l'indexation, c'est qu'elle
oblige l'utilisateur à passer par le filtre d'une représentation
condensée. Dans les bases de données bibliographiques
indexée, ne sont retenus que quelques mots-clés
en fonction des besoins, intérêts et usages terminologiques
du moment. Dans les bases de données textuelles, sont extraits
- au mieux - des syntagmes nominaux qui ne prennent pas en considération
les faits, mais les mots et, dans les bases de données
factuelles ne sont colligés que les faits que l'on envisage
réutiliser dans un objectif bien précis.
Aussi a-t-on eu l'idée de combiner les avantages
des différentes approches en formatant automatiquement
les textes. Le Linguistic String Project consiste à stocker en mémoire d'ordinateur des textes écrits en langage naturel, à leur faire subir une série de traitements automatiques qui convertissent le tout en base de données formatée apte à répondre à des questions précises comme on en pose dans des systèmes questions-réponses (Hirshman, 1975). Une banque de données en langage naturel formatée devrait permettre toutes sortes de recherches rétrospectives à partir d'hypothèses que l'on n'avait pas prévues lors de sa conception (Sager et al., 1982). Pour établir le format, les chercheurs ont mis au point un analyseur syntaxique, basé sur la grammaire transformationnelle de Harris et une série de restrictions propres au domaine ainsi qu'un analyseur de co-occurrences permettant de regrouper dans une même classe les mots ou expressions qui sont les plus similaires parce qu'ils co-occurrent avec d'autres mots, sur la base de relations syntaxiques: noms sujets de verbes, noms compléments. On obtient ainsi une série de catégories qui correspondent aux différentes facettes du domaine: type de malade, nom de l'hôpital, symptômes, moment de l'admission, médicament administré, action du médicament, etc. Il reste à programmer l'ordinateur pour l'analyse automatique du contenu. Celle-ci s'effectue en quatre étapes: - Dépistage des structures syntaxiques; - Régularisation grammaticale, par une série de transformations paraphrastiques visant à réduire la diversité des expressions (décomposition de toute assertion en sujet, verbe, complément; conversion de la voix passive en voix active; développement des expressions contenant des conjonctions de coordination, lemmatisation, affectation de marqueurs temporels adéquats aux formes canoniques des verbes); - Formatage de l'information (alignement des éléments d'information semblables sous la même catégorie). On obtient ainsi une série de colonnes (une cinquantaine en pédiatrie). Chaque assertion élémentaire est susceptible de contenir différents modificateurs, comme NEG(ation), MODAL (incertitude, évidence) et le temps.
- Normalisation. Cette étape consiste à
remplir les cases vides avec les éléments implicites
d'information contenus dans l'ensemble du texte.
Les recherches de Schank et de ses étudiants
sur la compréhension des histoires et des articles de journaux
vont dans le même sens.
L'avantage de ce genre de système réside
dans sa relative indépendance par rapport au domaine et
dans sa relative transportabilité.
3.3 Remplacement des bases de données par
des bases de connaissances
Zarri (1988) note une approche intermédiaire
entre une base de données relationnelles et un système
documentaire: SIGMINI qui "est utilisé de manière
opérationnelle pour la gestion de documents textuels dans
le domaine minier et aussi pour la gestion d'objets archéologiques."
(Zarri, 1988, p.35)., avec une indexation manuelle. La structure
est établie au fur et à mesure de l'ajout d'informations
dans la base, selon un modèle auto-structurant.
Mais, pour la fourniture de réponses synthétiques,
ce ne sont plus des documents ou des passages de documents qui
doivent être fournis, mais une réponse "intelligente",
adaptée au niveau de connaissance et aux intérêts
de l'interlocuteur. Les documents et les questions y disparaissent
au profit d'une représentation conceptuelle. Ainsi certaines
bases de données seront, à l'avenir, remplacées
par des bases de connaissances. SCISOR (System for Conceptual Information Summarization, Organization and Retrieval) est
un prototype qui analyse les dépêches
de presse concernant les opérations d'acquisition et de
fusion de sociétés financières. En plus de
répondre à une question, il peut résumer
toutes les informations qu'il possède sur un événement
et tenir au courant un utilisateur des nouveaux faits qu'il reçoit
après une interrogation.
Quant à RESEDA, il s'agit d'un système
expert sur des biographies de personnages célèbres
au Moyen-Age, dont la première version a été
réalisée par Zarri entre 1978 et 1984 et dont une
version réduite réalisée en LE_LISP est disponible
sur machines UNIX et sur Apple, depuis avril 1987. La continuation
de ce projet, entreprise en 1987 s'attaque, entre autres, à
"la définition d'un langage de description des connaissances
(Knowledge Description Language = KDL) très avancé
qui tient compte, par exemple, de la distinction entre connaissances
de type "assertionnel", "en extension" (Snoopy
est le briquet de Charlie Brown") et connaissances de type
"terminologique", "en intension" ("Un
briquet est un type de chien de meute /un chien de meute est un
chien ...) et à la création d'outils d'"acquisition
automatique des connaissances" pour parvenir à une
automatisation, du moins partielle, du "remplissage"
des IIRSs/LKBS (Zarri, 1988, p.34). Un autre projet est signalé par Zarri également:
"La stratégie consistant à traduire
une question d'utilisateur dans un langage de représentation
des connaissances évolué, et de se servir de la
représentation obtenue pour apparier une description, dans
les termes du même langage, du "contenu sémantique"
d'un document est utilisée aussi par De Jaco et Gerbolino
1986) dans le projet "Information Retrieval Based on Artificial
Intelligence Techniques" (De Jaco et Gerbolino 1986) en cours
de réalisation au CSI de Turin (Italie). Le langage de
représentation des connaissances retenu pour ce projet
est inspiré par le "métalangage" de RESEDA."
(Zarri, 1988, p.34)
3.4 Interfaces en langue naturelle
Pour permettre aux utilisateurs d'accéder
directement aux bases de données et, sans passer par un
intermédiaire et sans avoir à apprendre les langages
d'indexation, de commande et d'interrogation, on a développé
ces dernières années plusieurs systèmes intelligents,
capables d'interpréter des énoncés en langue
quasi-naturelle. Dans les versions les plus élaborées,
ils sont dotés de mécanismes de compréhension
et de génération automatiques ainsi que de mécanismes
d'inférences.
Ces systèmes vont bien au-delà des
interfaces intelligentes commercialisées (Deschâtelets,
1986) qui se "bornent" à accomplir des technicalités
de communication comme le branchement à un serveur, la
conversion d'une stratégie de recherche en une autre lorsque
l'on passe d'une base à l'autre ou d'un serveur à
un autre, le formatage des données récupérées
pour le transfert dans un système personnel ou même
l'analyse statistique de quelques caractéristiques des
résultats de la recherche.
Les connaissances linguistiques et extra-linguistiques
nécessaires varient selon que l'interface exploite une
base de données bibliographiques, une base de données
relationnelles contenant certains faits sélectionnés
ou une base de données textuelles.
Dans les systèmes documentaires, les interfaces
transforment la question en une équation de recherche qui
va fouiller les fichiers inverses, après avoir consulté
une base de connaissances constituée la plupart du temps
d'un thésaurus. Elles affichent des documents et peuvent
tirer parti du contenu de ceux qui sont jugés pertinents
par l'utilisateur pour reformuler la question, comme le font DIALECT
et SPIRIT. Elles exploitent donc la structure et le contenu habituels
des banques de données. IOTA de Chiaramella et Defude
modélise l'utilisateur, de même que IR-NLI II de
Brajnik, Guida et Tasso. I3R de Croft et Thomson, prévoit
sept systèmes experts.
Pour les interfaces des bases de données
relationnelles, on pense, entre autres, à TELI (Ballard,
1987) et à FIDO (Eugenio, 1987) et aux interfaces de la
firme ERLI (Clemencin, 1988) et de Herman, Sabah et Vilnat (1988)
pour l'interrogation des Pages jaunes en France. Elles peuvent
avoir à générer une réponse en langue
naturelle. Il en est de même des systèmes qui résument
un ensemble d'informations textuelles sous forme d'une réponse
synthétique et que nous verrons dans la section suivante.
3.4.1 Modélisation de l'intermédiaire
Dans un système documentaire, l'intermédaire effectue quatre tâches principales: 1) il interprète le besoin de l'utilisateur à partir du problème exprimé en langue naturelle; 2) il choisit la ou les meilleures bases de données susceptibles de fournir le plus de réponses adaptées à ce besoin; 3) il aide à formuler la question sous une forme admissible par l'ordinateur, donc en consultant le langage documentaire approprié (liste d'autorité, thésaurus) et en utilisant la syntaxe d'interrogation propre au système.
4) A partir des résultats et des jugements
de pertinence posés par l'utilisateur et lui-même,
il reformule la question jusqu'à l'obtention de résultats
satisfaisants. Pour les auteurs d'EURISKO (Barthes et Glize), "l'ensemble des opérations accomplies par l'intermédiaire [...] se rapproche des techniques de "planning" et de "génération de plan" [...] dans l'acception "intelligence artificielle" de ces termes." (Zarri, 1988, p.29)
Pour cela, il doit posséder un certain nombre
de connaissances spécialisées et avoir, entre autres,
un modèle des BdD, un modèle de l'utilisateur, un
modèle du stade de définition du problème
auquel est parvenu cet utilisateur, etc. Des études fonctionnelles
sur le dialogue entre un bibliothécaire de référence
et un utilisateur, menées surtout en Angleterre, ont permis
de préciser ces modèles et ont servi de prélude
à des réalisations concrètes. 3.4.2 Modélisation de l'utilisateur
Pour fournir une réponse adaptée,
il faut connaÎtre son interlocuteur, ses motivations, ses
connaissances, etc. C'est pourquoi on commence à doter
les systèmes de modèles d'utilisateurs. Ceux-ci
peuvent être permanents, dynamiques ou temporaires et déduits
de la question posée. Leur complexité varie.
3.4.3 Modélisation du dialogue
Certains chercheurs se préoccupent tout particulièrement
des aspects coopératifs du dialogue personne-machine (Kalita,
Joshi, entre autres)et s'appuient sur les théories de l'énonciation
et des actes de langage.
3.4.4 Connaissances linguistiques, sémantiques
et pragmatiques
Selon que l'interface n'a que des questions à
interpréter ou bien doit aussi comprendre les textes de
la base de données et générer des réponses
elles aussi en langue naturelle, les niveaux de connaissances
nécessaires peuvent varier grandement. Il devient de plus
en plus difficile de se passer de connaissances sémantiques
et la résolution des anaphores, des ellipses, des énoncés
vagues et des ambiguités lexicales nécesitent bien
souvent des connaissances pragmatiques. 3.5 Création d'outils d'aide à l'analyse, au repérage et à la synthèse:
thésaurus a priori et a posteriori, bases
de connaissances
La qualité des méthodes d'analyse
et de repérage automatiques dans les bases de données
repose en grande partie sur la qualité des représentations
du domaine.
Dans les systèmes documentaires, elle sont
habituellement fournies par des thésaurus. Or, ceux-ci
sont souvent constitués "manuellement", tout
en étant gérés, édités et consultés
par ordinateur, comme nous l'avons dit plus haut. La conception
a priori de thésaurus souffre des mêmes défauts
que l'indexation humaine: subjective, parfois peu cohérente,
elle est également longue et coPteuse et les résultats
deviennent vite désuets.
Aussi a-t-on eu très tôt (avec Doyle,
au début des années soixante) l'idée de constituer
des thésaurus a posteriori, à l'aide des algorithmes
de classification automatique qui font ressortir les liens d'association
entre les mots des textes ou les descripteurs assignés
par des indexeurs; c'est donc une méthodologie facilement
transportable et implantable sur de grands corpus. Ainsi, AID
(Associative Interactive Dictionary) a été mis au
point sur une collection de 500 000 références bibliographiques
accompagnées de leurs résumé (Doszkocs, 1979).
Parce qu'il est construit à partir du lexique des banques de données, le thésaurus a posteriori s'avère très utile pour assister l'utilisateur dans la formulation de sa question. Il constitue une représentation des thématiques de la BdD, des différents angles sous lesquels telle ou telle notion est envisagée dans le corpus (Lexinet et Leximappe à l'INIST, en France). En outre, des systèmes experts d'aide à l'interrogation recherchent les similarités de contenu ou de structure entre les mots contenus dans les questions formulées en langue naturelle et le contenu des BdD: c'est le cas de IOTA, par exemple.
Mais les mêmes interrogations sur la nature des unités à retenir se posent que celles que nous avons soulevées à propos de l'indexation automatique, avec, en plus, le choix de la longueur de l'intervalle entre les termes cooccurrents. Enfin, les cooccurrences ne font que mettre en évidence les phénomènes de surface sans qualifier les divers rapports qui se nouent entre eux, en structure profonde. L'interprétation reste à la charge de l'être humain. Des traitements syntaxiques contribuent à affiner la méthode, comme nous l'avons vu à propos du LSP. REALIST (Retrieval Aids by Linguistics and Statistics) dévelopé à Munich (Thurmair, 1986) se fonde lui aussi sur une analyse morpho-syntaxique et statistique pour élaborer un outil d'aide au repérage consulté par l'utilisateur (Zarri, 1989, p.22). La disponibilité de dictionnaires sur support lisible par ordinateur et la consultation de banques de terminologie peuvent aider à préciser, sans intervention humaine, certains liens lexico-sémantiques qui pourraient permettre d' élargir ou de rétrécir une stratégie de recherche. L'analyse automatique ou assistée par ordinateur des corpus textuels peut aider à constituer des représentations plus conceptuelles dans lesquelles les liens sont qualifiés. .
HIERARCHIE DE Lyddia.???
Quant aux bases de connaissances, elles posent,
elles aussi, tout le problème de la diversité des
représentations en fonction de la nature des connaissances
à représenter et de l'utilisation qu'on veut en
faire, de même que le problème de l'acquisition
et de la mise à jour. Les textes en langue naturelle fournissent
un gisement de termes et de connaissances que l'on a intérêt
à exploiter, dans une perspective d'intégration
des différents outils de représentation plutôt
que de façon compartimentée, selon des traditions
disciplinaires qui tendent à disparaÎtre devant l'expèce
de continuum que représentent les diverses utilisations
possibles des sources textuelles par les utilisateurs.
CONCLUSION
Nous avons constaté que les systèmes
d'information documentaire sont concernés au premier chef
par les recherches en linguistique informatique et en intelligence
artificielle. Ils ont toujours traité des données
textuelles, mais de façon relativement sommaire, d'une
part à cause de la grande quantité de données,
d'autre part à cause du développement insuffisant
des méthodes d'analyse de textes. Mais les méthodes
de gestion de l'information documentaire sont effectivement en
pleine mutation. Même si les systèmes documentaires
ont eu recours à l'ordinateur dès le tout début
et si les logiciels qui leur sont destinés constituent
une part importante des industries de l'information, l'utilisation
qu'ils en font actuellement est bien différente, au fur
et à mesure que le stockage des textes intégraux
se répand et que les clientèles se diversifient.
Les logiciels qui sont actuellement mis au point dans les laboratoires
de recherche et qui commencent à apparaÎtre sur le
marché exploitent les résultats des recherches
sur la compréhension et la génération automatiques
des énoncés en langue naturelle. Ils nécessitent
des études encore plus poussées sur les modes d'acquisition
et de représentation des connaissances. Ces logiciels appartiennent
non seulement à l'informatique documentaire, mais aussi
aux industries de la langue.
Ainsi les progrès technologiques sont-ils
accompagnés d'une forte demande de recherches théoriques
sur la communication humaine en langue naturelle. Plusieurs disciplines
convergent (sciences cognitives, sciences de l'information, informatique
documentaire, linguistique informatique, philosophie), plusieurs
applications s'intègrent.
Tout ceci conduit non seulement à des transformations
importantes dans les tâches des bibliothécaires et
des documentalistes, mais aussi à l'urgence de modifier
et enrichir les programmes de formation et à établir
des passerelles entre les différents programmes. Enfin, l'enjeu est considérable pour la survie et le développemetn de la langue française, comme l'a récemment souligné Becle:
"Le développement des systèmes
de communication homme/machine en langage naturel ou pseudo-naturel
nécessite des efforts particuliers dans le domaine du traitement
automatique du français. Assurer à la langue française
les fonctions de médiation avec les technologies nouvelles
correspond à un enjeu stratégique. La langue est
en effet le vecteur essentiel de l'appropriation du savoir, du
transfert de l'information, et il convient en ce sens de maÎtriser
les technologies les plus pointues qui permettront d'accéder
en français aux sources d'information les plus variées."
(Becle, 1989, p.7)
BIBLIOGRAPHIE DES SOURCES CITEES
Carmel, Lucie; Vidalenc, Isabelle. "Typologie
des logiciels utilisés dans le domaine de la bibliothéconomie
et des sciences de l'information." Montréal: Ecole
de bibliothéconomie et des sciences de l'information; juin
1989. 9 p. dactylographié.
Deschâtelets, Gilles. "The intelligent
interface concept in online searching." The Canadian Journal
Of Information Science / Revue de l'Association canadienne pour
les sciences de l'information, 11(2),1986, pp.13-34..
Doszkocs, Tamas E. AID: an associative interactive
dictionary for online bibliographic searching. Thèse. Ann
Arbor: University of Maryland, 1979. 110 p.
Hirschman, L. et al. "Grammatically-based automatic
word classs formation." Information Processing and Mangement,
11, 1975, pp.39-57.
Keitz, Wolfgang von. "Automatic indexing and
the dissemination of information." INSPEL, 20(1), 1986, pp.46-67.
Lubkov, M. "De l'inforamtique documentaire à
la documentation électronique." Archimag, no 23, 1989,
pp. 28-30.
Membrado, M. "Génération d'un
système conceptuel capable de traiter un langage de type
semi-naturel" . Bulletin du C.I.D.; l'informatique documentaire.,
mars 1989, pp.9-67.
Rohou, C. "La gestion automatisée des
thésaurus." Documentaliste, 24(3), mai-juin 1987,
pp. 103-108.
Sager, N. et al. "Automatic encoding of clinical
narrative." Comput. Biol. Med., 12(1),1982, pp.43-56.
Todeschini, C. et Farrell, M.P. "An expert system
for quality control in bibliographic databases." Journal
of the American Society for Information Science, 40(1), 1989,
pp.1-11.
Zarri, G.P. "Etat de l'art - les nouvelles tendances
de l'informatique documentaire." Bulletin du C.I.D.; l'informatique
documentaire, 32, décembre 1988, pp.11-40. |