Retour à l'accueil Remonter

Comment les logiciels de bases de données bibliographiques et textuelles peuvent-ils répondre aux différents besoins de leurs utilisateurs?

Par

Suzanne Bertrand-Gastaldy



Notice biographique

Suzanne Bertrand-Gastaldy est professeure agrégée à l'Ecole de bibliothéconomie et des sciences de l'information, à l'Université de Montréal. Détentrice d'une licence, d'un Diplôme d'Etudes Supérieures et d'un C.A.P.E.S. en Lettres Classiques (Lyon, France), ainsi que d'une maÎtrise en bibliothéconomie (Université de Montréal), elle rédige actuellement une thèse de doctorat en sémiologie (Université du Québec à Montréal). Elle est chercheure au centre d'ATO (Analyse de Texte par Ordinateur) de cette université. Son enseignement, ses travaux de recherche et ses publications portent sur l'analyse de l'information, l'indexation et les langages documentaires. Elle a agi comme consultante auprès de divers organismes publics et para-publics tant au Canada qu'à l'extérieur du pays et a effectué, à plusieurs reprises, des missions d'enseignement à l'étranger. En tant que présidente du Comité des études, elle a coordonné récemment l'évaluation et la refonte du programme de maÎtrise de l'EBSI. Elle fait partie du comité mis sur pied par le Conseil Canadien des Archivistes pour rédiger des normes d'indexation pour les documents d'archives. Elle est également membre du conseil d'administration de la Bibliothèque nationale du Québec.

RÉSUMÉ

L'expansion des bases de données en plein texte parallèlement à l'existence des bases de données bibliographiques entraÎne non seulement une multiplication et une diversification de la clientèle mais aussi une hétérogénéité croissante des corpus. Cette double évolution n'a pas modifié l'objectif fondamental de l'interrogation: le repérage de l'information pertinente avec le maximum d'exhaustivité et de précision et le minimum d'effort, mais une communication plus naturelle entre les utilisateurs et l'ordinateur est plus que jamais nécessaire. Pour cela, il faut d'une part tenir compte de tous les paramètres relatifs aux besoins, pourtant difficiles à cerner, d'autre part respecter la nature textuelle du matériau à représenter tout en adaptant les traitements aux particularités des différents corpus. Étant donné le nombre de connaissances linguistiques et extra-linguistiques à prendre en compte, on doit opter pour un compromis entre qualité et quantité. Selon les éléments du contexte, différentes solutions sont donc proposées par les concepteurs de logiciels pour l'aide à l'analyse et à l'interrogation. Celles-ci sont passées en revue. On conclut à la nécessité de conserver le caractère interactif du processus, ce qui signifie la mise au point d'outils linguistiques et cognitifs de plus en plus perfectionnés, sans pour cela limiter a priori l'exploration des corpus par les utilisateurs eux-mêmes, dans des conditions diverses, complexes et changeantes.

INTRODUCTION

Avec la prolifération des micro-ordinateurs de plus en plus puissants et la disponibilité de toutes sortes de textes lisibles par ordinateur, le marché de l'analyse et du repérage des données en plein texte connaÎt une croissance beaucoup plus forte que celle des données bibliographiques, pourtant plus nombreuses. Le risque est grand que les producteurs de logiciels, attirés par l'appât du gain, prétendent détenir la solution à tous les problèmes.

A première vue, on pourrait penser que peu de choses ont changé sous le ciel documentaire. Fondamentalement, les utilisateurs de bases de données en texte intégral ne poursuivent-ils pas le même objectif que ceux qui interrogent les bases de données en texte réduit: le repérage de l'information pertinente, avec le maximum d'exhaustivité et de précision, et aussi avec le minimum d'effort? Ne s'agit-il pas, dans les deux cas, de trouver les moyens de faciliter l'interaction entre la base de données et les utilisateurs et, pour cela, de représenter le contenu de chaque document pris individuellement, de la base dans son ensemble et des questions?

A y regarder de plus près cependant, le contexte technologique risque de modifier profondément la problématique.

D'une part, la clientèle est de plus en plus nombreuse: aux chercheurs, enseignants et étudiants, se joignent désormais administrateurs, décideurs, hommes de lois, techniciens, simples citoyens, etc. Ces individus supportent moins que les habitués des bases de données bibliographiques de communiquer avec l'ordinateur à l'aide de langages de commandes et de langages documentaires artificiels, très éloignés de la langue naturelle dans laquelle sont rédigés les textes; certains tolèrent difficilement l'intervention d'intermédiaires humains. L'éventail des types de questions auxquelles les textes peuvent apporter des éléments de réponse est sans doute beaucoup plus large que dans le cas des signalements bibliographiques.

D'autre part, les documents disponibles sur support informatique sont eux aussi de plus en plus diversifiés: textes administratifs, législatifs, normatifs, journalistiques, littéraires, etc. Ils relèvent de domaines multiples, avec des vocabulaires, des constructions syntaxiques et des structures textuelles très hétérogènes.

L'on peut donc se demander dans quelle mesure les traitements effectués par les logiciels respectent la nature linguistique des énoncés et si l'on est suffisamment conscient de la complexité et de la multiplicité des interactions entre des textes et des lecteurs hétérogènes, pour prétendre pouvoir les mettre en communication facilement. Enfin l'on peut s'interroger sur la capacité d'appliquer des solutions uniformes dans des conditions aussi diverses.

Après avoir rappelé brièvement ce qu'implique le dialogue personne-machine dans le contexte des bases de données, nous essaierons de faire le point sur ce que nous savons des utilisateurs et des documents pour nous pencher finalement sur la nature des solutions proposées et leur efficacité.


1. CE QU'IMPLIQUE LE DIALOGUE PERSONNE-MACHINE DANS UNE BASE DE

DONNÉES BIBLIOGRAPHIQUES OU TEXTUELLES

La communication entre les auteurs des documents et les interrogateurs s'effectue grâce à une série d'intermédiaires. La situation-type dans les systèmes traditionnels correspond à peu près à ceci:

. la base de données comprend un sous-système de stockage et de gestion des données qui contient la représentation électronique des textes intégraux, le cas échéant celle des résultats de l'analyse des textes tels que perçus par la structure cognitive des indexeurs et exprimés en langage documentaire; de certains éléments du fichier bibliographique et/ou textuel dans le(s) fichier(s) inversé(s) mis au point par les concepteurs du système. Les connaissances sur le domaine sont enregistrées dans un thésaurus. Le sous-système d'interface, pour sa part, accepte les stratégies de recherche, les représente la plupart du temps en langage artificiel (différent du langage d'analyse, du moins dans sa syntaxe), les compare au contenu des fichiers inversés et édite les résultats de la recherche.

. Les intermédiaires humains incluent les concepteurs de la base de données et, le cas échéant, les concepteurs des langages documentaires, les indexeurs, et le bibliothécaire ou spécialiste de l'interrogation qui effectue la recherche pour le compte de l'utilisateur: il analyse son besoin d'information, exprimé en langue naturelle, se charge de sélectionner la bonne base de données, la bonne stratégie de recherche adaptée aux capacités du système et la représente sous une forme acceptable par ce système. L'utilisateur final porte un jugement de pertinence sur les documents ou passages de documents repérés.

La communication est donc relayée: plusieurs intermédiaires, de nature hétérogène (êtres

humains et ordinateur) modifient, à plusieurs reprises, les énoncés des auteurs et les questions des utilisateurs avant de les mettre en relation; ils recourent à plusieurs langages (la langue naturelle et des langages artificiels). La communication est à la fois différée et directe: les auteurs des énoncés primaires et secondaires ne sont pas présents lorsque l'utilisateur final en prend connaissance. Mais un dialogue direct s'établit entre celui-ci et le bibliothécaire de référence.

De plus en plus, les intermédiaires humains sont remplacés par la machine: le dialogue est pris en charge par l'interface; l'indexation, la condensation et la classification sont soit supprimées, soit effectuées automatiquement. Pour que l'interaction soit réussie, ne faut-il pas qu'elle soit la plus naturelle possible? Cela supposerait que la machine soit dotée des mêmes connaissances que celles que possèdent les humains pour comprendre les textes et les questions en langue naturelle, pour adapter les analyses et les réponses aux différents utilisateurs. Ces derniers devraient, à leur tour, pouvoir se constituer un modèle fidèle du contenu de la base de données ou de la structuration conceptuelle du domaine, ce qui nécessiterait des représentations synthétiques adaptées à leurs besoins. Cette situation idéale exigerait non seulement des connaissances linguistiques, mais aussi des connaissances supplémentaires sur les domaines couverts, sur le contexte de production des textes, sur les utilisateurs et leurs motivations, sur le savoir-faire des intermédiaires chargés de l'analyse et du repérage des informations, etc.

Il ne suffit plus de faire coòncider quelques mots clés figurant à la fois dans la base et dans les questions. Les réponses attendues d'une base de données textuelles peuvent aller de l'affichage des textes intégraux eux-mêmes jusqu'à leur représentation condensée - si possible en fonction de l'état de connaissances de chaque utilisateur, en passant par la signalisation des passages pertinents de textes, en réponse à toutes sortes de questions, formulées si possible en langue naturelle.

Nous allons d'abord passer en revue les principaux problèmes liés au premier pôle de la communication, les utilisateurs.


2. LES BESOINS DES UTILISATEURS

2.1 Multiplication et diversification croissante des utilisateurs

Aux professionnels de la documentation (indexeurs, bibliothécaires de référence, gestionnaires de documents, archivistes, etc.) qui ont longtemps joué le rôle d'intermédiaires entre les systèmes et les utilisateurs recrutés surtout parmi les chercheurs, enseignants et étudiants, se sont progressivement ajoutés toutes sortes d'utilisateurs finals, souvent à la fois producteurs et consommateurs de textes. Leurs rapports avec la documentation électronique échappent au contrôle des services institutionnels comme les bibliothèques, centres de documentation, services secondaires ou serveurs. Comment cerner les besoins d'une clientèle aussi nombreuse et dispersée? Quel genre d'assistance leur est nécessaire dans l'interaction avec les bases de données?

2.2 Quelques paramètres relatifs aux besoins

La diversité des utilisateurs s'accompagne d'une hétérogénéité et d'une complexité croissantes de leurs besoins, car de nombreux paramètres entrent en ligne de compte:

- leur connaissance des systèmes automatisés en général, des systèmes de gestion textuelle en particulier: veulent-ils utiliser à leur guise toutes les commandes disponibles ou bien préfèrent-ils s'en remettre à quelques automatismes de repérage, quitte à se priver de certains traitements évolués, mais compliqués?

- leur connaissance du domaine représenté par la base de données: aux non-spécialistes il faudrait fournir une carte conceptuelle du domaine afin de faciliter leur orientation et la mise au point de leurs stratégies de recherche, alors que les experts n'en auront cure.

- leur connaissance de la base de données elle-même, de son contenu, de sa structuration, des politiques ou algorithmes d'analyse et de classification, etc.

- leur connaissance du type de textes gérés par le système: peuvent-ils localiser d'emblée les différents éléments de la macrostructure de ces textes, même si elle n'est pas explicitement marquée par la typographie ou la mise en page, ou bien faut-il la reconstituer pour eux, sous forme de table des matières ou de résumé indicatif?

- les objectifs d'utilisation : les représentations les plus utiles varient en fonction de ce que l'on veut faire: on peut accéder à un corpus pour trouver ce qui est dit d'un thème donné, corriger des textes, en rédiger d'autres du même type, effectuer une analyse stylistique, étudier des tendances, préparer une synthèse, faire des recherches longitudinales, établir des corrélations, naviguer parmi les thèmes, les passages ou les textes qui s'appellent les uns les autres, etc. En principe, les utilisateurs ne devraient plus être limités par la recherche sujet qu'imposait l'indexation par mots-clés .

- les exigences du contexte de travail : si la rapidité d'accès aux données prime, une analyse sémantique approfondie est iréaliste, car elle nécessite une intervention humaine. Mais, en l'absence d'un contrôle des expressions synonymiques et d'une structuration hiérarchique des concepts, le taux de rappel risque, dans certains corpus, d'être faible, à moins que les utilisateurs ne soient très familiers avec le vocabulaire. Un taux de précision élevé au moment du repérage nécessiterait l'élucidation des homographies et des homotaxies.

- le nombre des utilisateurs : plus la clientèle est importante et plus les interactions avec la base de données sont nombreuses, plus il vaut la peine d'investir dans un traitement préalable des textes, afin de minimiser le temps perdu par chacun pour élaborer des stratégies de recherche complexes et pour trier les résultats "bruyants" du repérage.

Tous les paramètres énumérés peuvent se combiner pour donner une palette impressionnante de besoins si la clientèle est hétérogène. A cela, il faudrait encore ajouter d'autres problèmes comme:

. le caractère évolutif des besoins : même si les utilisateurs sont relativement homogènes, au fur et à mesure que se développe une certaine familiarisation avec le domaine, avec les documents, avec les outils, etc., leur besoin d'assistance diminue et ils risquent de se sentir limités par les possibilités offertes.

. le caractère individuel et collectif des besoins : il est dangereux de concevoir un système d'analyse et de repérage des données textuelles uniquement à partir d'un portrait-type des utilisateurs, car chaque individu appréhende les textes avec ses propres connaissances et intérêts. Pour augmenter la rentabilité de ces bases de données, il faudrait à la fois satisfaire une collectivité et permettre des traitements ad hoc pour répondre à des objectifs particuliers (Bertrand-Gastaldy, 1990).

2.3 Difficulté de cerner les besoins réels

Il est d'autant plus difficile de cerner les besoins réels que, pour une bonne part des nouveaux utilisateurs, les systèmes de gestion de bases de données textuelles et même bibliographiques constituent une nouveauté.

Interrogés sur ce qu'ils attendent, les utilisateurs :

. d'une part, manifestent une sorte d'auto-censure (ils modulent leurs attentes en fonction de ce qu'ils croient pouvoir demander à un système automatisé, d'après leur expérience parfois très mince, sinon nulle des systèmes en général);

. d'autre part, font preuve d'un manque d'imagination (car ils n'ont pas l'habitude de l'interaction en ligne avec un texte).

Il doit y avoir une période d'adaptation, de socialisation aux textes et aux outils d'analyse et de repérage pour que les utilisateurs découvrent comment ils peuvent s'en servir dans la résolution de leurs problèmes.

On peut surmonter ces obstacles en les observant dans l'exécution de leurs tâches: cette observation met en évidence des difficultés souvent très grandes dans l'interaction avec les bases de données, alors que les enquêtes révèlent généralement un taux relativement élevé de satisfaction. Dans le cas de personnes travaillant avec des textes sur papier, il vaut mieux leur demander pourquoi ils les consultent, ce qu'ils en font, et non pas ce qu'ils attendent d'un système de gestion de bases de données textuelles. On suggère aussi de les mettre en contact avec des prototypes, car des possibilités nouvelles engendrent souvent des besoins nouveaux.

Une autre difficulté provient du fait qu'on ne peut pas extrapoler le besoin réel à partir des questions posées aux systèmes existants, car elles sont souvent exprimées maladroitement et ce n'est qu'après un dialogue de clarification avec un intermédiaire ou après une série d'interactions avec la base que les motivations réelles peuvent être précisées.


2.4 Disparité des données concernant les diverses clientèles

Face à toute cette complexité, le danger existe qu'on calque les produits sur les clientèles que l'on connaÎt le mieux; or, pour le moment, on a surtout étudié les interrogateurs de catalogues de bibliothèques et de bases de données bibliographiques en ligne, dans des environnements linformatiques assez traditionnels. Quand on sait la lenteur avec laquelle évoluent les logiciels et le contenu de ces bases, malgré la remarquable convergence des résultats d'enquêtes, on a tout lieu d'être inquiets sur l'adéquation des logiciels destinés à des clientèles émergeantes comme les fonctionnaires ou administrateurs à l'égard desquels on avoue volontiers son ignorance.


3. LES CORPUS A REPRÉSENTER

La qualité de l'interaction entre les bases de données et leurs utilisateurs dépend naturellement, comme nous l'avons dit, de la nature des deux éléments en présence, et il nous faut maintenant examiner d'un peu plus près les paramètres du contenu.

3.1 La reconnaissance tardive des particularités du matériau textuel

Pendant longtemps l'indexation et le repérage par mots clés ou par chaÎnes de caractères extraites des titres et des résumés ont été privilégiés. Les mêmes méthodes appliquées aux textes intégraux ont engendré des résultats catastrophiques, notamment en termes de rappel (Blair, 1985) et l' on a reconnu un peu tardivement les diverses connaissances à mettre en oeuvre pour la compréhension et la production d'un texte . Il a fallu admettre l'incapacité des descripteurs isolés à rendre compte du sens des textes, bien qu'ils demeurent utiles pour les classifier rapidement et grossièrement (CREDO, 1987: 14).

3.2 Quelques paramètres relatifs aux corpus

- la quantité de textes à traiter: plus la quantité est importante, plus la représentation devrait permettre la discrimination au repérage, mais plus hélas, il est difficile de mettre en oeuvre des traitements automatiques affinés; on doit bien souvent se contenter de méthodes statistiques, beaucoup plus grossières.

- l'étendue des domaines couverts par ces documents: une représentation des connaissances du domaine nécessaires pour une interprétation automatique des textes n'est possible que pour des univers restreints.

- le taux d'accroissement de la base de données: un apport fréquent de documents limite à des traitements rapides, et, par conséquent, assez rudimentaires. Le fait que le corpus soit ouvert peut entraÎner des changements de thématiques, un apport de connaissances nouvelles et nécessiter des mises à jour du vocabulaire contrôlé ou de la base des connaisances. C'est un problème qui ne se pose pas lorsqu'on veut représenter des corpus fermés, comme les monographies ou certains fonds d'archives.

- la stabilité des documents eux-mêmes : alors que dans les bases de données bibliographiques, on est habitué à traiter des documents qui sont écrits une fois pour toutes, dans les organisations, il faut composer avec des textes qui sont modifiés constamment. Il ne sera sans doute pas rentable d'investir dans des traitements très fins, s'il faut les recommencer périodiquement.

- l'hétérogénéité des textes : depuis que la saisie des textes s'est généralisée, le contenu des bases de données s'est diversifié. On ne recense plus seulement les articles scientifiques ou les rapports de recherche, mais à l'intérieur d'une organisation, par exemple, on peut retrouver de la correspondance, des mémos, des contrats, des décisions administratives, des textes réglementaires, directives, des conventions collectives, des lois, des griefs, des règlements de griefs, etc.

- la normalisation du contenu : si chacun de ces types de textes répond à des normes explicites ou implicites de rédaction, celles-ci sont extrêmement différentes les unes des autres et les stratégies à mettre en oeuvre pour les analyser sont multiples. Il reste encore beaucoup de recherches à faire d'abord pour découvrir la "grammaire" des différents types de textes, ensuite pour l'appliquer à l'analyse et au repérage. Girill (1985), par exemple, a montré comment une structure hiérarchique de l'information facilite de beaucoup le repérage en ligne par comparaison avec une organisation narrative ou "autonome". Bien d'autres éléments que la structure textuelle entrent en ligne de compte. Selon que le vocabulaire est répétitif ou varié, spontanément contrôlé ou au contraire mal fixé, les besoins de contrôle et de structuration a posteriori seront différents. Des énoncés fortement nominalisés seront traités beaucoup plus facilement que des textes où les propositions subordonnées et incidentes sont courantes. Un langage de spécialité, parce qu'il représente un sous-ensemble de la syntaxe et du vocabulaire de la langue naturelle, se prête plus facilement à un traitement automatique (Grishman et Kittredge, 1986). En général il est destiné à un groupe d'usagers qui partagent une même approche du réel et les mêmes habitudes de communication écrite (politiques de gestion, manuels d'entretien, rapports boursiers). Des études comme celles de Didier (1990) sur la structure et l'organisation du texte législatif, ainsi que sur le lexique du droit constituent un apport précieux pour la mise en place de stratégies d'exploitation assistée par ordinateur. Mais tous les corpus ne sont pas réductibles à des langages de spécialité.

A ces paramètres concernant les corpus à traiter, il faudrait ajouter d'autres éléments contextuels, et non des moindres, comme les coPts impliqués.


4. QUELQUES EXEMPLES DE LA DIVERSITÉ DES SOLUTIONS ADOPTÉES

4.1 L'aide à l'analyse des textes

Face à toute cette complexité, il n'est pas étonnant que les logiciels n'offrent pas tous les mêmes solutions pour la représentation du contenu de chaque texte pris individuellement ou de l'ensemble de la base de données. Un compromis doit être trouvé entre qualité des représentations et quantité / hétérogénéité des informations à traiter.

. L'inadéquation des chaÎnes de caractères

Bien que les chaÎnes de caractères, affectées, dans certains cas, de propriétés statistiques et/ou de positionnement présentent de nombreux attraits comme la facilité de mise en oeuvre, la transportabilité, la faiblesse des coûts et la suppression des délais dans la mise à disposition des textes, ainsi que l'accès direct aux corpus sans apprentissage d'un langage documentaire, elles sont tout à fait inadaptées pour la représentation du sens, puisqu'elles constituent soit des termes simples, soit des éléments de termes composés et sont ambiguæs hors contexte. Les logiciels qui y recourent occultent la plupart des phénomènes morphologiques, lexicaux, syntaxiques et sémantiques à l'oeuvre dans un texte. Si elles ont pu constituer un pis-aller pour la recherche dans les textes réduits, comme les titres et les résumés, elles génèrent dans les textes pleins beaucoup de bruit à cause de la polysémie et de l'homographie et beaucoup de silence à cause de la synonymie lexicale et syntaxique. Alors que la plupart des systèmes de repérage fonctionnent encore ainsi, il est à prévoir qu'ils seront de plus en plus réservés aux systèmes d'information situés aux deux extrémités de l'éventail: ou bien les systèmes d'information personnels, avec peu de fichiers (dans ce cas, l'utilisateur connaÎt bien les textes qu'il a lui-même produits, et il utilise l'ordinateur essentiellement pour repérer rapidement un mot ou un passage à corriger) ou bien les serveurs de grandes bases de données multidisciplinaires contenant des millions de références dans lesquelles on veut sélectionner celles qui risquent de correspondre le mieux à une thématique donnée. Mais le fardeau de l'analyse repose entièrement sur l'utilisateur final.

. La représentation des concepts par des termes simples ou composés

Une des nécessités premières consiste à extraire non pas les chaÎnes de caractères, mais les termes, simples ou composés, susceptibles de représenter les concepts du domaine, dont on peut vouloir expliciter l'organisation sur l'axe paradigmatique dans un thésaurus ou que l'on doit lier en énoncés complexes pour former des propositions. Depuis longtemps les spécialistes de l'information documentaire se heurtent au problème de la définition de ce qu'est un terme et ont, dans l'ensemble, adopté une attitude pragmatique. Ils suivent désormais avec intérêt les études théoriques menées dans les autres disiciplines. Les méthodes de reconnaissance des termes composés offertes dans les différents logiciels sont multiples. Elles peuvent tenir plus ou moins compte de la nature linguistique du texte et faire intervenir à des degrés divers les traitements automatiques ou humains. Alors que les logiciels d'interrogation sur les chaÎnes de caractères laissent à l'interrogateur le soin de reconstituer tant bien que mal des unités complexes à l'aide des opérateurs d'adjacence et de distance, les traitements situés en amont incluent, selon les cas:

. la reconnaissance des segments répétés par des méthodes purement statistiques de cooccurrences, comme dans LEXINET (Chartron et al., 1989);

. le marquage en contexte avec ajout de caractérisations aux chaÎnes de caractères, comme avec DOCUMASTER;

. la catégorisation lexicale des entrées du lexique et recherche de séquences dans le texte, comme dans SATO (Paquin, Dupuy et Rochon, 1990);

. une analyse syntaxique partielle;

. une analyse morpho-syntaxique complète des phrases, comme dans TERMINO (David et Plante, 1990; Perron,1989).

Certains corpus, parce qu'ils sont fortement stéréotypés, ne requièrent pas la mise en oeuvre d'analyseurs susceptibles de traiter toutes les particularités de la langue. Inversement, même un excellent analyseur syntaxique du français serait impuissant à traiter la plupart des tournures de certains langages de spécialité, comme celui des rapports médicaux .

Les évaluations de l'efficacité au repérage des différentes méthodes (Salton et al., 1990) concluent, comme il fallait s'y attendre, à l'insuffisance des analyses syntaxiques, à la nécessité de traitements lexico-sémantiques et de connaissances dépassant le cadre phrastique (anaphores, ellipses) et portant sur le contexte d'énonciation et d'utilisation des textes.

. La représentation des relations lexico-sémantiques

Si les logiciels de repérage traditionnels permettent, grâce à la troncature et au masque, de pallier les silences importants dPs aux variantes orthographiques et flexionnelles, ainsi qu'aux antonymes, ils exigent de la part des interrogateurs une certaine dextérité et compliquent les stratégies de recherche. Ils sont impuissants à régler les problèmes de synonymie; en outre, l'absence d'indications sur les relations hiérarchiques et les relations collocationnelles peut empêcher un utilisateur peu familier avec le domaine de modifier les taux de rappel et de précision. Les homographes et polysèmes peuvent être détectés facilement par l'affichage du contexte, mais la manipulation d'opérateurs comme le SAUF n'est pas facile pour tous. Les textes intégraux, parce qu'ils peuvent contenir des tournures beaucoup plus variées que les résumés qui passent par le filtre préalable d'un analyste, rendent plus nécessaires que jamais le contrôle et la structuration a posteriori du vocabulaire, du moins pour certains types d'utilisateurs et de corpus. êtant donné les coPts impliqués, il existe une panoplie de solutions qui nécessitent plus ou moins d'intervention humaine:

. classification automatique des termes (sans indication de la nature des liens), comme dans LEXIMAPPE (Courtial, 1985);

. construction d'une pseudo-classification à partir des stratégies de recherche des utilisateurs;

. construction a posteriori d'un thésaurus (à l'aide de l'ordinateur) à partir du dépistage de certains marqueurs de relations dans les corpus. Ainsi, les définitions contenues dans les lois ou les recueils de politiques administratives permettent de représenter fidèlement, sans distorsion, l' acception de termes pour le micro-monde des auteurs et des utilisateurs. Il faut prendre garde cependant au grand nombre de connaissances non explicitées dans les textes, parce que supposées connues des lecteurs. Donc, on ne peut espérer extraire automatiquement d'un corpus tout ce qui serait nécessaire à un novice. L'exploitation des bases de données terminologiques (comme Termium) disponibles sur CD-ROM risque de fournir des relations qui s'éloignent un peu, mais pas trop, des pratiques communicationnelles de la clientèle, à cause de la différence de constitution des corpus; quant aux définitions des dictionnaires (comme le Grand Robert), on devrait y recourir seulement pour les corpus généraux. Les recherches sur les régularités des formules de définitions de dictionnaires (Alhswede et Evens, 1988; Calzolari, 1988; Evens et al., 1985)pour générer des liens mot-relation-mot sont intéressantes dans la mesure où elles sont généralisables à d'autres corpus.

Il existe quelques évaluations comparatives de l'efficacité au repérage:

. des thésaurus incluant des relations lexico-sémantiques par rapport aux classifications automatiques de chaÎnes de caractères: toutes les relations apportent une amélioration, sauf les relations d'antonymie qui entraÎnent une nette dégradation du taux de rappel (Wang et al., 1985)

. des thésaurus incluant des relations lexico-sémantiques par rapport à l'absence d'outils pour l'interrogation en plein texte: l'ajout de synonymes extraits de la base de données textuelles aux termes choisis par les utilisateurs apporte une élévation importante du taux de rappel (de 45% à 82%) sans diminuer beaucoup le taux de précision (de 51% à 41%), d'après Kristensen et Jèrvelin (1990). L'inclusion de termes reliés fait passer le rappel à 100% et la précision à 33%. La substitution du vocabulaire des utilisateurs par les synonymes et les termes reliés donne de moins bons résultats, surtout en ce qui concerne la précision pour les termes reliés (13%).


. La représentation des relations syntaxico-sémantiques et la prise en compte de la sémantique phrastique

Pour représenter le sens des propositions, l' ordre d'énumération des termes n'est efficace que dans de rares domaines où il n'y a aucune ambiguité possible, pour un expert, sur le sens de la relation implicite qui les unit. Dans ce cas, les opérateurs de proximité peuvent, lors de l'interrogation, être suffisants (Kristensen et Jèrvelin, 1990), surtout si on recourt en même temps à la troncature pour récupérer à la fois les expressions nominales et verbales. La plupart du temps, cependant, il faut représenter la nature des liens pour éviter le bruit. Des systèmes d'indexation humaine ou assistée par ordinateur comme PRECIS introduisent autour de la représentation de l'action des relations syntaxico-sémantiques entre les termes (objet, agent, lieu, temps). Le problème est d'arriver à les déduire automatiquement des différentes structures de surface des discours en langue naturelle (Gay et Croft, 1990), et ce malgré les nombreux cas d'ambiguités, par exemple entre les processus et les résultats des processus, comme le souligne Ricciardi Rigault à propos de "administration"(1990: 134). C'est d'ailleurs ce qui gêne l'application de règles simplistes proposées par certaines normes documentaires pour la différenciation entre termes et syntagmes. La finesse de l'analyse dépend évidemment de l'aide que l'on veut apporter aux utilisateurs. Certains d'entre eux préféreront l'affichage et le tri de nombreux contextes, d'autres voudront un résultat plus "propre" nécessitant un tamisage préalable. Comme certaines ambiguités ne peuvent être levées qu'au prix d'une connaissance d'un contexte pouvant s'étendre jusqu'au texte tout entier, il est irréaliste d'éliminer toute intervention humaine, que ce soit à l'étape de l'analyse ou à celle du repérage.

La synonymie lexicale a son pendant au niveau de l'énoncé. Alors que les paraphrases et la synonymie phrastique sont inexistantes dans les indexats en vocabulaire contrôlé et assez peu fréquentes dans les résumés soumis à des normes rédactionnelles strictes, elles peuvent être monnaie courante dans les textes pleins et constituer un obstacle sérieux à l'obtention d'un bon taux de rappel (Debili, 1982). Il faut autant que possible détecter toutes les réalisations lexicales et syntaxiques équivalentes.

. La prise en compte de la sémantique textuelle

Les représentations du contenu textuel devraient permettre de discriminer entre le thème central et les thèmes accessoires (CREDO, 1987: 14)

Le repérage en plein texte peut avoir pour objectif, selon les besoins, de repérer toutes les occurrences d'un terme, d'un concept, d'une proposition ou, au contraire les passages ou les textes dont le thème principal est le concept ou la proposition recherché. Aussi les recherches sur le thème et le rhème, sur le thème principal et les thèmes secondaires qui ont été entreprises timidement dans la décennie 1970, se poursuivent-elles actuellement. Presque toute l'activité documentaire automatique a ignoré très longtemps la sémantique textuelle. Ce sont souvent des chercheurs extérieurs au domaine qui ont osé mettre en doute le bien-fondé de descripteurs isolés choisis en dehors de toute considération de l'enchâssement des micro-propositions dans les macro-propositions (Dijk, 1977). Depuis, plusieurs travaux ont été effectués sur les phénomènes de cohésion, notamment sur l'anaphore (Vidalenc, 1989; Liddy, 1990) et sur les phénomènes de cohérence, comme dans TOPIC (Hahn, 1990) qui permet d'envisager, outre le repérage de passages pertinents basés sur la cohérence interne plutôt que sur l'occurrence de tel ou tel mot, la condensation des textes à des niveaux variés de généralité, selon les besoins.

Les évaluations sur l'efficacité de tels traitements sont rares, car ils sont récents. Comme la plupart des recherches se concentrent sur la résolution d'un problème à la fois, il est difficile d'obtenir une amélioration sensible. Tout dépend aussi de la structure d'information des corpus choisis. Certains textes administratifs, par exemple, sont pauvres en anaphores et un système de résolution n'est pas nécessaire.

. L'expertise des indexeurs

De nombreuses connaissances doivent être prises en compte, en dehors des connaissances linguistiques. Très peu de recherches ont été effectuées sur les processus cognitifs de l'analyse par un intermédiaire, si bien que les systèmes experts d'aide à l'indexation sont encore rares. Il faut, entre autres, modéliser les stratégies de résolution de problèmes mises en oeuvre par les indexeurs ainsi que les connaissances extra-linguistiques qu'ils utilisent, comme celles du domaine, des contextes de production des textes, des besoins des utilisateurs, etc. Des études récentes s'appuient sur l'analyse de protocoles pour décomposer les tâches et les stratégies des intermédiaires: David (1990) et Endres-Nigemmeyer (1990).

Un certain nombre de projets américains sont connus, qui exploitent l'expertise des indexeurs:

. pour l'indexation: Machine Aided Indexing (MAI) du Central Abstracting & Indexing Service de l'American Petroleum Institute (Martinez et al., 1987); NASA MAI (Genuardi, 1990); le système BIOSIS pour les titres d'articles de périodiques (Vleduts-Stokolova, 1987) et Indexing Aid Project ou MedIndEx (Medical indexing expert) system (Humphrey, 1987; 1989) pour la littérature médicale à la National Library of Medicine;

. pour la classification également: classification automatique de télex bancaires (Young et Hayes, 1985, cité par Shuegraf, 1990); classification automatique par exploitation statistique des décisions humaines antérieures dans AIR (Automatic Indexing and Retrieval System) de Lustig; contrôle de la qualité de l'analyse et correction des erreurs de classification (Todeschini et Farrell, 1989).

4.2 L'aide à l'interaction avec la base de données

Nous avons dit, au début, qu'outre la représentation adéquate du contenu des documents, la facilité d'interaction avec la base de données était une des conditions nécessaires à la satisfaction des besoins des utilisateurs finals.

Cette facilité d'interrogation n'est pas immanente au système; elle dépend des connaissances et préférences des utilisateurs. Par exemple, le mode menu, le mode commandes et le dialogue en langue naturelle peuvent chacun répondre à une catégorie de clients (Pylyshyn, 1985). L'interaction peut consister en l'exécution d'une séquence d' opérations mécaniques comme le branchement à un serveur, mais aussi en des tâches plus complexes de consultation du thésaurus, d'ajustement de la question en fonction des jugements de pertinence posés sur les documents repérés, ou encore d'interprétation du problème de l'utilisateur et nécessiter un dialogue de clarification avec ce dernier pour aboutir au choix de la meilleure base de données ou pour établir la stratégie de recherche la plus appropriée.

Des nombreuses études menées dans le cadre des catalogues ou des bases de données bibliographiques en ligne, on a, en effet, retenu que les utilisateurs ont de la difficulté à choisir la bonne base de données, à formuler leurs stratégies de recherche, à sélectionner les termes acceptés par le système, à élargir ou à rétrécir leurs stratégies pour faire varier les taux de rappel et de précision (GÜdert et Horny, 1990, p.66).

L'efficacité de l'intervention automatique au repérage dépend évidemment de la qualité des représentations qui est elle-même liée au respect de la nature linguistique des corpus. De plus, les interfaces dites conviviales limitent souvent l'exploration des textes, car leur conception repose sur un modèle simpliste des utilisateurs.

Si tous les utilisateurs acceptent d'emblée certains automatismes comme la correction orthographique, d'autres préfèrent choisir eux-mêmes les termes reliés par des relations synonymiques, hiérarchiques ou associatives proposés par le système.

Dans le cas de l'interrogation en langue naturelle, les problèmes d'analyse des questions sont à peu près du même ordre que ceux que l'on rencontre pour les textes, avec des nuances importantes toutefois: l'étendue du vocabulaire risque d'être moindre, de même que la variété des constructions syntaxiques. Les énoncés sont plus courts, moins structurés aussi, puisque, contrairement à ceux des auteurs de documents, ils expriment un manque dans la structure cognitive des interrogateurs. Par contre, l'interface devra être plus tolérante pour les fautes d'orthographe, les erreurs grammaticales et les phrases incomplètes; idéalement, l'interface devrait maintenir le focus, tenir compte des ellipses, fournir des explications, demander des éclaircissements en cas d'ambiguités lexicales ou d' énoncés vagues, être dotée de mécanismes d'inférences et se construire un modèle de l'interlocuteur.

Des réalisations plus modestes existent, qui combinent traitements linguistiques à différents niveaux et traitements statistiques: SPIRIT par exemple (Andreewsky et al., 1988) lemmatise, résoud certaines homographies, détecte des expressions composées, corrige les fautes d'orthographe et présente les résultats par ordre de pertinence décroissante. Les questions en langue naturelle sont traitées comme les textes. Les documents pertinents repérés peuvent constituer à leur tour une question et servir à trouver d'autres documents par un calcul de similarité. L'intérêt de l'interface consiste dans la prise en compte de la nature linguistique des éléments manipulés et de la quantité des données à traiter. Cela contraste avec les logiciels documentaires les plus répandus.

Dans les systèmes les plus élaborés de recherche d'information, la réponse ne consiste pas en un affichage de passages pertinents, mais en la génération d'un énoncé synthétique adapté au niveau de connaissances et aux motivations de l'utilisateur, respectant les principes des actes de langage. On voit bien qu'alors les bases de données textuelles deviennent de véritables bases de connaissances (Zarri, 1988), mais cela ne peut être envisagé que dans des domaines et des corpus très restreints.

Certains systèmes modélisent les connaissances des intermédiaires spécialistes de l'interrogation. De Salvo et Libowitz (1985; 1986) ont conçu un système qui s'appuie sur les heuristiques complexes utilisées par les archivistes pour l'accès sujet aux archives nationales aux États-Unis. DIALECT de Bassano (1988) et IOTA (Chiaramella et Defude, 1987) également.

Une tâche relativement complexe, au premier abord, comme l'appariement de la structure cognitive de l'usager et de la structure de la base de données ne recourt pas obligatoirement à des analyses linguistiques et des connaissances poussées pour venir en aide à l'utilisateur. Pomian (1990) a montré, avec LEXIQUEST, la faisabilité d'un système expert qui modélise les utilisateurs (tout comme DIALECT et IOTA) et leur fournit une aide adaptée en exploitant les correspondances de structures d'association du vocabulaire contenu dans les questions des utilisateurs et la base de données, sans ajout de connaissances relatives au domaine, ce qui assure la transportabilité du système.


CONCLUSION

On doit donc disposer d'un nombre considérable de connaissances pour comprendre le sens d'un énoncé et dialoguer en langue naturelle. Si l'on n'est pas en mesure de toutes les intégrer dans les systèmes de gestion de bases de données bibliographiques et textuelles, on en a au moins compris l'utilité et c'est tout un progrès; en 1978, lors d'un congrès sur Analysis of Meaning, de savants spécialistes de la documentation affirmaient haut et fort que l'analyse automatique du sens ne pouvait être appliquée à la documentation puisque le but de cette dernière a toujours été de réduire les données. C'est ce qui s'appelle confondre la fin avec les moyens!

Le bref survol que nous avons effectué, nous amène à quelques constats:

1) Lorsque les logiciels commercialisés ne vont pas au-delà des chaÎnes de caractères, c'est de la fausse représentation que de parler, à leur propos, d'interrogation "en langage naturel".

2) Ces systèmes ne peuvent pas vraiment prendre en compte la fonction communicationnelle, car l'assistance qu'ils fournissent à l'utilisateur est rudimentaire, voire inexistante. Les utilisateurs - ou les intermédiaires - doivent suppléer avec leurs propres connaissances et l'affichage disponible.

3) Par contre, des systèmes à l'état de prototypes ou déjà commercialisés existent pour expérimenter des approches plus proches du dialogue humain.

4) La suppression de l'intermédiaire humain est illusoire.

5) Elle n'est pas souhaitable. S'il faut aider davantage les intermédiaires et les utilisateurs, chacun selon ses besoins, on ne peut prétendre les remplacer. Ils réclament presque tous un droit de regard. Il faut respecter les individualités et les encourager. Ils ont des structures communes, mais aussi individuelles et surtout changeantes.

6) La nature des solutions offertes est très diversifiée: elle dépend beaucoup du contexte: quantité, couverture du domaine, nature plus ou moins stéréotypée des textes à représenter, nature des questions auxquelles il faut répondre, habiletés des interrogateurs, etc. Il s'agit d'aider les utilisateurs à interagir avec les textes, non de supprimer ces interactions. Il faut aussi faire preuve de beaucoup d'humilité: ils sont parfois bien plus habiles que nous à trouver des solutions adaptées. La richesse des textes étant inépuisable, il serait dommage de créer des systèmes qui en limitent l'exploration. C'est pour cela qu'il vaut mieux privilégier la compatibilité de logiciels répondant à un besoin spécifique.

La question n'est pas seulement de savoir jusqu'où on peut assister l'être humain, comme dans d'autres applications d'analyse de textes par ordinateur, mais aussi jusqu'où on doit le faire: maintenant que les textes sont accessibles, le caractère interactif du système d'information doit être préservé, car aucune interprétation d'un corpus textuel ne devrait être figée par un intermédiaire humain ou un algorithme, comme on l'a fait trop souvent en substituant au texte une indexation correspondant à l'interprétation d'un indexeur à un moment donné .

La meilleure façon de répondre aux besoins ne consiste-t-elle pas à respecter la langue naturelle autant que faire se peut, mais aussi à admettre les limites des traitements actuellement possibles et d'outiller l'utilisateur pour qu'il puisse compenser?

En somme, il s'agit de rien de moins que de gérer la diversité, la complexité et le changement! Et nous n'avons pas abordé le problème des documents composites incluant non seulement du texte, mais aussi des images, des schémas, des colonnes de chiffres!


BIBLIOGRAPHIE

Ahlswede, Thomas; Evens, Martha. Parsing vs text processing in the analysis of dictionary definitions. In Hobbs, Jerry, ed. Proceedings of the Association for Computational Linguistics (ACL) 26th Annual Meeting ; 1988 June 7-10; Buffalo, N.Y.: 217-224.

Andreewsky, F.; Debili, F.; Fluhr, C. S.P.I.R.I.T; syntactic and probabilistic indexation and retrieval of information in texts. RIAO 88 ; vol. 3: 31-36.

Bassano, J.-C. DIALECT; un système expert pour la recherche documentaire. Thèse d'État. Paris: Université d'Orsay; 1986.

Bertrand-Gastaldy, Suzanne. L'indexation assistée par ordinateur: un moyen de satisfaire les besoins collectifs et individuels des utilisateurs de bases de données textuelles dans les organisations. ICO; intelligence artificielle et sciences cognitives au Québec ; 2(3); septembre 1990: 71-91.

Blair, David C.; Maron, M.E. Full-text information retrieval: further analysis and clarification. Information Processing & Management ; 26(3); 1990: 437-447.

Blair, David C.; Maron, M.E. An evaluation of retrieval effectiveness for a full-text document retrieval system. Communications of the Association for Computing Machinery ; 28(3); March 1985: 289-299.

Chartron, Ghislaine; Dalbin, Sylvie; Monteil, Marie-Gaelle; Vérillon, Monique. Indexation manuelle et indexation automatique. Documentaliste ; 26(4-5); juillet-octobre 1989: 181-187.

Chiaramella, Y.; Defude, B. A prototype of an intelligent system for information retrieval: IOTA. Information Processing & Management ; 23(4); 1987: 285-303.

Courtial, J.-P. Comparaison de cartes leximappe obtenues par indexation manuelle et par indexation lexicale automatique d'un échantillon de 12 articles; conséquences sur l'interprétation des différents types d'indexation et sur l'interprétation des cartes Leximappe. Documentaliste ; 22(3); mai-juin 1985: 102-107.

CREDO (Centre de recherches sur la documentation et l'information). Banque de données Cultures et Religions antiques; Introduction méthodologique . Villeneuve d'Ascq: CREDO/ Université de Lille III; 1987.

David, Claire. Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire . Mémoire de maÎtrise. Montréal: Université de Montréal, Département de Communication; septembre1990.

David, Sophie; Plante, Pierre. De la nécessité d'une approche morpho-syntaxique en analyse de textes. ICO; intelligence artificielle et sciences cognitives au Québec ; 2(3); septembre 1990: 140-155.

Debili, Fathi. Analyse syntaxico-sémantique fondée sur une acquisition automatique de relations lexicales-sémantiques . Thèse de doctorat d'État. Paris: Université Paris XI, Centre d'Orsay; 1982. 290 p.

Dijk, Teun A. Van. Perspective paper: complex semantic information processing. In: Walker, D.C.; Karlgren; Kay, Martin, eds. Natural Language in Information Science. Perspective and Directions for Research . Stockholm: Skriptor, 1977: 127-163.

Endres-Niggemeyer, B. A procedural model of abstracting, and some ideas for its implementation. In: Czap, Hans; Nedobity, Wolfgang, eds. TKE'90: Terminology and Knowledge Engineering; Proceedings of the Second International Congress on Terminology and Knowledge Engineering, 2-4 October 1990, University of Trier (FRG) . Frankfurt: Indeks Verlag; 1990: : 230-243.

Evens, Martha; Vandendorpe, James; Wang, Yih-Chen. Lexical-semantic relations in information retrieval. In: Williams, Stephanie, ed. Human and Machines . Norwood, NJ: Ablex; 1985: 73-100.

Gay, L.S.; Croft, W.B. Interpreting nominal compounds for information retrieval. Information Processing & Management ; 26(1); 1990: 21-38.

Girill, T.R. Narration, hierarchy and autonomy; the problem of online text structure. ASIS Proceedings ; 1985: 354-357.

GÜdert, Winfried; Horny, Silke. The design of subject access elements in online public access catalogs. International Classification ; 17 (2); 1990: 66-76.

Grishman, Ralph; Kittredge, Richard, eds. Analyzing Language in Restricted Domains: Sublanguage Description and Processing . Hillsdale, NJ: Lawrence Erlbaum Associates; 1986

Hahn, Udo. "Topic parsing: accounting for text macro structures in full-text analysis." Information Processing & Management ; 26(1); 1990: 135-170.

Kristensen, Jaana; Jèrvelin, Kalervo. The effectiveness of a searching thesaurus in free-text searching in a full-text database; International Classification ; 17 (2); 1990: 77-84.

Liddy, Elizabeth DuRoss. Anaphora in natural language processing. Information Processing & Management ; 26(1); 1990: 39-52.

Paquin, Louis-Claude; Dupuy, Luc; Rochon, Yves. Analyse de texte et acquisition de connaissances: aspects méthodologiques. ICO; intelligence artificielle et sciences cognitives au Québec ; 2(3); septembre 1990: 95-113.

Perron, Jean. TERMINO: un système de dépouillement terminologique. ICO; intelligence artificielle et sciences cognitives au Québec ; décembre 1989: 23-33.

Pomian, Joanna. Statistiques et connaissances de structure; application à la reformulation des requêtes documentaires . Thèse de doctorat nouveau régime; Paris: Université Pierre et Marie Curie-Paris VI: 1990. 281 p.

Pylyshyn, Z.W. Intelligent Database Interfaces: a Survey of Some Artificial Intelligence Applications . London, Ont.: University Of Western Ontario, Centre for Cognitive Science; 1985. 23 p. (COGNEM; 17).

Ricciardi Rigault, Claude. Problèmes de représentation des textes. ICO; intelligence artificielle et sciences cognitives au Québec ; 2(3); septembre 1990: 127-139.

Salton, G.; Buckley, C; Smith, M. On the application of syntactic methodologies in automatic text analysis. Information Processing & Management ; 26(1); 1990: 73-92.

Shuegraf, Ernst J. A survey of expert systems in library and information science. The Canadian Journal of Information Science ; 15(3); September 1990: 42-57.

Todeschini, C.; Farrell, M.P. An expert system for quality control in bibliographic databases. Journal of the American Society for Information Science ; 40(1); 1989: 1-11.

Wang, Yih-Chen; Vanderhope, James; Evens, James. Relational thesauri in information retrieval. Journal of the American Society for Information Science ; 36(1); 1985: 15-27.

Zarri, G.P. État de l'art - les nouvelles tendances de l'informatique documentaire. Bulletin du C.I.D.: l'informatique documentaire ; 32; décembre 1988:11-40.