LA PROBLEMATIQUE DE L'ENONCIATION DANS LES SYSTEMES DOCUMENTAIRES

ENTIEREMENT OU PARTIELLEMENT AUTOMATISES

Par

Suzanne Bertrand-Gastaldy

INTRODUCTION

Nous nous proposons d'analyser la pertinence d'appliquer le cadre théorique de l'énonciation aux systèmes documentaires partiellement ou entièrement automatisés.

Un système documentaire a pour but de mettre en relation des utilisateurs avec des documents susceptibles de leur fournir l'information recherchée.

Pour atteindre ce but, plusieurs opérations sont effectuées par divers intermédiaires - les bibliothécaires ou documentalistes. D'une part, ceux-ci sélectionnent, regroupent, analysent et organisent les messages livrés par les auteurs des documents primaires, afin d'en réduire à la fois la quantité et la variété. Ils les représentent donc sous une forme acceptable par le sous-système de stockage et de repérage qu'est la base de données. D'autre part, ils analysent les questions des utilisateurs pour les condenser et les représenter elles aussi sous une forme acceptable par cette même base de données.

Des interactions complexes se produisent donc à l'intérieur du système d'information pour extraire de millions de textes produits à des moments et en des lieux divers par de multiples auteurs une information qui satisfasse tour à tour des millions de demandes exprimées par autant d'utilisateurs dans des espaces et à des moments fort diversifiés.

Malgré la diversité des personnes, des espaces et des moments, les processus de communication dans un système documentaire, sont-ils assimilables à ceux que l'on observe dans l'énonciation?

Rappelons que l'énonciation "suppose un locuteur et un allocutaire; [qu'] elle prend place dans le temps à un moment déterminé; [que] les actants de l'énonciation (locuteur et allocutaire) se trouvent dans l'espace à un endroit déterminé au moment où elle a lieu." (Cervoni, 1987, p.27)

La théorie de l'énonciation, parce qu'elle introduit les conditions de production et d'utilisation des messages ainsi que la relation entre les signes et leurs utilisateurs, pourrait-elle pallier les lacunes théoriques déplorées régulièrement dans le domaine de l'information documentaire et ainsi contribuer à la compréhension et à l'amélioration du transfert d'information?

D'abord, une brève présentation des composantes d'un système d'information documentaire, au moyen de quelques schémas couramment employés, permettra de mettre en lumière les différents locuteurs et allocutaires ainsi que les différents moments et les différentes conditions de production des énoncés, lors de l'analyse et de l'interrogation.

Ensuite, un examen minutieux des diverses analyses produites à partir des textes primaires nous conduira à nous demander si nous sommes encore en face d'énoncés, s'il est possible d'y repérer des traces de l'énonciation.

Enfin, nous chercherons dans les dialogues entre êtres humains et entre la personne et la machine, les indices habituels de l'énonciation.

Plusieurs illustrations sont fournies en annexes.

1. QUELQUES SCHEMAS A PROPOS DES SYSTEMES DOCUMENTAIRES

Quelques schémas vont nous permettre de mettre en place les composantes de la communication dans un système d'information documentaire.

1.1 LA CHAINE DOCUMENTAIRE ET SON ENVIRONNEMENT

Le schéma de la chaÎne documentaire (présenté à l'annexe P1) décrit la succession des opérations. Celles-ci, nous l'avons dit, visent à réduire la variété des modes d'expression du contenu et des questions et à faire coincider contenu des documents et contenu des questions. Les producteurs et les utilisateurs d'information sont toutefois tenus à l'écart du schéma. Ce sont leurs énoncés qui figurent comme intrants du système.

1.2 LE SCHEMA GENERAL DE LA COMMUNICATION

Le schéma général de la communication, bien connu, met en place l'émetteur et le récepteur, de même que la transmission du signal par l'entremise d'un canal, mais il évacue complètement le sens produit par la mise en relation des locuteurs, des signes et du contexte.

1.3 LES INTERACTIONS HUMAINES A L'INTERIEUR D'UN SYSTEME

DOCUMENTAIRE, SELON L'APPROCHE COGNITIVE

Quelques auteurs britanniques ont introduit récemment l'approche cognitive dans la présentation des systèmes documentaires (Belkin, 1984, p.114; Ingwersen, Vickery, 1984; Vickery et Vickery, 1987)

1.3.1 Schéma d'Ingwersen

Le schéma d'Ingwersen (P2) offre l'avantage de mettre l'accent sur les actants de la communication et surtout sur le rôle de leurs représentations mentales qui se modifient au cours de la communication: les auteurs, les utilisateurs et les bibliothécaires de référence qui interrogent le système pour le compte des utilisateurs. Par contre, il est assez discret sur le rôle des autres intermédiaires humains qui conçoivent la base de données et représentent le contenu des documents et il ne dit rien des intermédiaires informatiques.

1.3.2 Proposition d'un schéma plus détaillé

Il faut donc compléter le schéma d'Ingwersen et détailler ainsi les composantes du système documentaire:

- un ensemble de documents primaires issus de la structure cognitive d'une multiplicité de locuteurs;

- une base de données comprenant:

. parfois, et de plus en plus souvent, un fichier des représentations des textes primaires (bases de données en texte intégral);

. toujours, un fichier bibliographique constitué des documents secondaires, c'est-à-dire des représentations réduites, formalisées des textes telles que perçues par la structure cognitive des bibliothécaires intermédiaires qui en ont fait la description et l'analyse;

. différents index (ou fichiers inverses) qui réorganisent, de façon automatique, certains éléments du fichier bibliographique et textuel. Ils ont été mis au point par les concepteurs du système;

. un sous-système d'interface qui accepte les stratégies de recherche, les représente, les compare au contenu des fichiers inversés et édite les résultats de la recherche.

La recherche bibliographique s'effectue donc non pas sur le fichier bibliographique ou textuel, mais sur une de ses représentations possibles , le fichier inverse.

- le bibliothécaire ou spécialiste de l'interrogation qui effectue la recherche pour le compte de l'utilisateur: il analyse son besoin d'information, se charge de sélectionner la bonne banque de données, la bonne stratégie de recherche adaptée aux capacités du système et la représente sous une forme acceptable par ce système. De plus en plus cependant, les utilisateurs préfèrent ne pas déléguer leur recherche à un intermédiaire et l'effectuer personnellement;

- les utilisateurs finals: avec la prolifération des ordinateurs personnels et la mise en marché de systèmes vidéotex, ils sont de plus en plus hétérogènes, de moins en moins captifs. Leurs intentions, leurs situations, leurs préférences, leurs croyances, leurs connaissances de la banque de données, du système utilisé, des systèmes d'information en général, sont très diversifiées.

Pour récapituler, nous pouvons dire que le système documentaire présente plusieurs particularités par rapport à la communication directe entre deux êtres humains:

. C'est d'abord une communication différée (les locuteurs des énoncés primaires et secondaires ne sont pas présents lorsque l'allocutaire final en prend connaissance.

. C'est ensuite une communication relayée. Une multiplicité d'intermédiaires, de nature hétérogène (êtres humains et ordinateur) modifient, à plusieurs reprises, les énoncés des auteurs et les questions des utilisateurs avant de les mettre en relation. Tous ces intermédiaires sont tour à tour des allocutaires et des locuteurs.. Chacun d'eux met en jeu des modèles cognitifs dont l'ensemble est, lui aussi, fort hétérogène.

. Les deux types d'intermédiaires (personnes et machine) ont une architecture fonctionnelle qui nécessite des représentations de nature très différente. En effet, les énoncés intermédiaires doivent avoir une structure assimilable tour à tour par les programmes d'ordinateur et par le cerveau du locuteur- allocutaire humain, car nous avons affaire à la fois à des structures de symboles utilisées dans l'ordinateur et à des représentations mentales.

C'est le rôle principal d'une interface que d'effectuer les changements de représentation pour passer de la machine à l'homme et inversement.

Cette conversion risque cependant d'éliminer des énoncés originaux bon nombre des marques issues des opérations et processus nécessaires à un transfert adéquat des informations.

1.4 LES LIEUX ET LES MOMENTS DE L'ENONCIATION DANS UN SYSTEME DOCUMENTAIRE

Pour récapituler, nous dirons, provisoirement, que l'énonciation est susceptible de se manifester dans des lieux et à des moments multiples:

a) dans le contenu des BdeD et nous essaierons d'en trouver les traces dans:

- les substituts des textes primaires: les indices de classification, les indexats (ensembles de mots-clés), les résumés indicatifs ou informatifs, produits soit par les auteurs eux-mêmes, soit, le plus souvent, par les analystes (énonciateurs secondaires), soit encore par l'ordinateur dans le cas d'analyse automatique;

- les textes intégraux (primaires), le plus souvent scientifiques, de plus en plus présents dans les BdeD, rédigés par des auteurs (énonciateurs primaires).

Il semble possible d'étudier les manifestations de l'énonciation dans chaque texte ou chaque substitut pris isolément, mais aussi dans l'ensemble des textes ou de leurs substituts.

En outre, l'énonciation peut s'appréhender dans les outils documentaires qui servent à l'indexation: tables de classification et thésaurus, énoncés antérieurs à l'analyse des textes, souvent périmés, inadéquats, fortement marqués par l'idéologie dominante au moment de leur conception, mais canal obligé de l'énonciation secondaire.

b) dans les dialogues qui comprennent:

- les questions que posent les utilisateurs (énonciataires finals) aux bibliothécaires de référence (énonciataires intermédiaires)- dans le cas d'une recherche déléguée;

- les stratégies de recherche établies par ces mêmes bibliothécaires qui deviennent à leur tour des énonciateurs intermédiaires (ou par les utilisateurs eux-mêmes, dans le cas d'une recherche

directe);

- enfin dans les réponses que fournit l'ordinateur;

En somme, la problématique de l'énonciation dans un système d'information touche à la fois le dialogue (humain ou personne-machine) et le monologue (textes intégraux ou condensés).

Il nous faut maintenant examiner de près tous les types d'énoncés, avec l'appréhension que les manipulations effectuées successivement par les hommes et la machine les réduisent à des produits dans lesquels on aurait du mal à reconnaÎtre les marques habituelles de l'énonciation.

2. LES MARQUES DE L'ENONCIATION DANS LE CONTENU DES BASES DE

DONNEES

Nous allons d'abord examiner le résultat des différentes opérations d'analyse en allant des opérations les plus réductrices à celles qui condensent le moins les textes primaires. Nous tiendrons compte des deux étapes: détermination du contenu et "traduction" de ce contenu. Cette "traduction" est en réalité une énonciation seconde (on parle, en bibliothéconomie et sciences de l'information, d'information secondaire, de textes secondaires, de services secondaires, etc.).

Pour terminer, nous dirons quelques mots des marques de l'énonciation dans les textes intégraux que l'on retrouve de plus en plus fréquemment dans les BdeD.

2.1 LES DIFFERENTES OPERATIONS D'ANALYSE DU CONTENU (ENONCIATION

SECONDAIRE)

Trois types principaux d'opérations peuvent être effectuées sur le contenu des documents (P3) et leurs résultats sont illustrés en P4 et P5, à l'exception de la classification.

- La classification consiste à assigner un indice extrait d'un système de classification de façon à situer les documents dans un cadre préétabli de connaissances (cadre universel ou spécialisé) et à les regrouper par affinité de contenu (sur les rayons d'une bibliothèque, dans un bulletin bibliographique imprimé ou dans son équivalent ordinolingue: la base de données).

- L'indexation équivaut à assigner soit un certain nombre de mots clés indépendants, pour faire ressortir les principaux concepts traités dans un document, soit quelques vedettes-matières pour exprimer les principaux sujets (ensembles de concepts) traités.

- La rédaction d'un résumé indicatif ou informatif revient à condenser le texte primaire de façon à produire un énoncé plus court et moins redondant, en langue naturelle.

2.2 LES ENONCIATAIRES-ENONCIATEURS SECONDAIRES

Comme les opérations requièrent des savoirs et des savoir-faire différents, elles peuvent être confiées à trois catégories de personnes: les classificateurs, les indexeurs, les rédacteurs de résumés, mais un même intermédiaire (énonciataire- énonciateur secondaire) peut effectuer les trois opérations successivement.

2.3 LES ACTES DE LANGAGE EFFECTUES

Le résultat des différentes opérations d'analyse est un énoncé dans lequel on reconnaÎt les trois types d'actes de langage mis en lumière par J.L. Austin (1962):

- un acte locutoire qui est l'acte de produire une combinaison de symboles écrite en conformité avec une grammaire et douée de signification.

- un acte illocutoire qui consiste à informer de façon plus concise et prédictible que ne l'a fait l'auteur du texte primaire, dans un cadre prédéterminé, selon le genre d'information à véhiculer. Cet acte est de nature assertive.

Le classificateur indique à quelle classe du savoir appartient le document.

L'indexeur inscrit les concepts ou sujets discutés dans le document.

Le rédacteur de résumés établit, dans une suite de phrases, les relations causales, circonstancielles, et autres entre les concepts. Selon la nature du résumé, il signale les thèmes traités (résumé indicatif) ou fournit des renseignements précis à propos de ces thèmes (résumé informatif).

- un acte perlocutoire qui vise la satisfaction des besoins de l'utilisateur du système; les différents énoncés secondaires (indices de classification, mots clés, vedettes-matières et résumés) répondent à des besoins différents exprimés, en principe, dans des types de questions différentes.

2.4 LES CODES LINGUISTIQUES MOBILISES

Selon la nature des opérations effectuées, l'analyste recourt à un code différent qui est tantôt un code artificiel (ou langage documentaire), tantôt le code de la langue naturelle. On reconnaÎt là un élément de la définition de l'énonciation qui, selon Benvéniste (1970, p.13) est "l'acte même de produire un énoncé [...]. Cet acte est le fait du locuteur qui mobilise la langue pour son compte."

2.4.1 Langue naturelle et codes artificiels (langages documentaires)

Comme la langue naturelle, les langages documentaires sont constitués d'un répertoire de symboles (ou lexique documentaire) organisé selon l'axe paradigmatique et d'un ensemble de règles d'utilisation de ces symboles (ou syntaxe documentaire) correspondant à l'axe syntagmatique.

Toutefois, dans les langages énumératifs comme certains systèmes de classification et répertoires de vedettes-matières, les deux éléments sont indissociables. Le langage documentaire est alors une liste finie de symboles à syntaxe fixe et ne permet pas de générer de nouveaux énoncés.

Mais, contrairement à la langue naturelle, ce sont des langues construites consciemment, dans un but déterminé qui est justement de pallier les principaux inconvénients de la langue naturelle de façon à améliorer le repérage de l'information:

. l'élimination de la synonymie favorise le taux de rappel (proportion des documents pertinents repérés par rapport à l'ensemble des documents pertinents contenus dans le système);

. l'élimination de la polysémie et de l'homographie accroÎt le taux de précision (proportion des documents pertinents par rapport à l'ensemble des documents repérés).

Une question surgit: quand on évalue l'efficacité au repérage de ces divers énoncés, est-on bien conscient des différences de fonctions, de processus et de codes? certainement pas puisqu'on leur soumet les mêmes questions. Lorsqu'on fait des stratégies de recherche séparées pour chaque type d'énoncés, on s'étonne de la différence des résultats obtenus. Mais il ne peut en être autrement, les énoncés interrogés étant différents.

2.4.2 Les systèmes de classification, les répertoires de vedettes-matières et les thésaurus vus eux-mêmes comme des énoncés

Les langages documentaires - dans leur totalité pour les systèmes de classification et les répertoires de vedettes-matières et dans leur composante paradigmatique pour les thésaurus - sont eux-mêmes le résultat d'une énonciation effectuée dans une situation particulière pour des utilisateurs particuliers.

a) les traces de l'énonciateur individuel et de l'hyper-énonciateur

On peut considérer que les langages documentaires sont constitués d'énoncés. Il n'est pas nécessaire, en effet, que les énoncés aient la structure linguistique des phrases. Leurs différentes représentations graphiques, comme un tableau des espèces botaniques (Foucault, 1969, p.109), sont également constituées d'énoncés. L'annexe P6 est un exemple d'une partie de thésaurus exprimée sous forme de cercles concentriques.

Ces énoncés sont conçus par une personne ou un groupe de personnes et ils sont révélateurs d'une idéologie, d'une conception du savoir à un moment donné.

C'est ainsi que la classification de la Bibliothèque du Congrès regroupe socialisme, communisme et anarchisme, range la prostitution dans les déviations sexuelles, l'éducation des enfants dans l'eugénisme et ne fournit pas les mêmes possibil(...)

(...)nceptuelle qui peut varier selon les époques, de façon donc diachronique, et cela se manifeste par leur désuétude. Cette organisation conceptuelle peut également varier, à un même moment, selon les cultures et selon la langue, comme on le remarque lorsqu'on veut traduire un thésaurus.

Ainsi les pommes de terre, en français, font partie de la classe des légumes, alors que, pour des allemands, pommes de terre et légumes appartiennent à deux classes différentes. Au Pérou, les pommes de terre sont incluses dans la classe des plantes à tubercules.

La Bibliothèque du Congrès a changé le terme "calculateur" pour celui d'"ordinateur" des années après que ce dernier soit passé dans l'usage courant.

A travers la structure conceptuelle et le vocabulaire, se laissent donc deviner non seulement l'énonciateur, mais aussi le lieu et le moment de l'énonciation.

b) l'inadéquation des langages documentaires

L'ennui c'est que, conçus à un moment donné, dans un milieu donné, pour des utilisateurs donnés, les langages documentaires peuvent être mobilisés à d'autres moments, dans d'autres milieux, pour d'autres utilisateurs.

Bien souvent, l'énonciataire-énonciateur intermédiaire est contraint de s'approprier un code inadéquat pour effectuer l'acte d'énonciation pour lequel il est payé.

c) les traces de l'allocutaire collectif (les utilisateurs)

Un même langage documentaire ne peut convenir à des clientèles différentes, comme l'ont prouvé la faillite des grandes classifications universelles et la prolifération, à partir du début des années '60, de thésaurus sectoriels, l'équivalent des terminologies de "langues de spécialité", mieux adaptés a des groupes particuliers d'allocutaires.

Par exemple, des spécialistes en administration auront besoin d'une structuration sémantique très fine autour de la notion de PERSONNEL, alors que des botanistes emploieront ce terme pour désigner aussi bien les cadres que le personnel syndiqué ou les employés temporaires.

Mais cela pose le problème de la compatibilité des langages documentaires et de la communication entre systèmes documentaires et banques de données. L'utilisateur est obligé d'apprendre un nouveau langage chaque fois qu'il change de BdeD et c'est ce qui a provoqué l'apparition des macro- thésaurus, répertoires organisés de macro-termes communs à plusieurs domaines du savoir.

On voit bien que le langage documentaire, tout comme le langage naturel, ne peut être considéré comme un objet autonome, fonctionnant par lui- même, indépendamment des personnes, des circonstances et des contextes.

2.5 LES ENONCES SECONDAIRES ET LES MARQUES DE L'ENONCIATION LORSQUE LE CODE EST ARTIFICIEL (CLASSIFICATION ET INDEXATION)

2.5.1 Les marques du code artificiel

Les énoncés produits portent, bien entendu, les marques du code artificiel, aussi bien dans les symboles que dans la syntaxe.

a) pour ce qui relève du répertoire de symboles (ou lexique), le système de la "langue" artificielle que s'approprie l'analyste se traduit par une notation différente selon le système de classification utilisé. Le concept d'"indexation" est rendu par l'indice Z 695.9 dans le système de la Library of Congress (utilisé dans la plupart des bibliothèques universitaires en Amérique du Nord) et par l'indice 025.48 dans le système de la classification décimale de Dewey (qui a cours dans les bibliothèques publiques d'Amérique du Nord). Il serait différent dans le système de la Classification décimale universelle, répandue surtout en Europe et en Afrique. Bien que les descripteurs inscrits dans les thésaurus soient issus du lexique de la langue naturelle, ils sont tout aussi révélateurs des systèmes sémantiques différents qui les sous-tendent. Ainsi, nous l'avons dit, PERSONNEL ne recouvre pas la même notion d'un thésaurus à l'autre. Les utilisateurs des systèmes documentaires ne sont pas toujours conscients de cette difficulté: les descripteurs français attribués à un même texte dans deux banques de données différentes n'appartiennent pas à la même "langue documentaire". Ils font partie de deux systèmes linguistiques différents, qui n'ont, pour ainsi dire, rien à voir avec le système de la langue naturelle, et qui sont consignés dans des thésaurus différents. Il est indispensable, pour interroger correctement une base de données, de connaÎtre - ou plutôt de consulter - le thésaurus qui a servi à son indexation. On dirait aussi que les bibliothécaires l'oublient, puisqu'il leur arrive de doumettre des stratégies de recherche avec des termes pouvant appartenir soit au langage documentaire soit à la langue naturelle des titres, des résumés et des textes.

Si deux thésaurus ont puisé leurs symboles dans deux langues différentes, le même texte sera indexé avec des symboles différents, même si - et c'est très rare - la structure sémantique sous-jacente est la même.

Ce n'est toutefois pas le cas des indices issus des systèmes de classification dont la notation est indépendante des langues naturelles et peut servir de langage-pivot pour la traduction automatique.

En outre, la différence de structure conceptuelle détermine la finesse avec laquelle il est possible de rendre le contenu d'un document.

Hans Wellish (1971) a montré qu'une thèse de Yassin Ahmed Mostapha avait reçu pour seule vedette-matière tirée de la liste des vedettes-matières du Congrès : HYDRAULICS. Indexé à l'aide du

Thesaurus of Engineering and Scientific Terms (TEST), le même livre aurait pu être décrit par: FLOW, CHANNEL FLOW, OPEN CHANNEL FLOW, ROUGHNESS. Mais, indexé avec le Water Resources Thesaurus de l'U.S. Office of Water Resources Research à Washington, il aurait eu comme descripteurs: ROUGHNESS COEFFICIENTS, ROUGHNESS (HYDRAULICS), HEAD LOSS.

b) Les règles syntaxiques

La grammaire des langages documentaires diffère d'un système à l'autre. Il existe tout un arsenal de règles d'utilisation de l'ordre des symboles, de la ponctuation, et de codes comme des opérateurs de rôle pour concaténer l'ensemble des indices ou mots-clés servant à décrire le contenu des documents.

Précoordination ou postcoordination, syntaxe fixe ou syntaxe libre, ordre du langage naturel ou inversion sont autant de caractéristiques qui conditionnent la présentation des résultats de l'analyse.

2.5.2 Les traces de l'énonciataire-énonciateur intermédiaire individuel (l'indexeur)

Le même texte indexé par des personnes différentes ou par la même personne à des moments différents peut se voir attribuer des mots clés différents, symptômes des "interprétants" (au sens de Peirce) différents. C'est le fameux problème connu sous le terme de "cohérence" (cohérence inter-indexeur ou cohérence intra-indexeur), abondamment quantifié (dans une bonne centaine de publications) mais à peu près pas expliqué sur le plan théorique.

Cette différence dans les énoncés secondaires provient à la fois des énonciataires secondaires, de leurs connaissances collatérales (de leurs modèles des utilisateurs, de la collection, du système, du langage documentaire, entre autres), du code mobilisé pour l'énonciation secondaire, des conditions d'énonciation fixées par les politiques du service secondaire et rédigées en partie pour satisfaire les besoins des énonciataires finals.

2.5.3 Les traces de l'énonciataire-énonciateur intermédiaire collectif (le service de documentation)

Pour limiter au maximum la subjectivité et la divergence d'analyse, les services secondaires se dotent, en effet, de politiques d'analyse détaillées. Celles-ci sont issues en partie de la prise en compte des besoins particuliers de la clientèle, de l'utilisation que celle-ci fait des documents, de la taille de la collection, de son rythme d'évolution, du support sur lequel sont stockés les résultats de l'analyse, et aussi du type de documents analysés par le service documentaire.

Tout ceci est d'ailleurs étudié depuis assez longtemps (Bertrand-Gastaldy, 1986).

Ces politiques laissent des traces dans les concepts choisis et leur formulation. Un même texte a été indexé ainsi par ISA (Information Science Abstracts): INFORMATION RETRIEVAL SYSTEM, EVALUATION, BADADUQ, INTERACTIVE SYSTEM, USER REACTIONS, (FRENCH) et par le C.N.R.S.

(Centre national de la recherche scientifique), dans le Bulletin signalétique 101: RECHERCHE DOCUMENTAIRE, MODE CONVERSATIONNEL, REACTION UTILISATEUR.

2.5.4 Les traces de l'énonciataire final collectif (la clientèle du système)

a) les besoins traduits dans les grilles d'analyse

Les analyses d'un même texte peuvent donc diverger selon la clientèle à laquelle elles sont destinées. Les paramètres des besoins sont nombreux et comprennent, entre autres, la qualité du repérage (le taux de rappel désiré détermine l'exhaustivité de l'analyse - le nombre de concepts retenus; le taux de précision conditionne la spécificité des termes choisis). On reconnaÎt le fameux principe de relation de Grice, qui se mesure en pertinence: il s'agit de fournir ni trop peu d'information (rappel trop faible, silence documentaire) ni trop (précision trop faible, bruit documentaire élevé). L'ennui, c'est que l'emploi d'une seule méthode d'analyse ne réussit jamais à fournir cette qualité, le rappel et la précision variant de façon inversement proportionnelle. C'est là donc un autre symptôme de l'incapacité des langages documentaires à satisfaire divers besoins. Il y a également les principes d'ordre (classement alphabétique ou systématique des fichiers) et de prévisibilité.

Chaque service secondaire établit une grille d'analyse qui constitue une liste-questionnaire - un pense-bête, si l'on veut - à l'usage des analystes, contenant les types de concepts à retenir dans un texte primaire. Dans le domaine de l'éducation, la grille d'analyse d'ERIC, aux Etats-Unis, diffère de celle d'EDUQ, au Québec ou de celle d'ONTERIS, en Ontario. En médecine, la grille de la NLM (National Library of Medicine) se distingue de celle de l'IRSST (Institut de recherche en santé et sécurité du travail) ou de celle d'Excerpta Medica.

Voici, à titre d'exemple, un extrait des "Pincipes d'indexation et utilisation du lexique de physique" établis par Le C.N.R.S. (1978, p.3): "D'une façon approximative les descripteurs correspondant aux notions susceptibles d'être rencontrées lors de l'analyse d'un document scientifique ou technique peuvent se classer en un certain nombre de catégories (certains descripteurs pouvant appartenir à deux ou plusieurs de ces catégories) [...]." Les catégories incluent: 1) sciences et techniques fondamentales ou générales - physique, chimie, médecine, métallurgie, électronique; 2) sciences et techniques spécialisées; 3) phénomène et processus; 4) méthodes, techniques, procédés (abstraits ou concrets); 5) appareillage ou équipement; 6) propriétés ou caractéristiques; 7) ensembles concrets ou abstraits ou éléments de base de ces ensembles; 8) conditions opératoires ou de fonctionnement.

b) le dialogisme

Puisqu'on reconnaÎt l'influence de l'allocutaire sur le contenu des énoncés secondaires, il serait intéressant, pour approfondir l'influence de la prise en compte des utilisateurs dans les systèmes documentaires, d'étudier le dialogisme que Cervoni (1987, p.24) présente ainsi:

"Le dialogisme est l'étude de l'énonciation considérée comme mise en communauté et d'une signification et d'une activité intersubjective L'influence de l'allocutaire sur le contenu et la valeur pragmatique des énoncés était reconnue et mentionnée déjà dans les premiers travaux contemporains sur l'énonciation. Mais on n'allait pas jusqu'à en faire une donnée constitutive à mettre sur le même plan que l'intentionnalité du locuteur ou, plus généralement, la fonction du sujet parlant. Le privilège accordé à ce dernier avait pour effet de dénaturer la relation interlocutive. Ce que propose F. Jacques, c'est de recentrer l'étude de l'énonciation sur la relation, de considérer la relation qu'établit une énonciation comme primordiale et irréductible."

c) l'inadéquation et la désuétude de l'analyse documentaire

Si les besoins des utilisateurs sont reconnus, parfois ils ne sont pas satisfaits, en partie à cause des limites des langages documentaires, des formats d'enregistrement et des capacités de repérage du système. Par exemple, bien que les catégories de concepts telles que les matériaux, les processus, etc. soient énoncées, elles ne sont pas étiquetées comme telles dans le format d'enregistrement, donc pas repérables de cette façon. Elles sont inscrites sans marque distinctive, les unes après les autres, puis classées par ordre alphabétique dans les fichiers inverses. Les BdeD relationnelles seraient sans doute mieux adaptées.

Bien souvent aussi, les véritables besoins ne sont pas pris en compte, à cause des stéréotypes entretenus par les concepteurs de systèmes, des limites du langage documentaire ou de la nécessité de s'adresser à une clientèle hétérogène dont aucune des catégories n'est en réalité satisfaite. En voulant s'adresser à tout le monde, on n'adapte le message à personne.

C'est un peu ce que fait remarquer Hudrisier (1982, pp.134-135), à propos non pas de l'analyse des textes mais des images. Selon lui, les grilles d'analyse devraient tenir compte du connoté autant que du dénoté:

"Le documentaliste ne se poserait-il pas trop souvent en censeur épistémologique, estimant que seul l'attestable, le "dénotable" et le "notable" peuvent être l'objet d'analyse? Rares sont en effet les iconothèques qui essaient véritablement de traiter les demandes, pourtant parfaitement recevables, prenant en compte l'approche sensible de l'image. Une iconothèque devrait pouvoir répondre à des demandes touchant au beau ou au laid, au tendre ou au violent, au froid ou à l'érotique ... Et pourtant ces catégories sont souvent largement absentes des analyses, même si elles constituent le "gros" de la demande des utilisateurs.

Tout se passe comme si l'utilisateur avait tort de faire ce type de demande, non pas vis-a-vis de l'institution - car l'iconothécaire reconnaÎtra parfaitement le bien-fondé d'une requête aboutissant à la création de ce type de messages -, mais par rapport aux classifications existantes: l'audace est d'oser parler de classification en ces termes. Ne s'agirait- il pas, en fait, de la propre angoisse du "classificateur" d'images qui craint de ne pas retrouver une image classée sous ce type d'item, de créer des catégories qui se chevauchent les unes les autres (et donc de ne pouvoir distribuer les images dans chaque enveloppe-catégorie) ou encore des catégories non attestables par tous et critiquables?"

C'est sans doute pourquoi les systèmes documentaires sont si peu utilisés, comme l'attestent de nombreuses enquêtes et pourquoi les scientifiques accordent bien plus d'importance aux réseaux informels, aux renseignements donnés par un collègue au téléphone, ou au bar lors d'un congrès. L'interlocuteur partage alors le même modèle conceptuel et peut fournir immédiatement une réponse pertinente.

L'effet perlocutoire recherché: la satisfaction de l'utilisateur aboutit au contraire à un effet perlocutoire non recherché: le découragement des utilisateurs et leur désaffection des services secondaires.

D'ailleurs, la fonction de fourniture de l'information pertinente aux utilisateurs, n'est pas pleinement reconnue dans certains milieux. On éprouve parfois de la difficulté à admettre, par exemple, que les documents d'archives produits, énoncés par des administrations particulières à des fins particulières puissent - au bout d'un certain temps - être utilisés pour d'autres fins (les fins premières n'existant plus, et les administrations et leurs interlocuteurs étant disparus - de recherche historique sur les formations discursives (au sens de Foucault), par exemple, et que, par conséquent, leur contenu doive faire l'objet d'une seconde énonciation adaptée à ces nouveaux besoins d'une nouvelle clientèle.

Mais l'analyse documentaire, vue sous l'angle de l'énonciation, ne contient-elle pas en elle-même sa propre condamnation? Adaptée à un type particulier d'utilisateurs, dans des circonstances particulières pour être réellement pertinente, elle est en même temps destinée à devenir désuète dès qu'elle est stockée pour une longue durée et inadaptée - non pertinente - dès qu'elle a l'ambition de négliger le particulier pour atteindre le collectif.

C'est d'ailleurs tout le problème de l'information. Ce qui est informatif pour une personne ne l'est pas forcément pour l'autre.

Tout cela ne donnerait-il pas raison, en partie du moins - aux tenants de la théorie de l"aboutness"? L'indexation devrait se contenter de consigner ce dont il est question, sans vouloir traiter le sens "le meaning", puisque celui-ci n'est pas intrinsèque au texte, mais dépend de l'interlocuteur qui retient seulement certaines catégories de caractères (pour parler comme Jean-Guy Meunier) en fonction de ses besoins et de ses capacités de traitement.

La véritable fonction de l'indexation n'est-elle pas seulement de diriger l'utilisateur vers le texte, d'indiquer les notions traitées, puisque, de toute façon, la pertinence est toujours du côté de l'utilisateur? Mais il faut alors que le texte soit accessible facilement dans son entier.

2.5.5 Les textes secondaires sont-ils de véritables énoncés?

Bien que nous ayons reconnu, dans les "textes" secondaires produits lors de l'analyse humaine, les marques du code, de l'allocutaire-locuteur individuel et collectif, ainsi que de l'allocutaire final, nous pouvons nous demander si nous avons affaire à de véritables énoncés.

En effet, nous n'y trouvons pas les formes habituelles de l'énonciation: aucun article, aucun déictique, aucun verbe, aucun adjectif ou très peu, pas de formes modales ou temporelles qui permettent de marquer à la fois le locuteur et l'allocutaire, la position du locuteur dans le temps et dans l'espace, et par rapport à son énoncé.

Nous avons pu constater, en effet, que les seules formes retenues sont des symboles extraits de langages documentaires.

Nous y avons toutefois reconnu des traces de la plupart de ces éléments et nous pouvons montrer que ces symboles sont en réalité des symboles- indices.

Pour cela, nous allons relire les propos éclairants de Foucault (1969) dans son chapitre sur "La fonction énonciative".

a) Les symboles-indices

"L'énoncé, même s'il est réduit à un syntagme nominal ("Le bateau!"), même s'il est réduit à un nom propre ("Pierre!"), n'a pas le même rapport à ce qu'il énonce que le nom à ce qu'il désigne et à ce qu'il signifie. [...] Un nom se définit par sa possibilité de récurrence. Un énoncé existe en dehors de toute possibilité de réapparaÎtre, et le rapport qu'il entretient avec ce qu'il énonce n'est pas identique à un ensemble de règles d'utilisation." (Foucault, 1969, pp.117-118)

Chaque indice, chaque mot-clé, est relié à un document qui possède des caractères le distinguant de tout autre document: c'est sa description bibliographique (auteur, titre, mention d'édition, etc.). Deux indexations en tout point semblables, de par leur rattachement à deux documents différents publiés dans des revues différentes, à des dates différentes, constitueront bien deux énoncés différents qu'il faudra interpréter différemment avec l'aide du co-texte et de l'intertexte qui, lui, contient donc aussi un certain nombre d'éléments indiciels.

D'ailleurs la fonction principale du symbole-indice (qui est classé dans un index) est de pointer vers un document (ou vers sa description).

b) Le sujet de l'énoncé

"Un énoncé [...] se distingue d'une série quelconque d'éléments linguistiques par le fait qu'il entretient avec un sujet un rapport déterminé. [...] un énoncé qui ne comporte pas de première personne a tout de même un sujet [...]." (Foucault, 1969, p.121)

L'indexeur n'est pas qu'un simple émetteur de signes, un simple lecteur qui lirait un extrait du langage documentaire.

Même si sa présence n'est pas signalée par des formes indicielles, on trouve sa marque dans le choix des symboles-indices. En effet, malgré les fortes contraintes éditoriales, deux indexeurs différents d'un même service indexent toujours différemment un même texte, comme nous l'avons mentionné plus haut à propos de la cohérence inter-indexeur.

Cela pose d'ailleurs tout le problème de la superposition d'un énonciataire-énonciateur intermédiaire qui, en réalité, interprète un message premier pour en faire un énoncé second. Ce dernier ne peut pas produire les mêmes interprétants que le texte original.

Donc, il y a bien un sujet individuel pour chaque énoncé intermédiaire.

c) Le domaine associé

"[...] la fonction énonciative - montrant bien par là qu'elle n'est pas pure et simple construction d'éléments préalables - ne peut s'exercer sur une phrase ou une proposition à l'état libre. Il ne suffit pas de dire une phrase, il ne suffit même pas de la dire dans un rapport déterminé à un champ d'objets ou dans un rapport déterminé à un sujet, pour qu'il y ait énoncé - pour qu'il s'agisse d'un énoncé: il faut la mettre en rapport avec tout un champ adjacent. [...] Un énoncé a toujours des marges peuplées d'autres énoncés." (Foucault, 1969, p.128)

"[...] il n'y a pas d'énoncé en général, d'énoncé libre, neutre et indépendant mais toujours un énoncé faisant partie d'une série ou d'un ensemble, jouant un rôle au milieu des autres, s'appuyant sur eux et se distinguant d'eux il s'intègre à un jeu énonciatif, où il a sa part aussi légère, aussi infime qu'elle soit." (Ibid., p.130)

C'est ainsi qu'on peut parler de la valeur discriminante d'un mot-clé ou d'un ensemble de mots-clés (indexat). L'indexeur, connaissant la collection déjà indexée, attribue des mots-clés de façon à

distinguer le texte qu'il a entre les mains des autres textes portant sur un sujet semblable ou voisin.

En outre, chaque mot-clé attribué à un texte entretient avec les autres des relations syntagmatiques et l'ensemble des mots-clés attribués dans une banque de données n'a rien à voir avec l'ensemble des descripteurs d'un thésaurus et leurs relations paradigmatiques (voir en P7, la différence entre indexats, à gauche, et thésaurus, à droite).

Cela peut se vérifier sur un corpus. Les études de co-occurrences et de classification automatique effectuées sur des indexats révèlent un lexique ainsi que des relations différentes du lexique et des relations qui figurent dans le thésaurus ayant servi à l'indexation. C'est ainsi qu'au Service d'information et de Documentation de l'Institut du Verre, on s'est rendu compte, il y a quelques années, que des associations comme "verre creux - détergent" présentes dans la BdeD, n'avaient pas été prévues dans le Thésaurus Verrier conçu avant que les lave-vaisselle se répandent dans les foyers (Chastinet et Robredo, 1974).

Idéalement, avant de consulter une banque de données, il faudrait pouvoir consulter le thésaurus pour l'organisation paradigmatique du langage documentaire et la représentation de la banque de données telle que peut la révèler un "thésaurus de recherche" construit, faute de mieux, à partir des co-occurrences (voir en P12, pour un réseau construit à partir des cooccurrences). Mais comme on n'est pas au clair sur les fonctions de ces deux instruments, cela amène actuellement des formules hybrides, avec des thésaurus qui contiennent des relations associatives établies plus ou moins à partir des co-occurrences présentes dans un corpus réel ou hypothétique. Le premier thésaurus semble être l'équivalent de la mémoire sémantique, le second l'équivalent de la mémoire épisodique (à partir de laquelle d'ailleurs se constitue la mémoire sémantique). Faut-il pour cela les confondre en un seul? Des recherches plus approfondies sont nécessaires.

d) L'existence matérielle

"Enfin, pour qu'une séquence d'éléments linguistiques puisse être considérée et analysée comme un énoncé, il faut qu'elle remplisse une quatrième condition: elle doit avoir une existence matérielle." (Foucault, 1969, p.131)

"Les coordonnées et le statut matériel de l'énoncé font partie de ses caractéristiques intrinsèques. [...] il faut qu'un énoncé ait une substance, un support, un lieu et une date. Et quand ces requisites se modifient, il change lui-même d'identité." (Ibid., p.133)

Rattachée à la notice bibliographique d'un document, l'indexation fait partie des éléments descriptifs du document. Bien que la date de son émission ne soit jamais marquée formellement, au fil des années, cependant, le lexique utilisé est révélateur d'une époque, comme nous l'avons vu.

e) Le partage entre sémantique et pragmatique

De plus, nous avons constaté que les conditions d'utilisation des informations déterminent en grande partie les énoncés secondaires. C'est l'aspect pragmatique des systèmes documentaires dont Van Dijk

(1976, p.140) dit qu'il est relativement simple:

"We here arrive at what may be called the pragmatic aspects of information processing. That is, not only is what is semantically `important' with respect to the discourse to be accounted for, but at the same time the functions of the semantic information in communication between machine/system and man: questions asked, information given as answers, etc. In other words: one of the major co-determining constraints on information storage must be the possible use of the information in most possible pragmatic contexts."

2.6 LES ENONCES SECONDAIRES ET LES MARQUES DE L'ENONCIATION LORSQUE LE CODE EST LA LANGUE NATURELLE (RESUMES)

2.6.1 Les fonctions des résumés

a) Fonction principale

La fonction principale des résumés, qui consiste à permettre "le repérage et la sélection rapides de l'information utile" (norme AFNOR Z 44-004, 1984, p.2), est exprimée par rapport aux besoins des énonciataires, donc sous l'angle pragmatique:

"The nature of an abstract reflects the editor's purposes, which in turn reflect the desires of the reader. Therefore, one cannot separate function from use: an editor's constant problem is to estimate what sort of representation his readers really want." (Borko et Chatman, 1963, p.149)

b) Fonctions secondaires

Les fonctions secondaires, elles, sont envisagées par rapport à l'indexation et par rapport au texte primaire, donc dans un rapport d'intertextualité. On dit, en effet, que les résumés "ont pour caractéristique d'être produits à partir d'autres textes, d'en rendre compte et d'y renvoyer." (Beacco et Darot, 1984, p. 107) et qu'ils doivent pallier les inconvénients de l'indexation (Fidel, 1986, p.16), en particulier l'absence de liens syntaxiques qui provoque énormément d'ambiguité, donc de bruit au repérage.

Par contre, l'examen des politiques éditoriales de 123 banques de données publié par Raya Fidel en 1986 révèle un manque d'uniformité en ce qui concerne l'intertextualité (terme qui n'est pas employé dans la littérature de bibliothéconomie et des sciences de l'information, sauf par Beghtol, 1986): les mots clés doivent-ils être inclus dans le résumé ou complémentaires?

Même question à propos des titres et des textes primaires: le vocabulaire du résumé doit-il reprendre le vocabulaire de l'auteur?

Quant à la contribution de chacun de ces éléments au repérage, elle fait l'objet de nombreuses études quantitatives, mais le problème semble mal défini.

Il faut remarquer, en outre, que les rapports entretenus avec les textes primaires varient énormément selon que le résumé est informatif ou indicatif, comme le montre le petit tableau ci-dessous:

Résumé informatif Résumé indicatif

-----------------------------------------------------------------

"représentation abrégée du document, "se contente de signaler le ou les thèmes

renseignant sur les informations d'études." (AFNOR, ibid.)

quantitatives ou qualitatives

apportées par l'auteur" (AFNOR,

44-004, p.2)

"include every fact the reader will want" "alerting"

(Borko et Chatman, 1963, p.150)

"to obviate the necessity of "is designed `to tell the reader what

reading the article at all." subjects he will find discussed in the

(Borko et Chatman, Ibid.) article - to act as a guide to the article, not as a

substitute for it." (Borko et Chatman, ibid.,p.151)

Bien que la norme AFNOR déclare que "Le résumé n'a pas pour but de remplacer la lecture du document lui-même mais de permettre d'atteindre un plus grand nombre de lecteurs", il ne faut pas se leurrer: la prudence est de mise depuis le jugement rendu dans l'affaire Microfor-Le Monde (la diffusion d'informations précises par le biais des résumés porterait atteinte au droit d'auteur) . Même si on ne le dit plus, on continue cependant de rédiger des résumés informatifs dans cette optique.

c) Nouvelle fonction

Les résumés remplissent, depuis quelques années, une nouvelle fonction, celle de servir au repérage automatique dans les banques de données:

"L'auteur doit être conscient que, lorsque le résumé entre dans un fichier informatisé, tous les termes qui y sont employés peuvent être utilisés lors de la sélection des informations." (AFNOR, Z 44-004, p.2).

Donc le rédacteur doit produire un énoncé en ayant à la fois le souci de le rendre facilement lisible par l'énonciataire final, mais aussi facilement traitable par un programme rudimentaire d'indexation automatique qui reconnaÎt chaque chaÎne de caractères et l'inclut, avec ses coordonnées, dans un fichier inverse.

Ce sont deux conditions pragmatiques conflictuelles dont tous les services documentaires ne tiennent pas compte. D'après l'enquête de Fidel, 46% seulement d'entre eux ont des politiques de rédaction spécifiquement pour le repérage automatisé en vocabulaire libre. Cependant aucun ne mentionne que cette nouvelle fonction de repérage peut déterminer la nature informative ou indicative des résumés.

2.6.2 Les marques de l'énonciation

Déjà recommandée par Borko et Chatman (1963, p.149), l'étude des résumés publiés reste à faire en bibliothéconomie et sciences de l'information. Seules sont accessibles les analyses comparatives des normes:

"Only situations expressly presented to guide the abstracter were analyzed; no analysis was made of actual practice as determined, for example, by close examination of the published abstracts themselves. Such an analysis definitely should be done, both to discover the relation between theory and practice and to uncover the more subtle aspects of linguistic and information-retrieval behavior involved in the preparation of abstracts. In the meantime, we must satisfy ourselves with surveying how editors say abstracts should be written."

En réalité, une analyse du fonctionnement des résumés indicatifs du Bulletin signalétique en sciences sociales a été effectuée sur des résumés indicatifs rédigés au C.D.S.T. du C.N.R.S. en France, à des fins pédagogiques: initier progressivement le lecteur aux fonctionnements linguistiques des revues spécialisées en partant de textes courts et stéréotypés (Beacco et Darot, 1984).

Nous tenterons, dans ce qui suit, de faire une synthèse des marques de l'énonciation telles qu'on peut les prévoir d'après les normes ou les observer dans des résumés réels.

a) Normes et politiques d'analyse (hyper-énonciateur et énonciataire/énonciateur collectif)

Le fond et la forme des résumés font l'objet de normes internationales et nationales (ISO: International Standard Organization, AFNOR: Association française de normalisation, BSI: British Standard Institute, ANSI: American National Standard Institute) ainsi que de politiques précises édictées par chaque service documentaire qui, comme dans le cas de l'indexation, tient compte de toute la situation d'analyse et de repérage (collection, ressources, supports de stockage et de recherche, besoins des utilisateurs). Il n'est pas étonnant de retrouver des grilles conceptuelles comparables.

La relation de paraphrase entre les résumés et les textes est donc contrainte par les conditions de production.

Voici des exemples de directives données quant au fond:

"The most structured check list contains categories that should be included in abstracts. The actual categories usually vary from one database to another. In a technology area, for instance, one database always includes the type of welding process and steel types, and others suggest the inclusion of materials, formats, conditions, properties and processes. In another area, company names, product names and individual names are considered especially significant. One service lists eleven categories and requires that any relevant categories be included in abstracts. Another use of check lists is to write down very specific guidelines such as: whenever dealing with a new product, process or technology, mention the company name; include the full standard name for all tests, questionnaires etc.; if the document is about a survey, state who conducted the survey; or, if a company is a subsidiary, mention the name of the parent organisation if it is not included in the name of the company." (Fidel, 1986, p.17)

Pour la forme, on peut retrouver ce genre de politique:

"When abstractors are not asked to adhere to author language, the most frequent recommandation is for the use of standardised, concrete terms and a language which is specific to a subject area. [...] A typical example of such a rule is the requirement that Latin names as well as common or vernacular names of certain entities be explicitly mentioned. Another example is a set of rules to determine how to record geographic locations." (Fidel, 1986, p.18)

On ne constate aucun consensus ni sur l'utilisation des synonymes ou la répétition des mêmes termes, ni sur l'emploi du vocabulaire contrôlé ou pas.

La prise en compte de l'énonciataire intermédiaire qu'est le système automatisé de repérage laisse des traces dans ces textes secondaires. Alors qu'autrefois on favorisait des structures de phrases complètes, avec des marqueurs d'argumentation réorganisant, au besoin, l'énoncé primaire de l'auteur, on recommande désormais de recourir aux expressions nominales et au style télégraphique, et d'éviter les termes vagues ou généraux comme "des moyens variés", "quelques endroits". Il faut spécifier, par des termes précis les moyens, les lieux, etc. Il faut également prohiber les tournures négatives, puisque l'ordinateur ne recherche que les formes pleines - les mots grammaticaux étant éliminés par l'anti- dictionnaire:

"Suppose, for instance that authors describe a test to evaluate vendors of online search systems. A phrase in an abstract such as: `evaluates all search systems, except DIALOG, for response time', will retrieve the abstract when documents about DIALOG are desired. Moreover, the abstract will be rejected in a search about response time on BRS or ORBIT." (Fidel, 1986, p.19)

Donc comme dans l'indexation, mais dans une moindre mesure, les éléments symboliques sont favorisés au détriment des éléments indiciels, pour le repérage automatisé.

Nous verrons dans ce qui suit que les fonctions distinctes des résumés informatifs et indicatifs influencent également le fond et la forme. Vignaux (1988, p.9) a d'ailleurs fait remarquer la relation entre fonctions et formes dans l'énonciation.

b) Marques de l'énonciataire-énonciateur (rédacteur de résumés) et de l'énonciateur primaire (auteur)

Les marques de l'énonciataire-énonciateur sont prohibées dans les résumés informatifs surtout:

"There is often a close correlation between one's notion of the function of abstracts and his rhetorical point of view: in informative abstracts, the abstracter is completely identified with the author, while in descriptive abstracts, the abstracter stands apart, behind locutions like "was attempted" or "The author believes Y". (Borko et Chatman, 1963)

Le rédacteur du résumé informatif doit se substituer à l'auteur du texte primaire, adopter son point de vue, commenter la recherche et non le texte lu, tout ceci au moyen de verbes impersonnels ou pronominaux, de tournures passives qui donnent une impression d'objectivité: "il est montré que", "cette hypothèse se démontre aisément". L'agent, s'il était restitué serait le locuteur primaire. Mais comme ce locuteur est déjà très effacé dans le texte primaire (Heslot), il y en a peu de traces. Donc les résumés informatifs rendent compte des textes sans que ce savoir constitué soit rapporté à leur origine énonciative.

Ne tente-t-on pas de faire de l'analyste un simple émetteur de signes, alors qu'on conserverait à l'auteur le statut du sujet de l'énoncé? On se souvient de la distinction de Foucault (1969, p.122): "On pourrait évoquer aussi, pour montrer la dissociation entre l'émetteur de signes et le sujet d'un énoncé, le cas d'un texte lu par une tierce personne, ou de l'auteur récitant son rôle."

Tout ceci n'est, en fait, que subterfuge. Comme dans l'indexation, l'objectivité est un leurre. Deux rédacteurs chargés d'énoncer un résumé informatif d'un même texte produiront des énoncés différents , bien que les normes , les politiques, le texte primaire imposent des contraintes si fortes que la nature stéréotypée apparaÎtra.

Parfois, cependant, les politiques éditoriales marquent le rédacteur par son nom, ses initiales, ou encore par le nom du service secondaire. Si on conserve le résumé rédigé par l'auteur, on le mentionne.

Dans les résumés indicatifs, par contre, on recourt à des expressions du genre: "L'auteur dit que ..." "Cet article démontre que ..."

Comme l'ont observé Beacco et Darot, dans la première phrase de ces résumés, trois formes sont sémantiquement équivalentes:

. phrase verbale avec, pour sujet grammatical un être humain l'auteur, ou un non humain le texte: "cet article met en évidence", "cet article traite de" ;

. phrase verbale sans sujet grammatical: "traite de ..."

. phrase nominale centrée sur des noms, dérivés ou non de verbes: "Histoire de ...", "Réflexions sur ..."

Il y a donc des équivalences du genre: "résumé/résumer"; "compte rendu/rendre compte", etc.

L'auteur de l'article original apparaÎt comme se livrant à différentes activités intellectuelles mises en jeu dans l'élaboration du savoir (décrire, exminer, distinguer) ou dans les discussions soulevées à propos de ce savoir (critique, récuse).

On trouve aussi fréquemment des formules stéréotypées décrivant non des opérations isolées mais des procédures de déduction, de raisonnement, des démarches expérimentales (avec participe présent). Ces opérations cognitives sont explicitement rapportées à l'énonciateur premier.

c) Les marques de l'allocutaire final

Aucune forme lexicale ne renvoie aux énonciataires; la 2ème personne n'est marquée par aucune forme verbale ou pronominale, mais comme pour l'indexation, le choix des éléments d'information retenus est déterminé par l'intérêt et la nouveauté qu'ils peuvent présenter pour les utilisateurs.

d) Les marques du moment de l'énonciation secondaire et primaire

Comme le disent Beacco et Darot (1984, p.18) à propos des résumés indicatifs - mais c'est vrai des autres résumés -, la situation d'énonciation n'est pas indiquée:

"Les temps utilisés ne sont pas mis en relation avec le moment de l'énonciation.[...] Ces récits apparaissent donc comme "coupés" de la situation d'énonciation comme s'ils se racontaient d'eux-mêmes." (Beacco et Darot, 1984, p.18)

De plus, dans les résumés indicatifs surtout, on trouve fréquemment des énoncés structurés sous forme énumérative qui ne comportent aucune marque verbale.

Toutefois, les résumés informatifs reproduisent le système temporel des textes originaux. Le passé y est utilisé pour décrire l'expérimentation (y compris les procédures, équipements, conditions, bases théoriques et les données obtenues) et le présent (de vérité générale) pour les conclusions tirées de l'expérience.

Quelques embrayeurs temporels relatifs marquent la chronologie des événements: "d'abord"; "ensuite"; "finalement", relatés dans le texte primaire, pour les résumés informatifs et rapportés à l'auteur du texte dans les résumés indicatifs où ce sont surtout des articulateurs d'ordre logique, au même titre que "mais", "pourtant", etc.

e) Les marques de la modalité

Les marqueurs de modalité sont prohibés, par souci d'objectivité. D'après l'étude de Beacco et Darot, les points de suspension et le point d'interrogation constituent la seule manifestation du

non-certain. Les marqueurs lexicaux et morphosyntaxiques de l'appréciation sont également absents.

f) Les marques des opérations métadiscursives

Les opérations métadiscursives marquent explicitement une articulation dans le discours.

Dans les analyses indicatives:

"On utilise, concurremment à des présentations énumératives qui n'établissent pas de relations entre les items présentés, des formes linguistiques qui précisent ces rapports possibles (en particulier chronologie relative)": après avoir ... Puis ... [...] Il est certain que la structure de l'article ainsi exhibée par l'analyse signalétique peut ne pas correspondre à la structure effective du texte résumé et n'être que le résultat d'une reconstitution. Ce cas ne devrait cependant se produire que lorsque l'organisation du texte n'est pas apparente par elle-même: l'analyse en propose alors une caractérisation qui, bien que seconde, est à prendre en compte." (Beacco et Darot, 1984, p.116)

Plusieurs expressions standardisées insistent sur le fonctionnement du texte primaire: "présente", "expose", "analyse", "retrace les différentes étapes", etc.

La nature très stéréotypée des résumés apparaÎt dans les marqueurs de méta- structures. En particulier, les résumés informatifs présentent presque tous le même plan (introduction, méthodologie, résultats, conclusion), soit parce que les textes originaux sont ainsi structurés, soit parce que les rédacteurs des énoncés secondaires ont procédé à une recomposition du contenu, conformément aux normes.

g) Opérations discursives, opérations cognitives et actes de parole

Tout en reconnaissant la distinction entre "actes de parole (ou intentions de communication comme apprécier, demander, conseiller", opérations cognitives ("ou éléments des processus de constitution du savoir comme: définir, classifier, interpréter") et opérations métadiscursives qui "explicitent l'organisation d'un texte comme conclure, faire une transition, annoncer un développement", Beacco et Darot (1984, pp.169-170) ont, pour les résumés en sciences sociales, trouvé plus opératoire de déterminer un autre niveau d'organisation du discours:

"celui qui est structuré par les opérations intellectuelles mises en jeu dans l'activité scientifique considérée, mais qui se trouvent être communes à de nombreux processus de construction et d'exposition du savoir. Ces opérations, comme "définir, analyser, classifier, décrire, illustrer" relèvent de l'ordre du cognitif et correspondent à des intentions de communications caractérisables: par exemple, si "définir" c'est formuler un concept en lui donnant un nom et en

décrivant ses propriétés, c'est d'un point de vue cognitif dégager des propriétés abstraites d'un ensemble de phénomènes, c'est d'un point de vue communicatif demander à autrui d'accepter la même désignation pour les mêmes propriétés, c'est lui faire partager sa propre construction du sens, c'est d'un point de vue argumentatif refuser les définitions précédentes et en proposer de nouvelles."

Pour ces chercheurs, opérations cognitives et macro-actes de parole sont indissociables:

"Décrire", par exemple, qui est considéré comme un acte de parole, c'est choisir des éléments, en rejeter d'autres, c'est donc imposer une certaine représentation à l'interlocuteur tout en la présentant comme description. Par comparaison avec d'autres descriptions portant sur le même objet, l'interlocuteur pourra apprécier s'il y a "représentation" ou "description" [...] (Beacco et Darot, 1984, pp.171-172)

Ainsi ont-ils délibérément choisi de parler d'opérations discursives pour l'ensemble de ces phénomènes. Ces opérations cognitives sont rapportées au sujet énonciateur. Elles sont suffisamment stéréotypées pour caractériser les articles eux-mêmes.

2.7 LES MARQUES DE L'ENONCIATION DANS LES TEXTES PRIMAIRES

La structure des résumés dépend en grande partie de celle des textes primaires et il semble logique de commencer par l'étude de ces derniers avant d'édicter des normes pour les résumés. Une étude récente des textes de jurisprudence québécoise a permis de faire des recommandations pour la rédaction de résumés fidèles (Poirier, 1986).

Malheureusement, il faut, la plupart du temps, aller à l'extérieur de la bibliothéconomie et des sciences de l'information pour trouver des analyses du discours mettant en relief les particularités de chaque domaine scientifique. Dans ce qui suit, nous rendrons compte brièvement des marques de l'énonciation telles qu'elles ont été observées par Heslot (1983) dans un corpus d'articles anglais et français sur des expérimentations et telles qu'on peut les inférer d'une assez longue fréquentation de ces textes.

Leur macro-structure est semblable à celle que nous avons signalée pour les résumés informatifs, avec une différence cependant dans la dernière partie. Là où les anglophones parlent de "discussion" (arguments fournis par l'auteur à ses pairs en faveur de ce qu'il propose), les francophones se placent en posture d'autorité et utilisent le terme "conclusion".

2.7.1 Les indices de personnes

Le discours scientifique est un discours sur les choses surtout. Un "IL" non-humain est sujet de verbes d'état ou de processus (Heslot, 1983, p.134). Ceci explique que les indices de personne soient très peu nombreux: dans les articles scientifiques étudiés par Heslot (1983), il y a quelques rares "I", "me" dans le corpus anglophone, aucun "je" dans le corpus francophone, mais quelques occurrences du "nous" académique. L'auteur, qui est à la fois le narrateur et l'actant, est dissimulé sous des termes visant le texte ou le travail: "This report ..."

L'effacement de l'énonciateur a parfois pour conséquence qu'on ne sait pas toujours à qui attribuer les énoncés: à l'auteur ou à la communauté scientifique? A tout le moins peut-on penser que l'auteur reprend à son compte les énoncés de la communauté scientifique. Ce n'est que dans le cas des citations explicites ou des mentions d'auteurs (dans les états de la question, revue de la littérature, synthèses, etc.) que l'on peut distinguer le véritable énonciateur de l'assertion. On trouve en effet des ILS humains pour les auteurs auxquels le texte réfère.

L'hyper-énonciateur n'est parfois décelable qu'à travers l'argumentation, la récurrence de certains mots, la méthodologie qui révèlent la grille d'analyse implicite, l'école de pensée.

On est donc en face de textes à transparence totale, selon Dubois (1969).

2.7.2 La situation d'énonciation

Il n'y a pas de relation entre la situation de l'énoncé et la situation de l'énonciation:

"Dans les articles scientifiques que nous étudions, le moment de l'énonciation se situe au moment de l'écriture, moment d'ailleurs dilaté jusqu'au moment de lecture; les références au temps chronique du hors-texte préliminaire sont incluses dans cette bande sans en préciser les bornes. Le moment de l'expérimentation, antérieur au moment de l'écriture, n'est précisé ni en temps chronique, ni par des déictiques." (Heslot, 1983, p.145)

Les temps les plus fréquents se répartissent ainsi, dans le corpus:

Anglais ! Français

-------------------- !--------------------------------------------

Present: 24,02% ! Présent: 73,73%

Simple past: 67,56% ! Passé composé: 17,76%

"[...] environ 80% des formes au présent et au Present Perfect sont dans les deux parties "Introduction" et "Discussion" alors qu'environ 80% des formes au prétérit sont dans les deux parties "Materials and Methods" et "Results". (Ibid., p.138)

En étudiant le récit (l'expérimentation) et le commentaire dans ces articles, l'auteur a observé des différences notables entre les articles rédigés par les anglophones et par les francophones. On ne trouve presque que le commentaire dans les articles français:

"On sent qu'indépendamment des problèmes de correction phrastique, il y a chez les francophones une maÎtrise imparfaite de la structure textuelle observée dans les articles américains. Il est difficile aux francophones de manier cette opposition du commentaire et du récit qui a été perdue en français, tout au moins dans les textes scientifiques du domaine considéré." (Ibid., p.151)

Les francophones emploient le présent pour parler de l'expérience là où les anglophones emploient le prétérit sans adverbe déictique:

"Quand les anglophones lisent des textes écrits en anglais par des francophones (ou des textes français), il y a là - nous semble-t-il - un risque important de malentendu. Pour un scientifique anglophone, la marque du prétérit est aussi dans le texte la marque des faits observés rapportés par le récit expérimental, et parfaitement distincts des séquences de commentaire de l'auteur où la subjectivité est admise." (Ibid., p.152)

2.7.3 Indices de l'attitude de l'énonciateur à l'égard de ce qu'il énonce

La modalité est marquée dans la phraséologie: "peut-être", "sans doute", "probablement", dans le mode conditionnel, de même que dans des verbes de modalité comme "pouvoir" en français, "could" ou "may" pour des événements statistiquement rares, en anglais, d'après Heslot (1983).

2.7.4 Relation du sujet avec l'interlocuteur

L'interlocuteur est complètement absent: on ne trouve aucune occurrence de "tu" et seulement quelques impératifs, quelques "nous-sujet" inclusifs et quelques "on" indéfinis.

Les fonctions illocutoires les plus fréquentes sont l'assertion, la persuasion, la preuve.

Le discours scientifique est bien un discours intériorisé, didactique, dont l'interlocuteur est anonyme, collectif, imaginé (Benvéniste, 1970), où la distance est maximum (Dubois, 1969).

2.7.5 Les traces de l'énonciation se retrouvent pourtant dans:

- les choix de vocabulaire, de constructions syntaxiques, le style, comme des études de fréquences peuvent le révéler;

- les commentaires infrapaginaux;

- les choix d'auteurs cités;

- son identité (la signature);

- son prestige marqué par: . l'organisme pour lequel il travaille,

. la mention des subventions grâce auxquelles il a pu effectuer sa

recherche,

. la revue dans laquelle il publie (ou le congrès auquel il participe),

. les auto-citations (à interpréter avec prudence);

- le lieu de l'énonciation (peu fréquemment décelable):

. organisme de rattachement,

. congrès au cours duquel il a prononcé sa conférence;

- le temps de l'énonciation (souvent approximatif):

déduit de la date de publication (il faut soustraire 6 à 24 mois d'après

les délais moyens de publication),

déduit aussi de la date de réception du manuscrit et de sa version

corrigée (de plus en plus souvent mentionnée).

Toutes ces traces constituent autant d'indices importants pour l'interprétation du texte. Mais ces indices ne sont pas également repérables selon que l'analyse et le repérage sont effectués par la machine ou par l'être humain.

2.8 LES ETUDES LES PLUS FREQUENTES SUR LE CONTENU DES BANQUES DE DONNEES

Les énoncés secondaires et, dans une moindre mesure, les textes primaires, sont pauvres en éléments indiciels et en marques formelles de l'énonciation. Lorsqu'elles existent, elles sont destinées avant tout au lecteur humain capable de les interpréter et elles disparaissent lors du traitement automatique en vue du repérage. Avant la constitution automatique du fichier inverse, un anti-dictionnaire élimine les articles, pronoms, adverbes, prépositions, conjonctions, qui sont considérés comme des "mots vides". Seuls sont conservés les noms, les adjectifs et les verbes. Pour l'interrogation, on procède en général à une autre suppression: les formes flexionnelles et temporelles sont tronquées de telle sorte qu'on puisse récupérer les radicaux considérés comme porteurs du concept, de la notion importante: RESUM/.

L'appauvrissement du texte par l'ordinateur est accru par la suppression de l'accentuation dans les banques de données françaises ainsi que par la disparition de l'énonciation typographique.

"L'envers de la diffusion, c'est l'indifférenciation du produit.", note Laufer (1986, p.71). Au fil des siècles, celle-ci s'est manifestée, selon lui, par la dépersonnalisation progressive de l'énonciateur: au début, l'auteur mentionnait son nom et son origine ("poitevin", "parisien"), ainsi que son protecteur et ses amis dont il reproduisait les éloges. Au XVIIIe siècle, les aristocrates cachaient leur nom, car l'écrivain était devenu un homme de métier. Maintenant "le livre - qui fait du manuscrit un texte définitif par la publication - réunit le nom de l'auteur et celui de l'éditeur sur la page de titre, dépersonnalise l'énonciateur du texte. [...] Le texte imprimé n'a plus d'énonciateur singulier. [...] il se donne de plus en plus à lire sur le mode universel".(Ibid., p.73)

Que dire alors de cette nouvelle étape de la diffusion par ordinateur? Les listings imprimés en réponse aux questions posées aux banques de données confondent dans la même fonte de caractères auteur, titre de l'article, titre de la revue, résumé, indexation, etc., comme on peut le constater en P5.

Les marques de l'énonciation étant occultées, il n'est pas étonnant que, dans les banques de données, on se livre à des études sur les formes pleines, le vocabulaire, les symboles-indices. Par exemple, on fait des études distributionnelles d'occurrences, de co-occurrences et l'on tente de dégager des réseaux thématiques: "semantic road maps" de Doyle, thésaurus de recherche de Lancaster (Bertrand-Gastaldy, 1984), Lexinet du C.N.R.S. Ce sont des représentations des principaux concepts et de leurs relations mises en évidence par des opérations de classification automatique.

Ces produits, d'ailleurs rarement disponibles car difficilement réalisables sur de grands corpus, sont comparables aux "advanced organizers" au sens d'Ausubel. Ce sont des représentations de la

structure conceptuelle de la BdeD destinées à orienter les utilisateurs, dans une première approche, pour leur faciliter l'appréhension de contenus plus spécifiques par la suite:

"Ausubel describes the mind as an information-storing system that can be compared to the conceptual structure of an academic discipline. Like the disciplines, the mind is a hierarchically organized set of ideas that provides anchors for information and ideas and that serves as a storehouse for them. [...]

Ausubel maintains that new ideas can be usefully learned and retained only to the extent that they can be related to already available concepts or propositions that provide ideational anchors. If the new material conflicts too strongly with the existing cognitive structure or is so unrelated that no linkage is provided, the information or ideas may not be incorporated or retained." (Joyce et Weil, 1980)

En somme, les "traductions" successives des textes scientifiques par l'homme et la machine font progressivement disparaÎtre le discours au profit du vocabulaire, la syntaxe et les indices au profit des symboles. Alors que le discours est une actualisation de la langue, il est presque retransformé, dans les BdeD, en langue artificielle, reconstituable à partir des formations discursives. Il reste cependant des traces irréductibles des conditions d'énonciation, nous l'avons vu.

Des recherches ont cependant tiré profit des rares marques formelles de l'énonciation subsistantes et combiné les mots thématiques avec les éléments lexicalisés rendant compte de l'auteur et des personnes citées (études de co-citations, d'après Griffith et al., 1974; Small et Griffith, 1974), des lieux de l'énonciation (pays, laboratoires) ainsi que des dates (Turner et al., 1984). Ces études ont pour but de représenter le savoir, les disciplines et leurs interrelations, de mesurer les activités scientifiques à un moment donné (voir en P13):

"[Les cartindex] se présentent comme un outil d'aide à un meilleur repérage des réseaux cognitifs et sociaux qui caractérisent un domaine d'activité et d'accès aux documents primaires; d'aide à l'évaluation de la position d'un chercheur, d'un laboratoire ou d'un pays dans un champ de recherche donné." (Turner et al., 1984, p.6)&

Cependant on ne peut continuer à occulter l'énonciation si on veut que l'ordinateur se substitue à l'intermédiaire, analyse chaque texte et fournisse une réponse précise. Une véritable analyse automatique nécessite qu'on se préoccupe non plus seulement de sémantique mais aussi d'énonciation et de pragmatique.

2.9 DE NOUVELLES RECHERCHES: LE FORMATAGE AUTOMATIQUE DES TEXTES INTEGRAUX

Les textes scientifiques dans une discipline donnée et les résumés qu'on en tire présentent une faible variété des éléments indiciels, des indicateurs de modalité et du système temporel, avons-nous constaté.

Il est possible de dépister les régularités qui se manifestent malgré la disparité apparente et la linéarité des textes, de façon à en faire ressortir la structure sous-jacente, le stéréotype et d'enchâsser l'information dans des formats propres à chaque domaine particulier (Sager, 1975). C'est pourquoi leur analyse automatique a été envisagée depuis longtemps et a été réalisée avec succès dans certains cas.

Nous allons présenter brièvement dans ce qui suit le Linguistic String Project mené par Naomi Sager et ses collègues. Il consiste à stocker en mémoire d'ordinateur des textes écrits en langage naturel, à leur faire subir une série de traitements automatiques qui convertissent le tout en base de données formatée apte à répondre à des questions précises comme on en pose dans des systèmes questions-réponses (Grishman, 1979). Ainsi l'énonciataire final peut accéder directement au contenu, sans passer par le filtre d'une représentation condensée et subjective.

Dans les bases de données factuelles ne sont colligés que les faits que l'on envisage réutiliser dans un objectif bien précis. De même, dans une base de données bibliographiques indexée, ne sont retenus que quelques mots-clés en fonction des besoins, intérêts et usages terminologiques du moment. Cependant, on voudrait que l'information puisse être réutilisée selon des perspectives très différentes (Sager, 1978, p.20). Une banque de données en langage naturel formatée devrait permettre toutes sortes de recherches rétrospectives à partir d'hypothèses que l'on n'avait pas prévues lors de sa conception (Sager et al., 1982). En outre, on devrait pouvoir déceler, non la présence d'un mot, mais la présence d'un fait. Si ce fait est nié, il ne devrait pas être signalé par le système. Par exemple, si l'on demandait tous les cas qui ont débuté par une fièvre élevée avant l'admission à l'hôpital, un diagnostic portant la mention "Pas de fièvre avant l'admission" ne devrait pas être repérée.

Le défi est de taille. Il consiste à trouver comment représenter l'information textuelle de telle sorte qu'elle puisse être à la fois manipulée facilement par l'ordinateur et en même temps conservée dans son intégrité; le contenu doit être complet et ne pas subir de distorsion (Sager, 1982, p.43).

Il s'agit donc de trouver une représentation fidèle de l'information qui réduise cependant la variété et la complexité des modes d'expression, tâche qui est à la limite de ce que l'on peut attendre actuellement d'un ordinateur (Chi et al., 1983, p.209).

Les expériences ont porté surtout sur des rapports de fin de prise en charge ("hospital discharge summaries") en pédiatrie, sur des rapports de radiologie et des extraits de rapports cliniques concernant des patients souffrant d'un cancer du cou et de la tête.

Les textes sont écrits entièrement en langue naturelle par les médecins, sans restriction aucune, selon un plan précis cependant, puisqu'ils remplissent un genre de questionnaires avec en-têtes de paragraphes destinés à assurer l'exhaustivité des renseignements fournis (voir en P9).

Pour établir le format, les chercheurs ont mis au point:

- un analyseur syntaxique, basé sur la grammaire transformationnelle de Harris et une série de restrictions propres au domaine. En effet, une phrase peut être bien formée du point de vue de la grammaire de la langue, mais être inacceptable dans la discipline. Par exemple, si "Potassium flows into the cell" est correct, "The cell flows into the potassium" est impossible en physiologie cellulaire.

Donc la grammaire spécialisée reflète étroitement la structure informationnelle du discours du domaine. Elle fonctionne avec un dictionnaire contenant tous les mots avec leur catégorie grammaticale et leurs conditions d'emploi.

- un analyseur de co-occurrences qui permet de regrouper dans une même classe les mots ou expresions qui sont les plus similaires parce qu'ils co-occurrent avec d'autres mots, sur la base de relations syntaxiques: noms sujets de verbes, noms compléments. On obtient ainsi une série de catégories qui correspondent aux différentes facettes du domaine: type de malade, nom de l'hôpital, symptômes, moment de l'admission, médicament administré, action du médicament, etc. (voir en P10).

Une fois le format établi, il reste à programmer l'ordinateur pour l'analyse automatique du contenu. Cette analyse s'effectue en quatre étapes:

- Dépistage des structures syntaxiques.

- Régularisation grammaticale, par une série de transformations paraphrastiques visant à réduire la diversité des expressions. Au cours de cette étape, toute assertion est décomposée en sujet, verbe, complément; la voix passive est convertie en voix active; les expressions contenant des conjonctions de coordination sont développées, les mots sont lemmatisés et la forme canonique des verbes ainsi obtenue est affectée des marqueurs temporels adéquats.

- Formatage de l'information. Ce traitement transforme les résultats obtenus à l'étape précédente en alignant les éléments d'information semblables sous la même catégorie. On obtient ainsi une série de colonnes (une cinquantaine en pédiatrie). Dans le cas des homographes ou des polysèmes, le programme utilise l'environnement sémantique et syntaxique pour placer le mot dans la colonne appropriée (Hirschman et al., 1981, p.453). Chaque assertion élémentaire est susceptible de contenir différents modificateurs, comme NEG(ation), MODAL (incertitude, évidence) et le temps.

- Normalisation. Alors que les trois étapes précédentes sont effectuées en prenant la phrase comme unité, la dernière, qui est la plus complexe, parachève les précédentes. Elle consiste à remplir les cases vides avec les éléments implicites d'information contenus dans l'ensemble du texte. Elle permet, par exemple, de remplir la colonne BODY-PARTS et d'établir les relations temporelles. Chaque symptôme doit nécessairement être associé à une partie du corps, ce que l'ordinateur peut déduire. Les conjonctions de subordination et de coordination ("and", "while"), le temps des verbes, de même que le déroulement du récit sont utilisés pour les inférences.

Les recherches de Schank et de ses étudiants sur la compréhension des histoires et des articles de journaux vont dans le même sens et démontrent que des progrès importants ont été réalisés dans le domaine du traitement automatique des textes en vue d'en représenter le contenu (Walker, 1981, p.352).

3. L'ENONCIATION DANS LES DIALOGUES AU SEIN DES SYSTEMES D'INFORMATION

Passons maintenant à l'interrogation d'un système courant d'information documentaire. Elle nécessite la connaissance de la structure de chaque base de données, de son contenu, des politiques

d'analyse, du langage documentaire et, finalement, du langage de commande.

C'est pourquoi elle est souvent déléguée à un intermédiaire humain, le bibliothécaire de référence.

Entre l'utilisateur et le bibliothécaire, s'engage alors un dialogue de clarification au cours duquel le premier va tenter d'expliquer son besoin et le second va essayer de comprendre la nature exacte du problème pour pouvoir ensuite la traduire en stratégie de recherche acceptable par le système.

L'étude de ce dialogue va paver la voie aux recherches sur les interfaces en langue naturelle que nous verrons à la fin, après avoir montré que le dialogue personne-machine offert par les systèmes actuels est extrêmement rebutant.

3.1 LE DIALOGUE ENTRE ETRES HUMAINS (L'INTERMEDIAIRE ET L'UTILISATEUR)

3.1.1 Analyse fonctionnelle du dialogue au cours de l'entrevue de référence

Lorsqu'il aborde un système documentaire, l'utilisateur ne sait pas ce qu'il cherche avec précision. Il sait seulement qu'il souffre d'un manque de connaissances pour résoudre un problème (cf. la théorie ASK: "Anomalous State of Knowledge" de Belkin). Il est important, pour l'intermédiaire, de bien cerner le problème, les motivations et les intérêts de l'utilisateur, ses antécédents - en somme de se construire un modèle de l'utilisateur - pour pouvoir lui trouver une réponse appropriée.

Inversement, il est important que l'utilisateur puisse se constituer un modèle aussi juste que possible de la banque, du système et de l'intermédiaire pour adapter ses questions aux capacités des uns et des autres.

En somme, le dialogue a pour but d'établir les présupposés, ce que chaque interlocuteur doit connaÎtre et partager pour que l'interaction soit fructueuse.

Pour cela les deux partenaires humains se posent mutuellement des questions.

Harrah (1973) rapproche les questions des autres activités de la communication humaine pour l'échange d'information (assertion, négation, exposition, description, etc.).

Kearsley (1976) fait remarquer que, bien que le fait de poser des questions soit une des activités les plus courantes dans la vie quotidienne, nous n'en avons une compréhension technique que très rudimentaire. Nous manquons d'un cadre théorique appproprié. Cet auteur, qui se propose d'étudier les questions de la conversation courante, fait appel à la linguistique, à la sociolinguistique, à la psychologie cognitive et à la psychologie développementale. Il laisse de côté, entre autres, les travaux de la philosophie analytique et les questions posées dans une situation de résolution de problème. Or notre préoccupation touche plutôt cette situation.

Quelques chercheurs en bibliothéconomie et sciences de l'information ont entrepris d'étudier, pour les modéliser, les interactions entre l'utilisateur et l'intermédiaire au cours de l'entrevue de référence. Ils se sont, en particulier, penchés sur l'analyse fonctionnelle de ce dialogue afin de savoir, en quelque sorte, quels actes illocutoires les interlocuteurs accomplissent, quels buts ils poursuivent.

Belkin (1984) a enregistré un petit nombre d'entrevues de référence à l'Université de Londres. Sur les onze fonctions décelées dans le dialogue, celles qui importent le plus pour l'intermédiaire sont celles qui contribuent à la construction du modèle de l'utilisateur, du modèle du stade auquel ce dernier se trouve dans le processus de résolution de problème et du modèle de la description du problème.

Les conclusions globales de cette recherche sont les suivantes:

- il y a bien interaction et coopération, même si le dialogue est mené en grande partie par le bibliothécaire;

- cette interaction est nécessaire pour la construction de modèles;

- les modèles cognitifs sont indispensables pour qu'il y ait transfert d'information.

Belkin et son groupe semblent avoir été influencés par la théorie de l'analyse fonctionnelle de M.A.K. Halliday qui a lui-même enseigné à l'Université de Londres et il serait intéressant d'étudier les interrelations entre la théorie des actes de langage et l'analyse fonctionnelle.

Une analyse fonctionnelle poussée sur de plus grands échantillons devrait permettre de mieux comprendre les interactions, donc de les améliorer.

En particulier, elle devrait mettre en lumière l'importance des stéréotypes qu'entretiennent l'usager et le bibliothécaire de référence l'un à l'égard de l'autre, à l'égard de la banque de données, etc., ainsi que les conséquences néfastes de ces stéréotypes sur l'expression du besoin réel d'information.

3.1.2 Typologie et fonctions des questions posées par les utilisateurs

Sur les questions posées par les utilisateurs seulement, et non plus sur le dialogue dans son ensemble, quelques études ont été effectuées en bibliothéconomie et sciences de l'information (Vickery, Saracevic et Johanna Pomian) dont certaines s'inspirent de recherches menées en linguistique et psychologie cognitive (en particulier de Harrah et de Kearsley, mentionnés plus haut). Là encore l'analyse fonctionnelle semble très utile pour saisir la fonction commune et les sous-fonctions spécifiques, ce qu'une analyse purement structurale est incapable de faire; cette dernière distingue seulement entre questions verbales et non verbales; parmi les questions verbales entre questions indirectes et questions directes qui peuvent être à leur tour subdivisées entre questions ouvertes (simples, complexes, enchâssées) et questions fermées (avec alternative spécifiée ou commandant une réponse oui-non).

Si l'on exclut, comme Kearsley (1976), les questions rhétoriques (du genre: "Qui sait?") absentes, en principe, du dialogue dans les systèmes documentaires, toutes les questions ont pour fonction commune de provoquer une réponse verbale de la personne interrogée (Chafe, 1972). A un niveau plus fin, il décèle quatre autres sous-fonctions: "echoic, epistemic, expressive, social control".

Un autre aspect intéressant de l'article de Kearsley réside dans son étude du processus de choix de la question et dans son recours aux études en sciences cognitives, notamment à celles de Berlyne (1960, 1965). C'est ce dernier qui semble avoir inspiré Belkin et son équipe dans la formulation de la théorie ASK. L'étude du contexte général dans lequel les questions sont posées permet non seulement de préciser la fonction commune mais aussi d'entrevoir la mécanique qui sous-tend l'énonciation des questions.

"In particular, questions arise due to conceptual conflict, i.e., when it exists conflict between incompatible symbolic response patterns in the form of doubt, perplexity, incongruity, contradictions, confusion, or irrelevance. Questions serve the purpose of reducing subjective uncertainty and conceptual conflict and, ultimately, the epistemic drive. Closely related to this position are various theories of attitude formation and change in social psychology. Common to cognitive consistency theories (see Abelson et al., 1968) is the idea that the individual attempts to maintain a system of consistent beliefs and to avoid "imbalances" or reduce dissonance. From this perspective, questions may be asked to either weaken the degree of belief or plausibility of a dissonant attitude or strengthen that of a favorable one. Some mechanism of this sort is necessary to account for the expressive functions that questions can serve. Neither the ideas of Berlyne nor of the cognitive consistency theorists tell us anything about how a particular question comes to be selected in relation to the specific context of occurrence. They suggest how questions in general arise. "(Kearsley, 1976, p.364)

L'examen de la structure de surface des questions suggère que la structure sémantique qu'un individu cherche à combler comporte des concepts et des relations organisés selon certaines catégories:

"[...] question asking involves filling in the "gaps" in a cognitive model, where a cognitive model is defined as that subportion of an individual's entire conceptual structure which currently conveys the meaning of events or objects in the immediate environment. Filling in the "gaps" involves specifying the concepts and relations in six basic reference frames space, time, properties, causes, procedures, and roles. I suggest that wh-questions attempt to select subsets of relations for a reference frame relevant to the current context while disjunctive and yes/no questions (closed forms) are intended to specify particular concepts within a selected reference frame." (Kearsley, 1976, p.364)

Ces hypothèses pourraient avoir plusieurs implications importantes pour les systèmes documentaires.

a) Premièrement, à partir de la structure de surface des questions, on pourrait à la fois dresser une typologie des questions et de leurs sous-fonctions. Celles que les utilisateurs des systèmes d'information documentaire posent le plus souvent sont probablement les questions épistémiques, et plus spécifiquement les questions référentielles (les "Wh-questions (Who? Whom? Where? When? How? Why? What? Which? Whose?):

"Epistemic questions serve the purpose of acquiring information. They have been subdivided into referential and evaluative types. Referential questions are intended to provide contextual information about situations, events, actions, purposes, relationships, or properties. The various modes of wh-questions illustrate the major types of contextual features which can be filled in by referential questions. [...] Evaluative questions are asked in various types of test situations (examinations), interviews, discussions, etc. Small children also use this mode extensively as a means of demonstrating their knowledge to others." (Kearsley, 1976, pp.360-361).

Les questions évaluatives seraient plutôt celles que poserait le bibliothécaire de référence pour se construire un modèle de l'utilisateur. Peut-être celles que l'utilisateur final ou l'intermédiaire pose en début de session à une banque de données ou à un ensemble de banques de données pour en évaluer le contenu par rapport au problème à résoudre. Au cours de l'entrevue de référence, il est possible que les interlocuteurs aient recours à des questions de type contrôle social pour maintenir le dialogue, notamment quand ils semblent être dans un cul-de-sac.

b) Deuxièmement, la structure de surface des questions posées par les utilisateurs permettrait, par conséquent, de déceler la nature des réponses souhaitées, donc d'adapter la réponse:

"[... there are simple and complex relationships between form and functional categories. For example, most referential questions have open forms (wh-questions) while most expressive uses probably involve closed forms. Moreover, it seems likely that open forms are used for epistemic purposes when we have little knowledge of the subject but closed forms are used when it is familiar (this is similar to a suggestion of Cygan, 1967, regarding the function of wh-words)." (Kearsley, 1976, p.363).

D'autres chercheurs ont proposé d'autres façons de catégoriser les questions. Par exemple, Saracevic (d'après Vickery, 1984, p.9) pense que la spécificité des termes utilisés, les faits mentionnés, la complexité (le nombre de concepts mis en relation) pourraient servir d'indicateurs.

Joanna Pomian, dans une étude en cours au C.N.R.S., essaie de mettre au point un logiciel, Lexiquest, qui détecterait, dans les stratégies de recherche posées directement par les utilisateurs (et non plus dans les questions adressées à l'intermédiaire humain), des indices de la connaissance du vocabulaire spécialisé et des réseaux conceptuels de la banque de données afin de moduler les réponses fournies par l'ordinateur.

c) Troisièmement, la structure de surface des questions permettrait de choisir le type de repésentations de l'information (ou du savoir) pour la fourniture de réponses appropriées aux attentes et, par conséquent, devrait aider à prendre des décisions sur le formatage.

Ce que dit Kearsley, en effet, semble utile pour qui cherche le type de renseignements à inclure dans une BdeD et la façon de les encoder. Nous avons constaté, plus haut, que les bases de données bibliographiques ne sont pas formatées pour répondre à des questions précises du genre: "Qui?", "Quoi?", "Quand?", "Comment?", etc., mais plutôt pour répondre à cette seule et unique question: "Quels sont les documents qui traitent de ?".

Kearsley (1976, p.372), tout en déplorant que l'analyse descriptive de questions n'ait pas commencé pour de bon, bien que les questions constituent un mode privilégié d'acquisition des connaissances, souligne l'intérêt d'une telle étude pour l'intelligence artificielle:

"Furthermore, an understanding of question asking is necessary if computer programs for natural language understanding are to be extended from isolated sentences to connected discourse and

conversation. The interest in the representation of knowledge is currently of interest to the entire spectrum of workers in artificial intelligence rather than just those involved in natural language understanding programs (Michie, 1976). As more work is done with large knowledge-based program to modify and build its knowledge via self-directed question asking."

3.2 LE DIALOGUE PERSONNE-MACHINE DANS LES BANQUES DE DONNEES BIBLIOGRAPHIQUES COURANTES

Une fois que l'intermédiaire a compris le besoin de l'usager, il doit le traduire dans les langages formels (langage documentaire et langage de commande) admissibles par le système. L'interaction homme-machine dans les systèmes bibliographiques actuels n'a rien de convivial ni de "naturel" comme l'exemple fourni en annexe le montre (P11).

On retrouve cependant, si l'on se réfère à la théorie des actes de langage (Austin, 1962; Searle, 1972), des traces de:

- l'acte locutoire (les marques d'encre sur le papier);

- l'acte illocutoire: le point d'interrogation est une question adressée par l'ordinateur à l'utilisateur: "Quelle est votre question?", les réponses fournies sont des assertions;

- le but illocutoire: c'est tantôt de marquer une disposition à recevoir une commande, de provoquer une réponse de la part de l'ordinateur;

- la force illocutoire: on reconnaÎt la valeur constative comme la durée et le coPt de l'interrogation, on pourrait y trouver une valeur expressive de type behabitif (l'utilisateur découragé, peut abandonner l'interrogation dans les recherches auto-cessantes). Certains messages comme "Log on or Log off" ont une valeur illocutoire ambigue: sont-ils des conseils ou des ordres?

- l'effet perlocutoire: un retour de chariot (non visible sur le listing) entraÎne une réaction de l'ordinateur.

On reconnaÎt également des formules de politesse (avec présentations au début et, parfois, des remerciements à la fin) et des messages (en capsules) formulés en langue naturelle.

Le lieu de l'énonciation est implicite: si l'on interroge DIALOG, on sait que le centre serveur est à Palo Alto en Californie. Le moment de l'énonciation est indiqué avec beaucoup de précision: date, heure, minute et seconde pour le début et la fin du dialogue.

Cependant ces échanges ne sont que des simulacres de dialogue. Tout est arrangé d'avance, programmé. Aucune adaptation aux circonstances ni aux énonciataires n'est possible. La même question posée, dans les mêmes termes, par un expert ou un novice entraÎnera exactement la même réponse. La même question posée par la même personne à quelques heure d'intervalle aura les mêmes résultats. On peut d'ailleurs en conclure que le terme "système d'information" est abusif: car, comme le dit O. Ducrot, on ne peut informer de quelque chose quelqu'un qui possède déjà cette information.

Finalement, on constate à quel point une telle interaction viole les principes de la coopération dans le dialogue.

3.3 LES INTERFACES EN LANGUE NATURELLE

3.3.1 Pourquoi développer des interfaces en langue naturelle?

Depuis que les micro-ordinateurs se sont répandus, les systèmes d'information ont une clientèle nouvelle: les utilisateurs finals (ils interrogent eux-mêmes les BdeD, sans l'aide d'un intermédiaire humain). Ceux-ci ne veulent apprendre ni le langage documentaire ni le langage de commande; ils veulent poser leurs questions en langue naturelle. Ils ont cependant besoin d'être assistés, d'où l'importance du dialogue de clarification dont les systèmes doivent se doter et l'utilité de l'explicitation de la structure de la BdeD.

En outre, puisque les systèmes ont une clientèle plus diversifiée, les questions sont de différents niveaux, sont posées de différentes façons et les réponses devraient être présentées de manière appropriée, adaptée au niveau de chaque utilisateur.

Enfin, parce que les BdeD deviennent très nombreuses et très volumineuses, le type de réponses habituelles (extensionnelles, c'est-à-dire énumératives) devient tout-à-fait inapproprié. Les utilisateurs ne veulent pas avoir à parcourir de longues listes pour ensuite procéder à leur analyse et à leur interprétaion (Contant, 1985, p.3).

On essaie donc d'améliorer l'interface personne-machine et de doter le dialogue avec l'ordinateur de certaines des caractéristiques du dialogue humain. Les recherches nécessaires s'appuient sur l'étude du dialogue entre l'intermédiaire humain et l'utilisateur, au cours de l'entrevue de référence, ce dont nous avons traité précédemment.

L'interface doit être capable soit de comprendre la langue naturelle dans lequel les questions sont posées soit de générer automatiquement des réponses en langage naturel et, si possible, de faire les deux à la fois. On peut donc établir la typologie suivante:

------------------------------------!----------------------------- --

interrogation en langage formel ! réponse en langage formel

------------------------------------!----------------------------- --

interrogation en langage formel ! réponse en langage naturel

------------------------------------!----------------------------- --

interrogation en langage naturel ! réponse en langage formel

------------------------------------!----------------------------- --

interrogation en langage naturel ! réponse en langage naturel

------------------------------------!--------------------------------

On reconnaÎt ainsi que l'interaction entre un demandeur et une source d'information, que cette source soit humaine ou inanimée, n'est pas une transaction de nature technique mais sociale "in which the enquirer is evaluating not only the message received from the source, but also the source itself - how expert and knowledgeable it appears to be, how authoritative, objective and reliable." (Vickery, 1984, p.12). Il faut savoir que les personnes en quête d'information cherchent une source qui a davantage de connaissances qu'elles-mêmes mais pas trop (Rogers et Schoemaker, 1971) et que le demandeur et la source ont des attentes réciproques (Harrah, 1973).

3.3.2 La compréhension automatique du langage naturel

La compréhension automatique du langage naturel est, des deux possibilités, celle qui a été le plus étudiée.

Plusieurs auteurs se sont penchés sur les caractéristiques souhaitées des interfaces qui doivent être "robustes" pour interagir avec des utilisateurs occasionnels ou inexpérimentés (Carbonell; Hayes et Reddy, 1979; Vickery, 1984). En voici quelques-unes:

1. la compréhension du sens littéral: capacité de traiter les pronoms, les ellipses, les expressions idiomatiques, les erreurs grammaticales, les phrases incomplètes, etc.;

2. un mécanisme qui maintienne le "focus";

3. la capacité du système d'expliquer ce qu'il peut faire ou pas, ce qu'il est en train de faire ou d'essayer de faire en réponse à des questions ou pour reprendre un dialogue interrompu;

4. la capacité de demander des explications en cas de question ambigues ou qui dépassent son "entendement";

5. un mécanisme d'auto-apprentissage au fur et à mesure des interactions;

6. la capacité de se constituer progressivement un modèle de l'utilisateur pour lui fournir des réponses appropriées.

a) La compréhension du sens littéral

La compréhension du sens littéral d'une question est possible dans des systèmes assez rudimentaires (de niveau 1 selon Kalita, 1983) pour des domaines très limités: ils convertissent la question dans le format de la banque de données, sans en faire une représentation sémantique. C'est le cas de LIFER (Hendrix), LADDER, PLANES (Waltz), ROBOT (Harris), TQA (Damerau), CO-OP, REL et CONVERSE ainsi que des travaux de la firme ERLI, en France.

b) La détection du focus

Les systèmes de niveau 2 qui se répandent de plus en plus (comme PIQUE - Program for Interpretation of Queries and Updates in English - de Davidson, PAL de Sidner et le système proposé par Hayes s'appuient sur le co-texte pour la compréhension des ellipses et résolvent le

problème des référents et des anaphores. Cela suppose la détection du focus.

Dans un dialogue de ce genre (Davidson, 1982, p.204):

- Qui sont les programmeurs?

- Jones, Smith, Baker

- Quel est le salaire de Jones?

- Il y a 37 employés qui s'appellent Jones; auquel pensez-vous?,

l'ordinateur interprète chaque phrase isolément, sans reconnaÎtre l'intention de l'utilisateur, et le système viole le principe de coopération (Grice, 1975). Or, s'il tient compte du contexte, des ambiguités vont disparaÎtre, le référent va être détecté facilement. Pour cela, le programme doit pouvoir construire un modèle de focus, c'est-à-dire un modèle à court terme des intérêts immédiats de l'utilisateur. Davidson présente d'ailleurs une bonne typologie des modèles: explicite/implicite; canonique/individuel; à long terme/à court terme. Il existe certains modèles à court terme qui respectent les préférences de l'utilisateur, comme les items de la BdeD à présenter et l'ordre dans lequel les présenter.

La compréhension automatique du focus n'est cependant pas dépourvue de risque.

Il peut, en effet, se produire une application inappropriée du focus (la deuxième question n'est pas un sous-ensemble de la première). Pour avertir l'utilisateur, l'ordinateur devrait donc produire ce genre d'élucidation:

- Par "Jones", je suppose que vous voulez désigner l'employé "Jones" qui est "programmeur"

Implantation apparemment simple et peu coPteuse:

"The approach described here does not require any additional information, beyond that which is already encoded in the database and schema, natural language capability (embodied in the grammar) need not be extended, since all operations are performed at the level of the DML. These points are requisites for portability of the natural language interface to a new domain or new database system." (Davidson, 1982, p.211).

Cependant les trois systèmes cités présentent un certain nombre d'inconvénients: ils sont incapables de construire un modèle du savoir, des buts, objectifs et plans de l'utilisateur, de raisonner sur le temps et l'espace, les entités collectives, les attitudes propositionnelles et les modalités (Kalita, 1983, p.6).

La compréhension du focus est, en effet, bien difficile sans la compréhension du but visé par l'utilisateur.

D'autres recherches se développent pour construire des systèmes de niveau 3, les seuls à avoir des théories explicites des agents externes à la BdeD, les seuls systèmes à tenir compte de la théorie des actes de langage:

"[...] level 3 systems are an attempt to vindicate the assumption that to use natural language fluently, a system must understand how the communication process itself is reflected by the language user's goals, plans and beliefs. However, at present there is only a start towards building systems of this level of sophistication [...].".(Kalita, 1983, pp.6-7)

Ces systèmes sont non seulement capables de comprendre les questions et de générer des réponses correctes, mais aussi de répondre de façon appropriée et coopérative.

Nous passons donc de la compréhension automatique à la génération automatique de textes en langue naturelle.

3.3.3 La génération automatique de réponses en langue naturelle

a) Ce que requiert la génération automatique de texte

La génération automatique de textes en langue naturelle (qu'il faut bien distinguer des messages d'erreur ou "textes en capsules") a été beaucoup moins étudiée que la compréhension automatique. Il s'agit aussi d'une des applications de l'intelligence artificielle.

Cela suppose, au préalable:

- analyse des textes en mémoire et formatage des données qui peuvent être réparties en catégories (on se souvient du Linguistic String Project) de façon à ce que les questions soient traduites en types de relations à établir entre les différentes catégories;

- modèle de l'utilisateur, construit au fur et à mesure du dialogue homme-machine ou donné par le concepteur du système;

- analyse des questions et interprétation selon le modèle de l'utilisateur.

et, de surcroÎt:

- génération automatique de bonnes réponses, coopératives, appropriées, selon les règles de la conversation de Grice, à partir de représentations sémantiques "abstraites", pouvant rendre compte de phénomènes de paraphrases et d'inférences (Danlos, 1985, p.83).

Il faut donc se préoccuper du Quoi dire? du Quand le dire? du Comment

le dire?

Ce genre de recherche s'attaque aux aspects pragmatiques (et pas seulement syntaxiques et sémantiques) de l'analyse automatique:

"Pragmatic analysis distinguishes between the actual surface structure of what was said and the intended meaning conveyed through this structure." (Kalita, 1983, p.3).

Or les linguistes qui se sont penchés sur la compréhension automatique des textes se préoccupent surtout des niveaux morphologique, lexical, syntaxique et stylistique, leur but étant de passer d'une représentation du sens à un texte linguistiquement bien formé.

Ils doivent pourtant se poser aussi des questions comme celle du but visé.

"A l'instar de McKeown (1982), on peut justifier les structures de discours en considérant qu'un locuteur a des "idées préconçues" sur les procédés utilisables pour réaliser un acte de communication (e.g. répondre à un certain type de questions) et sur la façon d'organiser ces procédés pour former un discours." (Danlos, 1985, p.95)

A propos de SAM (Script Applier Mechanism) de Schank, Bonnet (1984, p.85) note qu'il utilise la notion de plan "décrivant l'ensemble des choix disponibles en vue d'accomplir un certain but" (par exemple, comment se procurer de l'argent: faire un hold-up, un retrait automatique à la banque, en demander à un ami ou parent, etc.).

"Appelt s'intéresse à la production de phrases en tant que moyen d'action pour accomplir un but. Cette perspective, inspirée principalement d'Austin (1962), place la formulation d'un énoncé sur le même plan que les actions physiques, par exemple se déplacer, déplacer un objet ou montrer du doigt un objet.[...]

L'entrée du système d'Appelt est donc la représentation d'un but (e.g. savoir l'heure), la sortie indique un acte physique (e.g. se déplacer) et/ou l'énonciation d'une phrase (e.g. Quelle heure est-il?). Le programme examine les différentes solutions permettant d'accomplir le but et les différents moyens permettant de réaliser ces solutions. Il repose sur un modèle de raisonnement logique et sur une base de données décrivant la situation ("l'état du monde") et les connaissances des deux personnes en jeu." (Danlos, 1985, pp.69-70)

D'autre part, on doit considérer l'effet recherché sur le locuteur. C'est pourquoi les chercheurs qui s'intéressent à la génération automatique de texte se réfèrent souvent à la théorie des actes de langage, aux actes illocutoires, plus particulièrement.

Dans les interfaces en langue naturelle, il est inévitable que l'utilisateur s'attende à ce que l'ordinateur observe les règles principales d'une conversation humaine. C'est pourquoi les systèmes qui s'engagent dans un véritable dialogue en langage naturel (Kalita, 1983, pp.37-39) doivent obéir aux principes de coopération de Grice qui s'expriment:

-quant au contenu, par la qualité (affirmation vraie), la quantité (ni plus ni moins d'information que requis), la relation (pertinence);

-quant à la forme, par la manière (la clarté, la non-ambiguité et la briéveté).

Kalita et McCalla (1986) cherchent à conférer au dialogue personne-machine un peu de l'"intelligence" et de l'élégance qui caractérisent les dialogues humains. D'autre part, pour que ce dialogue soit plus convivial, ils tentent de faire interpréter en partie le contenu de l'information stockée dans un DBMS.

b) Les prototypes de génération automatique de réponses en langue naturelle

On peut reconnaÎtre l'une ou l'autre des fonctionnalités suivantes dans les prototypes de génération automatique de réponses en langue naturelle:

1) relation (pertinence): maintien du focus (RENDEZVOUS, KLAUS)

2) correction des présuppositions erronées (CO-OP)

. explicitation de la structure (McCoy; McKeown)

. explicitation sur changement du contenu

. réponse indirecte suggestive

. explicitation d'une réponse négative

3) capacité d'éviter une fausse relation entre deux données

4) respect des principes de relation et de quantité: pas de réponse qui reprenne la question

5) manière (brièveté): réponses résumées si désirées à partir d'un modèle de l'intentionnalité (BROWSER, Kalita)

1) Le maintien du focus répond au principe de pertinence.

"The cooperative principle requires that a conversational contribution must be in tune with the accepted purpose or direction of the talk exchange in which one is engaged." (Kalita, 1983, p.37)

En cas d'ambiguité, certains systèmes, comme KLAUS et NanoKLAUS (SRI International), s'engagent dans un dialogue de clarification avec l'usager.

2) Le principe de coopération peut exiger la correction des présupposés erronés de l'interlocuteur.

Pour cela, à un niveau relativement simple, McCoy (1982) et McKeown avec TEXT (1982) s'efforcent de générer des réponses explicitant la structure de la BdeD plutôt que des réponses extensionnelles sur son contenu.

. Mays (1981, 1982, d'après Kalita, 1983), de son côté, fait en sorte que l'ordinateur fournisse des explications sur les changements survenus dans la BdeD. A une question du genre:

- Est-ce que les actions de Bell ont grimpé?

l'ordinateur devrait répondre:

- Oui. Est-ce que vous voulez être tenu au courant si elles continuent de grimper? (Kalita, 1983, 50-51).

Ce serait, dans les banques de données bibliographiques, un moyen plus convivial de demander à l'utilisateur s'il veut stocker sa question pour de la DSI (diffusion sélective de l'information), plutôt que de l'obliger à le spécifier avec des commandes peu explicites dans des serveurs comme DIALOG.

Danlos explique ainsi le principe de réponse indirecte suggestive:

"[...] dans les interfaces en langage naturelle, les réponses de la machine doivent satisfaire le but d'informer l'utilisateur de la façon la plus "coopérative" possible (Grice, 1975). Dans cette optique, il existe un courant de recherche qui tend à formaliser les caractéristiques d'une conversation coopérative. Par exemple, Joshi et al. (1984) avancent le principe suivant: "si vous, locuteur, avez l'intention de dire quelque chose qui peut impliquer pour l'interlocuteur quelque chose que vous pensez faux, alors fournissez des informations supplémentaires pour empêcher la fausse inférence." Ce principe est destiné à rendre compte, par exemple, que la réponse du dialogue

-Est-ce que Luc est normalien?

-Oui, mais il n'est pas agrégé.

est préférable (plus"coopérative") qu'un simple Oui dans la mesure où il est supposé que les normaliens sont habituellement agrégés."

Les réponses indirectes suggestives sont particulièrement utiles dans le cas de réponse négative.

"Dans le même ordre d'idée, on souhaiterait obtenir un dialogue homme/machine tel que

-Est-ce qu'il y a un train pour Paris?

-Non, mais il y a un bus

qui suppose que le moyen envisagé par l'utilisateur (prendre le train) est irréalisable, et qu'en conséquence il propose un autre moyen (prendre le bus)." (Danlos, 1985, pp.70-71)

Dans le système CO-OP, on peut avoir ce type d'échange:

- Quel projets navals la NASA subventionne-t-elle?

- Je n'en connais aucun. Mais vous seriez peut-être intéressé par d'autres projets subventionnés par la NASA...

De même, le système CO-OP (Kaplan, 1982) analyse les présuppositions de l'utilisateur pour lui fournir des explications appropriées à propos de réponses susceptibles de l'induire en erreur. Par exemple, à la question:

- Quels étudiants ont échoué au cours BLT 6513?

l'ordinateur répondra de façon indirecte corrective, si l'un des deux sous-ensembles est vide (aucun étudiant inscrit ou cours non donné), plutôt que de répondre:

- Aucun.

On regrette que les BdeD commercialisées ne respectent absolument pas ce principe: les réponses négatives, bien que correctes, sont non coopératives et sont probablement à l'origine de nombreuses recherches auto-cessantes.

3) Pour éviter que l'ordinateur établisse une relation entre deux données et la fasse passer pour nécessaire alors qu'elle est purement accidentelle (principe de qualité), comme dans l'exemple suivant:

- Qui sont les étudiants canadiens?

- Ceux qui ont une bourse du FCAR,

la seule solution est d'augmenter la base de connaissances d'informations relatives au domaine de la BD (Kalita et McCalla, 1986, p.123).

4) Un autre problème à résoudre réside dans les réponses qui reprennent la question, car elles violent les principes de relation et de quantité (Kalita et McCalla, 1986, p.123):

- Quels étudiants ont eu une note finale supérieure à 80?

- Tous les étudiants avec une note finale supérieure à 80.

ou:

- Quand est-ce que les étudiants diplômés sont enseignants et assistants de recherche?

- Quand les étudiants diplômés reçoivent de l'argent pour l'enseignement et sont payés par un professeur pour faire de la recherche.

5) Le système de Kalita, développé dans le cadre d'un mémoire de maÎtrise, s'attaque au principe de manière, plus précisément à la briéveté. Il synthétise les réponses ou les définit par une caractéristique ou un attribut en fonction des besoins:

- Quels athlètes ont échoué au cours d'histoire 101?

- Les joueurs de football.

- Quels employés de la compagnie ont une voiture de fonction?

- Le président et les vice-présidents.

Une réponse résumée, concise (non extensionnelle) répond au principe de coopération de Grice qui proscrit la verbosité et la monopolisation de la conversation par un seul locuteur (Kalita, 1983, p.4).

Pour cela, le concepteur du système doit mettre en mémoire des modèles d'utilisateurs types, c'est-à-dire décider quelles caractéristiques sont importantes pour eux. On peut envisager, à plus long terme, la possibilité que l'utilisateur décide lui-même du genre de réponses résumées qu'il désire recevoir.

Kalita soulève plusieurs points importants. D'abord, celui-ci que nous avons discuté plus haut: les structures de surface des questions posées en langage naturelle permettent-elles de décider si la réponse désirée doit être résumée ou extensionnelle?

Par exemple, la question:

- Quelles sont les caractéristiques des étudiants qui ont échoué au cours CMPT 110?

requiert une réponse synthétique. Alors qu'avec une demande comme:

- Donne-moi le nom des étudiants qui se sont inscrits mercredi

on s'attend à une liste de noms, mais peut-être, dans certaines circonstances à une réponse du genre: tous les étudiants dont le nom commence par les lettres A à D.

Mais la structure de surface ne suffit pas. Le choix du bon type de réponse repose aussi sur la reconnaissance de l'intention du demandeur et, au préalable, sur une certaine reconnaissance de son savoir. Selon que celui-ci est un administrateur, un registraire, une secrétaire, la réponse fournie différera.

En plus de satisfaire des besoins variés, la modélisation des utilisateurs devrait, selon Kalita, contribuer à assurer la confidentialité de certaines données. Certains utilisateurs ne recevraient que des réponses générales ne dévoilant ni l'identitié ni des faits précis:

"Only users with prior autorization may have access to the actual values in the data fields; others may, however, be permitted to receive descriptive information about such data. For example, in a student database containing marks of students, the teachers and administrators may have access to the actual marks, while the students may be allowed to obtain answers pertaining to the range, distribution of marks and other questions which do not involve identifying specific students with specific marks. Such privacy and security is also required in many other situations, e.g. in income-tax offices, hospital patient databases, etc." (Kalita, 1983, p.92).

Bien sPr, comme on travaille depuis très peu de temps à tout cela, les solutions sont encore très simplistes et il faudra tenir compte, dans la modélisation de l'utilisateur, de l'évolution dynamique de sa tructure cognitive au fur et à mesure de son interaction avec la BdeD. Plusieurs auteurs se penchent sur cette modélisation (Daniels, 1986, entre autres).

Ce bref survol des recherches dans le domaine des interfaces en langue naturelle nous permet d'espérer que les interrogations de banques de données ne sont pas destinées à rester indéfiniment laborieuses et ennuyeuses.

Pour le moment, cependant, l'implémentation d'interfaces en langue naturelle tenant compte des aspects pragmatiques n'est rentable et réalisable que dans certaines conditions (Kalita, 1983, pp.2-3):

. La BdeD est utilisée très fréquemment;

. Le nombre d'utilisateurs potentiels est très élevé;

. Ceux-ci ne veulent pas se familiariser avec un langage de programmation;

. Le domaine de la BdeD est très bien circonscrit conceptuellement;

. Les objets à manipuler sont concrets.

Ce que nous révèlent ces études, c'est qu'il est possible d'envisager que les systèmes dits d'information procurent un jour de l'information (c'est-à-dire des données sélectionnées et interprétées en fonction de l'allocutaire plutôt que des données brutes) et que l'utilisateur puisse se décharger en partie de certaines tâches d'interprétation. Ce serait certainement un grand pas dans la voie de la convivialité des systèmes dont on parle tant. Evidemment, les banques de données textuelles bénéficieront de ces perfectionnements bien après les bases de données factuelles. Cependant le caractère très formalisé des résumés et de certains textes scientifiques et les résultats enregistrés par l'équipe de Naomi Sager sont encourageants.

CONCLUSION

Le cadre de l'énonciation s'est révélé, au cours de notre exploration, être un cadre théorique très riche. Tous les processus de communication, directe, différée ou relayée par l'homme ou par la machine observés dans un système documentaire y trouvent place.

Faut-il s'en alarmer ou s'en réjouir?

S'en alarmer dans la mesure où l'on courrait le risque de reformuler purement et simplement tout ce que l'on fait entrer dans la description habituelle des systèmes documentaires.

S'en réjouir plutôt, car ce cadre semble devoir contribuer à expliquer certains phénomènes appréhendés jusque là de façon insatisfaisante et, par conséquent, à renouveler certaines problématiques.

Quelques thèmes de recherche sont particulièrement prometteurs.

Malheureusement, à cause de l'abondance de la littérature qu'il nous a fallu dépouiller, nous avons l'impression d'arriver, au terme de cette exploration à l'endroit d'où nous aurions aimé démarrer. Nous devrons donc nous contenter de procéder à une énumération:

- énonciation subjective et énonciation objective (ou le leurre de l'objectivité). Puisque, d'une part, il a été amplement montré que "[...] toute production langagière émane de quelqu'un, s'adresse à quelqu'un et parle de quelque chose." (Cervoni, 1987, p.59), et que, d'autre part, le système d'information joue un rôle d'intermédiaire entre les auteurs et les utilisateurs, l'étude de la subjectivité dans l'interprétation des textes devrait être une des priorités de recherche en sciences de l'information. Cela pourrait avantageusement remplacer les expérimentations stériles sur l'influence de la chaleur ou du bruit, ou même des langages documentaires, sur la cohérence de l'analyse humaine. Winograd et Flores (1986, p.30) accordent beaucoup d'importance à cet aspect:

"We can become aware of our prejudices, and in that way emancipate ourselves from some of the limits they place on our thinking. But we commit a fallacy in believing we can ever be free of all prejudice. Instead of striving for a means of getting away from our own pre-understanding, a theory of interpretation should aim at revealing the ways in which that pre-understanding interacts with the text. Gadamer's approach accepts the inevitability of the hermeneutic circle. The meaning of an individual text is contextual, depending on the moment of interpretation and the horizon brought to it by the interpreter. But that horizon is itself the product of a history of interactions in language, interaction which themselves represent texts that had to be understood in the light of pre-understanding. What we understand is based on what we already know,a nd what we already know comes from being to be able to understand."

- intertextualité des énoncés primaires et secondaires: ceci devrait renouveler les évaluations de la performance au repérage des différents substituts des textes primaires. En particulier, ces évaluations devraient tenir compte de tous les éléments d'énonciation: temps, lieu, locuteurs et allocutaires primaires et secondaires, humains et informatiques, ainsi que de la relation entre fonctions et formes.

- expansion et contraction des énoncés (des mots-clés, à rapprocher du "schème d'entendement" de Pottier au texte intégral de l'auteur), avec les différentes opérations mises en oeuvre.

- adéquation des différents énoncés et langages documentaires pour satisfaire les vrais besoins des utilisateurs.

En documentation, on s'est, semble-t-il, trop concentré sur le langage documentaire comme code unique et homogène; on s'est arrêté à la linguistique saussurienne (avec quelques incursions dans la sémantique structurale) et l'on a négligé d'envisager la langue comme un moyen de communiquer et d'agir. On ne s'est pas aperçu du gouffre qu'il y a entre les fonctions des questions des usagers et les fonctions très réduites que peuvent remplir les langages documentaires.

La représentation des BdeD est conçue comme une structure fixe, alors que la structure cognitive des utilisateurs est en évolution constante. L'étude des interactions humaines en langue naturelle devrait faire mieux ressortir les lacunes des interactions personne-machine. Les efforts et argents employés dans la constitution de langages documentaires sont autant de ressources détournées aux dépens de recherches sur la véritable préoccupation: la BdeD comme lieu de communication interactive qui, malheureusement ne cesse de violer les lois du discours selon O. Ducrot (l'informativité et l'exhaustivité).

Des liens intéressants sont apparus: la proximité des sciences cognitives et de la linguistique énonciative; l'importance des modèles cognitifs; les relations entre fonctions et actes de langage.

Nous avons conscience que de nombreuses publications restent à explorer dans lesquelles nous trouverions certainement des voies de solutions.

BIBLIOGRAPHIE DES TEXTES CITES

Association française de normalisation. Recommandations aux auteurs des articles scientifiques et techniques pour la rédaction des résumés. Paris: AFNOR, 1984.

Austin, J.L. How to do Things with Words. Oxford: Clarendon Press, 1962.

Beacco, J.-C.; Darot, M. Analyses de discours et lecture; lecture et expression. Paris: Hachette, 1984.

Beghtol, Clare. "Bibliographic classification theory and text linguistics: aboutness analysis, intertextuality and the cognitive act of classifying documents." Journal of Documentation, 42(2), June 1986, pp.84-113.

Belkin, N.J. "Cognitive models and information transfer." Social Science Information Studies, 4, 1984, pp.111-129.

Belkin, N.J. et al. "ASK for information retrieval: Part I. Background and theory." Journal of Documentation, 38(2), June 1982, pp.61-71.

Benveniste, E. "L'appareil formel de l'énonciation." Langages, 17 mars 1970, pp.12-18.

Bertrand-Gastaldy, Suzanne. "De quelques éléments à considérer avant de choisir un niveau d'analyse ou un langage documentaire." Documentation et bibliothèques, 32 (1-2), janvier-juin 1986, pp.3-23.

Bertrand-Gastaldy, Suzanne. "Les thésaurus de recherche: des outils pour l'interrogation en vocabulaire libre.", Argus, 13(2), juin 1984, pp.84-113.

Bonnet, Alain. L'intelligence artificielle: promesses et réalités. Paris: InterEditions, 1984

Borko, Harold; Chatman, Seymour. "Criteria for acceptable abstracts: a survey of abstracters' instructions." American Documentation, 14, April 1963, pp.149-160.

Cervoni, Jean. L'énonciation. Paris: Presses Universitaires de France, 1987. (Linguistique nouvelle)

Chastinet, Y.; Robredo, J. "Etude des associations réelles entre descripteurs en vue d'améliorer la qualité de l'indexage." Information et documentation, 4, 1974, pp.3-22.

Contant, Chantal. Génération automatique de texte: application au sous-langage boursier français. Montréal: Université de Montréal, Département de linguistique et philologie, 1985. Mémoire de maÎtrise.

Daniels, P.J. "Cognitive models in information retrieval; an evaluative review." Journal of Documentation, 42(4), December 1986, pp.272-304.

Danlos, Laurence. "Un survol des recherches en génération automatique." Revue québécoise de linguistique (UQAM), 14(2), 1985, pp.65-99.

Davidson, J. "Natural language access to database: user modeling and focus". Proceedings of the fourth National Conference of the Canadian Society of Computer Studies of Intelligence, University of Saskatchewan, Saskatoon, Sas., 17-19 May 1982, pp. 204-211.

Dijk, T.A van. "Complex semantic processing." In: Walker, D.; Karlgren, H.; Kay, M. eds. Natural Language in Information Science: Perspectives and Directions for Research. Stockholm: Skriptor, 1977. (FID 551). Pp.127-163.

Dubois, J. "Enoncé et énonciation." Langages, 13 mars 1969, pp.100-110.

Ducrot, O. Les mots du discours. Paris: Editions de Minuit, 1980.

Fidel, Raya. "Writing abstracts for free-text searching." Journal of Documentation, 42(1), march 1986, pp.11-21.

Foucault, Michel. L'archéologie du savoir. Paris: Gallimard, 1969.

Grice, H.P. "Logique et conversation". Communications, 30, 1979, pp.57-72

Griffith, B.C. et al. "The structure of scientific literatures. II. Toward a macro- and microstructures for science." Science Studies, 4, 1974, pp.339-365.

Grishman, Ralph. "Response generation in question-answering systems." Proceedings of the 17th Annual Meeting of the Association for Computational Linguistics, August 11-12, 1979, University of California at San Diego, La Jolla, California., pp.99-101.

Harrah, D. "The logic of questions and its relevance to instructional science." Instructional Science, 1, 1973, pp.447-467.

Hayes, P.; Reddy, R. "Graceful interaction in man-machine communication." Proceedings of the 6th International Joint Conference on Artificial Intelligence, 1979, pp.372-374.

Hendrix, G.G. "Natural language interface." , American Journal of Computational Linguistics, 8(2), April-June 1982, pp.51-61.

Heslot, J. "Récit et commentaire dans un article scientifique." DRLAV revue de linguistique, 29, 1983, pp.133-154.

Hirschman, Lynette et al. "An experiment in automated health care evaluation from narrative medical records." Computers and Biomedical Research, 14(5), 1981, pp.447-463.

Hudrisier, Henri. L'iconothèque; documentation audiovisuelle et banques d'images. Paris: La Documentation française, 1982.

Ingwersen, P. "Search procedures in the library analysed from the cognitive point of view." Journal of Documentation, 38, 1982, pp.165-191.

Joyce, B.; Weil, M. Models of Teaching. 2nd ed. New York: Prentice-Hall, 1980.

Kalita, J.K. Generating Summary Responses to Natural Language Database Queries. Saskatoon, Sask.: University of Saskatchewan. Department of computational science, 1984. M.Sc. Thesis.

Kalita, J.K.; Jones, M.L.; McCalla, G.L. "Summarizing natural language database responses." Computational Linguistics, 12(2), April-June 1986, pp.107-124.

Kearsley, G.P. "Questions and question-asking in verbal discourse: across-disciplinary review." J. Psycholinguistics Research, 5(4), 1976, pp.355-375.

Laufer, Roger. "L'énonciation typographique: hier et demain."Communication et langages, 68, 2ième trimestre 1986, pp.68-85.

McCoy, K.F. "Augmenting a data base knowledge representation for natural language generation." Proceedings of the Twentieth Annual Conference of the Association for Computational Linguistics. Toronto, Ont., June 1982, pp.113-120.

McKeown, K.R. "The TEXT system for natural language generation." Proceedings of the Twentieth Annual Conference of the Association for Computational Linguistics. Toronto, Ont., June 1982, pp.113-120.

McKeown, Kathleen R. "Paraphrasing using given and new information in a question-answer system." Proceedings of the 17th Annual Meeting of the Association for Computational Linguistics, August 11-12, 1979, University of California at San Diego, La Jolla, California., pp.67-72.

Mann, William C. "Design for dialogue comprehension." Proceedings of the 17th Annual Meeting of the Association for Computational Linguistics, August 11-12, 1979, University of California at San Diego, La Jolla, California., pp.83-84.

Milstead Harris, Jessica L. "Treatment of people and peoples in subject analysis." Library Resources & Technical Services, 23(4), Fall 1979, pp.374-390.

Poirier, Diane. Des résumés adéquats pour la jurisprudence québécoise. Montréal: Université de Montréal. Ecole de bibliothéconomie et des sciences de l'information, 1985. Mémoire de maÎtrise.

Robinson, Jane J. "Discourse: codes and clues in contexts." Proceedings of the 17th Annual Meeting of the Association for Computational Linguistics, August 11-12, 1979, University of California at San Diego, La Jolla, California., p.65.

Sager, Naomi. "Natural language information formatting: the automatic conversion of texts to a structured data base.: In: Advances in Computers, 17, (New York: Academic Press, 1978), pp.89-162.

Sager, Naomi. Natural Language Information Processing: a Computer Grammar of English and its Applications. Reading, Mas.: Addison-Wesley Publishing Company, 1981.

Sager, Naomi. "Sublanguage grammers (sic) in science information processing." Journal of the American Society for Information Science, January-February 1975, pp.10-16.

Sager, Naomi et al. "Automatic encoding of clinical narrative." Comput. Biol. Med., 12(1), 1982, pp.43-56.

Searle, J.R. Les actes de langage. Paris: Herman, 1972.

Small, H.; Griffith, B.C. "The structure of scientific literatures; I. Identifying and graphing specialties." Science Studies, 4, 1974, pp.17-40.

Todorov, Tzvetan. "Problèmes de l'énonciation.", pp.3-11.

Turner, W.A. et al. "Les cartindex des sciences et des techniques." Documentaliste, 21(1), janvier-février 1984, pp.3-13.

Vickery, A. "An intelligent interface for online interaction". Journal of Information Science, 9, 1984, pp.7-18.

Vignaux, Georges. Le discours acteur du monde; énonciation, argumentation et cognition. Paris: Ophrys, 1988.

Walker, Donald E. "The organization and use of information: contributions of information science, computational linguistics and artificial intelligence." Journal of the American Society for Information Science, 32(3), 1981, pp.347-363.

Wellish, Hans. "Subject retrieval in the seventies - Methods, problems, prospects." In: Subject Retrieval in the Seventies Proceedings of an International Symposium held at the Center of Adult Education, University of Maryland, College Park, May 14 to 15, 1971.

Wells, G. "Language as interaction." In: Learning Through Interaction (G. Wells, ed.), Cambridge: Cambridge University Press, 1981, pp.22-72.

Winograd, Terry; Flores, Fernando. Understanding Computers and Cognition; a New Foundation for Design. Norwood, NJ: Ablex Publishing Corporation, 1986.