LA PROBLEMATIQUE DE L'ENONCIATION DANS LES SYSTEMES DOCUMENTAIRES
ENTIEREMENT OU PARTIELLEMENT AUTOMATISES
Par
Suzanne Bertrand-Gastaldy
INTRODUCTION
Nous nous proposons d'analyser la pertinence d'appliquer
le cadre théorique de l'énonciation aux systèmes
documentaires partiellement ou entièrement automatisés.
Un système documentaire a pour but de mettre en relation des utilisateurs avec des documents susceptibles de leur fournir l'information recherchée. Pour atteindre ce but, plusieurs opérations sont effectuées par divers intermédiaires - les bibliothécaires ou documentalistes. D'une part, ceux-ci sélectionnent, regroupent, analysent et organisent les messages livrés par les auteurs des documents primaires, afin d'en réduire à la fois la quantité et la variété. Ils les représentent donc sous une forme acceptable par le sous-système de stockage et de repérage qu'est la base de données. D'autre part, ils analysent les questions des utilisateurs pour les condenser et les représenter elles aussi sous une forme acceptable par cette même base de données.
Des interactions complexes se produisent donc à
l'intérieur du système d'information pour extraire
de millions de textes produits à des moments et en des
lieux divers par de multiples auteurs une information qui satisfasse
tour à tour des millions de demandes exprimées par
autant d'utilisateurs dans des espaces et à des moments
fort diversifiés. Malgré la diversité des personnes, des espaces et des moments, les processus de communication dans un système documentaire, sont-ils assimilables à ceux que l'on observe dans l'énonciation? Rappelons que l'énonciation "suppose un locuteur et un allocutaire; [qu'] elle prend place dans le temps à un moment déterminé; [que] les actants de l'énonciation (locuteur et allocutaire) se trouvent dans l'espace à un endroit déterminé au moment où elle a lieu." (Cervoni, 1987, p.27)
La théorie de l'énonciation, parce
qu'elle introduit les conditions de production et d'utilisation
des messages ainsi que la relation entre les signes et leurs utilisateurs,
pourrait-elle pallier les lacunes théoriques déplorées
régulièrement dans le domaine de l'information documentaire
et ainsi contribuer à la compréhension et à
l'amélioration du transfert d'information? D'abord, une brève présentation des composantes d'un système d'information documentaire, au moyen de quelques schémas couramment employés, permettra de mettre en lumière les différents locuteurs et allocutaires ainsi que les différents moments et les différentes conditions de production des énoncés, lors de l'analyse et de l'interrogation. Ensuite, un examen minutieux des diverses analyses produites à partir des textes primaires nous conduira à nous demander si nous sommes encore en face d'énoncés, s'il est possible d'y repérer des traces de l'énonciation. Enfin, nous chercherons dans les dialogues entre êtres humains et entre la personne et la machine, les indices habituels de l'énonciation.
Plusieurs illustrations sont fournies en annexes.
1. QUELQUES SCHEMAS A PROPOS DES SYSTEMES DOCUMENTAIRES
Quelques schémas vont nous permettre de mettre
en place les composantes de la communication dans un système
d'information documentaire.
1.1 LA CHAINE DOCUMENTAIRE ET SON ENVIRONNEMENT
Le schéma de la chaÎne documentaire
(présenté à l'annexe P1) décrit la
succession des opérations. Celles-ci, nous l'avons dit,
visent à réduire la variété des modes
d'expression du contenu et des questions et à faire coincider
contenu des documents et contenu des questions. Les producteurs
et les utilisateurs d'information sont toutefois tenus à
l'écart du schéma. Ce sont leurs énoncés
qui figurent comme intrants du système.
1.2 LE SCHEMA GENERAL DE LA COMMUNICATION
Le schéma général de la communication,
bien connu, met en place l'émetteur et le récepteur,
de même que la transmission du signal par l'entremise d'un
canal, mais il évacue complètement le sens produit
par la mise en relation des locuteurs, des signes et du contexte.
1.3 LES INTERACTIONS HUMAINES A L'INTERIEUR D'UN SYSTEME
DOCUMENTAIRE, SELON L'APPROCHE COGNITIVE
Quelques auteurs britanniques ont introduit récemment
l'approche cognitive dans la présentation des systèmes
documentaires (Belkin, 1984, p.114; Ingwersen, Vickery, 1984;
Vickery et Vickery, 1987)
1.3.1 Schéma d'Ingwersen
Le schéma d'Ingwersen (P2) offre l'avantage
de mettre l'accent sur les actants de la communication et surtout
sur le rôle de leurs représentations mentales qui
se modifient au cours de la communication: les auteurs, les utilisateurs
et les bibliothécaires de référence qui interrogent
le système pour le compte des utilisateurs. Par contre,
il est assez discret sur le rôle des autres intermédiaires
humains qui conçoivent la base de données et représentent
le contenu des documents et il ne dit rien des intermédiaires
informatiques.
1.3.2 Proposition d'un schéma plus détaillé
Il faut donc compléter le schéma d'Ingwersen et détailler ainsi les composantes du système documentaire:
- un ensemble de documents primaires issus de
la structure cognitive d'une multiplicité de locuteurs;
- une base de données comprenant: . parfois, et de plus en plus souvent, un fichier des représentations des textes primaires (bases de données en texte intégral); . toujours, un fichier bibliographique constitué des documents secondaires, c'est-à-dire des représentations réduites, formalisées des textes telles que perçues par la structure cognitive des bibliothécaires intermédiaires qui en ont fait la description et l'analyse; . différents index (ou fichiers inverses) qui réorganisent, de façon automatique, certains éléments du fichier bibliographique et textuel. Ils ont été mis au point par les concepteurs du système; . un sous-système d'interface qui accepte les stratégies de recherche, les représente, les compare au contenu des fichiers inversés et édite les résultats de la recherche.
La recherche bibliographique s'effectue donc non
pas sur le fichier bibliographique ou textuel, mais sur une de
ses représentations possibles , le fichier inverse.
- le bibliothécaire ou spécialiste
de l'interrogation qui effectue la recherche pour le compte de
l'utilisateur: il analyse son besoin d'information, se charge
de sélectionner la bonne banque de données, la bonne
stratégie de recherche adaptée aux capacités
du système et la représente sous une forme acceptable
par ce système. De plus en plus cependant, les utilisateurs
préfèrent ne pas déléguer leur recherche
à un intermédiaire et l'effectuer personnellement;
- les utilisateurs finals: avec la prolifération
des ordinateurs personnels et la mise en marché de systèmes
vidéotex, ils sont de plus en plus hétérogènes,
de moins en moins captifs. Leurs intentions, leurs situations,
leurs préférences, leurs croyances, leurs connaissances
de la banque de données, du système utilisé,
des systèmes d'information en général, sont
très diversifiées.
Pour récapituler, nous pouvons dire que le
système documentaire présente plusieurs particularités
par rapport à la communication directe entre deux êtres
humains: . C'est d'abord une communication différée (les locuteurs des énoncés primaires et secondaires ne sont pas présents lorsque l'allocutaire final en prend connaissance. . C'est ensuite une communication relayée. Une multiplicité d'intermédiaires, de nature hétérogène (êtres humains et ordinateur) modifient, à plusieurs reprises, les énoncés des auteurs et les questions des utilisateurs avant de les mettre en relation. Tous ces intermédiaires sont tour à tour des allocutaires et des locuteurs.. Chacun d'eux met en jeu des modèles cognitifs dont l'ensemble est, lui aussi, fort hétérogène. . Les deux types d'intermédiaires (personnes et machine) ont une architecture fonctionnelle qui nécessite des représentations de nature très différente. En effet, les énoncés intermédiaires doivent avoir une structure assimilable tour à tour par les programmes d'ordinateur et par le cerveau du locuteur- allocutaire humain, car nous avons affaire à la fois à des structures de symboles utilisées dans l'ordinateur et à des représentations mentales. C'est le rôle principal d'une interface que d'effectuer les changements de représentation pour passer de la machine à l'homme et inversement.
Cette conversion risque cependant d'éliminer
des énoncés originaux bon nombre des marques issues
des opérations et processus nécessaires à
un transfert adéquat des informations.
1.4 LES LIEUX ET LES MOMENTS DE L'ENONCIATION DANS
UN SYSTEME DOCUMENTAIRE
Pour récapituler, nous dirons, provisoirement,
que l'énonciation est susceptible de se manifester dans
des lieux et à des moments multiples:
a) dans le contenu des BdeD et nous essaierons d'en
trouver les traces dans: - les substituts des textes primaires: les indices de classification, les indexats (ensembles de mots-clés), les résumés indicatifs ou informatifs, produits soit par les auteurs eux-mêmes, soit, le plus souvent, par les analystes (énonciateurs secondaires), soit encore par l'ordinateur dans le cas d'analyse automatique;
- les textes intégraux (primaires), le
plus souvent scientifiques, de plus en plus présents dans
les BdeD, rédigés par des auteurs (énonciateurs
primaires).
Il semble possible d'étudier les manifestations
de l'énonciation dans chaque texte ou chaque substitut
pris isolément, mais aussi dans l'ensemble des textes ou
de leurs substituts.
En outre, l'énonciation peut s'appréhender
dans les outils documentaires qui servent à l'indexation:
tables de classification et thésaurus, énoncés
antérieurs à l'analyse des textes, souvent périmés,
inadéquats, fortement marqués par l'idéologie
dominante au moment de leur conception, mais canal obligé
de l'énonciation secondaire.
b) dans les dialogues qui comprennent: - les questions que posent les utilisateurs (énonciataires finals) aux bibliothécaires de référence (énonciataires intermédiaires)- dans le cas d'une recherche déléguée; - les stratégies de recherche établies par ces mêmes bibliothécaires qui deviennent à leur tour des énonciateurs intermédiaires (ou par les utilisateurs eux-mêmes, dans le cas d'une recherche directe);
- enfin dans les réponses que fournit
l'ordinateur;
En somme, la problématique de l'énonciation
dans un système d'information touche à la fois le
dialogue (humain ou personne-machine) et le monologue (textes
intégraux ou condensés).
Il nous faut maintenant examiner de près tous
les types d'énoncés, avec l'appréhension
que les manipulations effectuées successivement par les
hommes et la machine les réduisent à des produits
dans lesquels on aurait du mal à reconnaÎtre les
marques habituelles de l'énonciation. 2. LES MARQUES DE L'ENONCIATION DANS LE CONTENU DES BASES DE
DONNEES Nous allons d'abord examiner le résultat des différentes opérations d'analyse en allant des opérations les plus réductrices à celles qui condensent le moins les textes primaires. Nous tiendrons compte des deux étapes: détermination du contenu et "traduction" de ce contenu. Cette "traduction" est en réalité une énonciation seconde (on parle, en bibliothéconomie et sciences de l'information, d'information secondaire, de textes secondaires, de services secondaires, etc.).
Pour terminer, nous dirons quelques mots des marques
de l'énonciation dans les textes intégraux que l'on
retrouve de plus en plus fréquemment dans les BdeD. 2.1 LES DIFFERENTES OPERATIONS D'ANALYSE DU CONTENU (ENONCIATION
SECONDAIRE)
Trois types principaux d'opérations peuvent
être effectuées sur le contenu des documents (P3)
et leurs résultats sont illustrés en P4 et P5, à
l'exception de la classification.
- La classification consiste à assigner
un indice extrait d'un système de classification de façon
à situer les documents dans un cadre préétabli
de connaissances (cadre universel ou spécialisé)
et à les regrouper par affinité de contenu (sur
les rayons d'une bibliothèque, dans un bulletin bibliographique
imprimé ou dans son équivalent ordinolingue: la
base de données).
- L'indexation équivaut à assigner
soit un certain nombre de mots clés indépendants,
pour faire ressortir les principaux concepts traités dans
un document, soit quelques vedettes-matières pour exprimer
les principaux sujets (ensembles de concepts) traités.
- La rédaction d'un résumé
indicatif ou informatif revient à condenser le texte primaire
de façon à produire un énoncé plus
court et moins redondant, en langue naturelle.
2.2 LES ENONCIATAIRES-ENONCIATEURS SECONDAIRES
Comme les opérations requièrent des
savoirs et des savoir-faire différents, elles peuvent être
confiées à trois catégories de personnes:
les classificateurs, les indexeurs, les rédacteurs de résumés,
mais un même intermédiaire (énonciataire-
énonciateur secondaire) peut effectuer les trois opérations
successivement.
2.3 LES ACTES DE LANGAGE EFFECTUES
Le résultat des différentes opérations
d'analyse est un énoncé dans lequel on reconnaÎt
les trois types d'actes de langage mis en lumière par J.L.
Austin (1962):
- un acte locutoire qui est l'acte de produire
une combinaison de symboles écrite en conformité
avec une grammaire et douée de signification. - un acte illocutoire qui consiste à informer de façon plus concise et prédictible que ne l'a fait l'auteur du texte primaire, dans un cadre prédéterminé, selon le genre d'information à véhiculer. Cet acte est de nature assertive. Le classificateur indique à quelle classe du savoir appartient le document. L'indexeur inscrit les concepts ou sujets discutés dans le document.
Le rédacteur de résumés établit,
dans une suite de phrases, les relations causales, circonstancielles,
et autres entre les concepts. Selon la nature du résumé,
il signale les thèmes traités (résumé
indicatif) ou fournit des renseignements précis à
propos de ces thèmes (résumé informatif).
- un acte perlocutoire qui vise la satisfaction
des besoins de l'utilisateur du système; les différents
énoncés secondaires (indices de classification,
mots clés, vedettes-matières et résumés)
répondent à des besoins différents exprimés,
en principe, dans des types de questions différentes.
2.4 LES CODES LINGUISTIQUES MOBILISES
Selon la nature des opérations effectuées,
l'analyste recourt à un code différent qui est tantôt
un code artificiel (ou langage documentaire), tantôt le
code de la langue naturelle. On reconnaÎt là un élément
de la définition de l'énonciation qui, selon Benvéniste
(1970, p.13) est "l'acte même de produire un énoncé
[...]. Cet acte est le fait du locuteur qui mobilise la langue
pour son compte."
2.4.1 Langue naturelle et codes artificiels (langages
documentaires) Comme la langue naturelle, les langages documentaires sont constitués d'un répertoire de symboles (ou lexique documentaire) organisé selon l'axe paradigmatique et d'un ensemble de règles d'utilisation de ces symboles (ou syntaxe documentaire) correspondant à l'axe syntagmatique.
Toutefois, dans les langages énumératifs
comme certains systèmes de classification et répertoires
de vedettes-matières, les deux éléments sont
indissociables. Le langage documentaire est alors une liste finie
de symboles à syntaxe fixe et ne permet pas de générer
de nouveaux énoncés. Mais, contrairement à la langue naturelle, ce sont des langues construites consciemment, dans un but déterminé qui est justement de pallier les principaux inconvénients de la langue naturelle de façon à améliorer le repérage de l'information: . l'élimination de la synonymie favorise le taux de rappel (proportion des documents pertinents repérés par rapport à l'ensemble des documents pertinents contenus dans le système); . l'élimination de la polysémie et de l'homographie accroÎt le taux de précision (proportion des documents pertinents par rapport à l'ensemble des documents repérés).
Une question surgit: quand on évalue l'efficacité
au repérage de ces divers énoncés, est-on
bien conscient des différences de fonctions, de processus
et de codes? certainement pas puisqu'on leur soumet les mêmes
questions. Lorsqu'on fait des stratégies de recherche séparées
pour chaque type d'énoncés, on s'étonne de
la différence des résultats obtenus. Mais il ne
peut en être autrement, les énoncés interrogés
étant différents.
2.4.2 Les systèmes de classification, les
répertoires de vedettes-matières et les thésaurus
vus eux-mêmes comme des énoncés
Les langages documentaires - dans leur totalité
pour les systèmes de classification et les répertoires
de vedettes-matières et dans leur composante paradigmatique
pour les thésaurus - sont eux-mêmes le résultat
d'une énonciation effectuée dans une situation particulière
pour des utilisateurs particuliers.
a) les traces de l'énonciateur individuel
et de l'hyper-énonciateur
On peut considérer que les langages documentaires
sont constitués d'énoncés. Il n'est pas nécessaire,
en effet, que les énoncés aient la structure linguistique
des phrases. Leurs différentes représentations graphiques,
comme un tableau des espèces botaniques (Foucault, 1969,
p.109), sont également constituées d'énoncés.
L'annexe P6 est un exemple d'une partie de thésaurus exprimée
sous forme de cercles concentriques. Ces énoncés sont conçus par une personne ou un groupe de personnes et ils sont révélateurs d'une idéologie, d'une conception du savoir à un moment donné. C'est ainsi que la classification de la Bibliothèque du Congrès regroupe socialisme, communisme et anarchisme, range la prostitution dans les déviations sexuelles, l'éducation des enfants dans l'eugénisme et ne fournit pas les mêmes possibil(...)
(...)nceptuelle qui peut varier selon les époques,
de façon donc diachronique, et cela se manifeste par leur
désuétude. Cette organisation conceptuelle peut
également varier, à un même moment, selon
les cultures et selon la langue, comme on le remarque lorsqu'on
veut traduire un thésaurus.
Ainsi les pommes de terre, en français, font
partie de la classe des légumes, alors que, pour des allemands,
pommes de terre et légumes appartiennent à deux
classes différentes. Au Pérou, les pommes de terre
sont incluses dans la classe des plantes à tubercules.
La Bibliothèque du Congrès a changé
le terme "calculateur" pour celui d'"ordinateur"
des années après que ce dernier soit passé
dans l'usage courant.
A travers la structure conceptuelle et le vocabulaire,
se laissent donc deviner non seulement l'énonciateur, mais
aussi le lieu et le moment de l'énonciation.
b) l'inadéquation des langages documentaires
L'ennui c'est que, conçus à un moment donné, dans un milieu donné, pour des utilisateurs donnés, les langages documentaires peuvent être mobilisés à d'autres moments, dans d'autres milieux, pour d'autres utilisateurs.
Bien souvent, l'énonciataire-énonciateur
intermédiaire est contraint de s'approprier un code inadéquat
pour effectuer l'acte d'énonciation pour lequel il est
payé.
c) les traces de l'allocutaire collectif (les
utilisateurs) Un même langage documentaire ne peut convenir à des clientèles différentes, comme l'ont prouvé la faillite des grandes classifications universelles et la prolifération, à partir du début des années '60, de thésaurus sectoriels, l'équivalent des terminologies de "langues de spécialité", mieux adaptés a des groupes particuliers d'allocutaires. Par exemple, des spécialistes en administration auront besoin d'une structuration sémantique très fine autour de la notion de PERSONNEL, alors que des botanistes emploieront ce terme pour désigner aussi bien les cadres que le personnel syndiqué ou les employés temporaires.
Mais cela pose le problème de la compatibilité
des langages documentaires et de la communication entre systèmes
documentaires et banques de données. L'utilisateur est
obligé d'apprendre un nouveau langage chaque fois qu'il
change de BdeD et c'est ce qui a provoqué l'apparition
des macro- thésaurus, répertoires organisés
de macro-termes communs à plusieurs domaines du savoir.
On voit bien que le langage documentaire, tout comme
le langage naturel, ne peut être considéré
comme un objet autonome, fonctionnant par lui- même, indépendamment
des personnes, des circonstances et des contextes.
2.5 LES ENONCES SECONDAIRES ET LES MARQUES DE L'ENONCIATION
LORSQUE LE CODE EST ARTIFICIEL (CLASSIFICATION ET INDEXATION)
2.5.1 Les marques du code artificiel
Les énoncés produits portent, bien
entendu, les marques du code artificiel, aussi bien dans les symboles
que dans la syntaxe.
a) pour ce qui relève du répertoire
de symboles (ou lexique), le système de la "langue"
artificielle que s'approprie l'analyste se traduit par une notation
différente selon le système de classification utilisé.
Le concept d'"indexation" est rendu par l'indice Z 695.9
dans le système de la Library of Congress (utilisé
dans la plupart des bibliothèques universitaires en Amérique
du Nord) et par l'indice 025.48 dans le système de la classification
décimale de Dewey (qui a cours dans les bibliothèques
publiques d'Amérique du Nord). Il serait différent
dans le système de la Classification décimale universelle,
répandue surtout en Europe et en Afrique. Bien que les
descripteurs inscrits dans les thésaurus soient issus du
lexique de la langue naturelle, ils sont tout aussi révélateurs
des systèmes sémantiques différents qui les
sous-tendent. Ainsi, nous l'avons dit, PERSONNEL ne recouvre pas
la même notion d'un thésaurus à l'autre. Les
utilisateurs des systèmes documentaires ne sont pas toujours
conscients de cette difficulté: les descripteurs français
attribués à un même texte dans deux banques
de données différentes n'appartiennent pas à
la même "langue documentaire". Ils font partie
de deux systèmes linguistiques différents, qui n'ont,
pour ainsi dire, rien à voir avec le système de
la langue naturelle, et qui sont consignés dans des thésaurus
différents. Il est indispensable, pour interroger correctement
une base de données, de connaÎtre - ou plutôt
de consulter - le thésaurus qui a servi à son indexation.
On dirait aussi que les bibliothécaires l'oublient, puisqu'il
leur arrive de doumettre des stratégies de recherche avec
des termes pouvant appartenir soit au langage documentaire soit
à la langue naturelle des titres, des résumés
et des textes. Si deux thésaurus ont puisé leurs symboles dans deux langues différentes, le même texte sera indexé avec des symboles différents, même si - et c'est très rare - la structure sémantique sous-jacente est la même.
Ce n'est toutefois pas le cas des indices issus des
systèmes de classification dont la notation est indépendante
des langues naturelles et peut servir de langage-pivot pour la
traduction automatique. En outre, la différence de structure conceptuelle détermine la finesse avec laquelle il est possible de rendre le contenu d'un document. Hans Wellish (1971) a montré qu'une thèse de Yassin Ahmed Mostapha avait reçu pour seule vedette-matière tirée de la liste des vedettes-matières du Congrès : HYDRAULICS. Indexé à l'aide du
Thesaurus of Engineering and Scientific Terms (TEST),
le même livre aurait pu être décrit par: FLOW,
CHANNEL FLOW, OPEN CHANNEL FLOW, ROUGHNESS. Mais, indexé
avec le Water Resources Thesaurus de l'U.S. Office of Water Resources
Research à Washington, il aurait eu comme descripteurs:
ROUGHNESS COEFFICIENTS, ROUGHNESS (HYDRAULICS), HEAD LOSS. b) Les règles syntaxiques La grammaire des langages documentaires diffère d'un système à l'autre. Il existe tout un arsenal de règles d'utilisation de l'ordre des symboles, de la ponctuation, et de codes comme des opérateurs de rôle pour concaténer l'ensemble des indices ou mots-clés servant à décrire le contenu des documents.
Précoordination ou postcoordination, syntaxe
fixe ou syntaxe libre, ordre du langage naturel ou inversion sont
autant de caractéristiques qui conditionnent la présentation
des résultats de l'analyse.
2.5.2 Les traces de l'énonciataire-énonciateur
intermédiaire individuel (l'indexeur)
Le même texte indexé par des personnes
différentes ou par la même personne à des
moments différents peut se voir attribuer des mots clés
différents, symptômes des "interprétants"
(au sens de Peirce) différents. C'est le fameux problème
connu sous le terme de "cohérence" (cohérence
inter-indexeur ou cohérence intra-indexeur), abondamment
quantifié (dans une bonne centaine de publications) mais
à peu près pas expliqué sur le plan théorique.
Cette différence dans les énoncés
secondaires provient à la fois des énonciataires
secondaires, de leurs connaissances collatérales (de leurs
modèles des utilisateurs, de la collection, du système,
du langage documentaire, entre autres), du code mobilisé
pour l'énonciation secondaire, des conditions d'énonciation
fixées par les politiques du service secondaire et rédigées
en partie pour satisfaire les besoins des énonciataires
finals.
2.5.3 Les traces de l'énonciataire-énonciateur
intermédiaire collectif (le service de documentation) Pour limiter au maximum la subjectivité et la divergence d'analyse, les services secondaires se dotent, en effet, de politiques d'analyse détaillées. Celles-ci sont issues en partie de la prise en compte des besoins particuliers de la clientèle, de l'utilisation que celle-ci fait des documents, de la taille de la collection, de son rythme d'évolution, du support sur lequel sont stockés les résultats de l'analyse, et aussi du type de documents analysés par le service documentaire.
Tout ceci est d'ailleurs étudié depuis
assez longtemps (Bertrand-Gastaldy, 1986). Ces politiques laissent des traces dans les concepts choisis et leur formulation. Un même texte a été indexé ainsi par ISA (Information Science Abstracts): INFORMATION RETRIEVAL SYSTEM, EVALUATION, BADADUQ, INTERACTIVE SYSTEM, USER REACTIONS, (FRENCH) et par le C.N.R.S.
(Centre national de la recherche scientifique), dans
le Bulletin signalétique 101: RECHERCHE DOCUMENTAIRE, MODE
CONVERSATIONNEL, REACTION UTILISATEUR.
2.5.4 Les traces de l'énonciataire final collectif
(la clientèle du système)
a) les besoins traduits dans les grilles d'analyse
Les analyses d'un même texte peuvent donc diverger
selon la clientèle à laquelle elles sont destinées.
Les paramètres des besoins sont nombreux et comprennent,
entre autres, la qualité du repérage (le taux de
rappel désiré détermine l'exhaustivité
de l'analyse - le nombre de concepts retenus; le taux de précision
conditionne la spécificité des termes choisis).
On reconnaÎt le fameux principe de relation de Grice, qui
se mesure en pertinence: il s'agit de fournir ni trop peu d'information
(rappel trop faible, silence documentaire) ni trop (précision
trop faible, bruit documentaire élevé). L'ennui,
c'est que l'emploi d'une seule méthode d'analyse ne réussit
jamais à fournir cette qualité, le rappel et la
précision variant de façon inversement proportionnelle.
C'est là donc un autre symptôme de l'incapacité
des langages documentaires à satisfaire divers besoins.
Il y a également les principes d'ordre (classement alphabétique
ou systématique des fichiers) et de prévisibilité.
Chaque service secondaire établit une grille
d'analyse qui constitue une liste-questionnaire - un pense-bête,
si l'on veut - à l'usage des analystes, contenant les types
de concepts à retenir dans un texte primaire. Dans le domaine
de l'éducation, la grille d'analyse d'ERIC, aux Etats-Unis,
diffère de celle d'EDUQ, au Québec ou de celle d'ONTERIS,
en Ontario. En médecine, la grille de la NLM (National
Library of Medicine) se distingue de celle de l'IRSST (Institut
de recherche en santé et sécurité du travail)
ou de celle d'Excerpta Medica.
Voici, à titre d'exemple, un extrait des "Pincipes
d'indexation et utilisation du lexique de physique" établis
par Le C.N.R.S. (1978, p.3): "D'une façon approximative
les descripteurs correspondant aux notions susceptibles d'être
rencontrées lors de l'analyse d'un document scientifique
ou technique peuvent se classer en un certain nombre de catégories
(certains descripteurs pouvant appartenir à deux ou plusieurs
de ces catégories) [...]." Les catégories incluent:
1) sciences et techniques fondamentales ou générales
- physique, chimie, médecine, métallurgie, électronique;
2) sciences et techniques spécialisées; 3) phénomène
et processus; 4) méthodes, techniques, procédés
(abstraits ou concrets); 5) appareillage ou équipement;
6) propriétés ou caractéristiques; 7) ensembles
concrets ou abstraits ou éléments de base de ces
ensembles; 8) conditions opératoires ou de fonctionnement.
b) le dialogisme
Puisqu'on reconnaÎt l'influence de l'allocutaire
sur le contenu des énoncés secondaires, il serait
intéressant, pour approfondir l'influence de la prise en
compte des utilisateurs dans les systèmes documentaires,
d'étudier le dialogisme que Cervoni (1987, p.24) présente
ainsi:
"Le dialogisme est l'étude de l'énonciation
considérée comme mise en communauté et d'une
signification et d'une activité intersubjective L'influence
de l'allocutaire sur le contenu et la valeur pragmatique des énoncés
était reconnue et mentionnée déjà
dans les premiers travaux contemporains sur l'énonciation.
Mais on n'allait pas jusqu'à en faire une donnée
constitutive à mettre sur le même plan que l'intentionnalité
du locuteur ou, plus généralement, la fonction du
sujet parlant. Le privilège accordé à ce
dernier avait pour effet de dénaturer la relation interlocutive.
Ce que propose F. Jacques, c'est de recentrer l'étude de
l'énonciation sur la relation, de considérer la
relation qu'établit une énonciation comme primordiale
et irréductible."
c) l'inadéquation et la désuétude
de l'analyse documentaire
Si les besoins des utilisateurs sont reconnus, parfois
ils ne sont pas satisfaits, en partie à cause des limites
des langages documentaires, des formats d'enregistrement et des
capacités de repérage du système. Par exemple,
bien que les catégories de concepts telles que les matériaux,
les processus, etc. soient énoncées, elles ne sont
pas étiquetées comme telles dans le format d'enregistrement,
donc pas repérables de cette façon. Elles sont inscrites
sans marque distinctive, les unes après les autres, puis
classées par ordre alphabétique dans les fichiers
inverses. Les BdeD relationnelles seraient sans doute mieux adaptées.
Bien souvent aussi, les véritables besoins ne sont pas pris en compte, à cause des stéréotypes entretenus par les concepteurs de systèmes, des limites du langage documentaire ou de la nécessité de s'adresser à une clientèle hétérogène dont aucune des catégories n'est en réalité satisfaite. En voulant s'adresser à tout le monde, on n'adapte le message à personne.
C'est un peu ce que fait remarquer Hudrisier (1982,
pp.134-135), à propos non pas de l'analyse des textes mais
des images. Selon lui, les grilles d'analyse devraient tenir compte
du connoté autant que du dénoté: "Le documentaliste ne se poserait-il pas trop souvent en censeur épistémologique, estimant que seul l'attestable, le "dénotable" et le "notable" peuvent être l'objet d'analyse? Rares sont en effet les iconothèques qui essaient véritablement de traiter les demandes, pourtant parfaitement recevables, prenant en compte l'approche sensible de l'image. Une iconothèque devrait pouvoir répondre à des demandes touchant au beau ou au laid, au tendre ou au violent, au froid ou à l'érotique ... Et pourtant ces catégories sont souvent largement absentes des analyses, même si elles constituent le "gros" de la demande des utilisateurs.
Tout se passe comme si l'utilisateur avait tort de
faire ce type de demande, non pas vis-a-vis de l'institution -
car l'iconothécaire reconnaÎtra parfaitement le bien-fondé
d'une requête aboutissant à la création de
ce type de messages -, mais par rapport aux classifications existantes:
l'audace est d'oser parler de classification en ces termes. Ne
s'agirait- il pas, en fait, de la propre angoisse du "classificateur"
d'images qui craint de ne pas retrouver une image classée
sous ce type d'item, de créer des catégories qui
se chevauchent les unes les autres (et donc de ne pouvoir distribuer
les images dans chaque enveloppe-catégorie) ou encore des
catégories non attestables par tous et critiquables?"
C'est sans doute pourquoi les systèmes documentaires sont si peu utilisés, comme l'attestent de nombreuses enquêtes et pourquoi les scientifiques accordent bien plus d'importance aux réseaux informels, aux renseignements donnés par un collègue au téléphone, ou au bar lors d'un congrès. L'interlocuteur partage alors le même modèle conceptuel et peut fournir immédiatement une réponse pertinente.
L'effet perlocutoire recherché: la satisfaction
de l'utilisateur aboutit au contraire à un effet perlocutoire
non recherché: le découragement des utilisateurs
et leur désaffection des services secondaires.
D'ailleurs, la fonction de fourniture de l'information
pertinente aux utilisateurs, n'est pas pleinement reconnue dans
certains milieux. On éprouve parfois de la difficulté
à admettre, par exemple, que les documents d'archives produits,
énoncés par des administrations particulières
à des fins particulières puissent - au bout d'un
certain temps - être utilisés pour d'autres fins
(les fins premières n'existant plus, et les administrations
et leurs interlocuteurs étant disparus - de recherche historique
sur les formations discursives (au sens de Foucault), par exemple,
et que, par conséquent, leur contenu doive faire l'objet
d'une seconde énonciation adaptée à ces nouveaux
besoins d'une nouvelle clientèle. Mais l'analyse documentaire, vue sous l'angle de l'énonciation, ne contient-elle pas en elle-même sa propre condamnation? Adaptée à un type particulier d'utilisateurs, dans des circonstances particulières pour être réellement pertinente, elle est en même temps destinée à devenir désuète dès qu'elle est stockée pour une longue durée et inadaptée - non pertinente - dès qu'elle a l'ambition de négliger le particulier pour atteindre le collectif.
C'est d'ailleurs tout le problème de l'information.
Ce qui est informatif pour une personne ne l'est pas forcément
pour l'autre.
Tout cela ne donnerait-il pas raison, en partie du
moins - aux tenants de la théorie de l"aboutness"?
L'indexation devrait se contenter de consigner ce dont il est
question, sans vouloir traiter le sens "le meaning",
puisque celui-ci n'est pas intrinsèque au texte, mais dépend
de l'interlocuteur qui retient seulement certaines catégories
de caractères (pour parler comme Jean-Guy Meunier) en fonction
de ses besoins et de ses capacités de traitement.
La véritable fonction de l'indexation n'est-elle
pas seulement de diriger l'utilisateur vers le texte, d'indiquer
les notions traitées, puisque, de toute façon, la
pertinence est toujours du côté de l'utilisateur?
Mais il faut alors que le texte soit accessible facilement dans
son entier.
2.5.5 Les textes secondaires sont-ils de véritables
énoncés? Bien que nous ayons reconnu, dans les "textes" secondaires produits lors de l'analyse humaine, les marques du code, de l'allocutaire-locuteur individuel et collectif, ainsi que de l'allocutaire final, nous pouvons nous demander si nous avons affaire à de véritables énoncés. En effet, nous n'y trouvons pas les formes habituelles de l'énonciation: aucun article, aucun déictique, aucun verbe, aucun adjectif ou très peu, pas de formes modales ou temporelles qui permettent de marquer à la fois le locuteur et l'allocutaire, la position du locuteur dans le temps et dans l'espace, et par rapport à son énoncé. Nous avons pu constater, en effet, que les seules formes retenues sont des symboles extraits de langages documentaires. Nous y avons toutefois reconnu des traces de la plupart de ces éléments et nous pouvons montrer que ces symboles sont en réalité des symboles- indices.
Pour cela, nous allons relire les propos éclairants
de Foucault (1969) dans son chapitre sur "La fonction énonciative".
a) Les symboles-indices
"L'énoncé, même s'il est
réduit à un syntagme nominal ("Le bateau!"),
même s'il est réduit à un nom propre ("Pierre!"),
n'a pas le même rapport à ce qu'il énonce
que le nom à ce qu'il désigne et à ce qu'il
signifie. [...] Un nom se définit par sa possibilité
de récurrence. Un énoncé existe en dehors
de toute possibilité de réapparaÎtre, et le
rapport qu'il entretient avec ce qu'il énonce n'est pas
identique à un ensemble de règles d'utilisation."
(Foucault, 1969, pp.117-118) Chaque indice, chaque mot-clé, est relié à un document qui possède des caractères le distinguant de tout autre document: c'est sa description bibliographique (auteur, titre, mention d'édition, etc.). Deux indexations en tout point semblables, de par leur rattachement à deux documents différents publiés dans des revues différentes, à des dates différentes, constitueront bien deux énoncés différents qu'il faudra interpréter différemment avec l'aide du co-texte et de l'intertexte qui, lui, contient donc aussi un certain nombre d'éléments indiciels.
D'ailleurs la fonction principale du symbole-indice
(qui est classé dans un index) est de pointer vers un document
(ou vers sa description).
b) Le sujet de l'énoncé
"Un énoncé [...] se distingue
d'une série quelconque d'éléments linguistiques
par le fait qu'il entretient avec un sujet un rapport déterminé.
[...] un énoncé qui ne comporte pas de première
personne a tout de même un sujet [...]." (Foucault,
1969, p.121) L'indexeur n'est pas qu'un simple émetteur de signes, un simple lecteur qui lirait un extrait du langage documentaire. Même si sa présence n'est pas signalée par des formes indicielles, on trouve sa marque dans le choix des symboles-indices. En effet, malgré les fortes contraintes éditoriales, deux indexeurs différents d'un même service indexent toujours différemment un même texte, comme nous l'avons mentionné plus haut à propos de la cohérence inter-indexeur. Cela pose d'ailleurs tout le problème de la superposition d'un énonciataire-énonciateur intermédiaire qui, en réalité, interprète un message premier pour en faire un énoncé second. Ce dernier ne peut pas produire les mêmes interprétants que le texte original.
Donc, il y a bien un sujet individuel pour chaque
énoncé intermédiaire.
c) Le domaine associé "[...] la fonction énonciative - montrant bien par là qu'elle n'est pas pure et simple construction d'éléments préalables - ne peut s'exercer sur une phrase ou une proposition à l'état libre. Il ne suffit pas de dire une phrase, il ne suffit même pas de la dire dans un rapport déterminé à un champ d'objets ou dans un rapport déterminé à un sujet, pour qu'il y ait énoncé - pour qu'il s'agisse d'un énoncé: il faut la mettre en rapport avec tout un champ adjacent. [...] Un énoncé a toujours des marges peuplées d'autres énoncés." (Foucault, 1969, p.128)
"[...] il n'y a pas d'énoncé en
général, d'énoncé libre, neutre et
indépendant mais toujours un énoncé faisant
partie d'une série ou d'un ensemble, jouant un rôle
au milieu des autres, s'appuyant sur eux et se distinguant d'eux
il s'intègre à un jeu énonciatif, où
il a sa part aussi légère, aussi infime qu'elle
soit." (Ibid., p.130) C'est ainsi qu'on peut parler de la valeur discriminante d'un mot-clé ou d'un ensemble de mots-clés (indexat). L'indexeur, connaissant la collection déjà indexée, attribue des mots-clés de façon à distinguer le texte qu'il a entre les mains des autres textes portant sur un sujet semblable ou voisin. En outre, chaque mot-clé attribué à un texte entretient avec les autres des relations syntagmatiques et l'ensemble des mots-clés attribués dans une banque de données n'a rien à voir avec l'ensemble des descripteurs d'un thésaurus et leurs relations paradigmatiques (voir en P7, la différence entre indexats, à gauche, et thésaurus, à droite).
Cela peut se vérifier sur un corpus. Les
études de co-occurrences et de classification automatique
effectuées sur des indexats révèlent un lexique
ainsi que des relations différentes du lexique et des relations
qui figurent dans le thésaurus ayant servi à l'indexation.
C'est ainsi qu'au Service d'information et de Documentation de
l'Institut du Verre, on s'est rendu compte, il y a quelques années,
que des associations comme "verre creux - détergent"
présentes dans la BdeD, n'avaient pas été
prévues dans le Thésaurus Verrier conçu avant
que les lave-vaisselle se répandent dans les foyers (Chastinet
et Robredo, 1974).
Idéalement, avant de consulter une banque
de données, il faudrait pouvoir consulter le thésaurus
pour l'organisation paradigmatique du langage documentaire et
la représentation de la banque de données telle
que peut la révèler un "thésaurus de
recherche" construit, faute de mieux, à partir des
co-occurrences (voir en P12, pour un réseau construit à
partir des cooccurrences). Mais comme on n'est pas au clair sur
les fonctions de ces deux instruments, cela amène actuellement
des formules hybrides, avec des thésaurus qui contiennent
des relations associatives établies plus ou moins à
partir des co-occurrences présentes dans un corpus réel
ou hypothétique. Le premier thésaurus semble être
l'équivalent de la mémoire sémantique, le
second l'équivalent de la mémoire épisodique
(à partir de laquelle d'ailleurs se constitue la mémoire
sémantique). Faut-il pour cela les confondre en un seul?
Des recherches plus approfondies sont nécessaires.
d) L'existence matérielle "Enfin, pour qu'une séquence d'éléments linguistiques puisse être considérée et analysée comme un énoncé, il faut qu'elle remplisse une quatrième condition: elle doit avoir une existence matérielle." (Foucault, 1969, p.131)
"Les coordonnées et le statut matériel
de l'énoncé font partie de ses caractéristiques
intrinsèques. [...] il faut qu'un énoncé
ait une substance, un support, un lieu et une date. Et quand ces
requisites se modifient, il change lui-même d'identité."
(Ibid., p.133)
Rattachée à la notice bibliographique
d'un document, l'indexation fait partie des éléments
descriptifs du document. Bien que la date de son émission
ne soit jamais marquée formellement, au fil des années,
cependant, le lexique utilisé est révélateur
d'une époque, comme nous l'avons vu.
e) Le partage entre sémantique et pragmatique
De plus, nous avons constaté que les conditions d'utilisation des informations déterminent en grande partie les énoncés secondaires. C'est l'aspect pragmatique des systèmes documentaires dont Van Dijk
(1976, p.140) dit qu'il est relativement simple:
"We here arrive at what may be called the pragmatic
aspects of information processing. That is, not only is what is
semantically `important' with respect to the discourse to be accounted
for, but at the same time the functions of the semantic information
in communication between machine/system and man: questions asked,
information given as answers, etc. In other words: one of the
major co-determining constraints on information storage must be
the possible use of the information in most possible pragmatic
contexts."
2.6 LES ENONCES SECONDAIRES ET LES MARQUES DE L'ENONCIATION
LORSQUE LE CODE EST LA LANGUE NATURELLE (RESUMES)
2.6.1 Les fonctions des résumés
a) Fonction principale
La fonction principale des résumés,
qui consiste à permettre "le repérage et la
sélection rapides de l'information utile" (norme AFNOR
Z 44-004, 1984, p.2), est exprimée par rapport aux besoins
des énonciataires, donc sous l'angle pragmatique:
"The nature of an abstract reflects the editor's
purposes, which in turn reflect the desires of the reader. Therefore,
one cannot separate function from use: an editor's constant problem
is to estimate what sort of representation his readers really
want." (Borko et Chatman, 1963, p.149)
b) Fonctions secondaires Les fonctions secondaires, elles, sont envisagées par rapport à l'indexation et par rapport au texte primaire, donc dans un rapport d'intertextualité. On dit, en effet, que les résumés "ont pour caractéristique d'être produits à partir d'autres textes, d'en rendre compte et d'y renvoyer." (Beacco et Darot, 1984, p. 107) et qu'ils doivent pallier les inconvénients de l'indexation (Fidel, 1986, p.16), en particulier l'absence de liens syntaxiques qui provoque énormément d'ambiguité, donc de bruit au repérage. Par contre, l'examen des politiques éditoriales de 123 banques de données publié par Raya Fidel en 1986 révèle un manque d'uniformité en ce qui concerne l'intertextualité (terme qui n'est pas employé dans la littérature de bibliothéconomie et des sciences de l'information, sauf par Beghtol, 1986): les mots clés doivent-ils être inclus dans le résumé ou complémentaires? Même question à propos des titres et des textes primaires: le vocabulaire du résumé doit-il reprendre le vocabulaire de l'auteur?
Quant à la contribution de chacun de ces éléments
au repérage, elle fait l'objet de nombreuses études
quantitatives, mais le problème semble mal défini.
Il faut remarquer, en outre, que les rapports entretenus
avec les textes primaires varient énormément selon
que le résumé est informatif ou indicatif, comme
le montre le petit tableau ci-dessous: Résumé informatif Résumé indicatif ----------------------------------------------------------------- "représentation abrégée du document, "se contente de signaler le ou les thèmes renseignant sur les informations d'études." (AFNOR, ibid.) quantitatives ou qualitatives apportées par l'auteur" (AFNOR, 44-004, p.2)
"include every fact the reader will want" "alerting"
(Borko et Chatman, 1963, p.150) "to obviate the necessity of "is designed `to tell the reader what reading the article at all." subjects he will find discussed in the (Borko et Chatman, Ibid.) article - to act as a guide to the article, not as a
substitute for it." (Borko et Chatman,
ibid.,p.151)
Bien que la norme AFNOR déclare que "Le
résumé n'a pas pour but de remplacer la lecture
du document lui-même mais de permettre d'atteindre un plus
grand nombre de lecteurs", il ne faut pas se leurrer: la
prudence est de mise depuis le jugement rendu dans l'affaire Microfor-Le
Monde (la diffusion d'informations précises par le biais
des résumés porterait atteinte au droit d'auteur)
. Même si on ne le dit plus, on continue cependant de rédiger
des résumés informatifs dans cette optique.
c) Nouvelle fonction
Les résumés remplissent, depuis quelques
années, une nouvelle fonction, celle de servir au repérage
automatique dans les banques de données:
"L'auteur doit être conscient que, lorsque
le résumé entre dans un fichier informatisé,
tous les termes qui y sont employés peuvent être
utilisés lors de la sélection des informations."
(AFNOR, Z 44-004, p.2). Donc le rédacteur doit produire un énoncé en ayant à la fois le souci de le rendre facilement lisible par l'énonciataire final, mais aussi facilement traitable par un programme rudimentaire d'indexation automatique qui reconnaÎt chaque chaÎne de caractères et l'inclut, avec ses coordonnées, dans un fichier inverse.
Ce sont deux conditions pragmatiques conflictuelles
dont tous les services documentaires ne tiennent pas compte. D'après
l'enquête de Fidel, 46% seulement d'entre eux ont des politiques
de rédaction spécifiquement pour le repérage
automatisé en vocabulaire libre. Cependant aucun ne mentionne
que cette nouvelle fonction de repérage peut déterminer
la nature informative ou indicative des résumés.
2.6.2 Les marques de l'énonciation
Déjà recommandée par Borko et
Chatman (1963, p.149), l'étude des résumés
publiés reste à faire en bibliothéconomie
et sciences de l'information. Seules sont accessibles les analyses
comparatives des normes:
"Only situations expressly presented to guide
the abstracter were analyzed; no analysis was made of actual practice
as determined, for example, by close examination of the published
abstracts themselves. Such an analysis definitely should be done,
both to discover the relation between theory and practice and
to uncover the more subtle aspects of linguistic and information-retrieval
behavior involved in the preparation of abstracts. In the meantime,
we must satisfy ourselves with surveying how editors say abstracts
should be written." En réalité, une analyse du fonctionnement des résumés indicatifs du Bulletin signalétique en sciences sociales a été effectuée sur des résumés indicatifs rédigés au C.D.S.T. du C.N.R.S. en France, à des fins pédagogiques: initier progressivement le lecteur aux fonctionnements linguistiques des revues spécialisées en partant de textes courts et stéréotypés (Beacco et Darot, 1984).
Nous tenterons, dans ce qui suit, de faire une synthèse
des marques de l'énonciation telles qu'on peut les prévoir
d'après les normes ou les observer dans des résumés
réels.
a) Normes et politiques d'analyse (hyper-énonciateur
et énonciataire/énonciateur collectif) Le fond et la forme des résumés font l'objet de normes internationales et nationales (ISO: International Standard Organization, AFNOR: Association française de normalisation, BSI: British Standard Institute, ANSI: American National Standard Institute) ainsi que de politiques précises édictées par chaque service documentaire qui, comme dans le cas de l'indexation, tient compte de toute la situation d'analyse et de repérage (collection, ressources, supports de stockage et de recherche, besoins des utilisateurs). Il n'est pas étonnant de retrouver des grilles conceptuelles comparables.
La relation de paraphrase entre les résumés
et les textes est donc contrainte par les conditions de production.
Voici des exemples de directives données quant
au fond:
"The most structured check list contains categories
that should be included in abstracts. The actual categories usually
vary from one database to another. In a technology area, for instance,
one database always includes the type of welding process and steel
types, and others suggest the inclusion of materials, formats,
conditions, properties and processes. In another area, company
names, product names and individual names are considered especially
significant. One service lists eleven categories and requires
that any relevant categories be included in abstracts. Another
use of check lists is to write down very specific guidelines such
as: whenever dealing with a new product, process or technology,
mention the company name; include the full standard name for all
tests, questionnaires etc.; if the document is about a survey,
state who conducted the survey; or, if a company is a subsidiary,
mention the name of the parent organisation if it is not included
in the name of the company." (Fidel, 1986, p.17)
Pour la forme, on peut retrouver ce genre de politique:
"When abstractors are not asked to adhere to
author language, the most frequent recommandation is for the use
of standardised, concrete terms and a language which is specific
to a subject area. [...] A typical example of such a rule is the
requirement that Latin names as well as common or vernacular names
of certain entities be explicitly mentioned. Another example is
a set of rules to determine how to record geographic locations."
(Fidel, 1986, p.18)
On ne constate aucun consensus ni sur l'utilisation
des synonymes ou la répétition des mêmes termes,
ni sur l'emploi du vocabulaire contrôlé ou pas.
La prise en compte de l'énonciataire intermédiaire
qu'est le système automatisé de repérage
laisse des traces dans ces textes secondaires. Alors qu'autrefois
on favorisait des structures de phrases complètes, avec
des marqueurs d'argumentation réorganisant, au besoin,
l'énoncé primaire de l'auteur, on recommande désormais
de recourir aux expressions nominales et au style télégraphique,
et d'éviter les termes vagues ou généraux
comme "des moyens variés", "quelques endroits".
Il faut spécifier, par des termes précis les moyens,
les lieux, etc. Il faut également prohiber les tournures
négatives, puisque l'ordinateur ne recherche que les formes
pleines - les mots grammaticaux étant éliminés
par l'anti- dictionnaire:
"Suppose, for instance that authors describe
a test to evaluate vendors of online search systems. A phrase
in an abstract such as: `evaluates all search systems, except
DIALOG, for response time', will retrieve the abstract when documents
about DIALOG are desired. Moreover, the abstract will be rejected
in a search about response time on BRS or ORBIT." (Fidel,
1986, p.19)
Donc comme dans l'indexation, mais dans une moindre
mesure, les éléments symboliques sont favorisés
au détriment des éléments indiciels, pour
le repérage automatisé.
Nous verrons dans ce qui suit que les fonctions distinctes
des résumés informatifs et indicatifs influencent
également le fond et la forme. Vignaux (1988, p.9) a d'ailleurs
fait remarquer la relation entre fonctions et formes dans l'énonciation.
b) Marques de l'énonciataire-énonciateur
(rédacteur de résumés) et de l'énonciateur
primaire (auteur)
Les marques de l'énonciataire-énonciateur
sont prohibées dans les résumés informatifs
surtout:
"There is often a close correlation between
one's notion of the function of abstracts and his rhetorical point
of view: in informative abstracts, the abstracter is completely
identified with the author, while in descriptive abstracts, the
abstracter stands apart, behind locutions like "was attempted"
or "The author believes Y". (Borko et Chatman, 1963)
Le rédacteur du résumé informatif doit se substituer à l'auteur du texte primaire, adopter son point de vue, commenter la recherche et non le texte lu, tout ceci au moyen de verbes impersonnels ou pronominaux, de tournures passives qui donnent une impression d'objectivité: "il est montré que", "cette hypothèse se démontre aisément". L'agent, s'il était restitué serait le locuteur primaire. Mais comme ce locuteur est déjà très effacé dans le texte primaire (Heslot), il y en a peu de traces. Donc les résumés informatifs rendent compte des textes sans que ce savoir constitué soit rapporté à leur origine énonciative. Ne tente-t-on pas de faire de l'analyste un simple émetteur de signes, alors qu'on conserverait à l'auteur le statut du sujet de l'énoncé? On se souvient de la distinction de Foucault (1969, p.122): "On pourrait évoquer aussi, pour montrer la dissociation entre l'émetteur de signes et le sujet d'un énoncé, le cas d'un texte lu par une tierce personne, ou de l'auteur récitant son rôle." Tout ceci n'est, en fait, que subterfuge. Comme dans l'indexation, l'objectivité est un leurre. Deux rédacteurs chargés d'énoncer un résumé informatif d'un même texte produiront des énoncés différents , bien que les normes , les politiques, le texte primaire imposent des contraintes si fortes que la nature stéréotypée apparaÎtra.
Parfois, cependant, les politiques éditoriales
marquent le rédacteur par son nom, ses initiales, ou encore
par le nom du service secondaire. Si on conserve le résumé
rédigé par l'auteur, on le mentionne. Dans les résumés indicatifs, par contre, on recourt à des expressions du genre: "L'auteur dit que ..." "Cet article démontre que ..." Comme l'ont observé Beacco et Darot, dans la première phrase de ces résumés, trois formes sont sémantiquement équivalentes: . phrase verbale avec, pour sujet grammatical un être humain l'auteur, ou un non humain le texte: "cet article met en évidence", "cet article traite de" ; . phrase verbale sans sujet grammatical: "traite de ..." . phrase nominale centrée sur des noms, dérivés ou non de verbes: "Histoire de ...", "Réflexions sur ..." Il y a donc des équivalences du genre: "résumé/résumer"; "compte rendu/rendre compte", etc. L'auteur de l'article original apparaÎt comme se livrant à différentes activités intellectuelles mises en jeu dans l'élaboration du savoir (décrire, exminer, distinguer) ou dans les discussions soulevées à propos de ce savoir (critique, récuse).
On trouve aussi fréquemment des formules stéréotypées
décrivant non des opérations isolées mais
des procédures de déduction, de raisonnement, des
démarches expérimentales (avec participe présent).
Ces opérations cognitives sont explicitement rapportées
à l'énonciateur premier.
c) Les marques de l'allocutaire final
Aucune forme lexicale ne renvoie aux énonciataires;
la 2ème personne n'est marquée par aucune forme
verbale ou pronominale, mais comme pour l'indexation, le choix
des éléments d'information retenus est déterminé
par l'intérêt et la nouveauté qu'ils peuvent
présenter pour les utilisateurs.
d) Les marques du moment de l'énonciation
secondaire et primaire
Comme le disent Beacco et Darot (1984, p.18) à
propos des résumés indicatifs - mais c'est vrai
des autres résumés -, la situation d'énonciation
n'est pas indiquée:
"Les temps utilisés ne sont pas mis en
relation avec le moment de l'énonciation.[...] Ces récits
apparaissent donc comme "coupés" de la situation
d'énonciation comme s'ils se racontaient d'eux-mêmes."
(Beacco et Darot, 1984, p.18) De plus, dans les résumés indicatifs surtout, on trouve fréquemment des énoncés structurés sous forme énumérative qui ne comportent aucune marque verbale.
Toutefois, les résumés informatifs
reproduisent le système temporel des textes originaux.
Le passé y est utilisé pour décrire l'expérimentation
(y compris les procédures, équipements, conditions,
bases théoriques et les données obtenues) et le
présent (de vérité générale)
pour les conclusions tirées de l'expérience.
Quelques embrayeurs temporels relatifs marquent la
chronologie des événements: "d'abord";
"ensuite"; "finalement", relatés dans
le texte primaire, pour les résumés informatifs
et rapportés à l'auteur du texte dans les résumés
indicatifs où ce sont surtout des articulateurs d'ordre
logique, au même titre que "mais", "pourtant",
etc.
e) Les marques de la modalité Les marqueurs de modalité sont prohibés, par souci d'objectivité. D'après l'étude de Beacco et Darot, les points de suspension et le point d'interrogation constituent la seule manifestation du
non-certain. Les marqueurs lexicaux et morphosyntaxiques
de l'appréciation sont également absents.
f) Les marques des opérations métadiscursives
Les opérations métadiscursives marquent explicitement une articulation dans le discours.
Dans les analyses indicatives:
"On utilise, concurremment à des présentations
énumératives qui n'établissent pas de relations
entre les items présentés, des formes linguistiques
qui précisent ces rapports possibles (en particulier chronologie
relative)": après avoir ... Puis ... [...] Il est
certain que la structure de l'article ainsi exhibée par
l'analyse signalétique peut ne pas correspondre à
la structure effective du texte résumé et n'être
que le résultat d'une reconstitution. Ce cas ne devrait
cependant se produire que lorsque l'organisation du texte n'est
pas apparente par elle-même: l'analyse en propose alors
une caractérisation qui, bien que seconde, est à
prendre en compte." (Beacco et Darot, 1984, p.116) Plusieurs expressions standardisées insistent sur le fonctionnement du texte primaire: "présente", "expose", "analyse", "retrace les différentes étapes", etc.
La nature très stéréotypée
des résumés apparaÎt dans les marqueurs de
méta- structures. En particulier, les résumés
informatifs présentent presque tous le même plan
(introduction, méthodologie, résultats, conclusion),
soit parce que les textes originaux sont ainsi structurés,
soit parce que les rédacteurs des énoncés
secondaires ont procédé à une recomposition
du contenu, conformément aux normes.
g) Opérations discursives, opérations
cognitives et actes de parole
Tout en reconnaissant la distinction entre "actes
de parole (ou intentions de communication comme apprécier,
demander, conseiller", opérations cognitives ("ou
éléments des processus de constitution du savoir
comme: définir, classifier, interpréter") et
opérations métadiscursives qui "explicitent
l'organisation d'un texte comme conclure, faire une transition,
annoncer un développement", Beacco et Darot (1984,
pp.169-170) ont, pour les résumés en sciences sociales,
trouvé plus opératoire de déterminer un autre
niveau d'organisation du discours: "celui qui est structuré par les opérations intellectuelles mises en jeu dans l'activité scientifique considérée, mais qui se trouvent être communes à de nombreux processus de construction et d'exposition du savoir. Ces opérations, comme "définir, analyser, classifier, décrire, illustrer" relèvent de l'ordre du cognitif et correspondent à des intentions de communications caractérisables: par exemple, si "définir" c'est formuler un concept en lui donnant un nom et en
décrivant ses propriétés, c'est
d'un point de vue cognitif dégager des propriétés
abstraites d'un ensemble de phénomènes, c'est d'un
point de vue communicatif demander à autrui d'accepter
la même désignation pour les mêmes propriétés,
c'est lui faire partager sa propre construction du sens, c'est
d'un point de vue argumentatif refuser les définitions
précédentes et en proposer de nouvelles."
Pour ces chercheurs, opérations cognitives
et macro-actes de parole sont indissociables:
"Décrire", par exemple, qui est
considéré comme un acte de parole, c'est choisir
des éléments, en rejeter d'autres, c'est donc imposer
une certaine représentation à l'interlocuteur tout
en la présentant comme description. Par comparaison avec
d'autres descriptions portant sur le même objet, l'interlocuteur
pourra apprécier s'il y a "représentation"
ou "description" [...] (Beacco et Darot, 1984, pp.171-172)
Ainsi ont-ils délibérément choisi
de parler d'opérations discursives pour l'ensemble de ces
phénomènes. Ces opérations cognitives sont
rapportées au sujet énonciateur. Elles sont suffisamment
stéréotypées pour caractériser les
articles eux-mêmes.
2.7 LES MARQUES DE L'ENONCIATION DANS LES TEXTES
PRIMAIRES La structure des résumés dépend en grande partie de celle des textes primaires et il semble logique de commencer par l'étude de ces derniers avant d'édicter des normes pour les résumés. Une étude récente des textes de jurisprudence québécoise a permis de faire des recommandations pour la rédaction de résumés fidèles (Poirier, 1986). Malheureusement, il faut, la plupart du temps, aller à l'extérieur de la bibliothéconomie et des sciences de l'information pour trouver des analyses du discours mettant en relief les particularités de chaque domaine scientifique. Dans ce qui suit, nous rendrons compte brièvement des marques de l'énonciation telles qu'elles ont été observées par Heslot (1983) dans un corpus d'articles anglais et français sur des expérimentations et telles qu'on peut les inférer d'une assez longue fréquentation de ces textes.
Leur macro-structure est semblable à celle
que nous avons signalée pour les résumés
informatifs, avec une différence cependant dans la dernière
partie. Là où les anglophones parlent de "discussion"
(arguments fournis par l'auteur à ses pairs en faveur de
ce qu'il propose), les francophones se placent en posture d'autorité
et utilisent le terme "conclusion".
2.7.1 Les indices de personnes
Le discours scientifique est un discours sur les
choses surtout. Un "IL" non-humain est sujet de verbes
d'état ou de processus (Heslot, 1983, p.134). Ceci explique
que les indices de personne soient très peu nombreux: dans
les articles scientifiques étudiés par Heslot (1983),
il y a quelques rares "I", "me" dans le corpus
anglophone, aucun "je" dans le corpus francophone, mais
quelques occurrences du "nous" académique. L'auteur,
qui est à la fois le narrateur et l'actant, est dissimulé
sous des termes visant le texte ou le travail: "This report
..."
L'effacement de l'énonciateur a parfois pour
conséquence qu'on ne sait pas toujours à qui attribuer
les énoncés: à l'auteur ou à la communauté
scientifique? A tout le moins peut-on penser que l'auteur reprend
à son compte les énoncés de la communauté
scientifique. Ce n'est que dans le cas des citations explicites
ou des mentions d'auteurs (dans les états de la question,
revue de la littérature, synthèses, etc.) que l'on
peut distinguer le véritable énonciateur de l'assertion.
On trouve en effet des ILS humains pour les auteurs auxquels le
texte réfère.
L'hyper-énonciateur n'est parfois décelable
qu'à travers l'argumentation, la récurrence de certains
mots, la méthodologie qui révèlent la grille
d'analyse implicite, l'école de pensée.
On est donc en face de textes à transparence
totale, selon Dubois (1969).
2.7.2 La situation d'énonciation
Il n'y a pas de relation entre la situation de l'énoncé
et la situation de l'énonciation:
"Dans les articles scientifiques que nous étudions,
le moment de l'énonciation se situe au moment de l'écriture,
moment d'ailleurs dilaté jusqu'au moment de lecture; les
références au temps chronique du hors-texte préliminaire
sont incluses dans cette bande sans en préciser les bornes.
Le moment de l'expérimentation, antérieur au moment
de l'écriture, n'est précisé ni en temps
chronique, ni par des déictiques." (Heslot, 1983,
p.145)
Les temps les plus fréquents se répartissent
ainsi, dans le corpus: Anglais ! Français -------------------- !-------------------------------------------- Present: 24,02% ! Présent: 73,73%
Simple past: 67,56% ! Passé
composé: 17,76%
"[...] environ 80% des formes au présent
et au Present Perfect sont dans les deux parties "Introduction"
et "Discussion" alors qu'environ 80% des formes au prétérit
sont dans les deux parties "Materials and Methods" et
"Results". (Ibid., p.138)
En étudiant le récit (l'expérimentation)
et le commentaire dans ces articles, l'auteur a observé
des différences notables entre les articles rédigés
par les anglophones et par les francophones. On ne trouve presque
que le commentaire dans les articles français:
"On sent qu'indépendamment des problèmes
de correction phrastique, il y a chez les francophones une maÎtrise
imparfaite de la structure textuelle observée dans les
articles américains. Il est difficile aux francophones
de manier cette opposition du commentaire et du récit qui
a été perdue en français, tout au moins dans
les textes scientifiques du domaine considéré."
(Ibid., p.151)
Les francophones emploient le présent pour
parler de l'expérience là où les anglophones
emploient le prétérit sans adverbe déictique:
"Quand les anglophones lisent des textes écrits
en anglais par des francophones (ou des textes français),
il y a là - nous semble-t-il - un risque important de malentendu.
Pour un scientifique anglophone, la marque du prétérit
est aussi dans le texte la marque des faits observés rapportés
par le récit expérimental, et parfaitement distincts
des séquences de commentaire de l'auteur où la subjectivité
est admise." (Ibid., p.152)
2.7.3 Indices de l'attitude de l'énonciateur
à l'égard de ce qu'il énonce
La modalité est marquée dans la phraséologie:
"peut-être", "sans doute", "probablement",
dans le mode conditionnel, de même que dans des verbes de
modalité comme "pouvoir" en français,
"could" ou "may" pour des événements
statistiquement rares, en anglais, d'après Heslot (1983).
2.7.4 Relation du sujet avec l'interlocuteur L'interlocuteur est complètement absent: on ne trouve aucune occurrence de "tu" et seulement quelques impératifs, quelques "nous-sujet" inclusifs et quelques "on" indéfinis. Les fonctions illocutoires les plus fréquentes sont l'assertion, la persuasion, la preuve.
Le discours scientifique est bien un discours intériorisé,
didactique, dont l'interlocuteur est anonyme, collectif, imaginé
(Benvéniste, 1970), où la distance est maximum (Dubois,
1969).
2.7.5 Les traces de l'énonciation se retrouvent
pourtant dans: - les choix de vocabulaire, de constructions syntaxiques, le style, comme des études de fréquences peuvent le révéler; - les commentaires infrapaginaux; - les choix d'auteurs cités; - son identité (la signature); - son prestige marqué par: . l'organisme pour lequel il travaille, . la mention des subventions grâce auxquelles il a pu effectuer sa recherche, . la revue dans laquelle il publie (ou le congrès auquel il participe), . les auto-citations (à interpréter avec prudence); - le lieu de l'énonciation (peu fréquemment décelable): . organisme de rattachement, . congrès au cours duquel il a prononcé sa conférence; - le temps de l'énonciation (souvent approximatif): déduit de la date de publication (il faut soustraire 6 à 24 mois d'après les délais moyens de publication), déduit aussi de la date de réception du manuscrit et de sa version
corrigée
(de plus en plus souvent mentionnée).
Toutes ces traces constituent autant d'indices importants
pour l'interprétation du texte. Mais ces indices ne sont
pas également repérables selon que l'analyse et
le repérage sont effectués par la machine ou par
l'être humain.
2.8 LES ETUDES LES PLUS FREQUENTES SUR LE CONTENU
DES BANQUES DE DONNEES Les énoncés secondaires et, dans une moindre mesure, les textes primaires, sont pauvres en éléments indiciels et en marques formelles de l'énonciation. Lorsqu'elles existent, elles sont destinées avant tout au lecteur humain capable de les interpréter et elles disparaissent lors du traitement automatique en vue du repérage. Avant la constitution automatique du fichier inverse, un anti-dictionnaire élimine les articles, pronoms, adverbes, prépositions, conjonctions, qui sont considérés comme des "mots vides". Seuls sont conservés les noms, les adjectifs et les verbes. Pour l'interrogation, on procède en général à une autre suppression: les formes flexionnelles et temporelles sont tronquées de telle sorte qu'on puisse récupérer les radicaux considérés comme porteurs du concept, de la notion importante: RESUM/. L'appauvrissement du texte par l'ordinateur est accru par la suppression de l'accentuation dans les banques de données françaises ainsi que par la disparition de l'énonciation typographique. "L'envers de la diffusion, c'est l'indifférenciation du produit.", note Laufer (1986, p.71). Au fil des siècles, celle-ci s'est manifestée, selon lui, par la dépersonnalisation progressive de l'énonciateur: au début, l'auteur mentionnait son nom et son origine ("poitevin", "parisien"), ainsi que son protecteur et ses amis dont il reproduisait les éloges. Au XVIIIe siècle, les aristocrates cachaient leur nom, car l'écrivain était devenu un homme de métier. Maintenant "le livre - qui fait du manuscrit un texte définitif par la publication - réunit le nom de l'auteur et celui de l'éditeur sur la page de titre, dépersonnalise l'énonciateur du texte. [...] Le texte imprimé n'a plus d'énonciateur singulier. [...] il se donne de plus en plus à lire sur le mode universel".(Ibid., p.73)
Que dire alors de cette nouvelle étape de
la diffusion par ordinateur? Les listings imprimés en réponse
aux questions posées aux banques de données confondent
dans la même fonte de caractères auteur, titre de
l'article, titre de la revue, résumé, indexation,
etc., comme on peut le constater en P5. Les marques de l'énonciation étant occultées, il n'est pas étonnant que, dans les banques de données, on se livre à des études sur les formes pleines, le vocabulaire, les symboles-indices. Par exemple, on fait des études distributionnelles d'occurrences, de co-occurrences et l'on tente de dégager des réseaux thématiques: "semantic road maps" de Doyle, thésaurus de recherche de Lancaster (Bertrand-Gastaldy, 1984), Lexinet du C.N.R.S. Ce sont des représentations des principaux concepts et de leurs relations mises en évidence par des opérations de classification automatique. Ces produits, d'ailleurs rarement disponibles car difficilement réalisables sur de grands corpus, sont comparables aux "advanced organizers" au sens d'Ausubel. Ce sont des représentations de la
structure conceptuelle de la BdeD destinées
à orienter les utilisateurs, dans une première approche,
pour leur faciliter l'appréhension de contenus plus spécifiques
par la suite: "Ausubel describes the mind as an information-storing system that can be compared to the conceptual structure of an academic discipline. Like the disciplines, the mind is a hierarchically organized set of ideas that provides anchors for information and ideas and that serves as a storehouse for them. [...]
Ausubel maintains that new ideas can be usefully
learned and retained only to the extent that they can be related
to already available concepts or propositions that provide ideational
anchors. If the new material conflicts too strongly with the existing
cognitive structure or is so unrelated that no linkage is provided,
the information or ideas may not be incorporated or retained."
(Joyce et Weil, 1980)
En somme, les "traductions" successives
des textes scientifiques par l'homme et la machine font progressivement
disparaÎtre le discours au profit du vocabulaire, la syntaxe
et les indices au profit des symboles. Alors que le discours est
une actualisation de la langue, il est presque retransformé,
dans les BdeD, en langue artificielle, reconstituable à
partir des formations discursives. Il reste cependant des traces
irréductibles des conditions d'énonciation, nous
l'avons vu.
Des recherches ont cependant tiré profit des
rares marques formelles de l'énonciation subsistantes et
combiné les mots thématiques avec les éléments
lexicalisés rendant compte de l'auteur et des personnes
citées (études de co-citations, d'après Griffith
et al., 1974; Small et Griffith, 1974), des lieux de l'énonciation
(pays, laboratoires) ainsi que des dates (Turner et al., 1984).
Ces études ont pour but de représenter le savoir,
les disciplines et leurs interrelations, de mesurer les activités
scientifiques à un moment donné (voir en P13):
"[Les cartindex] se présentent comme
un outil d'aide à un meilleur repérage des réseaux
cognitifs et sociaux qui caractérisent un domaine d'activité
et d'accès aux documents primaires; d'aide à l'évaluation
de la position d'un chercheur, d'un laboratoire ou d'un pays dans
un champ de recherche donné." (Turner et al., 1984,
p.6)&
Cependant on ne peut continuer à occulter
l'énonciation si on veut que l'ordinateur se substitue
à l'intermédiaire, analyse chaque texte et fournisse
une réponse précise. Une véritable analyse
automatique nécessite qu'on se préoccupe non plus
seulement de sémantique mais aussi d'énonciation
et de pragmatique.
2.9 DE NOUVELLES RECHERCHES: LE FORMATAGE AUTOMATIQUE
DES TEXTES INTEGRAUX Les textes scientifiques dans une discipline donnée et les résumés qu'on en tire présentent une faible variété des éléments indiciels, des indicateurs de modalité et du système temporel, avons-nous constaté.
Il est possible de dépister les régularités
qui se manifestent malgré la disparité apparente
et la linéarité des textes, de façon à
en faire ressortir la structure sous-jacente, le stéréotype
et d'enchâsser l'information dans des formats propres à
chaque domaine particulier (Sager, 1975). C'est pourquoi leur
analyse automatique a été envisagée depuis
longtemps et a été réalisée avec succès
dans certains cas.
Nous allons présenter brièvement dans
ce qui suit le Linguistic String Project mené par Naomi
Sager et ses collègues. Il consiste à stocker en
mémoire d'ordinateur des textes écrits en langage
naturel, à leur faire subir une série de traitements
automatiques qui convertissent le tout en base de données
formatée apte à répondre à des questions
précises comme on en pose dans des systèmes questions-réponses
(Grishman, 1979). Ainsi l'énonciataire final peut accéder
directement au contenu, sans passer par le filtre d'une représentation
condensée et subjective.
Dans les bases de données factuelles ne sont
colligés que les faits que l'on envisage réutiliser
dans un objectif bien précis. De même, dans une base
de données bibliographiques indexée, ne sont retenus
que quelques mots-clés en fonction des besoins, intérêts
et usages terminologiques du moment. Cependant, on voudrait que
l'information puisse être réutilisée selon
des perspectives très différentes (Sager, 1978,
p.20). Une banque de données en langage naturel formatée
devrait permettre toutes sortes de recherches rétrospectives
à partir d'hypothèses que l'on n'avait pas prévues
lors de sa conception (Sager et al., 1982). En outre, on devrait
pouvoir déceler, non la présence d'un mot, mais
la présence d'un fait. Si ce fait est nié, il ne
devrait pas être signalé par le système. Par
exemple, si l'on demandait tous les cas qui ont débuté
par une fièvre élevée avant l'admission à
l'hôpital, un diagnostic portant la mention "Pas de
fièvre avant l'admission" ne devrait pas être
repérée. Le défi est de taille. Il consiste à trouver comment représenter l'information textuelle de telle sorte qu'elle puisse être à la fois manipulée facilement par l'ordinateur et en même temps conservée dans son intégrité; le contenu doit être complet et ne pas subir de distorsion (Sager, 1982, p.43). Il s'agit donc de trouver une représentation fidèle de l'information qui réduise cependant la variété et la complexité des modes d'expression, tâche qui est à la limite de ce que l'on peut attendre actuellement d'un ordinateur (Chi et al., 1983, p.209). Les expériences ont porté surtout sur des rapports de fin de prise en charge ("hospital discharge summaries") en pédiatrie, sur des rapports de radiologie et des extraits de rapports cliniques concernant des patients souffrant d'un cancer du cou et de la tête.
Les textes sont écrits entièrement
en langue naturelle par les médecins, sans restriction
aucune, selon un plan précis cependant, puisqu'ils remplissent
un genre de questionnaires avec en-têtes de paragraphes
destinés à assurer l'exhaustivité des renseignements
fournis (voir en P9). Pour établir le format, les chercheurs ont mis au point: - un analyseur syntaxique, basé sur la grammaire transformationnelle de Harris et une série de restrictions propres au domaine. En effet, une phrase peut être bien formée du point de vue de la grammaire de la langue, mais être inacceptable dans la discipline. Par exemple, si "Potassium flows into the cell" est correct, "The cell flows into the potassium" est impossible en physiologie cellulaire. Donc la grammaire spécialisée reflète étroitement la structure informationnelle du discours du domaine. Elle fonctionne avec un dictionnaire contenant tous les mots avec leur catégorie grammaticale et leurs conditions d'emploi.
- un analyseur de co-occurrences qui permet de regrouper
dans une même classe les mots ou expresions qui sont les
plus similaires parce qu'ils co-occurrent avec d'autres mots,
sur la base de relations syntaxiques: noms sujets de verbes, noms
compléments. On obtient ainsi une série de catégories
qui correspondent aux différentes facettes du domaine:
type de malade, nom de l'hôpital, symptômes, moment
de l'admission, médicament administré, action du
médicament, etc. (voir en P10). Une fois le format établi, il reste à programmer l'ordinateur pour l'analyse automatique du contenu. Cette analyse s'effectue en quatre étapes: - Dépistage des structures syntaxiques. - Régularisation grammaticale, par une série de transformations paraphrastiques visant à réduire la diversité des expressions. Au cours de cette étape, toute assertion est décomposée en sujet, verbe, complément; la voix passive est convertie en voix active; les expressions contenant des conjonctions de coordination sont développées, les mots sont lemmatisés et la forme canonique des verbes ainsi obtenue est affectée des marqueurs temporels adéquats. - Formatage de l'information. Ce traitement transforme les résultats obtenus à l'étape précédente en alignant les éléments d'information semblables sous la même catégorie. On obtient ainsi une série de colonnes (une cinquantaine en pédiatrie). Dans le cas des homographes ou des polysèmes, le programme utilise l'environnement sémantique et syntaxique pour placer le mot dans la colonne appropriée (Hirschman et al., 1981, p.453). Chaque assertion élémentaire est susceptible de contenir différents modificateurs, comme NEG(ation), MODAL (incertitude, évidence) et le temps.
- Normalisation. Alors que les trois étapes
précédentes sont effectuées en prenant la
phrase comme unité, la dernière, qui est la plus
complexe, parachève les précédentes. Elle
consiste à remplir les cases vides avec les éléments
implicites d'information contenus dans l'ensemble du texte. Elle
permet, par exemple, de remplir la colonne BODY-PARTS et d'établir
les relations temporelles. Chaque symptôme doit nécessairement
être associé à une partie du corps, ce que
l'ordinateur peut déduire. Les conjonctions de subordination
et de coordination ("and", "while"), le temps
des verbes, de même que le déroulement du récit
sont utilisés pour les inférences.
Les recherches de Schank et de ses étudiants
sur la compréhension des histoires et des articles de journaux
vont dans le même sens et démontrent que des progrès
importants ont été réalisés dans le
domaine du traitement automatique des textes en vue d'en représenter
le contenu (Walker, 1981, p.352).
3. L'ENONCIATION DANS LES DIALOGUES AU SEIN DES SYSTEMES
D'INFORMATION Passons maintenant à l'interrogation d'un système courant d'information documentaire. Elle nécessite la connaissance de la structure de chaque base de données, de son contenu, des politiques d'analyse, du langage documentaire et, finalement, du langage de commande. C'est pourquoi elle est souvent déléguée à un intermédiaire humain, le bibliothécaire de référence.
Entre l'utilisateur et le bibliothécaire,
s'engage alors un dialogue de clarification au cours duquel le
premier va tenter d'expliquer son besoin et le second va essayer
de comprendre la nature exacte du problème pour pouvoir
ensuite la traduire en stratégie de recherche acceptable
par le système.
L'étude de ce dialogue va paver la voie aux
recherches sur les interfaces en langue naturelle que nous verrons
à la fin, après avoir montré que le dialogue
personne-machine offert par les systèmes actuels est extrêmement
rebutant.
3.1 LE DIALOGUE ENTRE ETRES HUMAINS (L'INTERMEDIAIRE
ET L'UTILISATEUR)
3.1.1 Analyse fonctionnelle du dialogue au cours
de l'entrevue de référence Lorsqu'il aborde un système documentaire, l'utilisateur ne sait pas ce qu'il cherche avec précision. Il sait seulement qu'il souffre d'un manque de connaissances pour résoudre un problème (cf. la théorie ASK: "Anomalous State of Knowledge" de Belkin). Il est important, pour l'intermédiaire, de bien cerner le problème, les motivations et les intérêts de l'utilisateur, ses antécédents - en somme de se construire un modèle de l'utilisateur - pour pouvoir lui trouver une réponse appropriée. Inversement, il est important que l'utilisateur puisse se constituer un modèle aussi juste que possible de la banque, du système et de l'intermédiaire pour adapter ses questions aux capacités des uns et des autres. En somme, le dialogue a pour but d'établir les présupposés, ce que chaque interlocuteur doit connaÎtre et partager pour que l'interaction soit fructueuse.
Pour cela les deux partenaires humains se posent
mutuellement des questions.
Harrah (1973) rapproche les questions des autres
activités de la communication humaine pour l'échange
d'information (assertion, négation, exposition, description,
etc.).
Kearsley (1976) fait remarquer que, bien que le fait
de poser des questions soit une des activités les plus
courantes dans la vie quotidienne, nous n'en avons une compréhension
technique que très rudimentaire. Nous manquons d'un cadre
théorique appproprié. Cet auteur, qui se propose
d'étudier les questions de la conversation courante, fait
appel à la linguistique, à la sociolinguistique,
à la psychologie cognitive et à la psychologie développementale.
Il laisse de côté, entre autres, les travaux de la
philosophie analytique et les questions posées dans une
situation de résolution de problème. Or notre préoccupation
touche plutôt cette situation.
Quelques chercheurs en bibliothéconomie et
sciences de l'information ont entrepris d'étudier, pour
les modéliser, les interactions entre l'utilisateur et
l'intermédiaire au cours de l'entrevue de référence.
Ils se sont, en particulier, penchés sur l'analyse fonctionnelle
de ce dialogue afin de savoir, en quelque sorte, quels actes illocutoires
les interlocuteurs accomplissent, quels buts ils poursuivent.
Belkin (1984) a enregistré un petit nombre d'entrevues de référence à l'Université de Londres. Sur les onze fonctions décelées dans le dialogue, celles qui importent le plus pour l'intermédiaire sont celles qui contribuent à la construction du modèle de l'utilisateur, du modèle du stade auquel ce dernier se trouve dans le processus de résolution de problème et du modèle de la description du problème. Les conclusions globales de cette recherche sont les suivantes: - il y a bien interaction et coopération, même si le dialogue est mené en grande partie par le bibliothécaire; - cette interaction est nécessaire pour la construction de modèles; - les modèles cognitifs sont indispensables pour qu'il y ait transfert d'information.
Belkin et son groupe semblent avoir été
influencés par la théorie de l'analyse fonctionnelle
de M.A.K. Halliday qui a lui-même enseigné à
l'Université de Londres et il serait intéressant
d'étudier les interrelations entre la théorie des
actes de langage et l'analyse fonctionnelle. Une analyse fonctionnelle poussée sur de plus grands échantillons devrait permettre de mieux comprendre les interactions, donc de les améliorer.
En particulier, elle devrait mettre en lumière
l'importance des stéréotypes qu'entretiennent l'usager
et le bibliothécaire de référence l'un à
l'égard de l'autre, à l'égard de la banque
de données, etc., ainsi que les conséquences néfastes
de ces stéréotypes sur l'expression du besoin réel
d'information.
3.1.2 Typologie et fonctions des questions posées
par les utilisateurs
Sur les questions posées par les utilisateurs
seulement, et non plus sur le dialogue dans son ensemble, quelques
études ont été effectuées en bibliothéconomie
et sciences de l'information (Vickery, Saracevic et Johanna Pomian)
dont certaines s'inspirent de recherches menées en linguistique
et psychologie cognitive (en particulier de Harrah et de Kearsley,
mentionnés plus haut). Là encore l'analyse fonctionnelle
semble très utile pour saisir la fonction commune et les
sous-fonctions spécifiques, ce qu'une analyse purement
structurale est incapable de faire; cette dernière distingue
seulement entre questions verbales et non verbales; parmi les
questions verbales entre questions indirectes et questions directes
qui peuvent être à leur tour subdivisées entre
questions ouvertes (simples, complexes, enchâssées)
et questions fermées (avec alternative spécifiée
ou commandant une réponse oui-non).
Si l'on exclut, comme Kearsley (1976), les questions
rhétoriques (du genre: "Qui sait?") absentes,
en principe, du dialogue dans les systèmes documentaires,
toutes les questions ont pour fonction commune de provoquer une
réponse verbale de la personne interrogée (Chafe,
1972). A un niveau plus fin, il décèle quatre autres
sous-fonctions: "echoic, epistemic, expressive, social control".
Un autre aspect intéressant de l'article de
Kearsley réside dans son étude du processus de choix
de la question et dans son recours aux études en sciences
cognitives, notamment à celles de Berlyne (1960, 1965).
C'est ce dernier qui semble avoir inspiré Belkin et son
équipe dans la formulation de la théorie ASK. L'étude
du contexte général dans lequel les questions sont
posées permet non seulement de préciser la fonction
commune mais aussi d'entrevoir la mécanique qui sous-tend
l'énonciation des questions.
"In particular, questions arise due to conceptual
conflict, i.e., when it exists conflict between incompatible symbolic
response patterns in the form of doubt, perplexity, incongruity,
contradictions, confusion, or irrelevance. Questions serve the
purpose of reducing subjective uncertainty and conceptual conflict
and, ultimately, the epistemic drive. Closely related to this
position are various theories of attitude formation and change
in social psychology. Common to cognitive consistency theories
(see Abelson et al., 1968) is the idea that the individual attempts
to maintain a system of consistent beliefs and to avoid "imbalances"
or reduce dissonance. From this perspective, questions may be
asked to either weaken the degree of belief or plausibility of
a dissonant attitude or strengthen that of a favorable one. Some
mechanism of this sort is necessary to account for the expressive
functions that questions can serve. Neither the ideas of Berlyne
nor of the cognitive consistency theorists tell us anything about
how a particular question comes to be selected in relation to
the specific context of occurrence. They suggest how questions
in general arise. "(Kearsley, 1976, p.364)
L'examen de la structure de surface des questions
suggère que la structure sémantique qu'un individu
cherche à combler comporte des concepts et des relations
organisés selon certaines catégories:
"[...] question asking involves filling in the
"gaps" in a cognitive model, where a cognitive model
is defined as that subportion of an individual's entire conceptual
structure which currently conveys the meaning of events or objects
in the immediate environment. Filling in the "gaps"
involves specifying the concepts and relations in six basic reference
frames space, time, properties, causes, procedures, and roles.
I suggest that wh-questions attempt to select subsets of relations
for a reference frame relevant to the current context while disjunctive
and yes/no questions (closed forms) are intended to specify particular
concepts within a selected reference frame." (Kearsley, 1976,
p.364)
Ces hypothèses pourraient avoir plusieurs
implications importantes pour les systèmes documentaires.
a) Premièrement, à partir de la structure
de surface des questions, on pourrait à la fois dresser
une typologie des questions et de leurs sous-fonctions. Celles
que les utilisateurs des systèmes d'information documentaire
posent le plus souvent sont probablement les questions épistémiques,
et plus spécifiquement les questions référentielles
(les "Wh-questions (Who? Whom? Where? When? How? Why? What?
Which? Whose?):
"Epistemic questions serve the purpose of acquiring
information. They have been subdivided into referential and evaluative
types. Referential questions are intended to provide contextual
information about situations, events, actions, purposes, relationships,
or properties. The various modes of wh-questions illustrate the
major types of contextual features which can be filled in by referential
questions. [...] Evaluative questions are asked in various types
of test situations (examinations), interviews, discussions, etc.
Small children also use this mode extensively as a means of demonstrating
their knowledge to others." (Kearsley, 1976, pp.360-361).
Les questions évaluatives seraient plutôt
celles que poserait le bibliothécaire de référence
pour se construire un modèle de l'utilisateur. Peut-être
celles que l'utilisateur final ou l'intermédiaire pose
en début de session à une banque de données
ou à un ensemble de banques de données pour en évaluer
le contenu par rapport au problème à résoudre.
Au cours de l'entrevue de référence, il est possible
que les interlocuteurs aient recours à des questions de
type contrôle social pour maintenir le dialogue, notamment
quand ils semblent être dans un cul-de-sac.
b) Deuxièmement, la structure de surface des
questions posées par les utilisateurs permettrait, par
conséquent, de déceler la nature des réponses
souhaitées, donc d'adapter la réponse:
"[... there are simple and complex relationships
between form and functional categories. For example, most referential
questions have open forms (wh-questions) while most expressive
uses probably involve closed forms. Moreover, it seems likely
that open forms are used for epistemic purposes when we have little
knowledge of the subject but closed forms are used when it is
familiar (this is similar to a suggestion of Cygan, 1967, regarding
the function of wh-words)." (Kearsley, 1976, p.363). D'autres chercheurs ont proposé d'autres façons de catégoriser les questions. Par exemple, Saracevic (d'après Vickery, 1984, p.9) pense que la spécificité des termes utilisés, les faits mentionnés, la complexité (le nombre de concepts mis en relation) pourraient servir d'indicateurs.
Joanna Pomian, dans une étude en cours au
C.N.R.S., essaie de mettre au point un logiciel, Lexiquest, qui
détecterait, dans les stratégies de recherche posées
directement par les utilisateurs (et non plus dans les questions
adressées à l'intermédiaire humain), des
indices de la connaissance du vocabulaire spécialisé
et des réseaux conceptuels de la banque de données
afin de moduler les réponses fournies par l'ordinateur.
c) Troisièmement, la structure de surface des questions permettrait de choisir le type de repésentations de l'information (ou du savoir) pour la fourniture de réponses appropriées aux attentes et, par conséquent, devrait aider à prendre des décisions sur le formatage.
Ce que dit Kearsley, en effet, semble utile pour
qui cherche le type de renseignements à inclure dans une
BdeD et la façon de les encoder. Nous avons constaté,
plus haut, que les bases de données bibliographiques ne
sont pas formatées pour répondre à des questions
précises du genre: "Qui?", "Quoi?",
"Quand?", "Comment?", etc., mais plutôt
pour répondre à cette seule et unique question:
"Quels sont les documents qui traitent de ?".
Kearsley (1976, p.372), tout en déplorant
que l'analyse descriptive de questions n'ait pas commencé
pour de bon, bien que les questions constituent un mode privilégié
d'acquisition des connaissances, souligne l'intérêt
d'une telle étude pour l'intelligence artificielle: "Furthermore, an understanding of question asking is necessary if computer programs for natural language understanding are to be extended from isolated sentences to connected discourse and
conversation. The interest in the representation
of knowledge is currently of interest to the entire spectrum of
workers in artificial intelligence rather than just those involved
in natural language understanding programs (Michie, 1976). As
more work is done with large knowledge-based program to modify
and build its knowledge via self-directed question asking."
3.2 LE DIALOGUE PERSONNE-MACHINE DANS LES BANQUES
DE DONNEES BIBLIOGRAPHIQUES COURANTES
Une fois que l'intermédiaire a compris le
besoin de l'usager, il doit le traduire dans les langages formels
(langage documentaire et langage de commande) admissibles par
le système. L'interaction homme-machine dans les systèmes
bibliographiques actuels n'a rien de convivial ni de "naturel"
comme l'exemple fourni en annexe le montre (P11). On retrouve cependant, si l'on se réfère à la théorie des actes de langage (Austin, 1962; Searle, 1972), des traces de: - l'acte locutoire (les marques d'encre sur le papier); - l'acte illocutoire: le point d'interrogation est une question adressée par l'ordinateur à l'utilisateur: "Quelle est votre question?", les réponses fournies sont des assertions; - le but illocutoire: c'est tantôt de marquer une disposition à recevoir une commande, de provoquer une réponse de la part de l'ordinateur; - la force illocutoire: on reconnaÎt la valeur constative comme la durée et le coPt de l'interrogation, on pourrait y trouver une valeur expressive de type behabitif (l'utilisateur découragé, peut abandonner l'interrogation dans les recherches auto-cessantes). Certains messages comme "Log on or Log off" ont une valeur illocutoire ambigue: sont-ils des conseils ou des ordres?
- l'effet perlocutoire: un retour de chariot (non
visible sur le listing) entraÎne une réaction de
l'ordinateur. On reconnaÎt également des formules de politesse (avec présentations au début et, parfois, des remerciements à la fin) et des messages (en capsules) formulés en langue naturelle.
Le lieu de l'énonciation est implicite: si
l'on interroge DIALOG, on sait que le centre serveur est à
Palo Alto en Californie. Le moment de l'énonciation est
indiqué avec beaucoup de précision: date, heure,
minute et seconde pour le début et la fin du dialogue.
Cependant ces échanges ne sont que des simulacres
de dialogue. Tout est arrangé d'avance, programmé.
Aucune adaptation aux circonstances ni aux énonciataires
n'est possible. La même question posée, dans les
mêmes termes, par un expert ou un novice entraÎnera
exactement la même réponse. La même question
posée par la même personne à quelques heure
d'intervalle aura les mêmes résultats. On peut d'ailleurs
en conclure que le terme "système d'information"
est abusif: car, comme le dit O. Ducrot, on ne peut informer de
quelque chose quelqu'un qui possède déjà
cette information.
Finalement, on constate à quel point une telle
interaction viole les principes de la coopération dans
le dialogue.
3.3 LES INTERFACES EN LANGUE NATURELLE
3.3.1 Pourquoi développer des interfaces en
langue naturelle?
Depuis que les micro-ordinateurs se sont répandus,
les systèmes d'information ont une clientèle nouvelle:
les utilisateurs finals (ils interrogent eux-mêmes les BdeD,
sans l'aide d'un intermédiaire humain). Ceux-ci ne veulent
apprendre ni le langage documentaire ni le langage de commande;
ils veulent poser leurs questions en langue naturelle. Ils ont
cependant besoin d'être assistés, d'où l'importance
du dialogue de clarification dont les systèmes doivent
se doter et l'utilité de l'explicitation de la structure
de la BdeD.
En outre, puisque les systèmes ont une clientèle
plus diversifiée, les questions sont de différents
niveaux, sont posées de différentes façons
et les réponses devraient être présentées
de manière appropriée, adaptée au niveau
de chaque utilisateur.
Enfin, parce que les BdeD deviennent très
nombreuses et très volumineuses, le type de réponses
habituelles (extensionnelles, c'est-à-dire énumératives)
devient tout-à-fait inapproprié. Les utilisateurs
ne veulent pas avoir à parcourir de longues listes pour
ensuite procéder à leur analyse et à leur
interprétaion (Contant, 1985, p.3).
On essaie donc d'améliorer l'interface personne-machine
et de doter le dialogue avec l'ordinateur de certaines des caractéristiques
du dialogue humain. Les recherches nécessaires s'appuient
sur l'étude du dialogue entre l'intermédiaire humain
et l'utilisateur, au cours de l'entrevue de référence,
ce dont nous avons traité précédemment.
L'interface doit être capable soit de comprendre
la langue naturelle dans lequel les questions sont posées
soit de générer automatiquement des réponses
en langage naturel et, si possible, de faire les deux à
la fois. On peut donc établir la typologie suivante: ------------------------------------!----------------------------- -- interrogation en langage formel ! réponse en langage formel ------------------------------------!----------------------------- -- interrogation en langage formel ! réponse en langage naturel ------------------------------------!----------------------------- -- interrogation en langage naturel ! réponse en langage formel ------------------------------------!----------------------------- -- interrogation en langage naturel ! réponse en langage naturel
------------------------------------!--------------------------------
On reconnaÎt ainsi que l'interaction entre
un demandeur et une source d'information, que cette source soit
humaine ou inanimée, n'est pas une transaction de nature
technique mais sociale "in which the enquirer is evaluating
not only the message received from the source, but also the source
itself - how expert and knowledgeable it appears to be, how authoritative,
objective and reliable." (Vickery, 1984, p.12). Il faut savoir
que les personnes en quête d'information cherchent une source
qui a davantage de connaissances qu'elles-mêmes mais pas
trop (Rogers et Schoemaker, 1971) et que le demandeur et la source
ont des attentes réciproques (Harrah, 1973).
3.3.2 La compréhension automatique du langage
naturel
La compréhension automatique du langage naturel
est, des deux possibilités, celle qui a été
le plus étudiée.
Plusieurs auteurs se sont penchés sur les
caractéristiques souhaitées des interfaces qui doivent
être "robustes" pour interagir avec des utilisateurs
occasionnels ou inexpérimentés (Carbonell; Hayes
et Reddy, 1979; Vickery, 1984). En voici quelques-unes: 1. la compréhension du sens littéral: capacité de traiter les pronoms, les ellipses, les expressions idiomatiques, les erreurs grammaticales, les phrases incomplètes, etc.; 2. un mécanisme qui maintienne le "focus"; 3. la capacité du système d'expliquer ce qu'il peut faire ou pas, ce qu'il est en train de faire ou d'essayer de faire en réponse à des questions ou pour reprendre un dialogue interrompu; 4. la capacité de demander des explications en cas de question ambigues ou qui dépassent son "entendement"; 5. un mécanisme d'auto-apprentissage au fur et à mesure des interactions;
6. la capacité de se constituer progressivement
un modèle de l'utilisateur pour lui fournir des réponses
appropriées.
a) La compréhension du sens littéral
La compréhension du sens littéral d'une
question est possible dans des systèmes assez rudimentaires
(de niveau 1 selon Kalita, 1983) pour des domaines très
limités: ils convertissent la question dans le format de
la banque de données, sans en faire une représentation
sémantique. C'est le cas de LIFER (Hendrix), LADDER, PLANES
(Waltz), ROBOT (Harris), TQA (Damerau), CO-OP, REL et CONVERSE
ainsi que des travaux de la firme ERLI, en France.
b) La détection du focus Les systèmes de niveau 2 qui se répandent de plus en plus (comme PIQUE - Program for Interpretation of Queries and Updates in English - de Davidson, PAL de Sidner et le système proposé par Hayes s'appuient sur le co-texte pour la compréhension des ellipses et résolvent le
problème des référents et des
anaphores. Cela suppose la détection du focus. Dans un dialogue de ce genre (Davidson, 1982, p.204): - Qui sont les programmeurs? - Jones, Smith, Baker - Quel est le salaire de Jones? - Il y a 37 employés qui s'appellent Jones; auquel pensez-vous?,
l'ordinateur interprète chaque phrase isolément,
sans reconnaÎtre l'intention de l'utilisateur, et le système
viole le principe de coopération (Grice, 1975). Or, s'il
tient compte du contexte, des ambiguités vont disparaÎtre,
le référent va être détecté
facilement. Pour cela, le programme doit pouvoir construire un
modèle de focus, c'est-à-dire un modèle à
court terme des intérêts immédiats de l'utilisateur.
Davidson présente d'ailleurs une bonne typologie des modèles:
explicite/implicite; canonique/individuel; à long terme/à
court terme. Il existe certains modèles à court
terme qui respectent les préférences de l'utilisateur,
comme les items de la BdeD à présenter et l'ordre
dans lequel les présenter. La compréhension automatique du focus n'est cependant pas dépourvue de risque. Il peut, en effet, se produire une application inappropriée du focus (la deuxième question n'est pas un sous-ensemble de la première). Pour avertir l'utilisateur, l'ordinateur devrait donc produire ce genre d'élucidation: - Par "Jones", je suppose que vous voulez désigner l'employé "Jones" qui est "programmeur"
Implantation apparemment simple et peu coPteuse:
"The approach described here does not require
any additional information, beyond that which is already encoded
in the database and schema, natural language capability (embodied
in the grammar) need not be extended, since all operations are
performed at the level of the DML. These points are requisites
for portability of the natural language interface to a new domain
or new database system." (Davidson, 1982, p.211). Cependant les trois systèmes cités présentent un certain nombre d'inconvénients: ils sont incapables de construire un modèle du savoir, des buts, objectifs et plans de l'utilisateur, de raisonner sur le temps et l'espace, les entités collectives, les attitudes propositionnelles et les modalités (Kalita, 1983, p.6).
La compréhension du focus est, en effet, bien
difficile sans la compréhension du but visé par
l'utilisateur.
D'autres recherches se développent pour construire
des systèmes de niveau 3, les seuls à avoir des
théories explicites des agents externes à la BdeD,
les seuls systèmes à tenir compte de la théorie
des actes de langage:
"[...] level 3 systems are an attempt to vindicate
the assumption that to use natural language fluently, a system
must understand how the communication process itself is reflected
by the language user's goals, plans and beliefs. However, at present
there is only a start towards building systems of this level of
sophistication [...].".(Kalita, 1983, pp.6-7) Ces systèmes sont non seulement capables de comprendre les questions et de générer des réponses correctes, mais aussi de répondre de façon appropriée et coopérative.
Nous passons donc de la compréhension automatique
à la génération automatique de textes en
langue naturelle.
3.3.3 La génération automatique de
réponses en langue naturelle
a) Ce que requiert la génération automatique
de texte
La génération automatique de textes
en langue naturelle (qu'il faut bien distinguer des messages d'erreur
ou "textes en capsules") a été beaucoup
moins étudiée que la compréhension automatique.
Il s'agit aussi d'une des applications de l'intelligence artificielle.
Cela suppose, au préalable: - analyse des textes en mémoire et formatage des données qui peuvent être réparties en catégories (on se souvient du Linguistic String Project) de façon à ce que les questions soient traduites en types de relations à établir entre les différentes catégories; - modèle de l'utilisateur, construit au fur et à mesure du dialogue homme-machine ou donné par le concepteur du système;
- analyse des questions et interprétation
selon le modèle de l'utilisateur. et, de surcroÎt: - génération automatique de bonnes réponses, coopératives, appropriées, selon les règles de la conversation de Grice, à partir de représentations sémantiques "abstraites", pouvant rendre compte de phénomènes de paraphrases et d'inférences (Danlos, 1985, p.83). Il faut donc se préoccuper du Quoi dire? du Quand le dire? du Comment
le dire? Ce genre de recherche s'attaque aux aspects pragmatiques (et pas seulement syntaxiques et sémantiques) de l'analyse automatique: "Pragmatic analysis distinguishes between the actual surface structure of what was said and the intended meaning conveyed through this structure." (Kalita, 1983, p.3).
Or les linguistes qui se sont penchés sur
la compréhension automatique des textes se préoccupent
surtout des niveaux morphologique, lexical, syntaxique et stylistique,
leur but étant de passer d'une représentation du
sens à un texte linguistiquement bien formé.
Ils doivent pourtant se poser aussi des questions
comme celle du but visé.
"A l'instar de McKeown (1982), on peut justifier
les structures de discours en considérant qu'un locuteur
a des "idées préconçues" sur les
procédés utilisables pour réaliser un acte
de communication (e.g. répondre à un certain type
de questions) et sur la façon d'organiser ces procédés
pour former un discours." (Danlos, 1985, p.95)
A propos de SAM (Script Applier Mechanism) de Schank,
Bonnet (1984, p.85) note qu'il utilise la notion de plan "décrivant
l'ensemble des choix disponibles en vue d'accomplir un certain
but" (par exemple, comment se procurer de l'argent: faire
un hold-up, un retrait automatique à la banque, en demander
à un ami ou parent, etc.). "Appelt s'intéresse à la production de phrases en tant que moyen d'action pour accomplir un but. Cette perspective, inspirée principalement d'Austin (1962), place la formulation d'un énoncé sur le même plan que les actions physiques, par exemple se déplacer, déplacer un objet ou montrer du doigt un objet.[...]
L'entrée du système d'Appelt est donc
la représentation d'un but (e.g. savoir l'heure), la sortie
indique un acte physique (e.g. se déplacer) et/ou l'énonciation
d'une phrase (e.g. Quelle heure est-il?). Le programme examine
les différentes solutions permettant d'accomplir le but
et les différents moyens permettant de réaliser
ces solutions. Il repose sur un modèle de raisonnement
logique et sur une base de données décrivant la
situation ("l'état du monde") et les connaissances
des deux personnes en jeu." (Danlos, 1985, pp.69-70)
D'autre part, on doit considérer l'effet recherché
sur le locuteur. C'est pourquoi les chercheurs qui s'intéressent
à la génération automatique de texte se réfèrent
souvent à la théorie des actes de langage, aux actes
illocutoires, plus particulièrement. Dans les interfaces en langue naturelle, il est inévitable que l'utilisateur s'attende à ce que l'ordinateur observe les règles principales d'une conversation humaine. C'est pourquoi les systèmes qui s'engagent dans un véritable dialogue en langage naturel (Kalita, 1983, pp.37-39) doivent obéir aux principes de coopération de Grice qui s'expriment: -quant au contenu, par la qualité (affirmation vraie), la quantité (ni plus ni moins d'information que requis), la relation (pertinence); -quant à la forme, par la manière (la clarté, la non-ambiguité et la briéveté).
Kalita et McCalla (1986) cherchent à conférer
au dialogue personne-machine un peu de l'"intelligence"
et de l'élégance qui caractérisent les dialogues
humains. D'autre part, pour que ce dialogue soit plus convivial,
ils tentent de faire interpréter en partie le contenu de
l'information stockée dans un DBMS.
b) Les prototypes de génération automatique
de réponses en langue naturelle
On peut reconnaÎtre l'une ou l'autre des fonctionnalités
suivantes dans les prototypes de génération automatique
de réponses en langue naturelle: 1) relation (pertinence): maintien du focus (RENDEZVOUS, KLAUS) 2) correction des présuppositions erronées (CO-OP) . explicitation de la structure (McCoy; McKeown) . explicitation sur changement du contenu . réponse indirecte suggestive . explicitation d'une réponse négative 3) capacité d'éviter une fausse relation entre deux données 4) respect des principes de relation et de quantité: pas de réponse qui reprenne la question
5) manière (brièveté): réponses
résumées si désirées à partir
d'un modèle de l'intentionnalité (BROWSER, Kalita)
1) Le maintien du focus répond au principe
de pertinence.
"The cooperative principle requires that a conversational
contribution must be in tune with the accepted purpose or direction
of the talk exchange in which one is engaged." (Kalita, 1983,
p.37)
En cas d'ambiguité, certains systèmes,
comme KLAUS et NanoKLAUS (SRI International), s'engagent dans
un dialogue de clarification avec l'usager. 2) Le principe de coopération peut exiger la correction des présupposés erronés de l'interlocuteur. Pour cela, à un niveau relativement simple, McCoy (1982) et McKeown avec TEXT (1982) s'efforcent de générer des réponses explicitant la structure de la BdeD plutôt que des réponses extensionnelles sur son contenu. . Mays (1981, 1982, d'après Kalita, 1983), de son côté, fait en sorte que l'ordinateur fournisse des explications sur les changements survenus dans la BdeD. A une question du genre: - Est-ce que les actions de Bell ont grimpé? l'ordinateur devrait répondre: - Oui. Est-ce que vous voulez être tenu au courant si elles continuent de grimper? (Kalita, 1983, 50-51).
Ce serait, dans les banques de données bibliographiques,
un moyen plus convivial de demander à l'utilisateur s'il
veut stocker sa question pour de la DSI (diffusion sélective
de l'information), plutôt que de l'obliger à le spécifier
avec des commandes peu explicites dans des serveurs comme DIALOG.
Danlos explique ainsi le principe de réponse
indirecte suggestive: "[...] dans les interfaces en langage naturelle, les réponses de la machine doivent satisfaire le but d'informer l'utilisateur de la façon la plus "coopérative" possible (Grice, 1975). Dans cette optique, il existe un courant de recherche qui tend à formaliser les caractéristiques d'une conversation coopérative. Par exemple, Joshi et al. (1984) avancent le principe suivant: "si vous, locuteur, avez l'intention de dire quelque chose qui peut impliquer pour l'interlocuteur quelque chose que vous pensez faux, alors fournissez des informations supplémentaires pour empêcher la fausse inférence." Ce principe est destiné à rendre compte, par exemple, que la réponse du dialogue -Est-ce que Luc est normalien? -Oui, mais il n'est pas agrégé.
est préférable (plus"coopérative")
qu'un simple Oui dans la mesure où il est supposé
que les normaliens sont habituellement agrégés."
Les réponses indirectes suggestives sont particulièrement
utiles dans le cas de réponse négative. "Dans le même ordre d'idée, on souhaiterait obtenir un dialogue homme/machine tel que -Est-ce qu'il y a un train pour Paris? -Non, mais il y a un bus
qui suppose que le moyen envisagé par l'utilisateur
(prendre le train) est irréalisable, et qu'en conséquence
il propose un autre moyen (prendre le bus)." (Danlos, 1985,
pp.70-71) Dans le système CO-OP, on peut avoir ce type d'échange: - Quel projets navals la NASA subventionne-t-elle?
- Je n'en connais aucun. Mais vous seriez peut-être
intéressé par d'autres projets subventionnés
par la NASA... De même, le système CO-OP (Kaplan, 1982) analyse les présuppositions de l'utilisateur pour lui fournir des explications appropriées à propos de réponses susceptibles de l'induire en erreur. Par exemple, à la question: - Quels étudiants ont échoué au cours BLT 6513? l'ordinateur répondra de façon indirecte corrective, si l'un des deux sous-ensembles est vide (aucun étudiant inscrit ou cours non donné), plutôt que de répondre:
- Aucun.
On regrette que les BdeD commercialisées ne
respectent absolument pas ce principe: les réponses négatives,
bien que correctes, sont non coopératives et sont probablement
à l'origine de nombreuses recherches auto-cessantes. 3) Pour éviter que l'ordinateur établisse une relation entre deux données et la fasse passer pour nécessaire alors qu'elle est purement accidentelle (principe de qualité), comme dans l'exemple suivant: - Qui sont les étudiants canadiens? - Ceux qui ont une bourse du FCAR,
la seule solution est d'augmenter la base de connaissances
d'informations relatives au domaine de la BD (Kalita et McCalla,
1986, p.123). 4) Un autre problème à résoudre réside dans les réponses qui reprennent la question, car elles violent les principes de relation et de quantité (Kalita et McCalla, 1986, p.123): - Quels étudiants ont eu une note finale supérieure à 80? - Tous les étudiants avec une note finale supérieure à 80. ou: - Quand est-ce que les étudiants diplômés sont enseignants et assistants de recherche?
- Quand les étudiants diplômés
reçoivent de l'argent pour l'enseignement et sont payés
par un professeur pour faire de la recherche. 5) Le système de Kalita, développé dans le cadre d'un mémoire de maÎtrise, s'attaque au principe de manière, plus précisément à la briéveté. Il synthétise les réponses ou les définit par une caractéristique ou un attribut en fonction des besoins: - Quels athlètes ont échoué au cours d'histoire 101?
- Les joueurs de football. - Quels employés de la compagnie ont une voiture de fonction?
- Le président et les vice-présidents.
Une réponse résumée, concise
(non extensionnelle) répond au principe de coopération
de Grice qui proscrit la verbosité et la monopolisation
de la conversation par un seul locuteur (Kalita, 1983, p.4).
Pour cela, le concepteur du système doit mettre
en mémoire des modèles d'utilisateurs types, c'est-à-dire
décider quelles caractéristiques sont importantes
pour eux. On peut envisager, à plus long terme, la possibilité
que l'utilisateur décide lui-même du genre de réponses
résumées qu'il désire recevoir. Kalita soulève plusieurs points importants. D'abord, celui-ci que nous avons discuté plus haut: les structures de surface des questions posées en langage naturelle permettent-elles de décider si la réponse désirée doit être résumée ou extensionnelle? Par exemple, la question: - Quelles sont les caractéristiques des étudiants qui ont échoué au cours CMPT 110? requiert une réponse synthétique. Alors qu'avec une demande comme: - Donne-moi le nom des étudiants qui se sont inscrits mercredi
on s'attend à une liste de noms, mais peut-être,
dans certaines circonstances à une réponse du genre:
tous les étudiants dont le nom commence par les lettres
A à D. Mais la structure de surface ne suffit pas. Le choix du bon type de réponse repose aussi sur la reconnaissance de l'intention du demandeur et, au préalable, sur une certaine reconnaissance de son savoir. Selon que celui-ci est un administrateur, un registraire, une secrétaire, la réponse fournie différera.
En plus de satisfaire des besoins variés,
la modélisation des utilisateurs devrait, selon Kalita,
contribuer à assurer la confidentialité de certaines
données. Certains utilisateurs ne recevraient que des réponses
générales ne dévoilant ni l'identitié
ni des faits précis:
"Only users with prior autorization may have
access to the actual values in the data fields; others may, however,
be permitted to receive descriptive information about such data.
For example, in a student database containing marks of students,
the teachers and administrators may have access to the actual
marks, while the students may be allowed to obtain answers pertaining
to the range, distribution of marks and other questions which
do not involve identifying specific students with specific marks.
Such privacy and security is also required in many other situations,
e.g. in income-tax offices, hospital patient databases, etc."
(Kalita, 1983, p.92).
Bien sPr, comme on travaille depuis très peu
de temps à tout cela, les solutions sont encore très
simplistes et il faudra tenir compte, dans la modélisation
de l'utilisateur, de l'évolution dynamique de sa tructure
cognitive au fur et à mesure de son interaction avec la
BdeD. Plusieurs auteurs se penchent sur cette modélisation
(Daniels, 1986, entre autres).
Ce bref survol des recherches dans le domaine des
interfaces en langue naturelle nous permet d'espérer que
les interrogations de banques de données ne sont pas destinées
à rester indéfiniment laborieuses et ennuyeuses.
Pour le moment, cependant, l'implémentation d'interfaces en langue naturelle tenant compte des aspects pragmatiques n'est rentable et réalisable que dans certaines conditions (Kalita, 1983, pp.2-3): . La BdeD est utilisée très fréquemment; . Le nombre d'utilisateurs potentiels est très élevé; . Ceux-ci ne veulent pas se familiariser avec un langage de programmation; . Le domaine de la BdeD est très bien circonscrit conceptuellement;
. Les objets à manipuler sont concrets.
Ce que nous révèlent ces études,
c'est qu'il est possible d'envisager que les systèmes dits
d'information procurent un jour de l'information (c'est-à-dire
des données sélectionnées et interprétées
en fonction de l'allocutaire plutôt que des données
brutes) et que l'utilisateur puisse se décharger en partie
de certaines tâches d'interprétation. Ce serait certainement
un grand pas dans la voie de la convivialité des systèmes
dont on parle tant. Evidemment, les banques de données
textuelles bénéficieront de ces perfectionnements
bien après les bases de données factuelles. Cependant
le caractère très formalisé des résumés
et de certains textes scientifiques et les résultats enregistrés
par l'équipe de Naomi Sager sont encourageants.
CONCLUSION Le cadre de l'énonciation s'est révélé, au cours de notre exploration, être un cadre théorique très riche. Tous les processus de communication, directe, différée ou relayée par l'homme ou par la machine observés dans un système documentaire y trouvent place.
Faut-il s'en alarmer ou s'en réjouir? S'en alarmer dans la mesure où l'on courrait le risque de reformuler purement et simplement tout ce que l'on fait entrer dans la description habituelle des systèmes documentaires.
S'en réjouir plutôt, car ce cadre semble
devoir contribuer à expliquer certains phénomènes
appréhendés jusque là de façon insatisfaisante
et, par conséquent, à renouveler certaines problématiques.
Quelques thèmes de recherche sont particulièrement prometteurs.
Malheureusement, à cause de l'abondance de
la littérature qu'il nous a fallu dépouiller, nous
avons l'impression d'arriver, au terme de cette exploration à
l'endroit d'où nous aurions aimé démarrer.
Nous devrons donc nous contenter de procéder à une
énumération:
- énonciation subjective et énonciation
objective (ou le leurre de l'objectivité). Puisque, d'une
part, il a été amplement montré que "[...]
toute production langagière émane de quelqu'un,
s'adresse à quelqu'un et parle de quelque chose."
(Cervoni, 1987, p.59), et que, d'autre part, le système
d'information joue un rôle d'intermédiaire entre
les auteurs et les utilisateurs, l'étude de la subjectivité
dans l'interprétation des textes devrait être une
des priorités de recherche en sciences de l'information.
Cela pourrait avantageusement remplacer les expérimentations
stériles sur l'influence de la chaleur ou du bruit, ou
même des langages documentaires, sur la cohérence
de l'analyse humaine. Winograd et Flores (1986, p.30) accordent
beaucoup d'importance à cet aspect:
"We can become aware of our prejudices, and
in that way emancipate ourselves from some of the limits they
place on our thinking. But we commit a fallacy in believing we
can ever be free of all prejudice. Instead of striving for a means
of getting away from our own pre-understanding, a theory of interpretation
should aim at revealing the ways in which that pre-understanding
interacts with the text. Gadamer's approach accepts the inevitability
of the hermeneutic circle. The meaning of an individual text is
contextual, depending on the moment of interpretation and the
horizon brought to it by the interpreter. But that horizon is
itself the product of a history of interactions in language, interaction
which themselves represent texts that had to be understood in
the light of pre-understanding. What we understand is based on
what we already know,a nd what we already know comes from being
to be able to understand."
- intertextualité des énoncés
primaires et secondaires: ceci devrait renouveler les évaluations
de la performance au repérage des différents substituts
des textes primaires. En particulier, ces évaluations devraient
tenir compte de tous les éléments d'énonciation:
temps, lieu, locuteurs et allocutaires primaires et secondaires,
humains et informatiques, ainsi que de la relation entre fonctions
et formes.
- expansion et contraction des énoncés
(des mots-clés, à rapprocher du "schème
d'entendement" de Pottier au texte intégral de l'auteur),
avec les différentes opérations mises en oeuvre.
- adéquation des différents énoncés et langages documentaires pour satisfaire les vrais besoins des utilisateurs.
En documentation, on s'est, semble-t-il, trop concentré
sur le langage documentaire comme code unique et homogène;
on s'est arrêté à la linguistique saussurienne
(avec quelques incursions dans la sémantique structurale)
et l'on a négligé d'envisager la langue comme un
moyen de communiquer et d'agir. On ne s'est pas aperçu
du gouffre qu'il y a entre les fonctions des questions des usagers
et les fonctions très réduites que peuvent remplir
les langages documentaires.
La représentation des BdeD est conçue
comme une structure fixe, alors que la structure cognitive des
utilisateurs est en évolution constante. L'étude
des interactions humaines en langue naturelle devrait faire mieux
ressortir les lacunes des interactions personne-machine. Les efforts
et argents employés dans la constitution de langages documentaires
sont autant de ressources détournées aux dépens
de recherches sur la véritable préoccupation: la
BdeD comme lieu de communication interactive qui, malheureusement
ne cesse de violer les lois du discours selon O. Ducrot (l'informativité
et l'exhaustivité).
Des liens intéressants sont apparus: la proximité
des sciences cognitives et de la linguistique énonciative;
l'importance des modèles cognitifs; les relations entre
fonctions et actes de langage.
Nous avons conscience que de nombreuses publications
restent à explorer dans lesquelles nous trouverions certainement
des voies de solutions.
BIBLIOGRAPHIE DES TEXTES CITES
Association française de normalisation. Recommandations
aux auteurs des articles scientifiques et techniques pour la rédaction
des résumés. Paris: AFNOR, 1984.
Austin, J.L. How to do Things with Words. Oxford:
Clarendon Press, 1962.
Beacco, J.-C.; Darot, M. Analyses de discours et
lecture; lecture et expression. Paris: Hachette, 1984.
Beghtol, Clare. "Bibliographic classification
theory and text linguistics: aboutness analysis, intertextuality
and the cognitive act of classifying documents." Journal
of Documentation, 42(2), June 1986, pp.84-113.
Belkin, N.J. "Cognitive models and information
transfer." Social Science Information Studies, 4, 1984, pp.111-129.
Belkin, N.J. et al. "ASK for information retrieval:
Part I. Background and theory." Journal of Documentation,
38(2), June 1982, pp.61-71.
Benveniste, E. "L'appareil formel de l'énonciation."
Langages, 17 mars 1970, pp.12-18.
Bertrand-Gastaldy, Suzanne. "De quelques éléments
à considérer avant de choisir un niveau d'analyse
ou un langage documentaire." Documentation et bibliothèques,
32 (1-2), janvier-juin 1986, pp.3-23.
Bertrand-Gastaldy, Suzanne. "Les thésaurus
de recherche: des outils pour l'interrogation en vocabulaire libre.",
Argus, 13(2), juin 1984, pp.84-113.
Bonnet, Alain. L'intelligence artificielle: promesses
et réalités. Paris: InterEditions, 1984
Borko, Harold; Chatman, Seymour. "Criteria for
acceptable abstracts: a survey of abstracters' instructions."
American Documentation, 14, April 1963, pp.149-160.
Cervoni, Jean. L'énonciation. Paris: Presses
Universitaires de France, 1987. (Linguistique nouvelle)
Chastinet, Y.; Robredo, J. "Etude des associations
réelles entre descripteurs en vue d'améliorer la
qualité de l'indexage." Information et documentation,
4, 1974, pp.3-22.
Contant, Chantal. Génération automatique
de texte: application au sous-langage boursier français.
Montréal: Université de Montréal, Département
de linguistique et philologie, 1985. Mémoire de maÎtrise.
Daniels, P.J. "Cognitive models in information
retrieval; an evaluative review." Journal of Documentation,
42(4), December 1986, pp.272-304.
Danlos, Laurence. "Un survol des recherches
en génération automatique." Revue québécoise
de linguistique (UQAM), 14(2), 1985, pp.65-99.
Davidson, J. "Natural language access to database:
user modeling and focus". Proceedings of the fourth National
Conference of the Canadian Society of Computer Studies of Intelligence,
University of Saskatchewan, Saskatoon, Sas., 17-19 May 1982, pp.
204-211.
Dijk, T.A van. "Complex semantic processing."
In: Walker, D.; Karlgren, H.; Kay, M. eds. Natural Language in
Information Science: Perspectives and Directions for Research.
Stockholm: Skriptor, 1977. (FID 551). Pp.127-163.
Dubois, J. "Enoncé et énonciation."
Langages, 13 mars 1969, pp.100-110.
Ducrot, O. Les mots du discours. Paris: Editions
de Minuit, 1980.
Fidel, Raya. "Writing abstracts for free-text
searching." Journal of Documentation, 42(1), march 1986,
pp.11-21.
Foucault, Michel. L'archéologie du savoir.
Paris: Gallimard, 1969.
Grice, H.P. "Logique et conversation".
Communications, 30, 1979, pp.57-72
Griffith, B.C. et al. "The structure of scientific
literatures. II. Toward a macro- and microstructures for science."
Science Studies, 4, 1974, pp.339-365.
Grishman, Ralph. "Response generation in question-answering
systems." Proceedings of the 17th Annual Meeting of the Association
for Computational Linguistics, August 11-12, 1979, University
of California at San Diego, La Jolla, California., pp.99-101.
Harrah, D. "The logic of questions and its relevance
to instructional science." Instructional Science, 1, 1973,
pp.447-467.
Hayes, P.; Reddy, R. "Graceful interaction in
man-machine communication." Proceedings of the 6th International
Joint Conference on Artificial Intelligence, 1979, pp.372-374.
Hendrix, G.G. "Natural language interface."
, American Journal of Computational Linguistics, 8(2), April-June
1982, pp.51-61.
Heslot, J. "Récit et commentaire dans
un article scientifique." DRLAV revue de linguistique, 29,
1983, pp.133-154.
Hirschman, Lynette et al. "An experiment in
automated health care evaluation from narrative medical records."
Computers and Biomedical Research, 14(5), 1981, pp.447-463.
Hudrisier, Henri. L'iconothèque; documentation
audiovisuelle et banques d'images. Paris: La Documentation française,
1982.
Ingwersen, P. "Search procedures in the library
analysed from the cognitive point of view." Journal of Documentation,
38, 1982, pp.165-191.
Joyce, B.; Weil, M. Models of Teaching. 2nd ed. New
York: Prentice-Hall, 1980.
Kalita, J.K. Generating Summary Responses to Natural
Language Database Queries. Saskatoon, Sask.: University of Saskatchewan.
Department of computational science, 1984. M.Sc. Thesis.
Kalita, J.K.; Jones, M.L.; McCalla, G.L. "Summarizing
natural language database responses." Computational Linguistics,
12(2), April-June 1986, pp.107-124.
Kearsley, G.P. "Questions and question-asking
in verbal discourse: across-disciplinary review." J. Psycholinguistics
Research, 5(4), 1976, pp.355-375.
Laufer, Roger. "L'énonciation typographique:
hier et demain."Communication et langages, 68, 2ième
trimestre 1986, pp.68-85.
McCoy, K.F. "Augmenting a data base knowledge
representation for natural language generation." Proceedings
of the Twentieth Annual Conference of the Association for Computational
Linguistics. Toronto, Ont., June 1982, pp.113-120.
McKeown, K.R. "The TEXT system for natural language
generation." Proceedings of the Twentieth Annual Conference
of the Association for Computational Linguistics. Toronto, Ont.,
June 1982, pp.113-120.
McKeown, Kathleen R. "Paraphrasing using given
and new information in a question-answer system." Proceedings
of the 17th Annual Meeting of the Association for Computational
Linguistics, August 11-12, 1979, University of California at San
Diego, La Jolla, California., pp.67-72.
Mann, William C. "Design for dialogue comprehension."
Proceedings of the 17th Annual Meeting of the Association for
Computational Linguistics, August 11-12, 1979, University of California
at San Diego, La Jolla, California., pp.83-84.
Milstead Harris, Jessica L. "Treatment of people
and peoples in subject analysis." Library Resources &
Technical Services, 23(4), Fall 1979, pp.374-390.
Poirier, Diane. Des résumés adéquats
pour la jurisprudence québécoise. Montréal:
Université de Montréal. Ecole de bibliothéconomie
et des sciences de l'information, 1985. Mémoire de maÎtrise.
Robinson, Jane J. "Discourse: codes and clues
in contexts." Proceedings of the 17th Annual Meeting of the
Association for Computational Linguistics, August 11-12, 1979,
University of California at San Diego, La Jolla, California.,
p.65.
Sager, Naomi. "Natural language information
formatting: the automatic conversion of texts to a structured
data base.: In: Advances in Computers, 17, (New York: Academic
Press, 1978), pp.89-162.
Sager, Naomi. Natural Language Information Processing:
a Computer Grammar of English and its Applications. Reading, Mas.:
Addison-Wesley Publishing Company, 1981.
Sager, Naomi. "Sublanguage grammers (sic) in
science information processing." Journal of the American
Society for Information Science, January-February 1975, pp.10-16.
Sager, Naomi et al. "Automatic encoding of clinical
narrative." Comput. Biol. Med., 12(1), 1982, pp.43-56.
Searle, J.R. Les actes de langage. Paris: Herman,
1972.
Small, H.; Griffith, B.C. "The structure of
scientific literatures; I. Identifying and graphing specialties."
Science Studies, 4, 1974, pp.17-40.
Todorov, Tzvetan. "Problèmes de l'énonciation.",
pp.3-11.
Turner, W.A. et al. "Les cartindex des sciences
et des techniques." Documentaliste, 21(1), janvier-février
1984, pp.3-13.
Vickery, A. "An intelligent interface for online
interaction". Journal of Information Science, 9, 1984, pp.7-18.
Vignaux, Georges. Le discours acteur du monde; énonciation,
argumentation et cognition. Paris: Ophrys, 1988.
Walker, Donald E. "The organization and use
of information: contributions of information science, computational
linguistics and artificial intelligence." Journal of the
American Society for Information Science, 32(3), 1981, pp.347-363.
Wellish, Hans. "Subject retrieval in the seventies
- Methods, problems, prospects." In: Subject Retrieval in
the Seventies Proceedings of an International Symposium held at
the Center of Adult Education, University of Maryland, College
Park, May 14 to 15, 1971.
Wells, G. "Language as interaction." In:
Learning Through Interaction (G. Wells, ed.), Cambridge: Cambridge
University Press, 1981, pp.22-72.
Winograd, Terry; Flores, Fernando. Understanding
Computers and Cognition; a New Foundation for Design. Norwood,
NJ: Ablex Publishing Corporation, 1986. |