Bertrand-Gastaldy, S.; Giroux, L.; Lanteigne, D.; David, C., 1994. Les produits et processus cognitifs de líindexation humaine. ICO Québec; 6(1-2); printemps 1994: 29-40.
RÉSUMÉ
Dans la perspective díaméliorer la
représentation de líinformation dans les bases de
données, un projet en deux volets a été conçu,
centré sur líindexation. Cette opération
complexe, coûteuse et, la plupart du temps, peu cohérente
sera examinée sous deux facettes: díune part les
processus cognitifs et les stratégies de contrôle
susceptibles díexpliquer les divergences, díautre
part les produits. Afin díincorporer des variations individuelles
et contextuelles, líindexation sera considérée
comme une situation de résolution de problème telle
quíelle est couramment étudiée en psychologie
cognitive. On utilisera l'analyse des protocoles verbaux concomitants
à la tâche et la verbalisation consécutive
sur trace, ainsi que des entrevues. Quant aux résultats
de líindexation, ils seront confrontés au contenu
des titres, des résumés et des textes intégraux,
de façon à faire émerger les relations intertextuelles
quíils entretiennent et les propriétés qui
les caractérisent. Le logiciel SATO servira aux analyses
statistico-linguistiques. On síattachera à dégager
les tendances mais aussi les différences entre indexeurs.
Finalement, on soumettra les résultats de líindexation
humaine et de différentes stratégies díindexation
automatique au jugement des experts pour tenter de mieux comprendre
ce qui les différencie. Quelques données préliminaires
illustrent les démarches envisagées et semblent
prometteuses pour líinterprétation des divergences
individuelles. On conclut sur la perspective díautomatiser
certains éléments de la tâche díanalyse
sans nuire à une subjectivité peut-être plus
souhaitable que néfaste dans le processus de la communication
des connaissances.
ABSTRACT
Document indexing is a complex and costly
task in which inter-indexer consistency was often shown to be
unsatisfactory. In view of improving, in the long term, the representation
of information in databases, our research project focuses on two
dimensions of indexing: the cognitive processes hypothesized to
be the source of low consistency and the characteristics of the
terms chosen by the indexer. In order to understand individual
differences in indexing behavior, indexing is considered as problem-solving,
a process well documented in cognitive psychology. Three converging
methods are used to uncover cognitive aspects of indexing: verbal
protocols obtained while the task is under way, explanations given
by the subject while looking at the video recording of his own
indexing behavior and semi-structured interviews. In order to
reveal inter-textual relationships between document content and
the product of indexing, titles, summaries and bodies of text
of indexed documents are compared with the terms chosen by the
indexers. The SATO program is used to perform these quantitative
linguistic analyses. Expert indexers will eventually be asked
to compare the terms chosen by human indexers with those obtained
from several computerized indexing algorithms. To illustrate our
methodology, preliminary results are provided which seem quite
promising in explaining individual differences in indexing behavior.
They are discussed in terms of the feasability of computerizing
some parts of the task without loosing the human subjectivity
that might well prove to be essential in this knowledge processing
enterprise.
INTRODUCTION
Nous présenterons dans les pages qui suivent
un programme de recherche interdisciplinaire entrepris en juin
1992 et qui réunit des chercheurs en psychologie cognitive,
en communication et en sciences de líinformation autour
díune problématique générale qui est
celle de la représentation de líinformation dans
les bases de données bibliographiques et textuelles. Il
síagit évidemment díun problème crucial
dans le domaine des systèmes díinformation documentaire,
puisquíune représentation adéquate de líinformation
stockée est la condition sine qua non pour líefficacité
du repérage ultérieur par les usagers. Dans un premier
temps, nos efforts se sont centrés sur líanalyse
de líindexation, tâche qui consiste à examiner
un document pour identifier les principaux sujets qui y sont traités,
puis à lui assigner une série de descripteurs choisis
dans le langage documentaire utilisé et destinés
à représenter le document. Locke (1991: 194) souligne
la nature complexe de líopération: [...]
indexing is not a low-level task, and it becomes more complex
as larger volumes of text are involved.Î. Il ajoute: In
fact, the subject analysis that librarians perform [...] is strongly
akin to what the AI literature calls knowledge engineering.Î.
Or, nous savons bien peu de choses sur cette activité complexe
et cíest pour pallier en partie cette méconnaissance
que nous avons conçu notre projet de recherche.
Après une présentation générale
de la problématique et des objectifs du programme, nous
situerons celui-ci dans le contexte des travaux sur líindexation
et líintertextualité. Pour chacun des deux volets
du projet en cours, nous présenterons ensuite líapproche
méthodologique mise de líavant et quelques résultats
préliminaires.
1. PROBLÉMATIQUE
Notre recherche part de plusieurs constats:
1) L'explosion de la production documentaire
et la part de plus en plus importante des bases de données
en texte intégral par rapport à celle des bases
de données bibliographiques qui se chiffrent déjà
souvent en millions de références accentuent et
multiplient les besoins en structuration et en repérage
de l'information.
2) À part líaccès
aux chaÎnes de caractères par líentremise
díun fichier inversé, le mode le plus courant d'indexation
et de repérage repose sur une représentation en
vocabulaire contrôlé précoordonné (liste
de vedettes-matière) ou postcoordonné (thésaurus
de descripteurs), représentation dont les recherches montrent
qu'elle est loin d'être parfaitement efficace pour l'utilisateur.
3) Les coûts entraÎnés
par líindexation humaine deviennent prohibitifs au point
que líon préfère síen passer, alors
même que líon constate quíune indexation purement
automatique néglige de nombreuses connaissances indispensables
à une communication réussie. Par ailleurs, on ne
connaÎt pas suffisamment les paramètres et les outils
nécessaires pour modéliser une indexation efficacement
assistée par ordinateur.
Ces trois constats nous amènent
à conclure que líécart va grandissant entre
la complexité des besoins en information et la richesse
des instruments conceptuels utilisés pour la représentation
et líexploitation de cette information.
2. OBJECTIFS DE RECHERCHE
2.1 OBJECTIF GÉNÉRAL
Cíest pourquoi líobjectif général et à long terme de notre programme de recherche est double: 1) Scruter de beaucoup plus près le processus par lequel líinformation textuelle est traitée puis mise en forme par les éléments humainsÎ de la chaÎne documentaire.
2) Développer des modèles
formels de représentation de líinformation qui soient
isomorphes à ceux des indexeurs et des utilisateurs, de
façon à faciliter la précision de líindexation
et líefficacité du repérage ultérieur.
Le succès de la communication
médiatisée par le système d'information est
tributaire des multiples modèles cognitifs qu'ont les différents
éléments du système: auteurs, utilisateurs
et intermédiaires (concepteurs du système, indexeurs,
bibliothécaires de référence ou automatismes
qui les remplacent) et des stratégies cognitives mises
en jeu pour interagir entre eux. Partant de la prémisse
que le succès díune fouille documentaire dépend
de la qualité et de la richesse de la représentation
des textes, nous centrerons nos efforts de recherche, dans une
première étape, sur l'un des premiers maillons de
la chaÎne documentaire, soit le processus d'indexation des
documents, laissant pour une étape ultérieure líétude
des processus díinterrogation. Cíest, en effet,
l'occasion pour un expert humain de mettre en oeuvre sa représentation
du domaine pour rendre compte du contenu du document; elle est
aussi le locus où se concrétisent les contraintes
imposées par le contexte de production: limites de temps,
politiques et procédures díanalyse plus ou moins
formalisées, langage documentaire utilisé, attentes
des utilisateurs, etc. Díailleurs une des hypothèses
qui guidera notre programme de recherche est que les thésaurus
actuels ne sont pas adéquats, même pour une utilisation
humaine.
2.2 OBJECTIFS SPÉCIFIQUES
Pour étudier líindexation, comme pour étudier la production des textes, on peut: analyser trois types de phénomènes et leurs inter-relations: - les conditions contextuelles dans lesquelles la production émerge, - les processus mis en oeuvre pour réaliser la tâche langagière,
- les caractéristiques du
produit langagier.Î (Piolat et Roussey, 1992: 106).
Mettant à profit la multidisciplinarité
des membres de líéquipe, nous nous sommes fixé
comme objectifs spécifiques de la première étape
líanalyse des deux derniers phénomènes, comptant
sur la méthodologie mise en oeuvre (verbalisation concomitante
et consécutive sur trace, entrevues) pour obtenir des données
sur les contraintes dues au contexte de production.
La première étape de notre
programme de recherche, díune durée de trois ans,
comporte deux volets qui correspondent aux objectifs spécifiques
suivants: 1) - Examiner le processus d'indexation sous l'angle de la science cognitive avec un petit nombre de sujets afin de: a) mettre simultanément en évidence la représentation qu'a l'indexeur du domaine et les procédures de fouille textuelle auxquelles il recourt pour appliquer sa représentation au document, puis les procédures de consultation du thésaurus pour trouver la meilleure traduction possible des concepts sélectionnés;
b) expliquer par les
stratégies utilisées et les limitations du langage
documentaire les différences entre líindexation
humaine en vocabulaire libre et en vocabulaire contrôlé.
2) - Analyser les produits de líindexation sur un échantillon numériquement plus vaste, en particulier: a) étudier les propriétés des termes retenus pour líindexation, entre autres par rapport à celles des termes contenus dans les titres, les résumés et les textes intégraux (ou plutôt les parties les plus informatives des textes intégraux); b) mettre au jour díéventuelles variations entre indexeurs en ce qui concerne les propriétés des termes retenus et rejetés;
c) faire comparer différents
produits díindexation automatique résultant de la
variation des paramètres de sélection des termes
avec les produits de líindexation humaine, pour favoriser
la verbalisation des indexeurs sur les processus et contraintes
díindexation en vocabulaire contrôlé et pour
mieux comprendre ce qui caractérise les cheminements et
les produits de líindexation humaine.
Líintérêt de la complémentarité
des deux approches a déjà été exploré
en partie et mis en évidence dans le projet de conception
díun système expert díaide à líanalyse
des jugements (Bertrand-Gastaldy, 1993; Bertrand-Gastaldy et
al., 1993a et 1993b).
En somme, avec les deux volets de notre recherche,
nous tentons de répondre à la question fondamentale
que Coates posait en 1979: How does an indexer determine
what is, or what is not, indexable?Î.
Notre étude síinscrit
dans les tentatives de modélisation des intermédiaires
entreprises entre autres par des chercheurs comme Belkin (1984),
Brooks et al. (1986) qui, eux, se sont plutôt attachés
aux tâches effectuées par les bibliothécaires
de référence.
3. SITUATION DES OBJECTIFS DANS LE
CADRE DES CONNAISSANCES ACTUELLES
3.1 L'ANALYSE DE L'INDEXATION
a) Indexation, cohérence et processus cognitifs
L'opération d'indexation comporte deux étapes:
la première consiste à extraire le "contenu"
d'un document; la seconde à le représenter par une
série de mots-clés qui serviront de portes d'accès
lors d'un repérage subséquent. Les mots-clés
choisis peuvent être en vocabulaire libre, c'est-à-dire
extraits du texte ou déterminés au gré de
l'indexeur, ou encore en vocabulaire contrôlé, c'est-à-dire
tirés díun ensemble prédéterminé
de termes admissibles. Dans ce dernier cas, les termes peuvent
être précoordonnés (on parlera de vedettes-matière
tirées d'un répertoire) ou postcoordonnés
(il s'agira alors de descripteurs tirés d'un thésaurus).
Dans tous les cas, l'indexeur est à la recherche des thèmes
ou des concepts qui seront jugés importants par les utilisateurs
potentiels du système documentaire et cíest cette
étape qui est la moins étudiée, comme le
rappelle Albrechtsen (1993: 219):
[...] the majority of the literature on subject
indexing concentrates on step two and fails to provide precise
rules for realizing step one where the challenge presented is:
finding the subject(s) of a document.Î
L'indexation est un maillon coûteux de la chaÎne
documentaire - nous líavons déjà mentionné
- car chaque document à indexer exige l'intervention d'un
spécialiste qui doit y consacrer un minimum de quelques
minutes et parfois jusqu'à plus d'une heure. On assiste
actuellement à de nombreux travaux de recherche visant
à mettre au point des méthodes d'indexation automatique,
mais l'indexation humaine reste privilégiée dans
la plupart des sites. L'indexeur humain peut en effet atteindre
une compréhension globale du document et tenir compte des
besoins variés de ses utilisateurs potentiels, ce que ne
peuvent pour l'instant faire les systèmes automatiques
qui se limitent à l'analyse d'indices de surface comme
la fréquence d'occurrence de chaÎnes de caractères.
Une telle analyse peut difficilement prendre en compte la sémantique
lexicale, encore moins la sémantique de la phrase et du
texte (Bertrand-Gastaldy, 1990), à moins que ce ne soit
dans un domaine très restreint sur des textes très
normalisés. Malheureusement, il s'avère que l'indexation humaine est une opération imparfaite, même lorsque effectuée par des spécialistes. Une bonne indexation doit répondre à des critères d'exhaustivité, d'exactitude, de spécificité et d'objectivitéÎ, critères de validité pour lesquels on ne possède pas de mesure précise. Il est par ailleurs illusoire d'espérer qu'un indexeur peut vraiment anticiper toutes les facettes d'un texte susceptibles díintéresser ses utilisateurs. Faute de posséder de telles assurances de validité, on peut à tout le moins s'interroger sur la cohérence de l'indexation professionnelle, c'est-à-dire sur la variabilité des descripteurs attribués à un même document par différents indexeurs. De nombreux travaux ayant d'ailleurs fait l'objet de recensions (Leonard,1977; Markey, 1984) ont montré que la cohérence inter-indexeurs n'est jamais très élevée et qu'on peut y associer plusieurs facteurs.
Afin de mieux comprendre les causes de ces divergences,
plusieurs (Bisseret, 1983, Bertrand-Gastaldy 1986) ont souligné
la nécessité d'examiner la tâche des indexeurs
sous l'angle des processus cognitifs qu'elle met en cause. C'est
pourquoi on trouve dans les écrits plus récents
quelques analyses de l'indexation en tant qu'activité
cognitive. La plupart de ces études considèrent
alors l'indexation, ou du moins sa première phase qui consiste
à explorer un document et à en identifier les thèmes
essentiels, comme une forme plus ou moins pure de compréhension
de texte assimilable à une situation de lecture rapide
avec but (Beghtol, 1986; Bertrand, 1993; Farrow, 1991; Le Roux
et Monteil, 1993). On peut de la même façon considérer
la phase subséquente de transposition des mots clés
libres en descripteurs d'un vocabulaire contrôlé
comme un processus d'énonciation ou de rédaction
à la Hayes et Flower (1980), régi lui aussi par
des contraintes linguistiques (lexicales, syntaxiques) et extra-linguistiques
(contraintes temporelles, politiques institutionnelles d'indexation)
(Bertrand-Gastaldy, 1989, 1993).
L'emprunt de ces modèles inspirés de
la psychologie et de la psycholinguistique fournit des indices
intéressants pour mieux comprendre les liens qui unissent
le ou les textes de départ au texte d'arrivée. Mais
leur utilité est plus limitée lorsqu'il s'agit de
comprendre les variations individuelles. En effet, ces modèles
sont avant tout procéduraux (Piolat et Roussey, 1992) et
laissent peu de place aux connaissances effectivement utilisées
par le sujet dans un contexte donné, de même qu'aux
caractéristiques du texte à lire ou à produire
ou encore aux habiletés personnelles du lecteur ou du rédacteur.
Comme notre projet vise, entre autres, à expliquer des
variations individuelles ou contextuelles dans l'activité
d'indexation, nous avons choisi d'avoir recours à un autre
cadre de référence de la psychologie cognitive,
soit celui de la résolution de problème. Il ne s'agit
pas d'exclure les composantes de compréhension et de production
langagière de l'activité d'indexation, mais de les
transformer en sous-composantes d'un processus plus général
répondant plus adéquatement aux contraintes spécifiques
de la tâche et du sujet in situ .
b) L'indexation comme situation de résolution
de problème
Plutôt que de voir l'indexation comme une situation
cognitive routinière, nous considérerons que l'indexeur
doit résoudre un problème, soit celui de déterminer
les thèmes traités dans un document et de produire
une liste de descripteurs tirée d'un thésaurus qui
peut être plus ou moins adéquat. Comme dans tout
problème, le sujet part donc d'un état de connaissance
initial et se déplace dans son espace-problème
jusqu'à en arriver à l'état final ou solution.
L'espace-problème est la représentation que se fait
le sujet de la tâche, c'est-à-dire les connaissances
qui sont jugées potentiellement utiles, les états
possibles du problème et les opérations (cognitives
ou physiques) qui permettent d'avancer d'un état à
l'autre. Pour avancer dans son processus de résolution,
l'indexeur doit donc sélectionner les opérations
applicables au moment X. Cette sélection n'est pas aléatoire,
mais dépend d'une structure de contrôle érigée
par le sujet selon ses connaissances et son évaluation
de l'état atteint. Les opérations peuvent dans la
plupart des cas être regroupées en séquences
visant l'atteinte d'un sous-but, et le problème peut être
représenté à un niveau plus général
comme une structure de buts et de sous-buts dont la nature et
les conditions d'atteinte sont sous le contrôle du sujet.
On trouvera chez David (1990) une présentation plus détaillée
de cette question, mais soulignons que cette approche en termes
de résolution de problème nous semble posséder
des avantages tant théoriques que méthodologiques.
Au plan théorique et comme nous l'avons souligné
plus haut, ces modèles permettent d'incorporer des variations
individuelles (connaissances, critères de prises de décisions,
stratégies) et contextuelles (nature du texte, politiques
institutionnelles, temps imparti pour la tâche) que ne prennent
pas en compte les modèles génériques comme
celui de la compréhension de texte. On pourra donc tenter
de modéliser plus facilement les variations dans l'indexat
obtenu, mais aussi díincorporer des variables ultérieurement
formalisables pour l'indexation automatique.
Au plan méthodologique, la résolution
de problème bénéficie d'une tradition de
recherche déjà longue, puisqu'elle est au coeur
des travaux ayant donné naissance à la psychologie
cognitive contemporaine (Newell et Simon, 1972). On pourra en
particulier avoir recours à l'analyse des protocoles verbaux
concomitants à la tâche et à la verbalisation
consécutive sur trace, dont il sera question plus loin.
3.2 LES CARACTÉRISTIQUES D'UN
BON TERME D'INDEXATION, DANS UNE PERSPECTIVE D'INTERTEXTUALITÉ
Étant donné la finalité
de líindexation, les mots-clés choisis se trouvent
toujours dans une position díintertextualité
avec le texte analysé et, le cas échéant,
avec le résumé de même quíavec líoutil
documentaire utilisé pour convertir le vocabulaire libre
en vocabulaire contrôlé: One set of intertextual
relationships exists between a work, its various derivative texts
such as its summary or abstract and its expression in a documentation
language.Î (Begthol, 1986: 97). Beacco et Darot (1984: 107)
ont noté également que les résumés
ont pour caractéristique d'être produits
à partir d'autres textes, d'en rendre compte et d'y renvoyerÎ,
díentretenir une relation de paraphrase avec les textes
primaires; ils ont en commun que l'intertextualité
fait partie de leurs conditions d'élaborationÎ affirment-ils.
a) Les liens entre textes primaires,
résumés et termes díindexation
Il est plus difficile díévaluer
líinterdépendance entre les résumés
et les termes díindexation car elle dépend des politiques
et des procédures díanalyse du service díinformation.
Or, díaprès les quelques publications sur le sujet,
il níexiste pas de consensus (Fidel, 1986).
Pour les uns, les résumés
sont conçus comme un réservoir de termes pour líindexation.
À ce titre, ils peuvent soit fournir des équivalents
en vocabulaire libre qui constituent alors des clés díaccès
supplémentaires correspondant à une terminologie
plus à jour (Tibbo, 1992) et qui offrent la possibilité
de rendre compte de nouveaux concepts (Cleveland et Cleveland,
1990: 160), soit mettre en contexte les mots-clés contrôlés
de líindexation (Bliss, 1988 et Salager-Mayer, 1991), à
tel point quíune liste de mots clés devient inutile:
Some publishers omit a list of descriptors on the ground
that the user would be better served by reading an abstract that
include descriptors as part of sentences, rather than guessing
at the meaning [...] of words out of context.Î (Borko et
Bernier, 1975: 67). On considère alors que líindexation
et la condensation procèdent du même genre díactivité
mentale et que líattribution des mots clés passe
par la rédaction préalable du résumé:
[...] it is a small step from the conceptual
analysis stage of indexing to the preparation of an acceptable
abstract. Morevover, the additional discipline involved in writing
the abstract can help in deciding what should be covered in the
indexing and what can be omitted. The fact that some combination
of reading and skimming is involved in both activities is another
reason why it is efficient to combine them in a single individual
whenever it is practical to do so.Î (Lancaster, 1991: 105)
Pour díautres, la rédaction
des indexats et des résumés requiert des habiletés
différentes et doit être confiée à
des personnes différentes (Tenopir et Jacso, 1992). Cela
correspond à une tendance de plus en plus fréquente,
si líon en croit Bliss (1988), Milas-Bracovic et Zajec
(1989), Salager-Mayer, (1991), Tenopir et Jacso (1992). On ne
sait alors pas trop si les mots-clés de líindexation
sont tirés seulement du résumé ou bien si
les indexeurs recourent aussi au texte primaire, de sorte que
le cheminement peut varier ainsi: texte--> résumé
--> indexat ou texte --> résumé et texte -->
indexat.
Donc, lorsquíil existe des résumés,
on ne sait pas toujours dans quelle mesure ni comment ils sont
utilisés par les indexeurs. Il est par conséquent
difficile de qualifier le degré díintertextualité
qui existe entre les deux types de substituts du texte primaire
díune part, entre le texte primaire et les termes díindexation
díautre part. Il est également impossible de prévoir
les performances pour le repérage díune indexation
automatique dérivée des résumés par
rapport à une indexation effectuée à partir
du texte intégral ou de ses parties les plus informatives.
Pour élucider la question, il faudrait non seulement observer
le comportement des indexeurs disposant díun résumé
(produit par eux-mêmes et par un tiers) et díindexeurs
níayant pas accès au résumé, mais
aussi essayer de savoir quelles propriétés caractérisent
les termes présents dans les textes et/ou dans les résumés
retenus pour líindexation, en vertu de quelles inférences
des termes absents des textes de départ et/ou des textes
intermédiaires sont assignés par les indexeurs.
b) Quelques études reposant sur le principe
díintertextualité
Díailleurs líinterdépendance
entre le texte et les termes d'indexation n'est pas fréquemment
étudiée, comme le faisait remarquer Jones en 1983.
Plusieurs chercheurs en sciences de l'information
ont pris pour acquis qu'il existe une relation entre la capacité
d'un mot à être choisi comme terme d'indexation (son
"indexability") et sa fréquence et, par conséquent,
que les progrès de l'indexation automatique passent par
le raffinement des modèles statistiques. Une autre propriété
a fait líobjet de plusieurs évaluations: la position
dans le texte et les paragraphes. Malheureusement les résultats
ne permettent pas de dégager une unanimité díautant
plus que les types de textes sur lesquels les études ont
été menées sont très disparates et
que líindexation humaine qui a servi de pôle díobservation
síest effectuée dans des contextes encore plus variés:
on examine tantôt líindexation fine qui a pour but
de produire un index imprimé de livre, tantôt líindexation
relativement superficielle destinée à faciliter
le repérage des documents dans une base de données
bibliographiques. Nous ne rappellerons ici que quelques études
à titre díillustration sans tendre à líexhaustivité.
Si les quatre expériences menées par
Aslib Informatics Group et rapportées par Jones (1983)
montrent qu'il y a effectivement un lien entre la fréquence
et l'"indexability"; on leur a malheureusement reproché
díêtre dénuées de rigueur scientifique.
Weinberg (1981), pour sa part, n'a pas pu trouver de relation
significative entre ces deux caractéristiques. Quant aux
hypothèses de Grunberger (1985) sur la fréquence
et la position des termes dans un corpus de monographies en sciences
humaines et sociales dotées díun index imprimé,
elles ont toutes deux été infirmées. Bertrand
(1993) síest, elle aussi, demandé si la sélection
díun concept était liée à sa présence
et à sa répétition dans certaines parties
de líouvrage (il síagissait díune indexation
destinée à un catalogue de bibliothèque).
Voici ses conclusions:
Líanalyse de líoccurrence dans
líouvrage des concepts sélectionnés nous
a permis de conforter líhypothèse selon laquelle
líopérateur utilise des indices structuraux relatifs
à la présence du mot dans certaines parties de líouvrage
et à sa répétition pour juger de sa pertinence.
Notamment, nous avons montré quíun mot figurant
dans le titre a, de façon générale, une forte
probabilité díêtre sélectionné.
De même, sa présence dans les grands titres de la
table des matières augmente de façon non négligeable
sa probabilité díêtre sélectionné.
Ces analyses ont aussi indiqué que le pouvoir explicatif
du titre est díautant plus fort que les opérateurs
sont débutants [...].Î (Bertrand, 1993: 170).
OíConnor (1965) ne síest pas contenté
des deux paramètres habituels pour essayer de formuler
des règles díindexation automatique. En síattachant
uniquement à líindexation de deux notions (toxicité
et pénicilline ), il a observé la façon
dont elles ont été exprimées dans les indexats,
les résumés et les parties informatives díarticles
scientifiques en biomédecine díun corpus de textes
déjà indexés dans une base de données
bibliographiques par des indexeurs humains. Il a considéré
non seulement les formes lexicales normalisées du thésaurus,
mais aussi leurs variantes morphologiques et les formes tronquées,
les regroupements de descripteurs et non-descripteurs formés
par les relations thésaurales, la co-présence dans
certaines conditions de termes exprimant les substances et les
affections ainsi que de certains connecteurs. Ses observations
ont tenu compte de líemplacement des unités lexicales
dans la macro-structure et la micro-structure (par exemple, première
phrase du premier paragraphe), de la fréquence relative
díoccurrence, de la centralité syntaxiqueÎ.
Il a tenté díévaluer líadéquation
des résultats produits par les différentes règles
díindexation ainsi que la surassignation par les procédures
automatiques par rapport à líindexation humaine.
Líauteur a estimé quíil ne pouvait pas dégager
de conclusions générales, mais son expérience
montre bien líimportance de ne pas se fier uniquement aux
termes exprimant la notion et de prendre en considération
différents phénomènes linguistiques.
Devant líéchec de la vérification
de ses hypothèses, Grunberger a justement proposé
de tenir compte de ces phénomènes qui caractérisent
la langue écrite (les niveaux macro-textuel et micro-textuel,
les anaphores et les déictiques, entre autres) ainsi que
des processus cognitifs à l'oeuvre dans la sélection
des termes d'indexation (associant donc les deux volets que nous
avons retenus dans notre démarche). Il a incité
à explorer les théories de la psychologie cognitive
et les théories de la décision, car, selon lui,
bien que l'indexation automatique n'ait pas à mimer les
mécanismes de l'indexation humaine, elle profiterait certainement
d'une meilleure compréhension des stratégies humaines
d'analyse:
"While machines may not need to
mimic humans to do effective indexing, clearly an understanding
of how humans index might assist in formulating machine indexing
algorithms. [..] clearly, we do not know enough about how humans
index; consequently, we have been unable to describe this vital
process for the machine." (Grunberger, 1985: 97)
c) La prise en compte des phénomènes
linguistiques
Les phénomènes linguistiques des textes
sources sont rarement étudiés en sciences de l'information
comme facteurs explicatifs des failles au niveau du taux de rappel
et de précision. Líanaphore a cependant fait l'objet
de quelques études récentes (Bonzi, 1991; Liddy,
1990; Liddy et al., 1987). quant aux déictiques,
ils ont peu retenu l'attention. Debili (1982) a cependant proposé
un analyseur lexico-sémantique pour faire face à
la synonymie phrastique et des systèmes comme SPIRIT la
résolvent en partie. Quant aux conditions de production
et aux divergences qu'elles engendrent dans les représentations
secondaires, elles ne font l'objet que d'allusions et ne semblent
pas avoir donné lieu à des expérimentations
systématiques. De son côté, Bourcier (1979)
a montré comment les systèmes informatiques qui
prennent la langue comme code sont incapables de donner accès
à l'implicite:
Le document de base doit contenir
et exprimer toute l'information. Or si le texte original contient
toute l'information, il ne l'exprime pas toute. Il existe donc
un écart entre ce qui est "contenu" et ce qui
est "exprimé".Î (Bourcier, 1979: 14)
Le Roux et Monteil (1993) se proposent de distinguer,
dans líactivité résumante, les règles
de sélection liées à líémetteur
et celles qui sont liées au récepteur. Les premières
détectent les traces de líintention de communication
analysables par le linguiste (il síagit des marqueurs du
signifiant inscrits dans la structuration macrotextuelle, textuelle
et intratextuelle ainsi que des marqueurs du signifié permettant
de sélectionner les noyaux formant le squelette informatif
du texte après repérage et élimination des
informations satellites appelées catalyses). Les secondes
sont liées au profil de líutilisateur (il les exprime
en mots-clés dans ses stratégies de recherche) et
de líunité administrative à laquelle il est
rattaché.
Pour líextraction díun vocabulaire
représentatif de domaine, Bertrand-Gastaldy et Pagola (1992a
et 1992b) ont mis au point une méthode qui tient compte
díun faisceau díindices susceptibles díindiquer
líimportance de ces termes du point de vue des auteurs:
ainsi des indicateurs typographiques (gras, soulignés,
etc.), structurels (position dans la macro-structure), discursifs
(définitions), statistiques (valeur discriminante), etc.
Cette même stratégie a été augmentée,
dans le projet de système expert díaide à
líanalyse des jugements, díindicateurs fournis par
les conseillers juridiques au cours des entrevues.
d) La prise en compte des processus cognitifs
Les recherches récentes sur les processus
cognitifs peuvent síavérer utiles dans le cadre
de líanalyse de líintertextualité dans la
mesure où elles permettent la formulation díhypothèses
sur les éléments textuels examinés et sélectionnés
par les rédacteurs de résumés et les indexeurs.
Cíest ainsi que, díaprès Farrow (1991), qui
n'a cependant pas effectué d'expérimentation, les
lecteurs rapides avec but, comme les indexeurs, opèrent
en même temps au niveau perceptif et au niveau conceptuel,
parcourent le texte de façon sélective et recherchent
des indices bien précis: certains sont purement typographiques
(mots en italiques, titres, sous-titres, début ou fin de
paragraphe), beaucoup sont lexicaux (des mots fréquents,
par exemple, dont certains déclenchent l'activation des
autres mots du réseau), d'autres sont structuraux: mots
ou expressions marquant l'introduction ou la conclusion. D'après
Endres-Niggemeyer (1990) - qui nía examiné quíun
seul sujet analysant onze documents - les analystes recherchent
des marques physiques explicites, des définitions, des
exemples mais aussi sans doute des marques implicites et vérifient
la première et la dernière phrase des paragraphes
qui contiennent habituellement des éléments sémantiques
importants ainsi que des éléments contenant des
termes exprimant le thème de la discussion.
Aucun auteur n'étudie l'influence des outils
documentaires sur le texte reconstruit, bien que Beghtol (1986)
la mentionne. On sait pourtant qu'ils peuvent avoir un effet néfaste
sur la fidélité de l'indexation. Les reproches adressés
sporadiquement aux thésaurus pendant les deux décennies
précédentes se font de plus en plus nombreux. Plusieurs
suggestions ont été formulées récemment
pour améliorer cette représentation très
grossière du monde et en proposer divers enrichissements:
ajout de termes d'entrée (Kristensen et JÄrvelin,
1990; Rada et al., 1988), étiquetage précis
des relations autres que hiérarchiques (Rada et al.,
1991), bref, transformation du thésaurus en véritable
base de connaissances (Molholt et Goldbogen, 1990). L'efficacité
de ces enrichissements a été testée sur le
repérage assisté par ordinateur (les stratégies
de recherche sont formulées par líutilisateur) ou
entièrement automatique (les reformulations de stratégies
sont prises en charge par líordinateur), mais pas sur la
représentation des textes ni sur les interactions des indexeurs
avec les textes et le thésaurus enrichi. On a mesuré
la distance entre les documents signalés et les questions,
mais pas entre les documents et leur indexation, bien que l'on
souligne le double rôle du thésaurus pour le décodage
et l'encodage (Reich et Biever, 1991).
4. APPROCHE MÉTHODOLOGIQUE ET RÉSULTATS
PRÉLIMINAIRES
Conformément au double objectif d'analyser
le processus et le produit de l'indexation, l'approche méthodologique
adoptée pour ce projet emprunte deux voies: la cueillette
de protocoles verbaux pour l'analyse cognitive et le traitement
statistico-linguistique pour l'analyse de l'intertextualité.
Étant donné que la collecte de données va
commencer pour le premier volet, nous serons moins spécifiques
que pour le second, actuellement plus avancé.
4.1 L'ANALYSE COGNITIVE DU PROCESSUS D'INDEXATION:
VERBALISATIONS CONCOMITANTES, VERBALISATIONS CONSÉCUTIVES
ET DONNÉES D'ENTREVUES.
a) Approche méthodologique
On trouve peu d'études qui se soient penchées
sur la tâche d'indexation prise comme un processus à
modéliser. Beghtol (1986) et Farrow (1991) proposent bien
un modèle de cette tâche, mais sans s'appuyer sur
une expérimentation. Quelques chercheurs ont utilisé
l'analyse des verbalisations pour décrire et expliquer
le processus d'indexation (Tomonori, 1983; Endres-Niggemeyer,
1990; Bertrand, 1993), mais se sont toutefois limités à
l'analyse des verbalisations dites concomitantes, c'est-à-dire
obtenues pendant que l'indexeur effectue son travail. En plus
de cette première méthode, nous proposons de faire
converger deux autres instruments fondés eux aussi sur
les verbalisations du sujet.
En psychologie de la résolution de problème,
l'analyse de protocoles verbaux est depuis une vingtaine d'années
devenue une méthode de recherche privilégiée.
L'approche en résolution de problème suppose en
effet que dans une telle situation le sujet ne peut avoir recours
uniquement à des automatismes et qu'il doit consciemment
construire une représentation de la situation et élaborer
des stratégies. Dès lors, il sera possible d'accéder
à ces processus puisqu'ils sont au moins partiellement
conscients et sous le contrôle de l'individu. La procédure
la plus fréquemment utilisée est celle des verbalisations
concomitantes, où le sujet a pour consigne de verbaliser
sa pensée pendant l'exécution de la tâche.
Le sujet est le plus souvent filmé, ce qui permet de conjuguer
l'analyse des actions à celle des verbalisations. Précisons
que la verbalisation en question ne vise pas à recueillir
l'interprétation faite par le sujet de ses processus, mais
à accéder directement au contenu de sa mémoire
de travail sans interférer avec la tâche (Newell
et Simon, 1972; Ericsson et Simon, 1980, 1984). C'est sur la nature
"brute" des données obtenues que repose la validité
des verbalisations concomitantes par rapport à l'introspection
simple.
Prise seule, la verbalisation concomitante impose
toutefois des limites sévères à l'analyste,
particulièrement lorsque la tâche à l'étude
repose sur une expertise et des contraintes externes non immédiatement
visibles au moment de résoudre la tâche. C'est pourquoi
certains chercheurs, en particulier en psychologie du travail,
ont de plus recours à la verbalisation consécutive
sur trace (Caverni, 1988; Hoc et Leplat, 1983), qui consiste à
faire visionner au sujet la trace (en l'occurrence l'enregistrement
vidéo) de son propre comportement tout en l'interrogeant
au besoin sur son interprétation des processus en cours.
L'analyste a alors accès à tout un autre ensemble
de données dont la validité peut au moins partiellement
être évaluée en regard des données
brutes du protocole concomitant. Elles lui permettent de conforter
les inférences qu'il devrait faire seul à partir
du protocole concomitant (quel est le but poursuivi au moment
X? pourquoi tel terme est-il rejeté?), mais aussi de se
voir décrire certaines stratégies globales ou paramètres
pris en compte par le sujet et qui ne sont pas forcément
(voire rarement) verbalisés.
A ces deux premières sources de données,
nous en adjoindrons une troisième, plus classique, qui
consiste essentiellement à effectuer des entrevues avec
les indexeurs dans le but de les interroger non pas sur une situation
ponctuelle, mais sur leur processus de travail habituel: normes
respectées, prise en compte des usagers, stratégies
favorisées, etc. Curieusement, cette source simple et directe
d'accès au travail des indexeurs n'a que rarement été
utilisée, alors qu'elle peut s'avérer très
fructueuse (Bertrand-Gastaldy et al., 1992, 1993a). Notre
objectif est de faire converger cette méthode avec les
deux précédentes pour obtenir un éventail
de données qui va de données brutes et ponctuelles
à des interprétations plus générales
qui tiennent de la métacognition, l'ensemble devant permettre
de cerner l'indexation à la fois dans sa structure générale
et dans ses variations individuelles. À notre connaissance,
la tâche d'indexation n'a jamais encore été
examinée sous ces trois angles simultanés.
b) Quelques résultats préliminaires
sur les observations díindexeurs
Notre objectif n'est pas de présenter ici
des résultats définitifs, mais plutôt d'exposer
quelques données préliminaires afin d'illustrer
et de montrer la pertinence de l'approche méthodologique
que nous avons mise de l'avant. Les données qui suivent
proviennent d'une expérimentation antérieure au
projet actuel, menée en parallèle avec une équipe
française (Bertrand et al., 1990; David, 1990; David
et al., 1991; Bertrand, 1993). Il s'agissait, d'une part,
de mettre au point un système de notation permettant de
répertorier les opérations (lecture, classification,
rappel en mémoire, évaluation, écriture,
etc.) et les objets "manipulés" (portions du
document, concept, vedettes-matière, etc.) afin de pouvoir
décrire systématiquement les protocoles obtenus.
D'autre part, nous désirions tester l'efficacité
de faire produire en premier lieu une liste de concepts en vocabulaire
libre issus de l'examen du document, puis la liste finale des
vedettes-matière sélectionnées après
consultation du répertoire. Cette manipulation des listes
produites visait à mesurer la représentation initiale
et à l'isoler de l'indexat final, afin de mieux faire ressortir
les contraintes liées à l'utilisation du vocabulaire
contrôlé.
Deux indexeurs professionnels ont procédé
à l'indexation des six mêmes documents en situation
de verbalisation concomitante. A titre d'illustration, le tableau
1 présente les concepts en vocabulaire libre ainsi que
les vedettes-matière finalement retenues pour un document
d'économie intitulé "Environnement international
et gestion de l'exportation" pour les deux sujets S1 et S2.
Précisons que S1 est spécialisé dans l'indexation
des documents en économie, et S2 est spécialisé
dans l'indexation des documents en psychologie, donc non spécialiste
pour ce document. Tableau 1
Résultat de l'indexation: Concepts retenus
et vedettes-matière pour les sujets S1 et S2.
Ces résultats montrent clairement la pertinence de dissocier
les concepts en vocabulaire libre des vedettes-matière.
Les listes de concepts de S1 et S2 sont très similaires:
trois concepts sur quatre sont identiques. Par contre, il n'y
a aucun recouvrement entre leurs listes de vedettes-matière.
Cette divergence entre listes premières et finales semble
attribuable à S2 (non-spécialiste), qui a modifié
considérablement ses choix lors du passage aux vedettes-matière.
Les protocoles verbaux sont très révélateurs
des cheminements cognitifs qui ont mené à ces choix.
Il apparaÎt que S1 possède une représentation
approfondie du domaine qui lui permet dès le début
de son exploration du document de distinguer les concepts importants
de ceux qui le sont moins et de reconnaÎtre également
les notions implicites (non écrites dans le texte) devant
être mentionnées (pour S1, la notion implicite de
gestion d'entreprise sera retenue à la première
étape et prendra le statut de vedette principale). S1 regarde
le titre, retient la notion de gestion de l'exportation comme
significative et par le fait même juge le concept d'environnement
international non représentatif. Le terme gestion
de l'exportation est très explicite.Î Évidemment,
gestion de l'exportation, il s'agit là de la façon
de procéder de l'entreprise dans le commerce international.Î
alors, il y a aussi, évidemment gestion d'entreprise
comme concept là. Sans dire que gestion d'entreprise est
le premier concept de l'ouvrage, je l'inscris.Î
De plus, S1 connaÎt bien les vedettes-matière liées
à l'économie dans le thésaurus et il est
clair que cette expertise le guide dès son identification
des concepts, puisque chacun des concepts retenus est aussi un
vedettes-matière du thésaurus. La seule modification
que S1 apportera à sa liste de concepts est d'écarter
la vedette commerce extérieurÎ, car le thésaurus
indique un renvoi de ce terme à commerce internationalÎ
que S1 choisit alors de retenir.
Les deux indexeurs semblent avoir tiré pour l'essentiel
les mêmes notions sémantiques de leur examen du document
mais S2, qui n'est pas spécialiste, suivra par la suite
un cheminement assez différent. Il se fie moins à
son propre jugement et est plus fortement influencé par
la structure de surface du document. De son propre aveu, il se
sent tenu de respecter les termes choisis par l'auteur et retient
comme concept primordial environnement international, bien qu'il
mentionne clairement: D'après moi, il s'agit
plus de commerce; le sujet c'est le commerce extérieur
(...) mais étant donné que dans le titre on en
parle spécifiquement, ça veut dire que pour l'auteur
c'est un élément important.Î Sa moins
grande familiarité avec le domaine, doublée surtout
de la méconnaissance des termes correspondants du thésaurus,
le mèneront à se laisser entraÎner vers ce
qui semble un détournement considérable par rapport
à son analyse initiale. En consultant le thésaurus,
S2 constate que le terme environnement international n'est pas
une vedette et choisit la forme lexicale autorisée la plus
proche dans líordre alphabétique, soit environnement,
à laquelle il doit ajouter une subdivision géographique
(France). Il n'est pas vraiment satisfait du compromis effectué
afin de pouvoir exprimer la notion d'environnement international,
il lui attribue la subdivision France et l'utilise également
pour la vedette commerce. Cette double mention du mot France dans
sa liste de vedettes-matière s'explique par l'impression
chez S2 de devoir attribuer une subdivision géographique
au terme commerce lors de la lecture des notes explicatives dans
les répertoires de vedettes-matière. Les indications
du thésaurus sont donc interprétées fort
différemment par S1 et S2.
Les résultats présentés ici résultent
de l'indexation d'un seul document par deux professionnels et
ne sauraient pour l'instant être généralisés.
Il témoignent cependant assez bien de l'intérêt
d'une méthode qui analyse beaucoup plus finement ce qui
guide les indexeurs dans leur cheminement et ce qui détermine
la séquence des décisions qui mène à
choisir l'un ou l'autre terme.
Dans le cadre des travaux en cours, nous poursuivrons la collecte
des données auprès de deux groupes díindexeurs:
experts ayant plusieurs années díexpérience
en indexation et spécialistes du domaine des documents
environnementaux, novices (étudiants) ayant suivi un cours
sur líindexation, mais sans expérience pratique
du travail professionnel. Tous les sujets des deux groupes devront
indexer les quatre mêmes documents en travaillant successivement
avec deux thésaurus dont líun sera le thésaurus
utilisé quotidiennement par le groupe díexperts.
Protocoles verbaux concomitants et consécutifs seront recueillis
pour chaque indexation et le sujet devra produire une liste de
concepts (exprimés en vocabulaire libre), puis une liste
finale de descripteurs (vocabulaire contrôlé). Poursuivant
les travaux de Bertrand (1993) qui a mis en évidence certaines
stratégies caractérisant indexeurs experts et novices
et montré que la stratégie experte est fortement
guidée par les connaissances préalables de líindexeur,
nous examinerons en particulier le rôle de la familiarité
avec le thésaurus et les contraintes imposées par
celui-ci dès le premier examen du document par líexpert.
4.2 EXAMEN DES PRODUITS DE L'INDEXATION
a) Méthodologie suivie
ï Examen díun grand nombre díindexations
- Les données
Pour líétude des produits de líindexation,
nous avons choisi une base de données bibliographiques
en environnement dont une portion nous a été généreusement
prêtée par líorganisme auteur. Il síagit
díEnvirodoq produite par le centre de documentation
du Ministère de líEnvironnement du Québec.
Elle répertorie plusieurs types de documents: congrès,
exposés de congrès, études contractuelles,
mémoires, rapports publiés et manuscrits, ouvrages
usuels, etc. Líanalyse du contenu consiste díabord
en líattribution díune ou plusieurs rubriques de
classement (le plan de classement en contient 23 comme: Eau douce,
Eau salée, Aménagement, Aménagement hydrique,
Aménagement linéaire, Aménagement ponctuel,
Pollution, Pollution eau, Pollution air, Qualité de vie,
Ressource naturelle, Généralités, Flore,
Faune, Socioéconomie, Terre, etc.- elles-mêmes subdivisées
en sous-rubriques - ). Puis viennent la rédaction díun
résumé (résumé surtout indicatif,
mais aussi indicatif-informatif et assez souvent simple annotation),
líindexation (descripteurs principaux, descripteurs secondaires,
candidats-descripteurs, identificateurs géographiques).
Le bordereau comporte au maximum 39 champs, dont cinq sont obligatoires.
Pour la mise au jour des grandes tendances, nous avons retenu
un sous-corpus de 833 notices produites entre le 1er janvier 1991
et le 22 juin 1992 (1,2 mégabytes).
Nous disposons également díune version ordinolingue
du plan de classification et du thésaurus: celui-ci contient
1443 descripteurs; à ce nombre il faut ajouter 87 termes
utilisés dans les zones díindexation de notre échantillon
mais non répertoriés dans la version que nous avons
utilisée et 209 candidats-descripteurs (soit un total de
1745).
- Les traitements effectués sur le sous-corpus
Divers pré-traitements et traitements ont été
effectués avec líéditeur PE
et le logiciel SATO (Daoust,
1992). Nous avons procédé selon une méthodologie
mise au point dans ses grandes lignes dans un projet qui avait
débuté peu de temps auparavant (Bertrand-Gastaldy
et al., 1993) et, depuis, nous poussons plus loin la mise
au point des stratégies et algorithmes.
Les pré-traitements visent à normaliser
le matériau linguistique sur lequel nous voulons travailler.
Ils incluent les corrections orthographiques, líélimination
de certaines zones des notices pour ne conserver que celles qui
sont utiles pour líétude (domaine, titre, résumé,
indexation), mise en équivalence de la forme contrôlée
des rubriques de domaines, des descripteurs, candidats-descripteurs,
etc. (en général les prépositions ont été
supprimées: abondance nourriture, approvisionnement
eau ) avec la forme correspondante en langage naturel dans
les titres et résumés (analyse de líeau,
approvisionnement en eau, approvisionnement díeau ),
désambiguïsation des majuscules et de certains caractères
de ponctuation, comme le tiret, le point díabréviation
et de fin de phrase. Le thésaurus, lui aussi transformé
pour être admissible à SATO, síest vu augmenté
des variantes flexionnelles, des radicaux et des variantes syntaxiques
des termes complexes.
Voici un exemple de notice telle quíelle est
enregistrée dans la base de données ENVIRODOQ, avec
les identificateurs de champs: SB : E #TI : CUDX CAT : FV DP : 1973 CRE : 911001 LA : FRE DT : R NO : EN010343 QQEN TI : Étude sur modèle réduit : pont de líautoroute de Liesse (rivières des Prairies), LHL-584. SO : [s.l.] : Régis Trudeau & Associés : Ministère des transports, 1973. CO : 20 f. : 19 ill. ; 4 réf. ; 2 ca. CH : Aménagement hydrique AU : Hausser, R. Boivin, R. AF : Laboratoire hydraulique LaSalle. DE1 : Étude sur modèle Pont Modèle hydraulique DE2 : Écoulement Glace Embâcle Rugosité Érosion GEO : Prairies rivière des DR : 62 SNRC : 31H11 QBA : 0433 RA : 06 MRC : 065
AB : La première
partie du rapport décrit le modèle réduit
hydraulique proposé et rappelle les notions de similitude
qui sous-tendent líétude expérimentale. Líétude
expérimentale elle-même est présentée
dans la deuxième partie. On y compare les conditions díécoulement
actuelles avec celles quíentraÎnerait la construction
du pont. La troisième partie évalue la poussée
des glaces sur les piles du pont à partir des données
de líétude expérimentale. La dernière
partie, qui nía pas de lien direct avec líétude
expérimentale, contient des indications sur les profondeurs
maximales díérosion des fonds mobiles autour des
piles en rivière.
Une fois les notices épurées des champs
inutiles pour notre étude, plusieurs propriétés
sont ajoutées de façon automatique aux éléments
textuels et lexicaux de façon à permettre les comparaisons
entre termes présents dans les textes sources et les résumés
díune part et termes díindexation. Ces propriétés
font appel aux multiples connaissances nécessaires à
líinterprétation des productions textuelles: linguistiques,
sémantiques, pragmatiques (et aussi typographiques lorsque
nous passerons aux textes primaires). Elles peuvent aussi résulter
de traitements statistiques effectués par SATO ou par díautres
analyseurs. Elles sont choisies en fonction des hypothèses
que nous voulons vérifier et peuvent être modifiées
à tout moment.
Les traitements effectués pour étudier
certaines caractéristiques des termes díindexation
choisis par les indexeurs ont porté díabord sur
les descripteurs contenus dans le thésaurus (les non-descripteurs
níont pas encore été pris en compte non plus
que les identificateurs géographiques) et les candidats-descripteurs
tels quels, puis sur leurs variantes morphologiques. Nous nous
proposons díétudier ensuite les radicaux, notamment
pour détecter les paraphrases des termes complexes. Chacune des occurrences de ces unités lexicales a été marquée par une valeur de propriété indiquant sa présence ou son absence dans les zones retenues: présence dans le titre seulement, présence dans le titre et le résumé seulement, présence dans le titre, le résumé et la zone des descripteurs principaux, etc., présence dans la zone des descripteurs principaux seulement, présence dans la zone descripteurs secondaires seulement. Ces marques ont permis díobserver les caractéristiques de fréquence, de position et díindice discriminant: - des termes présents dans les zones titre et résumé et retenus dans les zones díindexation - des termes présents dans les zones titre et résumé et non retenus dans les zones díindexation
- des termes absents des zones titre et résumé
et assignés dans les zones díindexation.
Voici un exemple de notice dans laquelle apparaissent
les valeurs de différentes propriétés textuelles
ou lexicales attribuées (nous avons souligné les
valeurs correspondant à la présence): *page=CUDX/1 *marque=nil*ordre=nil Fv*zone=cat R*zone=dt *zone=ti Étude_sur_modèle*marque=titdp réduit : pont*marque=tiresdp de líautoroute*marque=titseul de Liesse (rivières*marque=tiresseul des Prairies), Lhl-584. Aménagement_hydrique*zone=ch *zone=af Laboratoire hydraulique Lasalle. *zone=de1 Étude_sur_modèle*marque=titdp Pont*marque=tiresdp Modèle_hydraulique*marque=dpseul *zone=de2*marque=resds Écoulement Glace *marque=dsseul Embâcle Rugosité Érosion*marque=resds *marque=nil rivière_des_Prairies*zone=geo
*zone=ab*ordre=pr La première
partie du rapport décrit le modèle réduit
hydraulique*marque=resseul proposé et rappelle les
notions de similitude qui sous-tendent líétude expérimentale.
*ordre=deu Líétude expérimentale elle--même
est présentée dans la deuxième partie. *ordre=au
On y compare les conditions díécoulement*marque=resds
actuelles avec celles quíentraÎnerait la construction*marque=resseul
du pont*marque=tiresdp.*ordre=ad La troisième partie
évalue la poussée des glaces*marque=resds
sur les piles du pont*marque=tiresdp à partir des
données de líétude expérimentale.
*ordre=de La dernière partie, qui nía pas de lien
direct avec líétude expérimentale, contient
des indications sur les profondeurs maximales díérosion*marque=resds
des fonds mobiles autour des piles en rivière*marque=tiresseul.
@zone=nil*ordre=nil. Bien sûr, la lisibilité díun texte ainsi catégorisé est très mauvaise, mais les possibilités díexploitation sont très grandes par rapport à un texte composé uniquement de chaÎnes de caractères non marquées. On remarque que: - les indicateurs de zones ont été transformés automatiquement en valeurs de la propriété zone; - dans chaque terme complexe répertorié dans le thésaurus, le caractère blanc a été remplacé automatiquement par un caractère de soulignement de façon à ce quíil soit reconnu comme une seule unité lexicale (étude_sur_modèle ); - les tirets unificateurs ont été doublés automatiquement (elle--même ); - les phrases ont reçu une valeur de propriété ordre (pr pour première, deu pour deuxième, au pour autre, ad pour avant-dernière et de pour dernière);
- les valeurs suivantes de la propriété
marque ont été attribuées dans líexemple:
titseul:: titre seulement, titdp : titre et descripteur
principal, tiresdp : titre, résumé et descripteur
principal, tiresseul : titre et résumé seulement,
dpseul : descripteur principal seulement, dsseul
: descripteur secondaire seulement, resds : résumé
et descripteur secondaire, resseul : résumé
seulement.
Plus tard, nous étudierons les termes du domaine,
quíils soient ou non répertoriés dans le
thésaurus (leur relevé est presque terminé),
de façon notamment à pouvoir comparer une indexation
automatique en vocabulaire libre et en vocabulaire contrôlé.
- Les observations sur les grandes tendances
de líindexation
Dans un premier temps, notre étude des grandes
tendances de líindexation síest appuyée sur
des hypothèses concernant les relations entre le résumé
et les termes díindexation, hypothèses inspirées
des études antérieures dont nous avons fait état
plus haut et des directives que líon trouve dans certains
manuels ou normes díanalyse (il faut remarquer que le centre
de documentation qui produit Envirodoq ne dispose pas díun
manuel de politiques et procédures díanalyse). Nous
ne pouvons pas les énumérer toutes ici et nous renvoyons
le lecteur aux résultats préliminaires que nous
donnons plus bas. En gros, elles concernent la fréquence,
la valeur discriminante, la position dans la structure du résumé,
líappartenance au domaine dans lequel le texte a été
classé, les relations sémantiques entretenues avec
díautres descripteurs du thésaurus. Nous y ajouterons
sans doute la position thématique ou rhématique
dans la phrase et la prise en compte de certaines paraphrases.
Si le temps le permet, nous nous inspirerons des recherches de
Le Roux et Monteil (1993) pour détecter les noyaux et les
catalyses.
Nous prévoyons étendre nos observations
aux textes intégraux. Les détails de cette expérimentation
ne sont pas encore arrêtés, mais étant donné
le volume des informations à traiter, nous devrons sans
doute nous limiter à certains types de documents et aux
parties réputées les plus informatives de ceux-ci.
Nous pourrons ainsi mieux évaluer les interrelations entre
les textes primaires et les termes díindexation ainsi quíentre
ces mêmes textes et les résumés, plutôt
que de nous contenter des interrelations entre résumés
et indexats. Díailleurs, líenquête cognitive
apportera sans doute, comme dans le cas du projet de système
expert díaide à líanalyse des jugements (Bertrand-Gastaldy
et al., 1993a), plusieurs indications sur les caractéristiques
des éléments textuels, lexicaux en particulier,
recherchés par les indexeurs au cours de leur prise de
connaissance rapide des textes et nous pourrons retourner au corpus
pour vérifier avec quelle constance ces caractéristiques
sont retenues.
- Les différences inter-indexeurs
Nous cherchons également à vérifier
si les tendances découvertes se vérifient pour tous
les indexeurs, donc si elles sont, en quelque sorte, le résultat
díune politique implicite ou, si au contraire, nous pouvons
observer des différences individuelles qui viendraient
corroborer nos intuitions sur le plan cognitif. Pour cela, nous
avons isolé deux sous-ensembles de notices signées
par deux personnes (295 notices pour X, 334 notices pour Y). En
tout, sept personnes ont signé les notices de notre échantillon
díun an, mais le nombre níétait pas suffisant
pour justifier des calculs aussi complexes .
ï Comparaison de líindexation
humaine et de différentes indexations automatiques
Une fois les grandes tendances de líindexation
bien cernées, nous prévoyons produire automatiquement
diverses indexations en faisant varier les paramètres étudiés
et les évaluer, avec les indexations déjà
réalisées par des indexeurs professionnels. Pour
cela, nous les soumettrons, sans révéler leur origine,
à différents indexeurs et spécialistes du
domaine traité. Nous espérons ainsi mieux comprendre
díaprès quels critères une indexation est
évaluée selon quíelle est (ou déclarée
être) le produit de líindexation humaine ou de la
machine, un peu comme lía fait Meyer (1992) avec des résumés.
Chartron et al. (1989) et Courtial (1985) nous fournissent
certaines pistes sur les différences les plus marquantes,
mais tout dépend des règles auxquelles on soumet
líindexation automatique. Cela devrait également
permettre de faire davantage verbaliser nos sujets sur les contraintes
imposées par le thésaurus, sur les portions de texte
lues ainsi que sur les stratégies et les règles
implicites suivies par les indexeurs.
b) Résultats préliminaires
sur les grandes tendances dans les indexations déjà
effectuées
Nous ne donnons ici, à titre díillustration,
que quelques-uns des résultats obtenus lors de nos premières
expérimentations.
ï Les grandes tendances de líindexation
dans Envirodoq
Notons tout de suite que, dans notre corpus díune
année, un peu moins de 50% des descripteurs du thésaurus
ont été retenus dans líindexation et que
la prise en compte des variantes flexionnelles a fait passer de
6567 à 9125 le nombre de termes (du thésaurus et
de la liste de candidats-descripteurs) identifiés dans
les zones titres et résumés (soit une augmentation
de près de 39%, ce qui montre líintérêt
de cette opération). Les résultats qui suivent sont
partiels; ils ont été obtenus avec les variantes
morphologiques. - En ce qui concerne la présence dans les différentes zones de la notice: . Seulement 33% des termes présents dans les titres et/ou résumés sont retenus dans les zones díindexation (le pourcentage est de 24% pour les formes telles quelles). La proportion tombe à 25% dans le cas descripteurs secondaires. Elle est de 38% pour les descripteurs principaux et de 58% pour les candidats-descripteurs. Un examen sommaire des termes non retenus montre que ce sont majoritairement des unitermes souvent très généraux. Une expérimentation ultérieure tentera de valider líhypothèse que les termes retenus sont ceux qui appartiennent au domaine dans lequel le texte a été classé. . Un terme présent à la fois dans le titre et le résumé est retenu dans 49% des cas. Ce pourcentage tombe à 28% síil níest que dans le titre et à 20% síil níest que dans le résumé. Donc la reprise dans ces deux zones est un meilleur prédicteur de líimportance de la notion ainsi exprimée ... pourvu peut-être quíil síagisse díun terme du domaine, mais cela reste à vérifier.
. Lorsquíun terme présent est
retenu, il est choisi comme descripteur principal síil
figure dans le titre dans 68% des cas (quíil se trouve
également dans le résumé ou non), alors que
síil níest présent que dans le résumé,
il sera choisi comme descripteur secondaire dans 53% des cas.
Comme il fallait síy attendre, le titre semble donc mieux
convenir à líexpression du sujet principal. - En ce qui concerne la fréquence moyenne: . La fréquence moyenne par notice des termes présents et retenus est plus élevée que celle des termes présents et non retenus: 1,69 (ce qui est díautant plus remarquable que les résumés sont courts).
. La fréquence moyenne des termes présents
et retenus dans les zones descripteurs principaux et candidats-descripteurs
est plus élevée (respectivement 1,92 et 1,83) que
la fréquence moyenne des descripteurs retenus dans la zone
descripteur secondaire (1,30). - En ce qui concerne líindice discriminant: . Líindice discriminant des termes présents et retenus est nettement plus élevé que celui des termes non retenus. . Líindice discriminant des descripteurs principaux est plus élevé que celui de descripteurs secondaires et des candidats-descripteurs.
. Líindice discriminant des candidats-descripteurs
est plus élevé que celui des descripteurs secondaires.
- En ce qui concerne la position dans les différentes phrases du résumé: . Les termes non retenus se distribuent à peu près comme líensemble des termes des résumés. . Les termes présents et retenus comme descripteurs principaux et comme candidats-descripteurs se retrouvent de façon significative dans la première phrase.
. Les termes présents et retenus comme
descripteurs secondaires se retrouvent de façon significative
dans la dernière ou líavant-dernière phrase.
Toutes ces données, une fois validées,
sont susceptibles de devenir la base díalgorithmes propres
à fournir une indexation automatique qui se rapprocherait
des caractéristiques díune indexation moyenneÎ.
ï Quelques différences inter-indexeurs
Mais le même genre de calculs peut mener à
observer des différences individuelles. Dans ce cas également,
aucune validation des résultats obtenus en comparant deux
indexeurs nía été effectuée. Mais
le visionnement des premiers résultats attire notre attention
sur certaines divergences: líindexeur Y a tendance à
retenir un plus fort pourcentage de termes contrôlés
présents dans les titres et/ou les résumés
(est-ce parce quíelle les y inclut plus volontiers que
X ou parce que ses résumés sont plus longs, donc
plus riches en termes significatifs?); parmi les termes présents
dans les deux zones à la fois et retenus, elle choisit
de les mettre en descripteurs principaux plus souvent que X; lorsquíils
sont dans le titre seulement et non présents dans le thésaurus,
elle en retient un plus grand pourcentage comme candidats-descripteurs
(Pour quelles raisons? Considère-t-elle que le thésaurus
est déficient dans certains des domaines quíelle
traite? Tient-elle à líenrichir? Cherche-t-elle
à respecter la terminologie des auteurs?). Ses descripteurs
principaux ont une fréquence moyenne plus élevée
que ceux de sa collègue, de même que ses candidats-descripteurs
(est-ce parce quíelle indexe dans des domaines plus restreints,
mieux circonscrits, ou parce quíelle est particulièrement
soucieuse de faire ressortir les liens intertextuels?). X privilégie
la première phrase comme source de descripteurs principaux
et, dans une moindre mesure de descripteurs secondaires, alors
quíun plus grand pourcentage de descripteurs sont tirés
de líavant-dernière phrase par Y que par X. Finalement
les termes retenus par X ont un indice discriminant plus élevé
que ceux díY. Il nous faut évaluer dans quelle mesure
ces différences sont réellement significatives,
et si oui quels sont les véritables facteurs explicatifs.
Il est possible quíune partie des écarts
observés provienne díabord díune différence
dans la façon de rédiger les résumés,
Y privilégiant le style indicatif-informatif qui devrait
donc fournir davantage de termes signifiants, ensuite díune
différence importante de procédure qui nous a été
révélée en cours díexpérimentation:
X a indexé à partir du résumé rédigé
par quelquíun díautre alors quíY a assumé
les deux tâches de condensation et díindexation.
(pour le moment, nous ne savons pas si X disposait du texte intégral
en plus du résumé). Díautre part, líexpérience
de la tâche et la connaissance de la base de données
semblent ne pas être les mêmes. Enfin, les domaines
couverts par les deux personnes et la dispersion du vocabulaire
sont díautres hypothèses à envisager.
6. CONCLUSION
En somme les deux volets de notre recherche visent
à comprendre à la suite de quels processus cognitifs
des indexeurs confrontés à la tâche difficile
de représenter des documents pour des utilisateurs quíils
connaissent peu, avec des outils parfois inadéquats, arrivent
aux résultats que líon peut observer. Síil
est des constantes dans ces produits et dans les stratégies
suivies, elles proviennent sans doute de la formation des indexeurs,
de la littérature sur le sujet, des directives et contraintes
de líorganisation. Mais nous faisons le pari que líopération
díindexation est aussi et surtout une démarche subjective
qui résulte díune tentative de faire coïncider
une interprétation personnelle issue de connaissances nécessairement
idiosyncratiques avec une grille plus ou moins stéréotypée
díanalyse. Les multiples expérimentations que nous
devons mener pendant toute la durée du projet devraient
permettre de mieux mettre en évidence les facteurs explicatifs
de la diversité de líindexation humaine, pas seulement
au niveau des produits mais aussi et surtout des processus. Cette
étude devrait faire ressortir la complexité de la
tâche, de même que la subjectivité inhérente,
subjectivité qui níest sans doute pas aussi condamnable
que líenseignement dans la discipline le laisse croire,
puisquíelle semble souhaitable et nécessaire pour
la communication des connaissances: [...] I suggest that indexers reconsider their practice. Current practice in indexing can be said to confine itself to modest, value-free ethics of dissimination of knowledge. Requirements-oriented indexing involves a high degree of subjectivity and responsability in choosing among the qualities of documents.
Current discussions in other professions, such as
teaching and medical practice, tend to question prudent ethics
of objectivity in mediating their services to their target groups.
Rather than refraining from picking up the challenges posed by
the social and cultural reality within which we operate, we should
face the music. New frameworks, like requirements-oriented approaches
have potentials for supporting a broad and open transfer of knowledge,
which is a primary responsability of our profession.Î (Albrechtsen,
1993: 223)
Cette constatation ne devrait pas empêcher
cependant díenvisager une certaine automatisation des tâches,
à condition que chaque type díautomatisation soit
pris pour ce quíil vaut. Si líon voit se dégager
certaines tendances, il níest pas impossible de les mettre
sous forme díalgorithmes de façon à introduire
plus de régularité et à libérer les
indexeurs pour les opérations les plus exigeantes sur le
plan de líinterprétation. Toutefois, on peut espérer
aller plus loin et assister une lecture individualisée
qui síappuierait sur des cheminements et des stratégies
de contrôle personnalisés traduits sous forme de
règles dans un système expert. Il deviendrait alors
possible de modéliser non pas une lecture standard du texte,
mais plusieurs lectures différentes.
REMERCIEMENTS
Ce programme de recherche est effectué grâce
à une subvention du CRSH (no 410-92-0713).
Nous remercions le Centre de documentation du Ministère
de líEnvironnement du Québec pour les données
et informations quíils nous ont aimablement communiquées,
en particulier M. Gérard Nobréga, directeur et Mme
Carole Robitaille, responsable des services techniques.
Plusieurs assistants collaborent à notre recherche:
Claude Allen, Pierre Dupuis, Julie Gauthier et Andréi Kelner,
en plus de deux des signataires de cet article: Claire David et
Diane Lanteigne.
BIBLIOGRAPHIE DES SOURCES CITÉES
Albrechtsen, H., 1993. Subject analysis
and indexing: from automated indexing to domain analysis. The
Indexer; 18(4); October 1993: 219-224.
Beacco, J.-C.; Darot, M., 1984. Analyse
de discours; lecture et expression. Paris: Hachette / Larousse;
1984.
Beghtol, C., 1986. "Bibliographic
classification theory and text linguistics: aboutness analysis,
intertextuality and the cognitive act of classifying documents."
Journal of Documentation; 42(2); June 1986: 84-113.
Belkin, N.J., 1984. Cognitive models
and information transfer. Social Science Information Studies;
4; 1984: 111-129.
Bertrand, A., 1993. Compréhension
et catégorisation dans une activité complexe: l'indexation
de documents scientifiques. Thèse de doctorat, Équipe
de psychologie du travail ER 15- CNRS, Université de Toulouse-Le
Mirail, France, 1993.
Bertrand, A.; David, C.; Cellier, J.M.;
Giroux, L., 1990. Étude préliminaire du travail
d'indexation de documents scientifiques. Actes du XXVI ième
congrès de la société d'ergonomie de langue
française (SELF), 1990.
Bertrand-Gastaldy, S. , 1993. Analyse documentaire
et intertextualité. Les Sciences du texte juridique:
Le droit saisi par l'ordinateur . Sous la direction de Claude
Thomasset, René Côté et Danièle Bourcier.
Textes présentés à un séminaire tenu
à Val-Morin, Québec, du 5 au 7 oct. 1992 sous l'égide
du Laboratoire Informatique, droit et linguistique du CNRS et
du Groupe de recherche Informatique et droit de l'Université
du Québec à Montréal. Cowansville: Les Éditions
Yvon Blais; 1993: 139-173.
Bertrand-Gastaldy, S., 1992. Avec la collaboration
de Gracia Pagola Le contrôle du vocabulaire et l'indexation
assistés par ordinateur; une approche méthodologique
pour l'utilisation de SATO. [Montréal]: Université
de Montréal. École de bibliothéconomie et
des sciences de l'information; janvier 1992. 612 p. en pagination
variée.
Bertrand-Gastaldy, S., 1990. L'indexation assistée
par ordinateur: un moyen de satisfaire les besoins collectifs
et individuels des utilisateurs de bases de données textuelles
dans les organisations. ICO (Intelligence artificielle et sciences
cognitives au Québec); 2(3); septembre 1990: 71-91.
Bertrand-Gastaldy, S., 1989. La problématique
de l'énonciation dans les systèmes documentaires
entièrement ou partiellement automatisés. In: Problèmes
de l'énonciation . Sous la dir. de François
Latraverse. Montréal: Université du Québec
à Montréal. Département de philosophie; 1989):
9-80. (Cahiers Recherches et Théories; coll. "Philosophie
du langage"; L1)
Bertrand-Gastaldy, S., 1986. De quelques
éléments à considérer avant de choisir
un niveau d'analyse ou un langage documentaire. Documentation
et bibliothèques, janvier-juin 1986, 3-23.
Bertrand-Gastaldy, S.; Daoust, F.; Pagola, G.; Paquin,
L.-C., 1993a. Conception díun prototype de système
expert díaide à líanalyse des jugements :
rapport final présenté à SOQUIJ. Vol. 1 :
synthèse des travaux. [Montréal]: Université
de Montréal. École de bibliothéconomie et
des sciences de líinformation / Université du Québec
à Montréal. Centre de recherche en information et
cognition ATO.CI; juillet 1993: 88 p. + annexes.
Bertrand-Gastaldy, S.; Daoust, F.; Meunier, J.-G.;
Pagola, G; Paquin, L.-C., 1992. Un prototype de système
expert pour l'aide à l'analyse des jugements. Congrès
international Informatique et droit / Computers and Law, Montréal
1992, 30 septembre-3 octobre 1992.
Bertrand-Gastaldy, S.; Daoust, F.; Meunier, J.-G.;
Pagola, G.; Paquin, L.-C., 1993b. Les traitements statistico-linguistiques
et l'enquête cognitive comme moyens de reconstituer l'expertise
des spécialistes en analyse documentaire: le cas de la
jurisprudence. Montréal: Université du Québec
à Montréal, Centre de recherche en Cognition et
Information ATO.CI. 30 p. (Cahier de recherche no 2).
Bertrand-Gastaldy, S.; Pagola, G., 1992a. L'analyse
du contenu textuel en vue de la construction de thésaurus
et de l'indexation assistées par ordinateur; applications
possibles avec SATO (système d'analyse de textes par ordinateur).
Documentation et bibliothèques; 38(2); avril-juin
1992: 75-89.
Bertrand-Gastaldy, S.; Pagola, G., 1992b. L'élaboration
et la gestion d'un vocabulaire de domaine dans le contexte des
bases de données textuelles: remises en question et méthodologies.
Colloque Repérage de l'information textuelle organisé
conjointement par l'Hydro-Québec et le ministère
des Communications du Québec, Montréal, le 18 septembre
1991: 51-71.
Bisseret, A., 1983. Pour une psychologie
ergonomique des systèmes documentaires, Documentaliste;
20 (1); 1983: 6-10.
Bliss, M., 1988. Indexing policy in
RILM. Fontes Artis Musicae; 35; 1988: 189-194.
Bonzi, S., 1991. Representation of concepts in text:
a comparison of within-document frequency, anaphora, and synonymy.
The Canadian Journal of Information Science; 16(3); 1991:
21-31.
Borko, H.; Bernier, C.L., 1975. Abstracting
Concepts and Methods. New York: Academic Press; 1975.
Bourcier, Danièle, 1979. Information
et signification endroit; expérience d'une explicitation
automatique de concepts. Langages; 53; mars 1979: 9-32.
"Le discours juridique: analyses et méthodes."
Brooks, H.M.; Daniels, P.-J.; Belkin,
H.J., 1986. Research on information interaction and intelligent
information provision mechanisms. Journal of Information Science;
1986: 37-44.
Caverni, J.P., 1988. La verbalisation
comme source d'observables pour l'étude du fonctionnement
cognitif. In Caverni, J.P., Batien, C., Mendelsohn, P.,
Tiberghien, G. Psychologie cognitive: Modèles et méthodes..
[Grenoble, France]: Presses Universitaires de Grenoble; 1988.
Chartron, G.; Dalbin, S.; Monteil, M.-G.;
Vérillon, M., 1989. Indexation manuelle et indexation automatique:
dépasser les oppositions. Documentaliste; 26(4-5);
juillet-octobre 1989: 181-187.
Cleveland, D.; Cleveland, A., 1990. Introduction
to Indexing and Abstracting. 2nd ed. Englewood, CO: Libraries
Unlimited; 1990.
Coates, E. J., 1979. Scientific and
technical indexing II. In: G. Norman Knight, Indexing, the
Art of ... London; George Allen and Unwin; 1979.
Courtial, J.-P., 1985. Comparaison de
cartes leximappe obtenues par indexation manuelle et par indexation
lexicale automatique d'un échantillon de 12 articles; conséquences
sur l'interprétation des différents types d'indexation
et sur l'interprétation des cartes Leximappe. Documentaliste
; 22(3); mai-juin 1985: 102-107. Daoust, F., 1992. SATO; système díanalyse de textes par ordinateur. Manuel de références.[Montréal]: Université du Québec à Montréal, Centre díanalyse de textes par ordinateur; 1992. .
David, C., Bertrand, A., Giroux, L.,
Cellier, J.M., 1991. A method of analysis for document indexing
behavior. In: Quéinnec, Y., Daniellou, F., Designing
for everyone. Londres: Taylor and Francis; 1991: 400-402.
David, C., 1990. Élaboration
d'une méthodologie d'analyse des processus cognitifs dans
l'indexation documentaire. Montréal: Université
de Montréal, Département de communication; 1990.
Mémoire de maÎtrise.
Debili, F., 1982. Analyse syntaxico-sémantique
fondée sur une acquisition automatique des relations lexicales-sémantiques.
Paris: université Paris XI, Centre d'Orsay; 1982. Thèse
de doctorat d'État.
Eigeldinger, M., 1989. Mythologie
et intertextualité. Genève: Slatkine; 1989.
Endres-Niggemeyer, B., 1990. A procedural
model of abstracting, and some ideas for its implementation.
TKE'90; Terminology and Knowledge Engineering. Frankfurt:
Indeks Verlag; 1990: 230-243.
Ericsson, K.A., Simon, H.A., 1984. Protocol
analysis: Verbal reports as data. Cambridge, MA: MIT Press;
1984. 379 p.
Ericsson, K.A., Simon, H.A., 1980. Verbal
report as data. Psychological review, vol. 87, no. 3, May
1980: 215-251.
Farrow, J., 1991. A cognitive process
model of indexing document. Journal of documentation;
47 (2); June 1991: 149-166.
Fidel, R., 1986. Writing abstracts for free-text
searching. Journal of Documentation; 42(1); 1986: 11-21.
Grunberger, M.W., 1985. Textual Analysis
and the Assignment of Index Entries for Social Science and Humanities
Monographs. New Brunswick, NJ: Rutgers University; 1985. viii,136
p. (thèse de doctorat)
Hayes, J.R.; Flower, L.S., 1980. Identifying
the organization of writing processes. In: L.W. Gregg; E.R. Steinberg
(éds), Cognitive Processes in Writing . Hillsdale,
NJ: Lawrence Erlbaum; 1980: 31-50.
Hoc, J.-M.; Leplat, J., 1983. Evaluation of different
modalities of verbalization in a sorting task. International
Journal of Man-Machine Studies ; 18; 1983: 283-306.
Hovy, E., 1992. Sur la méthodologie pour construire
des modèles de líêtre humain à travers
la génération de langage. Langages; 106;
juin 1992: 75-91.
Jones, K. P., 1983. How do we index?.
a report of some Aslib Information Group activity. Journal
of Documentation; 39; 1983: 1-23.
Kristensen, J.; JÄrvelin, K., 1990.
The effectiveness of a searching thesaurus in free-text searching
in a full-text database. International Classification;
17(2); 1990: 77-84.
Lancaster, F.W., 1991. Indexing and Abstracting in
Theory and Practice. Champaign, IL: University of Illinois,
Graduate School of Library and Information Science; 1991.
Le Roux, D.; Monteil, M.-G., 1993. Perspectives díautomatisation
de líactivité résumante: présentation
du projet SERAPHIN. ICO93; Actes du Colloque international
en informatique cognitive des organisations/ International Conference
on Cognitive and Computer Sciences for Organizations., 4-7 mai
1993, Montréal:. 126-134.
Leonard, L.E., 1977. Inter-indexer consistency
studies, 1954-1975: review of the literature and summary of the
study results. Occasional papers no 131. University of
Illinois, Graduate School of library science; 1977.
Liddy, E., 1990. Anaphora in natural language processing
and information retrieval. Information Processing & Mnagement;
26(1); 1990: 39-52.
Liddy, E. D.; Bonzi, S.; Katzer, J.;
Oddy, E., 1987. "A study of discourse anaphora in sicntific
abstracts." Journal of the American Society for Information
Science; 1987: 38(4): 255-261.
Locke, C., 1991. The dark side of DIP. Byte;
16(4); April 1991.
Markey, K., 1984. Inter-indexer consistency
tests: A literature review and report of a test of consistency
in indexing visual materials. Library and information science
research ; 6; 1984: 155-177.
Meyer, T., 1992. Comparer la machine à líhomme
et líhomme à la machine : approche expérimentale
des représentations díune génération
automatique de récit. Langages; 106; juin 1992:
92-105.
Milas-Bracovic, M.; Zajec, J., 1989. Authors abstracts
of research articles published in scholarly journals in Croatia.
Libri; 39; 1989: 303-318
Molholt, P.; Goldbogen, G., 1990. The
use of inter-concept relationships for the enhancement of semantic
networks and hierarchically structured vocabularies. In: Sixth
Annual Conference of the UW Centre for the New Oxford English
Dictionary and Text Research. Electronic Text Research.
Proceedings of the Conference, October 28-30, 1990, University
of Waterloo, Waterloo, Ontario, Canada: 39-51.
Newell, A.C., Simon, H.A., 1972. Human
problem solving. Englewood Cliffs, N.J.: Prentice-Hall; 1972.
920 p.
OíConnor, J., 1965. Automatic subject recognition
in scientific paper; an empirical study. Journal of the Association
of Computing Machinery; 12; 1965.
Piolat, A.; Roussey, J.-Y., 1992. Rédaction
de textes : éléments de psychologie cognitive. Langages;
106; juin 1992: 106-125.
Rada, R.; Barlow, J.; Potharst, J.;
Zanstra, P.; Bijstra, D., 1991. Document ranking using an enriched
thesaurus. Journal of Documentation ; 47(3); September
1991: 240-253.
Rada, R.; Mili, H.; Letourneau, G.;
Johnston, D., 1988. Creating and evaluating entry terms. Journal
of Documentation ; 44(1); March 1988: 19-41.
Reich, P.; Biever, E.J., 1991. Indexing consistency:
the input/output function of thesauri. College and Research
Libraries ; 52; 1991: 336-342.
Salager-Mayer, F., 1991. Medical English
abstracts; how well are they structured? Journal of the American
Society for Information Science; 42; 1991: 528-531.
Tenopir, C.; Jacso, P., 1992. Quality
of abstracts. Online; 17; 1992: 44-51.
Tibbo, H., 1992. Abstracting across
the disciplines: a content analysis of abstracts from the natural
sciences, the social sciences, and the humanities with implications
for abstracting standards and online information retrieval. Library
and Information Science Research; 14; 1992: 31-56.
Tomonori, G., 1983. Cognitive structure
in human indexing process. Library and information science;
Keio University, Tokyo; 21;1983: 209-226. Weinberg, B.H., 1981. Word Frequency and Automatic Indexing. Columbia University; 1981. PhD Thesis.
NOTICES BIOGRAPHIQUES Suzanne Bertrand-Gastaldy
Suzanne Bertrand-Gastaldy est professeure agrégée
à líÉcole de bibliothéconomie et des
sciences de líinformation de líUniversité
de Montréal. Elle est également chercheure au Centre
de recherche en information et cognition (ATO.CI) de líUniversité
du Québec à Montréal. Ses recherches portent
sur les méthodes díindexation et díélaboration
de vocabulaires de domaine assistées par ordinateur ainsi
que sur líévaluation des thésaurus à
la lumière des théories sémio-cognitives.
Luc Giroux
Luc Giroux est professeur agrégé au
département de communication de líUniversité
de Montréal. Détenteur díun doctorat (Montréal,
1982) en psychologie cognitive, il mène depuis plusieurs
années des recherches sur la dimension cognitive de la
communication personne-machine, de même que sur la mesure
des auditoires des médias électroniques. Il a publié
entre autres dans les revues Technologie de líinformation
et société, Le travail Humain, Behavior
and Information Technology et International Journal of
Man-Machine Studies. Diane Lanteigne
Voir la notice quíelle a jointe à líarticle
quíelle a signé seule. Claire David
Claire David est étudiante au programme de
doctorat conjoint en communication (Concordia, Montréal
et UQAM) et complète présentement une thèse
portant sur les aspects cognitifs du travail de líindexeur.
Elle síintéresse principalement au traitement humain
de líinformation et plus spécifiquement à
la résolution de problème et à líanalyse
de protocoles verbaux. |