ICO-Québec94

LES PRODUITS ET PROCESSUS COGNITIFS DE L'INDEXATION HUMAINE

Par

Suzanne Bertrand-Gastaldy, Luc Giroux, Diane Lanteigne et Claire David

Bertrand-Gastaldy, S.; Giroux, L.; Lanteigne, D.; David, C., 1994. Les produits et processus cognitifs de líindexation humaine. ICO Québec; 6(1-2); printemps 1994: 29-40.

RÉSUMÉ

Dans la perspective díaméliorer la représentation de líinformation dans les bases de données, un projet en deux volets a été conçu, centré sur líindexation. Cette opération complexe, coûteuse et, la plupart du temps, peu cohérente sera examinée sous deux facettes: díune part les processus cognitifs et les stratégies de contrôle susceptibles díexpliquer les divergences, díautre part les produits. Afin díincorporer des variations individuelles et contextuelles, líindexation sera considérée comme une situation de résolution de problème telle quíelle est couramment étudiée en psychologie cognitive. On utilisera l'analyse des protocoles verbaux concomitants à la tâche et la verbalisation consécutive sur trace, ainsi que des entrevues. Quant aux résultats de líindexation, ils seront confrontés au contenu des titres, des résumés et des textes intégraux, de façon à faire émerger les relations intertextuelles quíils entretiennent et les propriétés qui les caractérisent. Le logiciel SATO servira aux analyses statistico-linguistiques. On síattachera à dégager les tendances mais aussi les différences entre indexeurs. Finalement, on soumettra les résultats de líindexation humaine et de différentes stratégies díindexation automatique au jugement des experts pour tenter de mieux comprendre ce qui les différencie. Quelques données préliminaires illustrent les démarches envisagées et semblent prometteuses pour líinterprétation des divergences individuelles. On conclut sur la perspective díautomatiser certains éléments de la tâche díanalyse sans nuire à une subjectivité peut-être plus souhaitable que néfaste dans le processus de la communication des connaissances.

ABSTRACT

Document indexing is a complex and costly task in which inter-indexer consistency was often shown to be unsatisfactory. In view of improving, in the long term, the representation of information in databases, our research project focuses on two dimensions of indexing: the cognitive processes hypothesized to be the source of low consistency and the characteristics of the terms chosen by the indexer. In order to understand individual differences in indexing behavior, indexing is considered as problem-solving, a process well documented in cognitive psychology. Three converging methods are used to uncover cognitive aspects of indexing: verbal protocols obtained while the task is under way, explanations given by the subject while looking at the video recording of his own indexing behavior and semi-structured interviews. In order to reveal inter-textual relationships between document content and the product of indexing, titles, summaries and bodies of text of indexed documents are compared with the terms chosen by the indexers. The SATO program is used to perform these quantitative linguistic analyses. Expert indexers will eventually be asked to compare the terms chosen by human indexers with those obtained from several computerized indexing algorithms. To illustrate our methodology, preliminary results are provided which seem quite promising in explaining individual differences in indexing behavior. They are discussed in terms of the feasability of computerizing some parts of the task without loosing the human subjectivity that might well prove to be essential in this knowledge processing enterprise.

INTRODUCTION

Nous présenterons dans les pages qui suivent un programme de recherche interdisciplinaire entrepris en juin 1992 et qui réunit des chercheurs en psychologie cognitive, en communication et en sciences de líinformation autour díune problématique générale qui est celle de la représentation de líinformation dans les bases de données bibliographiques et textuelles. Il síagit évidemment díun problème crucial dans le domaine des systèmes díinformation documentaire, puisquíune représentation adéquate de líinformation stockée est la condition sine qua non pour líefficacité du repérage ultérieur par les usagers. Dans un premier temps, nos efforts se sont centrés sur líanalyse de líindexation, tâche qui consiste à examiner un document pour identifier les principaux sujets qui y sont traités, puis à lui assigner une série de descripteurs choisis dans le langage documentaire utilisé et destinés à représenter le document. Locke (1991: 194) souligne la nature complexe de líopération: [...] indexing is not a low-level task, and it becomes more complex as larger volumes of text are involved.Î. Il ajoute: In fact, the subject analysis that librarians perform [...] is strongly akin to what the AI literature calls knowledge engineering.Î. Or, nous savons bien peu de choses sur cette activité complexe et cíest pour pallier en partie cette méconnaissance que nous avons conçu notre projet de recherche.

Après une présentation générale de la problématique et des objectifs du programme, nous situerons celui-ci dans le contexte des travaux sur líindexation et líintertextualité. Pour chacun des deux volets du projet en cours, nous présenterons ensuite líapproche méthodologique mise de líavant et quelques résultats préliminaires.

1. PROBLÉMATIQUE

Notre recherche part de plusieurs constats:

1) L'explosion de la production documentaire et la part de plus en plus importante des bases de données en texte intégral par rapport à celle des bases de données bibliographiques qui se chiffrent déjà souvent en millions de références accentuent et multiplient les besoins en structuration et en repérage de l'information.

2) À part líaccès aux chaÎnes de caractères par líentremise díun fichier inversé, le mode le plus courant d'indexation et de repérage repose sur une représentation en vocabulaire contrôlé précoordonné (liste de vedettes-matière) ou postcoordonné (thésaurus de descripteurs), représentation dont les recherches montrent qu'elle est loin d'être parfaitement efficace pour l'utilisateur.

3) Les coûts entraÎnés par líindexation humaine deviennent prohibitifs au point que líon préfère síen passer, alors même que líon constate quíune indexation purement automatique néglige de nombreuses connaissances indispensables à une communication réussie. Par ailleurs, on ne connaÎt pas suffisamment les paramètres et les outils nécessaires pour modéliser une indexation efficacement assistée par ordinateur.

Ces trois constats nous amènent à conclure que líécart va grandissant entre la complexité des besoins en information et la richesse des instruments conceptuels utilisés pour la représentation et líexploitation de cette information.

2. OBJECTIFS DE RECHERCHE

2.1 OBJECTIF GÉNÉRAL

Cíest pourquoi líobjectif général et à long terme de notre programme de recherche est double:

1) Scruter de beaucoup plus près le processus par lequel líinformation textuelle est traitée puis mise en forme par les éléments humainsÎ de la chaÎne documentaire.

2) Développer des modèles formels de représentation de líinformation qui soient isomorphes à ceux des indexeurs et des utilisateurs, de façon à faciliter la précision de líindexation et líefficacité du repérage ultérieur.

Le succès de la communication médiatisée par le système d'information est tributaire des multiples modèles cognitifs qu'ont les différents éléments du système: auteurs, utilisateurs et intermédiaires (concepteurs du système, indexeurs, bibliothécaires de référence ou automatismes qui les remplacent) et des stratégies cognitives mises en jeu pour interagir entre eux. Partant de la prémisse que le succès díune fouille documentaire dépend de la qualité et de la richesse de la représentation des textes, nous centrerons nos efforts de recherche, dans une première étape, sur l'un des premiers maillons de la chaÎne documentaire, soit le processus d'indexation des documents, laissant pour une étape ultérieure líétude des processus díinterrogation. Cíest, en effet, l'occasion pour un expert humain de mettre en oeuvre sa représentation du domaine pour rendre compte du contenu du document; elle est aussi le locus où se concrétisent les contraintes imposées par le contexte de production: limites de temps, politiques et procédures díanalyse plus ou moins formalisées, langage documentaire utilisé, attentes des utilisateurs, etc. Díailleurs une des hypothèses qui guidera notre programme de recherche est que les thésaurus actuels ne sont pas adéquats, même pour une utilisation humaine.

2.2 OBJECTIFS SPÉCIFIQUES

Pour étudier líindexation, comme pour étudier la production des textes, on peut:

analyser trois types de phénomènes et leurs inter-relations:

- les conditions contextuelles dans lesquelles la production émerge,

- les processus mis en oeuvre pour réaliser la tâche langagière,

- les caractéristiques du produit langagier.Î (Piolat et Roussey, 1992: 106).

Mettant à profit la multidisciplinarité des membres de líéquipe, nous nous sommes fixé comme objectifs spécifiques de la première étape líanalyse des deux derniers phénomènes, comptant sur la méthodologie mise en oeuvre (verbalisation concomitante et consécutive sur trace, entrevues) pour obtenir des données sur les contraintes dues au contexte de production.

La première étape de notre programme de recherche, díune durée de trois ans, comporte deux volets qui correspondent aux objectifs spécifiques suivants:

1) - Examiner le processus d'indexation sous l'angle de la science cognitive avec un petit nombre de sujets afin de:

a) mettre simultanément en évidence la représentation qu'a l'indexeur du domaine et les procédures de fouille textuelle auxquelles il recourt pour appliquer sa représentation au document, puis les procédures de consultation du thésaurus pour trouver la meilleure traduction possible des concepts sélectionnés;

b) expliquer par les stratégies utilisées et les limitations du langage documentaire les différences entre líindexation humaine en vocabulaire libre et en vocabulaire contrôlé.

2) - Analyser les produits de líindexation sur un échantillon numériquement plus vaste, en particulier:

a) étudier les propriétés des termes retenus pour líindexation, entre autres par rapport à celles des termes contenus dans les titres, les résumés et les textes intégraux (ou plutôt les parties les plus informatives des textes intégraux);

b) mettre au jour díéventuelles variations entre indexeurs en ce qui concerne les propriétés des termes retenus et rejetés;

c) faire comparer différents produits díindexation automatique résultant de la variation des paramètres de sélection des termes avec les produits de líindexation humaine, pour favoriser la verbalisation des indexeurs sur les processus et contraintes díindexation en vocabulaire contrôlé et pour mieux comprendre ce qui caractérise les cheminements et les produits de líindexation humaine.

Líintérêt de la complémentarité des deux approches a déjà été exploré en partie et mis en évidence dans le projet de conception díun système expert díaide à líanalyse des jugements (Bertrand-Gastaldy, 1993; Bertrand-Gastaldy et al., 1993a et 1993b).

En somme, avec les deux volets de notre recherche, nous tentons de répondre à la question fondamentale que Coates posait en 1979: How does an indexer determine what is, or what is not, indexable?Î.

Notre étude síinscrit dans les tentatives de modélisation des intermédiaires entreprises entre autres par des chercheurs comme Belkin (1984), Brooks et al. (1986) qui, eux, se sont plutôt attachés aux tâches effectuées par les bibliothécaires de référence.

3. SITUATION DES OBJECTIFS DANS LE CADRE DES CONNAISSANCES ACTUELLES

3.1 L'ANALYSE DE L'INDEXATION

a) Indexation, cohérence et processus cognitifs

L'opération d'indexation comporte deux étapes: la première consiste à extraire le "contenu" d'un document; la seconde à le représenter par une série de mots-clés qui serviront de portes d'accès lors d'un repérage subséquent. Les mots-clés choisis peuvent être en vocabulaire libre, c'est-à-dire extraits du texte ou déterminés au gré de l'indexeur, ou encore en vocabulaire contrôlé, c'est-à-dire tirés díun ensemble prédéterminé de termes admissibles. Dans ce dernier cas, les termes peuvent être précoordonnés (on parlera de vedettes-matière tirées d'un répertoire) ou postcoordonnés (il s'agira alors de descripteurs tirés d'un thésaurus). Dans tous les cas, l'indexeur est à la recherche des thèmes ou des concepts qui seront jugés importants par les utilisateurs potentiels du système documentaire et cíest cette étape qui est la moins étudiée, comme le rappelle Albrechtsen (1993: 219):

[...] the majority of the literature on subject indexing concentrates on step two and fails to provide precise rules for realizing step one where the challenge presented is: finding the subject(s) of a document.Î

L'indexation est un maillon coûteux de la chaÎne documentaire - nous líavons déjà mentionné - car chaque document à indexer exige l'intervention d'un spécialiste qui doit y consacrer un minimum de quelques minutes et parfois jusqu'à plus d'une heure. On assiste actuellement à de nombreux travaux de recherche visant à mettre au point des méthodes d'indexation automatique, mais l'indexation humaine reste privilégiée dans la plupart des sites. L'indexeur humain peut en effet atteindre une compréhension globale du document et tenir compte des besoins variés de ses utilisateurs potentiels, ce que ne peuvent pour l'instant faire les systèmes automatiques qui se limitent à l'analyse d'indices de surface comme la fréquence d'occurrence de chaÎnes de caractères. Une telle analyse peut difficilement prendre en compte la sémantique lexicale, encore moins la sémantique de la phrase et du texte (Bertrand-Gastaldy, 1990), à moins que ce ne soit dans un domaine très restreint sur des textes très normalisés.

Malheureusement, il s'avère que l'indexation humaine est une opération imparfaite, même lorsque effectuée par des spécialistes. Une bonne indexation doit répondre à des critères d'exhaustivité, d'exactitude, de spécificité et d'objectivitéÎ, critères de validité pour lesquels on ne possède pas de mesure précise. Il est par ailleurs illusoire d'espérer qu'un indexeur peut vraiment anticiper toutes les facettes d'un texte susceptibles díintéresser ses utilisateurs. Faute de posséder de telles assurances de validité, on peut à tout le moins s'interroger sur la cohérence de l'indexation professionnelle, c'est-à-dire sur la variabilité des descripteurs attribués à un même document par différents indexeurs. De nombreux travaux ayant d'ailleurs fait l'objet de recensions (Leonard,1977; Markey, 1984) ont montré que la cohérence inter-indexeurs n'est jamais très élevée et qu'on peut y associer plusieurs facteurs.

Afin de mieux comprendre les causes de ces divergences, plusieurs (Bisseret, 1983, Bertrand-Gastaldy 1986) ont souligné la nécessité d'examiner la tâche des indexeurs sous l'angle des processus cognitifs qu'elle met en cause. C'est pourquoi on trouve dans les écrits plus récents quelques analyses de l'indexation en tant qu'activité cognitive. La plupart de ces études considèrent alors l'indexation, ou du moins sa première phase qui consiste à explorer un document et à en identifier les thèmes essentiels, comme une forme plus ou moins pure de compréhension de texte assimilable à une situation de lecture rapide avec but (Beghtol, 1986; Bertrand, 1993; Farrow, 1991; Le Roux et Monteil, 1993). On peut de la même façon considérer la phase subséquente de transposition des mots clés libres en descripteurs d'un vocabulaire contrôlé comme un processus d'énonciation ou de rédaction à la Hayes et Flower (1980), régi lui aussi par des contraintes linguistiques (lexicales, syntaxiques) et extra-linguistiques (contraintes temporelles, politiques institutionnelles d'indexation) (Bertrand-Gastaldy, 1989, 1993).

L'emprunt de ces modèles inspirés de la psychologie et de la psycholinguistique fournit des indices intéressants pour mieux comprendre les liens qui unissent le ou les textes de départ au texte d'arrivée. Mais leur utilité est plus limitée lorsqu'il s'agit de comprendre les variations individuelles. En effet, ces modèles sont avant tout procéduraux (Piolat et Roussey, 1992) et laissent peu de place aux connaissances effectivement utilisées par le sujet dans un contexte donné, de même qu'aux caractéristiques du texte à lire ou à produire ou encore aux habiletés personnelles du lecteur ou du rédacteur. Comme notre projet vise, entre autres, à expliquer des variations individuelles ou contextuelles dans l'activité d'indexation, nous avons choisi d'avoir recours à un autre cadre de référence de la psychologie cognitive, soit celui de la résolution de problème. Il ne s'agit pas d'exclure les composantes de compréhension et de production langagière de l'activité d'indexation, mais de les transformer en sous-composantes d'un processus plus général répondant plus adéquatement aux contraintes spécifiques de la tâche et du sujet in situ .

b) L'indexation comme situation de résolution de problème

Plutôt que de voir l'indexation comme une situation cognitive routinière, nous considérerons que l'indexeur doit résoudre un problème, soit celui de déterminer les thèmes traités dans un document et de produire une liste de descripteurs tirée d'un thésaurus qui peut être plus ou moins adéquat. Comme dans tout problème, le sujet part donc d'un état de connaissance initial et se déplace dans son espace-problème jusqu'à en arriver à l'état final ou solution. L'espace-problème est la représentation que se fait le sujet de la tâche, c'est-à-dire les connaissances qui sont jugées potentiellement utiles, les états possibles du problème et les opérations (cognitives ou physiques) qui permettent d'avancer d'un état à l'autre. Pour avancer dans son processus de résolution, l'indexeur doit donc sélectionner les opérations applicables au moment X. Cette sélection n'est pas aléatoire, mais dépend d'une structure de contrôle érigée par le sujet selon ses connaissances et son évaluation de l'état atteint. Les opérations peuvent dans la plupart des cas être regroupées en séquences visant l'atteinte d'un sous-but, et le problème peut être représenté à un niveau plus général comme une structure de buts et de sous-buts dont la nature et les conditions d'atteinte sont sous le contrôle du sujet. On trouvera chez David (1990) une présentation plus détaillée de cette question, mais soulignons que cette approche en termes de résolution de problème nous semble posséder des avantages tant théoriques que méthodologiques.

Au plan théorique et comme nous l'avons souligné plus haut, ces modèles permettent d'incorporer des variations individuelles (connaissances, critères de prises de décisions, stratégies) et contextuelles (nature du texte, politiques institutionnelles, temps imparti pour la tâche) que ne prennent pas en compte les modèles génériques comme celui de la compréhension de texte. On pourra donc tenter de modéliser plus facilement les variations dans l'indexat obtenu, mais aussi díincorporer des variables ultérieurement formalisables pour l'indexation automatique.

Au plan méthodologique, la résolution de problème bénéficie d'une tradition de recherche déjà longue, puisqu'elle est au coeur des travaux ayant donné naissance à la psychologie cognitive contemporaine (Newell et Simon, 1972). On pourra en particulier avoir recours à l'analyse des protocoles verbaux concomitants à la tâche et à la verbalisation consécutive sur trace, dont il sera question plus loin.

3.2 LES CARACTÉRISTIQUES D'UN BON TERME D'INDEXATION, DANS UNE PERSPECTIVE D'INTERTEXTUALITÉ

Étant donné la finalité de líindexation, les mots-clés choisis se trouvent toujours dans une position díintertextualité avec le texte analysé et, le cas échéant, avec le résumé de même quíavec líoutil documentaire utilisé pour convertir le vocabulaire libre en vocabulaire contrôlé: One set of intertextual relationships exists between a work, its various derivative texts such as its summary or abstract and its expression in a documentation language.Î (Begthol, 1986: 97). Beacco et Darot (1984: 107) ont noté également que les résumés ont pour caractéristique d'être produits à partir d'autres textes, d'en rendre compte et d'y renvoyerÎ, díentretenir une relation de paraphrase avec les textes primaires; ils ont en commun que l'intertextualité fait partie de leurs conditions d'élaborationÎ affirment-ils.

a) Les liens entre textes primaires, résumés et termes díindexation

Il est plus difficile díévaluer líinterdépendance entre les résumés et les termes díindexation car elle dépend des politiques et des procédures díanalyse du service díinformation. Or, díaprès les quelques publications sur le sujet, il níexiste pas de consensus (Fidel, 1986).

Pour les uns, les résumés sont conçus comme un réservoir de termes pour líindexation. À ce titre, ils peuvent soit fournir des équivalents en vocabulaire libre qui constituent alors des clés díaccès supplémentaires correspondant à une terminologie plus à jour (Tibbo, 1992) et qui offrent la possibilité de rendre compte de nouveaux concepts (Cleveland et Cleveland, 1990: 160), soit mettre en contexte les mots-clés contrôlés de líindexation (Bliss, 1988 et Salager-Mayer, 1991), à tel point quíune liste de mots clés devient inutile: Some publishers omit a list of descriptors on the ground that the user would be better served by reading an abstract that include descriptors as part of sentences, rather than guessing at the meaning [...] of words out of context.Î (Borko et Bernier, 1975: 67). On considère alors que líindexation et la condensation procèdent du même genre díactivité mentale et que líattribution des mots clés passe par la rédaction préalable du résumé:

[...] it is a small step from the conceptual analysis stage of indexing to the preparation of an acceptable abstract. Morevover, the additional discipline involved in writing the abstract can help in deciding what should be covered in the indexing and what can be omitted. The fact that some combination of reading and skimming is involved in both activities is another reason why it is efficient to combine them in a single individual whenever it is practical to do so.Î (Lancaster, 1991: 105)

Pour díautres, la rédaction des indexats et des résumés requiert des habiletés différentes et doit être confiée à des personnes différentes (Tenopir et Jacso, 1992). Cela correspond à une tendance de plus en plus fréquente, si líon en croit Bliss (1988), Milas-Bracovic et Zajec (1989), Salager-Mayer, (1991), Tenopir et Jacso (1992). On ne sait alors pas trop si les mots-clés de líindexation sont tirés seulement du résumé ou bien si les indexeurs recourent aussi au texte primaire, de sorte que le cheminement peut varier ainsi: texte--> résumé --> indexat ou texte --> résumé et texte --> indexat.

Donc, lorsquíil existe des résumés, on ne sait pas toujours dans quelle mesure ni comment ils sont utilisés par les indexeurs. Il est par conséquent difficile de qualifier le degré díintertextualité qui existe entre les deux types de substituts du texte primaire díune part, entre le texte primaire et les termes díindexation díautre part. Il est également impossible de prévoir les performances pour le repérage díune indexation automatique dérivée des résumés par rapport à une indexation effectuée à partir du texte intégral ou de ses parties les plus informatives. Pour élucider la question, il faudrait non seulement observer le comportement des indexeurs disposant díun résumé (produit par eux-mêmes et par un tiers) et díindexeurs níayant pas accès au résumé, mais aussi essayer de savoir quelles propriétés caractérisent les termes présents dans les textes et/ou dans les résumés retenus pour líindexation, en vertu de quelles inférences des termes absents des textes de départ et/ou des textes intermédiaires sont assignés par les indexeurs.

b) Quelques études reposant sur le principe díintertextualité

Díailleurs líinterdépendance entre le texte et les termes d'indexation n'est pas fréquemment étudiée, comme le faisait remarquer Jones en 1983.

Plusieurs chercheurs en sciences de l'information ont pris pour acquis qu'il existe une relation entre la capacité d'un mot à être choisi comme terme d'indexation (son "indexability") et sa fréquence et, par conséquent, que les progrès de l'indexation automatique passent par le raffinement des modèles statistiques. Une autre propriété a fait líobjet de plusieurs évaluations: la position dans le texte et les paragraphes. Malheureusement les résultats ne permettent pas de dégager une unanimité díautant plus que les types de textes sur lesquels les études ont été menées sont très disparates et que líindexation humaine qui a servi de pôle díobservation síest effectuée dans des contextes encore plus variés: on examine tantôt líindexation fine qui a pour but de produire un index imprimé de livre, tantôt líindexation relativement superficielle destinée à faciliter le repérage des documents dans une base de données bibliographiques. Nous ne rappellerons ici que quelques études à titre díillustration sans tendre à líexhaustivité.

Si les quatre expériences menées par Aslib Informatics Group et rapportées par Jones (1983) montrent qu'il y a effectivement un lien entre la fréquence et l'"indexability"; on leur a malheureusement reproché díêtre dénuées de rigueur scientifique. Weinberg (1981), pour sa part, n'a pas pu trouver de relation significative entre ces deux caractéristiques. Quant aux hypothèses de Grunberger (1985) sur la fréquence et la position des termes dans un corpus de monographies en sciences humaines et sociales dotées díun index imprimé, elles ont toutes deux été infirmées. Bertrand (1993) síest, elle aussi, demandé si la sélection díun concept était liée à sa présence et à sa répétition dans certaines parties de líouvrage (il síagissait díune indexation destinée à un catalogue de bibliothèque). Voici ses conclusions:

Líanalyse de líoccurrence dans líouvrage des concepts sélectionnés nous a permis de conforter líhypothèse selon laquelle líopérateur utilise des indices structuraux relatifs à la présence du mot dans certaines parties de líouvrage et à sa répétition pour juger de sa pertinence. Notamment, nous avons montré quíun mot figurant dans le titre a, de façon générale, une forte probabilité díêtre sélectionné. De même, sa présence dans les grands titres de la table des matières augmente de façon non négligeable sa probabilité díêtre sélectionné. Ces analyses ont aussi indiqué que le pouvoir explicatif du titre est díautant plus fort que les opérateurs sont débutants [...].Î (Bertrand, 1993: 170).

OíConnor (1965) ne síest pas contenté des deux paramètres habituels pour essayer de formuler des règles díindexation automatique. En síattachant uniquement à líindexation de deux notions (toxicité et pénicilline ), il a observé la façon dont elles ont été exprimées dans les indexats, les résumés et les parties informatives díarticles scientifiques en biomédecine díun corpus de textes déjà indexés dans une base de données bibliographiques par des indexeurs humains. Il a considéré non seulement les formes lexicales normalisées du thésaurus, mais aussi leurs variantes morphologiques et les formes tronquées, les regroupements de descripteurs et non-descripteurs formés par les relations thésaurales, la co-présence dans certaines conditions de termes exprimant les substances et les affections ainsi que de certains connecteurs. Ses observations ont tenu compte de líemplacement des unités lexicales dans la macro-structure et la micro-structure (par exemple, première phrase du premier paragraphe), de la fréquence relative díoccurrence, de la centralité syntaxiqueÎ. Il a tenté díévaluer líadéquation des résultats produits par les différentes règles díindexation ainsi que la surassignation par les procédures automatiques par rapport à líindexation humaine. Líauteur a estimé quíil ne pouvait pas dégager de conclusions générales, mais son expérience montre bien líimportance de ne pas se fier uniquement aux termes exprimant la notion et de prendre en considération différents phénomènes linguistiques.

Devant líéchec de la vérification de ses hypothèses, Grunberger a justement proposé de tenir compte de ces phénomènes qui caractérisent la langue écrite (les niveaux macro-textuel et micro-textuel, les anaphores et les déictiques, entre autres) ainsi que des processus cognitifs à l'oeuvre dans la sélection des termes d'indexation (associant donc les deux volets que nous avons retenus dans notre démarche). Il a incité à explorer les théories de la psychologie cognitive et les théories de la décision, car, selon lui, bien que l'indexation automatique n'ait pas à mimer les mécanismes de l'indexation humaine, elle profiterait certainement d'une meilleure compréhension des stratégies humaines d'analyse:

"While machines may not need to mimic humans to do effective indexing, clearly an understanding of how humans index might assist in formulating machine indexing algorithms. [..] clearly, we do not know enough about how humans index; consequently, we have been unable to describe this vital process for the machine." (Grunberger, 1985: 97)

c) La prise en compte des phénomènes linguistiques

Les phénomènes linguistiques des textes sources sont rarement étudiés en sciences de l'information comme facteurs explicatifs des failles au niveau du taux de rappel et de précision. Líanaphore a cependant fait l'objet de quelques études récentes (Bonzi, 1991; Liddy, 1990; Liddy et al., 1987). quant aux déictiques, ils ont peu retenu l'attention. Debili (1982) a cependant proposé un analyseur lexico-sémantique pour faire face à la synonymie phrastique et des systèmes comme SPIRIT la résolvent en partie. Quant aux conditions de production et aux divergences qu'elles engendrent dans les représentations secondaires, elles ne font l'objet que d'allusions et ne semblent pas avoir donné lieu à des expérimentations systématiques. De son côté, Bourcier (1979) a montré comment les systèmes informatiques qui prennent la langue comme code sont incapables de donner accès à l'implicite:

Le document de base doit contenir et exprimer toute l'information. Or si le texte original contient toute l'information, il ne l'exprime pas toute. Il existe donc un écart entre ce qui est "contenu" et ce qui est "exprimé".Î (Bourcier, 1979: 14)

Le Roux et Monteil (1993) se proposent de distinguer, dans líactivité résumante, les règles de sélection liées à líémetteur et celles qui sont liées au récepteur. Les premières détectent les traces de líintention de communication analysables par le linguiste (il síagit des marqueurs du signifiant inscrits dans la structuration macrotextuelle, textuelle et intratextuelle ainsi que des marqueurs du signifié permettant de sélectionner les noyaux formant le squelette informatif du texte après repérage et élimination des informations satellites appelées catalyses). Les secondes sont liées au profil de líutilisateur (il les exprime en mots-clés dans ses stratégies de recherche) et de líunité administrative à laquelle il est rattaché.

Pour líextraction díun vocabulaire représentatif de domaine, Bertrand-Gastaldy et Pagola (1992a et 1992b) ont mis au point une méthode qui tient compte díun faisceau díindices susceptibles díindiquer líimportance de ces termes du point de vue des auteurs: ainsi des indicateurs typographiques (gras, soulignés, etc.), structurels (position dans la macro-structure), discursifs (définitions), statistiques (valeur discriminante), etc. Cette même stratégie a été augmentée, dans le projet de système expert díaide à líanalyse des jugements, díindicateurs fournis par les conseillers juridiques au cours des entrevues.

d) La prise en compte des processus cognitifs

Les recherches récentes sur les processus cognitifs peuvent síavérer utiles dans le cadre de líanalyse de líintertextualité dans la mesure où elles permettent la formulation díhypothèses sur les éléments textuels examinés et sélectionnés par les rédacteurs de résumés et les indexeurs. Cíest ainsi que, díaprès Farrow (1991), qui n'a cependant pas effectué d'expérimentation, les lecteurs rapides avec but, comme les indexeurs, opèrent en même temps au niveau perceptif et au niveau conceptuel, parcourent le texte de façon sélective et recherchent des indices bien précis: certains sont purement typographiques (mots en italiques, titres, sous-titres, début ou fin de paragraphe), beaucoup sont lexicaux (des mots fréquents, par exemple, dont certains déclenchent l'activation des autres mots du réseau), d'autres sont structuraux: mots ou expressions marquant l'introduction ou la conclusion. D'après Endres-Niggemeyer (1990) - qui nía examiné quíun seul sujet analysant onze documents - les analystes recherchent des marques physiques explicites, des définitions, des exemples mais aussi sans doute des marques implicites et vérifient la première et la dernière phrase des paragraphes qui contiennent habituellement des éléments sémantiques importants ainsi que des éléments contenant des termes exprimant le thème de la discussion.

Aucun auteur n'étudie l'influence des outils documentaires sur le texte reconstruit, bien que Beghtol (1986) la mentionne. On sait pourtant qu'ils peuvent avoir un effet néfaste sur la fidélité de l'indexation. Les reproches adressés sporadiquement aux thésaurus pendant les deux décennies précédentes se font de plus en plus nombreux. Plusieurs suggestions ont été formulées récemment pour améliorer cette représentation très grossière du monde et en proposer divers enrichissements: ajout de termes d'entrée (Kristensen et JÄrvelin, 1990; Rada et al., 1988), étiquetage précis des relations autres que hiérarchiques (Rada et al., 1991), bref, transformation du thésaurus en véritable base de connaissances (Molholt et Goldbogen, 1990). L'efficacité de ces enrichissements a été testée sur le repérage assisté par ordinateur (les stratégies de recherche sont formulées par líutilisateur) ou entièrement automatique (les reformulations de stratégies sont prises en charge par líordinateur), mais pas sur la représentation des textes ni sur les interactions des indexeurs avec les textes et le thésaurus enrichi. On a mesuré la distance entre les documents signalés et les questions, mais pas entre les documents et leur indexation, bien que l'on souligne le double rôle du thésaurus pour le décodage et l'encodage (Reich et Biever, 1991).

4. APPROCHE MÉTHODOLOGIQUE ET RÉSULTATS PRÉLIMINAIRES

Conformément au double objectif d'analyser le processus et le produit de l'indexation, l'approche méthodologique adoptée pour ce projet emprunte deux voies: la cueillette de protocoles verbaux pour l'analyse cognitive et le traitement statistico-linguistique pour l'analyse de l'intertextualité. Étant donné que la collecte de données va commencer pour le premier volet, nous serons moins spécifiques que pour le second, actuellement plus avancé.

4.1 L'ANALYSE COGNITIVE DU PROCESSUS D'INDEXATION: VERBALISATIONS CONCOMITANTES, VERBALISATIONS CONSÉCUTIVES ET DONNÉES D'ENTREVUES.

a) Approche méthodologique

On trouve peu d'études qui se soient penchées sur la tâche d'indexation prise comme un processus à modéliser. Beghtol (1986) et Farrow (1991) proposent bien un modèle de cette tâche, mais sans s'appuyer sur une expérimentation. Quelques chercheurs ont utilisé l'analyse des verbalisations pour décrire et expliquer le processus d'indexation (Tomonori, 1983; Endres-Niggemeyer, 1990; Bertrand, 1993), mais se sont toutefois limités à l'analyse des verbalisations dites concomitantes, c'est-à-dire obtenues pendant que l'indexeur effectue son travail. En plus de cette première méthode, nous proposons de faire converger deux autres instruments fondés eux aussi sur les verbalisations du sujet.

En psychologie de la résolution de problème, l'analyse de protocoles verbaux est depuis une vingtaine d'années devenue une méthode de recherche privilégiée. L'approche en résolution de problème suppose en effet que dans une telle situation le sujet ne peut avoir recours uniquement à des automatismes et qu'il doit consciemment construire une représentation de la situation et élaborer des stratégies. Dès lors, il sera possible d'accéder à ces processus puisqu'ils sont au moins partiellement conscients et sous le contrôle de l'individu. La procédure la plus fréquemment utilisée est celle des verbalisations concomitantes, où le sujet a pour consigne de verbaliser sa pensée pendant l'exécution de la tâche. Le sujet est le plus souvent filmé, ce qui permet de conjuguer l'analyse des actions à celle des verbalisations. Précisons que la verbalisation en question ne vise pas à recueillir l'interprétation faite par le sujet de ses processus, mais à accéder directement au contenu de sa mémoire de travail sans interférer avec la tâche (Newell et Simon, 1972; Ericsson et Simon, 1980, 1984). C'est sur la nature "brute" des données obtenues que repose la validité des verbalisations concomitantes par rapport à l'introspection simple.

Prise seule, la verbalisation concomitante impose toutefois des limites sévères à l'analyste, particulièrement lorsque la tâche à l'étude repose sur une expertise et des contraintes externes non immédiatement visibles au moment de résoudre la tâche. C'est pourquoi certains chercheurs, en particulier en psychologie du travail, ont de plus recours à la verbalisation consécutive sur trace (Caverni, 1988; Hoc et Leplat, 1983), qui consiste à faire visionner au sujet la trace (en l'occurrence l'enregistrement vidéo) de son propre comportement tout en l'interrogeant au besoin sur son interprétation des processus en cours. L'analyste a alors accès à tout un autre ensemble de données dont la validité peut au moins partiellement être évaluée en regard des données brutes du protocole concomitant. Elles lui permettent de conforter les inférences qu'il devrait faire seul à partir du protocole concomitant (quel est le but poursuivi au moment X? pourquoi tel terme est-il rejeté?), mais aussi de se voir décrire certaines stratégies globales ou paramètres pris en compte par le sujet et qui ne sont pas forcément (voire rarement) verbalisés.

A ces deux premières sources de données, nous en adjoindrons une troisième, plus classique, qui consiste essentiellement à effectuer des entrevues avec les indexeurs dans le but de les interroger non pas sur une situation ponctuelle, mais sur leur processus de travail habituel: normes respectées, prise en compte des usagers, stratégies favorisées, etc. Curieusement, cette source simple et directe d'accès au travail des indexeurs n'a que rarement été utilisée, alors qu'elle peut s'avérer très fructueuse (Bertrand-Gastaldy et al., 1992, 1993a). Notre objectif est de faire converger cette méthode avec les deux précédentes pour obtenir un éventail de données qui va de données brutes et ponctuelles à des interprétations plus générales qui tiennent de la métacognition, l'ensemble devant permettre de cerner l'indexation à la fois dans sa structure générale et dans ses variations individuelles. À notre connaissance, la tâche d'indexation n'a jamais encore été examinée sous ces trois angles simultanés.

b) Quelques résultats préliminaires sur les observations díindexeurs

Notre objectif n'est pas de présenter ici des résultats définitifs, mais plutôt d'exposer quelques données préliminaires afin d'illustrer et de montrer la pertinence de l'approche méthodologique que nous avons mise de l'avant. Les données qui suivent proviennent d'une expérimentation antérieure au projet actuel, menée en parallèle avec une équipe française (Bertrand et al., 1990; David, 1990; David et al., 1991; Bertrand, 1993). Il s'agissait, d'une part, de mettre au point un système de notation permettant de répertorier les opérations (lecture, classification, rappel en mémoire, évaluation, écriture, etc.) et les objets "manipulés" (portions du document, concept, vedettes-matière, etc.) afin de pouvoir décrire systématiquement les protocoles obtenus. D'autre part, nous désirions tester l'efficacité de faire produire en premier lieu une liste de concepts en vocabulaire libre issus de l'examen du document, puis la liste finale des vedettes-matière sélectionnées après consultation du répertoire. Cette manipulation des listes produites visait à mesurer la représentation initiale et à l'isoler de l'indexat final, afin de mieux faire ressortir les contraintes liées à l'utilisation du vocabulaire contrôlé.

Deux indexeurs professionnels ont procédé à l'indexation des six mêmes documents en situation de verbalisation concomitante. A titre d'illustration, le tableau 1 présente les concepts en vocabulaire libre ainsi que les vedettes-matière finalement retenues pour un document d'économie intitulé "Environnement international et gestion de l'exportation" pour les deux sujets S1 et S2. Précisons que S1 est spécialisé dans l'indexation des documents en économie, et S2 est spécialisé dans l'indexation des documents en psychologie, donc non spécialiste pour ce document.

Tableau 1

Résultat de l'indexation: Concepts retenus et vedettes-matière pour les sujets S1 et S2.

S1 spécialiste S2 non spécialiste

Concepts gestion d'entreprise environnement international

retenus exportation exportation

commerce international commerce international

commerce extérieur commerce extérieur

Vedettes- 1-Gestion d'entreprise 1-France-commerce

matière 2-Exportation 2-Environnement-France

3-Commerce international

Ces résultats montrent clairement la pertinence de dissocier les concepts en vocabulaire libre des vedettes-matière. Les listes de concepts de S1 et S2 sont très similaires: trois concepts sur quatre sont identiques. Par contre, il n'y a aucun recouvrement entre leurs listes de vedettes-matière. Cette divergence entre listes premières et finales semble attribuable à S2 (non-spécialiste), qui a modifié considérablement ses choix lors du passage aux vedettes-matière. Les protocoles verbaux sont très révélateurs des cheminements cognitifs qui ont mené à ces choix.

Il apparaÎt que S1 possède une représentation approfondie du domaine qui lui permet dès le début de son exploration du document de distinguer les concepts importants de ceux qui le sont moins et de reconnaÎtre également les notions implicites (non écrites dans le texte) devant être mentionnées (pour S1, la notion implicite de gestion d'entreprise sera retenue à la première étape et prendra le statut de vedette principale). S1 regarde le titre, retient la notion de gestion de l'exportation comme significative et par le fait même juge le concept d'environnement international non représentatif. Le terme gestion de l'exportation est très explicite.Î Évidemment, gestion de l'exportation, il s'agit là de la façon de procéder de l'entreprise dans le commerce international.Î alors, il y a aussi, évidemment gestion d'entreprise comme concept là. Sans dire que gestion d'entreprise est le premier concept de l'ouvrage, je l'inscris.Î

De plus, S1 connaÎt bien les vedettes-matière liées à l'économie dans le thésaurus et il est clair que cette expertise le guide dès son identification des concepts, puisque chacun des concepts retenus est aussi un vedettes-matière du thésaurus. La seule modification que S1 apportera à sa liste de concepts est d'écarter la vedette commerce extérieurÎ, car le thésaurus indique un renvoi de ce terme à commerce internationalÎ que S1 choisit alors de retenir.

Les deux indexeurs semblent avoir tiré pour l'essentiel les mêmes notions sémantiques de leur examen du document mais S2, qui n'est pas spécialiste, suivra par la suite un cheminement assez différent. Il se fie moins à son propre jugement et est plus fortement influencé par la structure de surface du document. De son propre aveu, il se sent tenu de respecter les termes choisis par l'auteur et retient comme concept primordial environnement international, bien qu'il mentionne clairement: D'après moi, il s'agit plus de commerce; le sujet c'est le commerce extérieur (...) mais étant donné que dans le titre on en parle spécifiquement, ça veut dire que pour l'auteur c'est un élément important.Î Sa moins grande familiarité avec le domaine, doublée surtout de la méconnaissance des termes correspondants du thésaurus, le mèneront à se laisser entraÎner vers ce qui semble un détournement considérable par rapport à son analyse initiale. En consultant le thésaurus, S2 constate que le terme environnement international n'est pas une vedette et choisit la forme lexicale autorisée la plus proche dans líordre alphabétique, soit environnement, à laquelle il doit ajouter une subdivision géographique (France). Il n'est pas vraiment satisfait du compromis effectué afin de pouvoir exprimer la notion d'environnement international, il lui attribue la subdivision France et l'utilise également pour la vedette commerce. Cette double mention du mot France dans sa liste de vedettes-matière s'explique par l'impression chez S2 de devoir attribuer une subdivision géographique au terme commerce lors de la lecture des notes explicatives dans les répertoires de vedettes-matière. Les indications du thésaurus sont donc interprétées fort différemment par S1 et S2.

Les résultats présentés ici résultent de l'indexation d'un seul document par deux professionnels et ne sauraient pour l'instant être généralisés. Il témoignent cependant assez bien de l'intérêt d'une méthode qui analyse beaucoup plus finement ce qui guide les indexeurs dans leur cheminement et ce qui détermine la séquence des décisions qui mène à choisir l'un ou l'autre terme.

Dans le cadre des travaux en cours, nous poursuivrons la collecte des données auprès de deux groupes díindexeurs: experts ayant plusieurs années díexpérience en indexation et spécialistes du domaine des documents environnementaux, novices (étudiants) ayant suivi un cours sur líindexation, mais sans expérience pratique du travail professionnel. Tous les sujets des deux groupes devront indexer les quatre mêmes documents en travaillant successivement avec deux thésaurus dont líun sera le thésaurus utilisé quotidiennement par le groupe díexperts. Protocoles verbaux concomitants et consécutifs seront recueillis pour chaque indexation et le sujet devra produire une liste de concepts (exprimés en vocabulaire libre), puis une liste finale de descripteurs (vocabulaire contrôlé). Poursuivant les travaux de Bertrand (1993) qui a mis en évidence certaines stratégies caractérisant indexeurs experts et novices et montré que la stratégie experte est fortement guidée par les connaissances préalables de líindexeur, nous examinerons en particulier le rôle de la familiarité avec le thésaurus et les contraintes imposées par celui-ci dès le premier examen du document par líexpert.

4.2 EXAMEN DES PRODUITS DE L'INDEXATION

a) Méthodologie suivie

ï Examen díun grand nombre díindexations

- Les données

Pour líétude des produits de líindexation, nous avons choisi une base de données bibliographiques en environnement dont une portion nous a été généreusement prêtée par líorganisme auteur. Il síagit díEnvirodoq produite par le centre de documentation du Ministère de líEnvironnement du Québec. Elle répertorie plusieurs types de documents: congrès, exposés de congrès, études contractuelles, mémoires, rapports publiés et manuscrits, ouvrages usuels, etc. Líanalyse du contenu consiste díabord en líattribution díune ou plusieurs rubriques de classement (le plan de classement en contient 23 comme: Eau douce, Eau salée, Aménagement, Aménagement hydrique, Aménagement linéaire, Aménagement ponctuel, Pollution, Pollution eau, Pollution air, Qualité de vie, Ressource naturelle, Généralités, Flore, Faune, Socioéconomie, Terre, etc.- elles-mêmes subdivisées en sous-rubriques - ). Puis viennent la rédaction díun résumé (résumé surtout indicatif, mais aussi indicatif-informatif et assez souvent simple annotation), líindexation (descripteurs principaux, descripteurs secondaires, candidats-descripteurs, identificateurs géographiques). Le bordereau comporte au maximum 39 champs, dont cinq sont obligatoires. Pour la mise au jour des grandes tendances, nous avons retenu un sous-corpus de 833 notices produites entre le 1er janvier 1991 et le 22 juin 1992 (1,2 mégabytes).

Nous disposons également díune version ordinolingue du plan de classification et du thésaurus: celui-ci contient 1443 descripteurs; à ce nombre il faut ajouter 87 termes utilisés dans les zones díindexation de notre échantillon mais non répertoriés dans la version que nous avons utilisée et 209 candidats-descripteurs (soit un total de 1745).

- Les traitements effectués sur le sous-corpus

Divers pré-traitements et traitements ont été effectués avec líéditeur PE et le logiciel SATO (Daoust, 1992). Nous avons procédé selon une méthodologie mise au point dans ses grandes lignes dans un projet qui avait débuté peu de temps auparavant (Bertrand-Gastaldy et al., 1993) et, depuis, nous poussons plus loin la mise au point des stratégies et algorithmes.

Les pré-traitements visent à normaliser le matériau linguistique sur lequel nous voulons travailler. Ils incluent les corrections orthographiques, líélimination de certaines zones des notices pour ne conserver que celles qui sont utiles pour líétude (domaine, titre, résumé, indexation), mise en équivalence de la forme contrôlée des rubriques de domaines, des descripteurs, candidats-descripteurs, etc. (en général les prépositions ont été supprimées: abondance nourriture, approvisionnement eau ) avec la forme correspondante en langage naturel dans les titres et résumés (analyse de líeau, approvisionnement en eau, approvisionnement díeau ), désambiguïsation des majuscules et de certains caractères de ponctuation, comme le tiret, le point díabréviation et de fin de phrase. Le thésaurus, lui aussi transformé pour être admissible à SATO, síest vu augmenté des variantes flexionnelles, des radicaux et des variantes syntaxiques des termes complexes.

Voici un exemple de notice telle quíelle est enregistrée dans la base de données ENVIRODOQ, avec les identificateurs de champs:

SB : E #TI : CUDX CAT : FV DP : 1973 CRE : 911001

LA : FRE DT : R

NO : EN010343 QQEN

TI : Étude sur modèle réduit : pont de líautoroute de Liesse (rivières des Prairies), LHL-584.

SO : [s.l.] : Régis Trudeau & Associés : Ministère des transports, 1973.

CO : 20 f. : 19 ill. ; 4 réf. ; 2 ca.

CH : Aménagement hydrique

AU : Hausser, R.

Boivin, R.

AF : Laboratoire hydraulique LaSalle.

DE1 : Étude sur modèle

Pont

Modèle hydraulique

DE2 : Écoulement

Glace

Embâcle

Rugosité

Érosion

GEO : Prairies rivière des

DR : 62

SNRC : 31H11

QBA : 0433

RA : 06

MRC : 065

AB : La première partie du rapport décrit le modèle réduit hydraulique proposé et rappelle les notions de similitude qui sous-tendent líétude expérimentale. Líétude expérimentale elle-même est présentée dans la deuxième partie. On y compare les conditions díécoulement actuelles avec celles quíentraÎnerait la construction du pont. La troisième partie évalue la poussée des glaces sur les piles du pont à partir des données de líétude expérimentale. La dernière partie, qui nía pas de lien direct avec líétude expérimentale, contient des indications sur les profondeurs maximales díérosion des fonds mobiles autour des piles en rivière.

Une fois les notices épurées des champs inutiles pour notre étude, plusieurs propriétés sont ajoutées de façon automatique aux éléments textuels et lexicaux de façon à permettre les comparaisons entre termes présents dans les textes sources et les résumés díune part et termes díindexation. Ces propriétés font appel aux multiples connaissances nécessaires à líinterprétation des productions textuelles: linguistiques, sémantiques, pragmatiques (et aussi typographiques lorsque nous passerons aux textes primaires). Elles peuvent aussi résulter de traitements statistiques effectués par SATO ou par díautres analyseurs. Elles sont choisies en fonction des hypothèses que nous voulons vérifier et peuvent être modifiées à tout moment.

Les traitements effectués pour étudier certaines caractéristiques des termes díindexation choisis par les indexeurs ont porté díabord sur les descripteurs contenus dans le thésaurus (les non-descripteurs níont pas encore été pris en compte non plus que les identificateurs géographiques) et les candidats-descripteurs tels quels, puis sur leurs variantes morphologiques. Nous nous proposons díétudier ensuite les radicaux, notamment pour détecter les paraphrases des termes complexes.

Chacune des occurrences de ces unités lexicales a été “marquée” par une valeur de propriété indiquant sa présence ou son absence dans les zones retenues: présence dans le titre seulement, présence dans le titre et le résumé seulement, présence dans le titre, le résumé et la zone des descripteurs principaux, etc., présence dans la zone des descripteurs principaux seulement, présence dans la zone descripteurs secondaires seulement. Ces marques ont permis díobserver les caractéristiques de fréquence, de position et díindice discriminant:

- des termes présents dans les zones titre et résumé et retenus dans les zones díindexation

- des termes présents dans les zones titre et résumé et non retenus dans les zones díindexation

- des termes absents des zones titre et résumé et assignés dans les zones díindexation.

Voici un exemple de notice dans laquelle apparaissent les valeurs de différentes propriétés textuelles ou lexicales attribuées (nous avons souligné les valeurs correspondant à la présence):

*page=CUDX/1

*marque=nil*ordre=nil Fv*zone=cat R*zone=dt

*zone=ti Étude_sur_modèle*marque=titdp réduit : pont*marque=tiresdp de líautoroute*marque=titseul de Liesse (rivières*marque=tiresseul des Prairies), Lhl-584.

Aménagement_hydrique*zone=ch

*zone=af Laboratoire hydraulique Lasalle.

*zone=de1 Étude_sur_modèle*marque=titdp Pont*marque=tiresdp Modèle_hydraulique*marque=dpseul

*zone=de2*marque=resds Écoulement Glace *marque=dsseul Embâcle Rugosité Érosion*marque=resds

*marque=nil rivière_des_Prairies*zone=geo

*zone=ab*ordre=pr La première partie du rapport décrit le modèle réduit hydraulique*marque=resseul proposé et rappelle les notions de similitude qui sous-tendent líétude expérimentale. *ordre=deu Líétude expérimentale elle--même est présentée dans la deuxième partie. *ordre=au On y compare les conditions díécoulement*marque=resds actuelles avec celles quíentraÎnerait la construction*marque=resseul du pont*marque=tiresdp.*ordre=ad La troisième partie évalue la poussée des glaces*marque=resds sur les piles du pont*marque=tiresdp à partir des données de líétude expérimentale. *ordre=de La dernière partie, qui nía pas de lien direct avec líétude expérimentale, contient des indications sur les profondeurs maximales díérosion*marque=resds des fonds mobiles autour des piles en rivière*marque=tiresseul. @zone=nil*ordre=nil.

Bien sûr, la lisibilité díun texte ainsi catégorisé est très mauvaise, mais les possibilités díexploitation sont très grandes par rapport à un texte composé uniquement de chaÎnes de caractères non marquées. On remarque que:

- les indicateurs de zones ont été transformés automatiquement en valeurs de la propriété zone;

- dans chaque terme complexe répertorié dans le thésaurus, le caractère blanc a été remplacé automatiquement par un caractère de soulignement de façon à ce quíil soit reconnu comme une seule unité lexicale (étude_sur_modèle );

- les tirets unificateurs ont été doublés automatiquement (elle--même );

- les phrases ont reçu une valeur de propriété ordre (pr pour première, deu pour deuxième, au pour autre, ad pour avant-dernière et de pour dernière);

- les valeurs suivantes de la propriété marque ont été attribuées dans líexemple: titseul:: titre seulement, titdp : titre et descripteur principal, tiresdp : titre, résumé et descripteur principal, tiresseul : titre et résumé seulement, dpseul : descripteur principal seulement, dsseul : descripteur secondaire seulement, resds : résumé et descripteur secondaire, resseul : résumé seulement.

Plus tard, nous étudierons les termes du domaine, quíils soient ou non répertoriés dans le thésaurus (leur relevé est presque terminé), de façon notamment à pouvoir comparer une indexation automatique en vocabulaire libre et en vocabulaire contrôlé.

- Les observations sur les grandes tendances de líindexation

Dans un premier temps, notre étude des grandes tendances de líindexation síest appuyée sur des hypothèses concernant les relations entre le résumé et les termes díindexation, hypothèses inspirées des études antérieures dont nous avons fait état plus haut et des directives que líon trouve dans certains manuels ou normes díanalyse (il faut remarquer que le centre de documentation qui produit Envirodoq ne dispose pas díun manuel de politiques et procédures díanalyse). Nous ne pouvons pas les énumérer toutes ici et nous renvoyons le lecteur aux résultats préliminaires que nous donnons plus bas. En gros, elles concernent la fréquence, la valeur discriminante, la position dans la structure du résumé, líappartenance au domaine dans lequel le texte a été classé, les relations sémantiques entretenues avec díautres descripteurs du thésaurus. Nous y ajouterons sans doute la position thématique ou rhématique dans la phrase et la prise en compte de certaines paraphrases. Si le temps le permet, nous nous inspirerons des recherches de Le Roux et Monteil (1993) pour détecter les noyaux et les catalyses.

Nous prévoyons étendre nos observations aux textes intégraux. Les détails de cette expérimentation ne sont pas encore arrêtés, mais étant donné le volume des informations à traiter, nous devrons sans doute nous limiter à certains types de documents et aux parties réputées les plus informatives de ceux-ci. Nous pourrons ainsi mieux évaluer les interrelations entre les textes primaires et les termes díindexation ainsi quíentre ces mêmes textes et les résumés, plutôt que de nous contenter des interrelations entre résumés et indexats. Díailleurs, líenquête cognitive apportera sans doute, comme dans le cas du projet de système expert díaide à líanalyse des jugements (Bertrand-Gastaldy et al., 1993a), plusieurs indications sur les caractéristiques des éléments textuels, lexicaux en particulier, recherchés par les indexeurs au cours de leur prise de connaissance rapide des textes et nous pourrons retourner au corpus pour vérifier avec quelle constance ces caractéristiques sont retenues.

- Les différences inter-indexeurs

Nous cherchons également à vérifier si les tendances découvertes se vérifient pour tous les indexeurs, donc si elles sont, en quelque sorte, le résultat díune politique implicite ou, si au contraire, nous pouvons observer des différences individuelles qui viendraient corroborer nos intuitions sur le plan cognitif. Pour cela, nous avons isolé deux sous-ensembles de notices signées par deux personnes (295 notices pour X, 334 notices pour Y). En tout, sept personnes ont signé les notices de notre échantillon díun an, mais le nombre níétait pas suffisant pour justifier des calculs aussi complexes .

ï Comparaison de líindexation humaine et de différentes indexations automatiques

Une fois les grandes tendances de líindexation bien cernées, nous prévoyons produire automatiquement diverses indexations en faisant varier les paramètres étudiés et les évaluer, avec les indexations déjà réalisées par des indexeurs professionnels. Pour cela, nous les soumettrons, sans révéler leur origine, à différents indexeurs et spécialistes du domaine traité. Nous espérons ainsi mieux comprendre díaprès quels critères une indexation est évaluée selon quíelle est (ou déclarée être) le produit de líindexation humaine ou de la machine, un peu comme lía fait Meyer (1992) avec des résumés. Chartron et al. (1989) et Courtial (1985) nous fournissent certaines pistes sur les différences les plus marquantes, mais tout dépend des règles auxquelles on soumet líindexation automatique. Cela devrait également permettre de faire davantage verbaliser nos sujets sur les contraintes imposées par le thésaurus, sur les portions de texte lues ainsi que sur les stratégies et les règles implicites suivies par les indexeurs.

b) Résultats préliminaires sur les grandes tendances dans les indexations déjà effectuées

Nous ne donnons ici, à titre díillustration, que quelques-uns des résultats obtenus lors de nos premières expérimentations.

ï Les grandes tendances de líindexation dans Envirodoq

Notons tout de suite que, dans notre corpus díune année, un peu moins de 50% des descripteurs du thésaurus ont été retenus dans líindexation et que la prise en compte des variantes flexionnelles a fait passer de 6567 à 9125 le nombre de termes (du thésaurus et de la liste de candidats-descripteurs) identifiés dans les zones titres et résumés (soit une augmentation de près de 39%, ce qui montre líintérêt de cette opération). Les résultats qui suivent sont partiels; ils ont été obtenus avec les variantes morphologiques.

- En ce qui concerne la présence dans les différentes zones de la notice:

. Seulement 33% des termes présents dans les titres et/ou résumés sont retenus dans les zones díindexation (le pourcentage est de 24% pour les formes telles quelles). La proportion tombe à 25% dans le cas descripteurs secondaires. Elle est de 38% pour les descripteurs principaux et de 58% pour les candidats-descripteurs. Un examen sommaire des termes non retenus montre que ce sont majoritairement des unitermes souvent très généraux. Une expérimentation ultérieure tentera de valider líhypothèse que les termes retenus sont ceux qui appartiennent au domaine dans lequel le texte a été classé.

. Un terme présent à la fois dans le titre et le résumé est retenu dans 49% des cas. Ce pourcentage tombe à 28% síil níest que dans le titre et à 20% síil níest que dans le résumé. Donc la reprise dans ces deux zones est un meilleur prédicteur de líimportance de la notion ainsi exprimée ... pourvu peut-être quíil síagisse díun terme du domaine, mais cela reste à vérifier.

. Lorsquíun terme présent est retenu, il est choisi comme descripteur principal síil figure dans le titre dans 68% des cas (quíil se trouve également dans le résumé ou non), alors que síil níest présent que dans le résumé, il sera choisi comme descripteur secondaire dans 53% des cas. Comme il fallait síy attendre, le titre semble donc mieux convenir à líexpression du sujet principal.

- En ce qui concerne la fréquence moyenne:

. La fréquence moyenne par notice des termes présents et retenus est plus élevée que celle des termes présents et non retenus: 1,69 (ce qui est díautant plus remarquable que les résumés sont courts).

. La fréquence moyenne des termes présents et retenus dans les zones descripteurs principaux et candidats-descripteurs est plus élevée (respectivement 1,92 et 1,83) que la fréquence moyenne des descripteurs retenus dans la zone descripteur secondaire (1,30).

- En ce qui concerne líindice discriminant:

. Líindice discriminant des termes présents et retenus est nettement plus élevé que celui des termes non retenus.

. Líindice discriminant des descripteurs principaux est plus élevé que celui de descripteurs secondaires et des candidats-descripteurs.

. Líindice discriminant des candidats-descripteurs est plus élevé que celui des descripteurs secondaires.

- En ce qui concerne la position dans les différentes phrases du résumé:

. Les termes non retenus se distribuent à peu près comme líensemble des termes des résumés.

. Les termes présents et retenus comme descripteurs principaux et comme candidats-descripteurs se retrouvent de façon significative dans la première phrase.

. Les termes présents et retenus comme descripteurs secondaires se retrouvent de façon significative dans la dernière ou líavant-dernière phrase.

Toutes ces données, une fois validées, sont susceptibles de devenir la base díalgorithmes propres à fournir une indexation automatique qui se rapprocherait des caractéristiques díune indexation moyenneÎ.

ï Quelques différences inter-indexeurs

Mais le même genre de calculs peut mener à observer des différences individuelles. Dans ce cas également, aucune validation des résultats obtenus en comparant deux indexeurs nía été effectuée. Mais le visionnement des premiers résultats attire notre attention sur certaines divergences: líindexeur Y a tendance à retenir un plus fort pourcentage de termes contrôlés présents dans les titres et/ou les résumés (est-ce parce quíelle les y inclut plus volontiers que X ou parce que ses résumés sont plus longs, donc plus riches en termes significatifs?); parmi les termes présents dans les deux zones à la fois et retenus, elle choisit de les mettre en descripteurs principaux plus souvent que X; lorsquíils sont dans le titre seulement et non présents dans le thésaurus, elle en retient un plus grand pourcentage comme candidats-descripteurs (Pour quelles raisons? Considère-t-elle que le thésaurus est déficient dans certains des domaines quíelle traite? Tient-elle à líenrichir? Cherche-t-elle à respecter la terminologie des auteurs?). Ses descripteurs principaux ont une fréquence moyenne plus élevée que ceux de sa collègue, de même que ses candidats-descripteurs (est-ce parce quíelle indexe dans des domaines plus restreints, mieux circonscrits, ou parce quíelle est particulièrement soucieuse de faire ressortir les liens intertextuels?). X privilégie la première phrase comme source de descripteurs principaux et, dans une moindre mesure de descripteurs secondaires, alors quíun plus grand pourcentage de descripteurs sont tirés de líavant-dernière phrase par Y que par X. Finalement les termes retenus par X ont un indice discriminant plus élevé que ceux díY. Il nous faut évaluer dans quelle mesure ces différences sont réellement significatives, et si oui quels sont les véritables facteurs explicatifs.

Il est possible quíune partie des écarts observés provienne díabord díune différence dans la façon de rédiger les résumés, Y privilégiant le style indicatif-informatif qui devrait donc fournir davantage de termes signifiants, ensuite díune différence importante de procédure qui nous a été révélée en cours díexpérimentation: X a indexé à partir du résumé rédigé par quelquíun díautre alors quíY a assumé les deux tâches de condensation et díindexation. (pour le moment, nous ne savons pas si X disposait du texte intégral en plus du résumé). Díautre part, líexpérience de la tâche et la connaissance de la base de données semblent ne pas être les mêmes. Enfin, les domaines couverts par les deux personnes et la dispersion du vocabulaire sont díautres hypothèses à envisager.

6. CONCLUSION

En somme les deux volets de notre recherche visent à comprendre à la suite de quels processus cognitifs des indexeurs confrontés à la tâche difficile de représenter des documents pour des utilisateurs quíils connaissent peu, avec des outils parfois inadéquats, arrivent aux résultats que líon peut observer. Síil est des constantes dans ces produits et dans les stratégies suivies, elles proviennent sans doute de la formation des indexeurs, de la littérature sur le sujet, des directives et contraintes de líorganisation. Mais nous faisons le pari que líopération díindexation est aussi et surtout une démarche subjective qui résulte díune tentative de faire coïncider une interprétation personnelle issue de connaissances nécessairement idiosyncratiques avec une grille plus ou moins stéréotypée díanalyse. Les multiples expérimentations que nous devons mener pendant toute la durée du projet devraient permettre de mieux mettre en évidence les facteurs explicatifs de la diversité de líindexation humaine, pas seulement au niveau des produits mais aussi et surtout des processus. Cette étude devrait faire ressortir la complexité de la tâche, de même que la subjectivité inhérente, subjectivité qui níest sans doute pas aussi condamnable que líenseignement dans la discipline le laisse croire, puisquíelle semble souhaitable et nécessaire pour la communication des connaissances:

[...] I suggest that indexers reconsider their practice. Current practice in indexing can be said to confine itself to modest, value-free ethics of dissimination of knowledge. Requirements-oriented indexing involves a high degree of subjectivity and responsability in choosing among the qualities of documents.

Current discussions in other professions, such as teaching and medical practice, tend to question prudent ethics of objectivity in mediating their services to their target groups. Rather than refraining from picking up the challenges posed by the social and cultural reality within which we operate, we should face the music. New frameworks, like requirements-oriented approaches have potentials for supporting a broad and open transfer of knowledge, which is a primary responsability of our profession.Î (Albrechtsen, 1993: 223)

Cette constatation ne devrait pas empêcher cependant díenvisager une certaine automatisation des tâches, à condition que chaque type díautomatisation soit pris pour ce quíil vaut. Si líon voit se dégager certaines tendances, il níest pas impossible de les mettre sous forme díalgorithmes de façon à introduire plus de régularité et à libérer les indexeurs pour les opérations les plus exigeantes sur le plan de líinterprétation. Toutefois, on peut espérer aller plus loin et assister une lecture individualisée qui síappuierait sur des cheminements et des stratégies de contrôle personnalisés traduits sous forme de règles dans un système expert. Il deviendrait alors possible de modéliser non pas une lecture standard du texte, mais plusieurs lectures différentes.

REMERCIEMENTS

Ce programme de recherche est effectué grâce à une subvention du CRSH (no 410-92-0713).

Nous remercions le Centre de documentation du Ministère de líEnvironnement du Québec pour les données et informations quíils nous ont aimablement communiquées, en particulier M. Gérard Nobréga, directeur et Mme Carole Robitaille, responsable des services techniques.

Plusieurs assistants collaborent à notre recherche: Claude Allen, Pierre Dupuis, Julie Gauthier et Andréi Kelner, en plus de deux des signataires de cet article: Claire David et Diane Lanteigne.

BIBLIOGRAPHIE DES SOURCES CITÉES

Albrechtsen, H., 1993. Subject analysis and indexing: from automated indexing to domain analysis. The Indexer; 18(4); October 1993: 219-224.

Beacco, J.-C.; Darot, M., 1984. Analyse de discours; lecture et expression. Paris: Hachette / Larousse; 1984.

Beghtol, C., 1986. "Bibliographic classification theory and text linguistics: aboutness analysis, intertextuality and the cognitive act of classifying documents." Journal of Documentation; 42(2); June 1986: 84-113.

Belkin, N.J., 1984. Cognitive models and information transfer. Social Science Information Studies; 4; 1984: 111-129.

Bertrand, A., 1993. Compréhension et catégorisation dans une activité complexe: l'indexation de documents scientifiques. Thèse de doctorat, Équipe de psychologie du travail ER 15- CNRS, Université de Toulouse-Le Mirail, France, 1993.

Bertrand, A.; David, C.; Cellier, J.M.; Giroux, L., 1990. Étude préliminaire du travail d'indexation de documents scientifiques. Actes du XXVI ième congrès de la société d'ergonomie de langue française (SELF), 1990.

Bertrand-Gastaldy, S. , 1993. Analyse documentaire et intertextualité. Les Sciences du texte juridique: Le droit saisi par l'ordinateur . Sous la direction de Claude Thomasset, René Côté et Danièle Bourcier. Textes présentés à un séminaire tenu à Val-Morin, Québec, du 5 au 7 oct. 1992 sous l'égide du Laboratoire Informatique, droit et linguistique du CNRS et du Groupe de recherche Informatique et droit de l'Université du Québec à Montréal. Cowansville: Les Éditions Yvon Blais; 1993: 139-173.

Bertrand-Gastaldy, S., 1992. Avec la collaboration de Gracia Pagola Le contrôle du vocabulaire et l'indexation assistés par ordinateur; une approche méthodologique pour l'utilisation de SATO. [Montréal]: Université de Montréal. École de bibliothéconomie et des sciences de l'information; janvier 1992. 612 p. en pagination variée.

Bertrand-Gastaldy, S., 1990. L'indexation assistée par ordinateur: un moyen de satisfaire les besoins collectifs et individuels des utilisateurs de bases de données textuelles dans les organisations. ICO (Intelligence artificielle et sciences cognitives au Québec); 2(3); septembre 1990: 71-91.

Bertrand-Gastaldy, S., 1989. La problématique de l'énonciation dans les systèmes documentaires entièrement ou partiellement automatisés. In: Problèmes de l'énonciation . Sous la dir. de François Latraverse. Montréal: Université du Québec à Montréal. Département de philosophie; 1989): 9-80. (Cahiers Recherches et Théories; coll. "Philosophie du langage"; L1)

Bertrand-Gastaldy, S., 1986. De quelques éléments à considérer avant de choisir un niveau d'analyse ou un langage documentaire. Documentation et bibliothèques, janvier-juin 1986, 3-23.

Bertrand-Gastaldy, S.; Daoust, F.; Pagola, G.; Paquin, L.-C., 1993a. Conception díun prototype de système expert díaide à líanalyse des jugements : rapport final présenté à SOQUIJ. Vol. 1 : synthèse des travaux. [Montréal]: Université de Montréal. École de bibliothéconomie et des sciences de líinformation / Université du Québec à Montréal. Centre de recherche en information et cognition ATO.CI; juillet 1993: 88 p. + annexes.

Bertrand-Gastaldy, S.; Daoust, F.; Meunier, J.-G.; Pagola, G; Paquin, L.-C., 1992. Un prototype de système expert pour l'aide à l'analyse des jugements. Congrès international Informatique et droit / Computers and Law, Montréal 1992, 30 septembre-3 octobre 1992.

Bertrand-Gastaldy, S.; Daoust, F.; Meunier, J.-G.; Pagola, G.; Paquin, L.-C., 1993b. Les traitements statistico-linguistiques et l'enquête cognitive comme moyens de reconstituer l'expertise des spécialistes en analyse documentaire: le cas de la jurisprudence. Montréal: Université du Québec à Montréal, Centre de recherche en Cognition et Information ATO.CI. 30 p. (Cahier de recherche no 2).

Bertrand-Gastaldy, S.; Pagola, G., 1992a. L'analyse du contenu textuel en vue de la construction de thésaurus et de l'indexation assistées par ordinateur; applications possibles avec SATO (système d'analyse de textes par ordinateur). Documentation et bibliothèques; 38(2); avril-juin 1992: 75-89.

Bertrand-Gastaldy, S.; Pagola, G., 1992b. L'élaboration et la gestion d'un vocabulaire de domaine dans le contexte des bases de données textuelles: remises en question et méthodologies. Colloque Repérage de l'information textuelle organisé conjointement par l'Hydro-Québec et le ministère des Communications du Québec, Montréal, le 18 septembre 1991: 51-71.

Bisseret, A., 1983. Pour une psychologie ergonomique des systèmes documentaires, Documentaliste; 20 (1); 1983: 6-10.

Bliss, M., 1988. Indexing policy in RILM. Fontes Artis Musicae; 35; 1988: 189-194.

Bonzi, S., 1991. Representation of concepts in text: a comparison of within-document frequency, anaphora, and synonymy. The Canadian Journal of Information Science; 16(3); 1991: 21-31.

Borko, H.; Bernier, C.L., 1975. Abstracting Concepts and Methods. New York: Academic Press; 1975.

Bourcier, Danièle, 1979. Information et signification endroit; expérience d'une explicitation automatique de concepts. Langages; 53; mars 1979: 9-32. "Le discours juridique: analyses et méthodes."

Brooks, H.M.; Daniels, P.-J.; Belkin, H.J., 1986. Research on information interaction and intelligent information provision mechanisms. Journal of Information Science; 1986: 37-44.

Caverni, J.P., 1988. La verbalisation comme source d'observables pour l'étude du fonctionnement cognitif. In Caverni, J.P., Batien, C., Mendelsohn, P., Tiberghien, G. Psychologie cognitive: Modèles et méthodes.. [Grenoble, France]: Presses Universitaires de Grenoble; 1988.

Chartron, G.; Dalbin, S.; Monteil, M.-G.; Vérillon, M., 1989. Indexation manuelle et indexation automatique: dépasser les oppositions. Documentaliste; 26(4-5); juillet-octobre 1989: 181-187.

Cleveland, D.; Cleveland, A., 1990. Introduction to Indexing and Abstracting. 2nd ed. Englewood, CO: Libraries Unlimited; 1990.

Coates, E. J., 1979. Scientific and technical indexing II. In: G. Norman Knight, Indexing, the Art of ... London; George Allen and Unwin; 1979.

Courtial, J.-P., 1985. Comparaison de cartes leximappe obtenues par indexation manuelle et par indexation lexicale automatique d'un échantillon de 12 articles; conséquences sur l'interprétation des différents types d'indexation et sur l'interprétation des cartes Leximappe. Documentaliste ; 22(3); mai-juin 1985: 102-107.

Daoust, F., 1992. SATO; système díanalyse de textes par ordinateur. Manuel de références.[Montréal]: Université du Québec à Montréal, Centre díanalyse de textes par ordinateur; 1992.

David, C., Bertrand, A., Giroux, L., Cellier, J.M., 1991. A method of analysis for document indexing behavior. In: Quéinnec, Y., Daniellou, F., Designing for everyone. Londres: Taylor and Francis; 1991: 400-402.

David, C., 1990. Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire. Montréal: Université de Montréal, Département de communication; 1990. Mémoire de maÎtrise.

Debili, F., 1982. Analyse syntaxico-sémantique fondée sur une acquisition automatique des relations lexicales-sémantiques. Paris: université Paris XI, Centre d'Orsay; 1982. Thèse de doctorat d'État.

Eigeldinger, M., 1989. Mythologie et intertextualité. Genève: Slatkine; 1989.

Endres-Niggemeyer, B., 1990. A procedural model of abstracting, and some ideas for its implementation. TKE'90; Terminology and Knowledge Engineering. Frankfurt: Indeks Verlag; 1990: 230-243.

Ericsson, K.A., Simon, H.A., 1984. Protocol analysis: Verbal reports as data. Cambridge, MA: MIT Press; 1984. 379 p.

Ericsson, K.A., Simon, H.A., 1980. Verbal report as data. Psychological review, vol. 87, no. 3, May 1980: 215-251.

Farrow, J., 1991. A cognitive process model of indexing document. Journal of documentation; 47 (2); June 1991: 149-166.

Fidel, R., 1986. Writing abstracts for free-text searching. Journal of Documentation; 42(1); 1986: 11-21.

Grunberger, M.W., 1985. Textual Analysis and the Assignment of Index Entries for Social Science and Humanities Monographs. New Brunswick, NJ: Rutgers University; 1985. viii,136 p. (thèse de doctorat)

Hayes, J.R.; Flower, L.S., 1980. Identifying the organization of writing processes. In: L.W. Gregg; E.R. Steinberg (éds), Cognitive Processes in Writing . Hillsdale, NJ: Lawrence Erlbaum; 1980: 31-50.

Hoc, J.-M.; Leplat, J., 1983. Evaluation of different modalities of verbalization in a sorting task. International Journal of Man-Machine Studies ; 18; 1983: 283-306.

Hovy, E., 1992. Sur la méthodologie pour construire des modèles de líêtre humain à travers la génération de langage. Langages; 106; juin 1992: 75-91.

Jones, K. P., 1983. How do we index?. a report of some Aslib Information Group activity. Journal of Documentation; 39; 1983: 1-23.

Kristensen, J.; JÄrvelin, K., 1990. The effectiveness of a searching thesaurus in free-text searching in a full-text database. International Classification; 17(2); 1990: 77-84.

Lancaster, F.W., 1991. Indexing and Abstracting in Theory and Practice. Champaign, IL: University of Illinois, Graduate School of Library and Information Science; 1991.

Le Roux, D.; Monteil, M.-G., 1993. Perspectives díautomatisation de líactivité résumante: présentation du projet SERAPHIN. ICO93; Actes du Colloque international en informatique cognitive des organisations/ International Conference on Cognitive and Computer Sciences for Organizations., 4-7 mai 1993, Montréal:. 126-134.

Leonard, L.E., 1977. Inter-indexer consistency studies, 1954-1975: review of the literature and summary of the study results. Occasional papers no 131. University of Illinois, Graduate School of library science; 1977.

Liddy, E., 1990. Anaphora in natural language processing and information retrieval. Information Processing & Mnagement; 26(1); 1990: 39-52.

Liddy, E. D.; Bonzi, S.; Katzer, J.; Oddy, E., 1987. "A study of discourse anaphora in sicntific abstracts." Journal of the American Society for Information Science; 1987: 38(4): 255-261.

Locke, C., 1991. The dark side of DIP. Byte; 16(4); April 1991.

Markey, K., 1984. Inter-indexer consistency tests: A literature review and report of a test of consistency in indexing visual materials. Library and information science research ; 6; 1984: 155-177.

Meyer, T., 1992. Comparer la machine à líhomme et líhomme à la machine : approche expérimentale des représentations díune génération automatique de récit. Langages; 106; juin 1992: 92-105.

Milas-Bracovic, M.; Zajec, J., 1989. Authors abstracts of research articles published in scholarly journals in Croatia. Libri; 39; 1989: 303-318

Molholt, P.; Goldbogen, G., 1990. The use of inter-concept relationships for the enhancement of semantic networks and hierarchically structured vocabularies. In: Sixth Annual Conference of the UW Centre for the New Oxford English Dictionary and Text Research. Electronic Text Research. Proceedings of the Conference, October 28-30, 1990, University of Waterloo, Waterloo, Ontario, Canada: 39-51.

Newell, A.C., Simon, H.A., 1972. Human problem solving. Englewood Cliffs, N.J.: Prentice-Hall; 1972. 920 p.

OíConnor, J., 1965. Automatic subject recognition in scientific paper; an empirical study. Journal of the Association of Computing Machinery; 12; 1965.

Piolat, A.; Roussey, J.-Y., 1992. Rédaction de textes : éléments de psychologie cognitive. Langages; 106; juin 1992: 106-125.

Rada, R.; Barlow, J.; Potharst, J.; Zanstra, P.; Bijstra, D., 1991. Document ranking using an enriched thesaurus. Journal of Documentation ; 47(3); September 1991: 240-253.

Rada, R.; Mili, H.; Letourneau, G.; Johnston, D., 1988. Creating and evaluating entry terms. Journal of Documentation ; 44(1); March 1988: 19-41.

Reich, P.; Biever, E.J., 1991. Indexing consistency: the input/output function of thesauri. College and Research Libraries ; 52; 1991: 336-342.

Salager-Mayer, F., 1991. Medical English abstracts; how well are they structured? Journal of the American Society for Information Science; 42; 1991: 528-531.

Tenopir, C.; Jacso, P., 1992. Quality of abstracts. Online; 17; 1992: 44-51.

Tibbo, H., 1992. Abstracting across the disciplines: a content analysis of abstracts from the natural sciences, the social sciences, and the humanities with implications for abstracting standards and online information retrieval. Library and Information Science Research; 14; 1992: 31-56.

Tomonori, G., 1983. Cognitive structure in human indexing process. Library and information science; Keio University, Tokyo; 21;1983: 209-226.

Weinberg, B.H., 1981. Word Frequency and Automatic Indexing. Columbia University; 1981. PhD Thesis.

NOTICES BIOGRAPHIQUES

Suzanne Bertrand-Gastaldy

Suzanne Bertrand-Gastaldy est professeure agrégée à líÉcole de bibliothéconomie et des sciences de líinformation de líUniversité de Montréal. Elle est également chercheure au Centre de recherche en information et cognition (ATO.CI) de líUniversité du Québec à Montréal. Ses recherches portent sur les méthodes díindexation et díélaboration de vocabulaires de domaine assistées par ordinateur ainsi que sur líévaluation des thésaurus à la lumière des théories sémio-cognitives.

Luc Giroux

Luc Giroux est professeur agrégé au département de communication de líUniversité de Montréal. Détenteur díun doctorat (Montréal, 1982) en psychologie cognitive, il mène depuis plusieurs années des recherches sur la dimension cognitive de la communication personne-machine, de même que sur la mesure des auditoires des médias électroniques. Il a publié entre autres dans les revues Technologie de líinformation et société, Le travail Humain, Behavior and Information Technology et International Journal of Man-Machine Studies.

Diane Lanteigne

Voir la notice quíelle a jointe à líarticle quíelle a signé seule.

Claire David

Claire David est étudiante au programme de doctorat conjoint en communication (Concordia, Montréal et UQAM) et complète présentement une thèse portant sur les aspects cognitifs du travail de líindexeur. Elle síintéresse principalement au traitement humain de líinformation et plus spécifiquement à la résolution de problème et à líanalyse de protocoles verbaux.