ACSI95.Texte

LA MODÉLISATION DE L'ANALYSE DOCUMENTAIRE: À LA CONVERGENCE DE LA SÉMIOTIQUE, DE LA PSYCHOLOGIE COGNITIVE ET DE L'INTELLIGENCE ARTIFICIELLE

Par Suzanne Bertrand-Gastaldy, Luc Giroux, Diane Lanteigne1 et Claire David2

Bertrand-Gastaldy, S.; Giroux, L.; Lanteigne; D. David, C., 1995. La modélisation de líanalyse documentaire: à la convergence de la sémiotique, de la psychologie cognitive et de líintelligence artificielle. In: Canadian Association for Information Science; Proceedings of the 23rd Annual Conference / Association canadienne de sciences de líinformation; Trvaux du 23e congrès annuel, Connectedness: Information, Systems, People, Organizations, ed. by Hope A. Olson et Dennis B. Ward. Edmonton: University of Alberta, School of Library and Information Studies; 1995: 1-11.

RÉSUMÉ

La sémiotique textuelle et la psychologie cognitive sont mises à contribution pour modéliser différentes opérations díanalyse documentaire. On expose les éléments du modèle théorique et la complémentarité des approches. Líattribution de propriétés relevant de systèmes sémiotiques divers sur les textes primaires et secondaires permet de retrouver les unités et certaines des caractéristiques privilégiées de façon générale ou par chaque individu. Les enquêtes cognitives auprès des experts corroborent ou complétent líanalyse des corpus. Quelques exemples de résultats obtenus par líanalyse statistico-linguistique lors de deux expérimentations illustrent líutilité de la méthodologie, notamment pour la conception de systèmes experts díaide à la lecture.

ABSTRACT

Textual semiotics and cognitive psychology are advocated to modell several types of documentary analysis. A theoretical model is proposed which combine elements from the two disciplines. Thanks to the addition of values of properties pertaining to different semiotic systems to the primary and secondary texts, one can retrieve the units and the characteristics valued by a group of indexers or by one individual. The cognitive studies of the experts confirm or complete the textual analysis. Examples from the findings obtained by the statistico-linguistic analysis of two corpora illustrate the usefulness of the methodology, especially for the conception of expert systems to assist whatever kind of reading.

INTRODUCTION

À líheure où le nombre de textes intégraux disponibles sous forme électronique connaÎt une croissance fulgurante, on remet en question le bien-fondé díune analyse humaine pénalisante en temps et en argent, sinon en qualité, et líon propose toutes sortes díanalyses automatiques qui vont de la simple extraction des chaÎnes de caractères aux systèmes experts les plus complexes. Parallèlement, les progrès des connaissances en psychologie cognitive, en linguistique phrastique et textuelle, en sémantique et en intelligence artificielle incitent à observer sous ces divers éclairages les tâches díanalyse dont il faut tenter soit de modéliser les processus, selon la conception maximaliste, soit de reproduire les résultats, selon la conception minimaliste. Des travaux communs avec des spécialistes de ces différentes disciplines nous ont conduits a líélaboration de projets de recherche appuyés sur un modèle théorique qui se consolide au fur et à mesure des expérimentations sur des corpus réels avec des analystes réels dans des contextes diversifiés. Nous voulons découvrir - et expliquer - les propriétés privilégiées par les différentes lectures des textes et, pour une même tâche díindexation, par différents indexeurs.

Dans ce qui suit, nous tâcherons de montrer la complémentarité díune part des éléments théoriques empruntés à plusieurs des disciplines énumérées, díautre part des méthodologies adoptées pour les expérimentations, puis nous donnerons un aperçu des résultats de deux projets concrets pour conclure sur les perspectives díutilisation de notre approche.

ÉLÉMENTS DU MODÈLE THÉORIQUE

De nombreux travaux ont mis en évidence le rôle actif de reconstruction du sens par le lecteur (Eco, 1985; Pennac, 1992). Le modèle que nous essayons de construire repose sur les prémisses suivantes:

1- Le texte est un entrelacs de multiples systèmes sémiotiques: éditorial (typographie, mise en page), lexical, syntaxique, sémantique, représentationnel, communicationnel, argumentatif, intertextuel, etc. Ainsi, ce ne sont pas les chaÎnes de caractères -les porteursÎ - qui sont signifiantes, mais leurs propriétés relevant de chacun des systèmes et interprétées par un agent cognitif (Eco, 1988; Deledalle, 1979). Toute tentative díexplicitation de la structuration du texte doit donc prendre en compte líexistence de ces différents systèmes, des différentes unités qui les constituent et des caractéristiques qui leur sont rattachées (Halliday, 1985; McKenzie, 1991; Meunier, 1993; Meunier et al., 1994; Rastier, 1989).

2- La lecture constitue un acte díinterprétation sensible à certains de ces systèmes selon le projet ou le point de vue (Iser, 1985), ce qui díailleurs contribue à rendre les unités textuelles extrêmement insaisisables (Weaver, 1985). Parce que la lecture est un acte individuel, elle diffère forcément en fonction des connaissances, des préoccupations, des intérêts, des systèmes de valeur et des buts des lecteurs, mais parce que la lecture est aussi un acte social, certains invariants peuvent être observés chez des individus de même culture - de même culture organisationnelle, entre autres.

3- Les lectures documentaires effectuées en vue de la classification, de líindexation, de la condensation constituent des cas particuliers de lecture professionnelle (Hochon et Évrard, 1994), tout comme la lecture analyse de contenu, la lecture orientée vers le dépouillement terminologique, la lecture historique ou la lecture littéraire, etc. par opposition à la lecture-loisir qui privilégie le plaisir. Le contexte de travail détermine certains parcours et ceci díautant plus fortement que la tâche est codifiée, quíelle est le résultat díun mandat institutionnel et que le but à atteindre est clairement identifié. Toutes les lectures combinent une approche perceptive et une approche conceptuelle dont líimportance respective varie selon le type de lecture effectuée - lecture orientée vers la correction typographique, líétude stylistique ou líanalyse approfondie du contenu, comme les arguments en faveur díune thèse ou líétude des marqueurs díun jugement de valeur ou díun souci prévisionnel - et ceci est vrai des différentes lectures documentaires (Endres-Niggemeyer 1990; Farrow, 1991). Elles mettent en jeu diverses opérations cognitives de sélection, rejet, généralisation (Van Dijk, 1977), stratégies de confirmation et contrôle, etc. (David, 1990) portant sur des indices ou configurations díindices dont la pertinence varie en fonction du but à atteindre. À chaque tâche díanalyse correspond donc un parcours particulier du texte. La décision díinclure un document dans une base de données - ou de le rejeter - níexige pas la prise en compte du même nombre ni des mêmes types díindices que líopération díindexation. La rédaction díun résumé requiert une prise de connaissance plus approfondie du contenu textuel que líattribution díune rubrique de classification, mais exige un examen moins attentif cependant que la comparaison des thèses défendues par plusieurs auteurs, par exemple.

4- Certaines lectures laissent des traces comme le surlignage (Le Roux et Monteil, 1993) et peuvent donner naissance à de nouveaux textesÎ: annotations marginales, rubriques de classification, résumé, indexation. Étant donné leurs conditions de production, ces textes seconds sont en position díintertextualité avec les textes de départ. Il en est ainsi des mots-clés choisis avec le texte indexé et, le cas échéant, avec le résumé de même quíavec líoutil documentaire utilisé pour convertir le vocabulaire libre en vocabulaire contrôlé. Cíest ce quíont affirmé tour à tour Hutchins (1975), Beacco et Darot (1984) et Begthol (1986).

5- La confrontation du texte de départ et des produits issus des différentes lectures permet un examen des éléments textuels jugés assez importants pour être retenus par rapport à ceux qui níont pas été sélectionnés lors de líopération-filtre que constitue líanalyse. Líexamen est díautant plus fécond que texte de départ et textes díarrivée peuvent être observés non pas seulement au niveau des signifiants mais des propriétés relevant des différents systèmes à líoeuvre.

MÉTHODOLOGIE EMPLOYÉE DANS LES EXPÉRIMENTATIONS

La vérification de la validité de notre modèle síappuie sur la complémentarité des approches cognitives et sémio-textuelles.

ANALYSES STATISTICO-LINGUISTIQUES

Les corpus

Nous comparons, sous divers aspects, un corpus de textes sources et de textes-cibles comme les textes primaires et líindice (ou les indices) de classification attribué ou bien les résumés et líindexation auxquels ils ont donné lieu. Il nous faut donc disposer de versions électroniques de ces corpus ainsi que des outils documentaires qui ont servi à les analyser: plan de classification et thésaurus.

Pour SOQUIJ (Société québécoise díinformation juridique), nous avons étudié les tâches suivantes: élimination à la source de certains jugements; détermination du (ou des) domaine(s) du droit et, le cas échéant, du sous-domaine, selon un plan de classification préétabli) auquel chaque décision retenue appartient; prise de connaissance du contenu des textes en vue de la rédaction díun résumé informatif; sélection de termes d'indexation à partir du résumé rédigé par les conseillers juridiques. Nous nous sommes appuyés sur un corpus de 565 textes intégraux, 1057 notices analytiques, un thésaurus de 1325 descripteurs et non-descripteurs et un plan de classification de 57 domaines principaux de droit.

Dans la base de données Envirodoq, produite par le ministère de líEnvironnement et de la Faune du Québec, nous analysons surtout les différences individuelles entre les indexeurs à partir díun sous-corpus qui comprend 833 notices. Líanalyse du contenu comprend líattribution díune ou plusieurs rubriques de classement, la rédaction díun résumé (résumé surtout indicatif, mais aussi indicatif-informatif et assez souvent simple annotation), et finalement líindexation (descripteurs principaux, descripteurs secondaires, candidats-descripteurs, identificateurs géographiques). Le thésaurus contient près de 1500 descripteurs et le plan de classification inclut 23 grandes classes.

Le marquage des textes au moyen du logiciel SATO

Comme nous ne cherchons pas seulement les signifiants qui pourraient se retrouver dans líun et líautre de ces corpus, mais diverses caractéristiques sémiotiques de ces signifiants, il nous faut recourir à un logiciel qui permette non seulement le marquage de ces caractéristiques (propriétés et valeurs de propriétés), mais leur détection automatique. Nous avons opté pour le logiciel SATO (Système díanalyse de textes par ordinateur) conçu par un collaborateur de longue date (Daoust, 1992).

Les caractéristiques attribuées aux données, en contexte (dans le texte) ou hors contexte (dans le lexique), consistent en l'ajout automatique ou assisté par ordinateur d'informations de nature diverse décrivant le statut sémiotique des constituants du texte et enrichissant les chaÎnes de caractères immédiatement accessibles à l'ordinateur. Ces caractéristiques proviennent de connaissances générales de la langue (type de langue, nature grammaticale des lexèmes), de connaissances générales sur la structure des textes (phrases, paragraphes), díinformations de nature éditique (conventions typographiques -- capitales, caractères gras ou italiques -- dans les enregistrements), de connaissances spécifiques au domaine (vocabulaire de spécialité, structure des textes et de leurs résumés, mention de loi, de jurisprudence et de doctrine), de connaissances "documentaires" (champs d'une notice, appartenance ou non des lexèmes aux langages documentaires), de propriétés statistiques (fréquence absolue ou relative, indice de répartition, valeur discriminante, chi 2, etc.). On peut introduire autant de propriétés quíon le juge utile et les modifier au gré des hypothèses.

Les analyses

Une fois caractérisées, les données sont filtrées en fonction des différents indices et soumises à une analyse de discrimination sur SPSS qui fait ressortir les meilleurs prédicteurs pour expliquer dans leur ensemble les résultats des diverses opérations díanalyse ou pour caractériser les divergences observées entre plusieurs indexeurs.

LES ENQU&ECIRC;TES COGNITIVES

Pour alimenter le choix des caractéristiques à examiner dans la confrontation entre textes de départ, textes intermédiaires et produits finals, nous avons recours à notre connaissance de líanalyse documentaire, du contenu des normes et politiques díanalyse des grands services secondaires ainsi quíaux recherches antérieures sur les propriétés díun bon terme díindexation (Jones, 1983; Grunberger, 1985; OíConnor 1965; Weinberg, 1981). Comme les facteurs contextuels jouent un grand rôle dans líeffectuation de la tâche et comme, avec le même langage et les mêmes politiques, plusieurs indexeurs arrivent à des résultats divergents ainsi que líont montré beaucoup díétudes sur la cohérence de líindexation (Markey, 1984), il nous faut étudier de façon plus spécifique la démarche des sujets responsables de líanalyse documentaire, essayer de découvrir les techniques et les stratégies employées pour parcourir un texte, les différentes parties du texte examinées pour prendre une décision de sélection, de tri-classification, de résumé et d'indexation, les connaissances utilisées, les catégorisations effectuées, les inférences faites pour passer des expressions en langue naturelle à leurs équivalents dans le thésaurus.

Dans le premier projet, nous avons privilégié líentrevue semi-dirigée auprès des experts, líexplicitation a posteriori des démarches suivies et des décisions prises, la clarification au vu des résultats de nos traitements (confrontation entre politiques déclarées et tendances observées dans les corpus), ainsi que líobservation non enregistrée des indexeurs commentant leur analyse en cours díeffectuation. Pour le second projet, comme líéquipe de recherche comprenait des spécialistes en psychologie cognitive, nous avons pu procéder à une analyse de protocoles avec verbalisation concomitante et consécutive sur trace (les résultats préliminaires font líobjet díune autre conférence dans le cadre de ce congrès par David et al., 1995). Rappelons que les recherches sur les processus cognitifs de líanalyse documentaire sont relativement récentes et peu nombreuses (Bertrand, 1993; ; David, 1990; Endres-Niggemeyer, 1990; Farrow, 1991).

LA COMPLÉMENTARITÉ DES APPROCHES

La complémentarité des approches, recommandée à plusieurs reprises (Chaumier et Dejean, 1992; Doszkocs, 1986; Blosseville et al., 1992; Grunberger, 1985), offre des avantages non négligeables. Líanalyse statistico-linguistique des textes síappuie sur les productions réelles des analystes - et non pas sur ce quíils disent faire, ont líintention de faire ou ont conscience de faire. Elle peut porter sur un très grand nombre de productions. En cela, elle permet de corroborer ou de compléter les résultats obtenus à líaide díenquêtes cognitives qui, elles, ne peuvent être effectuées quíauprès díun nombre restreint díexperts pour un petit nombre de textes, mais qui, par contre, donnent une foule de renseignements très spécifiques sur les parties de textes examinées, les démarches de consultation des outils documentaires, les raisons de telle ou telle décision en autant que les sujets les verbalisent. Plusieurs des éléments textuels consultés ne sont pas retenus dans la phase finale de líindexation et sont donc inaccessibles à líanalyse automatique des productions; díautre part, plusieurs connaissances utilisées sont de si haut niveau quíelles ne peuvent pas être prises en compte par les analyseurs trop rudimentaires. Les observations faites en cours díexpérimentation et les questions posées aux sujets sont, à leur tour, alimentées par les grandes tendances révélées par líanalyse des textes. En fait, nous procédons selon un aller-retour entre analyse de textes et observation des sujets.

QUELQUES RÉSULTATS

Chez SOQUIJ

Avec le projet SOQUIJ, nous avons pu vérifier que les indices utilisés pour les quatre opérations díanalyse étudiées sont très différents et se prêtent inégalement à une aide informatique.

Ainsi, la sélection de jugements repose sur des opérations cognitives complexes mettant en jeu de nombreuses connaissances spécialisées du domaine juridique et du monde en général. Cíest pourquoi la prise de décision restera toujours la prérogative des conseillers juridiques, bien que quelques critères formels simples, issus de la comparaison díun corpus de jugements retenus et díun corpus de jugements rejetés, permettent néanmoins de déclarer candidats au rejet un certain nombre de textes: les jugements sont courts; ils sont de type formulaire; ils proviennent de la Cour des petites créances; ils entérinent une convention.

Le tri-classification, explicité par les conseillers juridiques et vérifié par différentes analyses statistico-linguistiques, offre un portrait clair des éléments importants. L'appartenance d'un jugement à un domaine du droit peut être décelée, la plupart du temps, d'après quatre types de renseignements contenus dans la première page: le tribunal, le nom des parties ou la procédure entreprise, le numéro de greffe, l'intitulé du jugement le cas échéant. Il faut parfois consulter le texte du jugement, pour repérer soit des lois ou articles du code civil cités, soit le vocabulaire employé par le juge (surtout des termes répertoriés dans le thésaurus ou le plan de classification). La combinaison díindices comme la présence d'un terme associée à sa position ou la co-présence et la proximité de deux termes doivent parfois être pris en compte.

Pour la rédaction des résumés, líenquête cognitive a permis díétablir une liste des éléments textuels importants pour tous les experts et pour chacun selon le domaine de droit dans lequel il oeuvre: díune part, les unités lexicales du thésaurus, les mentions de lois ou d'articles de lois ainsi que les termes désignant les juges, díautre part, certaines expressions indiquant qu'il y a discussion, lien de causalité, interprétation, etc. Chaque spécialiste possède, en fait, un schéma de la structure d'exposition des jugements dans tel ou tel domaine et recherche les énoncés-clés dans les parties réputées les contenir.

Pour la tâche díindexation, nous avons comparé les propriétés des termes présents ou pas dans les résumés et retenus ou pas dans les manchettes. Toutes nos analyses ont pris appui sur les phénomènes díintertextualité entre les résumés, les manchettes et les outils documentaires. Nous avons, entre autres, exploré líimportance de critères comme la position des termes dans la macro et la meso-structure des résumés, leur fréquence, leur valeur discriminante, líappartenance au domaine de droit dans lequel le jugement a été classé et nous avons entrepris líétude de líappartenance des termes à une grille implicite propre à chaque domaine du droit.

Dans Envirodoq

Ce sont à peu près les mêmes propriétés que nous examinons actuellement dans la base de données Envirodoq pour percevoir les grandes tendances de líindexation et les divergences entre indexeurs.

Globalement, il appert que:

- la généralité des termes (surtout des unitermes du thésaurus) est un bon prédicteur de leur rejet;

- la présence díun terme à la fois dans le titre et dans le résumé augmente ses chances díêtre sélectionné comme descripteur principal;

- une fréquence élevée dans la notice et une valeur discriminante élevée caractérisent davantage les termes retenus comme descripteurs principaux et candidats-descripteurs que comme descripteurs secondaires;

- les termes présents et retenus comme descripteurs principaux et comme candidats-descripteurs se retrouvent de façon significative dans la première phrase;

- les termes présents et retenus comme descripteurs secondaires, quant à eux, se retrouvent plutôt dans la dernière ou líavant-dernière phrase.

Des différences entre les deux indexeurs qui ont signé le plus grand nombre de notices ressortent, par exemple:

- Y a tendance à retenir un plus fort pourcentage de termes contrôlés présents dans les titres et/ou les résumés;

- parmi les termes présents dans les deux zones à la fois et retenus, elle choisit de les mettre en descripteurs principaux plus souvent que X;

- lorsquíils sont dans le titre seulement et non présents dans le thésaurus, elle en retient un plus grand pourcentage comme candidats-descripteurs;

- ses descripteurs principaux ont une fréquence moyenne plus élevée que ceux de sa collègue, de même que ses candidats-descripteurs;

- X privilégie la première phrase comme source de descripteurs principaux et, dans une moindre mesure, de descripteurs secondaires, alors quíun plus grand pourcentage de descripteurs sont tirés de líavant-dernière phrase par Y que par X.

- finalement les termes retenus par X ont un indice discriminant plus élevé que ceux díY.

CONCLUSION

Les bases théoriques sur lesquelles nous nous appuyons síavèrent fécondes et notre analyse sémiotique des textes primaires et secondaires combinée à une approche cognitive peut avoir plusieurs applications. Même limitée à certains indices pertinents décelables par des analyseurs, notre méthodologie permet à la fois de dégager plusieurs des grandes tendances díindexation suivies dans une base de données et de caractériser en partie le style díindexation de chaque indexeur. Elle ouvre donc la voie à la correction des politiques díanalyse implicites ou explicites. De plus, elle constitue un bon moyen díextraction de líexpertise à partir des productions réelles et offre une complémentarité à líenquête cognitive en révélant des faits non explicités. Líinterprétation des causes de divergences entre la pratique et les politiques díun service díindexation ou entre indexeurs díun même service reste évidemment à la charge de líenquêteur. Les différences observées peuvent avoir une justification et nécessiter des systèmes individualisés díaide à líindexation selon le domaine ou selon le type de documents analysés. Notre méthodologie consistant à modéliser certaines des stratégies cognitives mises en oeuvre par les experts du domaine en fonction des produits attendus, elle peut servir de préalable à la constitution díun système expert díaide à la lecture, que celle-ci soit documentaire ou concerne toute autre approche du contenu textuel. Cíest díailleurs ce que nous avons fait pour SOQUIJ au moyen de l'Atelier Cognitif et TExtuel (ACTE) qui intègre un générateur de système expert (GSE) et SATO.

BIBLIOGRAPHIE

Beacco, J.-C.; Darot, M. 1984. Analyse de discours; lecture et expression. Paris: Hachette / Larousse.

Beghtol, C. 1986. Bibliographic classification theory and text linguistics: aboutness analysis, intertextuality and the cognitive act of classifying documents. Journal of documentation; 42(2): 84-113.

Bertrand, A.1993 Compréhension et catégorisation dans une activité complexe: l'indexation de documents scientifiques. Thèse de doctorat, Équipe de psychologie du travail ER 15- CNRS, Université de Toulouse-Le Mirail, France.

Bertrand-Gastaldy, S., Paquin L.-C., Pagola, G., Daoust, F. 1994. Le traitement des textes primaires et secondaires pour la conception et le fonctionnement d'un prototype de système expert díaide à líanalyse des jugements. Colloque Traitement automatique du français écrit. 62e congrès de líACFAS, 16-20 mai 1994.[à paraÎtre]

Blosseville, M.J.; Hébrail, G.; Monteil, M.G.; Pénot, N. 1992 Automatic document classification: Natural language processing, statistical analysis and expert system techniques used together. SIGIR 92, Proceedings of the fifteenth annual international ACM SIGIR conference on research and development in information retrieval, Copenhagen, Denmark, June 21-24, 1992: 51-57.

Chaumier, J.; Dejean, M. 1990. Líindexation documentaire: de líanalyse conceptuelle humaine à líanalyse automatique morpho-syntaxique. Documentaliste ; 27(6): 275-279.

Daoust, F. 1992. SATO; Système d'analyse de texte par ordinateur. Manuel de références. [Montréal]: Université du Québec à Montréal, Centre d'analyse de textes par ordinateur.

David, C. 1990. Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire. Montréal: Université de Montréal, Département de communication. Mémoire de maÎtrise.

Doszkocs, Tamas. 1986. Natural language processing in information retrieval. Journal of the american society for information science; 37(4): 191-196.

Deledalle, G. 1979. Théorie et pratique du signe; introduction à la sémiotique de Peirce. Paris: Payot.

Eco, U. 1985. Lector in fabula; ou la coopération interprétative dans les textes narratifs. Paris: Grasset.

Eco, U. 1988. Sémiotique et philosophie du langage. Paris: Presses universitaires de France.

Endres-Niggemeyer, B. 1990. A procedural model of abstracting, and some ideas for its implementation. TKE'90; Terminology and knowledge engineering. Frankfurt: Indeks Verlag: 230-243.

Farrow, J. F. 1991. A cognitive process model of document indexing. Journal of documentation; 47(2): 149-166.

Grunberger, M.W. 1985. Textual analysis and the assignment of index entries for social science and humanities monographs. New Brunswick, NJ: Rutgers University. PhD Dissertation.

Halliday, M.A.K. 1985. An introduction to functional grammar. London: Edward Arnold.

Hochon, J.-C.; Évrard, F. 1994. Lecture professionnelle et gestion personnalisée de documents textuels. ICO Québec; 26(1-2): 9-18.

Hutchins, W. J. 1975. Languages of indexing and classification : A Llnguistic study of Ssructures and functions. Stevenage, Eng.: P. Peregrinus.

Iser, W. 1985. The Art of reading;A theory of esthetic response. Baltimore: John Hopkins University.

Jones, K. P. 1983. How do we index? A report of some Aslib Information group activity. Journal of documentation; 39: 1-23.

Le Roux, D.; Monteil, M.-G. 1993. Perspectives díautomatisation de líactivité résumante: présentation du projet SERAPHIN. ICO93; Actes du colloque international en informatique cognitive des organisations/ International conference on cognitive and computer sciences for organizations, 4-7 mai 1993, Montréal:.

McKenzie, D.F. 1991. La bibliographie et la sociologie des textes. Paris: Éditions du Cercle de la Librairie.

Markey, K. 1984. Inter-indexer consistency tests: A literature review and report of a test of consistency in indexing visual materials. Library and information science research ; 6: 155-177.

Meunier, J.-G. 1993. Semiotic primitives and conceptual representation of knowledge. In: Signs,search and communication ; Semiotics aspects of artificial intelligence, éd. par René J. Jorna, Barend van Heusden et Roland Posner. Berlin: Walter de Gruyter: 66-89.

Meunier, J.-G.; Bertrand-Gastaldy, S.; Paquin, L.-C. 1994. La gestion et líanalyse des textes par ordinateur: leur spécificité dans le traitement de líinformation; ICO Québec; 6(1-2): 19-28.

O'Connor, J. 1965. Automatic subject recognition in scientific papers: an empirical study. Journal of the Association of computing machinery; 12.

Pennac, Daniel. 1992. Comme un roman. Paris: Gallimard.

Rastier, F. 1989. Sens et textualité. Paris: Hachette.

Van Dijk, T. A. 1977. Perspective paper: Complex semantic information processing. In: Natural language in information science; Perspectives and directions for research., éd. par D.E. Walker, H. Karlgren et M. Kay. Stockholm: Skriptor.

Weaver, C. 1985. Parallels between new paradigms in science and in reading and literary theories: An essay review. Research in the teaching of English; 19(3): 298-316.

Weinberg, Bella Hass. 1981. Word frequency and automatic indexing. Columbia University. Ph.D. Thesis.