LA MODÉLISATION DE L'ANALYSE
DOCUMENTAIRE: À LA CONVERGENCE DE LA SÉMIOTIQUE,
DE LA PSYCHOLOGIE COGNITIVE ET DE L'INTELLIGENCE ARTIFICIELLE
Par Suzanne Bertrand-Gastaldy, Luc Giroux,
Diane Lanteigne1 et Claire David2 Bertrand-Gastaldy, S.; Giroux, L.; Lanteigne; D. David, C., 1995. La modélisation de líanalyse documentaire: à la convergence de la sémiotique, de la psychologie cognitive et de líintelligence artificielle. In: Canadian Association for Information Science; Proceedings of the 23rd Annual Conference / Association canadienne de sciences de líinformation; Trvaux du 23e congrès annuel, Connectedness: Information, Systems, People, Organizations, ed. by Hope A. Olson et Dennis B. Ward. Edmonton: University of Alberta, School of Library and Information Studies; 1995: 1-11.
RÉSUMÉ
La sémiotique textuelle et la
psychologie cognitive sont mises à contribution pour modéliser
différentes opérations díanalyse documentaire.
On expose les éléments du modèle théorique
et la complémentarité des approches. Líattribution
de propriétés relevant de systèmes sémiotiques
divers sur les textes primaires et secondaires permet de retrouver
les unités et certaines des caractéristiques privilégiées
de façon générale ou par chaque individu.
Les enquêtes cognitives auprès des experts corroborent
ou complétent líanalyse des corpus. Quelques exemples
de résultats obtenus par líanalyse statistico-linguistique
lors de deux expérimentations illustrent líutilité
de la méthodologie, notamment pour la conception de systèmes
experts díaide à la lecture.
ABSTRACT
Textual semiotics and cognitive psychology
are advocated to modell several types of documentary analysis.
A theoretical model is proposed which combine elements from the
two disciplines. Thanks to the addition of values of properties
pertaining to different semiotic systems to the primary and secondary
texts, one can retrieve the units and the characteristics valued
by a group of indexers or by one individual. The cognitive studies
of the experts confirm or complete the textual analysis. Examples
from the findings obtained by the statistico-linguistic analysis
of two corpora illustrate the usefulness of the methodology, especially
for the conception of expert systems to assist whatever kind of
reading.
INTRODUCTION
À líheure où le
nombre de textes intégraux disponibles sous forme électronique
connaÎt une croissance fulgurante, on remet en question
le bien-fondé díune analyse humaine pénalisante
en temps et en argent, sinon en qualité, et líon
propose toutes sortes díanalyses automatiques qui vont
de la simple extraction des chaÎnes de caractères
aux systèmes experts les plus complexes. Parallèlement,
les progrès des connaissances en psychologie cognitive,
en linguistique phrastique et textuelle, en sémantique
et en intelligence artificielle incitent à observer sous
ces divers éclairages les tâches díanalyse
dont il faut tenter soit de modéliser les processus, selon
la conception maximaliste, soit de reproduire les résultats,
selon la conception minimaliste. Des travaux communs avec des
spécialistes de ces différentes disciplines nous
ont conduits a líélaboration de projets de recherche
appuyés sur un modèle théorique qui se consolide
au fur et à mesure des expérimentations sur des
corpus réels avec des analystes réels dans des contextes
diversifiés. Nous voulons découvrir - et expliquer
- les propriétés privilégiées par
les différentes lectures des textes et, pour une même
tâche díindexation, par différents indexeurs.
Dans ce qui suit, nous tâcherons
de montrer la complémentarité díune part
des éléments théoriques empruntés
à plusieurs des disciplines énumérées,
díautre part des méthodologies adoptées pour
les expérimentations, puis nous donnerons un aperçu
des résultats de deux projets concrets pour conclure sur
les perspectives díutilisation de notre approche.
ÉLÉMENTS DU MODÈLE
THÉORIQUE
De nombreux travaux ont mis en évidence
le rôle actif de reconstruction du sens par le lecteur (Eco,
1985; Pennac, 1992). Le modèle que nous essayons de construire
repose sur les prémisses suivantes:
1- Le texte est un entrelacs de
multiples systèmes sémiotiques: éditorial
(typographie, mise en page), lexical, syntaxique, sémantique,
représentationnel, communicationnel, argumentatif, intertextuel,
etc. Ainsi, ce ne sont pas les chaÎnes de caractères
-les porteursÎ - qui sont signifiantes, mais leurs
propriétés relevant de chacun des systèmes
et interprétées par un agent cognitif (Eco, 1988;
Deledalle, 1979). Toute tentative díexplicitation de la
structuration du texte doit donc prendre en compte líexistence
de ces différents systèmes, des différentes
unités qui les constituent et des caractéristiques
qui leur sont rattachées (Halliday, 1985; McKenzie, 1991;
Meunier, 1993; Meunier et al., 1994; Rastier, 1989).
2- La lecture constitue un acte
díinterprétation sensible à certains de ces
systèmes selon le projet ou le point de vue (Iser, 1985),
ce qui díailleurs contribue à rendre les unités
textuelles extrêmement insaisisables (Weaver, 1985). Parce
que la lecture est un acte individuel, elle diffère forcément
en fonction des connaissances, des préoccupations, des
intérêts, des systèmes de valeur et des buts
des lecteurs, mais parce que la lecture est aussi un acte social,
certains invariants peuvent être observés chez des
individus de même culture - de même culture organisationnelle,
entre autres.
3- Les lectures documentaires effectuées
en vue de la classification, de líindexation, de la condensation
constituent des cas particuliers de lecture professionnelle (Hochon
et Évrard, 1994), tout comme la lecture analyse de contenu,
la lecture orientée vers le dépouillement terminologique,
la lecture historique ou la lecture littéraire, etc. par
opposition à la lecture-loisir qui privilégie le
plaisir. Le contexte de travail détermine certains parcours
et ceci díautant plus fortement que la tâche est
codifiée, quíelle est le résultat díun
mandat institutionnel et que le but à atteindre est clairement
identifié. Toutes les lectures combinent une approche perceptive
et une approche conceptuelle dont líimportance respective
varie selon le type de lecture effectuée - lecture orientée
vers la correction typographique, líétude stylistique
ou líanalyse approfondie du contenu, comme les arguments
en faveur díune thèse ou líétude des
marqueurs díun jugement de valeur ou díun souci
prévisionnel - et ceci est vrai des différentes
lectures documentaires (Endres-Niggemeyer 1990; Farrow, 1991).
Elles mettent en jeu diverses opérations cognitives de
sélection, rejet, généralisation (Van Dijk,
1977), stratégies de confirmation et contrôle, etc.
(David, 1990) portant sur des indices ou configurations
díindices dont la pertinence varie en fonction du but à
atteindre. À chaque tâche díanalyse correspond
donc un parcours particulier du texte. La décision díinclure
un document dans une base de données - ou de le rejeter
- níexige pas la prise en compte du même nombre ni
des mêmes types díindices que líopération
díindexation. La rédaction díun résumé
requiert une prise de connaissance plus approfondie du contenu
textuel que líattribution díune rubrique de classification,
mais exige un examen moins attentif cependant que la comparaison
des thèses défendues par plusieurs auteurs, par
exemple.
4- Certaines lectures laissent
des traces comme le surlignage (Le Roux et Monteil, 1993) et peuvent
donner naissance à de nouveaux textesÎ: annotations
marginales, rubriques de classification, résumé,
indexation. Étant donné leurs conditions de production,
ces textes seconds sont en position díintertextualité
avec les textes de départ. Il en est ainsi des mots-clés
choisis avec le texte indexé et, le cas échéant,
avec le résumé de même quíavec líoutil
documentaire utilisé pour convertir le vocabulaire libre
en vocabulaire contrôlé. Cíest ce quíont
affirmé tour à tour Hutchins (1975), Beacco et Darot
(1984) et Begthol (1986).
5- La confrontation du texte de
départ et des produits issus des différentes lectures
permet un examen des éléments textuels jugés
assez importants pour être retenus par rapport à
ceux qui níont pas été sélectionnés
lors de líopération-filtre que constitue líanalyse.
Líexamen est díautant plus fécond que texte
de départ et textes díarrivée peuvent être
observés non pas seulement au niveau des signifiants mais
des propriétés relevant des différents systèmes
à líoeuvre.
MÉTHODOLOGIE EMPLOYÉE
DANS LES EXPÉRIMENTATIONS
La vérification de la validité
de notre modèle síappuie sur la complémentarité
des approches cognitives et sémio-textuelles.
ANALYSES STATISTICO-LINGUISTIQUES
Les corpus
Nous comparons, sous divers aspects,
un corpus de textes sources et de textes-cibles comme les textes
primaires et líindice (ou les indices) de classification
attribué ou bien les résumés et líindexation
auxquels ils ont donné lieu. Il nous faut donc disposer
de versions électroniques de ces corpus ainsi que des outils
documentaires qui ont servi à les analyser: plan de classification
et thésaurus.
Pour SOQUIJ (Société québécoise
díinformation juridique), nous avons étudié
les tâches suivantes: élimination à la source
de certains jugements; détermination du (ou des) domaine(s)
du droit et, le cas échéant, du sous-domaine, selon
un plan de classification préétabli) auquel chaque
décision retenue appartient; prise de connaissance du contenu
des textes en vue de la rédaction díun résumé
informatif; sélection de termes d'indexation à partir
du résumé rédigé par les conseillers
juridiques. Nous nous sommes appuyés sur un corpus de 565
textes intégraux, 1057 notices analytiques, un thésaurus
de 1325 descripteurs et non-descripteurs et un plan de classification
de 57 domaines principaux de droit.
Dans la base de données Envirodoq,
produite par le ministère de líEnvironnement et
de la Faune du Québec, nous analysons surtout les différences
individuelles entre les indexeurs à partir díun
sous-corpus qui comprend 833 notices. Líanalyse du contenu
comprend líattribution díune ou plusieurs rubriques
de classement, la rédaction díun résumé
(résumé surtout indicatif, mais aussi indicatif-informatif
et assez souvent simple annotation), et finalement líindexation
(descripteurs principaux, descripteurs secondaires, candidats-descripteurs,
identificateurs géographiques). Le thésaurus contient
près de 1500 descripteurs et le plan de classification
inclut 23 grandes classes.
Le marquage des textes au moyen du
logiciel SATO
Comme nous ne cherchons pas seulement
les signifiants qui pourraient se retrouver dans líun et
líautre de ces corpus, mais diverses caractéristiques
sémiotiques de ces signifiants, il nous faut recourir à
un logiciel qui permette non seulement le marquage de ces caractéristiques
(propriétés et valeurs de propriétés),
mais leur détection automatique. Nous avons opté
pour le logiciel SATO (Système díanalyse de textes
par ordinateur) conçu par un collaborateur de longue date
(Daoust, 1992).
Les caractéristiques attribuées aux
données, en contexte (dans le texte) ou hors contexte (dans
le lexique), consistent en l'ajout automatique ou assisté
par ordinateur d'informations de nature diverse décrivant
le statut sémiotique des constituants du texte et enrichissant
les chaÎnes de caractères immédiatement accessibles
à l'ordinateur. Ces caractéristiques proviennent
de connaissances générales de la langue (type de
langue, nature grammaticale des lexèmes), de connaissances
générales sur la structure des textes (phrases,
paragraphes), díinformations de nature éditique
(conventions typographiques -- capitales, caractères gras
ou italiques -- dans les enregistrements), de connaissances spécifiques
au domaine (vocabulaire de spécialité, structure
des textes et de leurs résumés, mention de loi,
de jurisprudence et de doctrine), de connaissances "documentaires"
(champs d'une notice, appartenance ou non des lexèmes aux
langages documentaires), de propriétés statistiques
(fréquence absolue ou relative, indice de répartition,
valeur discriminante, chi 2, etc.). On peut introduire autant
de propriétés quíon le juge utile et les
modifier au gré des hypothèses.
Les analyses
Une fois caractérisées,
les données sont filtrées en fonction des différents
indices et soumises à une analyse de discrimination sur
SPSS qui fait ressortir les meilleurs prédicteurs pour
expliquer dans leur ensemble les résultats des diverses
opérations díanalyse ou pour caractériser
les divergences observées entre plusieurs indexeurs.
LES ENQUÊTES COGNITIVES
Pour alimenter le choix des caractéristiques
à examiner dans la confrontation entre textes de départ,
textes intermédiaires et produits finals, nous avons recours
à notre connaissance de líanalyse documentaire,
du contenu des normes et politiques díanalyse des grands
services secondaires ainsi quíaux recherches antérieures
sur les propriétés díun bon terme díindexation
(Jones, 1983; Grunberger, 1985; OíConnor 1965; Weinberg,
1981). Comme les facteurs contextuels jouent un grand rôle
dans líeffectuation de la tâche et comme, avec le
même langage et les mêmes politiques, plusieurs indexeurs
arrivent à des résultats divergents ainsi que líont
montré beaucoup díétudes sur la cohérence
de líindexation (Markey, 1984), il nous faut étudier
de façon plus spécifique la démarche des
sujets responsables de líanalyse documentaire, essayer
de découvrir les techniques et les stratégies employées
pour parcourir un texte, les différentes parties du texte
examinées pour prendre une décision de sélection,
de tri-classification, de résumé et d'indexation,
les connaissances utilisées, les catégorisations
effectuées, les inférences faites pour passer des
expressions en langue naturelle à leurs équivalents
dans le thésaurus.
Dans le premier projet, nous avons privilégié
líentrevue semi-dirigée auprès des experts,
líexplicitation a posteriori des démarches suivies
et des décisions prises, la clarification au vu des résultats
de nos traitements (confrontation entre politiques déclarées
et tendances observées dans les corpus), ainsi que líobservation
non enregistrée des indexeurs commentant leur analyse en
cours díeffectuation. Pour le second projet, comme líéquipe
de recherche comprenait des spécialistes en psychologie
cognitive, nous avons pu procéder à une analyse
de protocoles avec verbalisation concomitante et consécutive
sur trace (les résultats préliminaires font líobjet
díune autre conférence dans le cadre de ce congrès
par David et al., 1995). Rappelons que les recherches sur
les processus cognitifs de líanalyse documentaire sont
relativement récentes et peu nombreuses (Bertrand, 1993;
; David, 1990; Endres-Niggemeyer, 1990; Farrow, 1991).
LA COMPLÉMENTARITÉ
DES APPROCHES
La complémentarité des
approches, recommandée à plusieurs reprises (Chaumier
et Dejean, 1992; Doszkocs, 1986; Blosseville et al., 1992;
Grunberger, 1985), offre des avantages non négligeables.
Líanalyse statistico-linguistique des textes síappuie
sur les productions réelles des analystes - et non pas
sur ce quíils disent faire, ont líintention de faire
ou ont conscience de faire. Elle peut porter sur un très
grand nombre de productions. En cela, elle permet de corroborer
ou de compléter les résultats obtenus à líaide
díenquêtes cognitives qui, elles, ne peuvent être
effectuées quíauprès díun nombre restreint
díexperts pour un petit nombre de textes, mais qui, par
contre, donnent une foule de renseignements très spécifiques
sur les parties de textes examinées, les démarches
de consultation des outils documentaires, les raisons de telle
ou telle décision en autant que les sujets les verbalisent.
Plusieurs des éléments textuels consultés
ne sont pas retenus dans la phase finale de líindexation
et sont donc inaccessibles à líanalyse automatique
des productions; díautre part, plusieurs connaissances
utilisées sont de si haut niveau quíelles ne peuvent
pas être prises en compte par les analyseurs trop rudimentaires.
Les observations faites en cours díexpérimentation
et les questions posées aux sujets sont, à leur
tour, alimentées par les grandes tendances révélées
par líanalyse des textes. En fait, nous procédons
selon un aller-retour entre analyse de textes et observation des
sujets.
QUELQUES RÉSULTATS
Chez SOQUIJ
Avec le projet SOQUIJ, nous avons pu
vérifier que les indices utilisés pour les quatre
opérations díanalyse étudiées sont
très différents et se prêtent inégalement
à une aide informatique.
Ainsi, la sélection de jugements
repose sur des opérations cognitives complexes mettant
en jeu de nombreuses connaissances spécialisées
du domaine juridique et du monde en général. Cíest
pourquoi la prise de décision restera toujours la prérogative
des conseillers juridiques, bien que quelques critères
formels simples, issus de la comparaison díun corpus de
jugements retenus et díun corpus de jugements rejetés,
permettent néanmoins de déclarer candidats au rejet
un certain nombre de textes: les jugements sont courts; ils sont
de type formulaire; ils proviennent de la Cour des petites créances;
ils entérinent une convention.
Le tri-classification, explicité
par les conseillers juridiques et vérifié par différentes
analyses statistico-linguistiques, offre un portrait clair des
éléments importants. L'appartenance d'un jugement
à un domaine du droit peut être décelée,
la plupart du temps, d'après quatre types de renseignements
contenus dans la première page: le tribunal, le nom des
parties ou la procédure entreprise, le numéro de
greffe, l'intitulé du jugement le cas échéant.
Il faut parfois consulter le texte du jugement, pour repérer
soit des lois ou articles du code civil cités, soit le
vocabulaire employé par le juge (surtout des termes répertoriés
dans le thésaurus ou le plan de classification). La combinaison
díindices comme la présence d'un terme associée
à sa position ou la co-présence et la proximité
de deux termes doivent parfois être pris en compte.
Pour la rédaction des résumés,
líenquête cognitive a permis díétablir
une liste des éléments textuels importants pour
tous les experts et pour chacun selon le domaine de droit dans
lequel il oeuvre: díune part, les unités lexicales
du thésaurus, les mentions de lois ou d'articles de lois
ainsi que les termes désignant les juges, díautre
part, certaines expressions indiquant qu'il y a discussion, lien
de causalité, interprétation, etc. Chaque spécialiste
possède, en fait, un schéma de la structure d'exposition
des jugements dans tel ou tel domaine et recherche les énoncés-clés
dans les parties réputées les contenir.
Pour la tâche díindexation,
nous avons comparé les propriétés des termes
présents ou pas dans les résumés et retenus
ou pas dans les manchettes. Toutes nos analyses ont pris appui
sur les phénomènes díintertextualité
entre les résumés, les manchettes et les outils
documentaires. Nous avons, entre autres, exploré líimportance
de critères comme la position des termes dans la macro
et la meso-structure des résumés, leur fréquence,
leur valeur discriminante, líappartenance au domaine de
droit dans lequel le jugement a été classé
et nous avons entrepris líétude de líappartenance
des termes à une grille implicite propre à chaque
domaine du droit.
Dans Envirodoq
Ce sont à peu près les mêmes
propriétés que nous examinons actuellement dans
la base de données Envirodoq pour percevoir les
grandes tendances de líindexation et les divergences entre
indexeurs. Globalement, il appert que: - la généralité des termes (surtout des unitermes du thésaurus) est un bon prédicteur de leur rejet; - la présence díun terme à la fois dans le titre et dans le résumé augmente ses chances díêtre sélectionné comme descripteur principal; - une fréquence élevée dans la notice et une valeur discriminante élevée caractérisent davantage les termes retenus comme descripteurs principaux et candidats-descripteurs que comme descripteurs secondaires; - les termes présents et retenus comme descripteurs principaux et comme candidats-descripteurs se retrouvent de façon significative dans la première phrase;
- les termes présents et retenus comme
descripteurs secondaires, quant à eux, se retrouvent plutôt
dans la dernière ou líavant-dernière phrase.
Des différences entre les deux indexeurs qui ont signé le plus grand nombre de notices ressortent, par exemple: - Y a tendance à retenir un plus fort pourcentage de termes contrôlés présents dans les titres et/ou les résumés; - parmi les termes présents dans les deux zones à la fois et retenus, elle choisit de les mettre en descripteurs principaux plus souvent que X; - lorsquíils sont dans le titre seulement et non présents dans le thésaurus, elle en retient un plus grand pourcentage comme candidats-descripteurs; - ses descripteurs principaux ont une fréquence moyenne plus élevée que ceux de sa collègue, de même que ses candidats-descripteurs; - X privilégie la première phrase comme source de descripteurs principaux et, dans une moindre mesure, de descripteurs secondaires, alors quíun plus grand pourcentage de descripteurs sont tirés de líavant-dernière phrase par Y que par X.
- finalement les termes retenus par X ont un
indice discriminant plus élevé que ceux díY.
CONCLUSION
Les bases théoriques sur lesquelles
nous nous appuyons síavèrent fécondes et
notre analyse sémiotique des textes primaires et secondaires
combinée à une approche cognitive peut avoir plusieurs
applications. Même limitée à certains indices
pertinents décelables par des analyseurs, notre méthodologie
permet à la fois de dégager plusieurs des grandes
tendances díindexation suivies dans une base de données
et de caractériser en partie le style díindexation
de chaque indexeur. Elle ouvre donc la voie à la correction
des politiques díanalyse implicites ou explicites. De plus,
elle constitue un bon moyen díextraction de líexpertise
à partir des productions réelles et offre une complémentarité
à líenquête cognitive en révélant
des faits non explicités. Líinterprétation
des causes de divergences entre la pratique et les politiques
díun service díindexation ou entre indexeurs díun
même service reste évidemment à la charge
de líenquêteur. Les différences observées
peuvent avoir une justification et nécessiter des systèmes
individualisés díaide à líindexation
selon le domaine ou selon le type de documents analysés.
Notre méthodologie consistant à modéliser
certaines des stratégies cognitives mises en oeuvre par
les experts du domaine en fonction des produits attendus, elle
peut servir de préalable à la constitution díun
système expert díaide à la lecture, que celle-ci
soit documentaire ou concerne toute autre approche du contenu
textuel. Cíest díailleurs ce que nous avons fait
pour SOQUIJ au moyen de l'Atelier Cognitif et TExtuel (ACTE) qui
intègre un générateur de système expert
(GSE) et SATO.
BIBLIOGRAPHIE
Beacco, J.-C.; Darot, M. 1984. Analyse
de discours; lecture et expression. Paris: Hachette / Larousse.
Beghtol, C. 1986. Bibliographic classification
theory and text linguistics: aboutness analysis, intertextuality
and the cognitive act of classifying documents. Journal of
documentation; 42(2): 84-113.
Bertrand, A.1993 Compréhension
et catégorisation dans une activité complexe: l'indexation
de documents scientifiques. Thèse de doctorat, Équipe
de psychologie du travail ER 15- CNRS, Université de Toulouse-Le
Mirail, France.
Bertrand-Gastaldy, S., Paquin L.-C.,
Pagola, G., Daoust, F. 1994. Le traitement des textes primaires
et secondaires pour la conception et le fonctionnement d'un prototype
de système expert díaide à líanalyse
des jugements. Colloque Traitement automatique du français
écrit. 62e congrès de líACFAS, 16-20 mai
1994.[à paraÎtre]
Blosseville, M.J.; Hébrail, G.;
Monteil, M.G.; Pénot, N. 1992 Automatic document classification:
Natural language processing, statistical analysis and expert system
techniques used together. SIGIR 92, Proceedings of the fifteenth
annual international ACM SIGIR conference on research and development
in information retrieval, Copenhagen, Denmark, June 21-24, 1992:
51-57.
Chaumier, J.; Dejean, M. 1990. Líindexation
documentaire: de líanalyse conceptuelle humaine à
líanalyse automatique morpho-syntaxique. Documentaliste
; 27(6): 275-279.
Daoust, F. 1992. SATO; Système
d'analyse de texte par ordinateur. Manuel de références.
[Montréal]: Université du Québec à
Montréal, Centre d'analyse de textes par ordinateur.
David, C. 1990. Élaboration
d'une méthodologie d'analyse des processus cognitifs dans
l'indexation documentaire. Montréal: Université
de Montréal, Département de communication. Mémoire
de maÎtrise.
Doszkocs, Tamas. 1986. Natural language
processing in information retrieval. Journal of the american
society for information science; 37(4): 191-196.
Deledalle, G. 1979. Théorie
et pratique du signe; introduction à la sémiotique
de Peirce. Paris: Payot.
Eco, U. 1985. Lector in fabula; ou
la coopération interprétative dans les textes narratifs.
Paris: Grasset.
Eco, U. 1988. Sémiotique et
philosophie du langage. Paris: Presses universitaires de France.
Endres-Niggemeyer, B. 1990. A procedural
model of abstracting, and some ideas for its implementation. TKE'90;
Terminology and knowledge engineering. Frankfurt: Indeks Verlag:
230-243.
Farrow, J. F. 1991. A cognitive process
model of document indexing. Journal of documentation; 47(2):
149-166.
Grunberger, M.W. 1985. Textual analysis
and the assignment of index entries for social science and humanities
monographs. New Brunswick, NJ: Rutgers University. PhD Dissertation.
Halliday, M.A.K. 1985. An introduction to functional
grammar. London: Edward Arnold.
Hochon, J.-C.; Évrard, F. 1994.
Lecture professionnelle et gestion personnalisée de documents
textuels. ICO Québec; 26(1-2): 9-18.
Hutchins, W. J. 1975. Languages of indexing and
classification : A Llnguistic study of Ssructures and functions.
Stevenage, Eng.: P. Peregrinus.
Iser, W. 1985. The Art of reading;A
theory of esthetic response. Baltimore: John Hopkins University.
Jones, K. P. 1983. How do we index?
A report of some Aslib Information group activity. Journal
of documentation; 39: 1-23.
Le Roux, D.; Monteil, M.-G. 1993. Perspectives díautomatisation
de líactivité résumante: présentation
du projet SERAPHIN. ICO93; Actes du colloque international
en informatique cognitive des organisations/ International conference
on cognitive and computer sciences for organizations, 4-7 mai
1993, Montréal:.
McKenzie, D.F. 1991. La bibliographie
et la sociologie des textes. Paris: Éditions du Cercle
de la Librairie.
Markey, K. 1984. Inter-indexer consistency
tests: A literature review and report of a test of consistency
in indexing visual materials. Library and information science
research ; 6: 155-177.
Meunier, J.-G. 1993. Semiotic primitives
and conceptual representation of knowledge. In: Signs,search
and communication ; Semiotics aspects of artificial intelligence,
éd. par René J. Jorna, Barend van Heusden et Roland
Posner. Berlin: Walter de Gruyter: 66-89.
Meunier, J.-G.; Bertrand-Gastaldy, S.;
Paquin, L.-C. 1994. La gestion et líanalyse des textes
par ordinateur: leur spécificité dans le traitement
de líinformation; ICO Québec; 6(1-2): 19-28.
O'Connor, J. 1965. Automatic subject
recognition in scientific papers: an empirical study. Journal
of the Association of computing machinery; 12.
Pennac, Daniel. 1992. Comme un roman.
Paris: Gallimard.
Rastier, F. 1989. Sens et textualité.
Paris: Hachette.
Van Dijk, T. A. 1977. Perspective paper:
Complex semantic information processing. In: Natural language
in information science; Perspectives and directions for research.,
éd. par D.E. Walker, H. Karlgren et M. Kay. Stockholm:
Skriptor.
Weaver, C. 1985. Parallels between new
paradigms in science and in reading and literary theories: An
essay review. Research in the teaching of English; 19(3):
298-316.
Weinberg, Bella Hass. 1981. Word
frequency and automatic indexing. Columbia University. Ph.D.
Thesis. |