Bertrand-Gastaldy, S. , 1993. Analyse documentaire et intertextualité. Les Sciences du texte juridique: Le droit saisi par l'ordinateur . Sous la direction de Claude Thomasset, René Côté et Danièle Bourcier. Textes présentés à un séminaire tenu à Val-Morin, Québec, du 5 au 7 oct. 1992 sous l'égide du Laboratoire Informatique, droit et linguistique du CNRS (France) et du Groupe de recherche Informatique et droit de l'Université du Québec à Montréal. Cowansville: Les Éditions Yvon Blais; 1993: 139-173.
INTRODUCTION
Dans le cadre de deux projets de recherche
menés avec des équipes différentes, j'ai
été amenée à m'intéresser à
la modélisation d'un type particulier d'analyse de textes,
celle que des indexeurs effectuent dans le but d'en produire des
représentations condensées. Le premier projet porte sur les aspects cognitifs de l'indexation des documents dans les bases de données bibliographiques et comprend deux volets: 1) l'analyse des processus cognitifs à l'oeuvre dans une tâche d'indexation en vocabulaire contrôlé comme facteur explicatif du manque de cohérence de l'analyse; 2) le rôle du vocabulaire contrôlé dans la fidélité de la représentation des textes.
Cette étude sera menée sur trois
ans, dans plusieurs services secondaires dont le centre de documentation
du ministère de l'Environnement du Québec avec
une de ses deux bases: Envirodoq. Le second projet, qui intéressera davantage les participants à ce séminaire et dont il sera plus particulièrement question dans cet exposé, a pour objectif la conception d'un prototype de système expert pour l'aide à l'analyse des jugements. Il s'agit de construire un système qui, à partir de chaque décision rendue par les tribunaux et reçue par SOQUIJ (Société québécoise d'information juridique), produise automatiquement : - une ou des rubriques génériques de classification pour le tri par domaine du droit; - une sous-rubrique, le cas échéant, pour une classification plus spécifique dans les domaines où les jugements sont nombreux;
- un indexat qui prend d'abord la forme de
mots-clés contrôlés extraits d'un thésaurus
et de mots clés libres constituant, avec la ou les rubriques
de classification, une sorte de titre enrichi appelé "manchette",
puis qui est réorganisé sous forme d'index avec
quelques modifications. Cet indexat est établi après
ou pendant la rédaction d'un résumé en trois
parties rendant compte des trois types d'informations qui, selon
l'étude de Poirier (1985), se trouvent dans tout jugement:
le litige, le contexte et la problématique (ou décision).
Les différentes représentations
des textes primaires obtenues à la suite des opérations
d'analyse documentaire comme le tri, la classification, l'indexation
et la condensation sont destinées à faciliter le
repérage d'informations dans les recueils imprimés
et dans les banques de données interrogeables en direct.
Dans ces deux projets de recherche, nous essayons de découvrir comment les experts du domaine passent d'un texte A à des textes B, B', B', etc., soit pour comprendre les facteurs de divergence entre plusieurs indexeurs ou entre un indexat en vocabulaire libre et un indexat en vocabulaire contrôlé (comme dans le premier projet), soit pour reproduire aussi fidèlement que possible les résultats de l'analyse humaine ou mettre en oeuvre les correctifs qui s'imposent (c'est le cas du second projet). Pour cela, deux moyens complémentaires s'offrent à nous: 1) l'examen des divers textes en interrelation afin de dépister les traces laissées par des opérations cognitives des analystes comme l'oubli, le choix, la généralisation, la reformulation, etc.
2) l'enquête cognitive qui consiste,
pour les deux projets, en interview des indexeurs, en observation
de ceux-ci dans l'exécution de leuts tâches, en échanges
sur les résultats obtenus à la suite des traitements
automatiques et, pour le premier projet seulement, en analyse
de protocoles verbaux avec traces vidéos pour laquelle
la méthodologie a été testée par David
(1990).
De la confrontation entre textes de départ
et textes d'arrivée sous leurs différentes formes
devraient émerger des régularités et des
dissonnances qu'il nous faudra expliquer - c'est notre hypothèse
- à la fois par les processus cognitifs et par les contraintes
liées à un certain nombre de facteurs comme le contexte
de production, les caractéristiques linguistiques et structurales
des textes analysés, les règles et outils documentaires
(thésaurus, plan de classification) utilisés, les
connaissances, la formation, les intérêts, etc. des
analystes, les utilisateurs auxquels les produits documentaires
sont destinés. C'est pourquoi nous procédons par
un aller-retour entre les textes et les analystes, l'analyse textuelle
et l'étude cognitive s'alimentant mutuellement et se complétant.
Des faits de langue et de discours nous passons aux règles
explicitées par les experts et de ces règles nous
retournons aux faits. Comme Foucault (1969: 39), nous tentons
de "retrouver par-delà les énoncés eux-mêmes
l'intention du sujet parlant, son activité consciente,
ce qu'il a voulu dire, ou encore le jeu inconscient qui s'est
fait jour malfgré lui dans ce qu'il a dit [...]".
Les résumés issus de l'analyse
documentaire "ont pour caractéristique d'être
produits à partir d'autres textes, d'en rendre compte
et d'y renvoyer", car ils entretiennent une relation de paraphrase
avec les textes primaires; ils "ont en commun que l'intertextualité
fait partie de leurs conditions d'élaboration", pour
reprendre les termes de Beacco et Darot (1984: 107). Begthol (1986:
97) avait généralisé le phénomène
à tous les énoncés seconds, y compris les
rubriques de classification et les descripteurs assignés
pour rendre compte du "contenu" des textes primaires:
"One set of intertextual relationships exists between a work,
its various derivative texts such as its summary or abstract and
its expression in a documentation language."
C'est pourquoi il nous a semblé important
de camper la théorie de l'intertextualité, d'examiner
en quoi elle peut constituer un cadre intéressant pour
le genre d'étude que nous menons et de dépister
d'éventuelles expérimentations effectuées
en sciences de l'information qui aient elles aussi pris appui
sur cette théorie. Nous rendrons ensuite compte des travaux
réalisés grâce au logiciel SATO (système
d'analyse de textes par ordinateur) mis au point par François
Daoust (1992) et nous les illustrerons avec quelques résultats
préliminaires obtenus sur un corpus de jurisprudence.
L'INTERTEXTUALITÉ ET SES DIFFÉRENTES
MANIFES-TATIONS
Qu'est-ce que l'intertextualité?
Voyons d'abord comment certains auteurs abordent
l'intertextualité.
Angenot (1983: 123) reprend les termes de
Kristeva selon laquelle le travail intertextuel est "prélèvement"
et "transformation".
Pour Philippe Sollers (cité par Angenot,
1983: 125): "Tout texte se situe à la jonction de
plusieurs textes dont il est à la fois la relecture, l'accentuation,
la condensation, le déplacement et la profondeur."
En ce sens, l'analyse documentaire qui consiste
à représenter les textes primaires de façon
condensée, selon des niveaux variables d'exhaustivité,
en fonction des intérêts particuliers d'une clientèle-cible,
correspond tout à fait à ce type d'opération.
Eigeldinger (1987: 10-11), quant à lui,
rappelle que: "[...] pour Jean Ricardou, elle se définit
[...] comme "l'aptitude pour tel élément d'un
texte à se mettre en rapport avec un ou plusieurs éléments
d'au moins un autre texte [...]". On pourrait objecter que
ce n'est pas un élément du texte qui va se mettre,
de sa propre initiative, en relation avec un autre élément,
mais bien un agent cognitif qui effectue des opérations
d'analyse, de prélèvement, de synthèse, de
transformation, de réécriture, etc.
Toujours selon Ricardou, "Le propre de
l'intertextualité est de construire un univers relationnel,
un univers d'alliances et de connexions, favorisant la libre circulation
entre les oeuvres; elle est le lieu de leur confrontation et de
leur cohabitation dans le langage. " Un peu plus loin, Eigeldinger
(1987: 16) précise: "[...] la principale fonction
de l'intertextualité est transformatrice et sémantique.
Il ne s'agit pas de reproduire à l'état brut le
matériau d'emprunt, mais de le transformer et de le transposer
[..] dans le but d'inaugurer, d'engendrer une signification nouvelle."
Textualité et analyse documentaire
Avant d'aller plus loin dans l'exploration
de l'intertextualité en analyse documentaire, il convient
se demander si, avec les différents outils et produits
documentaires, l'on a bien affaire à des textes.
Begthol (1986: 94) s'appuyant sur les critères
de textualité énoncés par de Beaugrande (1980:
19-20) pour légitimer l'actualisation et l'utilisation
des textes (cohésion, cohérence, intentionalité,
acceptabilité, situationnalité, intertextualité
et informativité), trouve justifié de considérer
comme un type particulier de texte le système de classification
avec son introduction, ses instructions, ses tables, son manuel
de l'utilisateur. Pour les mêmes raisons, le thésaurus
est aussi un texte. Point n'est besoin qu'un discours soit constitué
d'énoncés correspondant à la structure linguistique
de la phrase. D'après Foucault (1969: 109), "un tableau
classificatoire des espèces botaniques est constitué
d'énoncés, il n'est pas fait de phrases". Quant
aux rubriques de classification et aux descripteurs figurant dans
les indexats, on peut les rapprocher d'énoncés minimaux
comme ceux que Foucault (1969: 109) cite en exemple: "Quand
on trouve dans une grammaire latine une série de mots disposés
en colonne: amo, amas, amat, on n'a pas affaire à
une phrase mais à l'énoncé des différentes
flexions personnelles de l'indicatif présent du verbe amare."
. Nous avons montré par ailleurs (Bertrand-Gastaldy, 1989:
24-27) que langages documentaires et représentations secondaires
d'un texte répondaient en tout point aux critères
de Foucault pour les considérer comme des énoncés.
Les divers types d'intertextualité
à l'oeuvre dans l'analyse documentaire
L'intertextualité peut s'exprimer de
multiples façons. Genette (1987) en a dressé une
typologie détaillée, dont on peut retrouver les
manifestations dans plusieurs aspects de l'analyse documentaire.
La transtextualité
La transtextualité constitue le terme
générique pour désigner ce que l'on nomme
habituellement intertextualité, puisque c'est "tout
ce qui [...] met [un texte] en relation, manifeste ou secrète,
avec d'autres textes (Genette, 1987: 7). On notera au passage
le caractère secret que peut revêtir la mise en relation,
certains traitements automatiques des corpus pouvant en effet
faire émerger des relations jusque-là cachées,
comme nous l'illustrerons dans la dernière partie de cet
exposé. Il revient donc à l'"archéologue"
de la transtextualité de trouver les outils appropriés
pour faire surgir ces relations multiples.
L'hypertextualité
Parmi toutes les formes de transtextualité,
c'est sans doute l'hypertextualité qui est la plus fréquente
dans les systèmes documentaires: pour Genette il s'agit
de toute relation unissant un texte B (hypertexte ) à
un texte antérieur (hypotexte ) sur lequel il se
greffe d'une manière qui n'est pas celle du commentaire.
"Il s'agit donc des multiples processus qui permettent de
produire un texte à partir d'un autre." (Maingueneau,
1991: 155).
On reconnaÎt la relation qui unit les
représentations dérivées: le résumé,
les indexats et les rubriques de classification avec le texte
primaire, avec le thésaurus et le système de classification,
mais aussi ces langages documentaires et les textes à partir
desquels ils ont été constitués.
- Les relations entre les outils documentaires
et les textes analysés d'une part, entre les textes réunis
sous la même étiquette d'autre part
Comme le rappelle Begthol (1986: 95-96) qui
s'appuie sur les théories de Van Dijk (1976), les textes
ayant reçu une même rubrique de classification partagent
un même sujet, en vertu du jugement de similarité
qu'a posé l'indexeur sur la base des macropropositions
dégagées lors de la lecture des textes: "[...]
the necessary similarity of the highest appropriate macropropositions
of all the documents that can be grouped under a certain class
name connects each document intertextually to all the others."
En fait, l'insertion d'un texte sous une rubrique de classification, d'un descripteur ou d'un ensemble de descripteurs par un indexeur donne un nouvel éclairage à ce texte, crée un nouveau réseau de relations en le rapprochant à la fois du système de classification ou du thésaurus et de l'ensemble des autres textes qui ont déjà reçu les mêmes "étiquettes". C'est ce qu'exprime bien Eigeldinger (1987: 11) dans ce passage: "L'intertextualité consiste, dans la démarche de l'écriture, en un double mouvement d'intégration et de métamorphose, en un "travail de transformation et d'assimilation de plusieurs textes opéré par un texte centreur qui garde le leadership du sens", comme le note Laurent Jenny [...]. Elle absorbe l'énoncé qu'elle emprunte à un modèle antérieur pour l'inscrire dans un autre ensemble textuel; elle ne se contente pas toutefois de l'incorporer, elle le soumet à une activité transformatrice, elle enchâsse le texte primitif dans un contexte nouveau dans le dessein d'en modifier le sens. L'intertextualité ne recouvre ainsi pas seulement une opération mémoriale et assimilatrice, elle n'est pas uniquement une transplantation d'un texte dans un autre, mais elle se définit par un travail d'appropriation et de réécriture qui s'applique à recréer le sens, en invitant à une lecture nouvelle. L'énoncé premier, qui a été prélevé, ne doit pas apparaÎtre comme un matériau étranger dans le contexte où il s'insère, il importe qu'il s'inscrive dans la cohérence de son nouvel espace textuel par l'effet de transformation et de renouvellement.
Le problème de l'intertextualité,
c'est de faire tenir plusieurs textes en un sans qu'ils se détruisent
mutuellement ni que l'intertexte [...] n'éclate comme totalité
structurée.*"
Thésaurus et plan de classification
conservent le "leadership du sens", tant et aussi longtemps
qu'il ne faut pas forcer l'interprétation pour faire entrer
le nouveau dans le cadre de l'ancien, ce qui est impossible dans
le cas des productions scientifiques d'un domaine en émergence
ou tout simplement en développement. Au fil du temps, la
discordance se fait de plus en plus forte entre les nouveaux textes
et d'une part le système de classification, d'autre part
les textes antérieurs. Les changements apportés
au Code civil au Québec et les répercussions prévues
sur quelque 234 lois ne manqueront pas d'affecter les langages
documentaires de SOQUIJ.
De plus, la comparaison de l'entour des unités
lexicales dans le thésaurus et dans les textes fait ressortir
le caractère artificiel du langage documentaire. Alors
que le réseau des termes avec lesquels le descripteur entretient
des relations est figé dans le thésaurus, il ne
cesse de se diversifier et de se renouveler dans les textes, faisant
apparaÎtre des significations temporaires et des polysémies
exclues du langage formel. Son sens bénéficie alors
d'un double éclairage: celui qui avait été
prévu lors de sa conception et celui, plus vivant, qui
se forge au fur et à mesure de l'analyse de nouveaux textes.
À propos de Baktine, Maingueneau (1991: 153) rappelle que
"la perspective dialogique qu'il défend affirme qu'une
irréductible altérité traverse le texte comme
le sujet." et qu'il "se plaÎt [...] à répéter
que les unités linguistiques sont déjà habitées
par la parole des autres, qu'elles ne passent dans le discours
de l'énonciateur qu'avec l'aura [...] que leur confèrent
les situations dans lesquelles elles sont utilisées."
- Les relations entre les descripteurs dans
le thésaurus et les descripteurs dans les indexats
Il en est de même, mais dans une moindre
mesure dans les indexats : la juxtaposition d'un descripteur
avec d'autres peut révéler l'émergence de
problématiques nouvelles qui n'existaient pas dans le corpus
virtuel ayant servi d'assise à l'élaboration du
thésaurus, comme l'étude de Chastinet et Robredo
(1974) l'avait illustré à propos de la nouvelle
problématique de la corrosion du verre par les détergents
lorsque les lave-vaisselle se sont répandus dans les foyers
français, après la première édition
du Thésaurus Verrier . C'est pourquoi les relations
de cooccurrence viennent dans certains thésaurus compléter
les relations thésaurales habituelles - préférentielles,
hiérarchiques et associatives -(c'est le cas dans le UMLS
- Unified Medical Language System - conçu par la National
Library of Medicine pour intégrer les terminologies biomédicales
en vue de faciliter la recherche d'informations) ou tout simplement
les supplanter comme dans les thésaurus dits de recherche
"search only thesaurus" (Bertrand-Gastaldy, 1984; Lancaster,
1977; Richer, 1986).
Laurent Jenny montre justement que l'intertextualité
(au sens de la transtextualité de Genette) fonctionne "comme
détournement culturel" et comme "réactivation
du sens", qu'elle est "une machine perturbante",
chargée de produire la subversion [..]. Elle empêche
le sens de se figer dans le discours et le récit, en le
réanimant et en lui insufflant de nouvelles énergies"
(Eigeldinger, 1987: 16).
- Les relations entre le thésaurus
et le plan de classification
Lorsque le système documentaire utilise
concurremment, comme c'est le cas à SOQUIJ, deux outils
d'analyse de profondeur et de spécificité différentes
comme un thésaurus et un plan de classification, il se
noue indirectement des liens entre les deux outils, liens que
l'on peut mettre au jour grâce à leur cooccurrence
d'emploi pour représenter les mêmes textes. Chaque
rubrique de classification se colore donc de son voisinage plus
ou moins marqué avec certains descripteurs et chaque descripteur
tend à se positionner à différents endroits
du plan de classification, ce qui ajoute encore aux influences
de son voisinage dans les indexats et dans le thésaurus.
- Les relations entre les nouveaux textes
sélectionnés et les autres textes déjà
parus
Les nouveaux textes qui entrent dans le système
d'information sont évalués pour la sélection,
la classification et l'indexation, en fonction de ce que contient
déjà la base de données, donc de leur nouveauté,
de leur spécificité. Certains, devenus banals à
cause de la fréquence de la thématique abordée,
du genre de cause portée devant le tribunal, du nombre
de fois qu'un point de droit a déjà été
débattu, seront rejetés alors que s'ils étaient
arrivés plus tôt, ils auraient sans doute été
retenus. L'interprétation des nouveaux textes subit donc
en partie l'influence des textes antérieurs.
- Les relations entre le thésaurus
ou le plan de classification et les textes qui ont servi à
leur élaboration
Thésaurus et plan de classification
sont tous deux le résultat d'une "transposition [...]
d'énoncés antérieurs ou synchroniques"
(Kristeva citée par Angenot, 1983: 123) qui, dans le cas
de SOQUIJ, provenaient de la jurisprudence, de la doctrine, de
la législation et d'autres thésaurus ou systèmes
de classification. On y retrouve bien le "croisement dans
un texte d'énoncés pris à d'autres textes".(Ibid.).
On reconnaÎt là le fameux principe de l'élaboration
des outils documentaires, le"literary warrant". L'inconvénient,
c'est que, la plupart du temps, ce corpus qui a servi à
leur constitution est difficilement cernable, il est flou, non
déclaré. On ne retrouve pas les standards qui servent,
selon de Beaugrande (1984: 37-40), à définir la
textualité. Il est non médiatisé, comme le
dirait ce dernier. Il faudrait se livrer à un patient travail
pour le reconstituer et encore n'y parviendrait-on que partiellement.
L'extratextualité
Ceci nous amène à l'extratextualité.
En effet, outre un corpus de textes, c'est toute une culture qui
est investie dans les langages documentaires, si bien que certains
préfèrent parler de "cultural warrant",
que cette culture soit limitée à un domaine de connaissances
(c'est le cas des thésaurus et de classifications spécialisées)
ou qu'elle ait une ambition plus universaliste, comme dans certains
systèmes de classification (Library of Congress, Dewey
Decimal Classification, par exemple). Le vieillissement est inévitable
et perceptible dans les systèmes à vocation encyclopédique
à cause de la lourdeur qui retarde les mises à jour.
Begthol (1986: 97-98) rappelle que l'URSS trouvait que la DDC
était entaché de capitalisme et que l'on voulut
développer un système exempt de mentalité
"bourgeoise". Les systèmes de classification
peuvent ainsi devenir de véritables indices culturels pour
les historiens. L'influence du contexte s'étend à toutes les activités documentaires. La sélection et l'analyse des textes dans un système documentaire sont, en effet, tributaires des intérêts et des préoccupations de la micro-société à laquelle les produits secondaires sont destinés. L'actualité joue un grand rôle dans la sélection des documents et cela suppose des connaissances qu'il est difficile de formaliser et de mettre à jour dans une base de connaissances. Ainsi, les conflits entre la Croix Rouge et la Société des hémophiles retiennent-ils l'attention en ce moment, de même que tout ce qui touche au patrimoine familial, ce qui oriente nécessairement le choix des jugements à analyser chez SOQUIJ. En outre, la production de chaque type d'énoncés scondaires est conditionnée par des normes internationales, nationales, par des politiques institutionnelles et un ensemble de facteurs extra-textuels que nous avons mentionnés en introduction, y compris la structure cognitive de l'analyste. C'est ce qui explique l'unicité de toute analyse:
"Text production is one example of actualization,
and the text itself is one example of an actual system. Any
further utilization of a text, such as reading, interpreting,
quoting, etc., is also actualization and activation, though under
new conditions affected by the original event of production, and
by the surface text as artifact (if available) -- an illustration
of intertextuality [...]. (de Beaugrande, 1984: 34-35).
La paratextualité
La paratextualité, chez Genette, désigne
la relation d'un texte à son "entourage" (titre,
sous-titres, intertitres, épigraphes, illustrations, commentaires
marginaux". "Tous ces éléments n'ont rien
d'accessoire dans la mesure où ils prescrivent la manière
dont le texte entend être reçu, agir sur ses destinataires.
" (Maingueneau, 1991: 154-155). Si l'on se fie à notre
enquête cognitive auprès des conseillers juridiques,
ce paratexte joue un rôle important dans la lecture rapide
destinée au tri des jugements dans un domaine du droit.
L'intertextualité: les citations
Pour Genette (1987), les citations constituent, avec le plagiat et l'allusion entre autres, la véritable intertextualité, parce qu'il s'agit de la présence effective d'un texte dans un autre. Pour Eigeldinger (1987: 12):
"La citation apparaÎt comme le modèle
premier de l'intertextualité parce qu'elle coïncide
avec la reprise d'un énoncé pour l'intégrer
dans un autre contexte et qu'elle institue un système d'échange
entre deux ou plusieurs textes. Elle est une réminiscence
consciente, volontaire qui participe au déchiffrement de
l'oeuvre dans le corps de laquelle est est insérée
[...]. [...] L'intextextualité se présente soit
comme une citation directe et explicite dont la référence
est donnée, soit comme une citation indirecte et implicite
qui ne comporte pas de renvoi à une référence
et qui est laissée à la sagacité du lecteur."
C'est bien sûr le premier type de citations
qui intéresse les chercheurs en sciences de l'information.
On sait toute l'utilisation que la bibliométrie en fait,
notamment pour remplacer l'indexation et regrouper les textes
à thématique, méthodologie, etc. communes.
Les citations constituent donc des traces qui peuvent servir à
rendre visibles certains phénomènes de transtextualité.
L'architextualité L'architextualité, selon Genette (1987), range le texte dans une taxinomie, dans une typologie des discours. Elle crée des attentes pour des ensembles d'occurrences de phénomènes textuels: "expectations are formed for whole classes of language occurrences" (de Beaugrande, 1980: 20). En documentation, les normes de rédaction de résumés (Organisation internationale de normalisation, 1976) pour les publications scientifiques recommandent de présenter le problème, la méthodologie, les résultats et la discussion de ceux-ci tout simplement parce que c'est ainsi que sont structurés la plupart des textes primaires. Les travaux de Janos (1979) et Maeda (1981), de même que ceux d'Oddy et al. (1992) s'efforcent de découvrir la métastructure des résumés et d'ent tirer profit pour l'analyse et le repérage. C'est l'architextualité qui a permis à Poirier (1985) d'étudier les particularités des jugements pour en dégager une structure d'information à reprendre dans les résumés. Elle a pu reconnaÎtre trois catégories d'information toujours présentes dans un jugement: - le litige qui regroupe "l'énoncé des procédures entreprises et des issues recherchées et obtenues. Pour utiliser le langage du métier, on parlera d'indicateur d'action et de dispositif, c'est-à-dire quelle est la nature de l'action intentée et quelle est la décision rendue sur cette action. C'est le noyau 'performatif' du jugement, ce en quoi il agit, il ordonne." - le contexte: "C'est le substrat concret sur lequel porte la qualification juridique. Le contexte comprend: la présentation des faits ou événements, des parties en cause et des relations entre celles-ci, des admissions ou documents nécessaires au litige. Il peut comprendre encore le cheminement du dossier jusqu'à l'instance qui est la sienne."
- la problématique qui contient: "l'énoncé
des prétentions respectives des parties, l'argumentation,
la discussion, la recherche d'une solution et la solution elle-même,
la règle de droit applicable. [...] La problématique
peut être de diverses natures: elle peut porter sur la qualification
juridique des faits, l'appréciation de la preuve, la détermination
de la procédure appropriée, la détermination
d'une responsabilité, l'évaluation d'un dommage,
la recherche de la règle de droit applicable et son application,
l'interprétation d'une règle de droit, etc. C'est
dans la problématique que se trouve la matière juridique
d'un jugement, la règle de droit qui pourra s'appliquer
à d'autres cas analogues ou similaires. Alors que contexte
et litige sont intimement liés à une affaire, c'est
la problématique qui peut donner lieu à une généralisation."
(Poirier, 1985: 120-122).
En somme, si nous voulons retrouver l'expertise
humaine d'analyse à partir des énoncés secondaires,
il nous faut explorer non seulement les liens entre le texte
source et les différentes formes de "textes"
dérivés selon les outils documentaires ou directives
utilisés (rubriques de classification, mots-clés
libres et mots-clés contrôlés, résumés
indicatifs et résumés informatifs), mais aussi les
liens entre les résultats de l'analyse et les outils qui
servent à les produire, entre ces outils et les textes
qui ont inspiré leur production.
RECHERCHES EN SCIENCES DE L'INFORMATION
SUR L'"ACTIVITÉ RÉSUMANTE"
Curieusement, alors que l'intertextualité
est inhérente au processus d'analyse documentaire, le terme
est quasiment absent de la littérature en sciences de l'information.
Seule Beghtol (1986) en fait une thèse importante de son
article sur les processus cognitifs de la classification. Dans
les différentes bibliographies sur l'intertextualité
consultées (Angenot, 1983: 133-135; Texte ; Revue
de critique et de théorie littéraire, 1983),
aucune référence ne fait allusion aux sciences de
l'information. C'est pourquoi il nous a paru intéressant
d'aller y voir de plus près.
Rareté des études sur la relation
entre l'hypertexte et ses divers hypotextes
En fait, la relation entre le texte et les
termes d'indexation n'est pas fréquemment étudiée,
comme le faisait d'ailleurs remarquer Jones en 1983. On pourrait
en dire autant de la relation entre le texte et les autres types
d'hypertextes: rubrique de classification et résumé.
Plusieurs chercheurs en sciences de l'information
ont pris pour acquis qu'il existe une relation entre la capacité
d'un mot à être choisi comme terme d'indexation (son
"indexability") et sa fréquence et que les progrès
de l'indexation automatique passent par le raffinement des modèles
statistiques. On reconnaÎt les travaux de Salton, Harter,
Bookstein, Swanson, etc.
Quelques auteurs ont cherché à
explorer d'autres propriétés que la fréquence
pour les mots sélectionnés par des indexeurs. Ils
se sont limités alors à la position de ces mots
dans le texte, texte qui, en général, consiste en
un résumé ou en un paragraphe. C'est ainsi que O'Connor
(1965) a pu démontrer, sur un corpus en chimie, qu'un terme
situé dans la première ou la dernière phrase
d'un paragraphe était un bon candidat pour l'indexation
humaine. Les quatre expériences menées par Aslib
Informatics Group et rapportées par Jones (1983) aboutissent
au même résultat. Elles montrent en outre qu'il y
a une relation entre la fréquence et l'"indexability";
malheureusement ces expériences sont dénuées
de rigueur scientifique. Weinberg (1981), pour sa part, n'a pas
pu trouver de relation significative entre la fréquence
et l'"indexability". Quant aux hypothèses de
Grunberger (1985) sur la fréquence et la position des termes
dans un corpus de monographies en sciences humaines et sociales,
elles ont toutes deux été infirmées. Comme
il le fait remarquer (1985: 30) à propos de Jones (1983),
aucune tentative n'est faite pour expliquer ou définir
la nature de la relation entre la fréquence ou la position
des termes et leur capacité à être choisis
pour l'indexation.
La question fondamentale que Coates posait
en 1979 n'a donc pas encore reçu de réponse: "How
does an indexer determine what is, or what is not, indexable?".
Et il faut bien reconnaÎtre que l'indexation automatique
a fait peu de progrès depuis ses débuts, il y a
de cela une trentaine d'années. Grunberger suggère de se tourner vers les phénomènes linguistiques qui caratérisent la langue écrite (les niveaux macrotextuel et micro-textuel, les anaphores et les déictiques, entre autres) et vers les processus cognitifs à l'oeuvre dans la sélection des termes d'indexation. Il incite à explorer les théories de la psychologie cognitive et les théories de la décision, car, bien que l'indexation automatique n'ait pas à mimer les mécanismes de l'indexation humaine, elle profiterait certainement d'une meilleure compréhension des stratégies humaines d'analyse:
"While machines may not need to mimic
humans to do effective indexing, clearly an understanding of how
humans index might assist in formulating machine indexing algorithms.
[..] clearly, we do not know enough about how humans index; consequently,
we have been unable to describe this vital process for the machine."
(Grunberger, 1985: 97)
La prise en compte les phénomènes
linguistiques
Du côté de la prise en compte
des phénomènes linguistiques, les sciences de l'information
les envisagent souvent dans la perspective de l'interrogation,
en termes de taux de rappel et de précision. On cherche
rarement des explications dans les textes sources. Les phénomènes
d'anaphore ont cependant fait l'objet de quelques études
(Liddy, 1990; Vidalenc, 1988), les déictiques ont peu retenu
l'attention, de même que la paraphrase. Debili (1982) a
proposé un analyseur lexico-sémantique pour faire
face à la synonymie phrastique. Quant aux conditions de
production et aux divergences qu'elles engendrent dans les hypertextes,
elles ne font l'objet que d'allusions et ne semblent pas avoir
donné lieu à des expérimentations systématiques.
De son côté, Danièle Bourcier (1976) a montré comment les systèmes informatiques qui prennent la langue comme code sont incapables de donner accès à l'implicite: "L'implicite du discours juridique est lié à l'interprétation de la signification littérale: la réunion (au sens logique) de plusieurs informations dans la règle de droit est censée produire une signification "dérivée" que l'interprète peut induire ou déduire[...].
Cette opération d'explicitation participe
de ce qu'on appelle la nécessaire intervention humaine
au moment de la préparation du document de base (explicitation
ou indexation). Le document de base doit contenir et exprimer
toute l'information. Or si le texte original contient toute l'information,
il ne l'exprime pas toute. Il existe donc un écart entre
ce qui est "contenu" et ce qui est "exprimé".
On retrouve ici toute la question de l'interprétation en
droit telle qu'elle est vue par les normativistes [...] (Bourcier,
1976: 14)
Elle affirme aussi qu'"il faut élargir
la notion de concept (le droit repose sur le concept, c'est-à-dire
sur une organisation cognitive et logique du langage) à
sa possibilité d'être paraphrasé et intégré
dans des ensembles plus vastes".(Ibid.: 18). Avec des préoccupations pédagogiques et non pas de repérage de l'information, deux chercheurs ont procédé à une analyse de discours sur les résumés pour en dégager la matrice discursive. Ils avancent que le cadre de leurs observations est "aussi constitutif des articles de revues de sciences sociales, dont procèdent ces descriptions signalétiques: leurs dimensions réduites révèlent, en les cristallisant en quelque sorte, des éléments dispersés ou sous-jacents dans les textes d'articles. En ce sens, cette approche serait à reprendre sur un corpus constitué par les articles eux-mêmes." (Beacco et Darot, 1984: 115). En procédant à une comparaison entre un texte et son résumé, ils aboutissent à cette constation:
"le résumé reproduit quelquefois,
explicitement ou non, la démarche du texte, mais la réduction
du texte se fait à un degré non constant: à
une phrase ou à une proposition du résumé
correspondent des segments du texte ou des segments de phrases
de l'article d'étendue variable, sans parler des sauts
et des ruptures. Il est extrêmement rare, par exemple, que
chaque phrase d'un résumé renvoie systématiquement
à un intertitre du texte. Il n'en demeure pas moins utile
d'essayer d'éclairer le sens du résumé par
celui des intertitres et de faire établir des relations
dans cette relation paraphrastique." (Ibid.: 119)
et concluent: "[...] ce résumé
est exemplaire d'une réduction non homogène mais
cependant fidèle: sa structuration, qui réorganise
le contenu sémantique, n'est pas "parallèle"
à celle du texte de l'article." (Ibid.: 121).
La prise en compte les processus cognitifs
En ce qui concerne les processus cognitifs,
la recherche est rès récente. L'auteur qui a été
le plus précis sur la spécificité des opérations
et sur les objets sélectionnés, Farrow (1991), n'a
pas effectué d'expérimentation. Il propose un modèle
adapté de diverses études en psychologie cognitive
et émet des hypothèses à la lumière
de ce qu'il sait et des directives données dans les normes
d'analyse. Beghtol (1986) colle au modèle proposé
par Van Dijk, sans faire d'expérimentation elle non plus.
Endres-Niggemeyer (1990) a étudié un seul individu,
avec la méthode d'analyse de protocole. Le premier de
ces chercheurs rapproche les stratégies de prise de connaissance
du contenu des indexeurs de celles des lecteurs rapides, avec
la différence que la lecture rapide ordinaire se fait sans
but précis, alors que la lecture rapide en vue de l'analyse
est orientée par la tâche à accomplir. Ceci
semble avoir des conséquences non seulement sur les opérations
cognitives effectuées mais aussi sur les objets textuels
examinés et, par conséquent, sur ceux qui sont retenus
et sur leurs propriétés: la lecture sans but aboutit
à l'écrémage ("skimming") des mots
de signification, sans distinction de ce qui est secondaire de
ce qui est important, sans souci d'intégration, sans cherche
de la cohérence locale entre les idées. L'objectif
est d'"encapsuler" la compréhension dans une
poignée de mots clés isolés, les détails
et la cohérence locale étant considérés
comme des distractions inutiles (Farrow, 1991: 152-153). Les lecteurs rapides avec but comme les indexeurs opèrent en même temps au niveau perceptif et au niveau conceptuel, parcourent ("scan") le texte de façon sélective et recherchent des indices bien précis ("specific perceptual cues"): certains sont purement typographiques (mots en italiques, titres, sous-titres, début ou fin de paragraphe), beaucoup sont lexicaux (des mots fréquents, par exemple, dont certains déclenchent l'activation des autres mots du réseau), d'autres sont structuraux: mots ou expressions marquant l'introduction ou la conclusion, "In this paper we ...", "results suggest":
"indexers opearate at a number of levels,
one of which is a 'structural or textual framework level', where
it is claimed that authors jot down, or at least carry in their
heads, 'skeletal structures' of what they are writing, and the
indexer's task is to 'disinter this skeleton' by searching for
surface clues." (Farrow, 1991: 155) Les analystes recherchent des marques physiques explicites ("formal text mark-up"), des définitions, des exemples mais aussi sans doute des marques implicites, d'après Endres-Niggemeyer, 1990: 234, 236) et vérifient la première et la dernière phrase des paragraphes qui contiennent habituellement des éléments sémantiques importants ("desirable semantic items") et des termes exprimant le thème de la discussion ("they are the known favourite places of ready-made topic expressions"). Ils sélectionnent les propositions principales pour former une macro-structure cohérente, font des inférences plausibles pour connecter les propositions. Les indexeurs procèdent plus par approche conceptuelle que par approche perceptuelle. Leur tâche est d'autant plus aisée que les textes parcourus et le domaine auquel ils sont rattachés leur sont familiers:
"In rapid reading, [...] text is sampled
almost fortuitously, and the skill that trained speed-readers
acquire is skill in inferring connections between the bits of
text that they happen to have sampled. If the material is familiar,
speed readers will possess schemata that are sufficiently detailed
to support their inferences. These findings indicate the need
for indexers to have specialist knowledge of the subjects they
are indexing." (Farrow, 1991: 154)
Les relations entre le texte de départ
et le texte d'arrivée peuvent donc s'expliquer à
la fois par des propriétés des éléments
textuels, par la structure textuelle et par des opérations
cognitives comme la compréhension de texte dans une situation
particulière de lecture rapide avec but ("scanning"),
d'oubli, de sélection, de reconstruction. Avant de bâtir
une expérimentation, il faudrait distinguer les activités
de tri-classification, d'indexation et de condensation, examiner
la fonction des résultats auxquels elles doivent aboutir,
pour faire des hypthèses sur les stratégies de prise
de connaissance des textes (la lecture est plus ou moins approfondie
selon que l'on doit classifier, indexer ou résumer), sur
les opérations en jeu, sur les connaissances mobilisées
dans chaque cas, sur les outils documentaires consultés,
sur les objets parcourus, retenus ou rejetés, sur la façon
de les transformer, etc. La seule opération d'indexation
n'est-elle pas multiple? Assigner ou extraire des mots-clés
isolés (tâche assimilable au "tagging"?)
ne revient pas au même que de produire un terme complexe
avec mise en relation des différents constituants de façon
à produire un énoncé?
Aucun auteur n'étudie l'influence des
outils documentaires sur le texte reconstruit, bien que Beghtol
la mentionne. On sait pourtant qu'ils peuvent avoir un effet néfaste
sur la fidélité de l'indexation. Les reproches adressés
sporadiquement aux thésaurus pendant les deux décennies
précédentes se font de plus en plus nombreux. Plusieurs
suggestions ont été formulées récemment
pour améliorer cette représentation très
grossière du monde et en proposer divers enrichissements:
ajout de termes d'entrée (Kristensen et JÄrvelin,
1990; Rada et al., 1988), étiquetage précis
des relations autres que hiérarchiques (Rada et al.,
1991), bref, transformation du thésaurus en véritable
base de connaissances (Moholt, 1990). L'efficacité de ces
enrichissements a été testée sur le repérage
assisté par ordinateur ou entièrement automatique,
mais pas sur la représentation des textes ni sur les interactions
des indexeurs avec les textes et le thésaurus enrichi.
On a mesuré la distance entre les documents signalés
et les questions, mais pas entre les documents et leur indexation,
bien que l'on souligne le double rôle du thésaurus
pour le décodage et l'encodage (Reich et Biever, 1991).
NOS EXPÉRIMENTATIONS SUR L'ANALYSE
DES JUGEMENTS
Notre travail, dans le cadre du prototype de
système expert d'aide à l'analyse des jugements,
consiste à confronter les divers textes en interrelations,
textes primaires et textes secondaires, espérant trouver
des régularités révélatrices d'un
certain savoir-faire. Dans un premier temps, nous attribuons automatiquement
des propriétés aux unités lexicales et aux
segments textuels: ces propriétés ajoutent de l'information
explicite, des marques, à des données jusqu'alors
non structurées et permettent de vérifier l'utilisation
qu'ont faite les indexeurs de certaines catégories de données
et de certaines de leurs propriétés pour la construction
des différentes représentations des textes primaires.
D'autre part, les conseillers juridiques chargés de l'analyse
des jugements nous sont accessibles et nous pouvons les interroger,
les observer dans l'accomplissement de leurs tâches, les
faire réagir aux interprétations que nous tirons
de l'analyse textuelle.
Étant donné la masse des documents
que nous avons à analyser et que le système expert
aura à traiter, nous ne pouvons envisager des analyses
fines au cas par cas. Mais nous ne voulons pas non plus travailler
sur des données brutes comme les chaÎnes de caractères,
ni nous contenter des seules propriétés de fréquence
et de positionnement. Nous optons pour des traitements mixtes
qui combinent plusieurs propriétés au niveau perceptif,
sémantique et structural dans la lignée de ce que
Farrow suggère et d'après nos propres convictions
en ce qui concerne la nécessaire collaboration entre l'ordinateur
et l'être humain et la multiplicité des niveaux de
traitement à l'oeuvre en parallèle (Bertrand-Gastaldy,
1992; Meunier, 1992; Paquin et Beauchemin, 1989). Nous adoptons
donc deux approches complémentaires, les analyses statistico-linguistiques
et l'approche cognitive. L'essentiel de la méthodologie
a été exposé dans Bertrand-Gastaldy et
al. (1992).
Dans ce qui suit, nous montrerons comment nous
rendons opérationnelle la notion d'intertextualité
discutée précédemment, afin de modéliser
les opérations de tri et de classification, d'indexation,
et afin d'assister la lecture humaine.
Le tri et la classification
Nous avons interviewé les conseillers
juridiques et procédé à de nombreux allers-retours
entre leurs dires et le corpus. Ils ont identifié les éléments
de la macro-structure des jugements qu'ils parcourent; certains
de ces éléments relèvent plus du paratexte
que du texte lui-même et incitent d'ailleurs à cette
forme de lecture: intitulé, tribunal qui a rendu la décision,
nom des parties, lois ou articles de lois cités.
D'autres indices sont purement lexicaux, ce
sont les mots employés par le juge. Plusieurs d'entre eux
sont de très bons discriminants pour un domaine donné
et se retrouvent souvent dans le paln de clasification et le thésaurus;
ceux qui pointent vers plusieurs domaines recevront une pondération
appropriée. À la suite de diverses stratégies
de catégorisation automatique, ces éléments
se trouvent marqués explicitement et peuvent être
repérés par le nom de leur propriété
et les différentes valeurs posibles. Dans l'exemple ci-dessous,
la consultation automatique du thésaurus (Ta=terme accepté,
Tr=terme rejeté), du plan de classification (Clas) et de
la liste des termes considérés par les conseillers
juridiques comme appartenant au domaine Famille (y compris les
mots clés libres: Tl) permet d'ajouter les marques suivantes
au texte (on a ajouté une commande pour que tous les termes
marqués soient soulignés): Le Tribunal est saisi d'une demande de divorce *Term=TlFam dont la contestation porte essentiellement sur la valeur et le mode de partage des biens*Term=TlFam qui composent le patrimoine familial*Term=Ta,ClasFam. Le mari demandeur conclut à l'exclusion de la défenderesse du partage du patrimoine familial*Term=TlFamet, subsidiairement, à ce que la défenderesse soit condamnée à lui verser une prestation compensatoire*Term= TaFam,ClasFam de 100 000$. [...] Quant à la prestation compensatoire*Term= TaFam,ClasFam réclamée par le demandeur, le Tribunal estime qu'elle est mal fondée en droit et qu'elle n'est pas justifiée dans les circonstances. La prestation compensatoire*Term= TaFam,ClasFam telle que conçue par le législateur dans le cadre de la Loi 146(1) ne peut avoir pour effet de contrecarrer l'objectif recherché par le partage du patrimoine familial*Term=TlFam. Le législateur a d'ailleurs prévu l'exclusion de certains biens et la possiblité de modifier la proportion ou les modalités. Ceci n'exclut pas pour autant la possibilité pour un des conjoints de réclamer une prestation compensatoire*Term= TaFam,ClasFam de son conjoint pour avoir contribué à l'enrichissement de ce dernier sur des biens qui ne font pas partie du patrimoine familial*Term=TaFam, ce qui n'est pas notre cas en l'espèce. [...] Le Tribunal ordonne que la valeur du régime de retraite*Term=Tr, Clas de la défenderesse soit exclue du patrimoine familial*Term=TaFam partageable. [...]
Loi modifiant le Code civil du Québec
et d'autres dispositions législatives afin de favoriser
l'égalité économique des époux*term=TlFam,
(L.Q., 1989, c.55).
L'indexation
Interrelations entre deux types d'hypertextes:
les résumés et les manchettes Notre étude de l'indexation a pour objectifs de: - Trouver les propriétés permettant de discriminer les termes présents dans les résumés et retenus par les conseillers juridiques dans les manchettes par rapport aux termes non retenus. - Reconstituer les inférences ayant conduit les conseillers juridiques à assigner dans les manchettes des termes absents des résumés. - Vérifier la rentabilité de l'enrichissement du thésaurus pour une meilleure indexation assistée par ordinateur.
- Structurer le thésaurus pour faciliter
une indexation de qualité. Sur la foi des recherches et des pratiques d'indexation en sciences de l'information et suite à des échanges préliminaires avec les conseillers juridiques ainsi qu'aux recommandations formulées dans le mémoire de Poirier (1985), nous avons émis certaines hypothèses: - Les termes retenus sont les termes de signification ayant une fréquence élevée dans le résumé indexé. - Ils ont une valeur discriminante plus élevée que les termes non retenus. - Ils se trouvent surtout dans le paragraphe Problématique et très rarement dans le paragraphe Litige. - Ils se situent au début et à la fin des paragraphes. - Ce sont des termes qui caractérisent le domaine dans lequel le jugement a été classé (hypothèse ajoutée en cours d'expérimentation au vu de certains résultats).
- La prise en compte des variantes morphologiques
et des phénomènes de paraphrase accroÎt les
chances que les hypothèses précédentes soient
vérifiées. Nous avons retenu les propriétés suivantes: - la fréquence dans le corpus, dans le domaine, dans chaque résumé - la valeur discriminante - la position dans la macro-structure: litige, contexte, problématique - la position dans la micro-structure: pour chaque subdivision du résumé, position de la phrase (les deux premières, les deux dernières, celles du milieu) - l'appartenance au plan de classification et/ou au thésaurus - l'appartenance au vocabulaire spécifique du domaine de classification (Assurances, Famille, Travail, etc.) dans lequel le texte est classé - l'appartenance à une catégorie d'une éventuelle grille d'indexation
- la position des termes retenus par rapport
aux passages où le juge s'appuie sur la doctrine, la législation
et la jurisprudence (cette propriété sera étudiée
dans les textes intégraux seulement).
Les premiers résultats de nos expérimentations
effectuées dans quelques domaines du droit révèlent
déjà certaines tendances. En ce qui concerne les descripteurs: - La moyenne de la valeur discriminante des descripteurs présents dans les résumés et retenus dans les manchettes est nettement supérieure à la moyenne des termes non retenus, ce qui tendrait à prouver que les indexeurs connaissant bien leur domaine choisissent les éléments importants. - Ces descripteurs proviennent en grande partie du contexte et du début et du milieu de la problématique de la décision (la proportion entre les deux subdivisions varie selon les domaines), dans une faible mesure du litige. - Peu de descripteurs proviennent de la fin de la décision, et il faut en chercher l'explication auprès des conseillers juridiques.
- Ce sont surtout les descripteurs du domaine
dans lequel le jugement est classifié qui sont retenus.
Pour ce qui est des mots-clés libres: - La valeur discriminante se révèle un indice intéressant.
Comme les manchettes sont constituées
à 40% de descripteurs et non-descripteurs et de 60% de
mots-clés libres, il vaut sans doute la peine de contrôler
davantage le vocabulaire a posteriori pour améliorer l'indexation
assistée.
Nos méthodes permettent donc de mettre
au jour certaines pratiques et de vérifier dans quelle
mesure les règles implicites sont suivies globalement et
dans chacun des domaines (nous ne disposions d'aucun document
décrivant les politiques d'analyse de SOQUIJ). Surtout,
elles nous conduisent à questionner les conseillers juridiques
et à faire expliciter les pratiques. À titre d'exemple,
s'il a été dit à un moment donné que
le litige ne comporte pas d'informations susceptibles d'être
reprises dans les manchettes et dans l'index, nous avons pu cependant
montrer que 18% en moyenne des termes contrôlés retenus
dans les manchettes étaient issus de cette partie du résumé,
ce qui a conduit les conseillers juridiques à préciser
que, dans certaines circonstances, on introduit des éléments
du contexte dans cette subdivision.
Nous pouvons observer les phénomènes
à la fois dans leur ensemble et par domaine du droit (d'après
la rubrique de classification attribuée aux jugements),
ce qui nous permet de déceler des variations dans les pratiques,
variations qui sont d'ailleurs confirmées par l'enquête
cognitive. Elles peuvent s'expliquer par les particularités
des domaines ou par un manque d'harmonisation entre les politiques
implicites d'analyse des différents experts. Il ne nous
appartient pas d'en juger, mais seulement d'en apporter la preuve
et de soulever la question avec les spécialistes.
Nos études portent non seulement sur
les chaÎnes de caractères, mais sur les formes lemmatisées
et sur les paraphrases des termes complexes. Ce n'est que lorsque
nous aurons épuisé les moyens de repérer
tous ces équivalents que nous chercherons les concepts
implicites, nous inspirant en cela de l'excellente étude
de Bourcier (1979). Cependant, il nous semble que les résumés
écrits par les conseillers juridiques constituent une reformulation
déjà partiellement normalisée et explicitée
et que l'implicite sera à rechercher plutôt du côté
du jugement en texte intégral.
En somme, la co-présence dans deux hypertextes
dérivés du même hypotexte des mêmes
termes ou de formulations équivalentes susceptibles de
dénoter un même concept, de même que leur absence
dans un des deux hypertextes nous aident à retrouver les
propriétés à l'origine de la présence
ou de l'absence.
Interrelations entre les différents
hypertextes et les outils documentaires
Tous les termes appartenant au thésaurus
et au plan de classification qui se retrouvent dans les résumés,
les manchettes et l'index sont étiquetés. Nous pouvons
donc tirer plusieurs observations intéressantes sur l'utilisation
et l'utilité de ces outils, par exemple le pourcentage
de descripteurs réellement utilisés et leur taux
d'utilisation grâce à des histogrammes de fréquences,
la proportion de l'emploi des multitermes par rapport aux unitermes
dans les manchettes et dans le thésaurus, la porportion
de descripteurs employés dans les manchettes par rapport
au nombre de mots clés libres, etc. Ces observations conduisent
à des propositions d'ajustements qui sont aussi utiles
pour la continuation de la pratique manuelle qu'indispensables
pour une analyse assistée par ordinateur.
L'étude du contexte d'emploi des descripteurs
unitermes révèle plusieurs cas de polysémies
et permett aussi de constituer des paradigmes. En effet, des unitermes
se trouvent souvent employés dans des termes complexes
du résumé ou de la manchette qui ne font pas partie
du thésaurus. D'autres descripteurs sont employés
dans un sens complètement différent de celui que
lui confère leur entour dans le thésaurus. Les paraphrases sont repérées grâce à la recherche, en concordance libre et sous forme tronquée, de chaque élément constituant un terme complexe. On trouve ainsi des reformulations: - dans lesquelles le verbe correspondant au déverbal a été employé: contestation de paternité et contester la paternité - dans lesquelles un verbe a été inséré: décès accidentel et le décès n'était pas accidentel - dans lesquelles il y a une variation de préposition:
subrogation de l'assureur
et subrogation entre assureurs À côté du descripteur garde d'enfant: , on peut avoir toutes ces variations:
garder son enfant, garde de cette enfant,
garde de leurs enfants, garde de son enfant, ...enfant soit compromis
si sa garde est confiée à son père, la garde
provisoire des deux enfants, enfant dont elle a la garde, la garde
légale de l'enfant, etc.;
ou encore pour compétence du juge :
le juge unique a donc pour compétence,
le juge conservait compétence pour ; le juge intimé
a excédé sa compétence,
etc.
Tout ce travail nous conduit à apporter
plusieurs modifications au thésaurus pour qu'il puisse
répondre aux besoins de l'analyse automatique. Il est, dans un premier temps, enrichi de variantes morphologiques: coopérative, coopératives institution privée, institutions privées brevet d'invention, brevets d'inventions administration de la justice, administrations municipales
assuré,assurée, assurés,
assurées
La relation Voir aussi est complétée
par une relation de cooccurrence. L'utilité de cette relation
sera testée dans le cas des termes assignés dans
les manchettes, sans que leur présence ait été
détectée dans les résumés: assignation
du descripteur enfant intellectuellement handicapé,
alors que figure trisomie dans le résumé.
Les synonymes n'ont pas encore été
recherchés systématiquement. On a pu relever, par
exemple: troubles d'apprentissage pour difficultés
d'apprentissage. Ils seront plus nombreux dans les textes
intégraux; le jugement des experts sera indispensable pour
leur détection. Certains procédés de généralisation demandent que l'on tienne compte d'une structuration lexico-sémantique malheureusement peu développée dans le thésaurus actuel (seules sont retenues les relations associatives et préférentielles). L'étude du contexte d'emploi des descripteurs unitermes ainsi que la recherche en concordance ordonnée des éléments constituant les descripteurs complexes permettent de constituer des paradigmes grâce à l'ajout de termes spécifiques au terme général présent actuellement dans le thésaurus: concurrence déloyale interdiction de cumul substitution de police; substitution de police d'assurance-vie taxe scolaire lésion des droits de l'enfant; lésion des droits de l'adolescent recours contractuel, recours contre l'État; recours délictuel, recours extraordinaire, recours hybride, recours prématuré, recours subrogatoire .
responsabilité de l'assureur
et responsabilité contractuelle de l'assureur
On pourra, par la suite, compléter la
recherche des hyponynes et hyperonymes par la détection
de formules appropriées dans les textes intégraux.
Une structuration thématique par grands domaines du droit sera ajoutée grâce à l'étude des cooccurrences des descripteurs avec les rubriques de classification et grâce à une recherche de "clusters" effectuée avec le logiciel SPSS. On amorcera aussi une structuration par facettes. Quelques-unes s'imposent aux non-spécialistes que nous sommes à la vue des cooccurrents d'une rubrique de classification comme ASSURANCES (type d'assurance, événement ayant déclenché le recours à l'assurance, etc.): 26 assurance 9 assurance-vie 5 mandat 3 suicide 2 accident 2 assurance-automobile 2 assurance_collective 2 incendie 2 quittance
etc.
alors que d'autres devront être recherchées
d'après l'ordre des descripteurs figurant dans les manchettes.
Cette propriété Ordre est utilisée pour numéroter
les phrases à l'intérieur du paragraphe; elle nous
a été suggérée au cours de notre enquête
cognitive, le premier descripteur étant, d'après
certains conseillers juridiques, chargé d'apporter tel
type d'information, le second tel type de précision, etc.:
- En droit pénal: rubrique sous-rubrique infraction commise principes de droit étudiés dans la décision mentions sur l'appelant contexte de l'infraction
peine imposée - En procédure civile: identification de la procédure moyen de procédure
type de défense - En assurances -responsabilité: domaine sous-domaine
causes de la plainte Cette pratique se rapproche de celle préconisée par Bibent (1976: 154) qui propose une séquence de ce genre : ". un descripteur qui permet de qualifier l'espèce (CONTRAT DE TRAVAIL, DIVORCE, MANDAT, ASSURANCES, etc.) . un descripteur qui précise le premier en indiquant, par exemple, le rattachement de la décision analysée à une législation définie: BAIL D'HABITATION, LOI DU 1ER SEPTEMBRE 1948. Le descripteur peut aussi correspondre à une ou plusieurs sous-catégories, par exemple pour DIVORCE: MESURES PROVISOIRES, CAUSES, COMMUNAUTÉ, PROCÉDURE . À chacune de ces catégories peuvent être rattachés différents descripteurs qui viennent préciser le problème spécifique contenu dans la décision analysée: DIVORCE, MESURES PROVISOIRES, GARDES ENFANTS, DROIT DE VISITE, DOMICILE CONJUGAL, PENSION ALIMENTAIRE, etc. De même en matière de vente, on doit indiquer en quoi consiste l'inexécution de l'obligation du vendeur et en préciser les causes. On obtient la structure suivante: VENTE/ OBLIGATION DU VENDEUR / INEXÉCUTION/ ... DESCRIPTEUR SPÉCIFIQUE .../ ... CAUSE DE L'INEXÉCUTION .../
En matière d'accidents de la circulation
routière, la caractérisation de l'espèce
entraÎne le recensement de certains renseignements, sur
le COMPORTEMENT DU VÉHICULE, DU CONDUCTEUR, SUR LES CONDITIONS
DE CIRCULATION, etc."
C'est ainsi que les outils d'analyse peuvent
être améliorés par réinjection des
résultats de leur utilisation effective dans les textes
secondaires que sont les manchettes et par la confrontation avec
le vocabulaire des textes en langue naturelle.
Par le truchement du marquage des unités
lexicales dans les hypertextes, les interrelations entre le thésaurus
et le plan de classification apparaissent clairement. L'examen
des manchettes révèle que plus de 20% des descripteurs
et non-descripteurs retenus dans la manchette figurent aussi dans
le plan de classification. Il y a certainement un travail d'harmonisation
à effectuer, après spécification du rôle
de chacun des deux outils. Quelques incohérences comme
le rejet d'un terme dans le thésaurus employé comme
rubrique de classification seront corrigées.
L'aide à la lecture des textes intégraux
Grâce aux traitements effectués
pour le tri, la classification et l'indexation, il est possible
de construire une forme d'aide personnalisée à la
lecture des jugements.
Le paratexte résultant de l'attribution
de propriétés
Les propriétés lexicales et textuelles
mobilisées pour les autres opérations: étiquetage
des citations de lois, de la mention des parties en présence,
des termes du domaine, ou tout simplement la recherche de certains
marqueurs textuels introduisant des passages jugés importants
("motifs suivants", "chefs d'accusation",
"les faits se résument comme suit", "ne
répond pas aux critères","j'en
conclus", "loi", "arrêt",
"dans l'affaire" ..., etc.) peuvent servir à
diriger la lecture. Le logiciel SATO permet de souligner ou surligner
en différentes couleurs les unités dotées
de telle ou telle propriété. De plus, il est possible
de demander l'affichage des seuls passages (phrases, paragraphes
ou contexte numérique spécifié par l'utilisateur)
dans lesquels apparaissent les unités dotées des
propriétés requises: on peut ainsi ne visualiser
que les paragraphes dans lesquels la jurisprudence est citée,
dans lesquels se trouvent des citations de lois ou d'articles
de lois, dans lesquels il est question des prétentions
des parties, dans lesquels il y a débat sur un point de
droit, etc. Ces opérations sur le texte peuvent être
encapsulées sous forme de macro-commandes par chacun des
conseillers juridiques, selon ses habitudes de prise de connaissance
du contenu d'une décision dans un domaine donné.
Les stratégies de lecture et de résumé varient,
en effet, selon les individus et selon le domaine, car les jugements
sont structurés différemment, contiennent des renseignements
différents. On ne lit pas un jugement classé dans
le domaine Famille comme on lit une jugement relevant du domaine
Procédure civile.Dans certains domaines, ce qui est important
ce sont les questions de droit discutées par le juge situées
dans la problématique, dans d'autres domaines ce sont les
argumentations des avocats localisées dnas la partie contexte.
Les valeurs de propriétés surimposées
au texte de départ jouent donc le rôle d'un paratexte
orientant la lecture humaine et déterminant l'affichage
sur écran ou l'impression papier.
Intratextualité et intertextualité
Nous pouvons aller plus loin dans l'attribution
de propriétés en mettant au jour de relations à
la fois intertextuelles et intratextuelles, ces dernières
portant sur les subdivisions des résumés; nous comparons
l'ensemble des contextes, par exemple à l'ensemble des
litiges, à l'ensemble des décisions et à
l'ensemble des litiges et décisions réunis. Nous
utilisons pour cela la commande Distance de SATO qui, est une
mesure d'ordre intertextuel, puisqu'elle est basée sur
la probabilité d'apparition des mots dans le corpus.
Puis nous attribuons une valeur de propriété
aux mots qui contribuent le plus à la distance du contexte,
(du litige, de la décision); la recherche dans les textes
intégraux de fortes concentrations de mots ou de propriétés
discriminants peut servir à dépister les passages
traitant du litige, du contexte ou de la problématique.
Par exemple, les verbes qui caractérisent le contexte se
rapportent aux parties: alléguer, prétendre,
demander, réclamer, soutenir, invoquer, etc. et contrastent
avec ceux de la problématique qui s'appliquent au juge:
devoir, falloir, démontrer, ordonner, appliquer,
agir, etc. Les lexèmes les plus discriminants du contexte
se rapportent au temps (rappel des événements à
l'origine du litige): janvier, février, mars, avril,
, etc., mois, an .
SATO À L'APPUI DE NOTRE MÉTHODOLOGIE
Au moins trois caractéristiques de SATO nous sont précieuses pour mettre en évidence les phénomènes de transtextualité: - la facilité de définir des domaines, ensembles et sous-ensembles de corpus ou de textes - la possibilité d'attribuer des propriétés aux segments textuels et aux unités lexicales avec héritage de l'une à l'autre; en particulier la possibilité de rajouter toute propriété qui nous semble utile et d'abandonner celles qui ne donnent pas les résultats escomptés.
- les dénombrements et les calculs statistiques
ainsi que la facilité de transfert des données vers
des logiciels statistiques très performants comme SPSS.
La mobilité invoquée par Eigeldinger
est une mobilité créée par les outils d'analyse
disponibles dans SATO.
CONCLUSION L'étude de la transtextualité dans un contexte documentaire s'avère intéressante à plusieurs points de vue: - elle révèle des régularités et des anomalies; - elle permet donc aux indexeurs de porter un regard différent sur leurs pratiques et leurs outils et, s'ils le jugent nécessaire, de les modifier; - elle facilite la construction d'outils d'aide à l'analyse qui correspondent aux façons de fonctionner des indexeurs et aux pratiques institutionnelles;
- elle nous permet à nous chercheurs
d'envisager un système qui prenne en charge les traitements
automatiques d'assez bas niveaux pour passer la main aux experts,
seuls capables de mobiliser la multiplicité des connaissances
nécessaires à la sélection et à l'interprétation
des textes en fonction du contexte spécifique de leurs
tâches. Avec une telle opérationnalisation de l'intertextualité, nous ne nous livrons pas à un de ces "parachutages" fréquents dans un nouveau domaine d'application ni à un "bricolage de concepts" dont parle Angenot (1983). Ce dernier déclarait (Ibid.: 132): "[...] la question n'est pas de savoir ce que "veut dire" intertextualité, mais "à quoi ça sert" [...]". Dans le cas de l'analyse documentaire, elle peut sans doute, comme dans le domaine des études sur la textualité, venir "troubler" toutes sortes d'expérimentations qui ne distinguent pas la partie du tout, le code du langage documentaire de celui du langage naturel et les réalisations langagières de ce dernier dans les divers types de textes. Angenot (Ibid.): poursuivait:
"À tous ces modèles, l'intertextualité
oppose une problématique de la multiplicité, de
l'hétérogénéité, et de l'extériorité
qui me semble, au-delà des malentendus et des effets de
mode, l'essentiel de notre problème pour les années
à venir."
Mais l'explication de la multiplicité
et de l'hétérogénéité est elle
aussi multiple et hétérogène; elle est à
rechercher non seulement dans les phénomènes linguistiques,
mais aussi dans les processus cognitifs d'une lecture orientée
par la tâche à accomplir, les outils et les conditions
de production.
L'analyse des jugements telle que pratiquée
à SOQUIJ illustre bien les multiples interrelations qui
caractérisent de façon générale les
produits issus de l'analyse documentaire. On y retrouve tous les
types d'hypertextes habituels: résumés, rubriques
de classification, indexat (qui ici se dédouble en indexat
en vocabulaire libre et en vocabulaire contrôlé).
Sont aussi d'une certaine importance le paratexte et les textes
"connexes" (plan de classification, thésaurus,
politiques explicites ou implicites). Les conditions de production
obligent à des choix difficilement formalisables puisqu'il
faut tenir compte à la fois du nombre de pages imposées
par la publication hebdomadaire, de l'actualité, c'est-à-dire
des textes diffusés par les médias sur les événements
importants, des interprétations antérieures de la
législation, de la jurisprudence et de la doctrine. Les
expérimentations que nous faisons pour la conception du
prototype de système expert d'aide à l'analyse des
jugements s'attaquent à certains de ces phénomènes
d'intertextualité. Elles bénéficient de la
souplesse du logiciel SATO. Assortie d'une méthodologie
pour observer les phénomènes intertextuels et d'un
cadre théorique pour les expliquer, la question de l'"intertextualité"
met l'accent sur les similarités et les dissemblances,
oblige à en questionner les causes et pointe vers les phénomènes
langagiers ainsi que les processus cognitifs propres à
une forme de production textuelle dans un contexte bien précis.
Une méthodologie semblable pourrait servir à modéliser
d'autres types de lecture.
BIBLIOGRAPHIE DES SOURCES CITÉES
Angenot, Marc. L'Intertextualité: enquête
sur l'émergence et la diffusion d'un champ notionnel. Revue
des sciences humaines; 189; janvier-mars 1983: 121-135.
Beacco, Jean-Claude; Darot, Mireille. Analyse
de discorus; lecture et expression. Paris: Hachette / Larousse;
1984.
Beaugrande, Robert de.Text, Discourse, and
Process.; Toward a Multidisciplinary Science of Texts. Norwood,
NJ: Ablex; 1980.
Beaugrande, Robert de. Text Production;
Toward a Science of Composition. Norwood, NJ: Ablex Publishing
Corporation; 1984. xvi, 398 p. (Advances in Discourse Processes;
xi)
Beghtol, Clare. Bibliographic classification
theory and text linguistics: aboutness analysis, intertextuality
and the cognitive act of classifying documents. Journal of
Documentation; 42(2); June 1986: 84-113.
Bertrand-Gastaldy, Suzannne. La problématique
de l'énonciation dans les systèmes documentaires
entièrement ou partiellement automatisés. ss la
dir. de François Latraverse, Problèmes de l'énonciation.
Montréal: Université du Québec à Montréal.
Département de philosophie; 1989: 9-80. (Cahiers Recherches
et Théories. Coll. "Philosophie du langage" L1)
Bertrand-Gastaldy, Suzanne. Les thésaurus
de recherche: des outils pour l'interrogation en vocabulaire libre.
Argus; 13(2); juin 1984: 51-58. Bertrand-Gastaldy, Suzannne; Daoust, François; Meunier, Jean-Guy; Pagola, Gracia; Paquin, Louis-Claude. Un prototype de système expert pour l'aide à l'analyse des jugements. Congrès international Informatique et droit / International Conference on Computers and Law, Montréal , 30 septembre-3 octobre 1992. Recherche, développement et formation / Research, Development and Education, C1; Le développement des systèmes documentaires / Development of Documentary Databases and Systems. 13 p.
Bertrand-Gastaldy, Suzanne; Pagola, Gracia , 1992 L'analyse du
contenu textuel en vue de la construction de thésaurus
et de l'indexation assistées par ordinateur; applications
possibles avec SATO (système d'analyse de textes par ordinateur).
Documentation et bibliothèques; 38(3); avril-juin
1992: 75-89.
Bibent, M. L'informatique appliquée
à la jurisprudence. Paris: Libraires techniques; 1976.1976.
Bourcier, Danièle. Information et signification
endroit; expérience d'une explicitation automatique de
concepts. Langages; 53; mars 1979: 9-32. "Le discours
juridique: analyses et méthodes."
Chastinet, Y.; Robredo, J. Étude des
associations réelles entre descripteurs en vue d'améliorer
la qualité de l'indexage. Information et documentation;
4; 1974: 3-22.
Coates, Eric J. Scientific and technical indexing
II. In: G. Norman Knight, Indexing, the Art of ... London;
George Allen and Unwin; 1979.
Daoust, François. SATO; Système
d'analyse de texte par ordinateur. Manuel de références.
[Montréal]: Université du Québec à
Montréal, Centre d'analyse de textes par ordinateur; 1992.
David, Claire. Élaboration d'une
méthodologie d'analyse des processus cognitifs dans l'indexation
documentaire. Montréal: Université de Montréal,
Département de communication; 1990. (Mémoire de
maÎtrise)
Debili, Fathi. Analyse syntaxico-sémantique
fondée sur une acquisition automatique des relations lexicales-sémantiques.
Paris: université Paris XI, Centre d'Orsay; 1982. Thèse
de doctorat d'État.
Eigeldinger, Marc. Mythologie et intertextualité.
Genève: Slatkine. 1987.
Endres-Niggemeyer, Brigitte. A procedural model
of abstracting, and some ideas for its implementation. TKE'90;
Terminology and Knowledge Engineering. Frankfurt: Indeks Verlag;
1990: 230-243.
Farrow, John F. A cognitive process model of
document indexing. Journal of Documentation; 47(2); June
1991: 149-166.
Foucault, Michel. L'archéologie du
savoir. Paris: Gallimard; 1969.
Genette, Gérard. Palimpsestes, la
littérature au second degré. Paris: Seuil; 1982.
Grunberger, M.W. Textual Analysis and the
Assignment of Index Entries for Social Science and Humanities
Monographs. New Brunswick, NJ: Rutgers University; 1985. viii,136
p. (thèse de doctorat)
Hafner, Carole D. Representation of knowlege
in a legal information retrieval system. Information Retrieval
Research. London: Butterworths; 19??: 139-153.
Janos, Jiri. Theory of functional sentence
perspective and its application for the purpose of automatic extracting;
Information Processing and Management; 15; 1979: 19-29.
Jones, Kevin P. How do we index?. a report
of some Aslib Information Group activity. Journal of Documentation;
39; 1983: 1-23.
Kristensen, J.; JÄrvelin, K. The effectiveness
of a searching thesaurus in free-text searching in a full-text
database. International Classification; 17(2); 1990: 77-84.
Lancaster, F.W. Vocabulary control in information
retrieval systems. Advances in Librarianship; 7; 1977:
1-40.
Liddy, Elizabeth DuRoss. Anaphora in natural
language processing. Information Processing & Management;
26(1); 1990: 39-52.
Maeda, Takashi. An approach towards functional
text structure analysis of scientific and technical documents.
Information Processing & Management; 17; 1981: 329-339.
Maingueneau, D. L'analyse du discours.
Paris: Hachette; 1991.
Meunier, Jean-Guy. SATO: un philologue électronique.
Documentation et bibliothèques; 38(2); avril-juin
1992: 65-69.
Meunier, Jean-Guy; Bertrand-Gastaldy, Suzanne;
Lebel, Hermel. A call for enhanced representation of content as
a means for improving on-line full-text retrieval. International
Classification; 1987; 14 (1): 2-10.
Moholt, Pat; Goldbogen, Geof. The use of inter-concept
relationships for the enhancement of semantic networks and hierarchically
structured vocabularies. In: Sixth Annual Conference of the UW
Centre for the New Oxford English Dictionary and Text Research.
Electronic Text Research. Proceedings of the Conference,
October 28-30, 1990, University of Waterloo, Waterloo, Ontario,
Canada: 39-51.
National Library of Medicine. UMLS Knowledge
Sources; Third Experimental Edition; documentation. Bethesda;
1992. 117 p.
O'Connor, John. Automatic subject recognition
in scientific papers: an empirical study. Journal of the Association
of Computing Machinery; 12; 1965.
Oddy, Robert N.; Liddy DuRoss, Elizabeth; Balakrishnan,
Bhaskaran; Bishop, Ann; Elewononi, Joseph; Martin, Eileen. Towards
the use of situational information in information retrieval. Journal
of Documentation; 48(2); June 1992: 123-171.
Organisation internationale de normalisation.
Documentation - Analyse pour le spublications et la documentation.
Norme ISO 214- 1976 (F).
Paquin, Louis-Claude; Beauchemin, Jacques.
Apport de l'ordinateur à l'analyse des données textuelles.
In: RELAI: Recherche en linguistique appliquée à
l'informatique. Actes du colloque "La description des
langues naturelles en vue d'applications informatiques",
Université Laval, 7-9 décembre 1988. Québec:
Centre international de recherche sur le bilinguisme; 1989: 197-210.
Poirier, Diane. Pour des résumés
adéquats de jurisprudence québécoise et canadienne;
une étude du document jurisprudentiel, de sa structure,
de ses citations, de son rôle et de sa spécificité.
[Montréal]: Université de Montréal, École
de bibliothéconomie et des sciences de l'informâtion;
1985. (Mémoire de matrise).
Roy, Rada; Mili, Hafedh; Letourneau, Gary;
Dough, Johnston. Creating and evaluating entry terms. Journal
of Documentation; 44(1); March 1988: 19-41.
Rada, Roy; Barlow, Judith; Potharst, Jan; Zanstra,
Pieter; Bijstra, Djujan. Document ranking using an enriched thesaurus.
Journal of Documentation; 47(3); September 1991:240-253.
Reich, Phyllis; Biever, Erik J. Indexing consistency:
the input / output function of thesauri. College & Research
Libraries; July 1991: 336-342.
Richer, Pierre. "La création automatique
d'un thésaurus de recherche." Argus; 15(1);
mars 1986: 13-19.
Texte, Revue de critique et de théorie
littéraire; 2; 1983. L'intertextualité.
Toronto: 1984.
Van Dijk, T. A. Complex semantic information
processing. In: Walker, D.C., Karlgren, H., Kay, M., eds. Natural
Language in Information Science. Stockholm: Skriptor; 1976:
127-163. (FID 551)
Vidalenc, Isabelle. Traitement automatique
des anaphores pronominales en français. Univeristé
Lumière Lyon 2; 1988. thèse nouveau régime.
Weinberg, Bella Hass. Word Frequency and
Automatic Indexing. Columbia University; 1981. Ph.D. Thesis.
|