Retour à l'accueil Remonter

ANALYSE DOCUMENTAIRE DES JUGEMENTS ET INTERTEXTUALITÉ

Suzanne Bertrand-Gastaldy

chercheure

Centre ATO.CI

Université du Québec à Montréal

Professeure agrégée

École de bibliothéconomie et des sciences de l'information (EBSI)

Université de Montréal

C.P. 6128, succ. A

Montréal, Québec

Canada H3C3J7

Tél.: (514) 343-6048

Fax: (514) 343-5753

GASTALDY@ERE.UMONTREAL.CA


Bertrand-Gastaldy, S. , 1993. Analyse documentaire et intertextualité. Les Sciences du texte juridique: Le droit saisi par l'ordinateur . Sous la direction de Claude Thomasset, René Côté et Danièle Bourcier. Textes présentés à un séminaire tenu à Val-Morin, Québec, du 5 au 7 oct. 1992 sous l'égide du Laboratoire Informatique, droit et linguistique du CNRS (France) et du Groupe de recherche Informatique et droit de l'Université du Québec à Montréal. Cowansville: Les Éditions Yvon Blais; 1993: 139-173.


INTRODUCTION

Dans le cadre de deux projets de recherche menés avec des équipes différentes, j'ai été amenée à m'intéresser à la modélisation d'un type particulier d'analyse de textes, celle que des indexeurs effectuent dans le but d'en produire des représentations condensées.

Le premier projet porte sur les aspects cognitifs de l'indexation des documents dans les bases de données bibliographiques et comprend deux volets:

1) l'analyse des processus cognitifs à l'oeuvre dans une tâche d'indexation en vocabulaire contrôlé comme facteur explicatif du manque de cohérence de l'analyse;

2) le rôle du vocabulaire contrôlé dans la fidélité de la représentation des textes.

Cette étude sera menée sur trois ans, dans plusieurs services secondaires dont le centre de documentation du ministère de l'Environnement du Québec avec une de ses deux bases: Envirodoq.

Le second projet, qui intéressera davantage les participants à ce séminaire et dont il sera plus particulièrement question dans cet exposé, a pour objectif la conception d'un prototype de système expert pour l'aide à l'analyse des jugements. Il s'agit de construire un système qui, à partir de chaque décision rendue par les tribunaux et reçue par SOQUIJ (Société québécoise d'information juridique), produise automatiquement :

- une ou des rubriques génériques de classification pour le tri par domaine du droit;

- une sous-rubrique, le cas échéant, pour une classification plus spécifique dans les domaines où les jugements sont nombreux;

- un indexat qui prend d'abord la forme de mots-clés contrôlés extraits d'un thésaurus et de mots clés libres constituant, avec la ou les rubriques de classification, une sorte de titre enrichi appelé "manchette", puis qui est réorganisé sous forme d'index avec quelques modifications. Cet indexat est établi après ou pendant la rédaction d'un résumé en trois parties rendant compte des trois types d'informations qui, selon l'étude de Poirier (1985), se trouvent dans tout jugement: le litige, le contexte et la problématique (ou décision).

Les différentes représentations des textes primaires obtenues à la suite des opérations d'analyse documentaire comme le tri, la classification, l'indexation et la condensation sont destinées à faciliter le repérage d'informations dans les recueils imprimés et dans les banques de données interrogeables en direct.

Dans ces deux projets de recherche, nous essayons de découvrir comment les experts du domaine passent d'un texte A à des textes B, B', B', etc., soit pour comprendre les facteurs de divergence entre plusieurs indexeurs ou entre un indexat en vocabulaire libre et un indexat en vocabulaire contrôlé (comme dans le premier projet), soit pour reproduire aussi fidèlement que possible les résultats de l'analyse humaine ou mettre en oeuvre les correctifs qui s'imposent (c'est le cas du second projet). Pour cela, deux moyens complémentaires s'offrent à nous:

1) l'examen des divers textes en interrelation afin de dépister les traces laissées par des opérations cognitives des analystes comme l'oubli, le choix, la généralisation, la reformulation, etc.

2) l'enquête cognitive qui consiste, pour les deux projets, en interview des indexeurs, en observation de ceux-ci dans l'exécution de leuts tâches, en échanges sur les résultats obtenus à la suite des traitements automatiques et, pour le premier projet seulement, en analyse de protocoles verbaux avec traces vidéos pour laquelle la méthodologie a été testée par David (1990).

De la confrontation entre textes de départ et textes d'arrivée sous leurs différentes formes devraient émerger des régularités et des dissonnances qu'il nous faudra expliquer - c'est notre hypothèse - à la fois par les processus cognitifs et par les contraintes liées à un certain nombre de facteurs comme le contexte de production, les caractéristiques linguistiques et structurales des textes analysés, les règles et outils documentaires (thésaurus, plan de classification) utilisés, les connaissances, la formation, les intérêts, etc. des analystes, les utilisateurs auxquels les produits documentaires sont destinés. C'est pourquoi nous procédons par un aller-retour entre les textes et les analystes, l'analyse textuelle et l'étude cognitive s'alimentant mutuellement et se complétant. Des faits de langue et de discours nous passons aux règles explicitées par les experts et de ces règles nous retournons aux faits. Comme Foucault (1969: 39), nous tentons de "retrouver par-delà les énoncés eux-mêmes l'intention du sujet parlant, son activité consciente, ce qu'il a voulu dire, ou encore le jeu inconscient qui s'est fait jour malfgré lui dans ce qu'il a dit [...]".

Les résumés issus de l'analyse documentaire "ont pour caractéristique d'être produits à partir d'autres textes, d'en rendre compte et d'y renvoyer", car ils entretiennent une relation de paraphrase avec les textes primaires; ils "ont en commun que l'intertextualité fait partie de leurs conditions d'élaboration", pour reprendre les termes de Beacco et Darot (1984: 107). Begthol (1986: 97) avait généralisé le phénomène à tous les énoncés seconds, y compris les rubriques de classification et les descripteurs assignés pour rendre compte du "contenu" des textes primaires: "One set of intertextual relationships exists between a work, its various derivative texts such as its summary or abstract and its expression in a documentation language."

C'est pourquoi il nous a semblé important de camper la théorie de l'intertextualité, d'examiner en quoi elle peut constituer un cadre intéressant pour le genre d'étude que nous menons et de dépister d'éventuelles expérimentations effectuées en sciences de l'information qui aient elles aussi pris appui sur cette théorie. Nous rendrons ensuite compte des travaux réalisés grâce au logiciel SATO (système d'analyse de textes par ordinateur) mis au point par François Daoust (1992) et nous les illustrerons avec quelques résultats préliminaires obtenus sur un corpus de jurisprudence.


L'INTERTEXTUALITÉ ET SES DIFFÉRENTES MANIFES-TATIONS

Qu'est-ce que l'intertextualité?

Voyons d'abord comment certains auteurs abordent l'intertextualité.

Angenot (1983: 123) reprend les termes de Kristeva selon laquelle le travail intertextuel est "prélèvement" et "transformation".

Pour Philippe Sollers (cité par Angenot, 1983: 125): "Tout texte se situe à la jonction de plusieurs textes dont il est à la fois la relecture, l'accentuation, la condensation, le déplacement et la profondeur."

En ce sens, l'analyse documentaire qui consiste à représenter les textes primaires de façon condensée, selon des niveaux variables d'exhaustivité, en fonction des intérêts particuliers d'une clientèle-cible, correspond tout à fait à ce type d'opération.

Eigeldinger (1987: 10-11), quant à lui, rappelle que: "[...] pour Jean Ricardou, elle se définit [...] comme "l'aptitude pour tel élément d'un texte à se mettre en rapport avec un ou plusieurs éléments d'au moins un autre texte [...]". On pourrait objecter que ce n'est pas un élément du texte qui va se mettre, de sa propre initiative, en relation avec un autre élément, mais bien un agent cognitif qui effectue des opérations d'analyse, de prélèvement, de synthèse, de transformation, de réécriture, etc.

Toujours selon Ricardou, "Le propre de l'intertextualité est de construire un univers relationnel, un univers d'alliances et de connexions, favorisant la libre circulation entre les oeuvres; elle est le lieu de leur confrontation et de leur cohabitation dans le langage. " Un peu plus loin, Eigeldinger (1987: 16) précise: "[...] la principale fonction de l'intertextualité est transformatrice et sémantique. Il ne s'agit pas de reproduire à l'état brut le matériau d'emprunt, mais de le transformer et de le transposer [..] dans le but d'inaugurer, d'engendrer une signification nouvelle."

Textualité et analyse documentaire

Avant d'aller plus loin dans l'exploration de l'intertextualité en analyse documentaire, il convient se demander si, avec les différents outils et produits documentaires, l'on a bien affaire à des textes.

Begthol (1986: 94) s'appuyant sur les critères de textualité énoncés par de Beaugrande (1980: 19-20) pour légitimer l'actualisation et l'utilisation des textes (cohésion, cohérence, intentionalité, acceptabilité, situationnalité, intertextualité et informativité), trouve justifié de considérer comme un type particulier de texte le système de classification avec son introduction, ses instructions, ses tables, son manuel de l'utilisateur. Pour les mêmes raisons, le thésaurus est aussi un texte. Point n'est besoin qu'un discours soit constitué d'énoncés correspondant à la structure linguistique de la phrase. D'après Foucault (1969: 109), "un tableau classificatoire des espèces botaniques est constitué d'énoncés, il n'est pas fait de phrases". Quant aux rubriques de classification et aux descripteurs figurant dans les indexats, on peut les rapprocher d'énoncés minimaux comme ceux que Foucault (1969: 109) cite en exemple: "Quand on trouve dans une grammaire latine une série de mots disposés en colonne: amo, amas, amat, on n'a pas affaire à une phrase mais à l'énoncé des différentes flexions personnelles de l'indicatif présent du verbe amare." . Nous avons montré par ailleurs (Bertrand-Gastaldy, 1989: 24-27) que langages documentaires et représentations secondaires d'un texte répondaient en tout point aux critères de Foucault pour les considérer comme des énoncés.

Les divers types d'intertextualité à l'oeuvre dans l'analyse documentaire

L'intertextualité peut s'exprimer de multiples façons. Genette (1987) en a dressé une typologie détaillée, dont on peut retrouver les manifestations dans plusieurs aspects de l'analyse documentaire.

La transtextualité

La transtextualité constitue le terme générique pour désigner ce que l'on nomme habituellement intertextualité, puisque c'est "tout ce qui [...] met [un texte] en relation, manifeste ou secrète, avec d'autres textes (Genette, 1987: 7). On notera au passage le caractère secret que peut revêtir la mise en relation, certains traitements automatiques des corpus pouvant en effet faire émerger des relations jusque-là cachées, comme nous l'illustrerons dans la dernière partie de cet exposé. Il revient donc à l'"archéologue" de la transtextualité de trouver les outils appropriés pour faire surgir ces relations multiples.

L'hypertextualité

Parmi toutes les formes de transtextualité, c'est sans doute l'hypertextualité qui est la plus fréquente dans les systèmes documentaires: pour Genette il s'agit de toute relation unissant un texte B (hypertexte ) à un texte antérieur (hypotexte ) sur lequel il se greffe d'une manière qui n'est pas celle du commentaire. "Il s'agit donc des multiples processus qui permettent de produire un texte à partir d'un autre." (Maingueneau, 1991: 155).

On reconnaÎt la relation qui unit les représentations dérivées: le résumé, les indexats et les rubriques de classification avec le texte primaire, avec le thésaurus et le système de classification, mais aussi ces langages documentaires et les textes à partir desquels ils ont été constitués.

- Les relations entre les outils documentaires et les textes analysés d'une part, entre les textes réunis sous la même étiquette d'autre part

Comme le rappelle Begthol (1986: 95-96) qui s'appuie sur les théories de Van Dijk (1976), les textes ayant reçu une même rubrique de classification partagent un même sujet, en vertu du jugement de similarité qu'a posé l'indexeur sur la base des macropropositions dégagées lors de la lecture des textes: "[...] the necessary similarity of the highest appropriate macropropositions of all the documents that can be grouped under a certain class name connects each document intertextually to all the others."

En fait, l'insertion d'un texte sous une rubrique de classification, d'un descripteur ou d'un ensemble de descripteurs par un indexeur donne un nouvel éclairage à ce texte, crée un nouveau réseau de relations en le rapprochant à la fois du système de classification ou du thésaurus et de l'ensemble des autres textes qui ont déjà reçu les mêmes "étiquettes". C'est ce qu'exprime bien Eigeldinger (1987: 11) dans ce passage:

"L'intertextualité consiste, dans la démarche de l'écriture, en un double mouvement d'intégration et de métamorphose, en un "travail de transformation et d'assimilation de plusieurs textes opéré par un texte centreur qui garde le leadership du sens", comme le note Laurent Jenny [...]. Elle absorbe l'énoncé qu'elle emprunte à un modèle antérieur pour l'inscrire dans un autre ensemble textuel; elle ne se contente pas toutefois de l'incorporer, elle le soumet à une activité transformatrice, elle enchâsse le texte primitif dans un contexte nouveau dans le dessein d'en modifier le sens. L'intertextualité ne recouvre ainsi pas seulement une opération mémoriale et assimilatrice, elle n'est pas uniquement une transplantation d'un texte dans un autre, mais elle se définit par un travail d'appropriation et de réécriture qui s'applique à recréer le sens, en invitant à une lecture nouvelle. L'énoncé premier, qui a été prélevé, ne doit pas apparaÎtre comme un matériau étranger dans le contexte où il s'insère, il importe qu'il s'inscrive dans la cohérence de son nouvel espace textuel par l'effet de transformation et de renouvellement.

Le problème de l'intertextualité, c'est de faire tenir plusieurs textes en un sans qu'ils se détruisent mutuellement ni que l'intertexte [...] n'éclate comme totalité structurée.*"

Thésaurus et plan de classification conservent le "leadership du sens", tant et aussi longtemps qu'il ne faut pas forcer l'interprétation pour faire entrer le nouveau dans le cadre de l'ancien, ce qui est impossible dans le cas des productions scientifiques d'un domaine en émergence ou tout simplement en développement. Au fil du temps, la discordance se fait de plus en plus forte entre les nouveaux textes et d'une part le système de classification, d'autre part les textes antérieurs. Les changements apportés au Code civil au Québec et les répercussions prévues sur quelque 234 lois ne manqueront pas d'affecter les langages documentaires de SOQUIJ.

De plus, la comparaison de l'entour des unités lexicales dans le thésaurus et dans les textes fait ressortir le caractère artificiel du langage documentaire. Alors que le réseau des termes avec lesquels le descripteur entretient des relations est figé dans le thésaurus, il ne cesse de se diversifier et de se renouveler dans les textes, faisant apparaÎtre des significations temporaires et des polysémies exclues du langage formel. Son sens bénéficie alors d'un double éclairage: celui qui avait été prévu lors de sa conception et celui, plus vivant, qui se forge au fur et à mesure de l'analyse de nouveaux textes. À propos de Baktine, Maingueneau (1991: 153) rappelle que "la perspective dialogique qu'il défend affirme qu'une irréductible altérité traverse le texte comme le sujet." et qu'il "se plaÎt [...] à répéter que les unités linguistiques sont déjà habitées par la parole des autres, qu'elles ne passent dans le discours de l'énonciateur qu'avec l'aura [...] que leur confèrent les situations dans lesquelles elles sont utilisées."

- Les relations entre les descripteurs dans le thésaurus et les descripteurs dans les indexats

Il en est de même, mais dans une moindre mesure dans les indexats : la juxtaposition d'un descripteur avec d'autres peut révéler l'émergence de problématiques nouvelles qui n'existaient pas dans le corpus virtuel ayant servi d'assise à l'élaboration du thésaurus, comme l'étude de Chastinet et Robredo (1974) l'avait illustré à propos de la nouvelle problématique de la corrosion du verre par les détergents lorsque les lave-vaisselle se sont répandus dans les foyers français, après la première édition du Thésaurus Verrier . C'est pourquoi les relations de cooccurrence viennent dans certains thésaurus compléter les relations thésaurales habituelles - préférentielles, hiérarchiques et associatives -(c'est le cas dans le UMLS - Unified Medical Language System - conçu par la National Library of Medicine pour intégrer les terminologies biomédicales en vue de faciliter la recherche d'informations) ou tout simplement les supplanter comme dans les thésaurus dits de recherche "search only thesaurus" (Bertrand-Gastaldy, 1984; Lancaster, 1977; Richer, 1986).

Laurent Jenny montre justement que l'intertextualité (au sens de la transtextualité de Genette) fonctionne "comme détournement culturel" et comme "réactivation du sens", qu'elle est "une machine perturbante", chargée de produire la subversion [..]. Elle empêche le sens de se figer dans le discours et le récit, en le réanimant et en lui insufflant de nouvelles énergies" (Eigeldinger, 1987: 16).

- Les relations entre le thésaurus et le plan de classification

Lorsque le système documentaire utilise concurremment, comme c'est le cas à SOQUIJ, deux outils d'analyse de profondeur et de spécificité différentes comme un thésaurus et un plan de classification, il se noue indirectement des liens entre les deux outils, liens que l'on peut mettre au jour grâce à leur cooccurrence d'emploi pour représenter les mêmes textes. Chaque rubrique de classification se colore donc de son voisinage plus ou moins marqué avec certains descripteurs et chaque descripteur tend à se positionner à différents endroits du plan de classification, ce qui ajoute encore aux influences de son voisinage dans les indexats et dans le thésaurus.

- Les relations entre les nouveaux textes sélectionnés et les autres textes déjà parus

Les nouveaux textes qui entrent dans le système d'information sont évalués pour la sélection, la classification et l'indexation, en fonction de ce que contient déjà la base de données, donc de leur nouveauté, de leur spécificité. Certains, devenus banals à cause de la fréquence de la thématique abordée, du genre de cause portée devant le tribunal, du nombre de fois qu'un point de droit a déjà été débattu, seront rejetés alors que s'ils étaient arrivés plus tôt, ils auraient sans doute été retenus. L'interprétation des nouveaux textes subit donc en partie l'influence des textes antérieurs.

- Les relations entre le thésaurus ou le plan de classification et les textes qui ont servi à leur élaboration

Thésaurus et plan de classification sont tous deux le résultat d'une "transposition [...] d'énoncés antérieurs ou synchroniques" (Kristeva citée par Angenot, 1983: 123) qui, dans le cas de SOQUIJ, provenaient de la jurisprudence, de la doctrine, de la législation et d'autres thésaurus ou systèmes de classification. On y retrouve bien le "croisement dans un texte d'énoncés pris à d'autres textes".(Ibid.). On reconnaÎt là le fameux principe de l'élaboration des outils documentaires, le"literary warrant". L'inconvénient, c'est que, la plupart du temps, ce corpus qui a servi à leur constitution est difficilement cernable, il est flou, non déclaré. On ne retrouve pas les standards qui servent, selon de Beaugrande (1984: 37-40), à définir la textualité. Il est non médiatisé, comme le dirait ce dernier. Il faudrait se livrer à un patient travail pour le reconstituer et encore n'y parviendrait-on que partiellement.

L'extratextualité

Ceci nous amène à l'extratextualité. En effet, outre un corpus de textes, c'est toute une culture qui est investie dans les langages documentaires, si bien que certains préfèrent parler de "cultural warrant", que cette culture soit limitée à un domaine de connaissances (c'est le cas des thésaurus et de classifications spécialisées) ou qu'elle ait une ambition plus universaliste, comme dans certains systèmes de classification (Library of Congress, Dewey Decimal Classification, par exemple). Le vieillissement est inévitable et perceptible dans les systèmes à vocation encyclopédique à cause de la lourdeur qui retarde les mises à jour. Begthol (1986: 97-98) rappelle que l'URSS trouvait que la DDC était entaché de capitalisme et que l'on voulut développer un système exempt de mentalité "bourgeoise". Les systèmes de classification peuvent ainsi devenir de véritables indices culturels pour les historiens.

L'influence du contexte s'étend à toutes les activités documentaires. La sélection et l'analyse des textes dans un système documentaire sont, en effet, tributaires des intérêts et des préoccupations de la micro-société à laquelle les produits secondaires sont destinés. L'actualité joue un grand rôle dans la sélection des documents et cela suppose des connaissances qu'il est difficile de formaliser et de mettre à jour dans une base de connaissances. Ainsi, les conflits entre la Croix Rouge et la Société des hémophiles retiennent-ils l'attention en ce moment, de même que tout ce qui touche au patrimoine familial, ce qui oriente nécessairement le choix des jugements à analyser chez SOQUIJ. En outre, la production de chaque type d'énoncés scondaires est conditionnée par des normes internationales, nationales, par des politiques institutionnelles et un ensemble de facteurs extra-textuels que nous avons mentionnés en introduction, y compris la structure cognitive de l'analyste. C'est ce qui explique l'unicité de toute analyse:

"Text production is one example of actualization, and the text itself is one example of an actual system. Any further utilization of a text, such as reading, interpreting, quoting, etc., is also actualization and activation, though under new conditions affected by the original event of production, and by the surface text as artifact (if available) -- an illustration of intertextuality [...]. (de Beaugrande, 1984: 34-35).

La paratextualité

La paratextualité, chez Genette, désigne la relation d'un texte à son "entourage" (titre, sous-titres, intertitres, épigraphes, illustrations, commentaires marginaux". "Tous ces éléments n'ont rien d'accessoire dans la mesure où ils prescrivent la manière dont le texte entend être reçu, agir sur ses destinataires. " (Maingueneau, 1991: 154-155). Si l'on se fie à notre enquête cognitive auprès des conseillers juridiques, ce paratexte joue un rôle important dans la lecture rapide destinée au tri des jugements dans un domaine du droit.

L'intertextualité: les citations

Pour Genette (1987), les citations constituent, avec le plagiat et l'allusion entre autres, la véritable intertextualité, parce qu'il s'agit de la présence effective d'un texte dans un autre. Pour Eigeldinger (1987: 12):

"La citation apparaÎt comme le modèle premier de l'intertextualité parce qu'elle coïncide avec la reprise d'un énoncé pour l'intégrer dans un autre contexte et qu'elle institue un système d'échange entre deux ou plusieurs textes. Elle est une réminiscence consciente, volontaire qui participe au déchiffrement de l'oeuvre dans le corps de laquelle est est insérée [...]. [...] L'intextextualité se présente soit comme une citation directe et explicite dont la référence est donnée, soit comme une citation indirecte et implicite qui ne comporte pas de renvoi à une référence et qui est laissée à la sagacité du lecteur."

C'est bien sûr le premier type de citations qui intéresse les chercheurs en sciences de l'information. On sait toute l'utilisation que la bibliométrie en fait, notamment pour remplacer l'indexation et regrouper les textes à thématique, méthodologie, etc. communes. Les citations constituent donc des traces qui peuvent servir à rendre visibles certains phénomènes de transtextualité.

L'architextualité

L'architextualité, selon Genette (1987), range le texte dans une taxinomie, dans une typologie des discours. Elle crée des attentes pour des ensembles d'occurrences de phénomènes textuels: "expectations are formed for whole classes of language occurrences" (de Beaugrande, 1980: 20). En documentation, les normes de rédaction de résumés (Organisation internationale de normalisation, 1976) pour les publications scientifiques recommandent de présenter le problème, la méthodologie, les résultats et la discussion de ceux-ci tout simplement parce que c'est ainsi que sont structurés la plupart des textes primaires. Les travaux de Janos (1979) et Maeda (1981), de même que ceux d'Oddy et al. (1992) s'efforcent de découvrir la métastructure des résumés et d'ent tirer profit pour l'analyse et le repérage. C'est l'architextualité qui a permis à Poirier (1985) d'étudier les particularités des jugements pour en dégager une structure d'information à reprendre dans les résumés. Elle a pu reconnaÎtre trois catégories d'information toujours présentes dans un jugement:

- le litige qui regroupe "l'énoncé des procédures entreprises et des issues recherchées et obtenues. Pour utiliser le langage du métier, on parlera d'indicateur d'action et de dispositif, c'est-à-dire quelle est la nature de l'action intentée et quelle est la décision rendue sur cette action. C'est le noyau 'performatif' du jugement, ce en quoi il agit, il ordonne."

- le contexte: "C'est le substrat concret sur lequel porte la qualification juridique. Le contexte comprend: la présentation des faits ou événements, des parties en cause et des relations entre celles-ci, des admissions ou documents nécessaires au litige. Il peut comprendre encore le cheminement du dossier jusqu'à l'instance qui est la sienne."

- la problématique qui contient: "l'énoncé des prétentions respectives des parties, l'argumentation, la discussion, la recherche d'une solution et la solution elle-même, la règle de droit applicable. [...] La problématique peut être de diverses natures: elle peut porter sur la qualification juridique des faits, l'appréciation de la preuve, la détermination de la procédure appropriée, la détermination d'une responsabilité, l'évaluation d'un dommage, la recherche de la règle de droit applicable et son application, l'interprétation d'une règle de droit, etc. C'est dans la problématique que se trouve la matière juridique d'un jugement, la règle de droit qui pourra s'appliquer à d'autres cas analogues ou similaires. Alors que contexte et litige sont intimement liés à une affaire, c'est la problématique qui peut donner lieu à une généralisation." (Poirier, 1985: 120-122).

En somme, si nous voulons retrouver l'expertise humaine d'analyse à partir des énoncés secondaires, il nous faut explorer non seulement les liens entre le texte source et les différentes formes de "textes" dérivés selon les outils documentaires ou directives utilisés (rubriques de classification, mots-clés libres et mots-clés contrôlés, résumés indicatifs et résumés informatifs), mais aussi les liens entre les résultats de l'analyse et les outils qui servent à les produire, entre ces outils et les textes qui ont inspiré leur production.


RECHERCHES EN SCIENCES DE L'INFORMATION SUR L'"ACTIVITÉ RÉSUMANTE"

Curieusement, alors que l'intertextualité est inhérente au processus d'analyse documentaire, le terme est quasiment absent de la littérature en sciences de l'information. Seule Beghtol (1986) en fait une thèse importante de son article sur les processus cognitifs de la classification. Dans les différentes bibliographies sur l'intertextualité consultées (Angenot, 1983: 133-135; Texte ; Revue de critique et de théorie littéraire, 1983), aucune référence ne fait allusion aux sciences de l'information. C'est pourquoi il nous a paru intéressant d'aller y voir de plus près.

Rareté des études sur la relation entre l'hypertexte et ses divers hypotextes

En fait, la relation entre le texte et les termes d'indexation n'est pas fréquemment étudiée, comme le faisait d'ailleurs remarquer Jones en 1983. On pourrait en dire autant de la relation entre le texte et les autres types d'hypertextes: rubrique de classification et résumé.

Plusieurs chercheurs en sciences de l'information ont pris pour acquis qu'il existe une relation entre la capacité d'un mot à être choisi comme terme d'indexation (son "indexability") et sa fréquence et que les progrès de l'indexation automatique passent par le raffinement des modèles statistiques. On reconnaÎt les travaux de Salton, Harter, Bookstein, Swanson, etc.

Quelques auteurs ont cherché à explorer d'autres propriétés que la fréquence pour les mots sélectionnés par des indexeurs. Ils se sont limités alors à la position de ces mots dans le texte, texte qui, en général, consiste en un résumé ou en un paragraphe. C'est ainsi que O'Connor (1965) a pu démontrer, sur un corpus en chimie, qu'un terme situé dans la première ou la dernière phrase d'un paragraphe était un bon candidat pour l'indexation humaine. Les quatre expériences menées par Aslib Informatics Group et rapportées par Jones (1983) aboutissent au même résultat. Elles montrent en outre qu'il y a une relation entre la fréquence et l'"indexability"; malheureusement ces expériences sont dénuées de rigueur scientifique. Weinberg (1981), pour sa part, n'a pas pu trouver de relation significative entre la fréquence et l'"indexability". Quant aux hypothèses de Grunberger (1985) sur la fréquence et la position des termes dans un corpus de monographies en sciences humaines et sociales, elles ont toutes deux été infirmées. Comme il le fait remarquer (1985: 30) à propos de Jones (1983), aucune tentative n'est faite pour expliquer ou définir la nature de la relation entre la fréquence ou la position des termes et leur capacité à être choisis pour l'indexation.

La question fondamentale que Coates posait en 1979 n'a donc pas encore reçu de réponse: "How does an indexer determine what is, or what is not, indexable?". Et il faut bien reconnaÎtre que l'indexation automatique a fait peu de progrès depuis ses débuts, il y a de cela une trentaine d'années.

Grunberger suggère de se tourner vers les phénomènes linguistiques qui caratérisent la langue écrite (les niveaux macrotextuel et micro-textuel, les anaphores et les déictiques, entre autres) et vers les processus cognitifs à l'oeuvre dans la sélection des termes d'indexation. Il incite à explorer les théories de la psychologie cognitive et les théories de la décision, car, bien que l'indexation automatique n'ait pas à mimer les mécanismes de l'indexation humaine, elle profiterait certainement d'une meilleure compréhension des stratégies humaines d'analyse:

"While machines may not need to mimic humans to do effective indexing, clearly an understanding of how humans index might assist in formulating machine indexing algorithms. [..] clearly, we do not know enough about how humans index; consequently, we have been unable to describe this vital process for the machine." (Grunberger, 1985: 97)

La prise en compte les phénomènes linguistiques

Du côté de la prise en compte des phénomènes linguistiques, les sciences de l'information les envisagent souvent dans la perspective de l'interrogation, en termes de taux de rappel et de précision. On cherche rarement des explications dans les textes sources. Les phénomènes d'anaphore ont cependant fait l'objet de quelques études (Liddy, 1990; Vidalenc, 1988), les déictiques ont peu retenu l'attention, de même que la paraphrase. Debili (1982) a proposé un analyseur lexico-sémantique pour faire face à la synonymie phrastique. Quant aux conditions de production et aux divergences qu'elles engendrent dans les hypertextes, elles ne font l'objet que d'allusions et ne semblent pas avoir donné lieu à des expérimentations systématiques.

De son côté, Danièle Bourcier (1976) a montré comment les systèmes informatiques qui prennent la langue comme code sont incapables de donner accès à l'implicite:

"L'implicite du discours juridique est lié à l'interprétation de la signification littérale: la réunion (au sens logique) de plusieurs informations dans la règle de droit est censée produire une signification "dérivée" que l'interprète peut induire ou déduire[...].

Cette opération d'explicitation participe de ce qu'on appelle la nécessaire intervention humaine au moment de la préparation du document de base (explicitation ou indexation). Le document de base doit contenir et exprimer toute l'information. Or si le texte original contient toute l'information, il ne l'exprime pas toute. Il existe donc un écart entre ce qui est "contenu" et ce qui est "exprimé". On retrouve ici toute la question de l'interprétation en droit telle qu'elle est vue par les normativistes [...] (Bourcier, 1976: 14)

Elle affirme aussi qu'"il faut élargir la notion de concept (le droit repose sur le concept, c'est-à-dire sur une organisation cognitive et logique du langage) à sa possibilité d'être paraphrasé et intégré dans des ensembles plus vastes".(Ibid.: 18).

Avec des préoccupations pédagogiques et non pas de repérage de l'information, deux chercheurs ont procédé à une analyse de discours sur les résumés pour en dégager la matrice discursive. Ils avancent que le cadre de leurs observations est "aussi constitutif des articles de revues de sciences sociales, dont procèdent ces descriptions signalétiques: leurs dimensions réduites révèlent, en les cristallisant en quelque sorte, des éléments dispersés ou sous-jacents dans les textes d'articles. En ce sens, cette approche serait à reprendre sur un corpus constitué par les articles eux-mêmes." (Beacco et Darot, 1984: 115). En procédant à une comparaison entre un texte et son résumé, ils aboutissent à cette constation:

"le résumé reproduit quelquefois, explicitement ou non, la démarche du texte, mais la réduction du texte se fait à un degré non constant: à une phrase ou à une proposition du résumé correspondent des segments du texte ou des segments de phrases de l'article d'étendue variable, sans parler des sauts et des ruptures. Il est extrêmement rare, par exemple, que chaque phrase d'un résumé renvoie systématiquement à un intertitre du texte. Il n'en demeure pas moins utile d'essayer d'éclairer le sens du résumé par celui des intertitres et de faire établir des relations dans cette relation paraphrastique." (Ibid.: 119)

et concluent: "[...] ce résumé est exemplaire d'une réduction non homogène mais cependant fidèle: sa structuration, qui réorganise le contenu sémantique, n'est pas "parallèle" à celle du texte de l'article." (Ibid.: 121).

La prise en compte les processus cognitifs

En ce qui concerne les processus cognitifs, la recherche est rès récente. L'auteur qui a été le plus précis sur la spécificité des opérations et sur les objets sélectionnés, Farrow (1991), n'a pas effectué d'expérimentation. Il propose un modèle adapté de diverses études en psychologie cognitive et émet des hypothèses à la lumière de ce qu'il sait et des directives données dans les normes d'analyse. Beghtol (1986) colle au modèle proposé par Van Dijk, sans faire d'expérimentation elle non plus. Endres-Niggemeyer (1990) a étudié un seul individu, avec la méthode d'analyse de protocole. Le premier de ces chercheurs rapproche les stratégies de prise de connaissance du contenu des indexeurs de celles des lecteurs rapides, avec la différence que la lecture rapide ordinaire se fait sans but précis, alors que la lecture rapide en vue de l'analyse est orientée par la tâche à accomplir. Ceci semble avoir des conséquences non seulement sur les opérations cognitives effectuées mais aussi sur les objets textuels examinés et, par conséquent, sur ceux qui sont retenus et sur leurs propriétés: la lecture sans but aboutit à l'écrémage ("skimming") des mots de signification, sans distinction de ce qui est secondaire de ce qui est important, sans souci d'intégration, sans cherche de la cohérence locale entre les idées. L'objectif est d'"encapsuler" la compréhension dans une poignée de mots clés isolés, les détails et la cohérence locale étant considérés comme des distractions inutiles (Farrow, 1991: 152-153).

Les lecteurs rapides avec but comme les indexeurs opèrent en même temps au niveau perceptif et au niveau conceptuel, parcourent ("scan") le texte de façon sélective et recherchent des indices bien précis ("specific perceptual cues"): certains sont purement typographiques (mots en italiques, titres, sous-titres, début ou fin de paragraphe), beaucoup sont lexicaux (des mots fréquents, par exemple, dont certains déclenchent l'activation des autres mots du réseau), d'autres sont structuraux: mots ou expressions marquant l'introduction ou la conclusion, "In this paper we ...", "results suggest":

"indexers opearate at a number of levels, one of which is a 'structural or textual framework level', where it is claimed that authors jot down, or at least carry in their heads, 'skeletal structures' of what they are writing, and the indexer's task is to 'disinter this skeleton' by searching for surface clues." (Farrow, 1991: 155)

Les analystes recherchent des marques physiques explicites ("formal text mark-up"), des définitions, des exemples mais aussi sans doute des marques implicites, d'après Endres-Niggemeyer, 1990: 234, 236) et vérifient la première et la dernière phrase des paragraphes qui contiennent habituellement des éléments sémantiques importants ("desirable semantic items") et des termes exprimant le thème de la discussion ("they are the known favourite places of ready-made topic expressions"). Ils sélectionnent les propositions principales pour former une macro-structure cohérente, font des inférences plausibles pour connecter les propositions. Les indexeurs procèdent plus par approche conceptuelle que par approche perceptuelle. Leur tâche est d'autant plus aisée que les textes parcourus et le domaine auquel ils sont rattachés leur sont familiers:

"In rapid reading, [...] text is sampled almost fortuitously, and the skill that trained speed-readers acquire is skill in inferring connections between the bits of text that they happen to have sampled. If the material is familiar, speed readers will possess schemata that are sufficiently detailed to support their inferences. These findings indicate the need for indexers to have specialist knowledge of the subjects they are indexing." (Farrow, 1991: 154)

Les relations entre le texte de départ et le texte d'arrivée peuvent donc s'expliquer à la fois par des propriétés des éléments textuels, par la structure textuelle et par des opérations cognitives comme la compréhension de texte dans une situation particulière de lecture rapide avec but ("scanning"), d'oubli, de sélection, de reconstruction. Avant de bâtir une expérimentation, il faudrait distinguer les activités de tri-classification, d'indexation et de condensation, examiner la fonction des résultats auxquels elles doivent aboutir, pour faire des hypthèses sur les stratégies de prise de connaissance des textes (la lecture est plus ou moins approfondie selon que l'on doit classifier, indexer ou résumer), sur les opérations en jeu, sur les connaissances mobilisées dans chaque cas, sur les outils documentaires consultés, sur les objets parcourus, retenus ou rejetés, sur la façon de les transformer, etc. La seule opération d'indexation n'est-elle pas multiple? Assigner ou extraire des mots-clés isolés (tâche assimilable au "tagging"?) ne revient pas au même que de produire un terme complexe avec mise en relation des différents constituants de façon à produire un énoncé?

Aucun auteur n'étudie l'influence des outils documentaires sur le texte reconstruit, bien que Beghtol la mentionne. On sait pourtant qu'ils peuvent avoir un effet néfaste sur la fidélité de l'indexation. Les reproches adressés sporadiquement aux thésaurus pendant les deux décennies précédentes se font de plus en plus nombreux. Plusieurs suggestions ont été formulées récemment pour améliorer cette représentation très grossière du monde et en proposer divers enrichissements: ajout de termes d'entrée (Kristensen et JÄrvelin, 1990; Rada et al., 1988), étiquetage précis des relations autres que hiérarchiques (Rada et al., 1991), bref, transformation du thésaurus en véritable base de connaissances (Moholt, 1990). L'efficacité de ces enrichissements a été testée sur le repérage assisté par ordinateur ou entièrement automatique, mais pas sur la représentation des textes ni sur les interactions des indexeurs avec les textes et le thésaurus enrichi. On a mesuré la distance entre les documents signalés et les questions, mais pas entre les documents et leur indexation, bien que l'on souligne le double rôle du thésaurus pour le décodage et l'encodage (Reich et Biever, 1991).

NOS EXPÉRIMENTATIONS SUR L'ANALYSE DES JUGEMENTS

Notre travail, dans le cadre du prototype de système expert d'aide à l'analyse des jugements, consiste à confronter les divers textes en interrelations, textes primaires et textes secondaires, espérant trouver des régularités révélatrices d'un certain savoir-faire. Dans un premier temps, nous attribuons automatiquement des propriétés aux unités lexicales et aux segments textuels: ces propriétés ajoutent de l'information explicite, des marques, à des données jusqu'alors non structurées et permettent de vérifier l'utilisation qu'ont faite les indexeurs de certaines catégories de données et de certaines de leurs propriétés pour la construction des différentes représentations des textes primaires. D'autre part, les conseillers juridiques chargés de l'analyse des jugements nous sont accessibles et nous pouvons les interroger, les observer dans l'accomplissement de leurs tâches, les faire réagir aux interprétations que nous tirons de l'analyse textuelle.

Étant donné la masse des documents que nous avons à analyser et que le système expert aura à traiter, nous ne pouvons envisager des analyses fines au cas par cas. Mais nous ne voulons pas non plus travailler sur des données brutes comme les chaÎnes de caractères, ni nous contenter des seules propriétés de fréquence et de positionnement. Nous optons pour des traitements mixtes qui combinent plusieurs propriétés au niveau perceptif, sémantique et structural dans la lignée de ce que Farrow suggère et d'après nos propres convictions en ce qui concerne la nécessaire collaboration entre l'ordinateur et l'être humain et la multiplicité des niveaux de traitement à l'oeuvre en parallèle (Bertrand-Gastaldy, 1992; Meunier, 1992; Paquin et Beauchemin, 1989). Nous adoptons donc deux approches complémentaires, les analyses statistico-linguistiques et l'approche cognitive. L'essentiel de la méthodologie a été exposé dans Bertrand-Gastaldy et al. (1992).

Dans ce qui suit, nous montrerons comment nous rendons opérationnelle la notion d'intertextualité discutée précédemment, afin de modéliser les opérations de tri et de classification, d'indexation, et afin d'assister la lecture humaine.

Le tri et la classification

Nous avons interviewé les conseillers juridiques et procédé à de nombreux allers-retours entre leurs dires et le corpus. Ils ont identifié les éléments de la macro-structure des jugements qu'ils parcourent; certains de ces éléments relèvent plus du paratexte que du texte lui-même et incitent d'ailleurs à cette forme de lecture: intitulé, tribunal qui a rendu la décision, nom des parties, lois ou articles de lois cités.

D'autres indices sont purement lexicaux, ce sont les mots employés par le juge. Plusieurs d'entre eux sont de très bons discriminants pour un domaine donné et se retrouvent souvent dans le paln de clasification et le thésaurus; ceux qui pointent vers plusieurs domaines recevront une pondération appropriée. À la suite de diverses stratégies de catégorisation automatique, ces éléments se trouvent marqués explicitement et peuvent être repérés par le nom de leur propriété et les différentes valeurs posibles. Dans l'exemple ci-dessous, la consultation automatique du thésaurus (Ta=terme accepté, Tr=terme rejeté), du plan de classification (Clas) et de la liste des termes considérés par les conseillers juridiques comme appartenant au domaine Famille (y compris les mots clés libres: Tl) permet d'ajouter les marques suivantes au texte (on a ajouté une commande pour que tous les termes marqués soient soulignés):

Le Tribunal est saisi d'une demande de divorce *Term=TlFam dont la contestation porte essentiellement sur la valeur et le mode de partage des biens*Term=TlFam qui composent le patrimoine familial*Term=Ta,ClasFam. Le mari demandeur conclut à l'exclusion de la défenderesse du partage du patrimoine familial*Term=TlFamet, subsidiairement, à ce que la défenderesse soit condamnée à lui verser une prestation compensatoire*Term= TaFam,ClasFam de 100 000$.

[...]

Quant à la prestation compensatoire*Term= TaFam,ClasFam réclamée par le demandeur, le Tribunal estime qu'elle est mal fondée en droit et qu'elle n'est pas justifiée dans les circonstances. La prestation compensatoire*Term= TaFam,ClasFam telle que conçue par le législateur dans le cadre de la Loi 146(1) ne peut avoir pour effet de contrecarrer l'objectif recherché par le partage du patrimoine familial*Term=TlFam. Le législateur a d'ailleurs prévu l'exclusion de certains biens et la possiblité de modifier la proportion ou les modalités. Ceci n'exclut pas pour autant la possibilité pour un des conjoints de réclamer une prestation compensatoire*Term= TaFam,ClasFam de son conjoint pour avoir contribué à l'enrichissement de ce dernier sur des biens qui ne font pas partie du patrimoine familial*Term=TaFam, ce qui n'est pas notre cas en l'espèce.

[...]

Le Tribunal ordonne que la valeur du régime de retraite*Term=Tr, Clas de la défenderesse soit exclue du patrimoine familial*Term=TaFam partageable.

[...]

Loi modifiant le Code civil du Québec et d'autres dispositions législatives afin de favoriser l'égalité économique des époux*term=TlFam, (L.Q., 1989, c.55).

L'indexation

Interrelations entre deux types d'hypertextes: les résumés et les manchettes

Notre étude de l'indexation a pour objectifs de:

- Trouver les propriétés permettant de discriminer les termes présents dans les résumés et retenus par les conseillers juridiques dans les manchettes par rapport aux termes non retenus.

- Reconstituer les inférences ayant conduit les conseillers juridiques à assigner dans les manchettes des termes absents des résumés.

- Vérifier la rentabilité de l'enrichissement du thésaurus pour une meilleure indexation assistée par ordinateur.

- Structurer le thésaurus pour faciliter une indexation de qualité.

Sur la foi des recherches et des pratiques d'indexation en sciences de l'information et suite à des échanges préliminaires avec les conseillers juridiques ainsi qu'aux recommandations formulées dans le mémoire de Poirier (1985), nous avons émis certaines hypothèses:

- Les termes retenus sont les termes de signification ayant une fréquence élevée dans le résumé indexé.

- Ils ont une valeur discriminante plus élevée que les termes non retenus.

- Ils se trouvent surtout dans le paragraphe Problématique et très rarement dans le paragraphe Litige.

- Ils se situent au début et à la fin des paragraphes.

- Ce sont des termes qui caractérisent le domaine dans lequel le jugement a été classé (hypothèse ajoutée en cours d'expérimentation au vu de certains résultats).

- La prise en compte des variantes morphologiques et des phénomènes de paraphrase accroÎt les chances que les hypothèses précédentes soient vérifiées.

Nous avons retenu les propriétés suivantes:

- la fréquence dans le corpus, dans le domaine, dans chaque résumé

- la valeur discriminante

- la position dans la macro-structure: litige, contexte, problématique

- la position dans la micro-structure: pour chaque subdivision du résumé, position de la phrase (les deux premières, les deux dernières, celles du milieu)

- l'appartenance au plan de classification et/ou au thésaurus

- l'appartenance au vocabulaire spécifique du domaine de classification (Assurances, Famille, Travail, etc.) dans lequel le texte est classé

- l'appartenance à une catégorie d'une éventuelle grille d'indexation

- la position des termes retenus par rapport aux passages où le juge s'appuie sur la doctrine, la législation et la jurisprudence (cette propriété sera étudiée dans les textes intégraux seulement).

Les premiers résultats de nos expérimentations effectuées dans quelques domaines du droit révèlent déjà certaines tendances.

En ce qui concerne les descripteurs:

- La moyenne de la valeur discriminante des descripteurs présents dans les résumés et retenus dans les manchettes est nettement supérieure à la moyenne des termes non retenus, ce qui tendrait à prouver que les indexeurs connaissant bien leur domaine choisissent les éléments importants.

- Ces descripteurs proviennent en grande partie du contexte et du début et du milieu de la problématique de la décision (la proportion entre les deux subdivisions varie selon les domaines), dans une faible mesure du litige.

- Peu de descripteurs proviennent de la fin de la décision, et il faut en chercher l'explication auprès des conseillers juridiques.

- Ce sont surtout les descripteurs du domaine dans lequel le jugement est classifié qui sont retenus.

Pour ce qui est des mots-clés libres:

- La valeur discriminante se révèle un indice intéressant.

Comme les manchettes sont constituées à 40% de descripteurs et non-descripteurs et de 60% de mots-clés libres, il vaut sans doute la peine de contrôler davantage le vocabulaire a posteriori pour améliorer l'indexation assistée.

Nos méthodes permettent donc de mettre au jour certaines pratiques et de vérifier dans quelle mesure les règles implicites sont suivies globalement et dans chacun des domaines (nous ne disposions d'aucun document décrivant les politiques d'analyse de SOQUIJ). Surtout, elles nous conduisent à questionner les conseillers juridiques et à faire expliciter les pratiques. À titre d'exemple, s'il a été dit à un moment donné que le litige ne comporte pas d'informations susceptibles d'être reprises dans les manchettes et dans l'index, nous avons pu cependant montrer que 18% en moyenne des termes contrôlés retenus dans les manchettes étaient issus de cette partie du résumé, ce qui a conduit les conseillers juridiques à préciser que, dans certaines circonstances, on introduit des éléments du contexte dans cette subdivision.

Nous pouvons observer les phénomènes à la fois dans leur ensemble et par domaine du droit (d'après la rubrique de classification attribuée aux jugements), ce qui nous permet de déceler des variations dans les pratiques, variations qui sont d'ailleurs confirmées par l'enquête cognitive. Elles peuvent s'expliquer par les particularités des domaines ou par un manque d'harmonisation entre les politiques implicites d'analyse des différents experts. Il ne nous appartient pas d'en juger, mais seulement d'en apporter la preuve et de soulever la question avec les spécialistes.

Nos études portent non seulement sur les chaÎnes de caractères, mais sur les formes lemmatisées et sur les paraphrases des termes complexes. Ce n'est que lorsque nous aurons épuisé les moyens de repérer tous ces équivalents que nous chercherons les concepts implicites, nous inspirant en cela de l'excellente étude de Bourcier (1979). Cependant, il nous semble que les résumés écrits par les conseillers juridiques constituent une reformulation déjà partiellement normalisée et explicitée et que l'implicite sera à rechercher plutôt du côté du jugement en texte intégral.

En somme, la co-présence dans deux hypertextes dérivés du même hypotexte des mêmes termes ou de formulations équivalentes susceptibles de dénoter un même concept, de même que leur absence dans un des deux hypertextes nous aident à retrouver les propriétés à l'origine de la présence ou de l'absence.

Interrelations entre les différents hypertextes et les outils documentaires

Tous les termes appartenant au thésaurus et au plan de classification qui se retrouvent dans les résumés, les manchettes et l'index sont étiquetés. Nous pouvons donc tirer plusieurs observations intéressantes sur l'utilisation et l'utilité de ces outils, par exemple le pourcentage de descripteurs réellement utilisés et leur taux d'utilisation grâce à des histogrammes de fréquences, la proportion de l'emploi des multitermes par rapport aux unitermes dans les manchettes et dans le thésaurus, la porportion de descripteurs employés dans les manchettes par rapport au nombre de mots clés libres, etc. Ces observations conduisent à des propositions d'ajustements qui sont aussi utiles pour la continuation de la pratique manuelle qu'indispensables pour une analyse assistée par ordinateur.

L'étude du contexte d'emploi des descripteurs unitermes révèle plusieurs cas de polysémies et permett aussi de constituer des paradigmes. En effet, des unitermes se trouvent souvent employés dans des termes complexes du résumé ou de la manchette qui ne font pas partie du thésaurus. D'autres descripteurs sont employés dans un sens complètement différent de celui que lui confère leur entour dans le thésaurus.

Les paraphrases sont repérées grâce à la recherche, en concordance libre et sous forme tronquée, de chaque élément constituant un terme complexe. On trouve ainsi des reformulations:

- dans lesquelles le verbe correspondant au déverbal a été employé:

contestation de paternité et contester la paternité

- dans lesquelles un verbe a été inséré:

décès accidentel et le décès n'était pas accidentel

- dans lesquelles il y a une variation de préposition:

subrogation de l'assureur et subrogation entre assureurs

À côté du descripteur garde d'enfant: , on peut avoir toutes ces variations:

garder son enfant, garde de cette enfant, garde de leurs enfants, garde de son enfant, ...enfant soit compromis si sa garde est confiée à son père, la garde provisoire des deux enfants, enfant dont elle a la garde, la garde légale de l'enfant, etc.;

ou encore pour compétence du juge :

le juge unique a donc pour compétence, le juge conservait compétence pour ; le juge intimé a excédé sa compétence, etc.

Tout ce travail nous conduit à apporter plusieurs modifications au thésaurus pour qu'il puisse répondre aux besoins de l'analyse automatique.

Il est, dans un premier temps, enrichi de variantes morphologiques:

coopérative, coopératives

institution privée, institutions privées

brevet d'invention, brevets d'inventions

administration de la justice, administrations municipales

assuré,assurée, assurés, assurées

La relation Voir aussi est complétée par une relation de cooccurrence. L'utilité de cette relation sera testée dans le cas des termes assignés dans les manchettes, sans que leur présence ait été détectée dans les résumés: assignation du descripteur enfant intellectuellement handicapé, alors que figure trisomie dans le résumé.

Les synonymes n'ont pas encore été recherchés systématiquement. On a pu relever, par exemple: troubles d'apprentissage pour difficultés d'apprentissage. Ils seront plus nombreux dans les textes intégraux; le jugement des experts sera indispensable pour leur détection.

Certains procédés de généralisation demandent que l'on tienne compte d'une structuration lexico-sémantique malheureusement peu développée dans le thésaurus actuel (seules sont retenues les relations associatives et préférentielles). L'étude du contexte d'emploi des descripteurs unitermes ainsi que la recherche en concordance ordonnée des éléments constituant les descripteurs complexes permettent de constituer des paradigmes grâce à l'ajout de termes spécifiques au terme général présent actuellement dans le thésaurus:

concurrence déloyale

interdiction de cumul

substitution de police; substitution de police d'assurance-vie

taxe scolaire

lésion des droits de l'enfant; lésion des droits de l'adolescent

recours contractuel, recours contre l'État; recours délictuel, recours extraordinaire, recours hybride, recours prématuré, recours subrogatoire .

responsabilité de l'assureur et responsabilité contractuelle de l'assureur

On pourra, par la suite, compléter la recherche des hyponynes et hyperonymes par la détection de formules appropriées dans les textes intégraux.

Une structuration thématique par grands domaines du droit sera ajoutée grâce à l'étude des cooccurrences des descripteurs avec les rubriques de classification et grâce à une recherche de "clusters" effectuée avec le logiciel SPSS. On amorcera aussi une structuration par facettes. Quelques-unes s'imposent aux non-spécialistes que nous sommes à la vue des cooccurrents d'une rubrique de classification comme ASSURANCES (type d'assurance, événement ayant déclenché le recours à l'assurance, etc.):

26 assurance

9 assurance-vie

5 mandat

3 suicide

2 accident

2 assurance-automobile

2 assurance_collective

2 incendie

2 quittance

etc.

alors que d'autres devront être recherchées d'après l'ordre des descripteurs figurant dans les manchettes. Cette propriété Ordre est utilisée pour numéroter les phrases à l'intérieur du paragraphe; elle nous a été suggérée au cours de notre enquête cognitive, le premier descripteur étant, d'après certains conseillers juridiques, chargé d'apporter tel type d'information, le second tel type de précision, etc.:

- En droit pénal:

rubrique

sous-rubrique

infraction commise

principes de droit étudiés dans la décision

mentions sur l'appelant

contexte de l'infraction

peine imposée

- En procédure civile:

identification de la procédure

moyen de procédure

type de défense

- En assurances -responsabilité:

domaine

sous-domaine

causes de la plainte

Cette pratique se rapproche de celle préconisée par Bibent (1976: 154) qui propose une séquence de ce genre :

". un descripteur qui permet de qualifier l'espèce (CONTRAT DE TRAVAIL, DIVORCE, MANDAT, ASSURANCES, etc.)

. un descripteur qui précise le premier en indiquant, par exemple, le rattachement de la décision analysée à une législation définie: BAIL D'HABITATION, LOI DU 1ER SEPTEMBRE 1948. Le descripteur peut aussi correspondre à une ou plusieurs sous-catégories, par exemple pour DIVORCE: MESURES PROVISOIRES, CAUSES, COMMUNAUTÉ, PROCÉDURE

. À chacune de ces catégories peuvent être rattachés différents descripteurs qui viennent préciser le problème spécifique contenu dans la décision analysée: DIVORCE, MESURES PROVISOIRES, GARDES ENFANTS, DROIT DE VISITE, DOMICILE CONJUGAL, PENSION ALIMENTAIRE, etc.

De même en matière de vente, on doit indiquer en quoi consiste l'inexécution de l'obligation du vendeur et en préciser les causes. On obtient la structure suivante:

VENTE/ OBLIGATION DU VENDEUR / INEXÉCUTION/ ... DESCRIPTEUR SPÉCIFIQUE .../ ... CAUSE DE L'INEXÉCUTION .../

En matière d'accidents de la circulation routière, la caractérisation de l'espèce entraÎne le recensement de certains renseignements, sur le COMPORTEMENT DU VÉHICULE, DU CONDUCTEUR, SUR LES CONDITIONS DE CIRCULATION, etc."

C'est ainsi que les outils d'analyse peuvent être améliorés par réinjection des résultats de leur utilisation effective dans les textes secondaires que sont les manchettes et par la confrontation avec le vocabulaire des textes en langue naturelle.

Par le truchement du marquage des unités lexicales dans les hypertextes, les interrelations entre le thésaurus et le plan de classification apparaissent clairement. L'examen des manchettes révèle que plus de 20% des descripteurs et non-descripteurs retenus dans la manchette figurent aussi dans le plan de classification. Il y a certainement un travail d'harmonisation à effectuer, après spécification du rôle de chacun des deux outils. Quelques incohérences comme le rejet d'un terme dans le thésaurus employé comme rubrique de classification seront corrigées.

L'aide à la lecture des textes intégraux

Grâce aux traitements effectués pour le tri, la classification et l'indexation, il est possible de construire une forme d'aide personnalisée à la lecture des jugements.

Le paratexte résultant de l'attribution de propriétés

Les propriétés lexicales et textuelles mobilisées pour les autres opérations: étiquetage des citations de lois, de la mention des parties en présence, des termes du domaine, ou tout simplement la recherche de certains marqueurs textuels introduisant des passages jugés importants ("motifs suivants", "chefs d'accusation", "les faits se résument comme suit", "ne répond pas aux critères","j'en conclus", "loi", "arrêt", "dans l'affaire" ..., etc.) peuvent servir à diriger la lecture. Le logiciel SATO permet de souligner ou surligner en différentes couleurs les unités dotées de telle ou telle propriété. De plus, il est possible de demander l'affichage des seuls passages (phrases, paragraphes ou contexte numérique spécifié par l'utilisateur) dans lesquels apparaissent les unités dotées des propriétés requises: on peut ainsi ne visualiser que les paragraphes dans lesquels la jurisprudence est citée, dans lesquels se trouvent des citations de lois ou d'articles de lois, dans lesquels il est question des prétentions des parties, dans lesquels il y a débat sur un point de droit, etc. Ces opérations sur le texte peuvent être encapsulées sous forme de macro-commandes par chacun des conseillers juridiques, selon ses habitudes de prise de connaissance du contenu d'une décision dans un domaine donné. Les stratégies de lecture et de résumé varient, en effet, selon les individus et selon le domaine, car les jugements sont structurés différemment, contiennent des renseignements différents. On ne lit pas un jugement classé dans le domaine Famille comme on lit une jugement relevant du domaine Procédure civile.Dans certains domaines, ce qui est important ce sont les questions de droit discutées par le juge situées dans la problématique, dans d'autres domaines ce sont les argumentations des avocats localisées dnas la partie contexte.

Les valeurs de propriétés surimposées au texte de départ jouent donc le rôle d'un paratexte orientant la lecture humaine et déterminant l'affichage sur écran ou l'impression papier.

Intratextualité et intertextualité

Nous pouvons aller plus loin dans l'attribution de propriétés en mettant au jour de relations à la fois intertextuelles et intratextuelles, ces dernières portant sur les subdivisions des résumés; nous comparons l'ensemble des contextes, par exemple à l'ensemble des litiges, à l'ensemble des décisions et à l'ensemble des litiges et décisions réunis. Nous utilisons pour cela la commande Distance de SATO qui, est une mesure d'ordre intertextuel, puisqu'elle est basée sur la probabilité d'apparition des mots dans le corpus.

Puis nous attribuons une valeur de propriété aux mots qui contribuent le plus à la distance du contexte, (du litige, de la décision); la recherche dans les textes intégraux de fortes concentrations de mots ou de propriétés discriminants peut servir à dépister les passages traitant du litige, du contexte ou de la problématique. Par exemple, les verbes qui caractérisent le contexte se rapportent aux parties: alléguer, prétendre, demander, réclamer, soutenir, invoquer, etc. et contrastent avec ceux de la problématique qui s'appliquent au juge: devoir, falloir, démontrer, ordonner, appliquer, agir, etc. Les lexèmes les plus discriminants du contexte se rapportent au temps (rappel des événements à l'origine du litige): janvier, février, mars, avril, , etc., mois, an .


SATO À L'APPUI DE NOTRE MÉTHODOLOGIE

Au moins trois caractéristiques de SATO nous sont précieuses pour mettre en évidence les phénomènes de transtextualité:

- la facilité de définir des domaines, ensembles et sous-ensembles de corpus ou de textes

- la possibilité d'attribuer des propriétés aux segments textuels et aux unités lexicales avec héritage de l'une à l'autre; en particulier la possibilité de rajouter toute propriété qui nous semble utile et d'abandonner celles qui ne donnent pas les résultats escomptés.

- les dénombrements et les calculs statistiques ainsi que la facilité de transfert des données vers des logiciels statistiques très performants comme SPSS.

La mobilité invoquée par Eigeldinger est une mobilité créée par les outils d'analyse disponibles dans SATO.


CONCLUSION

L'étude de la transtextualité dans un contexte documentaire s'avère intéressante à plusieurs points de vue:

- elle révèle des régularités et des anomalies;

- elle permet donc aux indexeurs de porter un regard différent sur leurs pratiques et leurs outils et, s'ils le jugent nécessaire, de les modifier;

- elle facilite la construction d'outils d'aide à l'analyse qui correspondent aux façons de fonctionner des indexeurs et aux pratiques institutionnelles;

- elle nous permet à nous chercheurs d'envisager un système qui prenne en charge les traitements automatiques d'assez bas niveaux pour passer la main aux experts, seuls capables de mobiliser la multiplicité des connaissances nécessaires à la sélection et à l'interprétation des textes en fonction du contexte spécifique de leurs tâches.

Avec une telle opérationnalisation de l'intertextualité, nous ne nous livrons pas à un de ces "parachutages" fréquents dans un nouveau domaine d'application ni à un "bricolage de concepts" dont parle Angenot (1983). Ce dernier déclarait (Ibid.: 132): "[...] la question n'est pas de savoir ce que "veut dire" intertextualité, mais "à quoi ça sert" [...]". Dans le cas de l'analyse documentaire, elle peut sans doute, comme dans le domaine des études sur la textualité, venir "troubler" toutes sortes d'expérimentations qui ne distinguent pas la partie du tout, le code du langage documentaire de celui du langage naturel et les réalisations langagières de ce dernier dans les divers types de textes. Angenot (Ibid.): poursuivait:

"À tous ces modèles, l'intertextualité oppose une problématique de la multiplicité, de l'hétérogénéité, et de l'extériorité qui me semble, au-delà des malentendus et des effets de mode, l'essentiel de notre problème pour les années à venir."

Mais l'explication de la multiplicité et de l'hétérogénéité est elle aussi multiple et hétérogène; elle est à rechercher non seulement dans les phénomènes linguistiques, mais aussi dans les processus cognitifs d'une lecture orientée par la tâche à accomplir, les outils et les conditions de production.

L'analyse des jugements telle que pratiquée à SOQUIJ illustre bien les multiples interrelations qui caractérisent de façon générale les produits issus de l'analyse documentaire. On y retrouve tous les types d'hypertextes habituels: résumés, rubriques de classification, indexat (qui ici se dédouble en indexat en vocabulaire libre et en vocabulaire contrôlé). Sont aussi d'une certaine importance le paratexte et les textes "connexes" (plan de classification, thésaurus, politiques explicites ou implicites). Les conditions de production obligent à des choix difficilement formalisables puisqu'il faut tenir compte à la fois du nombre de pages imposées par la publication hebdomadaire, de l'actualité, c'est-à-dire des textes diffusés par les médias sur les événements importants, des interprétations antérieures de la législation, de la jurisprudence et de la doctrine. Les expérimentations que nous faisons pour la conception du prototype de système expert d'aide à l'analyse des jugements s'attaquent à certains de ces phénomènes d'intertextualité. Elles bénéficient de la souplesse du logiciel SATO. Assortie d'une méthodologie pour observer les phénomènes intertextuels et d'un cadre théorique pour les expliquer, la question de l'"intertextualité" met l'accent sur les similarités et les dissemblances, oblige à en questionner les causes et pointe vers les phénomènes langagiers ainsi que les processus cognitifs propres à une forme de production textuelle dans un contexte bien précis. Une méthodologie semblable pourrait servir à modéliser d'autres types de lecture.

BIBLIOGRAPHIE DES SOURCES CITÉES

Angenot, Marc. L'Intertextualité: enquête sur l'émergence et la diffusion d'un champ notionnel. Revue des sciences humaines; 189; janvier-mars 1983: 121-135.

Beacco, Jean-Claude; Darot, Mireille. Analyse de discorus; lecture et expression. Paris: Hachette / Larousse; 1984.

Beaugrande, Robert de.Text, Discourse, and Process.; Toward a Multidisciplinary Science of Texts. Norwood, NJ: Ablex; 1980.

Beaugrande, Robert de. Text Production; Toward a Science of Composition. Norwood, NJ: Ablex Publishing Corporation; 1984. xvi, 398 p. (Advances in Discourse Processes; xi)

Beghtol, Clare. Bibliographic classification theory and text linguistics: aboutness analysis, intertextuality and the cognitive act of classifying documents. Journal of Documentation; 42(2); June 1986: 84-113.

Bertrand-Gastaldy, Suzannne. La problématique de l'énonciation dans les systèmes documentaires entièrement ou partiellement automatisés. ss la dir. de François Latraverse, Problèmes de l'énonciation. Montréal: Université du Québec à Montréal. Département de philosophie; 1989: 9-80. (Cahiers Recherches et Théories. Coll. "Philosophie du langage" L1)

Bertrand-Gastaldy, Suzanne. Les thésaurus de recherche: des outils pour l'interrogation en vocabulaire libre. Argus; 13(2); juin 1984: 51-58.

Bertrand-Gastaldy, Suzannne; Daoust, François; Meunier, Jean-Guy; Pagola, Gracia; Paquin, Louis-Claude. Un prototype de système expert pour l'aide à l'analyse des jugements. Congrès international Informatique et droit / International Conference on Computers and Law, Montréal , 30 septembre-3 octobre 1992. Recherche, développement et formation / Research, Development and Education, C1; Le développement des systèmes documentaires / Development of Documentary Databases and Systems. 13 p.

Bertrand-Gastaldy, Suzanne; Pagola, Gracia , 1992 L'analyse du contenu textuel en vue de la construction de thésaurus et de l'indexation assistées par ordinateur; applications possibles avec SATO (système d'analyse de textes par ordinateur). Documentation et bibliothèques; 38(3); avril-juin 1992: 75-89.

Bibent, M. L'informatique appliquée à la jurisprudence. Paris: Libraires techniques; 1976.1976.

Bourcier, Danièle. Information et signification endroit; expérience d'une explicitation automatique de concepts. Langages; 53; mars 1979: 9-32. "Le discours juridique: analyses et méthodes."

Chastinet, Y.; Robredo, J. Étude des associations réelles entre descripteurs en vue d'améliorer la qualité de l'indexage. Information et documentation; 4; 1974: 3-22.

Coates, Eric J. Scientific and technical indexing II. In: G. Norman Knight, Indexing, the Art of ... London; George Allen and Unwin; 1979.

Daoust, François. SATO; Système d'analyse de texte par ordinateur. Manuel de références. [Montréal]: Université du Québec à Montréal, Centre d'analyse de textes par ordinateur; 1992.

David, Claire. Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire. Montréal: Université de Montréal, Département de communication; 1990. (Mémoire de maÎtrise)

Debili, Fathi. Analyse syntaxico-sémantique fondée sur une acquisition automatique des relations lexicales-sémantiques. Paris: université Paris XI, Centre d'Orsay; 1982. Thèse de doctorat d'État.

Eigeldinger, Marc. Mythologie et intertextualité. Genève: Slatkine. 1987.

Endres-Niggemeyer, Brigitte. A procedural model of abstracting, and some ideas for its implementation. TKE'90; Terminology and Knowledge Engineering. Frankfurt: Indeks Verlag; 1990: 230-243.

Farrow, John F. A cognitive process model of document indexing. Journal of Documentation; 47(2); June 1991: 149-166.

Foucault, Michel. L'archéologie du savoir. Paris: Gallimard; 1969.

Genette, Gérard. Palimpsestes, la littérature au second degré. Paris: Seuil; 1982.

Grunberger, M.W. Textual Analysis and the Assignment of Index Entries for Social Science and Humanities Monographs. New Brunswick, NJ: Rutgers University; 1985. viii,136 p. (thèse de doctorat)

Hafner, Carole D. Representation of knowlege in a legal information retrieval system. Information Retrieval Research. London: Butterworths; 19??: 139-153.

Janos, Jiri. Theory of functional sentence perspective and its application for the purpose of automatic extracting; Information Processing and Management; 15; 1979: 19-29.

Jones, Kevin P. How do we index?. a report of some Aslib Information Group activity. Journal of Documentation; 39; 1983: 1-23.

Kristensen, J.; JÄrvelin, K. The effectiveness of a searching thesaurus in free-text searching in a full-text database. International Classification; 17(2); 1990: 77-84.

Lancaster, F.W. Vocabulary control in information retrieval systems. Advances in Librarianship; 7; 1977: 1-40.

Liddy, Elizabeth DuRoss. Anaphora in natural language processing. Information Processing & Management; 26(1); 1990: 39-52.

Maeda, Takashi. An approach towards functional text structure analysis of scientific and technical documents. Information Processing & Management; 17; 1981: 329-339.

Maingueneau, D. L'analyse du discours. Paris: Hachette; 1991.

Meunier, Jean-Guy. SATO: un philologue électronique. Documentation et bibliothèques; 38(2); avril-juin 1992: 65-69.

Meunier, Jean-Guy; Bertrand-Gastaldy, Suzanne; Lebel, Hermel. A call for enhanced representation of content as a means for improving on-line full-text retrieval. International Classification; 1987; 14 (1): 2-10.

Moholt, Pat; Goldbogen, Geof. The use of inter-concept relationships for the enhancement of semantic networks and hierarchically structured vocabularies. In: Sixth Annual Conference of the UW Centre for the New Oxford English Dictionary and Text Research. Electronic Text Research. Proceedings of the Conference, October 28-30, 1990, University of Waterloo, Waterloo, Ontario, Canada: 39-51.

National Library of Medicine. UMLS Knowledge Sources; Third Experimental Edition; documentation. Bethesda; 1992. 117 p.

O'Connor, John. Automatic subject recognition in scientific papers: an empirical study. Journal of the Association of Computing Machinery; 12; 1965.

Oddy, Robert N.; Liddy DuRoss, Elizabeth; Balakrishnan, Bhaskaran; Bishop, Ann; Elewononi, Joseph; Martin, Eileen. Towards the use of situational information in information retrieval. Journal of Documentation; 48(2); June 1992: 123-171.

Organisation internationale de normalisation. Documentation - Analyse pour le spublications et la documentation. Norme ISO 214- 1976 (F).

Paquin, Louis-Claude; Beauchemin, Jacques. Apport de l'ordinateur à l'analyse des données textuelles. In: RELAI: Recherche en linguistique appliquée à l'informatique. Actes du colloque "La description des langues naturelles en vue d'applications informatiques", Université Laval, 7-9 décembre 1988. Québec: Centre international de recherche sur le bilinguisme; 1989: 197-210.

Poirier, Diane. Pour des résumés adéquats de jurisprudence québécoise et canadienne; une étude du document jurisprudentiel, de sa structure, de ses citations, de son rôle et de sa spécificité. [Montréal]: Université de Montréal, École de bibliothéconomie et des sciences de l'informâtion; 1985. (Mémoire de matrise).

Roy, Rada; Mili, Hafedh; Letourneau, Gary; Dough, Johnston. Creating and evaluating entry terms. Journal of Documentation; 44(1); March 1988: 19-41.

Rada, Roy; Barlow, Judith; Potharst, Jan; Zanstra, Pieter; Bijstra, Djujan. Document ranking using an enriched thesaurus. Journal of Documentation; 47(3); September 1991:240-253.

Reich, Phyllis; Biever, Erik J. Indexing consistency: the input / output function of thesauri. College & Research Libraries; July 1991: 336-342.

Richer, Pierre. "La création automatique d'un thésaurus de recherche." Argus; 15(1); mars 1986: 13-19.

Texte, Revue de critique et de théorie littéraire; 2; 1983. L'intertextualité. Toronto: 1984.

Van Dijk, T. A. Complex semantic information processing. In: Walker, D.C., Karlgren, H., Kay, M., eds. Natural Language in Information Science. Stockholm: Skriptor; 1976: 127-163. (FID 551)

Vidalenc, Isabelle. Traitement automatique des anaphores pronominales en français. Univeristé Lumière Lyon 2; 1988. thèse nouveau régime.

Weinberg, Bella Hass. Word Frequency and Automatic Indexing. Columbia University; 1981. Ph.D. Thesis.