Bertrand-Gastaldy, S.; Daoust, F.; Meunier, J.-G.; Pagola, G.; Paquin, L.-C., 1993. Les traitements statistico-linguistiques et l'enquête cognitive comme moyens de reconstituer l'expertise des spécialistes en analyse documentaire: le cas de la jurisprudence. Montréal: Université du Québec à Montréal, Centre de recherche en Cognition et Information ATO.CI. 30 p. (Cahiers de recherche; 2)
INTRODUCTION
La Société québécoise d'information
juridique (SOQUIJ) a pour mandat de "promouvoir la recherche,
le traitement et le développement de l'information juridique
en vue d'en améliorer l'accessibilité au profit
de la collectivité" et, plus particulièrement,
de publier les jugements rendus par les tribunaux judiciaires
du Québec dans des recueils imprimés et des banques
de données interrogeables en direct. Elle reçoit
actuellement plus de 10 000 jugements par année, chiffre
auquel il faut ajouter les jugements de la Cour suprême
du Canada et les décisions des tribunaux administratifs.
La saisie électronique des jugements à la source
mise en place progressivement par le ministère de la Justice
du Québec portera à près de 50 000 le nombre
de jugements acheminés sans aucune sélection préalable.
Afin de maintenir le même service sans accroÎtre indûment le personnel, SOQUIJ a confié à une équipe de recherche du CEFRIO (Centre francophone de recherche en informatisation des organisations) constituée de chercheurs du Centre de recherche en cognition et information (ATO.CI) de l'Université du Québec à Montréal et de l'École de bibliothéconomie et des sciences de l'information (EBSI) de l'Université de Montréal, le mandat de concevoir un prototype de système expert qui allègera certaines des tâches des conseillers juridiques chargés de traiter les jugements à plusieurs niveaux (tri; sélection; classification, indexation, résumé; documentation; édition). Plus spécifiquement, le système devra: 1) aider à éliminer à la source les jugements non motivés et ne présentant pas d'intérêt 2) aider à trier et à classifier les jugements selon les différents domaines du droit répertoriés dans un plan de classification subdivisé en 57 domaines
3) suggérer des descripteurs extraits d'un thésaurus
(qui contient plus de 700 descripteurs) et de mots-clés
libres pour l'indexation.
Dans le texte qui suit, nous présenterons
brièvement nos hypothèses de travail et les contraintes
à respecter pour la réalisation du projet. Puis
nous énumérerons les sources de données auxquelles
nous recourons . Nous nous attarderons à l'explicitation
des approches méthodologiques destinées à
faciliter l'extraction de l'expertise des spécialistes
et nous exposerons, pour terminer, la façon dont sera élaboré
le système expert.
HYPOTHÈSES DE TRAVAIL ET CONTRAINTES
Le projet s'appuie sur la triple
hypothèse qu'il est possible: 1) de modéliser les
décisions prises par les conseillers juridiques pour analyser
les arrêts; 2) de construire des algorithmes d'analyse
des jugements en plein texte pour assister ces décisions;
3) d'opérationnaliser les algorithmes dans un milieu réel
pour un corpus fortement normalisé comme celui de la jurisprudence.
Les chercheurs doivent remplir
le mandat confié en respectant à la fois la plateforme
technologique et les outils documentaires de SOQUIJ. Les logiciels
qui supportent la recherche tournent sur micro-ordinateurs IBMPC
ou compatibles, matériel également utilisé
par SOQUIJ . Quant aux algorithmes de calcul statistique, ils
sont mis au point sur les ordinateurs centraux des universités,
puis transférés sur micro pour la réalisation
du prototype. Au terme du projet, il appartiendra à l'organisation
de décider du type de matériel devant supporter
la mise en production. Comme le système expert devra assister
le travail humain sans le remplacer, il n'est pas prévu
d'abandonner les outils documentaires actuels. Néanmoins
ceux-ci pourront être enrichis et modifiés pour s'adapter
aux opérations automatisées.
LES SOURCES DE DONNÉES
La modélisation, la mise
au point et l'opérationnalisation des algorithmes s'appuient
sur plusieurs sources de données, dont certaines se trouvent
déjà sur support informatique. Il s'agit des notices
bibliographiques produites à la suite des différentes
opérations d'analyse, des textes intégraux des jugements
et des critères explicites ou implicites auxquels recourent
les conseillers juridiques pour prendre leurs décisions.
Les résultats des différentes
opérations d'analyse effectuées par les conseillers
juridiques constituent un dépôt précieux de
l'expertise humaine qu'il faut extraire afin de pouvoir en reconstituer
sinon les procédures, du moins l'aboutissement. Il s'agit:
a) des rubriques de classification; b) des mots-clés contrôlés
issus du thésaurus et des mots-clés libres assignés
dans la "manchette" (qui constitue une sorte de titre
enrichi) à la suite de l'indexation; c) du résumé
structuré et des autres éléments d'une notice
(nom des parties, tribunal, citations de lois ou de jurisprudence,
etc.). Notre échantillon est constitué de 1068 notices
de Jurisprudence Express publiées entre janvier
et juin 1991.
Certains des jugements sont,
en raison de leur importance, publiés sous forme intégrale,
par exemple dans Recueil de Jurisprudence du Québec,
et disponibles sur disquettes. D'autres, ceux qui sont éliminés
à la source ou conservés dans des classeurs pendant
un an, sont reçus pour le moment sur support papier et
il nous faut les saisir et procéder à la reconnaissance
optique des caractères pour les exploiter. En effet, la
comparaison des différentes caractéristiques de
chaque groupe de jugements permettra de trouver les éléments
formels ayant pu justifier la discrimination.
Les jugements comportent des régularités
exploitables par des analyseurs automatiques: "La jurisprudence
est un exemple frappant de textes dont la structure est normalisée."
(Didier, 1990: 167), ce qui rend possible, croyons-nous, le recours
aux méthodes développées à l'intérieur
de la théorie des langages de spécialité
(Grishman et Kittredge, 1986; Kittredge et Lehrberger, 1982).
La forme est régie par les contraintes coutumières,
d'après Didier (p. 168) qui affirme: "Le rapport judiciaire
est construit sur un plan immuable composé de deux éléments:
le jugement lui-même et les informations complémentaires
qui l'encadrent en tête et en queue." et qui ajoute
(p.170): "On constate que la structure interne des jugements
devient de plus en plus rigoureuse, que les juges n'hésitent
plus à intégrer des tables des matières dans
leurs motifs, surtout lorsque ceux-ci sont longs et complexes."
Quant au fond, plus difficile à cerner, Poirier (1985)
l'a étudié pour établir des normes de rédaction
des résumés respectant la structure d'information
des textes intégraux.
Les conseillers juridiques
mettent en oeuvre un savoir très spécialisé
qui tient à la fois de la connaissance intime des différents
domaines de droit dans lesquels chacun a développé
une expertise, de la nature des textes analysés, des politiques
régissant chacune des publications et banques de données
produites ainsi que des besoins des différents types d'utilisateurs
auxquels elles sont destinées. Ce savoir est actuellement
très peu codifié. À part la sélection
définie, dans ses grandes lignes seulement, par l'annexe
2 au Règlement sur la cueillette et la sélection
des décisions judiciaires (Loi sur la Société
québécoise d'information juridique - L.R.Q.,
chap. S-20, art. 21) et aux recommandations de Poirier (1985)
pour la rédaction des résumés, l'équipe
de recherche doit recourir aux techniques d'enquête cognitive
(entrevues et observations en situation de travail) pour mettre
au jour les pratiques développées par les experts
humains dans la prise de connaissance et l'analyse des jugements.
LES APPROCHES MÉTHODOLOGIQUES :
COMPLÉMENTARITÉ DES TRAITEMENTS STATISTICO-LINGUISTIQUES
ET DE L'ENQUÊTE COGNITIVE
L'extraction de l'expertise s'effectue par deux approches
complémentaires qui s'enrichissent mutuellement. Les données
issues de l'analyse humaine (textes secondaires), soumises à
une combinaison de traitements que nous allons exposer, puis mises
en correspondance avec les données des textes intégraux
(sources primaires), révèlent des tendances et des
anomalies qui servent ensuite à questionner les outils,
les pratiques et à orienter ou à corroborer l'étude
des savoir-faire. La multiplicité des données et
des types de traitement dépasse en envergure et en complexité
les études antérieures de ce genre (Todeschini et
Farrell, 1989).
Enrichissement des textes et des notices
par ajout de propriétés
Les traitements consistent à
déceler les caractéristiques propres aux unités
lexicales ou textuelles, l'objectif étant de découvrir
lesquelles de ces unités et lesquelles de leurs propriétés
permettent de reproduire les résultats des analyses effectuées
antérieurement par les conseillers juridiques. Nous utilisons
pour cela le langage ICON (Griswold, 1990) et le logiciel SATO
(système d'analyse de textes par ordinateur) conçu
au centre ATO.CI (Daoust, 1992). La mise au point des algorithmes
s'effectue à partir des notices de Jurisprudence Express
qui offrent le triple avantage d'être fortement codifiées,
relativement courtes (environ une page) et de refléter
l'expertise des analystes. Ils sont ensuite adaptés et
appliqués aux textes intégraux.
Les propriétés attribuées
aux données textuelles, en contexte ou hors contexte, consistent
en l'ajout de connaissances de nature diverse qui enrichissent
les chaÎnes de caractères immédiatement accessibles
à l'ordinateur et accroissent le nombre d'opérations
auxquelles on peut ensuite les soumettre. Il peut s'agir d'informations
résultant de décomptes statistiques, de connaissances
générales de la langue (nature grammaticale des
lexèmes), de connaissances spécifiques au domaine
(vocabulaire, structure des jugements), de connaissances "documentaires"
(champs d'une notice, appartenance des lexèmes aux langages
documentaires, signification des différentes conventions
typographiques dans les enregistrements), etc. Elles sont interprétables
par un être humain et résultent de traitements automatiques,
assistés ou humains. En voici quelques exemples:
- Fréquence dans le corpus,
avec valeurs calculées automatiquement par SATO:
- Autres propriétés
statistiques: Moy. Écart Répart. Discri. Chi2 (lexique) 9.73 4.02 100.0% 0.00 28.79 a 0.04 0.19 3.8% 0.45 21.98 abri 0.12 0.42 7.7% 0.46 25.03 absence 0.04 0.19 3.8% 0.45 21.98 acceptant 0.08 0.27 7.7% 0.36 16.65 acceptation 0.04 0.19 3.8% 0.49 24.26 acceptation_du_risque 0.04 0.19 3.8% 0.31 15.07 acceptent 0.04 0.19 3.8% 0.49 24.26 accepter 0.04 0.19 3.8% 0.27 12.88 accès_aux_documents 0.35 0.87 15.4% 0.92 49.72 accident 0.04 0.19 3.8% 0.31 15.07 accident_d'_automobile 0.04 0.19 3.8% 0.56 28.05 accident_du_travail ... 0.12 0.58 3.8% 1.61 80.00 acte_criminel 0.04 0.19 3.8% 0.44 21.76 actes_fautifs 0.58 0.93 30.8% 0.65 35.07 action 0.04 0.19 3.8% 0.31 15.07 action_en_dommages 0.08 0.27 7.7% 0.35 19.05 action_en_dommages-intérêts
0.23 0.42 23.1% 0.32 19.68 action_en_réclamation
- Propriétés grammaticales
des formes simples hors contexte (nom, verbe, adjectif, etc.)
résultant de la projection sur le lexique du corpus de
bases de données lexicales:
- Propriétés typographiques
(lettres capitales reconnues par SATO, spécifications de
polices de caractères dans le logiciel de traitement de
texte, converties avec le langage ICON en valeurs de propriétés:
gras, italiques et soulignés): Format reçu de SOQUIJ:
^N Les dispositions
du ^ICode de procédure civile^N relatives
à l'amendement doivent recevoir une interprétation
aussi large que possible. Format SATO après conversion:
Les dispositions du *typo=italique Code
de procédure civile *typo=nil relatives à
l'amendement doivent recevoir une interprétation aussi
large que possible.
- Position dans la macro-structure;
des algorithmes ont été développés
et implantés en ICON pour attribuer des valeurs de propriété
admissibles par SATO, selon les différentes subdivisions
propres aux notices: . Numéro d'identification . Tribunal ayant rendu le jugement . Manchette . Litige . Contexte . Décision
. Références (nom des parties,
nom des juges, citations de lois, d'articles de lois)
Nous tentons d'automatiser également
la reconnaissance des passages concernant le litige, le contexte
et la décision dans le texte intégral des jugements,
à partir de certaines régularités stylistiques
ou lexicales.
- Position dans le texte, selon
les subdivisions textuelles courantes en phrases et en paragraphes;
un algorithme implanté en ICON numérote les phrases
et identifie la première (pr), la deuxième (deux)
la dernière (de) et l'avant-dernière (ad
) de chaque partie du résumé, tout en attribuant
la valeur au aux phrases restantes:
NOTICE 91-3.STR
*par=ident*typo=nil<ND>91-3
*par=provenance<HD>COUR D'APPEL
*par=manchette
ASSURANCE -- assurance de responsabilité -- recours contre
le tiers responsable -- option -- article 2603 C.C. -- interdiction
de cumul -- amendement.
*par=litige *phr=1 *ord=(ad,pr)
Appel d'un jugement de la \Cour supérieure ayant
accueilli une requête en irrecevabilité. *phr=2
*ord=de Rejeté, avec dissidence.
*par=contexte *phr=1 *ord=pr Le
18 février 1988, l'appelante a intenté une action
contre la mise en cause \Fontaine, lui réclamant
23 688$ à titre de dommages à la suite d'un incendie
provoqué par sa négligence. *phr=2 *ord=deux
Quelques mois plus tard, l'appelante a fait signifier une
déclaration amendée qui ajoutait la compagnie d'assurances
intimée à titre de défenderesse et qui concluait
à la condamnation conjointe et solidaire des codéfenderesses.
*phr=3 *ord=au L'intimée a alors présenté
une requête en irrecevabilité fondée sur le
fait que l'appelante n'avait aucun recours contre elle puisque,
en poursuivant \Fontaine, elle avait exercé l'option
prévue à l'article 2603 \C..\C..
. *phr=4 *ord=au La requête en irrecevabilité
a été accueillie malgré la demande verbale
d'amendement présentée par l'appelante visant à
modifier la désignation des parties et à ne maintenir
que l'intimée à titre de défenderesse, reléguant
\Fontaine au rang de mise en cause. [...]
*par=décision *phr=1*ord=pr
*typo=italique \Mme la juge
\Tourigny et \M.. le juge \Proulx:
*typo=nil Les dispositions du *typo=italique Code
de procédure civile *typo=nil relatives à
l'amendement doivent recevoir une interprétation aussi
large que possible. *phr=2 *ord=deux Cependant, une interprétation,
aussi large soit--elle, ne peut écarter une disposition
de droit substantif incluse dans le *typo=italique \Code
civil. *typo=nil *phr=3 *ord=au Le législateur a
voulu que, en intentant un recours, la partie demanderesse fasse
un choix, ainsi que l'a confirmé \M.. le
juge Mayrand dans l'arrêt \L'\Union québécoise,
mutuelle d'assurance contre l'incendie c.. \Mutuelle
des \Bois-Francs: [...]
*par=référence
\Compagnie d'assurances \Traders générale c. \Laurentienne
générale, \Compagnie d'assurances inc.. Juges
\Tourigny, \Proulx et \Chouinard (diss..). C.A.
On remarque que, à l'issue
du même traitement, les sigles et abréviations ont
été dépistés et marqués, ainsi
que les majuscules de noms propres et les tirets de pronoms personnels
inversés.
- Appartenance au langage de spécialité,
au domaine; des procédures ont été mises
au point pour extraire, à partir de patrons catégoriels
(nom + adjectif; nom + de + nom, etc.), des unités lexicales
complexes susceptibles de correspondre à des termes du
domaine tout comme certains unitermes (le détail des opérations
se trouve dans Bertrand-Gastaldy, 1992): domaine (lexique) non Abitibi oui acte_d'_accusation oui action_en_dommages-intérêts oui agents_de_la_paix oui agression_sexuelle peut-être arme_à_feu oui arrestation_sans_mandat oui arrêt_des_procédures oui centre_de_détention oui chef_d'_accusation oui conduite_avec_facultés_affaiblies oui conseil_de_famille oui contrat_de_mariage oui contrat_de_vente oui divorce oui dommages_exemplaires oui donation_entre_vifs oui droits_de_la_personne
oui jeunes_contrevenants
- Appartenance au plan de classification
et au thésaurus élaborés par l'organisation:
les outils documentaires, disponibles sur support informatique,
sont convertis en format SATO et projetés sur les manchettes,
ce qui permet de catégoriser à la fois les rubriques,
les mots-clés contrôlés (certains peuvent
provenir des deux outils à la fois et ce sont des caractéristiques
comme la position ou la typographie qui serviront à la
désambiguïsation ultérieurement) et, par défaut,
les mots-clés libres:
*par=manchette
ASSURANCE*pc=oui -- assurance de responsabilité*mot-clé=oui
-- recours contre le tiers responsable*mot-clé=oui
-- option*th=oui -- article 2603 C.C. -- interdiction de
cumul*mot-clé=oui -- amendement*th=oui.
- Propriétés lexico-sémantiques:
pour que le système puisse suggérer des mots-clés
contrôlés aux conseillers juridiques, il doit détecter
dans les textes les différentes formulations d'un concept
regroupées dans le lexique grâce à une propriété
Synonymes. Certains de ces synonymes- ou termes jugés équivalents
d'un point de vue documentaire- sont déjà répertoriés
dans le thésaurus sous forme de non-descripteurs et l'on
peut traduire ainsi les relations dans SATO:
- Appartenance à tout autre catégorie jugée pertinente pour les fins de l'analyse:
Certaines informations sont importantes pour
caractériser le domaine du droit auquel un jugement est
susceptible d'appartenir. Les noms propres (décelés
d'après l'environnement du mot qui commence par une lettre
capitale et qui n'est pas placé en début de paragraphe
ni précédé d'un point) peuvent être
subdivisés en noms de personnes, noms géographiques,
noms de municipalités, noms d'organisations, elles-mêmes
fractionnées en différents sous-groupes (compagnies
d'assurances, organismes administratifs, syndicats, etc.).
Lorsqu'on cherche, grâce
à la commande Distance dans SATO, quel est le vocabulaire
qui distingue le plus la subdivision Litige des autres subdivisions
du résumé, on obtient une liste de ce genre, dans
un ordre décroissant d'importance: octobre, janvier,
novembre, décembre, mai, juillet, suite, septembre, motif,
août, compagnie, avril, mois, demanderesse, février,
ans, mars, employeur, jours, défenderesse, défendeurs,
année, syndicat. Ce sont donc surtout les marqueurs
de temps qui jouent un rôle discriminant et, pour catégoriser
automatiquement les passages des jugements en texte intégral
qui traitent du contexte, on devra produire un algorithme qui
ira chercher une forte concentration de formes ayant cette propriété.
Il faut donc catégoriser le vocabulaire en ce sens.
- Marqueurs textuels divers: il
peut être nécessaire de détecter les passages
où le juge argumente sa décision, ceux qui réfèrent
à une loi, ceux qui introduisent une nouvelle interprétation
jurisprudentielle, ou tout autre fragment textuel propre à
assister les opérations de tri, de sélection, de
classification ou d'indexation.
- On peut ainsi attribuer autant
de propriétés que l'on juge utile pour la reconstitution
de l'expertise, d'après l'intuition, les résultats
des analyses et le savoir-faire des conseillers juridiques. À
tout moment, on peut se positionner sur une unité lexicale
et obtenir, par une simple commande, la liste de toutes les propriétés
et valeurs de propriétés attribuées: communauté_de_biens *alphabet = fr *fréqtot = 11 *longueur = 19 *gramr = tcomposé *poids = 51 *typo = nil *par = contexte *phr = 4 *ord = ad
*term = non-descript
Grâce aux différents
traitements exposés, il est possible de catégoriser
des unités lexicales ou textuelles et de procéder
à des extractions de variables multiples selon les caractéristiques
retenues: formes simples, formes simples affectées, hors
contexte, de la (ou des) valeurs de propriété grammaticale,
lexies complexes, termes du domaine, rubriques de classification,
mots-clés contrôlés (descripteurs), mots-clés
libres, titres de lois, nom des parties en présence, déclencheurs
argumentatifs divers (de citations, de décisions, d'interprétation
jurisprudentielle, etc.). On peut les choisir selon leur fréquence
absolue ou relative, selon leur valeur discriminante, selon le
chi2, selon leur position dans le texte, selon le domaine de droit,
le tribunal d'où provient le jugement, le juge, le type
de parties en présence, etc. Par exemple, on peut vouloir
vérifier si les références aux lois sont
de bons indices pour la classification des textes dans un domaine
du droit.
Traitements statistiques
Afin d'évaluer la performance
des divers types de données et de leurs différentes
propriétés pour prédire les décisions
prises par les conseillers juridiques, nous les soumettons à
une analyse de discrimination, avec le logiciel SPSS. Auparavant,
nous procédons à un filtrage destiné à
réduire le nombre de variables. Pour trouver les meilleurs
candidats en vue d'une classification automatique, nous avons
testé, jusqu'à présent, la valeur discriminante
de Salton et le chi 2 et nous avons confronté les résultats
avec ceux que procure un choix aléatoire. Ainsi, pour chaque
texte, nous procédons à un traitement SATO qui produit
un ensemble d'indices numériques. Ces indices sont ensuite
fusionnés dans un fichier unique à raison d'une
fiche par texte qui, pour la vérification de la classification,
par exemple, contient en outre la rubrique de classification attribuée
par les conseillers juridiques. L'algorithme permet d'éliminer
les indices possédant un faible pouvoir discriminant. Il
permet aussi d'évaluer la performance d'ensemble des indices
conservés en comparant la classification générée
par les indices à celle qui correspond au jugement des
conseillers.
Voici quelques exemples de résultats
obtenus à partir d'indices extraits des résumés:
Les excellents résultats
obtenus dans l'exemple ci-dessus s'expliquent sans doute par le
fait que les résumés sont rédigés,
à l'intérieur d'un domaine, par le même indexeur.
On peut s'attendre à une moins bonne performance lorsque
les jugements des différents juges, dans les différentes
cours, seront traités.
Nous avons voulu vérifier
également dans quelle mesure les regroupements de descripteurs
effectués de façon très lâche dans
le thésaurus (puisqu'il n'y a pas de relations hiérarchiques
ni de regroupements par thèmes ou par facettes) d'une part,
pourraient bénéficier d'une structuration par domaine
de droit et, d'autre part, correspondaient aux regroupements réalisés
lors de l'indexation. Pour cela, nous avons procédé
à des analyses de co-occurrences et à des analyses
de "clusters".
Descripteurs du thésaurus
co-occurrant plus d'une fois avec la rubrique de classification
Famille (avec indication de la fréquence de co-occurrence):
Descripteurs co-occurrant avec
le descripteur Pension alimentaire:
Descripteurs du thésaurus
regroupés dans la classe 37 (que l'on pourrait étiqueter
Famille à cause des ressemblances de contenu avec la liste
présentée plus haut sous cette rubrique), selon
l'analyse de "clusters" effectuée avec SPSS ("single
linkage method"):
Les résultats montrent,
dans plusieurs cas, une bonne convergence entre les différents
regroupements statistiques et ceux que l'on peut reconstituer,
parfois péniblement, dans le thésaurus en suivant
le réseau de renvois voir aussi. On peut penser
qu'alors un regroupement statistique favoriserait la consultation
du thésaurus en offrant, d'un seul coup d'oeil, l'ensemble
des descripteurs reliés que l'on peut colliger seulement
en s'astreignant à tourner de nombreuses pages pour obtenir
une vue plus synthétique comme nous avons représentée
graphiquement dans le schéma ci-dessous. On y retrouvera
la plupart des descripteurs qui figurent dans le "cluster"
présenté plus haut, à l'exception des descripteurs
partage, prestation compensatoire, patrimoine familial, rétroactivité,
provision pour frais qui, dans le thésaurus ne sont
reliés à aucun autre descripteur:
Le tableau 1 résume l'ensemble
des traitements que nous venons d'exposer, en ce qui concerne
les notices de Jurisprudence Express.
À la suite des divers traitements, les
outils documentaires subissent plusieurs modifications. Le plan
de classification et le thésaurus sont harmonisés;
les quelques incohérences sont corrigées; le thésaurus
est considérablement enrichi: variations flexionnelles,
morphologiques et syntaxiques, synonymies documentaires sont ajoutées.
Enquête cognitive
Les entrevues et les observations
avec les personnes chargées d'analyser les jugements permettent
à la fois de compléter les analyses de données
exposées précédemment et de les orienter.
Nous cherchons les techniques employées pour parcourir
un texte, les différentes parties du texte examinées
pour prendre une décision de tri, de classification, de
résumé, d'indexation, les connaissances utilisées
(importance de telle ou telle cour, poids à accorder à
la nature des parties en cause, marqueurs du raisonnement du juge,
contenu actuel de la base de données, besoins des utilisateurs,
etc.), les catégorisations effectuées , les inférences
faites pour passer des expressions en langue naturelle à
leurs équivalences dans le thésaurus. Nous procédons
donc selon une boucle: textes _> conseillers juridiques _>
textes. Il est à noter que l'étude cognitive des
opérations d'analyse documentaire ne bénéficie
pas d'une longue tradition (David, 1991; Engres-Niggemeyer, 1990;
Farrow, 1991)
Pour le tri et la classification,
les conseillers juridiques ont d'emblée identifié
les indices pertinents. Selon les responsables
de l'analyse, l'appartenance d'un jugement à un domaine
du droit peut être décelée, dans quelques
cas (DROIT PÉNAL, FAMILLE, TRAVAIL), d'après certains
renseignements contenus dans la première page: le tribunal,
le nom des parties ou la procédure entreprise, entre autres.
Un jugement provenant de la Chambre d'expropriation de la Cour
du Québec traitera assurément du domaine de l'expropriation.
Par ailleurs, un jugement dont l'une des parties est un syndicat
pourrait vraisemblablement aborder le droit du travail. Enfin,
un jugement qui mentionne qu'il s'agit d'une requête en
irrecevabilité à l'encontre d'une action en dommages-intérêts
pourrait être classé en procédure civile.
Mais comme il existe des chevauchements entre plusieurs rubriques
de classification (le DROIT CIVIL recoupe OBLIGATIONS, VENTE,
CONTRATS, entre autres) et comme plusieurs rubriques peuvent être
attribuées à un même jugement, il est parfois
nécessaire de consulter le texte du jugement, pour prendre
connaissance soit du vocabulaire employé par le juge, soit
des lois ou articles du code civil cités.
Tableau 1: TRAITEMENT DES NOTICES DE JURISPRUDENCE
EXPRESS, DU THÉSAURUS ET DU PLAN DE CLASSIFICATION Pré-traitement de la base de données Pré-traitement du thésaurus de Jurisprudence Express et du plan de classification Segmentation en notices | Segmentation en groupes de 100 notices | Segmentation de chaque notice en paragraphes | Prétraitement de certains caractères: | Identification des majuscules de noms propres | Désambiguïsation du point d'abréviation | Catégorisation des paragraphes du résumé | Numérotation des phrases à l'intérieur des paragraphes | Catégorisation des avant-dernières et dernières phrases | | | | | | | V |-> Traitement des unités textuelles et lexicales | Catégorisation et extraction: | . des manchettes et de leurs unités lexicales | . rubriques de classification | . mots-clés contrôlés (descripteurs) | . mots-clés libres | . des autres parties des résumés et des différentes parties des textes ainsi que de | leurs unités lexicales: BDL | . formes simples | | . formes simples affectées des valeurs de catégories grammaticales <| | . expressions nominales complexes | . termes du domaine | . catégories sémantiques (noms propres, indicateurs de temps, etc) | . déclencheurs argumentatifs divers | . etc. | |-> Filtrage des données | . sur les propriétés attribuées | . sur leur comportement: fréquences, valeur discriminante, chi2, etc. | |-> Analyse de discrimination | . recherche des meilleurs prédicteurs pour le tri, la classification et l'indexation | . vérification de la constance de classification | |-> Analyse de co-occurrences et analyse de clusters . Étude des regroupements entre unités lexicales de la manchette, unités lexicales du résumé et des textes pour: . enrichissement et modification éventuelle des outils documentaires
(thésaurus,plan de classification)
Prenons l'exemple du domaine ASSURANCE.
Sur la première page, le tribunal qui rend la décision
n'est pas un bon indice, dans ce cas. Si le nom d'une des parties
désigne une compagnie d'assurances, il est possible mais
pas certain qu'il faille classer le jugement dans ASSURANCE; une
compagnie d'assurances qui a indemnisé son assuré
peut, en effet, poursuivre la personne qui lui a causé
des dommages et il faudrait alors classer le jugement dans RESPONSABILITÉ.
Le fait que, dans le texte du jugement, les articles 2468 à
2676 du Code civil ou bien la loi sur les Assurances soient cités,
vient renforcer le second indice. Si, de surcroÎt, le jugement
comporte les termes comme: assurance-automobile, assurance
collective, assurance de choses ou ses spécifiques: assurance-incendie,
assurance-vol, assurances de personnes ou ses spécifiques:
assurance-vie, assurance-invalidité, assurance-accident,
ou encore assurance (de) responsabilité, assurance
maritime , alors on peut prendre la décision avec une
quasi-certitude de ne pas se tromper.
Une fois en possession de ces renseignements,
nous tentons de corroborer les affirmations des experts par l'analyse
des corpus. Ainsi, dans notre échantillon, nous constatons
que les jugements classés dans le domaine ASSURANCE se
distribuent comme suit:
Une compagnie d'assurance ou d'assurance-vie
constitue une partie dans 21 des 26 jugements classés dans
ce domaine.
Les articles du Code civil cités
se situent bien dans la fourchette indiquée plus haut:
2481, 2482, 2505, 2516, 2532, 2546, 2547, 2563, 2564, 2576, 2579,
2586, 2603.
Trois lois sur les assurances sont
citées: loi sur les assurances, loi sur l'assurance-automobile,
loi sur les assurances du Québec. Voici le vocabulaire le plus utilisé (sous forme d'unitermes, dans les résumés seulement):
Les résultats obtenus sont
ensuite soumis aux conseillers juridiques pour commentaires et
compléments d'information, si nécessaire. Il est
alors possible de formuler en règles d'inférences
l'analyse dont les critères textuels ont été
explicités.
Pour l'indexation, nous procédons de la même
façon, mais notre analyse est plus fine, en raison de la
nature même de l'opération. Cela implique, entre
autres, que nous identifions si les conseillers juridiques extraient
les concepts retenus d'une subdivision du résumé
plutôt que d'une autre: le litige, le contexte ou la décision,
si des algorithmes d'extraction automatique basés sur des
indices comme le chi2 ou la valeur discriminante reproduisent
avec suffisamment de fidélité leurs décisions,
quelles sont les propriétés des termes retenus,
dans quelle mesure les termes choisis correspondent aux formulations
du juge ou résultent d'une normalisation de vocabulaire.
Parmi les propriétés possibles des termes retenus,
étant donné ce que nous savons des processus d'indexation
humaine en général, nous testons la performance
des critères suivants: la nature grammaticale, la fréquence,
la position dans le texte (début ou fin de paragraphe),
la position dans la superstructure des jugements, la typographie,
l'appartenance au domaine de droit dans lequel le jugement est
classifié. Les résultats obtenus par les analyses
statistico-linguistiques sont confrontés aux résultats
de l'analyse humaine et soumis aux conseillers juridiques qui,
petit à petit, réfléchissent à leur
démarche, explicitent leur savoir-faire, ce qui permet
d'affiner, par itération successive, le choix des propriétés
discriminantes et la pertinence des règles.
LE SYSTÈME EXPERT
Pour l'implantation du système
d'aide à l'analyse, nous avons retenu la technologie des
systèmes experts, malgré les limitations de ce formalisme
(découpage arbitraire de l'espace du problème, entre
autres). La formulation des modèles en énoncés
conditionnels et les règles d'inférences, présentent
des avantages ergonomiques. En effet, le recours à un générateur
de système expert (GSE) permet à des non-informaticiens,
après un entraÎnement approprié, de formuler
de façon autonome les règles pour un système
qui peut être très complexe. En voici un exemple
dans la veine de ce que nous avons expliqué plus haut:
Si article(s)_de_loi_cité(s) = "2468 à 2676 du Code Civil" ET nom_des_parties = "compagnie d'assurance" ET mot(s)_du_texte = ("police d'assurance" OU "contrat d'assurance")
ALORS domaine
= ASSURANCE.
De plus, puisque les règles
d'inférences sont des énoncés autonomes dont
l'enchaÎnement est assuré par un mécanisme
informatique lui aussi autonome appelé moteur d'inférences,
il n'est pas nécessaire de prévoir à l'avance
le déroulement complet de la résolution du problème.
Cela favorise une méthodologie de développement
par prototypage où l'on commence à implanter une
solution avant qu'elle ne soit complètement planifiée.
Le système joue un rôle heuristique en ce que la
validation des règles d'inférences sur des cas concrets
permet de transformer la solution envisagée. Le formalisme
d'expression des règles, leur lisibilité, y compris
par ceux qui n'ont pas participé à leur élaboration,
et la modularité qu'elles permettent dans la construction
des modèles, facilitent l'évolutivité autant
latérale qu'en profondeur du système. L'évolution
sera latérale si de nouvelles règles sont ultérieurement
formulées pour prendre en compte d'autres cas dans le
processus de solution; elle sera en profondeur si le processus
de solution est complété par des étapes subséquentes
ou encore inclus dans un processus plus global.
La plupart des systèmes
experts permettent la qualification de la relation qui est faite
par le développeur entre des hypothèses et une conclusion.
Cette qualification, qui prend la forme d'un coefficient, est
prise en compte par un modèle de cumulÎ qui
a pour fonction d'une part d'atténuer la valeur des validations
subséquentes lorsqu'une validation est affectée
d'un coefficient incertain et, d'autre part de renforcer la valeur
d'une validation si elle a déjà été
faite. Ces mesures quoique imparfaites permettent d'exprimer la
confiance que l'on devrait avoir face aux résultats d'une
consultation. Grâce à la prise en compte de l'incertitude,
le système peut aboutir à plusieurs réponses,
chacune étant qualifiée d'un coefficient cumulé
indiquant la confiance qu'on peut avoir. Le poids qui est attribué
est relatif à la valeur intrinsèque de l'indice;
ainsi un multiterme figurant dans le thésaurus vaut plus
qu'un uniterme du domaine. Cette façon de faire présente
l'avantage de faire ressortir toutes les possibilités étant
donné la configuration d'indices dépistés.
Il a été prouvé qu'il est plus facile cognitivement
de rejeter une solution inappropriée que de trouver la
bonne solution sans suggestions. Ce dispositif s'avèrera
sans doute très utile, dans les cas où plusieurs
rubriques de classification seront proposées. Ainsi, dans
l'exemple fourni précédemment, une autre règle
pourrait, à partir de la conjonction des mêmes indices
plus un autre mot-clé affirmer qu'il pourrait aussi s'agir
de domaine de la responsabilité. À la suite de la
consultation, l'utilisateur serait en face de deux domaines potentiels,
assurance et responsabilité.
Comme les systèmes experts
offrent la possibilité de documenter le cheminement suivi
lors de la résolution de problème, l'utilisateur
peut valider la ou les réponses obtenues et, le cas échéant,
apprendre à partir des explications fournies.
Pour implanter les modèles
que nous aurons construits, nous allons utiliser le GSE fourni
dans l'Atelier Cognitif et TExtuel - ACTE (Paquin, 1992b). L'Atelier
offre une représentation matricielle des connaissances
appelée objets valués. Ce formalisme permet une
interface directe avec les sorties de SATO. Chacun des mots d'une
séquence donnée ainsi que l'ensemble des annotations
statistico-linguistiques sont transformés en autant de
faits qui valideront les hypothèses des règles d'inférences
appropriées qui à leur tour amèneront à
une solution documentée, soit la sélection ou le
rejet d'une décision, soit l'attribution d'une ou plusieurs
rubriques du plan de classification (Paquin, 1992a).
CONCLUSION
La complémentarité
des approches utilisées pour la modélisation constitue
une des originalités de notre projet. Bien que recommandée
à plusieurs reprises (Chaumier et Dejean, 1992; Doszkocs,
1986; Meunier et al., 1987), en raison de la multiplicité
des connaissances mises en oeuvre pour l'analyse du matériau
textuel orientée vers des fins documentaires, elle n'a
pas encore été appliquée fréquemment,
en tout cas pas avec cette ampleur. Ceci permet, nous semble-t-il,
un heureux compromis qui tient compte de caractéristiques
exigeant parfois des solutions contradictoires, dans l'état
de développement actuel des technologies: matériau
textuel très complexe à analyser, mais nécessitant
néanmoins des approches de nature linguistique et cognitive,
volume important des données prohibant des analyses très
fines et pouvant bénéficier des effets de nombre,
savoir-faire de plusieurs experts à expliciter, selon des
méthodes appropriées à leur mode d'inscription,
de façon à respecter la culture de l'organisation.
SOQUIJ retirera du projet plusieurs bénéfices
importants, dont certains sont déjà effectifs avant
même que le système expert soit implanté.
En effet, la nécessité d'expliciter le processus
d'analyse et les règles suivies par chacun des conseillers
juridiques aboutit à une prise de conscience de certaines
divergences selon les individus; en outre, les résultats
des analyses statistico-linguistiques poussent à un examen
critique des outils documentaires et de leurs interrelations ainsi
que des pratiques "manuelles" et de leurs conséquences.
Les changements sont effectués par les conseillers juridiques
eux-mêmes, à leur initiative.
Le transfert d'expertise permet l'acquisition
progressive de méthodes de gestion et d'analyse de textes
assistées par ordinateur, car les conseillers juridiques
participent activement à l'enquête cognitive et aux
rencontres d'information et de formation qui accompagnent le projet.
Ceci garantit d'ailleurs la pertinence des solutions proposées.
Comme le système expert interviendra
en amont des opérations actuellement automatisées,
celles de la saisie des résultats de l'analyse intellectuelle
des jugements, il favorisera le processus de décision et
permettra aux conseillers juridiques de réserver leur temps
et leur expertise à des tâches de plus haut niveau,
comme la gestion de la connaissance du système expert.
La mise à disposition d'un nombre croissant de jugements
sera accélérée, sans trop d'impact sur les
ressources humaines. Les résultats des analyses de co-occurrences
et de "clusters" pour les rubriques de classification,
les descripteurs et les unités lexicales des textes pourraient
être réutilisés dans la conception d'outils
d'aide au repérage dans la lignée des travaux menés
au CNRS en France(Courtial, 1985) ou dans des organismes comme
La National Library of Medicine (Doszkocs, 1983).
Quant à l'équipe
de recherche, elle trouve dans ce projet un merveilleux banc d'essai
pour tester à grande échelle des méthodologies
et des technologies élaborées dans des recherches
précédentes portant sur l'analyse de textes, l'indexation
et le contrôle du vocabulaire assistés par ordinateur,
la gestion des bases de données textuelles, l'extraction
de connaissances et la mise au point des logiciels SATO et ACTE.
BIBLIOGRAPHIE DES SOURCES CITÉES
Bertrand-Gastaldy, S., 1992. Avec la collaboration de G. Pagola. Le contrôle du vocabulaire et l'indexation assistés par ordinateur; Une approche méthodologique pour l'utilisation de SATO. Université de Montréal, École de bibliothéconomie et des sciences de l'information; janvier 1992. 612 p. Courtial, J.-P. Comparaison de cartes leximappe obtenues par indexation manuelle et par indexation lexicale automatique d'un échantillon de 12 articles; conséquences sur l'interprétation des différents types d'indexation et sur l'interprétation des cartes Leximappe. Documentaliste ; 22(3); mai-juin 1985: 102-107. Chaumier, Jacques; Déjean, Martine, 1992. L'indexation assistée par ordinateur: principes et méthodes. Documentaliste; sciences de l'information; 29(1); 1992: 3-6. Daoust, F. SATO (système d'analyse de texte par ordinateur); version 3.6; Manuel de référence. Université du Québec à Montréal; Centre d'analyse de textes par ordinateur (ATO); janvier 1992. David, C.. Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire. Montréal: Université de Montréal, Département de communication; septembre 1990. (mémoire de maÎtrise). Didier, E.. Langues et langages du droit. Montréal: Wilson & Lafleur; 1990. Doszkocs, T.E. CITE NLM: Natural language searching in an online catalog. Information Technology and Libraries; 2(4): December 1983: 364-380. Endres-Niggemeyer, B. A procedural model of abstracting, and some ideas for its implememtation. In : H. Czap et W. Nedobity, eds. TKE'90: Terminology and Knowledge Engineering; Proceedings of the Second International Congress on Terminology and Knowledge Engineering, 2-4 October 1990, University of Trier (FRG), Frankfurt: Indeks Verlag; 1990: 230-243. Farrow, J. F. A cognitive process model of document indexing. Journal of Documentation; 47(2); June 1991:149-166. Grishman, R.; Kittredge, R., eds. Analyzing language in restricted domains: sublanguage description and processing. Hillsdale: LEA; 1986. 246 p. Griswold, R., 1990. The ICON Programming Language. : Prentice-Hall; 1990. Kittredge, R.; Lehberger, J., eds. Sublanguage: studies language in restricted domains. De Gruyter; 1982. 240 p. Meunier, J.-G., Bertrand-Gastaldy, S.; Lebel, H.. A call for enhanced representation of content as a means of improving on-line full-text retrieval. International Classification; 14(1), 1987: 2-10. Paquin, L.-C., 1992a. La lecture experte. Technologie, idéologie et pratique; 10(2-4); 1992: 209-222. Numéro spécial consacré au colloque "Intelligence artificielle et sciences sociales". Paquin, L.-C., 1992b. ACTE 1.0; Manuel de référence. Montréal: Université du Québec à Montréal, Centre d'analyse de texte par ordinateur; mars 1992.
Poirier, D.. Pour des résumés
adéquats de jurisprudence québécoise et canadienne:
une étude du document jurisprudentiel, de sa structure,
de ses citations, de son rôle et de sa spécificité.
Montréal: Université de Montréal, École
de bibliothéconomie et des sciences de l'information; 1985.
Shafer, G. A Mathematical Theory of Evidence.
Princeton, NJ: Princeton University Press; 1976.
Shafer, G. Probability judgement in artificial
intelligence and expert systems (with discussion). Statistical
Science; 2(1); 1987: 3-44.
Todeschini, C.; Farrell, M.P. "An expert
system for quality control in bibliographic databases." Journal
of the American Society for Information Science ; 40(1); 1989:
pp.1-11. |