Proposition de DÉMONSTRATION au colloque ICO 93

Titre:

PROTOTYPE DE SYSTÈME EXPERT POUR L'AIDE À L'ANALYSE

(TRI, CLASSIFICATION, INDEXATION)

DES DOCUMENTS DE JURISPRUDENCE

Sous-thème:

Repérage, analyse et gestion de textes et de documents

Auteurs:

Suzanne BERTRAND-GASTALDY et Gracia PAGOLA

Ecole de bibliothéconomie et des sciences de l'information

Université de Montréal

Case Postale 6128, Succursale A

Montréal, Québec

CANADA H3C 3J7

tél.: (514) 343-6048

fax : (514) 343-5753

GASTALDY@ERE.UMONTREAL.CA

Jean-Guy MEUNIER, François DAOUST et Louis-Claude PAQUIN

Centre ATOïCI

Université du Québec à Montréal

Case Postale 8888, Succursale A

Montreal, Québec

CANADA H3C 3P8

tél.: (514) 987-8256

fax : (514) 987-4567

PAQUIN@ATOCI.UQAM.CA

PROTOTYPE DE SYSTÈME EXPERT POUR L'AIDE À L'ANALYSE

(TRI, CLASSIFICATION, INDEXATION)

DES DOCUMENTS DE JURISPRUDENCE

Le projet vise à concevoir un système expert pour l'aide à l'analyse des jugements qui vont parvenir d'ici peu en grande quantité sur support magnétique à la SOQUIJ (Société québécoise d'information juridique). Il ne cherche pas à remplacer la pratique courante, mais à l'optimiser et à l'enrichir par des informations complémentaires. Il consiste d'abord à modéliser les décisions prises par les conseillers juridiques pour trier ces jugements en trois catégories (à ne pas analyser, à conserver tels quels ou à analyser complètement), pour les classifier et les indexer, puis à construire et à opérationnaliser des algorithmes (d'ordre linguistique et statistique) d'analyse en plein texte pour assister les opérations d'analyse, et finalement à mettre au point une maquette de système expert.

Le projet s'accompagne d'activités d'information et de formation pour transférer l'expertise dans l'organisation. La productivité et la performance de l'entreprise seront accrues, lui permettant de mieux répondre aux besoins d'une clientèle nombreuse qui consacre beaucoup de temps à la recherche documentaire.

La méthodologie et les analyseurs mis au point pourront être adaptés dans les organisations qui doivent faciliter l'accès à des textes juridiques et réglementaires informatisés.

Mots-clés : Indexation, Classification, Système experts, Jurisprudence

Sous-thème : Repérage, analyse et gestion de textes et de documents

PROTOTYPE DE SYSTÈME EXPERT POUR L'AIDE À L'ANALYSE

(TRI, CLASSIFICATION, INDEXATION)

DES DOCUMENTS DE JURISPRUDENCE

Organismes subventionnaires:

- CEFRIO (Centre francophone de recherche en informatisation des organisations)

- SOQUIJ (Société québécoise d'information juridique)

- Ministère des Communications du Québec

Contexte

La Société québécoise d'information juridique (SOQUIJ) a pour mandat de "promouvoir la recherche, le traitement et le développement de l'information juridique en vue d'en améliorer l'accessibilité au profit de la collectivité" et, plus particulièrement, de publier les jugements rendus par les tribunaux judiciaires du Québec dans des recueils imprimés et des banques de données interrogeables en direct. Elle reçoit actuellement plus de 10 000 jugements par année, chiffre auquel il faut ajouter les jugements de la Cour suprême du Canada et les décisions des tribunaux administratifs.

La saisie électronique des jugements à la source mise en place progressivement par le ministère de la Justice du Québec portera à près de 50 000 le nombre de jugements acheminés sans aucune sélection préalable.

Afin de maintenir le même service sans accroÎtre indûment le personnel, SOQUIJ a confié à une équipe de recherche du CEFRIO (Centre francophone de recherche en informatisation des organisations) le mandat de concevoir un prototype de système expert qui allègera certaines des tâches des conseillers juridiques chargés de traiter les jugements à plusieurs niveaux (tri; sélection; classification, indexation, résumé; documentation; édition).

Objectifs:

Le système a pour objectif d'assister les conseillers juridiques dans l'analyse de ces documents.

Plus spécifiquement, le système doit:

1) aider à éliminer à la source les jugements non motivés et ne présentant pas d'intérêt

2) aider à trier et à classifier les jugements selon les différents domaines du droit répertoriés dans un plan de classification subdivisé en 57 domaines

3) suggérer des descripteurs extraits d'un thésaurus (qui contient plus de 700 descripteurs) et de mots-clés libres pour l'indexation.

Hypothèses de travail

Le projet s'appuie sur la triple hypothèse qu'il est possible:

1) de modéliser les décisions prises par les conseillers juridiques pour analyser les arrêts;

2) de construire des algorithmes d'analyse des jugements en plein texte pour assister ces décisions;

3) d'opérationnaliser les algorithmes dans un milieu réel pour un corpus fortement normalisé comme celui de la jurisprudence.

Fonctionnalités générales du système expert

Plusieurs chaÎnes de traitement transforment les textes intégraux et attribuent aux unités lexicales et textuelles une série de propriétés à partir desquelles diverses opérations sont réalisées. Au terme de ces opérations, les données sont filtrées et analysées sur le plan statistico-linguistique et des coefficients de confiance sont attribués. Grâce à la prise en compte de l'incertitude, le système peut aboutir à plusieurs réponses, chacune étant qualifiée d'un coefficient cumulé indiquant le degré de confiance qu'on peut avoir.

Les opérations suivantes sont effectuées sur les textes intégraux:

- Conversion des codes d'édition.

- Prétraitement de certains caractères: désambiguïsation du point d'abréviation et de fin de phrase; identification des majuscules de noms propres.

- Segmentation des textes en paragraphes et identification des passages exposant le litige, le contexte et la décision du juge.

- Catégorisation des deux premières et des deux dernières phrases de chaque paragraphe.

- Repérage et catégorisation de différentes informations accompagnant le jugement: intitulé, provenance, lois et articles de lois cités, parties au litige, etc.

- Identification des termes simples et complexes du domaine, des rubriques de classification et des descripteurs du thésaurus.

- Divers calculs statistiques.

- Etc.

À partir de ces données, les règles proposent un diagnostic pour l'élimination éventuelle du jugement, répartissent les jugements en domaines du droit, suggèrent l'attribution d'une ou plusieurs rubriques de classification et l'assignation de descripteurs et de mots-clés libres.

Méthodologie de conception

Les sources de données

La modélisation, la mise au point et l'opérationnalisation des algorithmes s'appuient sur plusieurs sources de données. Certaines sont enregistrées sur support informatique. Il s'agit des notices bibliographiques produites à la suite des différentes opérations d'analyse, des textes intégraux et des outils documentaires (plan de classification et thésaurus). D'autres données sont constituées des critères, généralement implicites, auxquels recourent les conseillers juridiques pour prendre leurs décisions et qu'il s'agit de mettre au jour.

Extraction de l'expertise

L'extraction de l'expertise s'effectue par deux approches complémentaires qui s'enrichissent mutuellement. D'une part, à l'aide de traitements statistico-linguistiques, on compare les données des différents textes en interrelation (textes primaires et textes secondaires). Ainsi, à travers les traces laissées par les conseillers juridiques dans les résultats des différents types d'analyse, on essaie de reconstituer les opérations cognitives. On tente de trouver quelles unités lexicales et textuelles et lesquelles de leurs propriétés contribuent le plus à différencier les éléments retenus des éléments non retenus, aux différents niveaux de condensation. D'autre part, on interviewe les conseillers juridiques, on les observe dans l'exercice de leurs tâches et on recueille leurs commentaires sur les résultats des analyses textuelles.

L'ajout de propriétés dans le logiciel SATO (Système d'Analyse de Textes par Ordinateur)

Diverses propriétés sont ajoutées, de façon automatique ou semi-automatique, aux chaÎnes de caractères et aux segments textuels; elles sont d'ordre éditique, grammatical, lexico-sémantique, "documentaire", textuel, pragmatique, statistique, etc.

Dans l' exemple suivant extrait d'une notice, on peut voir, en contexte, le marquage de certaines propriétés et de certaines de leurs valeurs. On notera:

1) l'identification de segments comme la provenance, la manchette (à mi-chemin entre le titre enrichi et l'indexation), les subdivisions correspondnat au litige, au contexte et à la problématique, etc.

2) la numérotation des phrases à l'intérieur des paragraphes et leur catégorisation en première (pr), deuxième (deux), dernière (de), avant-dernière (ad), autres (au);

3) la mention de l'italique identifiant des lois citées;

4) la distinction entre mots-clés libres et unités lexicales issues du plan de classification ou du thésaurus, distinction qui est rendue possible par la consultation automatique de ces outils documentaires

NOTICE 91-3.STR

*par=ident*typo=nil<ND>91-3 *par=provenance<HD>COUR D'APPEL

*par=manchette ASSURANCE*pc=oui -- assurance de responsabilité*mot-clé=oui -- recours contre le tiers responsable*mot-clé=oui -- option*th=oui -- article 2603 C.C. -- interdiction de cumul*mot-clé=oui -- amendement*th=oui.

*par=litige *phr=1 *ord=(ad,pr) Appel d'un jugement de la \Cour supérieure ayant accueilli une requête en irrecevabilité. *phr=2 *ord=de Rejeté, avec dissidence.

*par=contexte *phr=1 *ord=pr Le 18 février 1988, l'appelante a intenté une action contre la mise en cause \Fontaine, lui réclamant 23 688$ à titre de dommages à la suite d'un incendie provoqué par sa négligence. *phr=2 *ord=deux Quelques mois plus tard, l'appelante a fait signifier une déclaration amendée qui ajoutait la compagnie d'assurances intimée à titre de défenderesse et qui concluait à la condamnation conjointe et solidaire des codéfenderesses. *phr=3 *ord=au L'intimée a alors présenté une requête en irrecevabilité fondée sur le fait que l'appelante n'avait aucun recours contre elle puisque, en poursuivant \Fontaine, elle avait exercé l'option prévue à l'article 2603 \C..\C.. . *phr=4 La requête en irrecevabilité a été accueillie malgré la demande verbale d'amendement présentée par l'appelante visant à modifier la désignation des parties et à ne maintenir que l'intimée à titre de défenderesse, reléguant \Fontaine au rang de mise en cause. [...]

*par=décision *phr=1*ord=pr *typo=italique \Mme la juge \Tourigny et \M.. le juge \Proulx: *typo=nil Les dispositions du *typo=italique Code de procédure civile *typo=nil relatives à l'amendement doivent recevoir une interprétation aussi large que possible. *phr=2 *ord=deux Cependant, une interprétation, aussi large soit--elle, ne peut écarter une disposition de droit substantif incluse dans le *typo=italique \Code civil. *typo=nil *phr=3 *ord=au Le législateur a voulu que, en intentant un recours, la partie demanderesse fasse un choix, ainsi que l'a confirmé \M.. le juge Mayrand dans l'arrêt \L'\Union québécoise, mutuelle d'assurance contre l'incendie c.. \Mutuelle des \Bois-Francs: [...]

*par=référence \Compagnie d'assurances \Traders générale c. \Laurentienne générale, \Compagnie d'assurances inc.. Juges \Tourigny, \Proulx et \Chouinard (diss..). C.A.

Ces autres exemples montrent des propriétés statistiques, grammaticales, pragmatiques (appartenance au domaine du droit) et lexico-sémantiques, hors contexte, dans le lexique:

Propriétés statistiques

Moy. Écart Répart. Discri. Chi2 (lexique)

9.73 4.02 100.0% 0.00 28.79 a

0.04 0.19 3.8% 0.45 21.98 abri

0.12 0.42 7.7% 0.46 25.03 absence

0.04 0.19 3.8% 0.45 21.98 acceptant

0.08 0.27 7.7% 0.36 16.65 acceptation

0.04 0.19 3.8% 0.49 24.26 acceptation_du_risque

0.04 0.19 3.8% 0.31 15.07 acceptent

0.04 0.19 3.8% 0.49 24.26 accepter

0.04 0.19 3.8% 0.27 12.88 accès_aux_documents

0.35 0.87 15.4% 0.92 49.72 accident

0.04 0.19 3.8% 0.31 15.07 accident_d'_automobile

0.04 0.19 3.8% 0.56 28.05 accident_du_travail

...

0.12 0.58 3.8% 1.61 80.00 acte_criminel

0.04 0.19 3.8% 0.44 21.76 actes_fautifs

0.58 0.93 30.8% 0.65 35.07 action

0.04 0.19 3.8% 0.31 15.07 action_en_dommages

0.08 0.27 7.7% 0.35 19.05 action_en_dommages-intérêts

0.23 0.42 23.1% 0.32 19.68 action_en_réclamation

Propriétés grammaticales

fréq gramr (lexique)

13828 préposition-ff à

10 nomcommun_fs abandon

1 conjugué_fv abandonna

1 conjugué_fv abandonnaient

1 partprésent_fv abandonnant

2 conjugué_fv abandonne

20 partpassé_fv abandonné

1 partpassé_fv abandonnée

5 infinitif_fv abandonner

1 partpassé_fv abandonnés

...

1 partpassé_fv abattu

10 nompropre Abitibi

1 adjectif_fs abitibienne

1 nompropre Abitibi-Témiscamingue

1 nomcommun_fs ablation

1 nomcommun_fs abolition

4 adjectif_fs abondante

1 adjectif_fs abondantes

32 nomcommun_fs abordages

Appartenance au domaine de droit

domaine (lexique)

non Abitibi

oui acte_d'_accusation

oui action_en_dommages-intérêts

oui agents_de_la_paix

oui agression_sexuelle

peut-être arme_à_feu

oui arrestation_sans_mandat

oui arrêt_des_procédures

oui centre_de_détention

oui chef_d'_accusation

oui conduite_avec_facultés_affaiblies

oui conseil_de_famille

oui contrat_de_mariage

oui contrat_de_vente

oui divorce

oui dommages_exemplaires

oui donation_entre_vifs

oui droits_de_la_personne

oui jeunes_contrevenants

Synonymie

synonyme (lexique)

agression_sexuelle abus_sexuel

activité_pyramidale vente_pyramidale

alcool état_d'_ébriété

alcool Régie_d'_alcool_du_Québec

On peut ainsi attribuer autant de propriétés que l'on juge utile pour la reconstitution de l'expertise, d'après l'intuition, les résultats des analyses et le savoir-faire des conseillers juridiques. À tout moment, on peut se positionner sur une unité lexicale et obtenir, par une simple commande, la liste de toutes les propriétés et valeurs de propriétés attribuées:

communauté_de_biens

*alphabet = fr

*fréqtot = 11

*longueur = 19

*gramr = tcomposé

*poids = 51

*typo = nil

*par = contexte

*phr = 4

*ord = ad

*term = non-descript

Filtrage des données

Afin de connaÎtre les meilleurs prédicteurs pour les opérations d'analyse, on procède au filtrage des données selon différentes propriétés et combinaisons de propriétés. On peut ainsi isoler des:

- formes simples ou complexes

- termes du domaine

- rubriques de classification

- mots-clés libres ou contrôlés

- titres de lois

- noms des parties en présence

et opérer une sélection supplémentaire selon:

- leur position dans la macro-structure et la micro-structure du texte

- leur fréquence absolue ou relative

- leur valeur discriminante

- le chi2

- le domaine du droit

- le tribunal d'où provient le jugement

- le type de parties en présence

- etc.

Analyse des données

Les données filtrées sont soumises à des analyses statistiques, dont l'analyse de discrimination et font l'objet de comparaison et d'évaluation par les experts.

Résultats de l'enquête cognitive

Dans le cas de l'indexation, opération très difficile à formaliser, les résultats obtenus par l'analyse statistico-linguistique sont confrontés aux résultats de l'analyse humaine et soumis aux conseillers juridiques qui , petit à petit, réfléchissent à leur démarche, explicitent leur savoir-faire, ce qui permet d'affiner, par itération successive, le choix des propriétés discriminantes et la pertinence des règles.

Pour le tri et la classification, les conseillers juridiques ont d'emblée identifié les indices pertinents (l'intitulé du jugement, le nom des parties, les lois ou articles de lois cités, la présence de certains termes dans le texte du jugement).

Ainsi, pour le domaine Assurance:

- l'intitulé n'est pas un bon indice;

- si le nom d'une des parties désigne une compagnie d'assurances, on peut hésiter entre le domaine Assurance et le domaine Responsabilités (une compagnie d'assurances peut, en effet, poursuivre la personne qui lui a causé des dommages);

- si les articles 2468 à 2676 du Code civil ou une loi sur les assurances sont cités, cela renforce l'indice précédent;

- si le jugement comporte des termes comme: assurance-automobile, assurance collective, assurance-vie, assurance-invalidité, etc., alors la décision de classer le jugement en Assurances est fiable.

Adaptation des outils documentaires

Le plan de classification et le thésaurus sont harmonisés; les quelques incohérences sont corrigées; le thésaurus subit un enrichissement important: variations flexionnelles, morphologiques et syntaxiques, synonymes documentaires.

Mise au point du système expert

Pour le tri et la classification, les indices qui permettent de prende une décision sont de valeur différente. Certains peuvent s'avérer prépondérants et simplifier la tâche comme la cour, l'intitulé du jugement ou les lois citées. Par contre, en l'absence de tels indices, un examen plus approfondi est nécessaire pour extraire des indices terminologiques. Il est impossible de constituer a priori un univers de référence qui permettrait de distribuer un certain poids sur les indices. On traite donc indépendamment chacun des indices et on opère un cumul rapporté sur la ou les rubriques vers lesquelles pointe l'indice. On s'appuie sur la théorie des fonctions de confiance de Shafer (1976). Elle fournit une indication quant à la contradiction générée par la combinaison d'indices qui pointent dans des directions différentes. Cette mesure indique la fiabilité à accorder aux résultats.

Le même fonctionnement est adopté pou l'indexation: les indices sont constitués de la nature des unités lexicales, de leur fréquence, de leur valeur dsicriminante, de leur appartenance au domaine et de leur position dans certains passages-clé du jugement. Des règles faisant appel à la fois à la structuration du thésaurus et au contexte d'emploi (cooccurrences) sont appliquées.

Le système informatique consiste en une chaÎne de traitements séquentiels. SATO est utilisé d'une part pour appliquer les bases de connaissances permettant de reconnaÎtre des indices dans les textes (certains indices peuvent être reconnus hors contexte, alors que la reconnaissance d'autres indices dépend du contexte d'occurrence), d'autre part pour constituer et gérer ces bases de connaissances. Nous envisageons de formaliser les modèles de traitement après validation dans un système expert, ce qui nous permettrait un contrôle plus fin et une plus grande sensiblité au contexte. Cette modélisation en système expert sera faite sur ACTE (Atelier Cognitif et TExtuel) qui est en cours de développement au centre ATOïCI. Quant à la théorie des fonctions de confiance, elle est actuellement programmée en ICON. Le design est ainsi fait qu'il est possible de calibrer par essai-erreur l'attribution de poids aux différentes classes d'indices: un multiterme qui appartient au thésaurus vaut plus qu'un multiterme du domaine qui lui-même vaut plus qu'un terme simple, etc.

Bénéfices escomptés pour SOQUIJ

La démarche de conception du système expert aura eu des retombées positives pour SOQUIJ avant même que celui-ci soit implanté. En effet, la nécessité d'expliciter le processus d'analyse et les règles suivies par chacun des conseillers juridiques aboutit à une prise de conscience de certaines divergences selon les individus; en outre, les résultats des analyses statistico-linguistiques poussent à un examen critique des outils documentaires et de leurs interrelations ainsi que des pratiques "manuelles" et de leurs conséquences. Les changements sont effectués par les conseillers juridiques eux-mêmes, à leur initiative. Au terme de l'opération, un recueil de politiques et procédures est disponible et le thésaurus se trouve enrichi pour les nécessités d'une anlyse assistée par ordinateur.

L'implication cosntante des futurs utilisateurs du système garantit la pertinence des solutions proposées et crée une disponibilité à l'apprentissage de la nouvelle technologie.

Les suggestions du système expert respectent le plus possible les habitudes actuelles, avec tout le savoir qu'elles supposent concernant le domaine, les textes, les besoins des utilisateurs finals des banques de données et recueils imprimés, les contraintes éditoriales, etc.

Les analyses mixtes qui précèdent la mise au point du système constituent un compromis tenant compte de caractéristiques exigeant parfois des solutions contradictoires: matériau textuel très complexe à analyser, volume important des données prohibant des traitements très fins et rendant possibles des effets de nombre, nécessité de prendre en compte à la fois les caractéristiques linguistiques et les opérations cognitives d'experts au savoir-faire très riche.