Retour à l'accueil Remonter

LE TRAITEMENT DES TEXTES PRIMAIRES ET SECONDAIRES POUR LA CONCEPTION ET LE FONCTIONNEMENT D'UN PROTOTYPE DE SYSTÈME EXPERT D'AIDE À L'ANALYSE DES JUGEMENTS

Par

Suzanne Bertrand-Gastaldy, Louis-Claude Paquin, Gracia Pagola, François Daoust


Bertrand-Gastaldy, S.; Paquin L.-C.; Pagola, G.; Daoust, F., 1994. Le traitement des textes primaires et secondaires pour la conception et le fonctionnement d'un prototype de système expert díaide à líanalyse des jugements. Colloque Traitement automatique du français écrit. 62e congrès de líACFAS, 16-20 mai 1994.[sous presse]


RÉSUMÉ

Afin díassister les conseillers juridiques de la Société Québécoise díInformation Juridique (SOQUIJ), un prototype de système expert pour líaide à la sélection, à la classification, à la lecture et à líindexation des jugements a été implanté sur ACTE (Atelier Cognitif et TExtuel) développé au Centre de recherche en information et cognition ATO.CI. À partir díun corpus díapprentissage de textes déjà analysés et grâce à des traitements statistico-linguistiques sur SATO (Système díAnalyse de Textes par Ordinateur) et SPSS, on a confronté les données issues de l'analyse humaine à celles des textes intégraux; des tendances et des anomalies ont pu être décelées qui ont servi à questionner les outils et les pratiques ainsi qu'à réorienter ou à corroborer l'enquête cognitive des savoir-faire. Une fois identifiés les types díunités linguistiques et leurs propriétés généralement retenus par les spécialistes pour chacune des opérations díanalyse, on a mis au point une chaÎne de traitements qui, pour chacun des modules du système expert et à partir du plus grand nombre possible de sources de connaissances, dépiste et décrit les indices pertinents, puis les transforme en faits. Ceux-ci s'avérant distincts les uns des autres, un diagnostic peut être porté, à chaque étape, selon un principe de convergence. Toutefois, quelques difficultés concernant le cumul des coefficients de certitude et líintégration de statistiques nécessitent des études plus poussées.

INTRODUCTION

Au Québec, la cueillette, la sélection, le traitement et la diffusion de la jurisprudence sont sous la responsabilité principale d'un organisme parapublic : SOQUIJ. La loi constituant la Société québécoise d'information juridique, entrée en vigueur le 1er avril 1976, lui confie le mandat de "promouvoir la recherche, le traitement et le développement de l'information juridique en vue d'en améliorer la qualité et l'accessibilité au profit de la collectivité." À ce titre, SOQUIJ est le serveur es bases de données du ministère de la Justice ainsi que le producteur­serveur de plusieurs autres bases de données, dont celles qui concernent la jurisprudence.

Or, la saisie électronique des jugements à la source mise en place progressivement par le ministère de la Justice du Québec multipliera presque par cinq le nombre de jugements acheminés à SOQUIJ : la quantité annuelle prévue est de 50 000. Pour maintenir son niveau de service sans accroÎtre indûment son personnel, cet organisme a envisagé de recourir à des méthodes automatiques pour assister certaines des opérations intellectuelles díanalyse effectuées par des conseillers juridiques et a confié à notre équipe de recherche le mandat de concevoir un prototype de système expert. Celui-ci a été réalisé sur le logiciel ACTE (Atelier Cognitif et TExtuel) développé au Centre ATO.CI.

Après avoir expliqué en quoi consistent les différentes fonctions díanalyse quíil nous a fallu modéliser, nous évoquerons les éléments théoriques sur lesquels nous avons appuyé notre démarche et nous montrerons comment celle-ci combine des approches complémentaires (statistiques, linguistiques et cognitives); nous líillustrerons ensuite par quelques exemples díindices extraits pour chaque type díanalyse. Puis nous mentionnerons les principaux enrichissements du thésaurus nécessités par les nouvelles fonctions quíil est appelé à remplir dans un système automatique. Finalement, nous exposerons líimplantation des stratégies díanalyse dans un programme de chaÎne de traitement et líintégration díinformations de sources et de valeurs différentes.

1. LA MODÉLISATION DES TÂCHES D'ANALYSE

1.1 Les fonctions díanalyse à assister

Après entente avec les représentants de SOQUIJ, nous avons convenu de concevoir un système qui assisterait les tâches suivantes :  1) élimination à la source de certains jugements (étape de la sélection);  2) détermination du (ou des) domaine(s) du droit et, le cas échéant, du sous-domaine (selon un plan de classification préétabli) auquel chaque décision retenue appartient (étape du tri et de la classification);  3) prise de connaissance du contenu des textes en vue de la rédaction díun résumé informatif;  4) sélection de termes d'indexation à partir du résumé rédigé par les conseillers juridiques.

1.2 Théories sous-jacentes

La méthodologie que nous avons élaborée est sous-tendue par au moins trois orientations théoriques : le texte comme objet sémiotique, les analyses documentaires comme des applications particulières díun processus de lecture, et finalement líintertextualité.

1.2.1 Le texte comme objet sémiotique

Le texte est envisagé comme un objet sémiotique complexe dans lequel un lecteur humain ou informatique sélectionne, à des niveaux multiples, des indices pertinents en fonction de ses objectifs díanalyse (Meunier, 1992; Meunier et al., 1994). Les chaÎnes de caractères ou motsÎ sont autant de porteurs de traits signifiants. Les processus cognitifs díinterprétation humaine étant fonction de nombreux éléments dont la plupart ne sont guère formalisables (systèmes de croyance, intentions, connaissances du contexte textuel et extra-textuel, etc.), un système entièrement automatique est impossible à envisager : seul un mécanisme díaide à líinterprétation est réalisable qui permet díidentifier et de manipuler certains des indices pertinents décelables par divers analyseurs.

1.2.2 Les analyses documentaires comme des applications particulières díun processus de lecture

Les opérations díanalyses effectuées dans un service documentaire sont envisagées comme des lectures particulières dirigées par des tâches spécifiques à accomplir : attribution díune rubrique de classification, assignation de mots-clés, condensation du texte, entre autres. Ces lectures mettent en jeu diverses opérations cognitives de sélection, rejet, généralisation (Van Dijk, 1977), stratégies de confirmation et contrôle, etc. (David, 1990) portant sur des indices ou configurations díindices dont la pertinence varie en fonction de chaque type de lecture. À chaque tâche díanalyse correspond donc un parcours particulier du texte. La décision díinclure un document dans une base de données - ou de le rejeter - níexige pas la prise en compte du même nombre ni des mêmes types díindices que líopération díindexation. La rédaction díun résumé requiert une prise de connaissance plus approfondie du contenu textuel que líattribution díune rubrique de classification, mais exige un examen moins attentif cependant que la comparaison des thèses défendues par un texte avec celles díun autre texte.

1.2.3 Líintertextualité

De par la nature même de leur condition de production, les textes secondaires sont en relation díintertextualité avec les textes primaires dont ils sont issus (Beacco et Darot, 1984) ainsi qu'avec les outils documentaires - thésaurus et plan de classification - servant à effectuer l'analyse (Begthol, 1986). Comme nous líavons exposé dans Bertrand-Gastaldy (1993), la comparaison des propriétés des éléments présents dans les textes de départ et retenus dans les différents textes díarrivée (rubriques de classification, termes díindexation, résumés) avec celles des éléments qui ont été éliminés permet de découvrir des tendances et des anomalies qui servent à orienter ou approfondir líenquête cognitive auprès des experts.

1.3 Notre approche

Nous níavons donc pas cherché à mettre au point un outil díanalyse qui serait performant en dehors de tout contexte (par exemple un analyseur morphologique, un extracteur de lexies complexes), mais bien au contraire de comprendre en quoi le contexte de la tâche faisait varier les objets textuels et les propriétés des objets susceptibles de retenir líattention des experts. Notre approche a dès lors consisté díune part à modéliser les stratégies cognitives mises en oeuvre par les experts du domaine lors des différentes lectures effectuées en fonction des produits attendus (liste des documents à éliminer, tri et classification, résumé, indexation), díautre part à faire évoluer les outils documentaires pour les rendre aptes à répondre à líutilisation automatique que nous voulions en faire.

1.3.1 Les sources de données

Pour mener à bien notre travail, nous disposions de deux types de sources. Nous avions accès à une demi-douzaine de conseillers juridiques avec lesquels nous avons tenu plusieurs sessions de travail afin díarriver à connaÎtre les critères explicites ou implicites auxquels ils recourent pour prendre leurs décisions aux différentes étapes de leur analyse. Díautre part, les données de nature linguistique se trouvaient déjà presque toutes sur support informatique. Il s'agit des produits issus des différentes opérations d'analyse : textes intégraux rejetés ou retenus, notices bibliographiques accompagnées des résumés, index, ainsi que des outils utilisés pour l'analyse : plan de classification et thésaurus.

1.3.2 Les traitements sur les données linguistiques

Les caractéristiques attribuées aux données, en contexte ou hors contexte, ont consisté en l'ajout d'informations de nature diverse décrivant le statut sémiotique des constituants du texte et enrichissant les chaÎnes de caractères immédiatement accessibles à l'ordinateur. Ces caractéristiques proviennent de connaissances générales de la langue (type de langue, nature grammaticale des lexèmes), de connaissances générales sur la structure des textes (phrases, paragraphes), díinformations de nature éditique (conventions typographiques - capitales, caractères gras ou italiques - dans les enregistrements), de connaissances spécifiques au domaine (vocabulaire de spécialité, structure des jugements et de leurs résumés, mention de loi, de jurisprudence et de doctrine), de connaissances "documentaires" (champs d'une notice, appartenance ou non des lexèmes aux langages documentaires), de propriétés statistiques (fréquence absolue ou relative, indice de répartition, valeur discriminante, chi 2, etc.). Ces informations ont été obtenues par des algorithmes développés avec le logiciel SATO (système díanalyse et textes par ordinateur) et ont fait líobjet díun marquage approprié (propriété et valeur de propriétés dans SATO). On pourra consulter une publication du Centre ATO.CI pour plus de détails (Bertrand-Gastaldy et al. , 1993).

Nous présentons ci-dessous un extrait de texte dans lequel apparaissent diverses propriétés et leurs valeurs :

-  les caractères typographiques *typo, avec les valeurs italique et nil.

-  les subdivisions *par, (avec les valeurs manchette, litige, contexte, décision), líappartenance aux outils documentaires díoù sont tirés les mots-clés (*term) avec les valeurs Ta pour descripteurs du thésaurus acceptés, Tr pour descripteurs rejetés du thésaurus, Tl pour termes libres du domaine tels quíidentifiés par les experts, Clas pour rubrique de classification (ces valeurs peuvent être spécifiées par les premières lettres du sous-domaine du droit auquel appartiennent les termes : par exemple, TlAss pour terme libre caractérisant le champ assurances);

-  la numérotation des phrases *phr et leur ordre *ord (pr pour première, deux pour deuxième, ad pour avant-dernière, de pour dernière);

-  la position (*marque) des mots dans la macrostructure (manchette, litige, contexte, décision) : un terme portant la valeur mancondéc se trouve donc à la fois dans la manchette, dans le contexte et dans la décision.

On remarque également, dans le texte qui suit, certains résultats du prétraitement automatique ou semi-automatique : le doublement des traits díunion séparant deux éléments grammaticaux différents (soit--elle), le doublement des points díabréviation et líajout díune barre oblique devant les majuscules de noms propres (\C..\C..). La détection de termes complexes dans les outils documentaires ou la liste de termes libres du domaine préparés en cours díexpérimentation a résulté en la substitution díun trait díunion au caractère blanc figurant entre les composants des termes. Tous les ajouts sont inscrits en caractères gras dans notre exemple :

*par=ident*typo=nil<ND>91-3 *par=prov<HD>COUR_D_'APPEL

*par=manchette ASSURANCE*term=(TaAss,ClasAss) *marque=mandéc -- assurance_de_responsabilité*term=ClasAss *marque=man -- recours*term=

Clas *marque=mancondéc contre le tiers responsable -- option*term=Ta *marque=mancondéc -- article 2603 C.C. -- interdiction_de_cumul*temr-Tl -- amendement*term=(Ta,Clas) *marque=mancondéc.

*par=litige *phr=1 *ord=(ad,pr) Appel*term=(Ta,Clas) *marque=li d'un jugement*term=Ta *marque=li de la \Cour supérieure ayant accueilli une requête_en_irrecevabilité. *term=Tl *phr=2 *ord=(de,deux) Rejeté, avec dissidence.

*par=contexte *phr=1 *ord=pr Le 18 février 1988, l'appelante a intenté une action*term=Tr *marque=condéc contre la mise_en_cause *term=Tr *marque=con \Fontaine, lui réclamant 23 688$ à titre de dommages*term=Class *marque=con à la suite d'un incendie *term=TaAss *marque=condéc provoqué par sa négligence*term-Tr *marque=con phr=2 *ord=deux. Quelques mois plus tard, l'appelante a fait signifier une déclaration*term=Ta *marque=con amendée qui ajoutait la compagnie_d'_assurances*term=TlAss intimée à titre de défenderesse et qui concluait à la condamnation conjointe et solidaire des codéfenderesses.

*phr=3 *or=au L'intimée a alors présenté une requête_en_irrecevabilité*term=Tl fondée sur le fait que l'appelante n'avait aucun recours*term=Clas *marque=mancondéc contre elle puisque, en poursuivant \Fontaine, elle avait exercé l'option*term=Ta *marque=mancondéc prévue à l'article 2603 \C..\C.. . *phr=4 *ord=au La requête_en_irrecevabilité*term=Tl a été accueillie malgré la demande verbale d'amendement*term=(Ta,Clas) *marque=mancondéc présentée par l'appelante visant à modifier la désignation des parties et à ne maintenir que l'intimée à titre de défenderesse, reléguant \Fontaine au rang de mise_en_cause*term=Tr*marque=con. [...]

*par=décision *typo=italique *phr=1*ord=pr \Mme la juge*term=Ta *marque=condéc \Tourigny et \M.. le juge*Term=Ta *marque=condéc \Proulx : *typo=nil Les dispositions du *typo=italique Code de procédure_civile*term=(Ta,Clas) *marque=déc *typo=nil relatives à l'amendement doivent recevoir une interprétation aussi large que possible. *phr=2 *ord=deux Cependant, une interprétation, aussi large soit--elle, ne peut écarter une disposition de droit substantif incluse dans le *typo=italique \Code civil. *typo=nil *phr=3 *ord=au Le législateur a voulu que, en intentant un recours*term=Clas *marque=mancondéc, la partie demanderesse fasse un choix, ainsi que l'a confirmé \M.. le juge*term=Ta *marque=condéc \Mayrand dans l'arrêt *typo=italique \L'\Union québécoise, mutuelle [...]

En se positionnant sur un mot, on peut visionner, à líaide díune commande du logiciel SATO, toutes les valeurs de propriétés (ou traits) qui lui ont été attribuées, y compris celles qui résultent de calculs statistiques effectués par le logiciel :

assurance_de_responsabilité mise_en_cause
*alphabet =fr *alphabet =fr
*fréqtot =3 *fréqtot =2
*longueur =27 *longueur =13
*term= ClasAss *term =Tr
*marque =man *marque =con
*par= manchette *par =contexte
*phr =(1,4)
*ord =(pr,au)
*poids =27 *poids =26
*discri =92 *discri =133
*chi2= 2958 *chi2 =4890
*gramr =tcomposé *gramr =tcomposé

Une fois caractérisées, les données ont été filtrées en fonction des différents indices et soumises à une analyse de discrimination sur SPSS qui a fait ressortir les meilleurs prédicteurs pour expliquer les résultats des diverses opérations díanalyse.

1.4 Líenquête cognitive

Les résultats des analyses ont ensuite été confrontés aux données recueillies dans une première phase de líenquête cognitive, puis soumis aux experts du domaine qui avaient pour tâche de confirmer les tendances observées et díexpliquer les anomalies, et surtout de décider díune éventuelle réingénierie des processus ainsi que díune éventuelle modification des outils documentaires.

Líenquête cognitive (comportant entrevues, observation et recueil de commentaires sur les résultats de nos traitements) a donc permis à la fois de compléter les analyses de données exposées précédemment et de les orienter. Nous cherchions les techniques et les stratégies employées pour parcourir un texte, les différentes parties du texte examinées pour prendre une décision de sélection, de tri-classification, de résumé et d'indexation, les connaissances utilisées (importance de tel ou tel tribunal, poids à accorder à la nature des parties en cause, valeur discriminante de telle ou telle mention de loi, de tel ou tel lexème, marqueurs du raisonnement du juge; références au contenu de la base de données, aux besoins des utilisateurs, à líactualité, etc.), les catégorisations effectuées, les inférences faites pour passer des expressions en langue naturelle à leurs équivalents dans le thésaurus. Nous avons donc procédé selon une boucle : textes --> conseillers juridiques --> textes.

1.5 Complémentarité des approches

La complémentarité des approches utilisées pour la modélisation, recommandée à plusieurs reprises (Chaumier et Dejean, 1992; Doszkocs, 1986; Blosseville et al., 1992 ; Meunier et al., 1987), permet de tenir compte de la multiplicité des connaissances mises en oeuvre pour l'analyse du matériau textuel orientée vers des fins documentaires. Elle constitue, nous semble-t-il, un heureux compromis qui tient compte de caractéristiques exigeant parfois des solutions contradictoires, dans l'état de développement actuel des technologies : matériau textuel très complexe à analyser, mais nécessitant néanmoins des approches de nature linguistique et cognitive, volume important des données prohibant des analyses très fines et pouvant bénéficier des effets de nombre, savoir-faire de plusieurs experts à expliciter, selon des méthodes appropriées à leur mode d'inscription, de façon à respecter la culture de l'organisation.

1.6 Exemples díindices pertinents retenus pour modéliser Les différentes opérations díanalyse

Nous donnons ci-dessous quelques exemples díindices utilisés par les conseillers juridiques pour chacune des opérations díanalyse quíil nous a fallu modéliser et nous fournissons des indications sur la place qui leur a été réservée dans le prototype.

1.6.1 La sélection

L'annexe 2 au Règlement sur la cueillette et la sélection des décisions judiciaires (Loi sur la Société québécoise d'information juridique (L.R.Q., chap. S­20, art. 21) indique qu'une décision peut être sélectionnée si elle contient un des éléments suivants :  1) un point de droit nouveau;  2) une orientation jurisprudentielle nouvelle;  3) des faits inusités;  4) une information documentaire substantielle;  5) une problématique sociale particulière.

Notons tout de suite que tous les jugements de la Cour suprême sont gardés ainsi que tous les jugements de la Cour d'appel à moins que ces derniers ne soient pas motivés. Pour les autres cas, les conseillers juridiques nous ont fourni, pour chacun des critères mentionnés dans le règlement, au moins un exemple d'indice textuel, mais, à part le nombre de citations aux lois et à la jurisprudence, ce sont des indices qui se détectent difficilement par une analyse automatique. Nous avons été à même de constater que líétape de la sélection repose sur des opérations cognitives complexes mettant en jeu de nombreuses connaissances spécialisées.

La détection de la plupart des indices pertinents nécessite une compréhension du sens des phrases ou de plus larges portions du texte (par exemple, lorsque le juge exprime son désaccord - critère no2) et des connaissances sur le monde, en particulier sur l'actualité (en Responsabilité civile, il faut détecter le fait inusité - critère no3 - comme un traitement médical nouveau ou la chute d'une personne aveugle sur un trottoir). Ou bien il faut identifier, à l'intérieur des textes, certaines catégories d'information et apprécier leur importance relative, par exemple la nouveauté du jugement par rapport à ceux qui ont été publiés dans des numéros antérieurs, etc. Cíest pourquoi la prise de décision restera toujours la prérogative des conseillers juridiques.

En plus de consulter les experts, nous avons procédé par apprentissage sur corpus. Après examen díun certain nombre de jugements rejetés (disponibles sur support papier seulement) et díune série de jugements retenus, nous sommes arrivés à la conclusion que quelques critères formels simples permettent néanmoins de déclarer candidats au rejet un certain nombre de textes :  1) les jugements sont courts;   2) les jugements sont de type formulaire;  3) ils proviennent de la Cour des petites créances;  4) ils entérinent une convention. Une liste de types de requêtes ne faisant généralement pas l'objet de sélection a été constituée, mais n'est pas encore validée définitivement. Le prototype inclut seulement le premier et le dernier critères et nous envisageons díy rajouter celui qui s'appuie sur la structure physique des jugements. La tâche sera d'autant plus facile que les textes seront saisis selon la norme SGML (Standard General Markup Language), ce que malheureusement n'a pas prévu pour le moment le ministère de la Justice.

1.6.2 Le tri-classification

Un document Savoir-faire des conseillers juridiques pour le tri a été constitué à partir des entrevues effectuées auprès des conseillers juridiques. Il explicite les critères de tri utilisés pour chacune des 57 grandes classes du plan de classification.

Il s'avère que l'appartenance d'un jugement à un domaine du droit peut être décelée, dans plusieurs cas (par exemple : DROIT PÉNAL, FAMILLE, TRAVAIL), d'après quatre types de renseignements contenus dans la première page : le tribunal, le nom des parties ou la procédure entreprise, le numéro de greffe, l'intitulé du jugement le cas échéant.

-  Ainsi, un jugement provenant de la Chambre d'expropriation de la Cour du Québec traitera assurément du domaine de l'expropriation. Par ailleurs, un jugement dont l'une des parties est un syndicat pourrait vraisemblablement aborder le droit du travail. Enfin, un jugement qui mentionne qu'il s'agit d'une requête en irrecevabilité à l'encontre d'une action en dommages-intérêts pourrait être classé en procédure civile.

-  Dans certains cas, le numéro de greffe permet de classer immédiatement le jugement sous la bonne rubrique : par exemple, lorsque le chiffre qui suit le premier tiret est 11 (500-11-222222), il s'agit de FAILLITE, 41 pointe vers FAMILLE-PROTECTION DE LA JEUNESSE, 12 ou 04 vers FAMILLE, 43 vers FAMILLE-ADOPTION.

Mais comme il existe des chevauchements entre plusieurs rubriques de classification (par exemple, le DROIT CIVIL recoupe OBLIGATIONS, VENTE, CONTRATS, entre autres) et comme plusieurs rubriques (quatre au maximum) peuvent être attribuées à un même jugement en vertu des politiques implicites de classification, il est parfois nécessaire de consulter le texte du jugement, pour prendre connaissance soit des lois ou articles du code civil cités, soit du vocabulaire employé par le juge (on retrouve dans ce vocabulaire beaucoup des termes répertoriés dans le thésaurus ou le plan de classification). Pour le domaine ASSURANCE, par exemple, sur la première page, le tribunal qui rend la décision n'est pas un bon indice. Si le nom d'une des parties désigne une compagnie d'assurances, il est possible mais pas certain qu'il faille classer le jugement dans ASSURANCE; une compagnie d'assurances qui a indemnisé son assuré peut, en effet, poursuivre la personne qui lui a causé des dommages et il faudrait alors classer le jugement dans RESPONSABILITÉ. Le fait que, dans le texte du jugement, les articles 2468 à 2676 du Code civil ou bien la Loi sur les assurances soient cités, vient renforcer le second indice. Si, de surcroÎt, le jugement comporte les termes comme : assurance-automobile, assurance collective, assurance de chosesÎ ou ses spécifiques : assurance-incendie, assurance-vol, assurances de personnesÎ ou à nouveau les spécifiques de ce dernier terme : assurance-vie, assurance-invalidité, assurance-accidentÎ, ou encore assurance (de) responsabilité, assurance maritimeÎ , alors on peut prendre la décision de le classer dans ASSURANCE avec une quasi-certitude de ne pas se tromper.

Notre enquête cognitive a révélé líutilité díautres types de combinaison díindices comme la présence d'un terme associée à sa position (par exemple, requête en liquidation d'une compagnieÎ qui, se trouvant dans les premières pages du jugement, entraÎne la décision de le classer dans COMPAGNIES, de même que demande en divorceÎ qui permet de le classer dans FAMILLE) ou la co-présence et la proximité de deux termes surtout dans le cas où l'un des termes est vague et peut pointer vers plusieurs domaines du droit (délégationÎ près du terme obligationÎ est un bon indice pour le classement sous la rubrique OBLIGATIONS, de même que divorceÎ et pension alimentaireÎ ou prestation compensatoireÎ pour FAMILLE). Mais ceci nía pas été implanté dans le prototype actuel.

Enfin, notons que certains indices permettent de classifier immédiatement le jugement dans une sous-rubrique sans attendre une analyse plus approfondie de la part du conseiller juridique responsable du domaine : ainsi, le nom du tribunal Cour du Québec - Chambre de la jeunesseÎ et la mention de la Loi sur la protection de la jeunesseÎ pointent sans ambiguïté vers la sous-rubrique PROTECTION DE LA JEUNESSE dans la rubrique FAMILLE.

On constate que l'analyseur textuel doit repérer plusieurs indices différents. Il faut pour cela que ces éléments fassent l'objet d'une fouille appropriée, ce qui est réalisé grâce au système de marquage de propriétés dans SATO et pourrait líêtre au préalable avec SGML, dans certains cas comme les citations de lois et de jurisprudence, par exemple.

Nous avons ajouté à cette approche linguistico-cognitive, une approche purement statistique qui a consisté en une analyse discriminante (effectuée avec SPSS) des mots par rapport à un corpus díapprentissage : líalgorithme utilisé est capable de produire un indice de confiance dans le résultat obtenu.

1.6.3 La prise de connaissance du contenu du jugement en vue de la rédaction du résumé

En observant les conseillers juridiques en train de parcourir et díannoter les textes de jugements et en recueillant les commentaires quíils ont bien voulu faire pendant ou après líexécution de leur tâche, nous avons pu brosser un portrait de la façon dont ils prennent connaissance du contenu. Nous avons constaté que certains éléments utiles pour le tri-classification peuvent ensuite être réutilisés avec díautres indices pour la rédaction du résumé et líindexation. Nous avons ensuite pu établir une liste des éléments textuels importants pour chacun des experts selon les domaines de droit dans lesquels il oeuvre.

Chaque spécialiste possède un schéma de la structure d'exposition des jugements dans tel ou tel domaine et recherche les énoncés-clés dans les parties réputées les contenir : questions de droit au début du jugement, motifs d'accusation (motifs suivantsÎ, chefs díaccusationÎ) et peine dans les premières lignes, énoncés des faits (les faits se résument comme suitÎ) au début du jugement, moyens de procédure.

Les unités lexicales, particulièrement celles qui figurent dans le thésaurus et, le cas échéant, dans les listes de termes supplémentaires élaborées par quelques conseillers ainsi que les expressions pouvant indiquer qu'il y a discussion, lien de causalité, interprétation, etc. semblent constituer de bons déclencheurs dans certains domaines, mais aussi la citation d'un article de loi, la mention du Code civil ou du Code de procédure civile, de la Charte québécoise des droits et libertés, etc.

Certaines divergences de lecture tiennent tout simplement au style cognitif des conseillers juridiques, mais peuvent en même temps être déterminées par la plus ou moins grande complexité du domaine ou les possibles recoupements entre domaines dans lesquels les jugements peuvent être classés : là où une personne lit intégralement le texte pour en prendre connaissance, plusieurs autres se contentent d'une lecture rapide favorisant qui le début et la fin du texte, qui le début et la fin de chaque paragraphe.

Dans le prototype de système expert, nous avons, pour le moment, retenu trois profils de lecture qui conviennent à tous :  1) les termes appartenant aux outils documentaires (thésaurus et plan de classification);  2) les intervenants (Juge, cour, parties, etc.);  3) les sources du droit (lois, articles, jurisprudence, etc.). Des couleurs différentes les mettent en relief et líon peut les visualiser, au choix, dans le texte intégral, dans leur contexte immédiat, dans les phrases dans lesquelles ils sont insérés ou encore dans les paragraphes.

Pour une étape ultérieure de notre recherche, nous envisageons, en outre, une aide à la lecture personnalisée en fonction du domaine de droit dans lequel le jugement aura été préalablement classé, cette aide consistant tout simplement à mettre en relief par des couleurs les indicateurs particuliers à ce domaine. Par exemple, en RESPONSABILITÉ, le système surlignerait : liens de causalitéÎ, fauteÎ, dommage exemplaireÎ, Charte des droits et libertésÎ, etc.

Finalement des études exploratoires nous ont montré quíil serait possible de mettre en lumière de façon différenciée, les parties du jugement qui traitent du litige, du contexte et de la décision, díaprès des constantes de vocabulaire observées dans les résumés où ces trois parties sont très nettement distinguées (occurrences de lexèmes très différents, temps des verbes, etc.).

1.6.4 Líindexation

La tâche díindexation, plus complexe que les tâches précédentes, nía pas été aussi bien explicitée par les experts et nous avons dû nous appuyer sur la littérature - très peu diserte cependant - pour formuler des hypothèses en vue des traitements. En effet, l'étude cognitive des opérations d'analyse documentaire ne bénéficie pas d'une longue tradition en sciences de líinformation (Bertrand, 1993; Bertrand-Gastaldy et al. , 1994; David, 1990; Endres-Niggemeyer, 1990; Farrow, 1991).

Mais il est clairement apparu que líassignation des termes à insérer dans la manchette puis dans líindex est effectuée díaprès le résumé. D'ailleurs, pour expliquer ses choix, une personne nous a précisé : En lisant le résumé, il y a des mots qui clignotent. Question d'expérience, de flair.Î Le dispositif auquel nous recourons pour mettre les termes importants en valeur permet justement de faire clignoter les termes marqués.

Le type de termes retenus, leur localisation dans le résumé, leur forme, leur ordre d'inscription semblent répondre à de très nombreuses règles mises au point par chacun au fil de l'expérience, selon les domaines. Si le système expert doit reproduire ces règles, la tâche va être longue et surtout va nécessiter de entrevues supplémentaires : chaque cas est un cas particulier ou presque. Par contre, c'est à ce prix que le système pourra faciliter la cohérence, - du moins la cohérence intra-indexeur -, alléger le fardeau des conseillers juridiques et les libérer pour les prises de décision les plus délicates, notamment pour les cas-frontières.

En attendant de pouvoir approfondir cette enquête cognitive, nous nous sommes livrés à une étude comparée des propriétés des termes présents ou pas dans les résumés et retenus ou pas dans les manchettes. Toutes nos études ont pris appui sur les phénomènes díintertextualité entre les résumés, les manchettes et les outils documentaires. Nous avons, entre autres, examiné líimportance de critères comme la position des termes dans la macro et la meso-structure des résumés, leur fréquence, leur valeur discriminante. Pour concevoir une aide à líindexation directement à partir des textes intégraux, notamment pour ceux qui ne feront pas líobjet de résumé (cíest une perspective envisagée par SOQUIJ à plus ou moins long terme), il faudrait inclure ceux-ci dans líétude des phénomènes díintertextualité.

L'enquête cognitive a révélé, en outre, que, dans plusieurs domaines, l'indexation obéit à une sorte de grille implicite : le premier descripteur est chargé d'apporter tel type d'information, le second tel type de précision, etc. Par exemple, en droit pénal, on respecte líordre suivant : la rubrique, la sous-rubrique, le type díinfraction commise, les principes de droit étudiés dans la décision, les mentions sur l'appelant, le contexte de l'infraction, la peine imposée, alors quíen procédure civile, on retient successivement : líidentification de la procédure, le moyen de procédure, le type de défense.

Sachant que, pour les experts de SOQUIJ, líordre díinscription des termes a une signification, il nous sera possible de mettre au point, dans une phase ultérieure, des traitements plus complexes permettant de comparer, dans chaque domaine du droit, les listes de termes assignés en première, deuxième, troisième positions, etc. pour faire surgir des grilles utilisées de façon peut-être inconsciente. Pour le moment, le prototype de système expert díaide à líindexation ne fait que surligner de façon différenciée les différents mots-clés potentiels et produire une liste de ces mots-clés triés selon le domaine de classification et classés par ordre de fréquence décroissante.

Avant díimplanter toutes les fonctionnalités envisagées (prise en compte de la valeur discriminante, de la position dans la macro-structure et la micro-structure), il faut que les experts prennent plusieurs décisions sur leurs politiques díindexation en fonction de nos observations et recommandations et se prononcent également sur les modifications des outils documentaires. Nous pensons quíen les confrontant aux résultats produits par un système expert encore rudimentaire, nous les aiderons à expliciter davantage les choix quíils feront à partir des suggestions de la machine.

1.7 Les propositions díenrichissement des outils documentaires

Tout au cours de notre projet, nous avons été amenés à étudier líutilisation des outils documentaires et à introduire des modifications qui facilitaient le travail de marquage automatique, modifications qui pourraient même être utiles dans le contexte díune analyse humaine.

1.7.1 Les modifications à apporter au plan de classification

Díaprès le taux díutilisation des différentes rubriques et sous-rubriques, le plan de classification nous a semblé répondre au volume et au rythme de publication des analyses de jugements dans Jurisprudence Express. Nous avons simplement recommandé d'examiner la possibilité de subdiviser deux classes fortement représentées et de recourir davantage aux subdivisions pour le repérage des notices dans une base de données automatisée, de façon à permettre une sélection relativement fine aux utilisateurs ayant un domaine particulier en tête. Le besoin de sélectivité níest pas le même dans les publications imprimées, surtout celles qui paraissent à un rythme hebdomadaire comme Jurisprudence Express.

1.7.2 Les études effectuées sur líutilisation du thésaurus

Le marquage des termes nécessaire à plusieurs de nos traitements, de même que le désir de mieux évaluer dans quelle mesure le thésaurus répondait aux besoins d'indexation tels qu'implicitement fixés par les conseillers juridiques, nous ont conduits à effectuer une série d'études complémentaires. Nous avons, par exemple, recherché les variantes morphologiques et les variantes syntaxiques, la présence de descripteurs et non-descripteurs à l'intérieur des mots-clés libres dans les manchettes (qui constituent environ 60% des mots-clés), étudié les structures les plus fréquentes pour la formation de ces mots-clés libres, fait la liste des descripteurs jamais employés ou jamais employés seuls, etc. Nous avons aussi tenu compte des cooccurrences des différents termes (descripteurs et non-descripteurs, mots clés libres) entre eux et avec les rubriques de classification. En outre, en calculant la force díassociation des termes avec les rubriques (selon une méthode qui tient compte de la fréquence), nous sommes désormais en mesure díamorcer une structuration du vocabulaire par domaine de droit et donc de concevoir une réconciliation de deux outils documentaires (qui se recoupent et se contredisent parfois).

Bref, la richesse des analyses effectuées permet díoffrir une multitude de points de vue sur líutilisation effective (plutôt que souhaitée lors de la conception) de ces outils, au fil des ans, par plusieurs personnes. Nous avons donc soumis à SOQUIJ non seulement un portrait des outils et des pratiques actuelles, mais des suggestions très détaillées pour líenrichissement et la modification de ces outils et de ces pratiques.

Les résultats de nos différentes études, nous ont amenés à conclure que le thésaurus devait être enrichi; d'abord pour contrôler une indexation qui s'avère, dans les faits, plus spécifique que ce que permet l'outil actuel, ensuite parce que le système expert doit pouvoir repérer toutes les formes possibles d'un descripteur dans les résumés et éventuellement, dans les textes intégraux pour les ramener aux formes souhaitées pour l'indexation, enfin parce que, une fois les descripteurs organisés selon une hiérarchie stricte, il devient possible díopter pour différents niveaux de généricité selon les produits documentaires (en fonction notamment de leur périodicité, de leur support et de leur couverture du domaine).

2. LA RÉALISATION DU PROTOTYPE DE SYSTÈME EXPERT

La section précédente exposait la modélisation (méthode et résultats) effectuée pour líaide à la sélection, à la classification, à la lecture et à líindexation des jugements; la présente section traite de l'implantation réalisée du modèle. Les aspects suivants sont touchés : la tâche à informatiser; la motivation du choix de la technologie des systèmes experts; l'incertitude reliée à cette entreprise; l'arrimage du système expert avec l'analyse de textes par ordinateur; le design de la chaÎne de traitement des documents; les aménagements apportés au traitement standard de l'incertitude; la réalisation de la base de règles par apprentissage et les problèmes laissés en suspens.

2.1 La tâche à informatiser

Comme on a pu le constater dans la section précédente, les tâches à informatiser présentent un haut niveau de complexité et sont accomplies dans un contexte de production. Rappelons que les publications de SOQUIJ connaissent des échéances et sont assujetties aux lois du marché. Ces tâches sont dites cognitives en ce que leur accomplissement requiert la mise en oeuvre particulière et discrétionnaire de connaissances et de stratégies générales accumulées durant l'exercice répété et supervisé des tâches mêmes. Pour leur réalisation, de nombreuses informations de source et de valeur diverses et parfois contradictoires doivent être recueillies et synthétisées. Par conséquent, une méthode mixte de modélisation a été déployée; il s'agit de faire converger les résultats d'une enquête cognitive auprès des conseillers juridiques, d'un traitement statistique de la distribution des indices et d'une analyse de texte plus qualitative.

La stratégie retenue est de recourir au plus grand nombre de sources de connaissances, identifiées lors de la modélisation, pour lesquelles des indices sont repérables dans les jugements. Par source de connaissance nous entendons, par exemple, la longueur du jugement, les lois qui y sont mentionnées, le tribunal qui a rendu le jugement, etc. Dans la mesure où ces sources de connaissances s'avèrent distinctes les unes des autres, il est possible de fonctionner avec un principe de convergence. Ainsi, on est d'autant plus certain qu'un jugement pointe vers le domaine pénalÎ que son numéro de greffe comporte en deuxième section, l'une des combinaisons suivantes {01, 03, 10, 27 ou 36}, que ce jugement a été rendu dans la Chambre criminelle et pénaleÎ; que La ReineÎ est une des parties impliquées et que le Code criminel y est mentionné, etc. Cette stratégie présente l'avantage de fonctionner, la plupart du temps de façon satisfaisante, dans des conditions de bruit. Le bruit étant essentiellement causé ici par les indices qui pointent vers plus d'un domaine.

2.2 Motivation du choix de la technologie des systèmes experts

Pour réaliser une implantation informatique du modèle cognitif obtenu, nous avons retenu la technologie des systèmes experts (SE) pour plusieurs raisons. L'implantation d'algorithmes incomplets et/ou sujets à de fréquentes révisions est possible car les règles d'inférences qui tiennent lieu des instructions d'un programme conventionnel sont indépendantes les unes des autres et leur enchaÎnement est assuré par un mécanisme général appelé moteur d'inférences. Il n'est donc pas nécessaire de prévoir à l'avance le déroulement complet de la solution définitive du problème : l'implantation peut être modulaire et évolutive. La réalisation d'un prototype se trouve à jouer un rôle heuristique en permettant d'achever la conception par des boucles de tests/ajustements en situation. La structure des règles d'inférences autorise une implantation quasi directe du modèle cognitif qui a été développé : un ou plusieurs indices détectés dans le texte du jugement (la prémisse) sont mis en relation avec une rubrique du plan de classification (la conclusion). De plus, la certitude de ces relations peut être qualifiée au moyen d'un coefficient numérique qui sera cumulé tout au long de la consultation. Ce cumulÎ d'une part atténue la valeur des validations subséquentes lorsqu'une validation est affectée d'un coefficient incertain et, d'autre part, renforce la valeur d'une validation qui a déjà été réalisée. Le chaÎnage avant des règles permet enfin d'obtenir toutes les réponsesÎ valides et non une seule; un jugement peut donc être classifié dans plus d'un domaine avec une certitude différente pour chacun. Le découpage en règles d'inférence facilite la génération en contexte d'un rapport qui permet de valider les associations indices/rubrique du plan de classification, de localiser précisément les dysfonctionnements et finalement d'entraÎner des conseillers juridiques novices.

2.3 Les incertitudes reliées à cette entreprise

Une fois la technologie des SE retenue en raison de caractéristiques qui apparaissaient souhaitables étant donné le projet, plusieurs incertitudes demeuraient; certaines ont été résolues lors de la réalisation du prototype et les solutions retenues feront l'objet des prochaines sections. Une incertitude provenait de ce que les indices nécessaires pour la classification des jugements sont essentiellement de nature textuelle. Ainsi, contrairement aux situations habituelles de développement des SE, les indices ne sont pas fournis directement au système par l'utilisateur ou des senseurs. Cet état de fait implique le partage du traitement entre le SE pour interpréter les indices et un logiciel d'analyse de texte par ordinateur (ATO) pour les dépister dans le texte des jugements. De plus, ces indices dépistés par le logiciel d'ATO doivent être transformés pour être admissibles au SE. Une autre incertitude consistait à développer et implanter une chaÎne de traitements qui soit conforme au traitement accompli par les conseillers juridiques, notamment en dépistant les mêmes types d'indices. La difficulté est double : le dépistage en lui-même et le regroupement des indices de nature différente. Une autre incertitude enfin était liée à l'utilisation des coefficients de certitude pour rendre compte du fait que les indices sont rarement totalement fiables.

En effet, un indice peut pointer vers plus d'un domaine du droit ou encore la présence d'un indice peut être considérée comme accidentelle et constituer en quelque sorte du bruitÎ. De plus, le mode de cumul des coefficients présente certains problèmes qui sont documentés. Certaines autres incertitudes sont toutefois demeurées, principalement parce que des recherches plus fondamentales dont l'envergure dépassait le mandat s'avèrent nécessaires; celles-ci sont présentées dans la dernière section.

2.4 L'arrimage du système expert avec l'analyse de textes par ordinateur

Le générateur de système expert (GSE) utilisé est l'Atelier Cognitif et TExtuel (ACTE) développé au Centre ATO.CI. Le développement de ACTE a démarré en février 1988, sur la commande d'un consortium de ministères et organismes québécois appelé DELTA; il s'agit d'une intégration logicielle de SATO et d'une version optimisée du D_expert (GSE en LISP). Cette intégration permet de faire du diagnostic textuel, c'est-à-dire de ne plus modéliser comme tel le contenu des textes, mais bien les opérations cognitives de lecture et de compréhension, opérations qui sont en jeu pour la classification des jugements. La séquence qui a été retenue consiste à effectuer en lot une série de fichiers de commande SATO qui dépistent et identifient, principalement à l'aide de concordances, les différents types d'indices. Voici, par exemple, un extrait d'un tel fichier de concordances identifiant certaines requêtes qui, lorsque le jugement n'est pas motivé, entraÎnent le rejet :
Concordance stricte pension alimentaireConcordance ordonnée rectification registre état civil

L'interface entre les traitements effectués par SATO et le SE se fait par la consignation dans un fichier du résultat - succès ou échec - de chacune des concordances. Ce fichier est alors traité pour ne conserver que les résultats positifs qui sont identifiés à l'aide d'une table, ce qui permet de normaliser le segment dépisté. Si l'on poursuit l'exemple précédent et que la deuxième concordance est réussie, peu importe la formulation exacte du segment dépisté, l'appellation normalisée sera transmise au SE.

2.5 Le design de la chaÎne de traitement des documents

La modélisation cognitive de la tâche a été transformée en une suite séquentielle de traitement dont une schématisation est jointe en annexe.

La première étape consiste en un prétraitement qui est requis pour rendre les jugements admissibles à SATO. Reçus en format WordPerfectÎ, ils sont d'abord convertis en ASCII sans perdre les codes indiquant les attributs graphiques (gras, souligné, etc.) à l'aide d'un fichier de configuration d'imprimante élaboré à cet effet. Les codes de début et de fin deviennent des valeurs de la propriété typo:

(...) l'arrêt Laurentide Motels Ltd. c. Ville de Beauport, (...)

(...) l'arrêt *typo=+soul Laurentide Motels Ltd*typo=-soul. c. *typo=+soul Ville de Beauport *typo=-soul (...)

Puis, un programme en ICON procède à la désambiguïsation des marques de phrase et de paragraphe. Le point marque habituellement la fin des phrases, mais il est aussi utilisé dans la notation de nombres décimaux, dans des sigles et il indique une abréviation. Surtout dans les domaines législatifs et administratifs, la mise en page d'une énumération ne se distingue que difficilement d'une suite de paragraphes. Enfin, certaines commandes nécessaires pour que le programme SATOGEN transforme le texte en matrice admissible à SATOINT sont ajoutées : l'alphabet, les séparateurs, les valeurs de la propriété typo.

Dans une deuxième étape, les indices textuels relatifs à chacune des sources de connaissances, sont dépistés, principalement par l'exécution de fichiers de commande SATO renfermant des concordances, à l'exception du numéro de greffe qui est dépisté par un programme ad hoc en ICON.

La troisième étape est celle de la mise en relation des indices dépistés avec les domaines du droit pertinents à l'aide du SE. Ce faisant, un rapport de la consultation est produit où sont consignés, pour chacune des sources de connaissance, les indices dépistés ainsi que les associations qui sont faites avec des domaines; une justification en contexte est, à l'occasion, fournie; un exemple de rapport est joint en annexe.

La quatrième étape, appelée assistance à la lecture, est optionnelle. Elle consiste en l'affichage des indices dépistés pour effectuer la tâche de classification ou encore d'autres indices. La distinction entre les types d'indices est produite par l'utilisation de couleurs différentes. Cette visualisation peut être effectuée selon un ou plusieurs profils. Les profils offerts actuellement ont été mentionnés plus haut, il s'agit des intervenants [Juge, cour, parties, etc.]; des sources du droit [lois, articles, jurisprudence, etc.] et des outils documentaires [thésaurus et plan de classification]. Voici, à titre d'illustration un extrait de jugement :

Il s'agit d'une procédure assez exceptionnelle puisque, le requérant allègue certaines erreurs de droit du juge de paix. (...) Il y a évidemment ici la gravité objective de l'accusation. ° C'est une des plus sérieuses, une des plus graves que le Code criminel contient -- plutôt que la Loi des stupéfiants contient (...)

2.6 Les aménagements apportés au traitement standard de l'incertitude

Chacun des indices peut pointer vers plusieurs domaines, avons-nous dit précédemment. De plus, une même confiance n'est pas accordée à toutes les relations établies entre les indices et les domaines. Les SE offrent la possibilité d'implanter des structures conditionnelles pondérées par des coefficients numériques, de même qu'une fonctionnalité pour leur cumul. Le cadre théorique le plus souvent utilisé est celui des coefficients de certitude développé pour le système Mycin. Rappelons que le principe du cumul des coefficients est le renforcement; en voici un exposé simplifié : si on arrive à une même conclusion à partir de deux sources de connaissances distinctes, on attribue à cette conclusion un coefficient supérieur au coefficient le plus élevé. Ce principe permet donc de discriminer les différents domaines du droit vers lesquels l'ensemble des indices repérés pointe.

Lorsqu'appliqué à notre système, ce cadre théorique pose toutefois deux ordres de problèmes. Il a été démontré d'une part qu'il était très difficile pour des experts d'exprimer leur confiance dans les relations qu'ils établissent entre des faits vérifiés ou tenus pour vrais et des conclusions sous la forme d'un coefficient numérique. D'autre part, un calibrage des coefficients doit être effectué en fonction du nombre de renforcements qui sont susceptibles de se produire pour que l'effet discriminant soit optimal. En effet, si beaucoup de renforcements ont lieu alors que les coefficients sont élevés, plus le résultat tend vers 100, plus il perd de la valeur discriminante; la valeur des coefficients ne doit pas être élevée. Par ailleurs, si les renforcements ne sont pas nombreux et que les coefficients sont très bas, les résultats ne seront pas convaincants. Pour remédier à ces deux problèmes, une approche modulaire a été développée. L'expression de la confiance quant à la relation entre les indices et les domaines du droit est séparée de l'algorithme de cumul par renforcement qui intervient lors d'une consultation.

Cette confiance est exprimée par des coefficients symboliques distribués sur une échelle bi-polarisée qui comporte cinq valeurs : forte [f++], moyenne-forte [f+], moyenne [m], moyenne-faible [f-] et faible [f--]. Une conversion de ces coefficients symboliquesÎ en des coefficients numériques admissibles à l'algorithme de cumul. L'échelle numérique des coefficients est de 1 à 100. Cette fonction a deux rôles : exprimer l'écart entre les coefficients symboliques et ajuster leur valeur en fonction du nombre potentiel de renforcements. L'écart entre les coefficients détermine leur aspect discriminant. La figure de gauche montre une discrimination plutôt constante, celle qui est présentement implantée, la figure de droite montre une forte discrimination; l'utilisation du coefficient le plus élevé indique une relation prépondérante :

Le calibrage de la valeur numérique attribuée à chacun des coefficients symboliques en fonction du nombre potentiel de renforcements, se fait par essai-erreur. Des recherches supplémentaires sont requises pour déterminer une méthode exacte.

2.7 La réalisation de la base de règles par apprentissage

La technologie des SE ne présente comme tel aucun mode d'apprentissage, les règles d'inférences doivent être écrites et modifiées de la même manière : une à une à l'aide d'un éditeur spécialisé.

Afin de pallier cette carence, deux solutions ont été combinées : une approche tabulaire et une étude de corpus. Comme elles expriment des relations simples, les règles d'inférences peuvent s'exprimer sous forme de tableau, en trois colonnes : l'indice, le domaine et le coefficient de confiance, géré par une base de données ou un tableur; ainsi par exemple un extrait du tableau des numéros de greffe :
03 pena f++
27 pena f++
01 pena f++
10 pena f++
36 pena f++
53 drli m
06 proc f+
41 fami f++
12 fami f++
04 fami f++
43 fami f++

Le passage aux règles d'inférences est le fait d'un programme en ICON qui constitue la prémisse à partir de la première colonne, la conclusion à partir de la deuxième et opère le passage du coefficient symbolique en un coefficient numérique :

Connaissance Règle Définir 201 **

Note "TRI -> 1ère page -> no de greffe : 03" **

Auteur automatik **

Création 1904-01-01 00-00-00 **

Si **

Base TRI **

Granule "Indices de première page" **

( Trait "section du no de greffe" = ChaÎne "03" ) **

Alors **

Base TRI **

Granule Document **

( Trait domaine = ChaÎne "Pénal" Coef 20 ) **

CanalEcrire ( Canal rapport **

Message " Ce no. de greffe pointe vers le domaine " **

Base TRI **

Granule Document **

Trait domaine **

Message " avec une confiance forte" **

Message " ; cumulatif de : " Coefficient **

Message "%" Retour **

)

L'étude d'un corpus constitué de jugements déjà classifiés a permis de littéralement découvrir des indices pour la plupart des sources de connaissances. À titre d'illustration, le cas des lois citées sera décrit. Pour chacun des domaines du droit, un sous-texte a été constitué de tous les passages en italique à l'aide de SATO. Ces sous-textes ont été épurés de façon à ne contenir que les lois citées dans les jugements et ont été constitués en tableaux avec le domaine attribué :

Loi de l' aménagement municipal

Loi de l' assistance publique municipal

Loi de l' évaluation foncière municipal

Loi de la qualité de l' environnement municipal

Loi de police municipal

Ensuite, ces tableaux ont été fusionnés et triés, de façon à regrouper pour chacune des lois tous les domaines pointés. Cette distribution, suite à une validation par les conseillers juridiques pour éliminer les aberrations, a guidé l'attribution des coefficients de confiance. La règle suivie est que si la distribution est égale, un coefficient faible est attribué, sinon la force du coefficient est proportionnel à la distribution. Ainsi, par exemple, la Charte canadienne des droits et libertés apparaÎt dans les domaines suivants avec cette distribution :


À partir de cette distribution, les coefficients suivants ont été attribués :Pénal (pena) f++Droits et libertés (drli) f+Droit administratif (drad) mProfessions (prof) mTravail (trav) mFamille (fami) f--Municipal (muni) f--Procédure civile (proc) f--Responsabilité (resp) f--

À la suite de ces opérations, on obtient un tableau en trois colonnes qui permet de générer les règles d'inférences. Les indices qui pointent vers plusieurs domaines sont regroupés dans une même règle.

2.8 Les problèmes laissés en suspens

Malgré tous les efforts déployés, des difficultés ont été laissées en suspens, parce qu'elles demandent des recherches dont l'envergure dépassait le mandat, mais dont l'intérêt apparaÎt évident étant donné le succès du prototype, par exemple :

- l'intégration du coefficient de confiance dans le résultat obtenu par l'algorithme d'analyse discriminante utilisé au cumul des coefficients de certitude des règles d'inférences;

- l'intégration des occurrences différentes des termes lemmatisés du plan de classification et du thésaurus dans le cumul des coefficients de certitude et la prise en compte de leur fréquence. Est-ce que plusieurs termes différents pointant vers un même domaine valent plus cher que des fréquences élevées de quelques termes ?

- la modification du modèle de cumul des coefficients par renforcement qui ne permet que l'accroissement linéaire, pour prendre en compte des indices invalidant un ou plusieurs domaines, ce qui serait plus conforme au fonctionnement cognitif des conseillers juridiques.

CONCLUSION

Líexpérience que nous venons díexposer a permis à líéquipe de recherche de vérifier :  1) quíil est possible de modéliser les opérations cognitives des experts dans diverses situations de lecture à partir díune enquête cognitive et díune analyse sémio-statistique des textes analysés et des résultats de plusieurs types díanalyses;  2) quíil est possible díimplanter un système expert síappuyant sur des stratégies dépistant dans les textes certains des indices détectés par les humains, à différents niveaux díorganisation des textes (éditorial, morpho-syntaxique, intra-phrastique, intra- et inter-textuel, sémantique, pragmatique, etc.). Il a également été constaté que plusieurs de ces indices sont utilisables pour faciliter la lecture selon les objectifs poursuivis par chacune des opérations de sélection, de tri-classification et díindexation. Pour cela, il faut disposer díun logiciel qui, non seulement autorise le marquage des unités textuelles et lexicales selon autant de caractéristiques que les hypothèses le suggèrent, mais aussi facilite auparavant la découverte de ces propriétés puis leur manipulation au même titre que la manipulation des chaÎnes de caractères. Nous avons également appris que la performance de nos méthodes de modélisation/formalisation était optimale lorsque l'information requise par les tâches cognitives se trouvait dans les textes sous la forme d'indices repérables. Ainsi, même lorsque la prise de connaissance du contenu semble superficielle (par exemple pour la sélection), si la prise de décision fait appel à des connaissances autres que celles de la langue et du cadre textuel, la tâche échappe en grande partie à nos méthodes. Par conséquent, comme les tâches requièrent pour la plupart de telles connaissances, les experts doivent toujours garder le contrôle des systèmes. En ce qui concerne líimplantation de la chaÎne de traitement, nous avons constaté que le succès reposait moins sur la complexité de la technologie ou des formules mathématiques que sur la maÎtrise une à une de chacune des sources de connaissances requises et des indices qui les désignent dans les textes.

Ajoutons quíun des bénéfices importants de la recherche a consisté dans le portrait des politiques et procédures díanalyse suivies par la dizaine de conseillers juridiques telles que révélées par líanalyse des données et líenquête cognitive, dans la constatation de quelques divergences dont certaines devaient être corrigées pour accroÎtre la prédictibilité des index, et enfin, dans la production díun thésaurus considérablement enrichi et líamorce díun meilleur arrimage entre thésaurus et plan de classification.

REMERCIEMENTS

Le projet a été soutenu financièrement par les institutions suivantes : Centre francophone de recherche en informatisation des organisations (CEFRIO), Société québécoise d'information juridique (SOQUIJ), Ministère des Communications du Québec, École de bibliothéconomie et des sciences de l'information, Université de Montréal, Centre de recherche en cognition et information ATO.CI, Université du Québec à Montréal.

Plusieurs personnes ont été impliquées à diverses étapes du projet : Jean-Guy Meunier, directeur du Centre ATO.CI; Sylvie Michaud, bibliothécaire professionnelle; Myriam Desclos-Lalaude, stagiaire de líI.E.P. (Cycle supérieur de spécialisation en information et documentation, Institut díÉtudes Politiques), Paris; Luc Dupuy, agent de recherche, centre ATO.CI, Yves Khawam, professeur adjoint, ÉBSI et plusieurs étudiants en bibliothéconomie et sciences de líinformation ainsi quíen linguistique.

BIBLIOGRAPHIE DES SOURCES CITÉES

Beacco, J.-C. et M. Darot, 1984, Analyse de discours; lecture et expression, Paris, Hachette / Larousse.

Beghtol, C., 1986, Bibliographic classification theory and text linguistics : aboutness analysis, intertextuality and the cognitive act of classifying documents, Journal of Documentation, 42(2), pp. 84-113.

Bertrand, A., 1993, Compréhension et catégorisation dans une activité complexe : l'indexation de documents scientifiques, Université de Toulouse-Le Mirail, Équipe de psychologie du travail ER 15- CNRS. (Thèse de doctorat).

Bertrand-Gastaldy, S. , 1993, Analyse documentaire et intertextualité, Les Sciences du texte juridique: Le droit saisi par l'ordinateur, sous la direction de Claude Thomasset, René Côté et Danièle Bourcier, Cowansville, Les Éditions Yvon Blais, pp. 139-173.

Bertrand-Gastaldy, S., F. Daoust, G. Pagola et L.-C. Paquin, 1993, Conception díun prototype de système expert díaide à líanalyse des jugements : rapport final présenté à SOQUIJ, vol. 1, synthèse des travaux, [Montréal], Université de Montréal, École de bibliothéconomie et des sciences de líinformation / Université du Québec à Montréal, Centre de recherche en information et cognition ATO.CI.

Bertrand-Gastaldy, S., L. Giroux, D. Lanteigne et C. David, 1994, Les produits et processus cognitifs de líindexation humaine, ICO Québec, 6(1-2), pp. 29-40.

Blosseville, M.J., G. Hébrail, M.G. Monteil et N. Pénot, 1992, Automatic Document Classification : Natural Language Processing, Statistical Analysis and Expert System Techniques Used Together, dans SIGIR 92, Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Copenhagen, pp. 51-57.

Chaumier, J. et M. Dejean, 1990, Líindexation documentaire : de líanalyse conceptuelle humaine à líanalyse automatique morpho-syntaxique, Documentaliste , 27(6), pp. 275-279.

David, C., 1990, Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire, Montréal, Université de Montréal, Département de communication. (Mémoire de maÎtrise).

Doszkocs, T., 1986, Natural language processing in information retrieval, Journal of the American Society for Information Science, 37(4), pp. 191-196.

Endres-Niggemeyer, B., 1990, A procedural model of abstracting, and some ideas for its implementation, dans TKE'90; Terminology and Knowledge Engineering, Frankfurt, Indeks Verlag, pp. 230-243.

Farrow, J., 1991, A cognitive process model of indexing document, Journal of documentation, 47 (2), pp. 149-166.

Meunier, J.-G., S. Bertrand-Gastaldy et H. Lebel, 1987, A call for enhanced representation of content as a means of improving on-line full-text retrieval, International Classification; 14(1), pp. 2-10.

Meunier, J.-G., 1992, SATO : un philologue électronique, Documentation et bibliothèques, 38(2), pp. 65-69.

Meunier, J.-G., S.Bertrand-Gastaldy et L.-C. Paquin, 1994, La gestion et líanalyse des textes par ordinateur : leur spécificité dans le traitement de líinformation, ICO Québec, 6(1-2), pp. 19-28.

Van Dijk, T. A., 1977, Perspective paper : complex semantic information processing, dans D.E. H. Karlgren, H. et M. Kay, Natural Language in Information Science; Perspectives and Directions for Research, Stockholm, Skriptor, pp.127-163.


EXEMPLE DE RAPPORT FOURNI PAR LE SYSTÈME EXPERT

SYSTÈME EXPERT POUR SÉLECTIONNER ET CLASSIFIER LES JUGEMENTS

prototype pour SOQUIJ, le CEFRIO et le MCQ

Suzanne Bertrand-Gastaldy resp., Gracia Pagola

EBSI : École de bibliothéconomie et des sciences de l'information, UdeM

François Daoust et Louis-Claude Paquin

Centre ATO-CI : Centre de recherche en cognition et information à l'UQAM

Le système expert a pour tâche principale de sélectionner les jugements

et de désigner les rubriques de classification les plus probables.

ÉTAPE DE LA SÉLECTION

Les jugements sont retenus pour traitement selon les critères suivants : la longueur dont le seuil est de 40 lignes ou 400 mots le type de requête.

Ce jugement compte 179 lignes et 2002 mots.

Le jugement est sélectionné. il a la longueur suffisante; il n'est pas répertorié parmi les requêtes rejetées.

ÉTAPE DU TRI-CLASSIFICATION

Cette étape comporte quatre analyses :

- les indices de la première page;

- les lois et articles du code civil mentionnés;

- la discrimination lexicale;

- la discrimination par les outils documentaires.

A. L'analyse des indices de la première page du jugement touche les indices suivants :

1) le numéro de greffe : 500-05-001562-899

- ne pointe vers aucun domaine

2) le tribunal : COUR SUPÉRIEURE

- ne pointe vers aucun domaine

3) Le nom des parties

- La ReineÎ pointe vers le domaine Pénal avec une confiance forte ; cumulatif de : 20%

4) L'intitulé du jugement

- ne pointe vers aucun domaine

B Lois et articles du Code civil mentionnés

code criminelÎ

- pointe vers le domaine Municipal avec une confiance faible ; cumulatif de : 2%

- pointe vers le domaine Pénal avec une confiance forte ; cumulatif de : 36%

- pointe vers le domaine Professions avec une confiance faible ; cumulatif de : 2%

L'article 614.3 C.C.Î

- pointe vers le domaine Famille avec une confiance forte ; cumulatif de : 20%

C Analyse de la discrimination documentaire

Cette analyse est effectuée par la projection des termes appartenant au thésaurus et au plan de classification.

1 descripteur(s) pointe(nt) vers le domaine Droits et libertés

1 descripteur(s) pointe(nt) vers le domaine Sûretés

1 descripteur(s) pointe(nt) vers le domaine Travail

2 descripteur(s) pointe(nt) vers le domaine Responsabilité

3 descripteur(s) pointe(nt) vers le domaine Procédure civile

24 descripteur(s) pointe(nt) vers le domaine Pénal

___________ F i n _ d u _ t r a i t e m e n t ___________

Suzanne Bertrand-Gastaldy est professeure titulaire à líÉcole de bibliothéconomie et des sciences de líinformation de líUniversité de Montréal où elle est responsable du profil Analyse de líinformation et bases de donnéesÎ. Ses recherches portent essentiellement sur les méthodes díindexation et díélaboration de vocabulaires de domaine assistées par ordinateur ainsi que sur líévaluation des thésaurus à la lumière des théories sémio-cognitives.

Louis-Claude Paquin




Gracia Pagola est détentrice díune maÎtrise en bibliothéconomie et sciences de l'information et a fait des études universitaires en linguistique et informatique. Elle est chargée de cours a l'EBSI et au Cégep Maisonneuve. Agente de recherche pour plusieurs projets d'indexation et de contrôle de vocabulaire assistés par ordinateur, elle est coauteure de publications sur ce sujet et a travaillé à la constitution de plusieurs bases de données bibliographiques et en texte intégral.

François Daoust