SATO-CALIBRAGE, cadre expérimentalSATO-CALIBRAGE, cadre expérimental


François Daoust.

François Daoust est informaticien et chercheur au Centre d'analyse de texte par ordinateur -Cognition et information-. Il est responsable du projet SATO-CALIBRAGE au Centre ATO-CI.

Nous voulons, dans cet article, décrire le cadre expérimental dans lequel se déploie le projet SATO-CALIBRAGE1. Ce faisant, nous pourrons indiquer la place respective des divers dispositifs déployés qu'ils soient d'ordre linguistique ou mathématiques2. Enfin, nous en profiterons pour décrire le logiciel SATO3 et sa place centrale dans dans le protocole expérimental.


Hypothèses sur le discours

Comme tout projet en analyse de texte, SATO-CALIBRAGE est fondé sur un certain nombre d'hypothèses sur la nature du discours dont les textes individuels constituent la manifestation. Ainsi, par exemple, on peut considérer que les textes fournis aux élèves de première année, devraient, au delà des variations individuelles propres à chaque texte, partager des caractéristiques communes qui les destinent à leur fonction spécifique d'apprentissage.

En d'autres mots, nous posons en postulat l'hypothèse générale de cohérence du discours social, plus spécifiquement ici, du discours produit dans le cadre de l'institution scolaire et destiné à un public cible composé d'enfants en processus d'apprentissage.

À partir de cette hypothèse générale de cohérence, on va vouloir étudier le fonctionnement discursif en observant une collection de textes individuels.

La question de la représentativité des données, à savoir ici les textes fournis aux élèves, est donc une des premières questions à poser dans une approche expérimentale. Cette représentativité implique des hypothèses sur l'objet à analyser, sur sa cohérence et sa variabilité.

En termes métaphoriques, nous pouvons imaginer qu'à un espace de pratiques sociales, correspond un ou plusieurs espaces discursifs. Il faut donc, dans un premier temps, justifier la constitution (cohérence, pertinence sociale) de l'espace discursif que l'on veut étudier. Ensuite, on doit rassembler un corpus qui soit significatif de cet espace. Cela veut dire que l'on vise à choisir des textes individuels qui se répartissent sur l'ensemble de cet espace. Cela veut dire aussi que l'on doit disposer d'une quantité suffisante de textes pour pouvoir dépister des régularités significatives.

La constitution du corpus SATO-CALIBRAGE, décrite dans l'article de Lise Ouellet, traduit bien ces préoccupations. Ainsi, comme notre projet est basé sur une hypothèse de stratification du discours en niveaux d'enseignement, on a pris un soin particulier pour que le corpus soit représentatif des divers niveaux. Cet objectif de représentativité quantitative peut aussi impliquer une réduction volontaire de la variabilité du corpus, et du discours qui le fonde. Par exemple, nous avons dû exclure certains genres littéraires dont le fonctionnement s'écartait trop de l'ensemble. Sinon, pour tenir compte de cette dimension de façon satisfaisante, il aurait fallu augmenter la taille du corpus et introduire dans notre modèle interprétatif une variable supplémentaire pour tenir compte du genre littéraire.

Conception de modèles interprétatifs

Comme on vient de le voir, la constitution du corpus implique déjà un certain nombre d'hypothèses sur l'existence et les caractéristiques de l'espace discursif que l'on veut analyser. Le protocole expérimental auquel on veut soumettre le corpus implique aussi l'existence d'un modèle interprétatif que l'analyse permettra de corriger et de compléter.

Dans un premier temps, le modèle peut être très sommaire. En fait, il s'agit d'abord d'hypothèses sur la nature des régularités discursives qui seraient associées à une intentionnalité, explicite ou non, des textes. Dans notre cas, le modèle interprétatif était déjà, au départ, assez développé. En effet, le ministère de l'Éducation dispose de grilles permettant d'évaluer la pertinence d'un texte pour un niveau scolaire donné. Parmi les éléments de cette grille, on trouve, par exemple, la longueur du texte, la familiarité avec le vocabulaire, etc.

Notre objectif était donc, dans un premier temps, d'automatiser et de valider certains éléments de cette grille par une expérimentation rigoureuse.

Dans un deuxième temps, l'objectif était d'utiliser le protocole expérimental afin d'enrichir le modèle interprétatif. C'est ainsi que l'on peut non seulement confirmer ou infirmer des modèles interprétatifs existants mais que l'on peut aussi les développer. Par exemple, nous avons émis l'hypothèse que certains termes fonctionnels (adverbes, prépositions, conjonctions, pronoms, etc.) peuvent nous aider à démarquer les textes selon les niveaux scolaires. Plusieurs résultats de l'analyse statistique semblent confirmer cette intuition.


Cela nous conduit naturellement au deuxième temps de la recherche expérimentale, après la constitution du corpus, à savoir la construction d'un dispositif expérimental qui va permettre de confronter le modèle aux données.

Les dispositifs expérimentaux dont nous voulons parler sont des dispositifs computationnels faisant appel à l'ordinateur et au texte électronique. Le texte, dans son format électronique, est simplement une suite de codes de caractères. C'est donc par une suite de calculs sur cette chaîne que l'on doit dépister des procédés discursifs et des effets de sens.

L'objectif du dispositif expérimental est de produire des indices textuels qui mesurent la présence de ces procédés discursifs. Cependant, il est très difficile et peu naturel de concevoir des indices textuels qui se situent directement dans cet espace linéaire que constitue la séquence de caractères. Voilà pourquoi nous travaillons depuis le début des années '70 à développer un appareillage expérimental, un “laboratoire textuel” qui puisse situer le texte dans un espace qui nous soit plus familier. Il est alors plus facile de construire des indices interprétables pour la validation de nos modèles d'interprétation du texte. Ce laboratoire s'appelle SATO.

SATO, un outil pour le dépistage d'indices textuels

Si, d'un point de vue matériel, le texte se donne d'abord comme une suite de caractères, du point de vue du lecteur, le texte se présente d'emblée comme une suite de “mots qui font sens”. Pourquoi ces mots font-ils sens? D'abord parce qu'ils sont perçus comme des unités, c'est-à-dire des groupes de signes délimités. Ensuite, parce que ces groupes de signes ont une signification à l'intérieur d'une langue dont on a la maîtrise, et en fonction d'un monde connu auquel ils réfèrent.

Donc, au delà de sa définition purement matérielle (cette feuille de papier imprimée), le texte met en oeuvre une dimension implicite, la dimension lexicale et une dimension explicite qui correspond à l'ordre séquentiel de la lecture.

En d'autres mots, SATO situe le texte dans un espace, un plan composé de deux axes. On a d'abord un axe lexical qui dresse la liste du vocabulaire utilisé dans le texte. Ce vocabulaire (les lexèmes) a un sens dans l'univers de la langue et du discours dans lequel s'inscrit le texte. Le deuxième axe représente la linéarité du texte qui se donne en fait comme une suite d'occurrences des lexèmes. De façon abstraite, on pourrait donc voir un texte donné comme un nuage de points tracé sur ce plan.


Représentation d'un texte dans le plan lexique/occurrence

donc |- x

je |- x x

pense |- x

suis |- x

|___|____|____|____|____|____|

1 2 3 4 5 6

Représentation ASCII:

je pense donc je suis


On pourrait aussi avoir

donc |- x

je |- x x

pense |- x

suis |- x

|___|____|____|____|____|____|

1 2 3 4 5 6

Représentation ASCII:

je suis donc je pense

Cette représentation du texte dans sa double dimension, lexème et occurrence, est un choix fondamental qui va dicter le modèle informatique de SATO et le type d'opérations logiques mises en oeuvre dans les stratégies d'analyse de texte supportées par le système. C'est le programme SATOGEN (pour SATO-génération) qui permet de réaliser la transformation du texte de sa représentation en termes de chaînes de caractères à sa représentation logique en termes de lexèmes qui occurrent dans leur contexte.

Destiné à soutenir des activités d'analyse, SATO offre la possibilité d'annoter le texte. Le travail d'annotation sur le texte est cette opération matérielle qui permet de marquer par un symbole le dépistage d'une unité cognitive.

Cette unité cognitive peut s'établir sur l'axe lexical. Par exemple, on peut reconnaître que tel lexème appartient à un vocabulaire familier pour les élèves d'un niveau donné. On peut constater qu'il s'agit d'un adverbe, d'un marqueur d'argumentation, etc. Ou, l'unité dépistée peut se définir sur le plan textuel (occurrences). Par exemple, le lexème “le” qui précède le mot “lexème” agit ici comme article. Ou la phrase précédente définit un exemple, etc.

Dans SATO, on utilise le terme de “propriété” pour désigner un système catégoriel permettant de marquer des lexèmes ou des occurrences. Par exemple, une propriété “connu” et ses valeurs “oui”, “p6”, etc. pourrait servir à identifier les lexèmes connus de tous (comme les nombres), et ceux connus par les élèves de sixième année. Une propriété “syntaxe” pourrait permettre d'identifier la fonction grammaticale précise de l'occurrence d'un lexème alors que la propriété “gramr” pourrait servir à définir l'ensemble des fonctions grammaticales possibles du lexème.

En recoupant les systèmes catégoriels des propriétés avec la représentation bi-dimensionnelle du texte, on obtient donc le modèle suivant:

Texte augmenté de propriétés

fréqtot gramr

1 conjonc donc |- x

2 pron-pers je |- x x

1 verbe pense |- x

1 verbe suis |- x

|___|____|____|____|____|____|

1 2 3 4 5 6

édition maj nil cap nil nil

partie prém prém conn conc conc


Représentation ASCII:

*partie=prém Je pense *partie=conn DONC *partie=conc je suis

Dans cet exemple, nous avons défini sur l'axe lexical deux propriétés ou fonctions catégorielles.

La propriété “fréqtot” est une propriété dont les valeurs sont des entiers et qui contient le nombre total d'occurrences du lexème dans le corpus de textes.

La propriété “gramr” est une propriété dont les valeurs possibles sont des noms de catégories grammaticales. La propriété “fréqtot” est une propriété pré-définie de SATO alors que “gramr” est une propriété ajoutée.

Sur l'axe textuel, nous avons deux propriétés.

La propriété “édition” est une propriété pré-définie de SATO et dont les valeurs sont des symboles qui définissent des attributs de mise en page de l'occurrence. Par exemple, le symbole “maj” indique que la première occurrence du lexème “je” débute par un “J” majuscule.

La propriété “partie” est une propriété ajoutée qui illustre un classement des occurrences selon qu'ils appartiennent à une prémisse, à un connecteur ou à une conclusion.

Si le programme SATOGEN permet de construire la représentation du texte décrite dans la première partie, c'est le programme SATOINT (pour SATO-INTERROGATION) qui est l'outil du dialogue avec le texte. SATOINT est un programme interactif largement paramétrable conçu comme poste de travail du lecteur-analyste.

Rapportées sur le plan lexique-occurrences de SATO, les opérations que permet d'effectuer SATO (module SATOINT) se distribuent selon le schéma suivant:

Opérations sur le plan lexique/occurrence

Affichage/Impression

Dictionnaire donc |- x

Distance je |- x x

Propriété: pense |- x

définir (hériter), suis |- x

effacer, assigner, |___|____|____|____|____|____|

décrire, formater 1 2 3 4 5 6

Formatage

Affichage, impression

Concordance, contexte,

tamiser, catégoriser

Scénario Domaine

(Exécuter) Lisibilité

Marquage, comparaison

Participation

Propriété

définir (hériter),

effacer, assigner

décrire, formater

Segment,

compter, tamiser,

catégoriser

Formatage

On remarquera que certaines opérations sont disponibles tant sur le plan du lexique que sur celui des occurrences.

Il s'agit en particulier des opérations d'affichage et d'impression, qui sont aussi des opérations de sélection par l'utilisation du mécanisme des patrons de fouille. Les patrons de fouille permettent de désigner des lexèmes ou des occurrences par la concaténation de filtres portant sur leurs caractères ou leurs valeurs de propriété. Voici quelques exemples:

Exemples de patrons de fouille

parle le mot “parle”;

parle$ tous les mots débutant par “parle”; “$” est un opérateur de troncature à droite;

p|ent tous les mots débutant par “p” et se terminant par “ent”; “|” est un opérateur représentant une chaîne quelconque de caractères;

p_rle tous les mots débutant par “p” suivi d'un caractère quelconque (opérateur “_”) et se terminant par “rle” comme “parle” ou “perle”;

parl(e,ent,ure) “parle”, “parlent”, “parlure”; ici, les parenthèses et la virgule permettent de définir des chaînes alternatives;

|ent*fréqtot=5,>5 tous les mots se terminant par “ent” et dont la propriété fréqtot (fréquence totale introduite par l'astérisque) est égale à 5 ou est plus grande que 5;

ab$*alphabet=(fr,en) tous les mots débutant par “ab” et provenant des alphabets “fr” (français) ou “en” (english); on voit que le patron alternatif s'applique ici aux valeurs de la propriété alphabet;

$*alphabet~fr*fréqtot=1 tous les mots qui ne sont pas (opérateur différent “~”) en français et dont la fréquence totale est 1.


Le deuxième ensemble d'opérations qui est disponible sur les deux axes de notre plan concerne la définition et l'exploitation des systèmes de propriété.

On peut définir ou effacer une propriété. Une des modalités intéressantes de l'opération de définition est l'héritage. Par exemple, si on a défini une propriété “gramr” sur le lexique, on pourrait définir une propriété “syntaxe” sur le texte qui “hérite”, au moment de sa création, des valeurs de la propriété “gramr”. Il s'agit de propriétés distinctes qui pourront par la suite être modifiées de façon distincte. En particulier, on pourra modifier “syntaxe” pour chacune des occurrences du lexème. Comme on le verra dans l'article sur le dispositif linguistique, on se sert de ce dispositif pour la levée des ambiguités catégorielles sur le verbe.

Une autre opération commune aux systèmes des propriétés est l'assignation de valeurs. Cette opération se réalise au moyen d'une commande d'affectation ou par manipulation directe: on pointe l'objet au moyen des curseurs ou de la souris et on assigne des valeurs à l'une ou l'autre de ses propriétes. On peut aussi assigner des valeurs en faisant appel au mécanisme de sélection des patrons de fouille.

On peut aussi décrire une propriété. Cette opération fait appel aux techniques de la statistique descriptive et permet de dresser un portrait de l'utilisation des valeurs de la propriété.

Finalement, on peut formater une propriété, c'est-à-dire définir son format d'affichage: nombre de colonnes pour afficher le propriété, sa couleur, etc.

Les prescriptions de formatage sont aussi disponibles directement au niveau du lexique et des occurrences. Ainsi, on peut formater le lexique pour déterminer les propriétés que l'on veut visualiser. Il est en de même des propriétés textuelles dans le cas de l'affichage ou de l'impression du texte. En fait, SATO permet de modifier librement un très grand nombre de paramètres de visualisation.

Un type d'opérations spécifiques à l'axe lexical concerne la manipulation de dictionnaires. Pour SATO, un dictionnaire est un fichier externe, une base de données, qui permet d'associer des valeurs de propriété à des chaînes de caractères qui représentent normalement des formes lexicales. SATO fournit un ensemble de dispositifs pour créer, consulter et modifier des dictionnaires. On peut aussi les fouiller avec une syntaxe de patrons comme on le fait pour le lexique et le texte.

Finalement, SATO fournit des analyseurs lexicométriques. En particulier, DISTANCE permet de mesurer la différence de vocabulaire entre deux parties du texte. Cet analyseur permet aussi d'indiquer quels sont les lexèmes, ou les valeurs de propriété de ces lexèmes qui distinguent les deux parties du texte soumises à la mesure.

La première opération qui concerne spécifiquement l'axe des occurrences a trait au repérage de segments textuels, c'est-à-dire des portions de texte possédant diverses caractéristiques. C'est le cas en particulier de la CONCORDANCE qui permet de repérer des passages qui contiennent un ou plusieurs mots avec divers types de contraintes. On peut aussi se servir de la concordance pour réaliser une catégorisation en contexte automatique (cf. l'article Le dispositif linguistique).

Bien sûr, on pourra afficher ou imprimer les passages repérés, en souligant les mots dépistés en position de contrainte. Cette édition des contextes est accompagnée de références de pagination aussi précises que l'on désire. On peut aussi tamiser les contextes, c'est-à-dire dresser le lexique d'une classe quelconque des mots qui apparaissent dans la concordance.

Outre les concordances, il existe en SATO un deuxième mécanisme de répérage de contextes. Il s'agit de la fonction de SEGMENTATION qui a pour fonction de partitionner le texte en segments. Par exemple, on pourrait découper le texte en documents, en paragraphes, en phrases possédant une certaine longueur, ou en segments de longueur fixe.

On peut afficher ou imprimer un ou plusieurs des segments ainsi repérés. On peut aussi compter des classes de mots décrits par des patrons à l'intérieur de chacun de ces segments. On peut calculer divers indices de répartition et de dispersion des mots comptés. Par exemple, on pourrait segmenter le texte en phrases et compter le nombre de verbes conjugués par phrase. On pourrait segmenter le corpus en documents et compter le nombre d'occurrences de lexèmes susceptibles d'être des descripteurs de contenu. Divers indices nous indiqueront lesquels de ces lexèmes semblent discriminants. On trouvera des exemples d'utilisation de cette commande dans l'article sur la préparation des données pour l'analyse statistique.

En faisant appel aux patrons de fouille ou au repérage de segments et concordances, on peut définir un DOMAINE textuel. Le domaine est une restriction sur l'axe des occurrences de SATO. La commande permet aussi de dresser un sous lexique qui correpond au domaine.

Finalement, on dispose dans SATO de quelques analyseurs qui concernent directement l'axe des occurrences. Il s'agit en particulier de LISIBILITÉ, MARQUER et PARTICIPATION.

LISIBILITE fournit divers indices de difficulté/facilité de lecture du texte.

PARTICIPATION permet d'évaluer la part relative d'une classe quelconque de mots dans un ensemble de sous-textes.

MARQUER permet de marquer les différences entre deux segments textuels quasi-identiques.

Comme on peut le constater à la lecture des sections précédentes, SATO fournit très peu d'analyseurs complets. SATO fournit surtout des fonctions et opérations dont la combinaison permet à l'utilisateur de construire ses propres analyseurs. Ceux-ci vont prendre la forme de scénarios que l'on fait exécuter. Sur le plan lexèmes-occurrences de la représentation SATO, nous avons placé le scénario à la jonction des deux axes. En effet, le plus souvent, les scénarios déploient des stratégies faisant appel à la combinaison de fonctions qui agissent sur l'un ou l'autre des deux axes.

Les scénarios prennent la forme de fichiers ASCII composés de séquences de commandes SATO. Ils sont, le plus souvent, composés à partir d'extraits du journal associé à une session de travail dans SATOINT. Une fois que l'on a mis au point des stratégies en mode interactif, on reprend ces stratégies et on en fait des analyseurs.

Les scénarios de commandes ont un double statut. D'un point de vue technique d'abord, ce sont des programmes permettant de reproduire des stratégies d'analyse et de les appliquer dans un cadre de production. Mais ce sont aussi des objets scientifiques qui sont la matérialisation d'un savoir descriptif ou analytique.

Voilà pourquoi le logiciel SATO constitue un outil central pour la construction de dispositifs expérimentaux appliqués à des corpus textuels. Il correspond tout à fait à l'idée que l'on se fait d'un laboratoire, à savoir un ensemble d'outils que l'on peut combiner à loisir. De plus, SATO combine à la fois les avantages d'un système interactif et d'un système à base de commandes. Le mode interactif permet de naviguer rapidement à l'intérieur du matériau textuel. En cela il est un outil d'exploration et de décourverte. D'autre part, comme ce cheminement laisse une trace dans le journal sous la forme de commandes exécutables, SATO est un outil permettant de construire des dispositifs reproductibles qui pourront prendre place à l'intérieur de protocoles expérimentaux serrés.


Analyse des résultats

Les dispositifs expérimentaux qui seront élaborés dans SATO vont généralement prendre la forme de scénarios. C'est en déployant ces scénarios que l'on produit les indices sur le texte. Ces indices peuvent être interprétés directement par le chercheur dans le cadre de son modèle. Souvent, cependant, les indices, pour être interprétés correctement, vont devoir être examinés à travers une modélisation mathématique.

Par exemple, d'après notre modèle interprétatif, nous considérons qu'un texte est facile à lire s'il contient un nombre limité de mots inconnus du lecteur. La familiarité du vocabulaire va pouvoir être dépistée dans le modèle SATO en confrontant le lexique du texte (axe lexical) avec un dictionnaire de mots connus validés par les enseignants. Cette consultation du dictionnaire va permettre d'annoter le lexique du texte en affectant à la propriété “connu” la valeur appropriée. Par la suite, il sera facile de demander à SATO de nous fournir la proportion d'occurences des lexèmes connus.

Aussi, en parcourant l'axe des occurrences, on pourra utiliser un dispositif comme les concordances pour identifier, par exemple, les phrases qui contiennent plusieurs mots inconnus. On pourra aussi faire la proportion de ces phrases par rapport au nombre total de phrase dans le texte. On a ainsi un deuxième indice visant à mesurer la difficulté associée à l'emploi de mots inconnus.

Résumons-nous. Nous utilisons SATO pour construire des indices qui visent à mesurer des comportements discursifs. On trouvera plusieurs exemples de ces indices dans les divers articles sur le dispositif linguistique. Le comportement de ces indices est interprétable dans le cadre de notre modèle d'interprétation du texte. Nous appliquons ces indices à un corpus de textes représentatif. Cela veut dire que les scénarios SATO sont appliqués sur chacun des textes ou sur des ensembles de textes selon le cas. Il nous reste maintenant à juger des résultats obtenus. Les résultats bruts sont sans doute intéressants d'un point de vue qualitatif. Cependant si on veut vraiment savoir ce qu'ils nous révèlent, on a avantage à les interpréter d'abord d'un point de vue mathématique.

L'analyse mathématique a deux objectifs. Il s'agit d'abord d'évaluer l'ampleur et la pertinence de la variation des indices. Il s'agit ensuite de voir comment les divers indices partiels, peuvent, en se combinant, produire des indices complexes qui vont nous faire découvrir dans l'espace des données des régularités appréhendées ou insoupçonnées.

Finalement, il faudra évaluer les résultats observés dans l'espace mathématique des mesures pour leur donner un sens à l'intérieur de notre modèle interprétatif.

Les modèles mathématiques que l'on peut utiliser pour l'analyse des résultats issus des indices textuels ne sont pas très différents de ceux qui sont employés dans d'autres sciences. Néammoins, comme c'est généralement le cas en sciences appliquées, on doit bien examiner les conditions d'application des modèles et faire les ajustements nécessaires.

On trouvera dans les articles suivants une présentation élaborée du dispositif mathématique qui a été utilisé dans le projet SATO-CALIBRAGE.

L'analyse des résultats issus de l'expérimentation va nous conduire à perfectionner notre protocole expérimental. Ainsi, on va pouvoir juger de la pertinence de nos indices. La mécanique du fonctionnement discursif est souvent étonnante. Souvent, comme lecteur humain, on saisit, ou on croit saisir, le sens du texte alors que son fonctionnement interne reste implicite et souvent caché.

A cet égard, la lecture par ordinateur est impitoyable. La construction des indices textuels oblige à débusquer le fonctionnement interne du texte. Celui-ci respecte les règles générales de la langue mais ces règles ne permettent pas de rendre compte du niveau proprement discursif.

La mise au point d'un protocole d'analyse de texte constitue donc véritablement une entreprise de description du discours. Le protocole n'est donc pas simplement utilitaire. Il fait partie intégrante du processus général d'analyse et devient partie prenante du modèle interprétatif.

La méthodologie que nous venons d'illustrer permet donc à la fois d'unir et de distinguer les différents niveaux d'une science du texte.

Distinguer d'abord parce que chaque niveau possède son autonomie et ses règles propres. Un premier niveau concerne la théorie du discours et possède une dimension sociologique évidente. Le discours a une fonction sociale qui permet d'en éclairer la finalité et les règles générales de fonctionnement.

D'un autre côté, les textes individuels possèdent aussi leurs propres règles de fonctionnement. Ils mobilisent de façon particulière des procédés linguistiques, stylistiques, narratifs, argumentatifs, etc. Aussi, en analyse de texte par ordinateur, nous développons des outils pour dépister ces procédés. Il s'agit donc là d'un deuxième niveau qui possède ses règles propres et ses modèles.

Finalement, le niveau mathématique est aussi essentiel pour manipuler la complexité des indices textuels et pour nous faire découvrir les régularités et les singularités textuelles.

En somme, c'est l'ensemble de ces niveaux qui doit être mobilisé dans une approche expérimentale. On ne s'étonnera donc pas de voir la diversité de formation des rédacteurs ayant collaboré à la confection du présent Cahier de recherche.

Notes

1 On trouvera quelques-unes des idées développées dans cet article dans un chapitre de l'ouvrage collectif Le droit saisi par l'ordinateur, publié sous la direction de Claude Thomasset, René Côté et Danièle Bourcier (Éditions Yvon Blais, Cowansville, Québec, 1993). Ce chapitre, intitulé La méthode expérimentale en analyse de texte par ordinateur (François Daoust, p. 441-448) s'intéresse plus particulièrement aux textes de nature juridique.

2 La méthodologie utilisée dans le projet SATO-CALIBRAGE partage plusieurs points en commun avec le projet de prototype de système expert pour l'aide à l'analyse des jugements, présenté dans la deuxième parution des Cahiers du Centre ATO-CI: Suzanne Bertrand-Gastaldy, François Daoust, Jean-Guy Meunier, Gracia Pagola et Louis-Claude Paquin, présenté au congrès de l'AQDIJ en octobre 92.

3 SATO, Système d'analyse de texte par ordinateur, Manuel de références, François Daoust, Centre d'ATO, janvier 1992.