François Daoust.
François Daoust est informaticien et chercheur au Centre
d'analyse de texte par ordinateur -Cognition et information-.
Il est responsable du projet SATO-CALIBRAGE au Centre ATO-CI.
Nous voulons, dans cet article, décrire le cadre expérimental
dans lequel se déploie le projet SATO-CALIBRAGE1.
Ce faisant, nous pourrons indiquer la place respective des divers
dispositifs déployés qu'ils soient d'ordre linguistique
ou mathématiques2. Enfin, nous en profiterons
pour décrire le logiciel SATO3 et sa place centrale
dans dans le protocole expérimental.
Hypothèses sur le discours
Comme tout projet en analyse de texte, SATO-CALIBRAGE est fondé
sur un certain nombre d'hypothèses sur la nature du discours
dont les textes individuels constituent la manifestation. Ainsi,
par exemple, on peut considérer que les textes fournis
aux élèves de première année, devraient,
au delà des variations individuelles propres à chaque
texte, partager des caractéristiques communes qui les destinent
à leur fonction spécifique d'apprentissage.
En d'autres mots, nous posons en postulat l'hypothèse
générale de cohérence du discours social,
plus spécifiquement ici, du discours produit dans le cadre
de l'institution scolaire et destiné à un public
cible composé d'enfants en processus d'apprentissage.
À partir de cette hypothèse générale
de cohérence, on va vouloir étudier le fonctionnement
discursif en observant une collection de textes individuels.
La question de la représentativité des données,
à savoir ici les textes fournis aux élèves,
est donc une des premières questions à poser dans
une approche expérimentale. Cette représentativité
implique des hypothèses sur l'objet à analyser,
sur sa cohérence et sa variabilité.
En termes métaphoriques, nous pouvons imaginer qu'à
un espace de pratiques sociales, correspond un ou plusieurs espaces
discursifs. Il faut donc, dans un premier temps, justifier la
constitution (cohérence, pertinence sociale) de l'espace
discursif que l'on veut étudier. Ensuite, on doit rassembler
un corpus qui soit significatif de cet espace. Cela veut dire
que l'on vise à choisir des textes individuels qui se répartissent
sur l'ensemble de cet espace. Cela veut dire aussi que l'on doit
disposer d'une quantité suffisante de textes pour pouvoir
dépister des régularités significatives.
La constitution du corpus SATO-CALIBRAGE, décrite dans
l'article de Lise Ouellet, traduit bien ces préoccupations.
Ainsi, comme notre projet est basé sur une hypothèse
de stratification du discours en niveaux d'enseignement, on a
pris un soin particulier pour que le corpus soit représentatif
des divers niveaux. Cet objectif de représentativité
quantitative peut aussi impliquer une réduction volontaire
de la variabilité du corpus, et du discours qui le fonde.
Par exemple, nous avons dû exclure certains genres littéraires
dont le fonctionnement s'écartait trop de l'ensemble. Sinon,
pour tenir compte de cette dimension de façon satisfaisante,
il aurait fallu augmenter la taille du corpus et introduire dans
notre modèle interprétatif une variable supplémentaire
pour tenir compte du genre littéraire.
Conception de modèles interprétatifs
Comme on vient de le voir, la constitution du corpus implique
déjà un certain nombre d'hypothèses sur l'existence
et les caractéristiques de l'espace discursif que l'on
veut analyser. Le protocole expérimental auquel on veut
soumettre le corpus implique aussi l'existence d'un modèle
interprétatif que l'analyse permettra de corriger et de
compléter.
Dans un premier temps, le modèle peut être très
sommaire. En fait, il s'agit d'abord d'hypothèses sur la
nature des régularités discursives qui seraient
associées à une intentionnalité, explicite
ou non, des textes. Dans notre cas, le modèle interprétatif
était déjà, au départ, assez développé.
En effet, le ministère de l'Éducation dispose de
grilles permettant d'évaluer la pertinence d'un texte pour
un niveau scolaire donné. Parmi les éléments
de cette grille, on trouve, par exemple, la longueur du texte,
la familiarité avec le vocabulaire, etc.
Notre objectif était donc, dans un premier temps, d'automatiser
et de valider certains éléments de cette grille
par une expérimentation rigoureuse.
Dans un deuxième temps, l'objectif était d'utiliser
le protocole expérimental afin d'enrichir le modèle
interprétatif. C'est ainsi que l'on peut non seulement
confirmer ou infirmer des modèles interprétatifs
existants mais que l'on peut aussi les développer. Par
exemple, nous avons émis l'hypothèse que certains
termes fonctionnels (adverbes, prépositions, conjonctions,
pronoms, etc.) peuvent nous aider à démarquer les
textes selon les niveaux scolaires. Plusieurs résultats
de l'analyse statistique semblent confirmer cette intuition.
Cela nous conduit naturellement au deuxième temps de la
recherche expérimentale, après la constitution du
corpus, à savoir la construction d'un dispositif expérimental
qui va permettre de confronter le modèle aux données.
Les dispositifs expérimentaux dont nous voulons parler
sont des dispositifs computationnels faisant appel à l'ordinateur
et au texte électronique. Le texte, dans son format électronique,
est simplement une suite de codes de caractères. C'est
donc par une suite de calculs sur cette chaîne que l'on
doit dépister des procédés discursifs et
des effets de sens.
L'objectif du dispositif expérimental est de produire
des indices textuels qui mesurent la présence de ces procédés
discursifs. Cependant, il est très difficile et peu naturel
de concevoir des indices textuels qui se situent directement dans
cet espace linéaire que constitue la séquence de
caractères. Voilà pourquoi nous travaillons depuis
le début des années '70 à développer
un appareillage expérimental, un laboratoire textuel
qui puisse situer le texte dans un espace qui nous soit plus familier.
Il est alors plus facile de construire des indices interprétables
pour la validation de nos modèles d'interprétation
du texte. Ce laboratoire s'appelle SATO.
SATO, un outil pour le dépistage d'indices textuels
Si, d'un point de vue matériel, le texte se donne d'abord
comme une suite de caractères, du point de vue du lecteur,
le texte se présente d'emblée comme une suite de
mots qui font sens. Pourquoi ces mots font-ils sens?
D'abord parce qu'ils sont perçus comme des unités,
c'est-à-dire des groupes de signes délimités.
Ensuite, parce que ces groupes de signes ont une signification
à l'intérieur d'une langue dont on a la maîtrise,
et en fonction d'un monde connu auquel ils réfèrent.
Donc, au delà de sa définition purement matérielle
(cette feuille de papier imprimée), le texte met en oeuvre
une dimension implicite, la dimension lexicale et une dimension
explicite qui correspond à l'ordre séquentiel de
la lecture.
En d'autres mots, SATO situe le texte dans un espace, un plan
composé de deux axes. On a d'abord un axe lexical qui dresse
la liste du vocabulaire utilisé dans le texte. Ce vocabulaire
(les lexèmes) a un sens dans l'univers de la langue et
du discours dans lequel s'inscrit le texte. Le deuxième
axe représente la linéarité du texte qui
se donne en fait comme une suite d'occurrences des lexèmes.
De façon abstraite, on pourrait donc voir un texte donné
comme un nuage de points tracé sur ce plan.
Représentation d'un texte dans le plan
lexique/occurrence
donc |- x
je |- x x
pense |- x
suis |- x
|___|____|____|____|____|____|
1 2 3 4 5 6
Représentation ASCII:
je pense donc je suis
On pourrait aussi avoir
donc |- x
je |- x x
pense |- x
suis |- x
|___|____|____|____|____|____|
1 2 3 4 5 6
Représentation ASCII:
je suis donc je pense
Cette représentation du texte dans sa double dimension,
lexème et occurrence, est un choix fondamental qui va dicter
le modèle informatique de SATO et le type d'opérations
logiques mises en oeuvre dans les stratégies d'analyse
de texte supportées par le système. C'est le programme
SATOGEN (pour SATO-génération) qui permet
de réaliser la transformation du texte de sa représentation
en termes de chaînes de caractères à sa représentation
logique en termes de lexèmes qui occurrent dans leur contexte.
Destiné à soutenir des activités d'analyse,
SATO offre la possibilité d'annoter le texte. Le travail
d'annotation sur le texte est cette opération matérielle
qui permet de marquer par un symbole le dépistage d'une
unité cognitive.
Cette unité cognitive peut s'établir sur l'axe
lexical. Par exemple, on peut reconnaître que tel lexème
appartient à un vocabulaire familier pour les élèves
d'un niveau donné. On peut constater qu'il s'agit d'un
adverbe, d'un marqueur d'argumentation, etc. Ou, l'unité
dépistée peut se définir sur le plan textuel
(occurrences). Par exemple, le lexème le qui
précède le mot lexème agit ici
comme article. Ou la phrase précédente définit
un exemple, etc.
Dans SATO, on utilise le terme de propriété
pour désigner un système catégoriel permettant
de marquer des lexèmes ou des occurrences. Par exemple,
une propriété connu et ses valeurs oui,
p6, etc. pourrait servir à identifier les lexèmes
connus de tous (comme les nombres), et ceux connus par les élèves
de sixième année. Une propriété syntaxe
pourrait permettre d'identifier la fonction grammaticale précise
de l'occurrence d'un lexème alors que la propriété
gramr pourrait servir à définir l'ensemble
des fonctions grammaticales possibles du lexème.
En recoupant les systèmes catégoriels des propriétés
avec la représentation bi-dimensionnelle du texte, on obtient
donc le modèle suivant:
Texte augmenté de propriétés
fréqtot gramr
1 conjonc donc |- x
2 pron-pers je |- x x
1 verbe pense |- x
1 verbe suis |- x
|___|____|____|____|____|____|
1 2 3 4 5 6
édition maj nil cap nil nil
partie prém prém
conn conc conc
Représentation ASCII:
*partie=prém Je pense *partie=conn
DONC *partie=conc je suis
Dans cet exemple, nous avons défini sur l'axe lexical deux
propriétés ou fonctions catégorielles.
La propriété fréqtot est une
propriété dont les valeurs sont des entiers et qui
contient le nombre total d'occurrences du lexème dans le
corpus de textes.
La propriété gramr est une propriété
dont les valeurs possibles sont des noms de catégories
grammaticales. La propriété fréqtot
est une propriété pré-définie de SATO
alors que gramr est une propriété ajoutée.
Sur l'axe textuel, nous avons deux propriétés.
La propriété édition est une
propriété pré-définie de SATO et dont
les valeurs sont des symboles qui définissent des attributs
de mise en page de l'occurrence. Par exemple, le symbole maj
indique que la première occurrence du lexème je
débute par un J majuscule.
La propriété partie est une propriété
ajoutée qui illustre un classement des occurrences selon
qu'ils appartiennent à une prémisse, à un
connecteur ou à une conclusion.
Si le programme SATOGEN permet de construire la représentation
du texte décrite dans la première partie, c'est
le programme SATOINT (pour SATO-INTERROGATION) qui est
l'outil du dialogue avec le texte. SATOINT est un programme interactif
largement paramétrable conçu comme poste de travail
du lecteur-analyste.
Rapportées sur le plan lexique-occurrences de SATO, les
opérations que permet d'effectuer SATO (module SATOINT)
se distribuent selon le schéma suivant:
Opérations sur le plan lexique/occurrence
Affichage/Impression
Dictionnaire donc |- x
Distance je |- x x
Propriété: pense |- x
définir (hériter), suis |- x
effacer, assigner, |___|____|____|____|____|____|
décrire, formater 1 2 3 4 5 6
Formatage
Affichage, impression
Concordance, contexte,
tamiser, catégoriser
Scénario Domaine
(Exécuter) Lisibilité
Marquage, comparaison
Participation
Propriété
définir (hériter),
effacer, assigner
décrire, formater
Segment,
compter, tamiser,
catégoriser
Formatage
On remarquera que certaines opérations sont disponibles
tant sur le plan du lexique que sur celui des occurrences.
Il s'agit en particulier des opérations d'affichage
et d'impression, qui sont aussi des opérations de
sélection par l'utilisation du mécanisme
des patrons de fouille. Les patrons de fouille permettent de désigner
des lexèmes ou des occurrences par la concaténation
de filtres portant sur leurs caractères ou leurs valeurs
de propriété. Voici quelques exemples:
Exemples de patrons de fouille
parle le mot parle;
parle$ tous les mots débutant par parle;
$ est un opérateur de troncature à droite;
p|ent tous les mots débutant par p
et se terminant par ent; | est un opérateur
représentant une chaîne quelconque de caractères;
p_rle tous les mots débutant par p
suivi d'un caractère quelconque (opérateur _)
et se terminant par rle comme parle ou
perle;
parl(e,ent,ure) parle,
parlent, parlure; ici, les parenthèses
et la virgule permettent de définir des chaînes alternatives;
|ent*fréqtot=5,>5 tous
les mots se terminant par ent et dont la propriété
fréqtot (fréquence totale introduite par l'astérisque)
est égale à 5 ou est plus grande que 5;
ab$*alphabet=(fr,en) tous les mots
débutant par ab et provenant des alphabets
fr (français) ou en (english);
on voit que le patron alternatif s'applique ici aux valeurs de
la propriété alphabet;
$*alphabet~fr*fréqtot=1 tous
les mots qui ne sont pas (opérateur différent ~)
en français et dont la fréquence totale est 1.
Le deuxième ensemble d'opérations qui est disponible
sur les deux axes de notre plan concerne la définition
et l'exploitation des systèmes de propriété.
On peut définir ou effacer une propriété.
Une des modalités intéressantes de l'opération
de définition est l'héritage. Par exemple,
si on a défini une propriété gramr
sur le lexique, on pourrait définir une propriété
syntaxe sur le texte qui hérite,
au moment de sa création, des valeurs de la propriété
gramr. Il s'agit de propriétés distinctes
qui pourront par la suite être modifiées de façon
distincte. En particulier, on pourra modifier syntaxe
pour chacune des occurrences du lexème. Comme on le verra
dans l'article sur le dispositif linguistique, on se sert de ce
dispositif pour la levée des ambiguités catégorielles
sur le verbe.
Une autre opération commune aux systèmes des propriétés
est l'assignation de valeurs. Cette opération se
réalise au moyen d'une commande d'affectation ou par manipulation
directe: on pointe l'objet au moyen des curseurs ou de la souris
et on assigne des valeurs à l'une ou l'autre de ses propriétes.
On peut aussi assigner des valeurs en faisant appel au mécanisme
de sélection des patrons de fouille.
On peut aussi décrire une propriété.
Cette opération fait appel aux techniques de la statistique
descriptive et permet de dresser un portrait de l'utilisation
des valeurs de la propriété.
Finalement, on peut formater une propriété,
c'est-à-dire définir son format d'affichage: nombre
de colonnes pour afficher le propriété, sa couleur,
etc.
Les prescriptions de formatage sont aussi disponibles directement
au niveau du lexique et des occurrences. Ainsi, on peut formater
le lexique pour déterminer les propriétés
que l'on veut visualiser. Il est en de même des propriétés
textuelles dans le cas de l'affichage ou de l'impression du texte.
En fait, SATO permet de modifier librement un très grand
nombre de paramètres de visualisation.
Un type d'opérations spécifiques à l'axe
lexical concerne la manipulation de dictionnaires. Pour
SATO, un dictionnaire est un fichier externe, une base de données,
qui permet d'associer des valeurs de propriété à
des chaînes de caractères qui représentent
normalement des formes lexicales. SATO fournit un ensemble de
dispositifs pour créer, consulter et modifier des dictionnaires.
On peut aussi les fouiller avec une syntaxe de patrons comme on
le fait pour le lexique et le texte.
Finalement, SATO fournit des analyseurs lexicométriques.
En particulier, DISTANCE permet de mesurer la différence
de vocabulaire entre deux parties du texte. Cet analyseur permet
aussi d'indiquer quels sont les lexèmes, ou les valeurs
de propriété de ces lexèmes qui distinguent
les deux parties du texte soumises à la mesure.
La première opération qui concerne spécifiquement
l'axe des occurrences a trait au repérage de segments textuels,
c'est-à-dire des portions de texte possédant diverses
caractéristiques. C'est le cas en particulier de la CONCORDANCE
qui permet de repérer des passages qui contiennent un ou
plusieurs mots avec divers types de contraintes. On peut aussi
se servir de la concordance pour réaliser une catégorisation
en contexte automatique (cf. l'article Le dispositif linguistique).
Bien sûr, on pourra afficher ou imprimer les passages repérés,
en souligant les mots dépistés en position de contrainte.
Cette édition des contextes est accompagnée de références
de pagination aussi précises que l'on désire. On
peut aussi tamiser les contextes, c'est-à-dire dresser
le lexique d'une classe quelconque des mots qui apparaissent dans
la concordance.
Outre les concordances, il existe en SATO un deuxième
mécanisme de répérage de contextes. Il s'agit
de la fonction de SEGMENTATION qui a pour fonction de partitionner
le texte en segments. Par exemple, on pourrait découper
le texte en documents, en paragraphes, en phrases possédant
une certaine longueur, ou en segments de longueur fixe.
On peut afficher ou imprimer un ou plusieurs des segments ainsi
repérés. On peut aussi compter des classes
de mots décrits par des patrons à l'intérieur
de chacun de ces segments. On peut calculer divers indices de
répartition et de dispersion des mots comptés. Par
exemple, on pourrait segmenter le texte en phrases et compter
le nombre de verbes conjugués par phrase. On pourrait segmenter
le corpus en documents et compter le nombre d'occurrences de lexèmes
susceptibles d'être des descripteurs de contenu. Divers
indices nous indiqueront lesquels de ces lexèmes semblent
discriminants. On trouvera des exemples d'utilisation de cette
commande dans l'article sur la préparation des données
pour l'analyse statistique.
En faisant appel aux patrons de fouille ou au repérage
de segments et concordances, on peut définir un DOMAINE
textuel. Le domaine est une restriction sur l'axe des occurrences
de SATO. La commande permet aussi de dresser un sous lexique qui
correpond au domaine.
Finalement, on dispose dans SATO de quelques analyseurs qui concernent
directement l'axe des occurrences. Il s'agit en particulier de
LISIBILITÉ, MARQUER et PARTICIPATION.
LISIBILITE fournit divers indices de difficulté/facilité
de lecture du texte.
PARTICIPATION permet d'évaluer la part relative
d'une classe quelconque de mots dans un ensemble de sous-textes.
MARQUER permet de marquer les différences entre
deux segments textuels quasi-identiques.
Comme on peut le constater à la lecture des sections précédentes,
SATO fournit très peu d'analyseurs complets. SATO fournit
surtout des fonctions et opérations dont la combinaison
permet à l'utilisateur de construire ses propres analyseurs.
Ceux-ci vont prendre la forme de scénarios que l'on fait
exécuter. Sur le plan lexèmes-occurrences de la
représentation SATO, nous avons placé le scénario
à la jonction des deux axes. En effet, le plus souvent,
les scénarios déploient des stratégies faisant
appel à la combinaison de fonctions qui agissent sur l'un
ou l'autre des deux axes.
Les scénarios prennent la forme de fichiers ASCII composés
de séquences de commandes SATO. Ils sont, le plus souvent,
composés à partir d'extraits du journal associé
à une session de travail dans SATOINT. Une fois que l'on
a mis au point des stratégies en mode interactif, on reprend
ces stratégies et on en fait des analyseurs.
Les scénarios de commandes ont un double statut. D'un
point de vue technique d'abord, ce sont des programmes permettant
de reproduire des stratégies d'analyse et de les appliquer
dans un cadre de production. Mais ce sont aussi des objets scientifiques
qui sont la matérialisation d'un savoir descriptif ou analytique.
Voilà pourquoi le logiciel SATO constitue un outil central
pour la construction de dispositifs expérimentaux appliqués
à des corpus textuels. Il correspond tout à fait
à l'idée que l'on se fait d'un laboratoire, à
savoir un ensemble d'outils que l'on peut combiner à loisir.
De plus, SATO combine à la fois les avantages d'un système
interactif et d'un système à base de commandes.
Le mode interactif permet de naviguer rapidement à l'intérieur
du matériau textuel. En cela il est un outil d'exploration
et de décourverte. D'autre part, comme ce cheminement laisse
une trace dans le journal sous la forme de commandes exécutables,
SATO est un outil permettant de construire des dispositifs reproductibles
qui pourront prendre place à l'intérieur de protocoles
expérimentaux serrés.
Analyse des résultats
Les dispositifs expérimentaux qui seront élaborés
dans SATO vont généralement prendre la forme de
scénarios. C'est en déployant ces scénarios
que l'on produit les indices sur le texte. Ces indices peuvent
être interprétés directement par le chercheur
dans le cadre de son modèle. Souvent, cependant, les indices,
pour être interprétés correctement, vont devoir
être examinés à travers une modélisation
mathématique.
Par exemple, d'après notre modèle interprétatif,
nous considérons qu'un texte est facile à lire s'il
contient un nombre limité de mots inconnus du lecteur.
La familiarité du vocabulaire va pouvoir être dépistée
dans le modèle SATO en confrontant le lexique du texte
(axe lexical) avec un dictionnaire de mots connus validés
par les enseignants. Cette consultation du dictionnaire va permettre
d'annoter le lexique du texte en affectant à la propriété
connu la valeur appropriée. Par la suite, il
sera facile de demander à SATO de nous fournir la proportion
d'occurences des lexèmes connus.
Aussi, en parcourant l'axe des occurrences, on pourra utiliser
un dispositif comme les concordances pour identifier, par exemple,
les phrases qui contiennent plusieurs mots inconnus. On pourra
aussi faire la proportion de ces phrases par rapport au nombre
total de phrase dans le texte. On a ainsi un deuxième indice
visant à mesurer la difficulté associée à
l'emploi de mots inconnus.
Résumons-nous. Nous utilisons SATO pour construire des
indices qui visent à mesurer des comportements discursifs.
On trouvera plusieurs exemples de ces indices dans les divers
articles sur le dispositif linguistique. Le comportement de ces
indices est interprétable dans le cadre de notre modèle
d'interprétation du texte. Nous appliquons ces indices
à un corpus de textes représentatif. Cela veut dire
que les scénarios SATO sont appliqués sur chacun
des textes ou sur des ensembles de textes selon le cas. Il nous
reste maintenant à juger des résultats obtenus.
Les résultats bruts sont sans doute intéressants
d'un point de vue qualitatif. Cependant si on veut vraiment savoir
ce qu'ils nous révèlent, on a avantage à
les interpréter d'abord d'un point de vue mathématique.
L'analyse mathématique a deux objectifs. Il s'agit d'abord
d'évaluer l'ampleur et la pertinence de la variation des
indices. Il s'agit ensuite de voir comment les divers indices
partiels, peuvent, en se combinant, produire des indices complexes
qui vont nous faire découvrir dans l'espace des données
des régularités appréhendées ou insoupçonnées.
Finalement, il faudra évaluer les résultats observés
dans l'espace mathématique des mesures pour leur donner
un sens à l'intérieur de notre modèle interprétatif.
Les modèles mathématiques que l'on peut utiliser
pour l'analyse des résultats issus des indices textuels
ne sont pas très différents de ceux qui sont employés
dans d'autres sciences. Néammoins, comme c'est généralement
le cas en sciences appliquées, on doit bien examiner les
conditions d'application des modèles et faire les ajustements
nécessaires.
On trouvera dans les articles suivants une présentation
élaborée du dispositif mathématique qui a
été utilisé dans le projet SATO-CALIBRAGE.
L'analyse des résultats issus de l'expérimentation
va nous conduire à perfectionner notre protocole expérimental.
Ainsi, on va pouvoir juger de la pertinence de nos indices. La
mécanique du fonctionnement discursif est souvent étonnante.
Souvent, comme lecteur humain, on saisit, ou on croit saisir,
le sens du texte alors que son fonctionnement interne reste implicite
et souvent caché.
A cet égard, la lecture par ordinateur est impitoyable.
La construction des indices textuels oblige à débusquer
le fonctionnement interne du texte. Celui-ci respecte les règles
générales de la langue mais ces règles ne
permettent pas de rendre compte du niveau proprement discursif.
La mise au point d'un protocole d'analyse de texte constitue
donc véritablement une entreprise de description du discours.
Le protocole n'est donc pas simplement utilitaire. Il fait partie
intégrante du processus général d'analyse
et devient partie prenante du modèle interprétatif.
La méthodologie que nous venons d'illustrer permet donc
à la fois d'unir et de distinguer les différents
niveaux d'une science du texte.
Distinguer d'abord parce que chaque niveau possède son
autonomie et ses règles propres. Un premier niveau concerne
la théorie du discours et possède une dimension
sociologique évidente. Le discours a une fonction sociale
qui permet d'en éclairer la finalité et les règles
générales de fonctionnement.
D'un autre côté, les textes individuels possèdent
aussi leurs propres règles de fonctionnement. Ils mobilisent
de façon particulière des procédés
linguistiques, stylistiques, narratifs, argumentatifs, etc. Aussi,
en analyse de texte par ordinateur, nous développons des
outils pour dépister ces procédés. Il s'agit
donc là d'un deuxième niveau qui possède
ses règles propres et ses modèles.
Finalement, le niveau mathématique est aussi essentiel
pour manipuler la complexité des indices textuels et pour
nous faire découvrir les régularités et les
singularités textuelles.
En somme, c'est l'ensemble de ces niveaux qui doit être
mobilisé dans une approche expérimentale. On ne
s'étonnera donc pas de voir la diversité de formation
des rédacteurs ayant collaboré à la confection
du présent Cahier de recherche.
Notes
1 On trouvera quelques-unes des idées développées
dans cet article dans un chapitre de l'ouvrage collectif Le
droit saisi par l'ordinateur, publié sous la direction
de Claude Thomasset, René Côté et Danièle
Bourcier (Éditions Yvon Blais, Cowansville, Québec,
1993). Ce chapitre, intitulé La méthode expérimentale
en analyse de texte par ordinateur (François Daoust,
p. 441-448) s'intéresse plus particulièrement aux
textes de nature juridique.
2 La méthodologie utilisée dans le projet
SATO-CALIBRAGE partage plusieurs points en commun avec le projet
de prototype de système expert pour l'aide à
l'analyse des jugements, présenté dans la deuxième
parution des Cahiers du Centre ATO-CI: Suzanne Bertrand-Gastaldy,
François Daoust, Jean-Guy Meunier, Gracia Pagola et Louis-Claude
Paquin, présenté au congrès de l'AQDIJ en
octobre 92.
3 SATO, Système d'analyse de texte par ordinateur, Manuel de références, François Daoust, Centre d'ATO, janvier 1992.