François Daoust.
François Daoust est informaticien et chercheur au Centre
d'analyse de texte par ordinateur -Cognition et information-.
Il est responsable du projet SATO-CALIBRAGE au Centre ATO-CI.
Nous désignons, par dispositif mathématique, l'ensemble
des méthodes quantitatives utilisées à l'intérieur
du projet SATO-CALIBRAGE pour interpréter les indices fournis
par SATO. Ces méthodes mathématiques sont utilisées
à deux fins. D'abord, on s'en sert pour déterminer
les variables (indices) qui varient de façon significative
par rapport aux textes provenant des divers niveaux scolaires.
Ainsi, on peut confirmer ou infirmer nos hypothèses concernant
divers fonctionnements discursifs. Ensuite, on s'en sert pour
combiner les indices primitifs significatifs afin de construire
des fonctions aptes à prédire le niveau scolaire
d'un texte.
Dans SATO-CALIBRAGE, nous avons fait appel à quatre types
de modèles mathématiques.
D'abord, puisque nous visons à trouver des indices permettant
de distinguer les textes selon le niveau d'enseignement auquel
ils sont destinés, nous avons utilisé des tests
d'hypothèses pour réaliser une première sélection
des indices.
En ce qui concerne la constitution des indices basés sur
les termes fonctionnels, nous avons voulu réduire le nombre
de variables. Pour ce faire, nous avons utilisé deux techniques.
Dans la première, nous avons soumis les termes fonctionnels
retenus à l'analyse discriminante (progiciel SPSS). Nous
avons conservé les termes gardés par l'analyse.
Dans la deuxième technique, nous avons d'abord soumis
l'ensemble des termes retenus à un algorithme de classement
(cf. l'article de Guy Cucumel) destiné à grouper
les termes ayant des distributions similaires sur l'échelle
scolaire. L'interprétation des groupes a permis d'éliminer
certains groupes dont le comportement semblait atypique. Elle
a aussi permis de garder les autres groupes sous la forme d'indices
composites.
Finalement, nous avons élaboré des fonctions prédictives
(indices SATO-CALIBRAGE) permettant de classer un texte dans un
niveau d'enseignement. Pour ce faire, nous avons utilisé
les régressions simples et multiples (cf article de Léo
Laroche), et l'analyse discriminante.
La sélection des indices
Dans la partie précédente sur le dispositif linguistique,
nous avons illustré comment, à partir d'hypothèses
linguistiques et pédagogiques, nous avons construit des
scénarios SATO qui dépistent la réalisation
de certaines constructions discursives. Ces scénarios produisent
des indices numériques à savoir le nombre, absolu
ou relatif, d'occurrences du phénomène recherché.
La première question que l'on se pose est la suivante:
est-ce que ces indices varient de façon significative lorsqu'on
analyse des textes qui proviennent de niveaux d'enseignement différents?
Revenons à notre hypothèse selon laquelle l'usage
de certains termes fonctionnels distingue les textes selon leur
niveau scolaire. Pour valider une telle hypothèse, il nous
faut établir un indice qui va prendre la forme d'une fonction
à deux paramètres. Le premier paramètre représente
un terme de l'ensemble du vocabulaire dont la liste nous est donnée
naturellement par l'axe lexical construit par SATO. Un des dispositifs
linguistiques auquel fait appel SATO-CALIBRAGE permet d'effectuer
une catégorisation grammaticale hors contexte d'un lexique
(cf. article de Fernande Dupuis et François Daoust). Par
suite, il est donc facile de restreindre le vocabulaire soumis
à notre indice aux lexèmes ayant reçus la
catégorie grammaticale recherchée.
Ensuite, nous avons besoin d'un paramètre qui signe la
variation des textes selon le niveau scolaire. Ce paramètre
sera construit sur l'axe textuel (chaîne des occurrences)
de SATO. Il suffit en effet de construire une partition sur cette
axe qui distingue les occurrences des lexèmes selon qu'elles
appartiennent à un texte issu de première année,
deuxième, etc.
Cette partition peut s'opérer de diverses façons.
Nous allons illustrer ici la façon la plus simple. Elle
consiste à nommer chacune des classes d'enseignement lors
même de la constitution du corpus.
Constitution d'un corpus par niveaux scolaires
*page=PR1 { document primaire 1 composé ...}
*page=PR2 { document primaire 2 composé ... }
Finalement l'indice lui-même se définit comme la
somme des occurrences d'un lexème donné dans une
classe donnée pondérée par le nombre total
d'occurrences dans la classe. Il s'agit donc d'une fréquence
relative, par exemple, la fréquence de la locution en_outre
dans le domaine des textes de sixième année.
L'indice étant défini, on doit l'appliquer à
notre corpus en faisant varier les paramètres. Voici un
exemple d'un telle procédure en termes de commandes SATO
: Commandes SATO pour trouver des termes discriminants (procédure CANDIDAT)
* On définit la propriété motfonc
qui va contenir l'ensemble
* Pour ce faire, on sélectionne d'abord les
lexèmes qui
* On rajoute les locutions fonctionnelles bloquées
par le caractère _
* On élimine certaines marques d'édition
* Partition du texte en niveau scolaire
* On crée la propriété chi2
qui va retenir l'indice calculé
* On calcule l'indice pour tous les lexèmes
Outre, le tableau des indices de fréquence des lexèmes
dans chaque domaine, la procédure CANDIDAT fournit, grâce
à la commande COMPTER, une représentation mathématique
des résultats.
Représentation mathématique des résultats
de la procédure CANDIDAT
Moyenne Écart Répart. Discri. Chi2 1.39% 0.18 100.0% 0.00 31.11 à
Le tableau précédent fournit un certain nombre
de mesures qui nous permettent d'interpréter mathématiquement
les résultats obtenus par l'application de notre indice.
Ainsi, dans SATO-CALIBRAGE, nous avons utilisé la statistique
du Chi2 pour ne conserver, parmi l'ensemble des termes fonctionnels,
que ceux dont l'indice Chi2 dépasse un certain seuil (23.20
pour une probabilité d'erreur de 1% à 11 degrés
de liberté).
SATO calcule l'indice Chi2 en comparant, pour un lexème
donné, son nombre d'occurences dans chacun des segments
par rapport au nombre attendu sous l'hypothèse d'une indépendance
de la distribution du lexème sur la partition choisie.
Sur les 1048 termes fonctionnels soumis à l'analyse, 332
ont été retenus comme étant inégalement
distribués sur les 11 niveaux d'enseignements qui constituent
le corpus.
Nous avons aussi soumis au test du Chi2 les autres variables
du prototype, en particulier celles qui portent sur les constructions
de phrases, pour ne conserver que les variables pertinentes.
Le groupement des indices par classification
automatique
Comme le nombre de variables retenues par le test du Chi2 nous
semblait trop important, nous avons voulu grouper certaines variables
se comportant de façon similaire. En fait, c'est le groupement
des termes fonctionnels qui nous intéressait d'abord. En
effet, on retrouve parmi ces termes des fréquences relativement
peu élevées. Nous avons voulu combiner des lexèmes
afin de produire des indices plus stables.
L'article de Guy Cucumel explique les principes de la classification
automatique. Sur la base de ces principes, nous avons utilisé
des progiciels différents qui ont abouti à des classifications
comparables.
Nous avons donc produit la matrice d'occurrences par segments
des termes fonctionnels retenus en utilisant la procédure
COMPTER de SATO. Par la suite nous avons soumis cette matrice
au progiciel statistique SAS. Il est à noter que pour cette
analyse, nous avons profité des résultats de l'analyse
de régression déjà réalisée
par Léo Laroche. Cette analyse nous a conduit à
combiner les textes des secondaire 1 et 2, d'une part et de secondaire
3, 4 et 5 d'autre part. Deux jeux de commandes SAS sont utilisés.
Le premier vise à recoder les fréquences de départ
en fonction de la taille des documents (niveaux scolaires). Ensuite,
on transforme les fréquences absolues ainsi pondérées
en fréquences relatives à l'ensemble du corpus.
Ainsi, on pourra utiliser la distance euclédienne pour
constituer les différents groupes.
* Production de variables pondérées
* On pondère les fréquences absolues
en égalisant la taille
* On transforme les fréquences absolues en
proportion de distribution
* Classification automatique * On peut faire varier le nombre de groupes (maxc)
* On classe les données en fonction de leur
groupe
* On imprime les données en fonction de leur
groupe
proc print
* On imprime, pour chaque groupe, la fréquence
moyenne par niveau
proc means
La première chose que nous avons constaté en examinant
les résultats de la classification automatique, c'est l'inégalité
des classes obtenues. Cela nous a permis de dépister des
comportements atypiques. Il faut voir en effet que nous n'avons
pas utilisé de critères sémantiques dans
le choix des termes fonctionnels. Ainsi, on peut trouver des adverbes
de manière dont l'usage traduit davantage un choix d'auteur
qu'un niveau de complexité. En examinant la distribution
moyenne des lexèmes selon les niveaux scolaires, on peut
constater ce caractère atypique.
Donc, la classification automatique nous a permis d'éliminer
des variables. Nous avons repris ce processus d'élagage
en retraitant de façon itérative les données
restantes jusqu'à l'obtention de groupes significatifs
par rapport à notre objectif. Après cinq ou six
de ces itérations, nous avons réduit notre nombre
de variable de 332 à 162. Ce travail d'élagage va
se poursuivre par un examen plus approfondi des groupes. Finalement,
dans les mois qui viennent nous soumettront les variables groupées
à l'analyse de régression et à l'analyse
discriminante.
Liste des mots fonctionnels potentiellement
discriminants
Voici la liste des termes fonctionnels soumis à la classification
automatique. Les lexèmes suivis d'un astérisque
font partie de la liste des 162 lexèmes conservés
après un premier travail d'élagage.
*
La construction de fonctions prédictives
Le dernier type de méthodes mathématiques utilisées dans SATO-CALIBRAGE vise à construire des fonctions prédictives permettant de classer un texte dans un niveau scolaire à partir des seuls indices produits par le prototype. C'est ce que l'on appellera l'indice SATO-CALIBRAGE. Comme le jugement de la difficulté d'un texte nous vient de son classement selon le niveau scolaire auquel il est destiné, il est naturel de faire appel à des modèles de corrélation linéaire entre nos indices et la variable niveau scolaire. Voilà ce qui justifie l'emploi des méthodes de régression décrite dans l'article de Léo Laroche.
Nous pourrions aussi utiliser des méthodes d'analyse discriminante
qui ont l'avantage de pouvoir utiliser des variables qui n'auraient
pas cette relation linéaire avec le niveau scolaire. Cependant,
l'interprétation de la fonction de classement est beaucoup
moins intuitive en analyse discriminante que dans la régression.
|