SATO 4.4, Manuel de référence (mars 2007) |
Table des matières | Définitions |
Analyseur Distance |
---|
... permet de comparer statistiquement les lexiques de deux sous-textes quelconques d'un corpus. Plus la distance calculée est grande, plus les deux sous-textes diffèrent dans l'utilisation d'un vocabulaire désigné. Pour utiliser l'analyseur, on doit d'abord compiler les fréquences des lexiques associés aux parties comparées. Ces fréquences doivent avoir été conservées dans des propriétés entières pour le lexique. |
Exploitation :
Configuration :
Algorithme Indices Exemple : |
En termes algorithmiques, l'analyseur DISTANCE fonctionne de la façon suivante, en quatre étapes :
1- D'abord, on ramène les valeurs des deux propriétés qui contiennent le nombre d'occurrences des formes lexicales dans le sous-texte à une même échelle proportionnelle exprimée en pourcentage. En d'autres mots, on considère les fréquences relatives plutôt que les fréquences absolues. Les fréquences relatives se calculent selon la formule suivante.
F(i) x 100 / Ft
où F(i) est la fréquence absolue d'une forme lexicale donnée multipliée par 100 et divisée par Ft, la somme des occurrences de toutes les formes dénombrées dans la propriété, ce qui correspond normalement à l'ensemble des mots du sous-texte.
Pour l'option PROPRIÉTÉ, on utilise en numérateur la fréquence cumulée des formes qui possèdent une même valeur de propriété.
2- Ensuite, on calcule la distance entre les deux propriétés, considérées ici comme des vecteurs dans l'espace lexical. Chaque axe de cet espace porte, en effet, la fréquence relative d'une forme pertinente ou de l'ensemble des formes pertinentes partageant une même valeur de propriété (option PROPRIÉTÉ). Les formes pertinentes sont celles qui correspondent au filtre.
La mesure de distance utilisée est une mesure connue sous le nom de distance du Chi-carré (voir Lebart et Salem (1994). Cette mesure a la particularité de pondérer par une fréquence moyenne les écarts de fréquence calculés sur chacun des sous-textes. Cette fréquence de pondération est généralement fréqtot, la fréquence calculée sur l'ensemble du corpus. On pourrait utiliser une autre fréquence issue, par exemple, d'un calcul d'occurrences sur l'ensemble de l'oeuvre. Il ne pas confondre la distance du Chi2 avec le test du Chi2. Il s'agit bien ici d'une distance et non pas d'un test statistique basé sur une loi de distribution probabiliste. En complément de DISTANCE, utilisée ici de façon qualitative, on pourra utiliser l'ANALYSEUR PARTICIPATION pour faire un test statistique sur des écarts de fréquences entre divers sous-textes.
Précisément, le carré de la distance est calculé selon la formule suivant. Pour chacun des axes lexicaux, on calcule (f1-f2)**2 / f0, c'est-à-dire le carré de la différence des fréquences relatives entre le premier sous-texte (f1) et le deuxième (f2), le tout divisé par la fréquence de pondération f0. Ce sont ces carrés qui seront triés du plus grand ou plus petit pour indiquer la contribution relative de chaque axe lexical à la distance totale, qui est la somme de ces écarts relatifs. Finalement, la mesure affichée est la racine carrée de la somme des carrés. Notons que les fréquences relatives utilisées dans le calcul SATO étant exprimées en pourcentage, la mesure de distance calculée subit un accroissement d'échelle par rapport au calcul de distance utilisant des fréquences relatives exprimées sur une échelle de 0 à 1.
3- Après avoir écrit la distance calculée, la commande ANALYSEUR DISTANCE repère les 250 axes lexicaux qui contribuent le plus à cette mesure de distance. Ainsi peut-on voir quelles sont les formes (ou valeurs de propriété) qui marquent davantage l'originalité du vocabulaire d'une partie du corpus par rapport à une autre. Pour faciliter la comparaison entre mesures de distance impliquant des espaces lexicaux de dimension différente, on donne aussi le rapport entre la distance et le nombre de dimensions dans l'espace.
4- Finalement, pour chacun des axes, la commande fournit les items suivants :
Imaginons que nous ayons deux propriétés entières pour le lexique, fable1 et fable2. La première (fable1) contient la fréquence des formes lexicales dans la fable Le corbeau et le renard. La seconde (fable2) contient la fréquence de ces formes dans la fable La grenouille qui veut se faire aussi grosse que le boeuf.
Il serait intéressant de savoir jusqu'à quel point les fréquences obtenues en fable1 s'écartent de celles obtenues en fable2. En d'autres mots, ce que l'on veut, c'est savoir jusqu'à quel point l'utilisation d'un vocabulaire donné varie d'une fable à l'autre. La distance est donc ici une mesure d'originalité, de différenciation dans l'utilisation d'un vocabulaire donné dans deux sous-textes.
En termes géométriques, on peut voir les deux propriétés, par exemple fable1 et fable2, comme les coordonnées de deux points dans l'espace des lexèmes (plus précisément le sous-espace des lexèmes décrits par un filtre). Ces coordonnées représentent en fait les fréquences d'utilisation de chaque lexème dans deux sous-textes. L'analyseur DISTANCE calcule la distance (Chi2) entre ces deux points qui représentent les deux textes dans l'espace lexical.
Supposons, à titre d'illustration, que notre univers sémantique ne soit composé que de trois formes : le point d'interrogation (?), la virgule (,) et le point d'exclamation (!). Les fréquences relatives d'utilisation de ces trois formes sont les suivantes :
? | , | ! | |
fable1 | 0.00% | 10.00% | 1.76% |
fable2 | 2.70% | 4.73% | 0.00% |
Ces chiffres peuvent être reportés sur un système d'axes : l'axe des fréquences d'utilisation du point d'interrogation, l'axe des fréquences d'utilisation de la virgule et l'axe des fréquences d'utilisation du point d'exclamation. Fable1 et fable2 peuvent donc être associées à deux points dans cet espace à trois dimensions. La distance mesure l'éloignement entre ces deux points.
Alors que l'analyseur DISTANCE permet de qualifier l'utilisation d'un vocabulaire, on peut aussi mesurer, par l'analyseur PARTICIPATION, jusqu'à quel point le vocabulaire désigné, pris globalement, est utilisé dans un sous-texte quelconque. En termes imagés, on pourrait dire que PARTICIPATION mesure la masse relative d'un univers sémantique alors que DISTANCE en mesure la forme.
APPLIQUER lance l'exécution de l'analyseur.
L'analyseur requiert d'abord que l'on spécifie le nom des deux propriétés entières pour le lexique qui sont associées à chacune des parties du texte à comparer. Elles doivent contenir le nombre d'occurrences des formes dans les deux sous-textes que l'on veut comparer. Il est possible d'omettre le nom de la deuxième propriété en lui substituant le caractère ~ pour désigner les fréquences d'utilisation des mots dans le sous-texte complémentaire, c'est-à-dire le sous-texte défini comme l'ensemble du corpus excluant la partie du texte correspondant à la première propriété. Dans la présentation des résultats, la deuxième propriété sera alors représentée par ~propriété où «propriété» est le nom de la première propriété.
Le patron de fouille filtre permet de définir l'univers lexical sur lequel on veut faire porter la mesure de distance. Par exemple, on pourrait restreindre la mesure aux mots qui apparaissent plus d'une fois dans l'ensemble du texte. On pourrait tout aussi bien ne s'intéresser qu'aux mots constituant des qualificatifs : beau, belle, grosse, etc. La valeur implicite du filtre est «$» (tous les mots).
L'option PROPRIÉTÉ permet de fusionner les fréquences d'utilisation des lexèmes qui possèdent une même valeur de propriété symbolique lexicale. Les valeurs résultantes s'interprètent alors comme la fréquence d'utilisation de chacun des symboles de la propriété. Le mot clé PROPRIÉTÉ doit être suivi du nom de la propriété qui définira l'espace de référence de la commande DISTANCE.
Voir : Exemple 1 - Analyseur distance appliquer.CARACTÉRISER permet de modifier certains traits de fonctionnement de l'analyseur.
L'opérateur ? provoque l'affichage de la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.
La distance du Chi2 utilisée dans l'algorithme de DISTANCE est une mesure pondérée par des valeurs de référence s'appliquant chacune à un des axes de l'espace lexical choisi. Ces valeurs de pondération sont contenues dans une propriété entière pour le lexique. Cette propriété est définie par défaut dans SATO lors de l'appel de l'analyseur de distance comme étant la propriété prédéfinie fréqtot. On peut modifier cette propriété de référence en caractérisant le trait PONDÉRATION auquel on peut associer une propriété entière pour le lexique. Cette nouvelle propriété sera utilisée lors du prochain appel à l'analyseur.
Exemple 1. Les propriétés lexicales entières «f1» et «f2» contiendront les fréquences des mots de la première et la deuxième fable respectivement. Elles seront créées par des commandes PROPRIÉTÉ DÉFINIR alors que les commandes TEXTE CARACTÉRISER SOUS-TEXTE permettront d'y inscrire les fréquences lexicales de chacune des deux fables.
* PROPRIÉTÉ DÉFINIR f1 ENTIÈRE POUR LEXIQUE |
* TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=corbeau Corbeau_renard LEXIQUE f1 |
nombre de mots dans le sous-texte: 170 |
* PROPRIÉTÉ CRÉER f2 ENTIÈRE POUR LEXIQUE |
* TEXTE CARACTÉRISER SOUS-TEXTE = FILTRE $*page=grenouil Grenouille_boeuf LEXIQUE f2 |
nombre de mots dans le sous-texte: 148 |
* ANALYSEUR DISTANCE APPLIQUER f1 f2 $*fréqtot>1 |
distance : 10.32 distance/dimension : 0.17 |
liste des unités contribuant le plus à la distance : |
fréqtot f1 f2 explique cumul |
1.26 0.00 2.70 5.45 5.45 ? |
0.94 0.00 2.03 4.09 9.54 - |
0.94 0.00 2.03 4.09 13.62 n' |
0.94 0.00 2.03 4.09 17.71 point |
0.94 0.00 2.03 4.09 21.80 veut |
1.89 0.59 3.38 3.87 25.67 tout |
7.55 10.00 4.73 3.45 29.12 , * |
0.94 1.76 0.00 3.10 32.22 ! * |
0.94 1.76 0.00 3.10 35.31 corbeau * |
0.94 1.76 0.00 3.10 38.41 à * |
0.63 0.00 1.35 2.72 41.14 boeuf |
0.63 0.00 1.35 2.72 43.86 comme |
0.63 0.00 1.35 2.72 46.58 elle |
0.63 0.00 1.35 2.72 49.31 est |
0.63 0.00 1.35 2.72 52.03 grenouille |
0.63 0.00 1.35 2.72 54.76 grosse |
... |
Dans notre exemple, on a choisi comme liste de vocabulaire l'ensemble des formes minimalement fréquentes. L'astérisque apparaissant à la suite de certains mots est simplement un renvoi au premier texte (représenté par f1) et indique que le mot ainsi marqué appartient davantage à la première fable plutôt qu'à la seconde. Aussi, on voit que ce qui distingue le plus les deux fables dans l'utilisation de ce vocabulaire, c'est l'emploi très différencié du point d'interrogation et du trait d'union «-» qui accompagne l'inversion du pronom et du verbe dans la forme interrogative. De même, on remarque une utilisation très différente des particules de négation «n'» et «point». Les formes interrogatives et négatives caractérisent en effet de façon marquée notre deuxième fable.
On constate aussi que les noms corbeau, boeuf et grenouille sont, évidemment, utilisés de façon distincte dans l'une et l'autre fable. Cependant, comme ils sont peu fréquents dans le texte, ce ne sont pas eux qui contribuent le plus à maximiser la distance.
Le trait PRÉSENTATION permet de sélectionner les propriétés qui feront partie de la présentation des résultats de l'analyseur distance. Ce trait contient la liste des propriétés qui seront présentées dans le tableau de distance en supplément des colonnes standards. Au départ, aucune propriété ne fait partie de cette liste de présentation.
Les opérateurs «+» et «-» indiquent que l'on veut ajouter ou retrancher des propriétés à la liste de présentation existante. L'opérateur «=» signifie que les propriétés indiquées remplaceront la liste existante.
Le paramètre propriété désigne le nom d'une propriété lexicale à inclure ou à exclure de la liste de présentation. Ce paramètre peut être répété et il est facultatif.
Si on procède à une sauvegarde (cf. QUITTER SAUVEGARDE ou PROPRIÉTÉ SAUVEGARDER), cette spécification sera conservée d'une session de travail à l'autre.
L'opérateur ? provoque l'affichage la valeur du trait sélectionné. L'opérateur ?? indique que le contenu du trait sera copié dans une variable pour une utilisation future. Le paramètre variable contient le numéro de la variable.