Retour à l'accueil Remonter

Le dépistage en contexte des verbes conjugués à l'aide du logiciel SATO

François Daoust, Fernande Dupuis.

François Daoust est informaticien et chercheur au Centre d'analyse de texte par ordinateur -- Cognition et information. Fernande Dupuis est professeure associée au département de linguistique de l'UQAM. Elle est aussi chercheure au Centre ATO-CI.

Dans cet article, nous voulons illustrer l'utilisation de règles contextuelles simples pour le dépistage des verbes conjugués en français. Ces règles, traduites dans le formalisme du logiciel SATO1, sont utilisées dans diverses applications d'analyse de texte par ordinateur. La présentation du module de désambiguïsation (DÉSAMBIC) est suivie d'une expérimentation sur corpus et d'une évaluation des résultats obtenus.

In this paper we illustrate the use of simple contextual rules to eliminate the lexical ambiguity of inflected verbs in French. The rules are written in the SATO software language and are applied to a variaty of computerized text analyses. The presentation of the disambiguation module (DESAMBIC) is followed by an experimental analysis of a corpus and by an evaluation of the results.

Contexte

Le traitement de l'ambiguïté des catégories syntaxiques (nom, adjectif, verbe, etc.) est généralement associé à la problématique du parsage, c'est-à-dire à la reconnaissance automatique des unités syntagmatiques de la phrase. Cependant, il existe d'autres approches qui visent à lever, en tout ou en partie, l'ambiguïté catégorielle avant même l'analyse syntagmatique. C'est dans cette perspective que nous avons procédé à une expérimentation à l'aide du logiciel SATO. La stratégie adoptée ici peut-être qualifiée de "légère" en termes d'efforts de calcul et de programmation. La légèreté du dispositif tient aussi à son caractère local. On peut donc facilement modifier, ajouter ou retrancher des règles sans remettre en question l'ensemble du dispositif.

Dans le contexte de l'analyse de texte par ordinateur au moyen de SATO, le problème de l'ambiguïté catégorielle se pose de la façon suivante. Suite à la projection d'un dictionnaire2 sur le lexique d'un texte, des unités graphiques, souvent parmi les plus fréquentes, reçoivent plus d'une catégorie syntaxique. Ces catégories renvoient à la nature grammaticale de chacun des lexèmes. Lorsque l'on examine les phrases dans lesquelles ces lexèmes sont employés, on peut voir que la syntaxe, notamment, permet de préciser laquelle des catégories grammaticales est active. Par exemple, dans la phrase la femelle construit habituellement son nid sous un tas de larges branches, le mot branches, qui possède les catégories nom et verbe, ne peut pas être un verbe conjugué à cause de la présence à sa gauche de la préposition de. On peut donc éliminer certaines ambiguïtés catégorielles en s'appuyant sur les catégories grammaticales des mots qui précèdent ou suivent la catégorie ambiguë.

Deux projets dans lesquels sont impliqués les auteurs ont particulièrement motivé notre démarche. Le premier projet se situe à l'intérieur de la commandite de la compagnie Alex-Informatique3 sur l'utilisation des ordinateurs parallèles. Parmi les objets de cette recherche, on retrouve une expérimentation des modèles neuronaux4 sur des séquences de catégories grammaticales issues de l'application d'une base de données lexicales. Décrit brièvement, notre protocole expérimental se déploie en deux temps. D'abord, on construit une typologie linguistique basée sur l'examen des catégories adjacentes. Cette typologie prend la forme d'un ensemble de règles exécutables par le logiciel SATO. Ensuite, on soumet des séquences de catégories à des modèles associatifs. Ces séquences sont extraites de corpus de textes à l'aide de SATO. Il s'agit finalement de vérifier si ces modèles associatifs sont en mesure de générer des résultats équivalents.

À cet objectif théorique vient se greffer une préoccupation immédiate dans le cadre du projet SATO-CALIBRAGE5. Ce projet vise à calibrer des textes en fonction de leur niveau de difficulté, c'est-à-dire de les classer selon une échelle correspondant au niveau scolaire. Or, un des indices de difficulté retenu repose sur la proportion de phrases contenant plusieurs propositions. Pour compter le nombre de propositions, nous comptons le nombre de verbes conjugués. Dans ce contexte, on doit donc lever l'ambiguïté catégorielle sur les verbes. Notre objectif est donc d'utiliser SATO pour implanter des règles simples destinées à lever un certain nombre de ces ambiguïtés.

Le modèle de traitement

Notre traitement de l'ambiguïté des catégories Nom/Verbe s'apparente à ce que Silberztein (1989, pp. 137-140), appelle des "grammaires locales". Le modèle de traitement que nous allons illustrer ici pour un problème syntaxique pourrait être repris pour toute autre ambiguïté catégorielle susceptible d'être levée à partir de l'examen des contextes immédiats.

Avec SATO, il s'agit de décrire, sous la forme de patrons de fouille (concordances SATO), les contextes désambiguïsants. Du même coup, on associe aux patrons de fouille des actions de désambiguïsation catégorielle. La solution développée ici comporte deux étapes incorporées dans une seule procédure : l'élagage ou la suppression des catégories grammaticales "indésirables" ("émondage" dans Habert 1990, pp.179-183) et l'ajout d'une propriété ("règle") permettant de visualiser le résultat de la règle et de retracer le contexte de son application. Cette procédure de trace a été utilisée dans la phase de validation de l'algorithme. Dans le prototype final, nous procédons directement à la catégorisation.

Rappelons qu'avant de procéder à la désambiguïsation, on doit d'abord procéder au dépistage des expressions figées et à la catégorisation grammaticale.

On s'appuie sur un certain nombre de caractéristiques du nom commun et du verbe pour lever l'ambiguïté. Le nom commun, tête du syntagme nominal (SN), doit généralement être déterminé; mais le déterminant (à quelques exceptions près) ne peut apparaître sans le nom de sorte que la présence du déterminant force celle d'un nom à proximité. Dans le syntagme verbal, les positions qui précèdent le verbe sont très contraintes et l'on sait que les pronoms personnels clitiques sont strictement ordonnés par rapport au verbe. La désambiguïsation se trouve facilitée par ce fonctionnement positionnel. Ce type de caractéristiques nous servira d'appui dans la formulation des règles. Il faut ajouter cependant que ces règles assument que les unités sur lesquelles on s'appuie ne sont pas elles-mêmes ambiguës.

Les règles

Les règles utilisées sont contextuelles et opèrent de manière essentiellement locale (sur le contexte immédiat à gauche et à droite). Elles sont ordonnées selon une priorité décroissante et chaque règle s'applique dans un contexte modifié par l'application de la règle précédente. On commence par lever les cas d'ambiguïtés fréquents ou aisés. Cela signifie que l'efficacité d'une règle particulière dépend de l'ordonnancement global. Certaines règles ont un caractère probabiliste, c'est-à-dire qu'elles s'appliquent aux constructions les plus fréquentes. Pour les applications qui ne tolèrent aucune erreur, on devra vérifier les contextes d'application de ces règles.

Il y a trois types de règles. D'abord, on a des règles dites lexicales qui s'apppliquent aux lexèmes spécifiques particulièrement fréquents. Ensuite, on a des règles de confirmation des catégories Verbe et Auxiliaire. Finalement, on trouve des règles qui retirent la catégorie V_conj (verbe conjugué) à la séquence ambiguë.

On attribue le numéro de la règle déclenchée à la propriété *règle. L'ajout de cette propriété permet de repérer la règle qui a opéré la désambiguïsation. Du point de vue informatique, l'ensemble du dispositif prend la forme d'un scénario (fichier de commandes SATO) que nous avons appelé DESAMBIC.

Rem. Dans les commandes qui suivent:

"*1" tient lieu de "Concordance stricte";

"*-" est un opérateur qui désigne un patron facultatif;

"*+" est un opérateur qui désigne un patron répétable;

"*~" est un opérateur qui désigne un patron qui doit être absent;

":" est un opérateur qui implique l'affectation de la valeur qui suit;

":-" est un opérateur qui implique le retrait de la valeur qui suit;

":+" est un opérateur qui implique l'ajout de la valeur qui suit;

"==" signifie une égalité stricte (la catégorie désignée et rien d'autre);

"~~" signifie la non-égalité stricte (NON ==)

"**" en fin de ligne signifie que la commande se poursuit sur la ligne suivante

Règles lexicales

l1- Puis

*1 je*~ **

puis*syntaxe:­v_conj*4l1 **

­*~

l2- Ni

*1 ni **

$*syntaxe=v_conj*syntaxe~~v_conj*syntaxe:­v_conj*4l2

l3- L'un

*1 l' **

un*syntaxe:p_indéf

Règles de confirmation

1- Pronom personnel - Verbe

Une forme, qui peut être un nom ou un verbe, précédée d'un pronom personnel sujet qui peut être suivi facultativement d'un adverbe de négation et d'un pronom clitique objet, est un verbe conjugué.

Exemple : Il ne dépense ses énergies que pour lutter contre le froid

*1 (je,j',tu,il,elle,on,nous,vous,ils,elles) **

(ne,n')*- **

(me,te,nous,vous,le,la,les,m',se,s',t',l',lui,leur)*- **

(le,la,les,lui,leur,nous,vous,en,y)*- **

$*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*règle:+c1

2- Auxiliaire - Participe passé - (été,eu) - Participe passé

Une forme verbale suivie d'un adverbe facultatif et répétable, de été ou eu facultatifs, et d'une forme pouvant être un adjectif ou un participe passé, est un auxiliaire; été et eu ne sont pas des auxiliaires et la forme adj/ppassé est un participe passé.

La forme été et eu, qui suit un auxiliaire suivi d'un adverbe facultatif et répétable, est un participe passé.

Exemple : Les plantes sauvages ont souvent été arrachées des terres agricoles...

* Cas général

*1 $*syntaxe=aux*syntaxe:aux*règle:+c2 **

$*gramr=adv*-*+ **

(été,eu)*syntaxe:ppassé*règle:+c2

* Cas particulier

*1 $*gramr=aux*syntaxe:aux*règle:+c2 **

$*gramr=adv*-*+ **

(été,eu)*syntaxe:aux*règle:+c2*- **

$*gramr=(adj,ppassé)*syntaxe:ppassé*règle:+c2

Valeur règle c2 pour $*syntaxe=aux*syntaxe=v_conj

Valeur syntaxe - aux pour $*syntaxe=aux*syntaxe=v_conj

3- ne - Verbe

Une forme précédée de ne, et précédée de pronoms objets clitiques facultatifs et répétables, est un verbe.

Exemple : La marmotte ne cache pas de réserves...

*1 (n',ne) **

$*gramr=p_pers*-*+ **

$*syntaxe=v_conj*syntaxe~~v_conj*syntaxe:v_conj*règle:+c3

4- Catégorisation des verbes par le pronom objet

Une forme, précédée de pronoms objets (directs ou indirects), et suivie facultativement de d'autres pronoms objets, est un verbe.

Exemple : La marmotte se terre dans sa résidence d'hiver...

*1 (me,te,se,m',t',s',lui,nous,vous) **

(le,la,les,lui,leur,nous,vous,en,y)*­ **

$*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*4c4

5- Catégorisation des verbes par le pronom sujet inversé

Une forme, suivie d'un trait d'union, et suivie d'un pronom personnel, est un verbe.

Exemple : Amenez-en; Donne-la; Va-t-il à l'école?

*1 $*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*4c5 **

­ **

(je,nous,tu,vous,il,elle,on,elles,ils,ce,t,le,la,les,lui,y,en)

Règles de désambiguïsation

1- préposition - Verbe

Une forme, qui peut être soit un nom soit un verbe, est un verbe conjugué si elle est précédée d'une forme qui est strictement une préposition. La préposition peut être suivie facultativement d'un article ou d'un déterminant et d'adjectifs non ambigus.

Exemple : La femelle construit habituellement son nid sous un tas de larges branches...

*1 $*gramr==prép **

$*gramr=(art$,dét$)*- **

$*gramr==adj$*-*+ ** $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*&*règle:+d1

(Remarque: l'opérateur *& oblige la concordance à se déployer à partir du verbe ambigu. Sinon SATO pourrait, par optimisation, choisir une autre position.

2- (au,aux,du,des,un,une) - Verbe

Une forme, qui peut être un nom ou un verbe, précédée d'un adjectif facultatif lui-même précédé de au,aux,du,des,un,une, n'est pas un verbe conjugué. On exclut la construction l'un, l'une.

Exemple : Cela produit d'abord une série de sons sourds...

*1 l'*~ **

(au,aux,du,des,un,une) **

$*gramr==adj$*-*+ **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d2

3- Pronom personnel (1,2p) - Verbe

Une forme qui se termine par es et qui peut être un nom ou un verbe n'est pas un verbe conjugué si elle n'est pas précédée par tu, nous ou vous. Ces pronoms peuvent être suivis facultativement de ne et/ou de pronoms clitiques objets.

On doit exclure les inversions interrogatives. Cette règle, juste dans la majorité des cas, est cependant erronnée pour les formes impératives des verbes comme faire et dire. Si l'on a besoin d'une fiabilité absolue, on devra donc vérifier les contextes d'application de la règle.

Exemple : Nous ne devrions jamais circuler sur les voies publiques...

*1 (tu,nous,vous)*~ **

(n',ne)*- **

$*gramr=p_pers*- **

|es*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d3 **

-*~

4- Déterminant possessif - Verbe

Une forme qui peut être un nom ou un verbe précédée d'une forme qui ne peut être qu'un déterminant possessif n'est pas un verbe conjugué.

Exemple : Les avions pourront partir à sa recherche...

*1 $*gramr==détposs **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d4 **

5- Déterminant démonstratif - Verbe

Une forme qui peut être un nom ou un verbe, précédée d'une forme qui ne peut être qu'un déterminant démonstratif, n'est pas un verbe conjugué.

Exemple : Les béliers ressemblent en plusieurs points à ceux qui sont nés sous ce signe astrologique...

*1 $*gramr==détdém **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d5 **

6- Article - Adjectif - Verbe

Une forme qui peut être un nom ou un verbe, précédée facultativement d'une forme qui ne peut être qu'un adjectif répétable, lui-même précédé d'un article quelconque, n'est pas un verbe conjugué.

Exemple : Le jeune athlète était choisi sur la meilleure équipe du tournoi...

*1 $*gramr=art$ **

$*gramr==adv*- **

$*gramr==adj*+ **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d6

7- Auxiliaire - Verbe

Une forme précédée d'un auxiliaire n'est pas un verbe conjugué.

Exemple : Conrad et Denis en seront quittes pour un sommeil agité.

*1 $*gramr==aux **

$*syntaxe=v_conj*syntaxe:-v_conj*règle:+d7 **

8- Verbe - Verbe conjugué

Une forme qui peut être un nom ou un verbe et qui suit ou qui précède une forme qui ne peut être qu'un verbe conjugué n'est pas un verbe conjugué.

Il s'agit ici d'une règle approximative qui génère des erreurs avec les propositions relatives du genre l'homme qui arrive repart. Si une application requiert un minimum d'erreur, on doit prévoir une validation manuelle des phrases où la règle a été déclenchée en présence d'un pronom relatif. Une concordance SATO pourra facilement identifier les cas à vérifier.

Exemple : Le groupe a produit cinq albums qui ont marqué l'histoire...

*1 $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d8 **

$*syntaxe==v_conj

*1 $*syntaxe==v_conj **

(pas,jamais)*- **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d8

9- Verbe infinitif - Verbe

Une forme qui peut être un nom ou un verbe, précédée d'un article facultatif lui même précédé d'un verbe à l'infinitif, n'est pas un verbe conjugué.

Exemple : Le pilote doit avoir recours aux instruments de vol.

*1 $*gramr=v_inf **

$*gramr=art$*- **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d9

10- Point - Déterminant - Verbe

Une forme qui peut être un nom et un verbe, précédée d'un déterminant quelconque, lui-même précédé d'un point de ponctuation, n'est pas un verbe conjugué.

Exemple : Ces plantes sont infiniment faciles à cultiver.

*1 . **

$*gramr=dét$ **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d10

11- Participe passé - Déterminant - Verbe

Une forme qui peut être un participe passé et un verbe, précédée d'un élément qui est strictment un déterminant, n'est pas un verbe conjugué.

Exemple : À plusieurs reprises, il tente d'ouvrir son parachute.

Cela a permis d'obtenir quelques données sur la durée de vie de l'ours sauvage.

*1 $*gramr==dét$ **

$*syntaxe=v_conj*gramr=ppassé*syntaxe:-v_conj*règle:+d11

12- Verbe - (qui,dont)

Une forme, qui peut être un nom et un verbe, suivie de qui ou dont n'est pas un verbe conjugué.

Exemple : Une mince couche de glace qui se brise.

*1 $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d12 **

(qui,dont)

13- Verbe conjugué - Article/Déterminant/Adjectif - Verbe

Une forme qui peut être un nom et un verbe, précédée d'un article, d'un déterminant ou d'un adjectif quelconque, lui-même précédé d'une forme qui ne peut être qu'un verbe, n'est pas un verbe conjugué.

Exemples : Les prairies rocheuses sont autant d'endroits où se trouve la marmotte

Elles étaient longues d'une dizaine de millimètres et me mangeaient toute vive.

Le co-pilote me sembla bien calme.

*1 $*gramr==v_conj **

$*gramr=(art,dét,adj)$ **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d13

14- Verbe conjugué/préposition ­ nous/vous

Une forme suivie d'un pronom personnel qui n'est pas liée au verbe par un trait d'union n'est pas un verbe conjugué.

Exemples : Entre nous; Contre vous, etc.

*1 $*syntaxe=v_conj*syntaxe=prép*syntaxe:­v_conj*4d14 **

­*~ **

(nous,vous,lui,toi,moi,eux)

Appartenance catégorielle, choix opérés et justifications

Certaines formes (des catégories fonctionnelles pour la plupart) sont désambiguïsées au préalable en vertu de leur fréquence d'utilisation. C'est le cas de par et son qui ont une probabilité forte pour les catégories Prép et AdjPoss alors qu'elle est assurément faible pour la catégorie Nom. De la même façon, on peut inhiber la catégorie nominale de est et la catégorie verbale de cela et plus. Ces choix de la catégorie grammaticale la plus probable sont effectués sur la propriété lexicale "gramr" et sont donc indépendants du module DESAMBIC qui agit sur la propriété contextuelle "syntaxe" dont les valeurs sont héritées de la propriété "gramr".

Une approche fondée sur les statistiques et la pondération (à partir de grands corpus) permet d'envisager le traitement de la désambiguïsation dès la phase d'étiquetage non seulement pour les catégories fonctionnelles mais pour l'ensemble des catégories. Hennequin (1992, p. 17) rapporte que dans les systèmes fonctionnant ainsi, le dictionnaire a une forme un peu particulière. Chaque mot catégoriellement ambigu figurant dans le dictionnaire possède, en plus de ses diverses catégories, un marqueur qui indique la probabilité que le mot en question ait effectivement telle ou telle catégorie (voir aussi Smith 1991, p. 87 et Baudot 1992).

Intérêt de la phase de désambiguïsation avec SATO

Avec SATO, on dispose d'un outil permettant d'évaluer la productivité des règles et de voir par quels moyens rendre la grammaire d'émondage plus efficace. On peut comparer toutes les applications réussies de telle ou telle règle ou, à l'inverse, tous les contextes semblables où aucune règle de désambiguïsation ne s'est appliquée. Cela permet d'examiner tous les cas semblables disséminés dans un texte et de rectifier les règles déjà existantes ou d'ajouter de nouvelles règles pour augmenter l'efficacité du système. On pourrait notamment se servir des règles d'accord.

L'intérêt de la méthode développée ici, outre sa relative simplicité, notamment pour l'ajout de nouvelles règles, tient donc au protocole de validation qu'il permet de réaliser.

Après l'application des règles expliquées précédemment, on peut passer en mode assistance pour permettre à l'utilisateur de lever les ambiguïtés qui demeurent. Si on accepte un certain pourcentage d'erreur, on peut sauter cette phase de validation manuelle.

Expérimentation

Dans les pages qui suivent nous présentons le résultat de l'application de ces règles sur un texte. Il s'agit d'un texte pigé dans le corpus du projet SATO-CALIBRAGE. Il a été utilisé comme épreuve pour des élèves de sixième année. Le texte comprend 2159 mots (1930 si on exclut les ponctuations) et 491 formes lexicales.

Voici d'abord un tableau récapitulatif présentant l'efficacité du système de règles.

verbes ambigus ambiguïté levée ambiguïté non levée

lexèmes: 63 50 13

occurrences: 181 162 19

Sur 181 occurrences de verbes ambigus, les règles ont réussi à lever 162 ambiguïtés pour une efficacité de plus de 90%. Évidemment, cette efficacité varie selon les textes. La présence de certaines formes fonctionnelles ambiguës peut amoindrir l'efficacité des règles. C'est le cas de "entre" pour lequel on pourrait développer des règles particulières susceptibles d'identifier les constructions fréquentes. Dans le cas de "est" et "son", nous avons neutralisé leur catégorie nominale. Il est évidemment possible de la rétablir dans le cas de textes spécifiques.

Le tableau qui suit présente le lexique complet des verbes ambigus et du nombre d'occurrences restées ambiguës après l'application des règles. fréq gramr ambigu 20 (aux,v_conj) 0 a 1 (v_conj,ppassé) 0 admis 2 (v_conj,nomc) 0 affaire 7 (aux,v_conj) 0 ai 2 (aux,v_conj,nomc) 0 aura 2 (aux,v_conj) 0 avais 1 (aux,v_conj) 0 avait 1 (v_conj,nomc) 0 avantages 1 (aux,v_conj) 0 avons 1 (v_conj,nomc) 0 boutique 2 (v_conj,nomc) 0 change 3 (v_conj,ppassé) 0 choisis 1 (v_conj,nomc) 0 chose 1 (v_conj,nomc) 0 coiffe 2 (v_conj,ppassé) 0 compris 1 (adj,v_conj) 0 contente 2 (v_conj,nomc,prép) 0 contre 2 (v_conj,nomc) 0 contrôle 2 (v_conj,nomc) 0 costumes 1 (v_conj,nomc) 0 défends 1 (v_conj,nomc) 0 demande 1 (v_conj,nomc) 0 dépenses 2 (v_conj,nomc) 0 disputes 1 (v_conj,nomc) 0 doit 1 (adj,v_conj,nomc) 0 domestiques 1 (v_conj,nomc) 0 donnes 1 (adj,v_conj,nomc) 0 dure 4 (v_conj,nomc) 0 élèves 1 (v_conj,nomc) 0 enquête 1 (v_conj,prép) 0 entre 1 (aux,v_conj) 0 es 38 (aux,v_conj) 0 est 1 (aux,v_conj,nomc) 0 étais 9 (adj,v_conj,nomc,ppassé) 2 fait 2 (v_conj,nomc) 0 fond 2 (v_conj,nomc) 0 forme 2 (v_conj,nomc) 1 garde 1 (v_conj,nomc) 0 groupe 1 (v_conj,nomc) 0 idée 1 (v_conj,nomc) 1 laine 1 (v_conj,nomc) 0 lis 8 (v_conj,nomc) 2 manière 1 (v_conj,nomc) 0 modèle 1 (v_conj,nomc) 0 notes 9 (aux,v_conj) 0 ont 2 (v_conj,nomc) 0 partage 2 (v_conj,nomc) 0 place 1 (adj,v_conj,nomc) 0 pratique 2 (v_conj,nomc) 0 pressions 1 (conjonction,v_conj) 0 puis 1 (adj,v_conj,nomc,ppassé) 1 réduit 1 (v_conj,nomc) 0 retrouves 2 (v_conj,nomc) 2 robe 1 (v_conj,nomc) 0 robes 1 (aux,v_conj) 0 sera 1 (aux,v_conj) 0 seront 2 (aux,v_conj,nomc) 0 sommes 6 (aux,v_conj) 0 sont 4 (v_conj,nomc) 1 style 2 (aux,v_conj) 0 suis 3 (v_conj,nomc) 0 tâches 1 (v_conj,nomc) 0 tenons 1 (v_conj,nomc) 1 touche

Le tableau suivant présente le détail de l'application des règles. Il contient le décompte des occurrences des verbes ambigus qui ont été touchés par une règle. Normalement, une fois que l'ambiguïté est levée, on inhibe l'application des règles suivantes sur l'occurrence désambiguïsée. La trace indique donc la marque de la première règle qui a permis de lever l'ambiguïté.

Trace de l'application des règles

nombre d'occurrences verbales ambiguës: 181

nombre pourcent symbole

94 51.93% c2

24 13.26% c1

16 8.84% d1

16 8.84% d2

11 6.08% nil

5 2.76% d4

4 2.21% d3

2 1.10% d9

2 1.10% d13

2 1.10% d14

1 0.55% c3

1 0.55% d8

1 0.55% l1

1 0.55% l2

1 0.55% (c1,c2)

On trouvera dans les pages qui suivent une édition complète du texte. Les mots en gras ont été désambiguïsés. L'identification de la règle responsable de la désambiguïsation est aussi en gras. Les verbes qui sont demeurés ambigus sont soulignés.

Texte intégral De_plus en plus de jeunes suivent la mode ou aimeraient bien suivre la mode. Évidemment, cela touche les jeunes mais cela regarde aussi les parents car le budget pour les vêtements varie d'une famille à l'autre. Certains parents trouvent que les jeunes exagèrent. Le Comité de parents d'une école primaire a/c2 recommandé/c2 que l'on réfléchisse un_peu sur cette question. Johanne, une enseignante de sixième année, a/c2 organisé/c2 une enquête/d2. Elle a/c2 d'_abord demandé/c2 à ses élèves/d1 de donner leur avis sur ce sujet. Plusieurs élèves/d3 croient qu'il y a/c2 des avantages/d2 à laisser les jeunes choisir eux­mêmes leurs vêtements. D'autres, au_contraire, croient qu'il y a/c2 plusieurs inconvénients à les laisser choisir. Il y en a/c2 d'autres qui n'ont/c2 pas d'opinion arrêtée là­dessus. Le texte que tu dois lire expose les points de vue de quatre élèves/d1: Karine, Rosie, Patrick et Sarah. Tu lis/c1 les textes de quatre élèves/d1 de sixième année: Karine, Rosie, Patrick et Sarah. Ensuite, a/c2) tu notes/c1 l'opinion de chacun: pour, contre/d14 ou indécis; b) tu écris, dans le tableau, les raisons (les "arguments") que chacun invoque pour appuyer son opinion. (Pour quelles raisons?) Ceci est/c2 la Partie 2 de ton travail. a/c2) Tu indiques si le fait d'avoir/c2 lu/c2 les textes a/c2 changé/c2 ton opinion. b) Tu donnes/c1 les raisons ("les arguments") que tu ajouterais pour préciser ton opinion. Ceci est/c2 la Partie 3 de ton travail. Enfin, tu vérifies si tu retrouves/c1 tes arguments dans l'un ou l'autre des textes. Si oui, tu dis quels sont/c2 ces arguments. Si non, tu dis avec qui tu es/c2 le plus en accord. Si nécessaire, tu justifies ta réponse. Ceci est/c2 la Partie 4 de ton travail. L'opinion de Karine La manière de s'habiller et de se coiffer, c'est/c2 une affaire/d2 de goût personnel. Les jeunes de notre âge savent ce qu'ils aiment, mieux_que leurs parents. Les adultes ne peuvent pas connaître et comprendre nos goûts. Ils préfèrent les belles robes/d3 propres et les vestons. C'_est_pourquoi les jeunes devraient s'habiller à leur goût plutôt_qu'au goût de leurs parents. Il y a/c2 une mode pour les jeunes et une autre pour les adultes. À notre âge, nous aimons suivre notre mode, comme tous les jeunes. Nous connaissons la mode bien mieux_que nos parents. Nous en discutons souvent entre/d14 nous et nous nous tenons/c1 au courant. C'est/c2 vrai/c2 que certains exagèrent et qu'ils ont/c2 des goûts excentriques; mais c'est/c2 un phénomène passager. Ça ne dure/c3 pas longtemps. Les parents considèrent que les enfants sont/c2 autonomes/c2 quand ils leur confient des tâches/d2 et des responsabilités dans la maison. Si nous sommes/(c1,c2) assez autonomes/c2 pour faire des tâches/d2, nous le sommes/c1 assez aussi pour choisir notre garde/d4­robe. Chaque jeune est/c2 capable/c2 de juger par lui­même et de choisir ce qu'il trouve beau. Il y a/c2 des parents qui trouvent que les vêtements à la mode coûtent cher. Ils ne veulent pas dépenser beaucoup d'argent pour ces achats. Pourtant, ils payent cher pour leurs costumes/d1 et leurs habits. Pourquoi les jeunes se priveraient­ils si leurs parents ne se privent pas? D'_ailleurs, s'ils ne veulent pas gaspiller leur argent, les parents devraient nous laisser choisir. Quand ils choisissent à notre place/d1, nous ne portons pas ce qu'ils achètent. L'opinion de Patrick Moi, je pense que nous avons/c2 encore besoin des conseils de nos parents pour choisir nos vêtements. Mes parents ont/c2 plus d' expérience que moi: ils savent reconnaître un vêtement de qualité à un prix avantageux. Ce sont/c2 eux qui payent, il me semble normal qu'ils disent leur mot. D'_autant_plus_qu'ils doivent penser aussi au loyer, à la nourriture et aux autres dépenses/d3 de la famille. Même, je pense que_si un jeune veut un vêtement au­dessus_du prix que ses parents peuvent débourser, il devrait en payer une partie. Ce n'est/c2 pas seulement une question d'argent: c'est/c2 aussi une question de goût. Il y a/c2 des jeunes qui exagèrent et qui s'habillent d'une manière/d1 grotesque. Ils font cela pour être/c2 admis/c2 dans un groupe/d1 ou pour épater leurs amis. Ils subissent les pressions/d13 des copains et veulent à tout prix imiter les plus extravagants. Il y a/c2 des jeunes qui se déguisent avec des vêtements bizarres, tachés ou troués et qui colorent leurs cheveux. Les parents ne doivent pas les laisser faire; ils doivent garder le contrôle/d9. Je pense que les parents ont/c2 une responsabilité et qu'ils doivent surveiller leurs enfants. Ma mère ne me laisserait pas porter un chandail en laine quand il fait/c1 chaud ni un petit chandail de coton quand il fait/c1 froid. C'est/c2 aux parents de voir à ce que les enfants s'habillent selon la température. Les enfants peuvent éviter ainsi bien des maladies. Moi, je fais ce que mes parents me conseillent et je ne suis/c2 pas plus malheureux/c2 qu'un autre. L'opinion de Shara Il y a/c2 une chose/d2 très importante pour moi, c'est/c2 le respect des goûts et des préférences de chacun. Chaque personne a/c2 ses goûts et ses préférences et sa manière/d4 de s'habiller, c'est/c2 une manière/d2 d'affirmer sa personnalité. C'est/c2 aussi une forme/d2 de responsabilité. Si je décide de crêper mes cheveux très haut, c'est/c2 un choix que je fais. Je sais de quoi j'ai/c2 l'air; je me coiffe/c1 ainsi parce_que ça me plaît et je n'ai/c2 besoin de personne pour me diriger. À mon âge, j'ai/c2 assez de jugement pour savoir ce qui est/c2 acceptable/c2 et ce qui ne l'est/c2 pas. Mes parents ont/c2 compris/c2 qu'à mon âge, je dois faire mes expériences. Chez moi, il n'y a/c2 plus de discussion au sujet de la tenue vestimentaire. J'essaie un style/d2 pendant un certain temps, puis/l1 je change/c1 pour un autre. L'an dernier, je m'habillais plutôt "prep" maintenant, c'est/c2 le style "rock" qui me plaît. Mes goûts changent et c'est/c2 normal/c2. Mes parents ont/c2 raison de me laisser libre de choisir mes vêtements et ma coiffure. Ils ont/c2 compris/c2 que ce n'est/c2 pas cela le plus important. Au fond/d1, je veux être/c2 simple/c2 et à la mode. Les jeunes ne veulent rien de_plus. Les parents qui imposent leurs goûts à leurs enfants oublient que ceux­ci ne seront/c2 pas bien. Ils se sentiront ridicules s'ils s'habillent comme leurs parents le veulent. L'opinion de Rosie Je trouve difficile de répondre à cette question. Un jeune peut parfois choisir ses vêtements seul; parfois, il peut écouter l'avis de ses parents. C'est/c2 important/c2 pour moi, de respecter mon genre et ma personnalité quand je choisis/c1 un vêtement. Mais à l'occasion, mes parents peuvent m'aider à faire un choix. Si je vais au magasin avec eux et si j'essaie des vêtements, ils peuvent me dire celui qui me va le mieux. Ils me font remarquer que tel vêtement me fait/c1 paraître trop maigre ou que tel autre me convient parfaitement. Je suis/c2 parfois contente/c2 d'entendre leur opinion. Mais je ne partage/c1 pas toujours leur façon de voir et je ne respecte pas toujours leur choix. Nous discutons: ils ont/c2 leurs arguments et je défends/c1 les miens. Parfois, je ne change/c1 pas d'idée/d1. Je choisis/c1 ce qui me plaît même_si eux feraient un autre choix. D'autres fois, je choisis/c1 ce qu'ils préfèrent. Au fond/d1, ils me proposent habituellement des vêtements qui me plaisent et respectent mon style/d4. Je pense que c'est/c2 avant tout une question de maturité. Certains jeunes manquent d'expérience pour choisir eux­mêmes. Ils risquent de choisir un vêtement qui ne sera/c2 ni pratique/l2 ni confortable ou de faire des agencements de couleurs qui ne vont pas ensemble. Les parents doivent accompagner leur enfant au magasin et lui apprendre à faire des choix. Ça m'est/c2 déjà arrivé/c2 de faire un achat que j'ai/c2 regretté/c2 ensuite. J'étais/c1 dans une boutique/d1 très mode et j'ai/c2 insisté/c2 pour avoir un polo malgré le prix élevé; j'avais/c2 réussi/c2 à convaincre ma mère. La semaine suivante, j'ai/c2 vu/c2 un modèle/d2 semblable à prix réduit; j'ai/c2 réalisé/c2 que j'avais/c2 fait/c2 un achat trop rapide. Maintenant, je sais que_si mes parents trouvent qu'un vêtement est/c2 trop cher/c2, ils essaieront d'en trouver un autre à meilleur prix. À mon avis, c'est/c2 important/c2 de discuter avec ses parents. S'ils nous achètent des vêtements que nous n'aimons vraiment pas, il y aura/c1 des disputes/d2 par_la_suite à la maison. L'opinion de KARINE Elle est/c2 pour le fait/d1 de laisser les jeunes choisir. La manière de s'habiller, c'est/c2 une affaire/d2 de goût personnel. Les jeunes de notre âge savent ce qu'ils aiment mieux_que leurs parents. Il y a/c2 une mode pour les jeunes et une autre pour les adultes. Les jeunes connaissent la mode mieux_que leurs parents. Si certains ont/c2 des goûts excentriques; c'est/c2 un phénomène passager. Si les jeunes sont/c2 assez autonomes/c2 pour faire des tâches/d2 domestiques/d3, ils le sont/c2 assez pour choisir leur garde­robe. Elle se demande/c1 pourquoi les jeunes devraient se priver des vêtements coûteux alors_que certains parents dépensent beaucoup d'argent pour leurs costumes/d1 et leurs habits. Quand les parents choisissent à la place/d1 des jeunes, ceux­ci ne portent pas ce que les parents achètent. L'opinion de PATRICK Il est/c2 contre/d8 le fait de laisser les jeunes choisir. Les parents savent mieux_que lui reconnaître un vêtement de qualité à un prix avantageux. Ce sont/c2 les parents qui payent, il lui semble normal qu'ils disent leur mot. Il y a/c2 des jeunes qui exagèrent et qui s'habillent d'une manière/d1 grotesque. Les jeunes subissent les pressions/d13 des copains et veulent imiter les plus extravagants: les parents doivent garder le contrôle/d9. Les parents doivent voir à ce que les enfants s'habillent selon la température. Il fait/c1 ce que ses parents lui conseillent et il n'est/c2 pas plus malheureux/c2 qu'un autre. L'opinion de SARAH Elle est/c2 pour le fait/d1 de laisser les jeunes choisir. Il est/c2 important/c2 de respecter les préférences de chaque personne. Notre manière/d4 de nous habiller, c'est/c2 une manière/d2 d' affirmer notre personnalité et c'est/c2 une forme/d2 de responsabilité. Elle a/c2 assez de jugement pour savoir ce qui est/c2 acceptable/c2 et ce qui ne l'est/c2 pas. À son âge, elle doit/c1 faire ses expériences. Choisir ses vêtements, ce n'est/c2 pas cela le plus important. Les jeunes se sentiront ridicules s'ils s'habillent comme leurs parents le veulent. L'opinion de ROSIE Elle est/c2 indécise/c2 C'est/c2 important/c2 pour elle de respecter son genre et sa personnalité. Elle ne partage/c1 pas toujours la façon de voir de ses parents. Si les parents achètent des vêtements que les jeunes n'aiment pas, il y aura/c1 des disputes/d2 à la maison. MAIS À l'occasion, ses parents peuvent l'aider à faire un choix (ils peuvent lui dire ceux qui lui vont le mieux). Ses parents lui proposent habituellement des vêtements qui lui plaisent et qui respectent son style/d4. Certains jeunes manquent d'expérience pour choisir eux­mêmes un vêtement. Les parents doivent apprendre à leur enfant à faire des bons choix. Elle a/c2 déjà regretté/c2 un achat parce_qu'elle n'avait/c2 pas suivi/c2 les conseils de sa mère.

Évaluation

L'expérimentation sur corpus, telle qu'illustrée par les résultats qui précèdent, sont fort concluants. Les ambiguïtés verbales peuvent, pour leur plus grand nombre, être levées par des patrons catégoriels. Les ambiguïtés qui demeurent sont dues, pour la plupart, à la présence de séquences contenant plusieurs catégories ambigues. Ainsi, dans "la manière de", le mot "la" est soit pronom ou article et ne peut servir de pivot pour lever l'ambiguïté de "manière". Cependant, on pourrait peut-être construire une règle qui tienne compte à la fois de la position de l'expression en début de phrase et de l'absence de pronom personnel rattaché au verbe ambigu par un trait d'union. Des règles supplémentaires peuvent aussi être envisagées pour dépister les mots ambigus figurant à l'intérieur d'expressions composées comme "garde-robe".

Mais, ce qu'il est plus important de constater ici, c'est que ces résultats ont pu être obtenus en utilisant la stratégie "légère" des "grammaires locales". Cette stratégie peut être qualifiée de "légère" à un double titre. D'abord, du point de vue calcul, il s'agit d'un modèle efficace qui utilise un dispositif informatique relativement simple et général, à savoir des patrons de fouille sur des chaînes de catégories. Ce dispositif, rappelons-le, fait partie des fonctionnalités générales du logiciel SATO. La légèreté du dispositif tient aussi, justement, à son caractère local. On peut donc facilement modifier, ajouter ou retrancher des règles sans remettre en question l'ensemble du dispositif. Finalement, ce caractère local peut aussi permettre de construire des règles qui tiennent compte de régularités propres à certains types de discours. Finalement, l'intérêt de la méthode tient aussi à la possibilité, encore à expérimenter, de substituer, en tout vou en partie, aux règles linguistiques des dispositifs statistiques susceptibles de repérer automatiquement des régularités catégorielles.

Donc, tout en obtenant des résultats immédiats pour diverses applications en analyse de texte par ordinateur, la procédure DÉSAMBIC nous ouvre de nouvelles avenues de recherche qui pourront s'appuyer sur un protocole expérimental solide.

NOTE

1

Le logiciel SATO est développé au Centre ATO-CI par François Daoust. Il s'agit d'un outil général d'analyse de texte.

2

Ce dictionnaire, appelé couramment "la BDL" (base de données lexicales), a été développée au départ par Luc Dupuy dans le cadre du projet SACAO (Système d'analyse de contenu assistée par ordinateur, Programme Actions spontanées, FCAR 1989-91) dirigé par Jules Duchastel alors qu'il était directeur du Centre d'ATO.

3

La commandite de la compagnie ALEX Informatique implique plusieurs équipes au Centre ATO-CI. Les auteurs font partie de l'équipe ALEXATO avec Jules Duchastel, Josiane Ayoub, Suzanne Bertrand-Gastaldy, Monique Lemieux et Louis-Claude Paquin. Le volet principal du programme de recherche de cette équipe porte sur une possible implantation de SATO sur les ordinateurs parallèles VOLVOX.

4

Pour l'expérimentation des modèles neuronaux et associatifs, nous collaborons avec l'équipe de Robert Proulx, professeur de psychologie à l'UQAM et membre du Centre ATO-CI, et qui bénéficie également de la commandite d'Alex Informatique.

5

Le projet SATO-CALIBRAGE est mené en collaboration avec Léo Laroche et Lise Ouellet du ministère de l'Éducation. Le Cahier de recherche no. 3, publié au Centre ATO-CI, décrit ce projet de façon exhaustive.

Bibliographie

BAUDOT, Jean (1992) Fréquences d'utilisation des mots en français écrit contemporain, Les Presses de l'Université de Montréal.

COURTOIS, Blandine (1990) "Un système de dictionnaires électroniques pour les mots simples du français". Langue Française 87.

FUJISAKI, T. F. JELINEQ, J. COCKE, E. BLACK, T. NISHINO (1989) "A Probalilistic Parsing Method for Sentence Disambiguation", présenté au International Workshop on Parsing Technologies, CMU, repris in Current Issues in Parsing Technology, Masaru Tomita (éds), Kluwer Academic, 1991.

GUILLET, Alain (1990) "Reconnaissance des formes verbales avec un dictionnaire minimal". Langue Française 87.

HABERT, Benoît (1991) Olmes : un système d'exploration et de structuration de textes, Thèse de doctorat, Université Paris 7, Institut Blaise Pascal.

HENNEQUIN, Marie-Pierre (1992) "Émontage et analyse syntaxique automatique", DEA en Linguistique Théorique et Formelle, Université Paris 7, UFR en Linguistique.

MILNE, Robert (1988) "Lexical Ambiguity Resolution in a Deterministic Parser" in Lexicla Ambiguity Resolution, Steven L. Small, Garrison W. Cottrel and Michael K. Tanenhaus (eds), Morgan Kaufman Publishers.

SILBERZTEIN, Max (1992) "Reconnaissance automatique des mots d'un texte : les premières étapes" à paraître dans les Actes du Colloque Lexique Grammaire, UQAM.

SILBERZTEIN, Max (1989) Dictionnaire électronique et reconnaissance lexicale automatique, Thèse de doctorat en informatique, LADL, Université Paris 7.

SMITH, Georges W. (1991) Computers and Human Language, Oxford University Press.