Retour à l'accueil Remonter

Le dispositif linguistique

François Daoust, Fernande Dupuis.

François Daoust est informaticien et chercheur au Centre d'analyse de texte par ordinateur -- Cognition et information. Il est responsable du projet SATO-CALIBRAGE au Centre ATO-CI. Fernande Dupuis est professeure associée au département de linguistique de l'UQAM. Elle est aussi chercheure au Centre ATO-CI.

Nous désignons, par dispositif linguistique, l'ensemble des ressources linguistiques déployées à l'intérieur du prototype SATO-CALIBRAGE. Ces ressources sont de trois ordres. Il y a d'abord des bases de données lexicales. On a ensuite des procédures permettant de repérer les noms propres et d'identifier en contexte les verbes conjugués. Enfin, s'appuyant sur les dispositifs précédents, on a des procédures permettant de dresser une typologie des phrases susceptibles d'être plus difficiles à lire.

Comme indiqué dans l'article SATO-CALIBRAGE, cadre expérimental, les divers dispositifs linguistiques prennent la forme de scénarios de commandes SATO.

Les bases de données lexicales

Les bases de données lexicales prennent la forme de dictionnaires SATO. Ce sont des fichiers externes qui contiennent des informations sur des formes lexicales. En consultant ces dictionnaires, on peut annoter le lexique d'un texte en transférant sur une propriété lexicale les informations se trouvant dans le dictionnaire.

La première base de données lexicales que nous utilisons dans SATO-CALIBRAGE contient la catégorie grammaticale hors contexte. Elle contient plus d'un demi million de lexèmes1. La philosophie qui a guidé la construction de cette base de données, appelée simplement BDL, est de fournir à la communauté des chercheurs un dictionnaire de base pour l'analyse de texte par ordinateur. La BDL profite donc à plusieurs projets, dont SATO-CALIBRAGE, en même temps qu'elle bénéficie de l'apport des divers projets pour son entretien.

La catégorisation grammaticale que fournit la BDL est orientée vers la grammaire d'usage plutôt que vers la résolution de problèmes de parsage2. Ce choix est justifié par le fait que nous visons la communauté des chercheurs, y compris une majorité de non-linguistes. Par ailleurs, nous entendons nous inspirer de méthodologies éprouvées, comme celles du LADL3 en France, pour assurer dans le futur un meilleur entretien et une meilleure validation de la BDL. Cela implique, entre autres, de séparer la BDL en formes simples, et en formes “marquées” calculées à partir des règles de dérivation et de conjugaison. Ces règles sont connues. Cependant l'effort pour les colliger, en faire des procédures SATO reproductibles, modifiables et publiques, est loin d'être négligeable.

Le deuxième dictionnaire que nous utilisons a été développé à l'intérieur du projet. Il s'agit du dictionnaire des mots connus par les élèves de sixième année. Comme l'indique Lise Ouellet dans l'article Description du corpus textuel, ce dictionnaire a été constitué en faisant valider le lexique de l'ensemble du corpus par des enseignants de sixième année. Le corpus s'étant enrichi au cours des années, cette validation a dû être reprise pour tenir compte de nouveaux mots. Dans chacun des cas, la validation a été effectuée par un groupe de cinq enseignants d'expérience provenant de régions différentes du Québec et oeuvrant dans des milieux sociaux différents. Ont été acceptés comme connus les lexèmes jugés tels par au moins quatre enseignants. La consigne donnée aux enseignants demandait de considérer connu un mot que les trois quarts au moins des élèves connaissent à l'oral. Plusieurs enseigants ont consulté leurs élèves.

Notons que la validation des mots a été effectuée sur les formes fléchies des lexèmes, c'est-à-dire dans la forme où ils se présentent dans le texte. Par la suite, nous avons élaboré des dispositifs de fléchissement permettant d'ajouter des flexions régulières manquantes aux mots connus. Ce travail reste à compléter pour les conjugaisons les plus simples des verbes connus. Une analyse plus poussée des réponses des enseignants permettrait aussi de voir si certaines formes dérivées d'une même racine posent des difficultés particulières.

Le repérage assisté des noms propres

Divers types de lexèmes ont été exclus du dictionnaire des mots connus. On considère en effet que les nombres, plusieurs formes fonctionnelles (articles, pronoms, conjonctions et prépositions usuels) et les noms propres devraient être considérés connus. Les nombres peuvent être identifiés par les patrons morphologiques de SATO. Les formes fonctionnelles sont identifiées par la BDL. Il reste les noms propres.

Pour faciliter l'identification des noms propres, nous utilisons un scénario qui permet de dresser une liste de candidats. Cette liste peut être validée hors contexte ou en contexte s'il y a lieu. Le dispositif repère les mots débutant par une majuscule et qui ne sont pas des formes fonctionnelles. Il fournit le nombre de fois où le mot apparaît, le nombre de fois où il débute par une majuscule et le nombre de fois où il débute par une majuscule et n'est pas précédé d'une ponctuation forte.

Pour illustrer comment une telle tâche peut être facilement programmée à l'intérieur de SATO, voici le scénario complet du dispositif. Les lignes débutant par un astérisque sont des lignes de commentaires.

Scénario NOMP

* !DESCRIPTION : Identification des noms propres (avec assistance)

* !DATE : Janvier 1993

* !AUTEUR : François Daoust, Centre ATO­CI, UQAM

* !NOTE : On doit procéder à la catégorisation syntaxique du

* ! lexique avant d'appeler cette procédure (propriété gramr)

* La commande suivante permet d'associer à l'abréviation 1

* l'ensemble des mots qui satisfont aux trois critères suivants:

* tous les caractères sont admissibles: (opérateur “$”);

* la propriété “édition” indique qu'ils débutent par une majuscule

* ou sont en lettres capitales;

* la propriété “gramr” indiquent qu'ils ne sont pas (opérateur “~”)

* des abréviations, des adverbes, des articles, des déterminants,

* des conjonctions, des noms propres déjà identifiés,

* des prépositions, des pronoms ou des codes (résidus)

* Rem. Le double astérisque en fin de ligne indique que la

* commande se poursuit sur la ligne suivante

*

Abréviation 1 $*édition=(maj,cap)*gramr~**

(abréviation,adv,art,dét$,conjonction,nomp,pronom,prép,p\_$,résidu)

* Dans les concordances qui suivent, on va utiliser un contexte numérique

* d'un mot avant et après le mot pôle (ou central) de la concordance

*

Contexte numérique de 1

* On crée la propriété “maj” qui va contenir le nombre de fois

* où apparaît un des mots désignés par l'abréviation 1

*

Propriété créer maj entière pour lexique

* Par la concordance, on repère les contextes d'apparition de

* ces mots et on augmente de 1 la propriété “maj” du lexème associé

* désigné par l'abréviation 1

*

Concordance stricte *1*maj:+1

* La propriété “libre” va contenir le nombre de fois où un mot

* désigné par l'abréviation 1 n'est pas précédé d'une ponctuation forte

*

Propriété créer libre entière pour lexique

* Par la concordance, on repère les contextes d'apparition de

* ces mots et on augmente de 1 la propriété “libre” du lexème associé

* à la condition que le mot qui précède ne soit pas (opérateur “*~”)

* une des ponctuations désignées

*

Concordance stricte (.,?,:,...,­,“,!,;)*~ *1*libre:+1

* On crée une propriété “décision” sur le lexique dont les valeurs sont:

* nil : pour indiquer qu'il ne s'agit pas d'un nom propre

* np : pour nom propre

* voir : pour visualiser les contextes d'apparition du lexème

*

Propriété créer décision symbolique pour lexique np voir

* On va suggérer de citer comme nom propre les mots désignés par

* l'abréviation 1 et qui apparaissent en “position libre” dans la phrase

*

Valeur décision np pour $*libre>0

* On affiche les mots susceptibles d'être des noms propres. La propriété

* décision permet d'agir sur ces candidats. “np” va permettre leur

* transformation automatique en nom propre. “nil” laisse les mots en

* majuscules de ponctuation. “voir” permet de souligner dans le texte

* les mots dont le statut est à confirmer. Cette confirmation se fait

* par la catégorisation de la propriété édition (valeur +np).

* Pour ce faire, on utilise la manipulation directe en pointant

* le lexème que l'on veut catégoriser.

* On définit des touches pour faciliter le travail de

* catégorisation en associant une lettre à chaque décision

*

Touche n décision valeur nil

Touche p décision valeur np

Touche v décision valeur voir

* On choisit les propriétés à afficher avec le lexique

*

Format lexique maj libre décision

* On passe en affichage pas à pas et on informe l'utilisateur de la

* tâche à accomplir

*

Format affichage normal

Écrire message Liste des lexèmes susceptibles d'être des noms propres

Écrire message La touche “n” force la décision à “nil” : pas un nom propre

Écrire message La touche “p” force la décision à “np” : nom propre

Écrire message La touche “v” force la décision à “voir”: voir les contextes

* On affiche le lexique en laissant à l'utilisateur la possibilité

* d'utiliser les touches pour modifier la valeur de la propriété “décision”

*

Écrire lexique $*maj>0 Tri alphabet

* On supprime l'affichage pour donner suite aux décisions

*

Format affichage expert

* On change la catégorie grammaticale des mots désignés

* comme noms propres et on ajoute à la propriété “édition”

* la valeur “np” afin que SATO cite la majuscule

*

Valeur gramr + nomp pour $*décision=np

Valeur édit + np pour $*décision=np*édition=(maj,cap)

* On définit des touches pour faciliter le travail de

* catégorisation en associant une lettre à chaque décision

* qui, cette fois, sera prise sur l'occurrence plutôt que

* sur le lexème

*

Touche n édition ­ valeur np

Touche p édition + valeur np

* On définit un contexte de phrase pour la concordance

*

Contexte délimité de (.,;,:,...,!,?) exclus à (.,;,:,...,!,?) inclus

* On repère toutes les phrases où apparaît un mot que l'on veut

* voir, s'il est en majuscules ou capitales;

* Rem. l'opérateur “*@” indique que l'on veut trier les concordances

* selon l'ordre alphabétique des mots

*

Concordance libre $*décision=voir*édition=(maj,cap)*@

* On rétablit l'affichage normal, on informe l'utilisateur de la

* tâche à accomplir et on affiche les concordances

*

Format affichage normal

Écrire message Liste des contextes à valider; les noms propres potentiels **

sont soulignés; les noms propres retenus doivent être confirmés par la **

touche “p”

Écrire message La touche “n” force la décision à “nil” : pas un nom propre

Écrire message La touche “p” force la décision à “np” : nom propre

*

Écrire concordance *



Le dépistage des locutions fonctionnelles

Comme indiqué dans l'article sur le cadre expérimental, une des hypothèses que nous voulions examiner dans SATO concerne l'apport, en termes de facilité ou de difficulté de lecture, de certaines formes fonctionnelles. On entend ici, par forme fonctionnelle, les adverbes, les articles, les déterminants, les conjonctions, les prépositions, et les pronoms.

Comme plusieurs de ces formes sont des locutions, nous avons aussi bâti un dispositif pour repérer ces locutions. Pour le moment, les locutions sont bloquées pour être lexicalisées dans une deuxième version du texte. L'inconvénient de cette méthode est qu'elle modifie la structure de surface du texte (longueur des phrases et des mots). Dans la prochaine version du prototype, l'étape du blocage sera éliminée. On doit aussi noter que le problème du repérage des locutions fonctionnelles est un problème difficile à régler4. On s'est donc concentré sur les cas les moins ambigus. La liste comprend tout de même plus de 500 locutions comportant chacune plusieurs variantes, par exemple la locution prépositive “sous prétexte (de,d',du,des)” ou la locution conjonctive “tant et si bien (que,qu')”.



La dépistage en contexte des verbes conjugués


Suite à la projection d'un dictionnaire sur le lexique d'un texte, des unités graphiques, souvent parmi les plus fréquentes, reçoivent plus d'une catégorie syntaxique. Ces catégories renvoient à la nature grammaticale de chacun des lexèmes. Lorsque l'on examine les phrases dans lesquelles ces lexèmes sont employés, on peut voir que la syntaxe, notamment, permet de préciser laquelle des catégories grammaticales est active. Par exemple, dans la phrase la femelle construit habituellement son nid sous un tas de larges branches, le mot branches, qui possède les catégories nom et verbe, ne peut pas être un verbe conjugué à cause de la présence à sa gauche de la préposition de. On peut donc éliminer certaines ambiguïtés catégorielles en s'appuyant sur les catégories grammaticales des mots qui précèdent ou suivent la catégorie ambiguë. Dans SATO-CALIBRAGE, en particulier, nous voulons repérer les véritables verbes conjugués puisque nous allons les utiliser pour dénombrer le nombre de propositions par phrase.

Le modèle de traitement

Notre traitement de l'ambiguïté des catégories Nom/Verbe s'apparente à ce que Silberztein (1989, pp. 137-140), appelle des “grammaires locales”. Le modèle de traitement que nous allons illustrer ici pour un problème syntaxique pourrait être repris pour toute autre ambiguïté catégorielle susceptible d'être levée à partir de l'examen des contextes immédiats.

Avec SATO, il s'agit de décrire, sous la forme de patrons de fouille (concordances SATO), les contextes désambiguïsants. Du même coup, on associe aux patrons de fouille des actions de désambiguïsation catégorielle. La solution développée ici comporte deux étapes incorporées dans une seule procédure : l'élagage ou la suppression des catégories grammaticales “indésirables” (“émondage” dans Habert 1990, pp.179-183) et l'ajout d'une propriété (“règle”) permettant de visualiser le résultat de la règle et de retracer le contexte de son application. Cette procédure de trace a été utilisée dans la phase de validation de l'algorithme. Dans le prototype final, nous procédons directement à la catégorisation.

Rappelons qu'avant de procéder à la désambiguïsation, on doit d'abord procéder au dépistage des expressions figées et à la catégorisation grammaticale.

On s'appuie sur un certain nombre de caractéristiques du nom commun et du verbe pour lever l'ambiguïté. Le nom commun, tête du syntagme nominal (SN), doit généralement être déterminé; mais le déterminant (à quelques exceptions près) ne peut apparaître sans le nom de sorte que la présence du déterminant force celle d'un nom à proximité. Dans le syntagme verbal, les positions qui précèdent le verbe sont très contraintes et l'on sait que les pronoms personnels clitiques sont strictement ordonnés par rapport au verbe. La désambiguïsation se trouve facilitée par ce fonctionnement positionnel. Ce type de caractéristiques nous servira d'appui dans la formulation des règles. Il faut ajouter cependant que ces règles assument que les unités sur lesquelles on s'appuie ne sont pas elles-mêmes ambiguës.


Les règles

Les règles utilisées sont contextuelles et opèrent de manière essentiellement locale (sur le contexte immédiat à gauche et à droite). Elles sont ordonnées selon une priorité décroissante et chaque règle s'applique dans un contexte modifié par l'application de la règle précédente. On commence par lever les cas d'ambiguïtés fréquents ou aisés. Cela signifie que l'efficacité d'une règle particulière dépend de l'ordonnancement global. Certaines règles ont un caractère probabiliste, c'est-à-dire qu'elles s'appliquent aux constructions les plus fréquentes. Pour les applications qui ne tolèrent aucune erreur, on devra vérifier les contextes d'application de ces règles.

Il y a trois types de règles. D'abord, on a des règles dites lexicales qui s'apppliquent aux lexèmes spécifiques particulièrement fréquents. Ensuite, on a des règles de confirmation des catégories Verbe et Auxiliaire. Finalement, on trouve des règles qui retirent la catégorie V_conj (verbe conjugué) à la séquence ambiguë.

On attribue le numéro de la règle déclenchée à la propriété *règle. L'ajout de cette propriété permet de repérer la règle qui a opéré la désambiguïsation. Du point de vue informatique, l'ensemble du dispositif prend la forme d'un scénario (fichier de commandes SATO) que nous avons appelé DESAMBIC.

Rem. Dans les commandes qui suivent:

“*1” tient lieu de “Concordance stricte”;

“*-” est un opérateur qui désigne un patron facultatif;

“*+” est un opérateur qui désigne un patron répétable;

“*~” est un opérateur qui désigne un patron qui doit être absent;

“:” est un opérateur qui implique l'affectation de la valeur qui suit;

“:-” est un opérateur qui implique le retrait de la valeur qui suit;

“:+” est un opérateur qui implique l'ajout de la valeur qui suit;

“==” signifie une égalité stricte (la catégorie désignée et rien d'autre);

“~~” signifie la non-égalité stricte (NON ==)

“**” en fin de ligne signifie que la commande se poursuit sur la ligne suivante

Règles lexicales

l1- Puis

*1 je*~ **

puis*syntaxe:­v_conj*4l1 **

­*~


l2- Ni

*1 ni **

$*syntaxe=v_conj*syntaxe~~v_conj*syntaxe:­v_conj*4l2

l3- L'un

*1 l' **

un*syntaxe:p_indéf

Règles de confirmation

1- Pronom personnel - Verbe

Une forme, qui peut être un nom ou un verbe, précédée d'un pronom personnel sujet qui peut être suivi facultativement d'un adverbe de négation et d'un pronom clitique objet, est un verbe conjugué.

Exemple : Il ne dépense ses énergies que pour lutter contre le froid

*1 (je,j',tu,il,elle,on,nous,vous,ils,elles) **

(ne,n')*- **

(me,te,nous,vous,le,la,les,m',se,s',t',l',lui,leur)*- **

(le,la,les,lui,leur,nous,vous,en,y)*- **

$*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*règle:+c1


2- Auxiliaire - Participe passé - (été,eu) - Participe passé

Une forme verbale suivie d'un adverbe facultatif et répétable, de été ou eu facultatifs, et d'une forme pouvant être un adjectif ou un participe passé, est un auxiliaire; été et eu ne sont pas des auxiliaires et la forme adj/ppassé est un participe passé.

La forme été et eu, qui suit un auxiliaire suivi d'un adverbe facultatif et répétable, est un participe passé.

Exemple : Les plantes sauvages ont souvent été arrachées des terres agricoles...

* Cas général

*1 $*syntaxe=aux*syntaxe:aux*règle:+c2 **

$*gramr=adv*-*+ **

(été,eu)*syntaxe:ppassé*règle:+c2

* Cas particulier

*1 $*gramr=aux*syntaxe:aux*règle:+c2 **

$*gramr=adv*-*+ **

(été,eu)*syntaxe:aux*règle:+c2*- **

$*gramr=(adj,ppassé)*syntaxe:ppassé*règle:+c2

Valeur règle c2 pour $*syntaxe=aux*syntaxe=v_conj

Valeur syntaxe - aux pour $*syntaxe=aux*syntaxe=v_conj

3- ne - Verbe

Une forme précédée de ne, et précédée de pronoms objets clitiques facultatifs et répétables, est un verbe.

Exemple : La marmotte ne cache pas de réserves...

*1 (n',ne) **

$*gramr=p_pers*-*+ **

$*syntaxe=v_conj*syntaxe~~v_conj*syntaxe:v_conj*règle:+c3


4- Catégorisation des verbes par le pronom objet

Une forme, précédée de pronoms objets (directs ou indirects), et suivie facultativement de d'autres pronoms objets, est un verbe.

Exemple : La marmotte se terre dans sa résidence d'hiver...

*1 (me,te,se,m',t',s',lui,nous,vous) **

(le,la,les,lui,leur,nous,vous,en,y)*­ **

$*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*4c4


5- Catégorisation des verbes par le pronom sujet inversé

Une forme, suivie d'un trait d'union, et suivie d'un pronom personnel, est un verbe.

Exemple : Amenez-en; Donne-la; Va-t-il à l'école?

*1 $*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*4c5 **

­ **

(je,nous,tu,vous,il,elle,on,elles,ils,ce,t,le,la,les,lui,y,en)

Règles de désambiguïsation

1- préposition - Verbe

Une forme, qui peut être soit un nom soit un verbe, n'est pas un verbe conjugué si elle est précédée d'une forme qui est strictement une préposition. La préposition peut être suivie facultativement d'un article ou d'un déterminant et d'adjectifs non ambigus.

Exemple : La femelle construit habituellement son nid sous un tas de larges branches...

*1 $*gramr==prép **

$*gramr=(art$,dét$)*- **

$*gramr==adj$*-*+ ** $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*&*règle:+d1

(Remarque: l'opérateur *& oblige la concordance à se déployer à partir du verbe ambigu. Sinon SATO pourrait, par optimisation, choisir une autre position.


2- (au,aux,du,des,un,une) - Verbe

Une forme, qui peut être un nom ou un verbe, précédée d'un adjectif facultatif lui-même précédé de au,aux,du,des,un,une, n'est pas un verbe conjugué. On exclut la construction l'un, l'une.

Exemple : Cela produit d'abord une série de sons sourds...

*1 l'*~ **

(au,aux,du,des,un,une) **

$*gramr==adj$*-*+ **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d2


3- Pronom personnel (1,2p) - Verbe

Une forme qui se termine par es et qui peut être un nom ou un verbe n'est pas un verbe conjugué si elle n'est pas précédée par tu, nous ou vous. Ces pronoms peuvent être suivis facultativement de ne et/ou de pronoms clitiques objets.

On doit exclure les inversions interrogatives. Cette règle, juste dans la majorité des cas, est cependant erronnée pour les formes impératives des verbes comme faire et dire. Si l'on a besoin d'une fiabilité absolue, on devra donc vérifier les contextes d'application de la règle.

Exemple : Nous ne devrions jamais circuler sur les voies publiques...

*1 (tu,nous,vous)*~ **

(n',ne)*- **

$*gramr=p_pers*- **

|es*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d3 **

-*~


4- Déterminant possessif - Verbe

Une forme qui peut être un nom ou un verbe précédée d'une forme qui ne peut être qu'un déterminant possessif n'est pas un verbe conjugué.

Exemple : Les avions pourront partir à sa recherche...


*1 $*gramr==détposs **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d4 **


5- Déterminant démonstratif - Verbe

Une forme qui peut être un nom ou un verbe, précédée d'une forme qui ne peut être qu'un déterminant démonstratif, n'est pas un verbe conjugué.

Exemple : Les béliers ressemblent en plusieurs points à ceux qui sont nés sous ce signe astrologique...

*1 $*gramr==détdém **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d5 **

6- Article - Adjectif - Verbe

Une forme qui peut être un nom ou un verbe, précédée facultativement d'une forme qui ne peut être qu'un adjectif répétable, lui-même précédé d'un article quelconque, n'est pas un verbe conjugué.

Exemple : Le jeune athlète était choisi sur la meilleure équipe du tournoi...


*1 $*gramr=art$ **

$*gramr==adv*- **

$*gramr==adj*+ **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d6

7- Auxiliaire - Verbe

Une forme précédée d'un auxiliaire n'est pas un verbe conjugué.

Exemple : Conrad et Denis en seront quittes pour un sommeil agité.

*1 $*gramr==aux **

$*syntaxe=v_conj*syntaxe:-v_conj*règle:+d7 **


8- Verbe - Verbe conjugué

Une forme qui peut être un nom ou un verbe et qui suit ou qui précède une forme qui ne peut être qu'un verbe conjugué n'est pas un verbe conjugué.

Il s'agit ici d'une règle approximative qui génère des erreurs avec les propositions relatives du genre l'homme qui arrive repart. Si une application requiert un minimum d'erreur, on doit prévoir une validation manuelle des phrases où la règle a été déclenchée en présence d'un pronom relatif. Une concordance SATO pourra facilement identifier les cas à vérifier.

Exemple : Le groupe a produit cinq albums qui ont marqué l'histoire...

*1 $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d8 **

$*syntaxe==v_conj

*1 $*syntaxe==v_conj **

(pas,jamais)*- **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d8



9- Verbe infinitif - Verbe

Une forme qui peut être un nom ou un verbe, précédée d'un article facultatif lui même précédé d'un verbe à l'infinitif, n'est pas un verbe conjugué.

Exemple : Le pilote doit avoir recours aux instruments de vol.

*1 $*gramr=v_inf **

$*gramr=art$*- **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d9


10- Point - Déterminant - Verbe

Une forme qui peut être un nom et un verbe, précédée d'un déterminant quelconque, lui-même précédé d'un point de ponctuation, n'est pas un verbe conjugué.

Exemple : Ces plantes sont infiniment faciles à cultiver.

*1 . **

$*gramr=dét$ **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d10


11- Participe passé - Déterminant - Verbe

Une forme qui peut être un participe passé et un verbe, précédée d'un élément qui est strictment un déterminant, n'est pas un verbe conjugué.

Exemple : À plusieurs reprises, il tente d'ouvrir son parachute.

Cela a permis d'obtenir quelques données sur la durée de vie de l'ours sauvage.

*1 $*gramr==dét$ **

$*syntaxe=v_conj*gramr=ppassé*syntaxe:-v_conj*règle:+d11


12- Verbe - (qui,dont)

Une forme, qui peut être un nom et un verbe, suivie de qui ou dont n'est pas un verbe conjugué.

Exemple : Une mince couche de glace qui se brise.

*1 $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d12 **

(qui,dont)


13- Verbe conjugué - Article/Déterminant/Adjectif - Verbe

Une forme qui peut être un nom et un verbe, précédée d'un article, d'un déterminant ou d'un adjectif quelconque, lui-même précédé d'une forme qui ne peut être qu'un verbe, n'est pas un verbe conjugué.

Exemples : Les prairies rocheuses sont autant d'endroits où se trouve la marmotte

Elles étaient longues d'une dizaine de millimètres et me mangeaient toute vive.

Le co-pilote me sembla bien calme.

*1 $*gramr==v_conj **

$*gramr=(art,dét,adj)$ **

$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d13

14- Verbe conjugué/préposition ­ nous/vous

Une forme suivie d'un pronom personnel qui n'est pas liée au verbe par un trait d'union n'est pas un verbe conjugué.

Exemples : Entre nous; Contre vous, etc.

*1 $*syntaxe=v_conj*syntaxe=prép*syntaxe:­v_conj*4d14 **

­*~ **

(nous,vous,lui,toi,moi,eux)


Appartenance catégorielle, choix opérés et justifications

Certaines formes (des catégories fonctionnelles pour la plupart) sont désambiguïsées au préalable en vertu de leur fréquence d'utilisation. C'est le cas de par et son qui ont une probabilité forte pour les catégories Prép et AdjPoss alors qu'elle est assurément faible pour la catégorie Nom. De la même façon, on peut inhiber la catégorie nominale de est et la catégorie verbale de cela et plus.

Une approche fondée sur les statistiques et la pondération (à partir de grand corpus) permet d'envisager le traitement de la désambiguïsation dès la phase d'étiquetage non seulement pour les catégories fonctionnelles mais pour l'ensemble des catégories. Hennequin (1992, p. 17) rapporte que dans les systèmes fonctionnant ainsi, le dictionnaire a une forme un peu particulière. Chaque mot catégoriellement ambigu figurant dans le dictionnaire possède, en plus de ses diverses catégories, un marqueur qui indique la probabilité que le mot en question ait effectivement telle ou telle catégorie (voir aussi Smith 1991, p. 87).

Intérêt de la phase de désambiguïsation avec SATO

Avec SATO, on dispose d'un outil permettant d'évaluer la productivité des règles et de voir par quels moyens rendre la grammaire d'émondage plus efficace. On peut comparer toutes les applications réussies de telle ou telle règle ou, à l'inverse, tous les contextes semblables où aucune règle de désambiguïsation ne s'est appliquée. Cela permet d'examiner tous les cas semblables disséminés dans un texte et de rectifier les règles déjà existantes ou d'ajouter de nouvelles règles pour augmenter l'efficacité du système. On pourrait notamment se servir des règles d'accord.

L'intérêt de la méthode développée ici, outre sa relative simplicité, notamment pour l'ajout de nouvelles règles, tient donc au protocole de validation qu'il permet de réaliser.

Après l'application des règles expliquées précédemment, on peut passer en mode assistance pour permettre à l'utilisateur de lever les ambiguïtés qui demeurent. Si on accepte un certain pourcentage d'erreur, on peut sauter cette phase de validation manuelle.


Le dépistage de phrases complexes

Dans l'article de Léo Laroche Analyses statistiques pour la constitution d'un indice SATO-CALIBRAGE, on trouve la liste complète des variables (indices) dépistées par SATO-CALIBRAGE. Certaines de ces variables proviennent directement de la grille d'évaluation du ministère de l'Éducation. D'autres nous ont été suggérées par les conseillers pédagogiques qui font partie du Comité des utilisateurs de SATO-CALIBRAGE. Voici le scénario produisant plusieurs des indices de difficulté (ou de facilité) utilisés par SATO-CALIBRAGE. Le rapport de calibrage, dans sa forme minimale, n'utilise qu'une fraction des indices dépistés.



* Scénario pour le dépistage de variables d'indices de complexité

* François Daoust

* Centre d'Analyse de Textes par Ordinateur

* Université du Québec à Montréal, juin 1993

* On crée des propriétés de marquage dont on se servira dans la suite des

opérations;

* la propriété “diag” permet d'identifier le type de complexité dépisté

Propriété créer rejet symbolique pour lexique oui

Propriété créer marque symbolique pour texte oui

Propriété créer diag symbolique pour texte 1­15 16­20 21­25 26­30 31­99 **

DPréConj DPro3 4V ProInv Inc2 Pro3 Conj2 ProPer2 ProProV PronpV ProÉcrProV

* L'abréviation 1 contient la liste des ponctuations fortes

Abréviation 1 (.,;,:,...,!,?)

* Phrases de 1 à 15 mots

* La commande segmenter divise le texte en phrases en ne

* conservant que celles qui correspondent au patron indiqué: “<16”;

* La commande valeur affecte le diagnostic à la ponctuation

Segmenter par délimiteur *1 terminal longueur <16

Valeur diag + 1­15 pour *1 concordance *

* Phrases de 16 à 20 mots

* La commande segmenter divise le texte en phrases en ne

* conservant que celles qui correspondent au patron indiqué: “>15<21”;

* La commande valeur affecte le diagnostic à la ponctuation

Segmenter par délimiteur *1 terminal longueur >15<21

Valeur diag + 16­20 pour *1 concordance *

* Phrases de 21 à 25 mots

* La commande segmenter divise le texte en phrases en ne

* conservant que celles qui correspondent au patron indiqué: “>20<26”;

* La commande valeur affecte le diagnostic à la ponctuation

Segmenter par délimiteur *1 terminal longueur >20<26

Valeur diag + 21­25 pour *1 concordance *

* Phrases de 26 à 30 mots

* La commande segmenter divise le texte en phrases en ne

* conservant que celles qui correspondent au patron indiqué: “>25<31”;

* La commande valeur affecte le diagnostic à la ponctuation

Segmenter par délimiteur *1 terminal longueur >25<31

Valeur diag + 26­30 pour *1 concordance *

* Phrases de plus de 30 mots

* La commande segmenter divise le texte en phrases en ne

* conservant que celles qui correspondent au patron indiqué: “>30”;

* La commande valeur affecte le diagnostic à la ponctuation

Segmenter par délimiteur *1 terminal longueur >30

Valeur diag + 31­99 pour *1 concordance *

* On redéfinit le contexte pour inclure la ponctuation qui

* précède le début de la phrase.

Contexte délimité de *1 inclus à *1 inclus

* Phrases commençant par une préposition ou une conjonction

* On cherche la ponctuation immédiatement suivie d'une

* préposition ou d'une conjonction à laquelle on affecte le diagnostic.

Concordance stricte *1 $*gramr=(prépo$,conjon$)*diag:+DPréConj

* Phrases qui débutent par un pronom à la 3ième personne

* On cherche la ponctuation immédiatement suivie du

* pronom auquel on affecte le diagnostic.

Concordance stricte *1 (il,elle,ils,elles)*diag:+DPro3

* Phrases contenant quatre propositions ou plus

* On cherche quatre verbes conjugés successifs;

* on affecte le diagnostic au dernier verbe.

Concordance ordonnée $*syntaxe=v\_conj $*syntaxe=v\_conj **

$*syntaxe=v\_conj $*syntaxe=v\_conj*diag:+4V

* Phrases interrogatives contenant un pronom inversé

* On cherche un verbe conjugué immédiatement suivi (opérateur “*.”)

* d'un trait d'union et d'un pronom; Ensuite, on cherche la présence

* de “?” auquel on affecte le diagnostic.

Concordance ordonnée $*syntaxe=v\_conj*. ­*. $*gramr=p\_$ ?*diag:+ProInv

* Phrases contenant au moins 2 mots inconnus

* On cherche deux mots inconnus;

* on affecte le diagnostic au dernier.

Concordance ordonnée $*connu=nil $*connu=nil*diag:+Inc2

* Phrases contenant une séquence de 3 pronoms

* On cherche trois pronoms successifs;

* on affecte le diagnostic au dernier.

Concordance stricte $*gramr=p\_$ $*gramr=p\_$ $*gramr=p\_$*diag:+Pro3

* Phrases contenant deux conjonctions ou plus

* On cherche deux conjonctions successives;

* on affecte le diagnostic à la dernière.

Concordance ordonnée $*gramr=conjonction $*gramr=conjonction*diag:+Conj2

* Phrases contenant deux pronoms personnels

* de la première ou deuxième personne

* On cherche deux pronoms désignés successifs;

* on affecte le diagnostic au dernier.

Concordance ordonnée (j',je,tu,t',nous,vous) (j',je,tu,t',nous,vous)*diag:+ProPer2

* Phrases contenant le patron pronom pronom verbe

* On exclut les formes pronominales simples que l'on va marquer par “*marque:oui”;

* Finalement, on cherche un pronom, immédiatement suivi d'un pronom

* nom-marqué et d'un verbe auquel on affecte le diagnostic.

Concordance stricte je me*marque:oui $*syntaxe=v\_conj

Concordance stricte tu te*marque:oui $*syntaxe=v\_conj

Concordance stricte (il,elle,ils,elles) se*marque:oui $*syntaxe=v\_conj

Concordance stricte nous nous*marque:oui $*syntaxe=v\_conj

Concordance stricte vous vous*marque:oui $*syntaxe=v\_conj

Valeur marque oui pour y

Concordance stricte $*gramr=p\_$ $*gramr=p\_$*marque~oui **

$*syntaxe=v\_conj*diag:+ProProV

* Phrases contenant le patron pronom­non­personnel verbe

* en excluant “c'” et “on” que l'on va marquer par “*rejet:oui”;

* Finalement, on cherche un pronom désigné qui n'est pas rejeté,

* immédiatement suivi d'un verbe conjugué auquel on affecte le diagnostic.

Valeur rejet oui pour (c',on)

Concordance stricte $*gramr=p\_(relatif,indéf,dém,poss)*rejet~oui **

$*syntaxe=v\_conj*diag:+PronpV

Valeur rejet nil pour (c',on)

* Phrases contenant le patron suivant: pronom écran pronom verbe; L'écran

* est n'importe quoi sauf une ponctuation; On affecte le diagnostic au verbe

Concordance stricte $*syntaxe=p\_$ **

$*syntaxe~p\_$*gram~(ponctuation,virgule) **

$*syntaxe=p\_$ $*syntaxe=v\_conj*diag:+ProÉcrProV

Une fois que le dispositif linguistique a effectué ses diagnostics , SATO-CALIBRAGE peut afficher les phrases marquées dans le rapport de calibrage. Il peut aussi les compter pour produire les données qui seront traitées par les analyseurs statistiques.



NOTES

1 Cette base de données, appelée couramment “la BDL”, a été développée au départ par Luc Dupuy dans le cadre du projet SACAO (Système d'analyse de contenu assistée par ordinateur, Programme Actions spontanées, FCAR 1989-91) dirigé par Jules Duchastel alors qu'il était directeur du Centre d'ATO.

2 L'équipe RDLC du Centre d'ATO a produit un analyseur morphologique (LCMF, L. Dumas avec la collaboration de P. Plante, D. Perras et A. Plante) destiné à fournir l'information catégorielle nécessaire au parseur ALSF (analyseur lexico-syntaxique du français, J.M. Marandin, S. David et P. Plante). Contrairement à l'approche que nous avons adoptée avec la BDL, l'analyseur morphologique LCMF est un module informatique fermé plutôt qu'une base de données modifiable.

3 COURTOIS, Blandine (1990) "Un système de dictionnaires électroniques pour les mots simples du français". Langue Française 87.

4 Que l'on pense par exemple à l'expression “en fait” qui souvent n'agit pas comme locution: “en fait, il en fait trop”. Dans cet exemple, on a la locution adverbiale “en fait” suivie d'une forme conjuguée du verbe “faire”.

Bibliographie

COURTOIS, Blandine (1990) "Un système de dictionnaires électroniques pour les mots simples du français". Langue Française 87.

FUJISAKI, T. F. JELINEQ, J. COCKE, E. BLACK, T. NISHINO (1989) “ A Probalilistic Parsing Method for Sentence Disambiguation”, présenté au International Workshop on Parsing Technologies, CMU, repris in Current Issues in Parsing Technology, Masaru Tomita (éds), Kluwer Academic, 1991.

GUILLET, Alain (1990) “Reconnaissance des formes verbales avec un dictionnaire minimal”. Langue Française 87.

HABERT, Benoît (1991) Olmes : un système d'exploration et de structuration de textes, Thèse de doctorat, Université Paris 7, Institut Blaise Pascal.

HENNEQUIN, Marie-Pierre (1992) “Émontage et analyse syntaxique automatique”, DEA en Linguistique Théorique et Formelle, Université Paris 7, UFR en Linguistique.

MILNE, Robert (1988) “Lexical Ambiguity Resolution in a Deterministic Parser” in Lexicla Ambiguity Resolution, Steven L. Small, Garrison W. Cottrel and Michael K. Tanenhaus (eds), Morgan Kaufman Publishers.

SILBERZTEIN, Max (1992) “Reconnaissance automatique des mots d'un texte : les premières étapes” à paraître dans les Actes du Colloque Lexique Grammaire, UQAM.

SILBERZTEIN, Max (1989) Dictionnaire électronique et reconnaissance lexicale automatique, Thèse de doctorat en informatique, LADL, Université Paris 7.

SMITH, Georges W. (1991) Computers and Human Language, Oxford University Press, New York.