François Daoust, Fernande Dupuis.
François Daoust est informaticien et chercheur au Centre
d'analyse de texte par ordinateur -- Cognition et information.
Il est responsable du projet SATO-CALIBRAGE au Centre ATO-CI.
Fernande Dupuis est professeure associée au département
de linguistique de l'UQAM. Elle est aussi chercheure au Centre
ATO-CI.
Nous désignons, par dispositif linguistique, l'ensemble
des ressources linguistiques déployées à
l'intérieur du prototype SATO-CALIBRAGE. Ces ressources
sont de trois ordres. Il y a d'abord des bases de données
lexicales. On a ensuite des procédures permettant de repérer
les noms propres et d'identifier en contexte les verbes conjugués.
Enfin, s'appuyant sur les dispositifs précédents,
on a des procédures permettant de dresser une typologie
des phrases susceptibles d'être plus difficiles à
lire.
Comme indiqué dans l'article SATO-CALIBRAGE, cadre
expérimental, les divers dispositifs linguistiques
prennent la forme de scénarios de commandes SATO.
Les bases de données lexicales
Les bases de données lexicales prennent la forme de dictionnaires
SATO. Ce sont des fichiers externes qui contiennent des informations
sur des formes lexicales. En consultant ces dictionnaires, on
peut annoter le lexique d'un texte en transférant sur une
propriété lexicale les informations se trouvant
dans le dictionnaire.
La première base de données lexicales que nous
utilisons dans SATO-CALIBRAGE contient la catégorie grammaticale
hors contexte. Elle contient plus d'un demi million de lexèmes1.
La philosophie qui a guidé la construction de cette base
de données, appelée simplement BDL, est de
fournir à la communauté des chercheurs un dictionnaire
de base pour l'analyse de texte par ordinateur. La BDL profite
donc à plusieurs projets, dont SATO-CALIBRAGE, en même
temps qu'elle bénéficie de l'apport des divers projets
pour son entretien.
La catégorisation grammaticale que fournit la BDL est
orientée vers la grammaire d'usage plutôt que vers
la résolution de problèmes de parsage2.
Ce choix est justifié par le fait que nous visons la communauté
des chercheurs, y compris une majorité de non-linguistes.
Par ailleurs, nous entendons nous inspirer de méthodologies
éprouvées, comme celles du LADL3 en France,
pour assurer dans le futur un meilleur entretien et une meilleure
validation de la BDL. Cela implique, entre autres, de séparer
la BDL en formes simples, et en formes marquées
calculées à partir des règles de dérivation
et de conjugaison. Ces règles sont connues. Cependant l'effort
pour les colliger, en faire des procédures SATO reproductibles,
modifiables et publiques, est loin d'être négligeable.
Le deuxième dictionnaire que nous utilisons a été
développé à l'intérieur du projet.
Il s'agit du dictionnaire des mots connus par les élèves
de sixième année. Comme l'indique Lise Ouellet
dans l'article Description du corpus textuel, ce dictionnaire
a été constitué en faisant valider le lexique
de l'ensemble du corpus par des enseignants de sixième
année. Le corpus s'étant enrichi au cours des années,
cette validation a dû être reprise pour tenir compte
de nouveaux mots. Dans chacun des cas, la validation a été
effectuée par un groupe de cinq enseignants d'expérience
provenant de régions différentes du Québec
et oeuvrant dans des milieux sociaux différents. Ont été
acceptés comme connus les lexèmes jugés tels
par au moins quatre enseignants. La consigne donnée aux
enseignants demandait de considérer connu un mot que les
trois quarts au moins des élèves connaissent à
l'oral. Plusieurs enseigants ont consulté leurs élèves.
Notons que la validation des mots a été effectuée
sur les formes fléchies des lexèmes, c'est-à-dire
dans la forme où ils se présentent dans le texte.
Par la suite, nous avons élaboré des dispositifs
de fléchissement permettant d'ajouter des flexions régulières
manquantes aux mots connus. Ce travail reste à compléter
pour les conjugaisons les plus simples des verbes connus. Une
analyse plus poussée des réponses des enseignants
permettrait aussi de voir si certaines formes dérivées
d'une même racine posent des difficultés particulières.
Le repérage assisté des noms
propres
Divers types de lexèmes ont été exclus du
dictionnaire des mots connus. On considère en effet que
les nombres, plusieurs formes fonctionnelles (articles, pronoms,
conjonctions et prépositions usuels) et les noms propres
devraient être considérés connus. Les nombres
peuvent être identifiés par les patrons morphologiques
de SATO. Les formes fonctionnelles sont identifiées par
la BDL. Il reste les noms propres.
Pour faciliter l'identification des noms propres, nous utilisons
un scénario qui permet de dresser une liste de candidats.
Cette liste peut être validée hors contexte ou en
contexte s'il y a lieu. Le dispositif repère les mots débutant
par une majuscule et qui ne sont pas des formes fonctionnelles.
Il fournit le nombre de fois où le mot apparaît,
le nombre de fois où il débute par une majuscule
et le nombre de fois où il débute par une majuscule
et n'est pas précédé d'une ponctuation forte.
Pour illustrer comment une telle tâche peut être
facilement programmée à l'intérieur de SATO,
voici le scénario complet du dispositif. Les lignes débutant
par un astérisque sont des lignes de commentaires.
Scénario NOMP * !DESCRIPTION : Identification des noms propres (avec assistance) * !DATE : Janvier 1993 * !AUTEUR : François Daoust, Centre ATOCI, UQAM * !NOTE : On doit procéder à la catégorisation syntaxique du
* ! lexique avant d'appeler cette procédure
(propriété gramr) * La commande suivante permet d'associer à l'abréviation 1 * l'ensemble des mots qui satisfont aux trois critères suivants: * tous les caractères sont admissibles: (opérateur $); * la propriété édition indique qu'ils débutent par une majuscule * ou sont en lettres capitales; * la propriété gramr indiquent qu'ils ne sont pas (opérateur ~) * des abréviations, des adverbes, des articles, des déterminants, * des conjonctions, des noms propres déjà identifiés, * des prépositions, des pronoms ou des codes (résidus) * Rem. Le double astérisque en fin de ligne indique que la * commande se poursuit sur la ligne suivante * Abréviation 1 $*édition=(maj,cap)*gramr~**
(abréviation,adv,art,dét$,conjonction,nomp,pronom,prép,p\_$,résidu)
* Dans les concordances qui suivent, on va utiliser un contexte numérique * d'un mot avant et après le mot pôle (ou central) de la concordance *
Contexte numérique de 1 * On crée la propriété maj qui va contenir le nombre de fois * où apparaît un des mots désignés par l'abréviation 1 * Propriété créer maj entière pour lexique
* Par la concordance, on repère les contextes d'apparition de * ces mots et on augmente de 1 la propriété maj du lexème associé * désigné par l'abréviation 1 *
Concordance stricte *1*maj:+1 * La propriété libre va contenir le nombre de fois où un mot * désigné par l'abréviation 1 n'est pas précédé d'une ponctuation forte *
Propriété créer libre entière
pour lexique * Par la concordance, on repère les contextes d'apparition de * ces mots et on augmente de 1 la propriété libre du lexème associé * à la condition que le mot qui précède ne soit pas (opérateur *~) * une des ponctuations désignées *
Concordance stricte (.,?,:,...,,,!,;)*~
*1*libre:+1 * On crée une propriété décision sur le lexique dont les valeurs sont: * nil : pour indiquer qu'il ne s'agit pas d'un nom propre * np : pour nom propre * voir : pour visualiser les contextes d'apparition du lexème *
Propriété créer décision
symbolique pour lexique np voir * On va suggérer de citer comme nom propre les mots désignés par * l'abréviation 1 et qui apparaissent en position libre dans la phrase *
Valeur décision np pour $*libre>0 * On affiche les mots susceptibles d'être des noms propres. La propriété * décision permet d'agir sur ces candidats. np va permettre leur * transformation automatique en nom propre. nil laisse les mots en * majuscules de ponctuation. voir permet de souligner dans le texte * les mots dont le statut est à confirmer. Cette confirmation se fait * par la catégorisation de la propriété édition (valeur +np). * Pour ce faire, on utilise la manipulation directe en pointant
* le lexème que l'on veut catégoriser.
* On définit des touches pour faciliter le travail de * catégorisation en associant une lettre à chaque décision * Touche n décision valeur nil Touche p décision valeur np
Touche v décision valeur voir * On choisit les propriétés à afficher avec le lexique *
Format lexique maj libre décision * On passe en affichage pas à pas et on informe l'utilisateur de la * tâche à accomplir * Format affichage normal Écrire message Liste des lexèmes susceptibles d'être des noms propres Écrire message La touche n force la décision à nil : pas un nom propre Écrire message La touche p force la décision à np : nom propre
Écrire message La touche v force
la décision à voir: voir les contextes
* On affiche le lexique en laissant à l'utilisateur la possibilité * d'utiliser les touches pour modifier la valeur de la propriété décision *
Écrire lexique $*maj>0 Tri alphabet * On supprime l'affichage pour donner suite aux décisions *
Format affichage expert * On change la catégorie grammaticale des mots désignés * comme noms propres et on ajoute à la propriété édition * la valeur np afin que SATO cite la majuscule * Valeur gramr + nomp pour $*décision=np
Valeur édit + np pour $*décision=np*édition=(maj,cap)
* On définit des touches pour faciliter le travail de * catégorisation en associant une lettre à chaque décision * qui, cette fois, sera prise sur l'occurrence plutôt que * sur le lexème * Touche n édition valeur np
Touche p édition + valeur np * On définit un contexte de phrase pour la concordance *
Contexte délimité de (.,;,:,...,!,?)
exclus à (.,;,:,...,!,?) inclus * On repère toutes les phrases où apparaît un mot que l'on veut * voir, s'il est en majuscules ou capitales; * Rem. l'opérateur *@ indique que l'on veut trier les concordances * selon l'ordre alphabétique des mots *
Concordance libre $*décision=voir*édition=(maj,cap)*@
* On rétablit l'affichage normal, on informe l'utilisateur de la * tâche à accomplir et on affiche les concordances * Format affichage normal Écrire message Liste des contextes à valider; les noms propres potentiels ** sont soulignés; les noms propres retenus doivent être confirmés par la ** touche p Écrire message La touche n force la décision à nil : pas un nom propre Écrire message La touche p force la décision à np : nom propre *
Écrire concordance *
Le dépistage des locutions fonctionnelles
Comme indiqué dans l'article sur le cadre expérimental,
une des hypothèses que nous voulions examiner dans SATO
concerne l'apport, en termes de facilité ou de difficulté
de lecture, de certaines formes fonctionnelles. On entend ici,
par forme fonctionnelle, les adverbes, les articles, les déterminants,
les conjonctions, les prépositions, et les pronoms.
Comme plusieurs de ces formes sont des locutions, nous avons
aussi bâti un dispositif pour repérer ces locutions.
Pour le moment, les locutions sont bloquées pour être
lexicalisées dans une deuxième version du texte.
L'inconvénient de cette méthode est qu'elle modifie
la structure de surface du texte (longueur des phrases et des
mots). Dans la prochaine version du prototype, l'étape
du blocage sera éliminée. On doit aussi noter que
le problème du repérage des locutions fonctionnelles
est un problème difficile à régler4.
On s'est donc concentré sur les cas les moins ambigus.
La liste comprend tout de même plus de 500 locutions comportant
chacune plusieurs variantes, par exemple la locution prépositive
sous prétexte (de,d',du,des) ou la locution
conjonctive tant et si bien (que,qu').
La dépistage en contexte des verbes
conjugués
Suite à la projection d'un dictionnaire sur le lexique
d'un texte, des unités graphiques, souvent parmi les plus
fréquentes, reçoivent plus d'une catégorie
syntaxique. Ces catégories renvoient à la nature
grammaticale de chacun des lexèmes. Lorsque l'on examine
les phrases dans lesquelles ces lexèmes sont employés,
on peut voir que la syntaxe, notamment, permet de préciser
laquelle des catégories grammaticales est active. Par exemple,
dans la phrase la femelle construit habituellement son nid
sous un tas de larges branches, le mot branches, qui
possède les catégories nom et verbe, ne peut pas
être un verbe conjugué à cause de la présence
à sa gauche de la préposition de. On peut
donc éliminer certaines ambiguïtés catégorielles
en s'appuyant sur les catégories grammaticales des mots
qui précèdent ou suivent la catégorie ambiguë.
Dans SATO-CALIBRAGE, en particulier, nous voulons repérer
les véritables verbes conjugués puisque nous allons
les utiliser pour dénombrer le nombre de propositions par
phrase.
Le modèle de traitement
Notre traitement de l'ambiguïté des catégories
Nom/Verbe s'apparente à ce que Silberztein (1989, pp. 137-140),
appelle des grammaires locales. Le modèle de
traitement que nous allons illustrer ici pour un problème
syntaxique pourrait être repris pour toute autre ambiguïté
catégorielle susceptible d'être levée à
partir de l'examen des contextes immédiats.
Avec SATO, il s'agit de décrire, sous la forme de patrons
de fouille (concordances SATO), les contextes désambiguïsants.
Du même coup, on associe aux patrons de fouille des actions
de désambiguïsation catégorielle. La solution
développée ici comporte deux étapes incorporées
dans une seule procédure : l'élagage ou la suppression
des catégories grammaticales indésirables
(émondage dans Habert 1990, pp.179-183) et
l'ajout d'une propriété (règle)
permettant de visualiser le résultat de la règle
et de retracer le contexte de son application. Cette procédure
de trace a été utilisée dans la phase de
validation de l'algorithme. Dans le prototype final, nous procédons
directement à la catégorisation.
Rappelons qu'avant de procéder à la désambiguïsation,
on doit d'abord procéder au dépistage des expressions
figées et à la catégorisation grammaticale.
On s'appuie sur un certain nombre de caractéristiques
du nom commun et du verbe pour lever l'ambiguïté.
Le nom commun, tête du syntagme nominal (SN), doit généralement
être déterminé; mais le déterminant
(à quelques exceptions près) ne peut apparaître
sans le nom de sorte que la présence du déterminant
force celle d'un nom à proximité. Dans le syntagme
verbal, les positions qui précèdent le verbe sont
très contraintes et l'on sait que les pronoms personnels
clitiques sont strictement ordonnés par rapport au verbe.
La désambiguïsation se trouve facilitée par
ce fonctionnement positionnel. Ce type de caractéristiques
nous servira d'appui dans la formulation des règles. Il
faut ajouter cependant que ces règles assument que les
unités sur lesquelles on s'appuie ne sont pas elles-mêmes
ambiguës.
Les règles Les règles utilisées sont contextuelles et opèrent de manière essentiellement locale (sur le contexte immédiat à gauche et à droite). Elles sont ordonnées selon une priorité décroissante et chaque règle s'applique dans un contexte modifié par l'application de la règle précédente. On commence par lever les cas d'ambiguïtés fréquents ou aisés. Cela signifie que l'efficacité d'une règle particulière dépend de l'ordonnancement global. Certaines règles ont un caractère probabiliste, c'est-à-dire qu'elles s'appliquent aux constructions les plus fréquentes. Pour les applications qui ne tolèrent aucune erreur, on devra vérifier les contextes d'application de ces règles.
Il y a trois types de règles. D'abord, on a des règles
dites lexicales qui s'apppliquent aux lexèmes spécifiques
particulièrement fréquents. Ensuite, on a des règles
de confirmation des catégories Verbe et Auxiliaire. Finalement,
on trouve des règles qui retirent la catégorie V_conj
(verbe conjugué) à la séquence ambiguë.
On attribue le numéro de la règle déclenchée
à la propriété *règle. L'ajout de
cette propriété permet de repérer la règle
qui a opéré la désambiguïsation. Du
point de vue informatique, l'ensemble du dispositif prend la forme
d'un scénario (fichier de commandes SATO) que nous avons
appelé DESAMBIC. Rem. Dans les commandes qui suivent: *1 tient lieu de Concordance stricte; *- est un opérateur qui désigne un patron facultatif; *+ est un opérateur qui désigne un patron répétable; *~ est un opérateur qui désigne un patron qui doit être absent; : est un opérateur qui implique l'affectation de la valeur qui suit; :- est un opérateur qui implique le retrait de la valeur qui suit; :+ est un opérateur qui implique l'ajout de la valeur qui suit; == signifie une égalité stricte (la catégorie désignée et rien d'autre); ~~ signifie la non-égalité stricte (NON ==)
** en fin de ligne signifie que la commande se
poursuit sur la ligne suivante
Règles lexicales
l1- Puis *1 je*~ ** puis*syntaxe:v_conj*4l1 ** *~
l2- Ni *1 ni **
$*syntaxe=v_conj*syntaxe~~v_conj*syntaxe:v_conj*4l2
l3- L'un *1 l' **
un*syntaxe:p_indéf
Règles de confirmation
1- Pronom personnel - Verbe
Une forme, qui peut être un nom ou un verbe, précédée
d'un pronom personnel sujet qui peut être suivi facultativement
d'un adverbe de négation et d'un pronom clitique objet,
est un verbe conjugué.
Exemple : Il ne dépense
ses énergies que pour lutter contre le froid *1 (je,j',tu,il,elle,on,nous,vous,ils,elles) ** (ne,n')*- ** (me,te,nous,vous,le,la,les,m',se,s',t',l',lui,leur)*- ** (le,la,les,lui,leur,nous,vous,en,y)*- **
$*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*règle:+c1
2- Auxiliaire - Participe passé - (été,eu)
- Participe passé
Une forme verbale suivie d'un adverbe facultatif et répétable,
de été ou eu facultatifs, et d'une
forme pouvant être un adjectif ou un participe passé,
est un auxiliaire; été et eu ne sont
pas des auxiliaires et la forme adj/ppassé est un participe
passé.
La forme été et eu, qui suit un auxiliaire
suivi d'un adverbe facultatif et répétable, est
un participe passé.
Exemple : Les plantes sauvages ont souvent été
arrachées des terres agricoles... * Cas général *1 $*syntaxe=aux*syntaxe:aux*règle:+c2 ** $*gramr=adv*-*+ **
(été,eu)*syntaxe:ppassé*règle:+c2
* Cas particulier *1 $*gramr=aux*syntaxe:aux*règle:+c2 ** $*gramr=adv*-*+ ** (été,eu)*syntaxe:aux*règle:+c2*- **
$*gramr=(adj,ppassé)*syntaxe:ppassé*règle:+c2
Valeur règle c2 pour $*syntaxe=aux*syntaxe=v_conj
Valeur syntaxe - aux pour $*syntaxe=aux*syntaxe=v_conj
3- ne - Verbe
Une forme précédée de ne, et précédée
de pronoms objets clitiques facultatifs et répétables,
est un verbe.
Exemple : La marmotte ne cache pas de réserves...
*1 (n',ne) ** $*gramr=p_pers*-*+ **
$*syntaxe=v_conj*syntaxe~~v_conj*syntaxe:v_conj*règle:+c3
4- Catégorisation des verbes par le pronom objet
Une forme, précédée de pronoms objets (directs
ou indirects), et suivie facultativement de d'autres pronoms objets,
est un verbe. Exemple : La marmotte se terre dans sa résidence d'hiver...
*1 (me,te,se,m',t',s',lui,nous,vous) ** (le,la,les,lui,leur,nous,vous,en,y)* **
$*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*4c4
5- Catégorisation des verbes par le pronom sujet inversé
Une forme, suivie d'un trait d'union, et suivie d'un pronom personnel,
est un verbe.
Exemple : Amenez-en; Donne-la;
Va-t-il à l'école? *1 $*syntaxe=v_conj*syntaxe~~v\_conj*syntaxe:v_conj*4c5 ** **
(je,nous,tu,vous,il,elle,on,elles,ils,ce,t,le,la,les,lui,y,en)
Règles de désambiguïsation
1- préposition - Verbe Une forme, qui peut être soit un nom soit un verbe, n'est pas un verbe conjugué si elle est précédée d'une forme qui est strictement une préposition. La préposition peut être suivie facultativement d'un article ou d'un déterminant et d'adjectifs non ambigus.
Exemple : La femelle construit habituellement son nid sous
un tas de larges branches... *1 $*gramr==prép ** $*gramr=(art$,dét$)*- **
$*gramr==adj$*-*+ ** $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*&*règle:+d1
(Remarque: l'opérateur *& oblige la concordance à
se déployer à partir du verbe ambigu. Sinon SATO
pourrait, par optimisation, choisir une autre position.
2- (au,aux,du,des,un,une) - Verbe
Une forme, qui peut être un nom ou un verbe, précédée
d'un adjectif facultatif lui-même précédé
de au,aux,du,des,un,une,
n'est pas un verbe conjugué. On exclut la construction
l'un, l'une.
Exemple : Cela produit d'abord une série
de sons sourds... *1 l'*~ ** (au,aux,du,des,un,une) ** $*gramr==adj$*-*+ **
$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d2
3- Pronom personnel (1,2p) - Verbe
Une forme qui se termine par es et qui peut être
un nom ou un verbe n'est pas un verbe conjugué si elle
n'est pas précédée par tu, nous
ou vous. Ces pronoms peuvent être suivis facultativement
de ne et/ou de pronoms clitiques objets.
On doit exclure les inversions interrogatives. Cette règle,
juste dans la majorité des cas, est cependant erronnée
pour les formes impératives des verbes comme faire
et dire. Si l'on a besoin d'une fiabilité absolue,
on devra donc vérifier les contextes d'application de la
règle.
Exemple : Nous ne devrions jamais circuler sur les voies
publiques... *1 (tu,nous,vous)*~ ** (n',ne)*- ** $*gramr=p_pers*- ** |es*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d3 **
-*~
4- Déterminant possessif - Verbe
Une forme qui peut être un nom ou un verbe précédée
d'une forme qui ne peut être qu'un déterminant possessif
n'est pas un verbe conjugué.
Exemple : Les avions pourront partir à sa recherche...
*1 $*gramr==détposs **
$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d4
**
5- Déterminant démonstratif - Verbe
Une forme qui peut être un nom ou un verbe, précédée
d'une forme qui ne peut être qu'un déterminant démonstratif,
n'est pas un verbe conjugué.
Exemple : Les béliers ressemblent en plusieurs points
à ceux qui sont nés sous ce signe
astrologique... *1 $*gramr==détdém **
$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d5
**
6- Article - Adjectif - Verbe
Une forme qui peut être un nom ou un verbe, précédée
facultativement d'une forme qui ne peut être qu'un adjectif
répétable, lui-même précédé
d'un article quelconque, n'est pas un verbe conjugué. Exemple : Le jeune athlète était choisi sur la meilleure équipe du tournoi...
*1 $*gramr=art$ ** $*gramr==adv*- ** $*gramr==adj*+ **
$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d6
7- Auxiliaire - Verbe
Une forme précédée d'un auxiliaire n'est
pas un verbe conjugué.
Exemple : Conrad et Denis en seront quittes pour
un sommeil agité. *1 $*gramr==aux **
$*syntaxe=v_conj*syntaxe:-v_conj*règle:+d7 **
8- Verbe - Verbe conjugué
Une forme qui peut être un nom ou un verbe et qui suit ou
qui précède une forme qui ne peut être qu'un
verbe conjugué n'est pas un verbe conjugué.
Il s'agit ici d'une règle approximative qui génère
des erreurs avec les propositions relatives du genre l'homme
qui arrive repart. Si une application requiert un minimum
d'erreur, on doit prévoir une validation manuelle des phrases
où la règle a été déclenchée
en présence d'un pronom relatif. Une concordance SATO pourra
facilement identifier les cas à vérifier.
Exemple : Le groupe a produit cinq albums
qui ont marqué l'histoire... *1 $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d8 **
$*syntaxe==v_conj *1 $*syntaxe==v_conj ** (pas,jamais)*- **
$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d8
9- Verbe infinitif - Verbe
Une forme qui peut être un nom ou un verbe, précédée
d'un article facultatif lui même précédé
d'un verbe à l'infinitif, n'est pas un verbe conjugué.
Exemple : Le pilote doit avoir recours aux instruments
de vol. *1 $*gramr=v_inf ** $*gramr=art$*- **
$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d9
10- Point - Déterminant - Verbe
Une forme qui peut être un nom et un verbe, précédée
d'un déterminant quelconque, lui-même précédé
d'un point de ponctuation, n'est pas un verbe conjugué.
Exemple : Ces plantes sont infiniment
faciles à cultiver. *1 . ** $*gramr=dét$ **
$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d10
11- Participe passé - Déterminant - Verbe
Une forme qui peut être un participe passé et un
verbe, précédée d'un élément
qui est strictment un déterminant, n'est pas un verbe conjugué.
Exemple : À plusieurs reprises, il tente d'ouvrir son parachute.
Cela a permis d'obtenir quelques données
sur la durée de vie de l'ours sauvage. *1 $*gramr==dét$ **
$*syntaxe=v_conj*gramr=ppassé*syntaxe:-v_conj*règle:+d11
12- Verbe - (qui,dont)
Une forme, qui peut être un nom et un verbe, suivie de qui
ou dont n'est pas un verbe conjugué.
Exemple : Une mince couche de glace qui se brise.
*1 $*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d12 **
(qui,dont)
13- Verbe conjugué - Article/Déterminant/Adjectif
- Verbe
Une forme qui peut être un nom et un verbe, précédée
d'un article, d'un déterminant ou d'un adjectif quelconque,
lui-même précédé d'une forme qui ne
peut être qu'un verbe, n'est pas un verbe conjugué.
Exemples : Les prairies rocheuses sont autant d'endroits où se trouve la marmotte Elles étaient longues d'une dizaine de millimètres et me mangeaient toute vive.
Le co-pilote me sembla bien calme. *1 $*gramr==v_conj ** $*gramr=(art,dét,adj)$ **
$*syntaxe=v_conj*syntaxe=nomc*syntaxe:-v_conj*règle:+d13
14- Verbe conjugué/préposition nous/vous
Une forme suivie d'un pronom personnel qui n'est pas liée
au verbe par un trait d'union n'est pas un verbe conjugué.
Exemples : Entre nous; Contre vous,
etc.
*1 $*syntaxe=v_conj*syntaxe=prép*syntaxe:v_conj*4d14 ** *~ **
(nous,vous,lui,toi,moi,eux) Appartenance catégorielle, choix opérés et justifications
Certaines formes (des catégories fonctionnelles pour la
plupart) sont désambiguïsées au préalable
en vertu de leur fréquence d'utilisation. C'est le cas
de par et son qui ont une probabilité forte
pour les catégories Prép et AdjPoss alors qu'elle
est assurément faible pour la catégorie Nom. De
la même façon, on peut inhiber la catégorie
nominale de est et la catégorie verbale de cela
et plus.
Une approche fondée sur les statistiques et la pondération
(à partir de grand corpus) permet d'envisager le traitement
de la désambiguïsation dès la phase d'étiquetage
non seulement pour les catégories fonctionnelles mais pour
l'ensemble des catégories. Hennequin (1992, p. 17) rapporte
que dans les systèmes fonctionnant ainsi, le dictionnaire
a une forme un peu particulière. Chaque mot catégoriellement
ambigu figurant dans le dictionnaire possède, en plus de
ses diverses catégories, un marqueur qui indique la probabilité
que le mot en question ait effectivement telle ou telle catégorie
(voir aussi Smith 1991, p. 87). Intérêt de la phase de désambiguïsation avec SATO
Avec SATO, on dispose d'un outil permettant d'évaluer
la productivité des règles et de voir par quels
moyens rendre la grammaire d'émondage plus efficace. On
peut comparer toutes les applications réussies de telle
ou telle règle ou, à l'inverse, tous les contextes
semblables où aucune règle de désambiguïsation
ne s'est appliquée. Cela permet d'examiner tous les cas
semblables disséminés dans un texte et de rectifier
les règles déjà existantes ou d'ajouter de
nouvelles règles pour augmenter l'efficacité du
système. On pourrait notamment se servir des règles
d'accord. L'intérêt de la méthode développée ici, outre sa relative simplicité, notamment pour l'ajout de nouvelles règles, tient donc au protocole de validation qu'il permet de réaliser.
Après l'application des règles expliquées
précédemment, on peut passer en mode assistance
pour permettre à l'utilisateur de lever les ambiguïtés
qui demeurent. Si on accepte un certain pourcentage d'erreur,
on peut sauter cette phase de validation manuelle.
Le dépistage de phrases complexes
Dans l'article de Léo Laroche Analyses statistiques
pour la constitution d'un indice SATO-CALIBRAGE, on trouve
la liste complète des variables (indices) dépistées
par SATO-CALIBRAGE. Certaines de ces variables proviennent directement
de la grille d'évaluation du ministère de l'Éducation.
D'autres nous ont été suggérées par
les conseillers pédagogiques qui font partie du Comité
des utilisateurs de SATO-CALIBRAGE. Voici le scénario produisant
plusieurs des indices de difficulté (ou de facilité)
utilisés par SATO-CALIBRAGE. Le rapport de calibrage, dans
sa forme minimale, n'utilise qu'une fraction des indices dépistés.
* Scénario pour le dépistage de variables d'indices de complexité * François Daoust * Centre d'Analyse de Textes par Ordinateur
* Université du Québec à Montréal,
juin 1993 * On crée des propriétés de marquage dont on se servira dans la suite des opérations; * la propriété diag permet d'identifier le type de complexité dépisté Propriété créer rejet symbolique pour lexique oui Propriété créer marque symbolique pour texte oui Propriété créer diag symbolique pour texte 115 1620 2125 2630 3199 **
DPréConj DPro3 4V ProInv Inc2 Pro3 Conj2
ProPer2 ProProV PronpV ProÉcrProV * L'abréviation 1 contient la liste des ponctuations fortes
Abréviation 1 (.,;,:,...,!,?) * Phrases de 1 à 15 mots * La commande segmenter divise le texte en phrases en ne * conservant que celles qui correspondent au patron indiqué: <16; * La commande valeur affecte le diagnostic à la ponctuation Segmenter par délimiteur *1 terminal longueur <16
Valeur diag + 115 pour *1 concordance * * Phrases de 16 à 20 mots * La commande segmenter divise le texte en phrases en ne * conservant que celles qui correspondent au patron indiqué: >15<21; * La commande valeur affecte le diagnostic à la ponctuation Segmenter par délimiteur *1 terminal longueur >15<21
Valeur diag + 1620 pour *1 concordance * * Phrases de 21 à 25 mots * La commande segmenter divise le texte en phrases en ne * conservant que celles qui correspondent au patron indiqué: >20<26; * La commande valeur affecte le diagnostic à la ponctuation Segmenter par délimiteur *1 terminal longueur >20<26
Valeur diag + 2125 pour *1 concordance * * Phrases de 26 à 30 mots * La commande segmenter divise le texte en phrases en ne * conservant que celles qui correspondent au patron indiqué: >25<31; * La commande valeur affecte le diagnostic à la ponctuation Segmenter par délimiteur *1 terminal longueur >25<31
Valeur diag + 2630 pour *1 concordance * * Phrases de plus de 30 mots * La commande segmenter divise le texte en phrases en ne * conservant que celles qui correspondent au patron indiqué: >30; * La commande valeur affecte le diagnostic à la ponctuation Segmenter par délimiteur *1 terminal longueur >30
Valeur diag + 3199 pour *1 concordance * * On redéfinit le contexte pour inclure la ponctuation qui * précède le début de la phrase.
Contexte délimité de *1 inclus à
*1 inclus * Phrases commençant par une préposition ou une conjonction * On cherche la ponctuation immédiatement suivie d'une * préposition ou d'une conjonction à laquelle on affecte le diagnostic.
Concordance stricte *1 $*gramr=(prépo$,conjon$)*diag:+DPréConj
* Phrases qui débutent par un pronom à la 3ième personne * On cherche la ponctuation immédiatement suivie du * pronom auquel on affecte le diagnostic.
Concordance stricte *1 (il,elle,ils,elles)*diag:+DPro3
* Phrases contenant quatre propositions ou plus * On cherche quatre verbes conjugés successifs; * on affecte le diagnostic au dernier verbe. Concordance ordonnée $*syntaxe=v\_conj $*syntaxe=v\_conj **
$*syntaxe=v\_conj $*syntaxe=v\_conj*diag:+4V * Phrases interrogatives contenant un pronom inversé * On cherche un verbe conjugué immédiatement suivi (opérateur *.) * d'un trait d'union et d'un pronom; Ensuite, on cherche la présence * de ? auquel on affecte le diagnostic.
Concordance ordonnée $*syntaxe=v\_conj*.
*. $*gramr=p\_$ ?*diag:+ProInv * Phrases contenant au moins 2 mots inconnus * On cherche deux mots inconnus; * on affecte le diagnostic au dernier.
Concordance ordonnée $*connu=nil $*connu=nil*diag:+Inc2
* Phrases contenant une séquence de 3 pronoms * On cherche trois pronoms successifs; * on affecte le diagnostic au dernier.
Concordance stricte $*gramr=p\_$ $*gramr=p\_$ $*gramr=p\_$*diag:+Pro3
* Phrases contenant deux conjonctions ou plus * On cherche deux conjonctions successives; * on affecte le diagnostic à la dernière.
Concordance ordonnée $*gramr=conjonction
$*gramr=conjonction*diag:+Conj2 * Phrases contenant deux pronoms personnels * de la première ou deuxième personne * On cherche deux pronoms désignés successifs; * on affecte le diagnostic au dernier.
Concordance ordonnée (j',je,tu,t',nous,vous)
(j',je,tu,t',nous,vous)*diag:+ProPer2 * Phrases contenant le patron pronom pronom verbe * On exclut les formes pronominales simples que l'on va marquer par *marque:oui; * Finalement, on cherche un pronom, immédiatement suivi d'un pronom * nom-marqué et d'un verbe auquel on affecte le diagnostic. Concordance stricte je me*marque:oui $*syntaxe=v\_conj Concordance stricte tu te*marque:oui $*syntaxe=v\_conj Concordance stricte (il,elle,ils,elles) se*marque:oui $*syntaxe=v\_conj Concordance stricte nous nous*marque:oui $*syntaxe=v\_conj Concordance stricte vous vous*marque:oui $*syntaxe=v\_conj Valeur marque oui pour y Concordance stricte $*gramr=p\_$ $*gramr=p\_$*marque~oui **
$*syntaxe=v\_conj*diag:+ProProV * Phrases contenant le patron pronomnonpersonnel verbe * en excluant c' et on que l'on va marquer par *rejet:oui; * Finalement, on cherche un pronom désigné qui n'est pas rejeté, * immédiatement suivi d'un verbe conjugué auquel on affecte le diagnostic. Valeur rejet oui pour (c',on) Concordance stricte $*gramr=p\_(relatif,indéf,dém,poss)*rejet~oui ** $*syntaxe=v\_conj*diag:+PronpV
Valeur rejet nil pour (c',on) * Phrases contenant le patron suivant: pronom écran pronom verbe; L'écran * est n'importe quoi sauf une ponctuation; On affecte le diagnostic au verbe Concordance stricte $*syntaxe=p\_$ ** $*syntaxe~p\_$*gram~(ponctuation,virgule) **
$*syntaxe=p\_$ $*syntaxe=v\_conj*diag:+ProÉcrProV
Une fois que le dispositif linguistique a effectué ses
diagnostics , SATO-CALIBRAGE peut afficher les phrases marquées
dans le rapport de calibrage. Il peut aussi les compter pour produire
les données qui seront traitées par les analyseurs
statistiques.
NOTES
1 Cette base de données, appelée couramment
la BDL, a été développée
au départ par Luc Dupuy dans le cadre du projet SACAO (Système
d'analyse de contenu assistée par ordinateur, Programme
Actions spontanées, FCAR 1989-91) dirigé par Jules
Duchastel alors qu'il était directeur du Centre d'ATO.
2 L'équipe RDLC du Centre d'ATO a produit un
analyseur morphologique (LCMF, L. Dumas avec la collaboration
de P. Plante, D. Perras et A. Plante) destiné à
fournir l'information catégorielle nécessaire au
parseur ALSF (analyseur lexico-syntaxique du français,
J.M. Marandin, S. David et P. Plante). Contrairement à
l'approche que nous avons adoptée avec la BDL, l'analyseur
morphologique LCMF est un module informatique fermé plutôt
qu'une base de données modifiable.
3 COURTOIS, Blandine (1990) "Un système
de dictionnaires électroniques pour les mots simples du
français". Langue Française 87.
4 Que l'on pense par exemple à l'expression
en fait qui souvent n'agit pas comme locution: en
fait, il en fait trop. Dans cet exemple, on a la locution
adverbiale en fait suivie d'une forme conjuguée
du verbe faire.
Bibliographie
COURTOIS, Blandine (1990) "Un système de dictionnaires
électroniques pour les mots simples du français".
Langue Française 87.
FUJISAKI, T. F. JELINEQ, J. COCKE, E. BLACK, T. NISHINO (1989)
A Probalilistic Parsing Method for Sentence Disambiguation,
présenté au International Workshop on Parsing Technologies,
CMU, repris in Current Issues in Parsing Technology, Masaru
Tomita (éds), Kluwer Academic, 1991.
GUILLET, Alain (1990) Reconnaissance des formes verbales
avec un dictionnaire minimal. Langue Française
87.
HABERT, Benoît (1991) Olmes : un système d'exploration
et de structuration de textes, Thèse de doctorat, Université
Paris 7, Institut Blaise Pascal.
HENNEQUIN, Marie-Pierre (1992) Émontage et analyse
syntaxique automatique, DEA en Linguistique Théorique
et Formelle, Université Paris 7, UFR en Linguistique.
MILNE, Robert (1988) Lexical Ambiguity Resolution in a
Deterministic Parser in Lexicla Ambiguity Resolution,
Steven L. Small, Garrison W. Cottrel and Michael K. Tanenhaus
(eds), Morgan Kaufman Publishers.
SILBERZTEIN, Max (1992) Reconnaissance automatique des
mots d'un texte : les premières étapes à
paraître dans les Actes du Colloque Lexique Grammaire, UQAM.
SILBERZTEIN, Max (1989) Dictionnaire électronique et
reconnaissance lexicale automatique, Thèse de doctorat
en informatique, LADL, Université Paris 7. SMITH, Georges W. (1991) Computers and Human Language, Oxford University Press, New York. |