Voir explications et nomenclature en version cadre François Daoust, Fernande Dupuis, Éfoé Wallace 1. Généralités 2. Représentation symbolique des informations lexicales
1. Généralités1.1 Description des entrées lexicales La catégorisation des entrées du lexique de la Base de Données Lexicales (BDL) s'est faite selon le découpage traditionnel en syntaxe du français, c'est-à-dire, d'une part, les catégories majeures (nom, verbe, adjectif, adverbe) et d'autre part, les catégories mineures ou fonctionnelles (préposition, pronom, conjonction, etc.). Par ailleurs, certains lexèmes portent non seulement le nom de leur catégorie principale, mais aussi celui de la sous-catégorie à laquelle ils appartiennent. Les entrées lexicales du dictionnaire qui sont des formes fléchies portent, en plus de ces informations précitées, celles relatives aux traits morphologiques de genre et de nombre. En conséquence, sur une entrée lexicale donnée, on peut donc avoir jusqu'à trois niveaux de description dans l'ordre suivant : 1.2.Typologie des informations liées aux entrées lexicales Chaque entrée du dictionnaire (BDL) est constituée d'un lexème (ou entrée lexicale) accompagné de sa catégorie syntaxique, de sa sous-catégorie syntaxique si nécessaire, et enfin, d'une description de son comportement flexionnel. Liste des catégories syntaxiques et les modes de flexions correspondants :
Le cas des verbes Les verbes varient en mode, temps et personne. Cependant, nous avons traité à part le cas du participe, en particulier le participe passé car la majorité d'entre eux sont des adjectifs déverbaux. Par conséquent, ils varient en genre et en nombre.
Le participe
1.3 Représentation des informations lexicales des entrées du dictionnaire. La Base de Données Lexicales contient plusieurs catégories d'informations associées aux entrées (ou entrées lexicales) de la base. Ces catégories d'informations, appelées par leur nom de propriété, sont, par exemple, la propriété lemme qui contient la forme canonique d'une entrée lexicale donnée, la propriété Gramr qui contient des informations d'ordre grammatical relatives à une entrée lexicale donnée, etc. (Voir Installation et ressources de la BDL pour une liste complète des propriétés) Ce sont donc les informations contenues dans toutes ces propriétés de la BDL qui font l'objet de description dans ce guide. Ainsi, pour une application donnée, par exemple, le repérage et l'extraction de classes de mots d'un texte déjà catégorisé par la BDL, il vous faut utiliser les mêmes étiquettes que celles à partir desquelles la BDL a catégorisé le texte désigné. Autrement dit, les valeurs symboliques que vous utiliserez dans vos requêtes à des fins de repérage et d'extraction des mots doivent avoir les mêmes représentations symboliques que celles de la propriété (par exemple, la propiété Gramr) que aurez choisi dans la BDL. C'est la raison pour laquelle, par souci de tranparence et de lisibilité, les valeurs symboliques de toutes les propriétés de la BDL possèdent une structure linéaire, permettant de les lire, de les écrire et de les manipuler aisément à des fins de recherche, d'extraction et de catégorisation de lexique ou de texte. L'identification ou la catégorisation d'un lexème ou d'une classe de lexèmes se fait principalement en fonction de deux données morpho-syntaxiques descriptives, à savoir : 2. Représentation symbolique des informartions lexicales2.1. Principe général de représentation des valeurs symboliques Chaque valeur symbolique qui sert à catégoriser une entrée morphologique du dictionnaire commence par le nom la catégorie syntaxique principale du lexème, suivi des autres caractéristiques descriptives du lexème. Exemples :
2.2 Modèle de représentation avec seulement une catégorie principale : valeurs symboliques à 3 lettres Ce modèle concerne les lexèmes qui sont pleinement identifiés par seulement une catégorie syntaxique. En somme, il s'agit de la catégorie syntaxique principale généralement utilisée pour ce lexème; elle est représentée par une valeur symbolique composée des 3 premières lettres du nom de la catégorie. De manière générale, ces lexèmes sont invariants quelque soit leur contexte d'apparition. On retrouve dans ce cas par exemples :
Une requête avec seulement les 3 premières lettres du nom de la catégorie fournira donc le lexique complet disponible dans la BDL pour cette catégorie. 2.3. Modèle de représentation de la catégorie principale et de la sous-catégorie: les valeurs symboliques à 6 lettres Certains lexèmes ont besoin, pour être identifiés avec précision, que l'on spécifie non seulement leur classe syntaxique principale (catégorie principale), mais aussi les sous-classes auxquelles ils appartiennent. Par exemple, c'est le cas de la classe des pronoms où l'on en distingue plusieurs types : pronoms personnels, pronoms relatifs, etc.. Ces lexèmes sont identifiés avec une valeur symbolique composée de 6 lettres, dont les trois premières représentent la catégorie principale, et les trois dernières symbolisent le nom de la sous- catégorie syntaxique. Exemples :
2.4. Représentation des marques de flexions dans les valeurs symboliques Les marques de flexion des occurrences lexicales sont aussi représentées symboliquement à l'aide de caractères alphabétiques. Le principe adopté est d'utiliser la première lettre alphabétique du nom du mode de flexion, dans l'ordre genre + nombre ; soit :
Ces valeurs symboliques s'ajoutent à la fin de l'étiquette. Exemples :
2.5. L'affectation des informations lexicales aux unités lexicales dites "des deux genres et des deux nombres" ou "neutres" Les lexèmes qui peuvent déterminer aussi bien des noms du genre masculin que des noms du genre féminin tout en gardant la même morphologie sont affectés de toutes les informations morpho-syntaxiques décrivant chacune des possibilités. C'est ainsi que, par exemple, l'adjectif démonstratif ces porte les valeurs symboliques Adjdémmp et Adjdémfp, car cette unité lexicale a l'une ou l'autre valeur selon le genre du nom qu'elle détermine. Ajoutons cependant que ce choix de codification ne concerne que les unités lexicales qui ont un paradigme flexionnel, par exemple les verbes. Les formes fonctionnelles dont la morphologie ne peut être traitée en termes de genre ou de nombre, parce qu'ils sont invariants dans n'importe quel contexte, sont affectées seulement des informations relatives à leurs catégories syntaxiques principales et à leurs sous-catégories. C'est par exemple le cas de certains pronoms relatifs :
2.6. Les valeurs symboliques d'identification des occurrences verbales Les verbes sont identifiés avec une valeur symbolique composée de 7 lettres. Dans le cas échéant, une valeur numérique (de1à 6) identifiant la personne s'ajoute à cette étiquette; ce qui nous permet d'avoir dans une seule étiquette, non seulement la catégorie principale V (V pour verbe), mais aussi les traits morphologiques du mode, du temps et de la personne qui caractérisent l'occurrence. La structure interne des valeurs symboliques affectées aux occurrences verbales est (dans l'ordre) : catégorie principale (1 lettre) + mode (3 lettres) + temps (3 lettres) + personne (3 lettres) Exemples :
3. Exemples de recherche et d'extraction de lexiqueCes exemples ne constituent pas une directive unique en matière de requête visant à rechercher et à extraire du lexique dans SATO; c'est avant tout un aide-mémoire sur la structure et l'utilisation des étiquettes. Les exemples dans les sections suivantes permettent d'afficher et d'extraire ainsi du lexique catégorisé à l'aide de la BDL. Remarque : le nom de propriété Gramr utilisé dans les sections suivantes est à titre d'exemple. En réalité, il faut utiliser le nom de la propriété à l'aide duquel la catégorisation a été faite. (Voir aussi Daoust, F. (1996). SATO : manuel de références, UQAM). 3.1. Repérer les mots à partir des catégories syntaxiquesExemple :
Exemples :
Exemples :
Les traits de genre et de nombre ont chacun une étiquette d'une lettre, dans l'ordre : genre + nombre, précédé du nom des catégories principales. Exemple :
Exemple :
Exemple :
Les verbes fléchis peuvent être identifiés par le mode, le temps et la personne. La lettre V (pour verbe) liste tous les verbes, y compris les formes infinitives et participiales. Exemple :
Exemples :
Exemples :
© Service ATO (UQAM) et EBSI (Université de Montréal) - Commentaires - |