Retour à l'accueil Remonter

Voir explications et nomenclature en version cadre


NOTES EXPLICATIVES SUR LES DESCRIPTIONS LEXICALES DE LA BDL

François Daoust, Fernande Dupuis, Éfoé Wallace


1. Généralités

  • 1.1. Description des entrées lexicales
  • 1.2. Typologie des informations liées aux entrées lexicales
  • 1.3. Représentation des informations lexicales des entrées du dictionnaire

    2. Représentation symbolique des informations lexicales

  • 2.1. Principe général de représentation des valeurs symboliques
  • 2.2. Modèle de représentation avec seulement une catégorie principale : les valeurs symboliques à 3 lettres.
  • 2.3. Modèle de représentation de la catégorie principale et de la sous-catégorie: les valeurs symboliques à 6 lettres
  • 2.4. Représentation des marques de flexions dans les valeurs symboliques
  • 2.5. L'affectation des informations lexicales aux unités lexicales dites "des deux genres et des deux nombres" ou "neutres".
  • 2.6. Les valeurs symboliques d'identification des occurrences verbales

    3. Exemples de recherche et d'extraction de lexique

  • 3.1 Repérer les mots à partir des catégories syntaxiques
  • 3.2 Repérer les occurrences à partir des traits morphologiques de genre et de nombre
  • 3.3 Repérer les occurrences verbales




    1. Généralités

    1.1 Description des entrées lexicales

    La catégorisation des entrées du lexique de la Base de Données Lexicales (BDL) s'est faite selon le découpage traditionnel en syntaxe du français, c'est-à-dire, d'une part, les catégories majeures (nom, verbe, adjectif, adverbe) et d'autre part, les catégories mineures ou fonctionnelles (préposition, pronom, conjonction, etc.). Par ailleurs, certains lexèmes portent non seulement le nom de leur catégorie principale, mais aussi celui de la sous-catégorie à laquelle ils appartiennent. Les entrées lexicales du dictionnaire qui sont des formes fléchies portent, en plus de ces informations précitées, celles relatives aux traits morphologiques de genre et de nombre. En conséquence, sur une entrée lexicale donnée, on peut donc avoir jusqu'à trois niveaux de description dans l'ordre suivant :

  • 1. Catégorie syntaxique principale
  • 2. Sous-catégorie syntaxique
  • 3. Traits morphologiques : genre et nombre, mode, temps et personne

    1.2.Typologie des informations liées aux entrées lexicales

    Chaque entrée du dictionnaire (BDL) est constituée d'un lexème (ou entrée lexicale) accompagné de sa catégorie syntaxique, de sa sous-catégorie syntaxique si nécessaire, et enfin, d'une description de son comportement flexionnel.

    Liste des catégories syntaxiques et les modes de flexions correspondants :

    Catégorie syntaxique Sous-catégorie syntaxique

    Mode de flexion :

  • genre
  • nombre
  • Exemples
    Abréviation
    -
    -
    km
    Adjectif démonstratif
  • masc/fém
  • sing/pl
  • cet
    "
    exclamatif
  • masc/fém
  • sing/pl
  • quel
    "
    indéfini
  • masc/fém
  • sing/pl
  • certain
    "
    interrogatif
  • masc/fém
  • sing/pl
  • quel
    "
    numéral
  • masc/fém
  • sing/pl
  • deux
    "
    possessif
  • masc/fém
  • sing/pl
  • mon
    "
    qualificatifl
  • masc/fém
  • sing/pl
  • petit
    "
    relatif
  • masc/fém
  • sing/pl
  • lequel
    Adverbe
    -
    -
    puis
    Article défini
  • masc/fém
  • sing/pl
  • le
    "
    indéfini
  • masc/fém
  • sing/pl
  • un
    "
    partitif
  • masc/fém
  • sing/pl
  • du
    Conjonction
    -
    -
    donc
    Délimiteur
    -
    -
    (
    Interjection
    -
    -
    allô
    Nom commun
  • masc/fém
  • sing/pl
  • table
    "
    propre
    -
    Québec
    Onomatopée
    -
    -
    boum
    Ponctuation
    -
    -
    ;
    Préposition
    -
    -
    avec
    Pronom démonstratif
  • masc/fém
  • sing/pl
  • celui-ci
    "
    démonstratif
    -
    ça
    "
    exclamatif
    -
    quoi
    "
    indéfini
  • masc/fém
  • sing/pl
  • aucun
    "
    interrogatif
  • masc/fém
  • sing/pl
  • lequel
    "
    interrogatif
    -
    qui
    "
    personnel
  • masc/fém
  • sing/pl
  • je
    "
    possessif
  • masc/fém
  • sing/pl
  • le mien
    "
    réfléchi
    -
    se
    "
    relatif
  • masc/fém
  • sing/pl
  • lequel
    "
    relatif
    -
    Résidu
    -
    -
    a

    Le cas des verbes

    Les verbes varient en mode, temps et personne. Cependant, nous avons traité à part le cas du participe, en particulier le participe passé car la majorité d'entre eux sont des adjectifs déverbaux. Par conséquent, ils varient en genre et en nombre.

    Catégorie syntaxique Mode Temps Personne Exemples
    Verbe Indicatif présent 1 à 6 parle
    "
    "
    imparfait 1 à 6 parlait
    "
    "
    futur 1 à 6 parlerai
    "
    "
    passé 1 à 6 parlé
    "
    Conditionnel présent 1 à 6 parlerais
    "
    Subjonctif présent 1 à 6 parle
    "
    Subjonctif imparfait 1 à 6 parlasse
    "
    Impératif présent 2, 4, 5 parle

    Le participe

    Catégorie syntaxique Mode Temps

    Mode de flexion :

  • genre
  • nombre
  • Exemples
    Verbe Participe Présent
    -
    parlant
    "
    "
    Passé
  • masc/fém
  • sing/pl
  • admis

    1.3 Représentation des informations lexicales des entrées du dictionnaire.

    La Base de Données Lexicales contient plusieurs catégories d'informations associées aux entrées (ou entrées lexicales) de la base. Ces catégories d'informations, appelées par leur nom de propriété, sont, par exemple, la propriété lemme qui contient la forme canonique d'une entrée lexicale donnée, la propriété Gramr qui contient des informations d'ordre grammatical relatives à une entrée lexicale donnée, etc. (Voir Installation et ressources de la BDL pour une liste complète des propriétés) Ce sont donc les informations contenues dans toutes ces propriétés de la BDL qui font l'objet de description dans ce guide.

    Ainsi, pour une application donnée, par exemple, le repérage et l'extraction de classes de mots d'un texte déjà catégorisé par la BDL, il vous faut utiliser les mêmes étiquettes que celles à partir desquelles la BDL a catégorisé le texte désigné. Autrement dit, les valeurs symboliques que vous utiliserez dans vos requêtes à des fins de repérage et d'extraction des mots doivent avoir les mêmes représentations symboliques que celles de la propriété (par exemple, la propiété Gramr) que aurez choisi dans la BDL.

    C'est la raison pour laquelle, par souci de tranparence et de lisibilité, les valeurs symboliques de toutes les propriétés de la BDL possèdent une structure linéaire, permettant de les lire, de les écrire et de les manipuler aisément à des fins de recherche, d'extraction et de catégorisation de lexique ou de texte.

    L'identification ou la catégorisation d'un lexème ou d'une classe de lexèmes se fait principalement en fonction de deux données morpho-syntaxiques descriptives, à savoir :

  • le nom courant de la catégorie syntaxique du lexème;
  • le nom de la sous-catégorie syntaxique du lexème.

    2. Représentation symbolique des informartions lexicales

    2.1. Principe général de représentation des valeurs symboliques

    Chaque valeur symbolique qui sert à catégoriser une entrée morphologique du dictionnaire commence par le nom la catégorie syntaxique principale du lexème, suivi des autres caractéristiques descriptives du lexème.

    Exemples :

    Nomcom pour "nom commun"
    AdjRel pour "adjectif relatif"
    Properms pour "pronom personnel, masculin, singulier"

    2.2 Modèle de représentation avec seulement une catégorie principale : valeurs symboliques à 3 lettres

    Ce modèle concerne les lexèmes qui sont pleinement identifiés par seulement une catégorie syntaxique. En somme, il s'agit de la catégorie syntaxique principale généralement utilisée pour ce lexème; elle est représentée par une valeur symbolique composée des 3 premières lettres du nom de la catégorie.

    De manière générale, ces lexèmes sont invariants quelque soit leur contexte d'apparition. On retrouve dans ce cas par exemples :

    Abr pour abréviation
    Adv pour adverbe
    Con pour conjonction
    Pré pour préposition

    Une requête avec seulement les 3 premières lettres du nom de la catégorie fournira donc le lexique complet disponible dans la BDL pour cette catégorie.

    2.3. Modèle de représentation de la catégorie principale et de la sous-catégorie: les valeurs symboliques à 6 lettres

    Certains lexèmes ont besoin, pour être identifiés avec précision, que l'on spécifie non seulement leur classe syntaxique principale (catégorie principale), mais aussi les sous-classes auxquelles ils appartiennent. Par exemple, c'est le cas de la classe des pronoms où l'on en distingue plusieurs types : pronoms personnels, pronoms relatifs, etc..

    Ces lexèmes sont identifiés avec une valeur symbolique composée de 6 lettres, dont les trois premières représentent la catégorie principale, et les trois dernières symbolisent le nom de la sous- catégorie syntaxique.

    Exemples :

    Adjind pour adjectif indéfini
    Adjexc pour adjectif exclamatif
    Artpar pour article partitif
    Nomcom pour nom commun
    Proréf pour pronom réfléchi
    Proind pour pronom indéfini

    2.4. Représentation des marques de flexions dans les valeurs symboliques

    Les marques de flexion des occurrences lexicales sont aussi représentées symboliquement à l'aide de caractères alphabétiques. Le principe adopté est d'utiliser la première lettre alphabétique du nom du mode de flexion, dans l'ordre genre + nombre ; soit :

    m ou f pour "masculin" ou "féminin"
    s ou p pour "singulier" ou "pluriel"

    Ces valeurs symboliques s'ajoutent à la fin de l'étiquette.

    Exemples :

    Prodémms pour "pronom démonstratif, masculin, singulier"
    Prodémmp pour "pronom démonstratif, masculin, pluriel"
    Prodémfs pour "pronom démonstratif, féminin, singulier"
    Prodémfp pour "pronom démonstratif, féminin, pluriel"
    Nomcomms pour "nom commun, masculin, singulier"
    Nomcommp pour "nom commun, masculin, pluriel"
    Nomcomfs pour pronom réfléchi
    Nomcomfp pour "nom commun, féminin, pluriel"

    2.5. L'affectation des informations lexicales aux unités lexicales dites "des deux genres et des deux nombres" ou "neutres"

    Les lexèmes qui peuvent déterminer aussi bien des noms du genre masculin que des noms du genre féminin tout en gardant la même morphologie sont affectés de toutes les informations morpho-syntaxiques décrivant chacune des possibilités. C'est ainsi que, par exemple, l'adjectif démonstratif ces porte les valeurs symboliques Adjdémmp et Adjdémfp, car cette unité lexicale a l'une ou l'autre valeur selon le genre du nom qu'elle détermine. Ajoutons cependant que ce choix de codification ne concerne que les unités lexicales qui ont un paradigme flexionnel, par exemple les verbes.

    Les formes fonctionnelles dont la morphologie ne peut être traitée en termes de genre ou de nombre, parce qu'ils sont invariants dans n'importe quel contexte, sont affectées seulement des informations relatives à leurs catégories syntaxiques principales et à leurs sous-catégories. C'est par exemple le cas de certains pronoms relatifs :

    qui Prorel
    dont Prorel

    2.6. Les valeurs symboliques d'identification des occurrences verbales

    Les verbes sont identifiés avec une valeur symbolique composée de 7 lettres. Dans le cas échéant, une valeur numérique (de1à 6) identifiant la personne s'ajoute à cette étiquette; ce qui nous permet d'avoir dans une seule étiquette, non seulement la catégorie principale V (V pour verbe), mais aussi les traits morphologiques du mode, du temps et de la personne qui caractérisent l'occurrence.

    La structure interne des valeurs symboliques affectées aux occurrences verbales est (dans l'ordre) :

    catégorie principale (1 lettre) + mode (3 lettres) + temps (3 lettres) + personne (3 lettres)

    Exemples :

    Vindpré1 pour verbe indicatif présent à la première personne
    Vindimp1 pour verbe indicatif imparfait à la première personne
    Vindfut1 pour verbe indicatif futur à la première personne
    Vconpré1 pour verbe conditionnel présent à la première personne
    Vsubpré1 pour verbe subjonctif présent à la première personne

    3. Exemples de recherche et d'extraction de lexique

    Ces exemples ne constituent pas une directive unique en matière de requête visant à rechercher et à extraire du lexique dans SATO; c'est avant tout un aide-mémoire sur la structure et l'utilisation des étiquettes.

    Les exemples dans les sections suivantes permettent d'afficher et d'extraire ainsi du lexique catégorisé à l'aide de la BDL.

    Remarque : le nom de propriété Gramr utilisé dans les sections suivantes est à titre d'exemple. En réalité, il faut utiliser le nom de la propriété à l'aide duquel la catégorisation a été faite. (Voir aussi Daoust, F. (1996). SATO : manuel de références, UQAM).

    3.1. Repérer les mots à partir des catégories syntaxiques

  • repérer les mots avec seulement une catégorie (catégorie principale) : la requête portera alors sur les trois premières lettres du nom de la catégorie (valeur symbolique à 3 lettres).

    Exemple :

    $*gramr=Pré On obtient tous les mots catégorisés ou portant l'étiquette préposition

  • repérer les mots avec une catégorie principale et une sous-catégorie : la requête portera sur les trois premières lettres du nom de la catégorie principale et les trois premières lettres du nom de la sous-catégorie (valeur symbolique à 6 lettres ), et au cas échéant, suivi des lettres restantes représentant le genre et le nombre.

    Exemples :

    $*gramr=Prorel On obtient tous les pronoms relatifs ne variant ni en genre, ni en nombre
    $*gramr=Adjrel$ On obtient tous les adjectifs relatifs y compris les formes fléchies en genre et en nombre
    $*gramr=Adjrelf_ On obtient tous les adjectifs relatifs féminins, aussi bien au singulier qu'au pluriel
    $*gramr=Adjrelfs On obtient tous les adjectifs relatifs féminins, au singulier

  • repérer les mots avec seulement la sous-catégorie : le nom de la sous-catégorie devient alors la valeur symbolique principale. La requête portera alors sur les trois premières lettres du nom de la sous-catégorie, précédée de n'importe quelle lettre, et au cas échéant suivi des caractères restants.

    Exemples :

    $*gramr=$dém$ On obtient tous les démonstratifs (adjectifs et pronoms démonstratifs), avec les formes portant les traits de genre et de nombre.
    $*gramr=$dém_ On obtient tous les démonstratifs , aussi bien au masculin qu'au féminin.
    $*gramr=$démfs On obtient tous les démonstratifs féminins, au singulier.

    3.2. Repérer les occurrences à partir des traits morphologiques de genre et de nombre

    Les traits de genre et de nombre ont chacun une étiquette d'une lettre, dans l'ordre : genre + nombre, précédé du nom des catégories principales.

  • Filtre sur le genre uniquement.

    Exemple :

    $*gramr=$m_ On obtient tous les mots toutes catégories syntaxiques confondues, au masculin-singulier et masculin-pluriel.

  • Filtre sur le nombre uniquement.

    Exemple :

    $*gramr=$p On obtient tous les mots avec toutes catégories syntaxiques confondues, au masculin et au féminin, mais seulement avec les formes au pluriel.

  • Filtre sur le genre et le nombre.

    Exemple :

    $*gramr=$mp On obtient tous les mots avec toutes catégories syntaxiques confondues, mais seulement au masculin et au pluriel.

    3.3. Repérer les occurrences verbales

    Les verbes fléchis peuvent être identifiés par le mode, le temps et la personne. La lettre V (pour verbe) liste tous les verbes, y compris les formes infinitives et participiales.

  • Filtre sur le mode uniquement.

    Exemple :

    $*gramr=Vind$ On obtient toutes les occurrences verbales à l'indicatif, à tous les temps et personnes.

  • Filtre sur le temps uniquement.

    Exemples :

    $*gramr=V___pré$ ou $*gramr=V$pré$ On obtient toutes les occurrences verbales tous modes et personnes confondus, mais seulement au temps présent.

  • Filtre sur la personne uniquement.

    Exemples :

    $*gramr=V$6 On obtient toutes les occurrences verbales quelques soient le mode et le temps, mais seulement celles se trouvant à la troisième personne du pluriel.



    © Service ATO (UQAM) et EBSI (Université de Montréal)

    - Commentaires -