Retour à l'accueil Remonter

Catégorisation grammaticale
et lemmatisation hors-contexte

Installation et ressources
de la Base de données lexicales (BDL)


Présentation | Installation | Contenu
Fonctionnement | Droit d'utilisation



Présentation

Le fichier auto-désarchivant "gramr.exe" contient les dictionnaires, scénarios et fichiers de documentation permettant à SATO d'effectuer la catégorisation grammaticale d'un lexique ainsi que sa lemmatisation. Nous convenons d'appeler l'ensemble de l'application "BDL" pour "Base de données lexicales". L'application ne touche pour le moment que les mots simples, excluant les mots composés et les expressions.


Installation

Outre gramr.exe, la disquette de livraison comprend le fichier "installe.bat" qui réalise l'installation de l'application. Évidemment, il faut avoir installé SATO pour pouvoir exécuter les scénarios. Pour l'installation, on procède comme suit:

  1. Insérer la disquette de livraison dans l'unité de disquette. Convenons qu'il s'agit de l'unité "A:". Si on utilise l'unité "B:", on lira la suite du document en substituant "B:" pour "A:".
  2. Choisir l'unité "A:" comme unité implicite en tapant A: suivi de la touche "Entrée".
  3. Activer la procédure d'installation en spécifiant l'unité du disque dur et le répertoire où sera installé la BDL. Voici quelques exemples.
    • Si on tape INSTALLE suivi de la touche "Entrée", on reçoit un message sur l'utilisation de la procédure.
    • Si on tape INSTALLE C: suivi de la touche "Entrée", on installe la BDL sur le disque "C:" et le répertoire implicite "\SATO".
    • Si on tape INSTALLE C: BDL suivi de la touche "Entrée", on installe la BDL sur le disque "C:" et le répertoire "\BDL". Si le répertoire choisi pour l'installation existe déjà, la procédure demande de confirmer avant de procéder.

Contenu

L'application BDL est composée des fichiers suivants:

adj.dic
Le dictionnaire séquentiel contenant la catégorisation des adjectifs en genre et en nombre.
adj.csa
Le scénario permettant d'effectuer la catégorisation des adjectifs en genre et en nombre (propriété "Adj").
a-lemme.dic
Le dictionnaire séquentiel contenant les lemmes des adjectifs qualificatifs.
art.dic
Le dictionnaire séquentiel contenant la catégorisation des articles en genre et en nombre.
art.csa
Le scénario permettant d'effectuer la catégorisation des articles en genre et en nombre (propriété "Art").
f-lemme.dic
Le dictionnaire séquentiel contenant les lemmes des "catégories fonctionnelles" : abréviations, adverbes, articles, conjonctions, délimiteurs, interjections, onomatopées, ponctuations, prépositions et pronoms.
gramr.dic
Le dictionnaire séquentiel contenant la catégorie grammaticale sans traits de genre et nombre, ou de temps et personne.
gramr.csa
Le scénario permettant d'effectuer la catégorisation grammaticale sans traits de genre et nombre, ou de temps et personne (propriété "Gramr").
lemme.csa
Le scénario permettant d'effectuer la lemmatisation du lexique (propriété "Lemme"). Ce scénario utilise les catégories assignées à la propriété "Gramr". Dans le cas où l'on aurait appliqué une procédure de désambiguïsation grammaticale, le scénario produira donc une lemmatisation sans ambiguïtés.
p-lemme.dic
Le dictionnaire séquentiel contenant les lemmes des participes passés (ramenées à la forme non-marquée, normalement, le masculin singulier).
nom.dic
Le dictionnaire séquentiel contenant la catégorisation des noms et pronoms en genre et en nombre.
nom.csa
Le scénario permettant d'effectuer la catégorisation des noms et pronoms en genre et en nombre (propriété "Nom").
n-lemme.dic
Le dictionnaire séquentiel contenant les lemmes des noms communs.
verbe.dic
Le dictionnaire séquentiel contenant la catégorisation des verbes en temps et personne.
verbe.csa
Le scénario permettant d'effectuer la catégorisation des verbes en temps et personne (propriété "Verbe").
v-lemme.dic
Le dictionnaire séquentiel contenant les lemmes des verbes, y compris les infinitifs et les participes. les formes seront ramenées à l'infinitif.

Fonctionnement

Pour effectuer une catégorisation au moyen de la BDL, il suffit d'appliquer l'un ou l'autre des scénarios décrits dans la section précédente. Pour ce faire, on doit utiliser la commande SATO suivante :

SCÉNARIO APPLIQUER nom du fichier-scénario

Par exemple,

SCÉNARIO APPLIQUER gramr

définit la propriété "Gramr" qui contient les catégories grammaticales sans trait de genre et nombre, ou temps et personne. Le scénario consulte un dictionnaire et applique des patrons d'analyse morphologique. Si on veut conserver la propriété "Gramr" pour les prochaines sessions de travail avec SATOINT, on doit sauvegarder les propriétés.

Dans le menu, les fichiers présentés sont ceux qui se terminent par le suffixe ".csa". Ces fichiers doivent résider soit dans le répertoire courant ou soit dans un des répertoires figurant dans la liste définie par la variable DOS "SATO" : cf. Manuel p.25.

Aussi, comme les scénarios de la BDL consultent des dictionnaires, SATO doit connaître la localisation de ces dictionnaires. Les scénarios ont été configurés pour trouver ces dictionnaires sur le disque C: et le répertoire "\sato". Si on a installé la BDL à un autre endroit, on doit modifier les scénarios pour indiquer la localisation des dictionnaires. Le texte à modifier est le suivant:

Localisation des dictionnaires
Poste variable Attribuer 9 valeur c:\sato\

Si, par exemple, on a installé la BDL sur le disque D: et le répertoire "\bdl", on doit faire la modification suivante:

Localisation des dictionnaires
Poste variable Attribuer 9 valeur d:\bdl\

Droits d'utilisation

Des droits d'utilisation de la BDL sont accordés aux utilisateurs qui possèdent déjà des droits d'utilisation de SATO. La BDL est destinée à être utilisée à partir de SATO uniquement. Toute distribution à des tiers est interdite. Pour utiliser la BDL dans d'autres cadres que ceux définis ici, on devra prendre entente avec le Service ATO de l'UQAM.



© Service ATO (UQAM) et EBSI (Université de Montréal)

- Commentaires: visib@corpus.ato.uqam.ca -