Catégorisation grammaticale et lemmatisation hors-contexte
Installation et ressources de la Base de données lexicales (BDL)
Présentation |
Installation |
Contenu
Fonctionnement |
Droit d'utilisation
Le fichier auto-désarchivant "gramr.exe" contient les dictionnaires,
scénarios et fichiers de documentation permettant à SATO d'effectuer
la catégorisation grammaticale d'un lexique ainsi que sa lemmatisation.
Nous convenons d'appeler l'ensemble de l'application "BDL" pour
"Base de données lexicales". L'application ne touche pour le moment
que les mots simples, excluant les mots composés et les expressions.
Outre gramr.exe, la disquette de livraison comprend le fichier
"installe.bat" qui réalise l'installation de l'application. Évidemment,
il faut avoir installé SATO pour pouvoir exécuter les scénarios. Pour
l'installation, on procède comme suit:
- Insérer la disquette de livraison dans l'unité de disquette.
Convenons qu'il s'agit de l'unité "A:". Si on utilise l'unité "B:", on
lira la suite du document en substituant "B:" pour "A:".
- Choisir l'unité "A:" comme unité implicite en tapant A: suivi de la touche "Entrée".
- Activer la procédure d'installation en spécifiant l'unité
du disque dur et le répertoire où sera installé la BDL. Voici quelques
exemples.
- Si on tape INSTALLE suivi de la touche "Entrée", on reçoit un message sur l'utilisation de la procédure.
- Si on tape INSTALLE C: suivi de la touche "Entrée", on installe la BDL sur le disque "C:" et le répertoire implicite "\SATO".
- Si on tape INSTALLE C: BDL suivi de la touche "Entrée", on installe la BDL sur le disque "C:" et le répertoire "\BDL". Si le répertoire choisi pour l'installation existe déjà, la procédure demande de confirmer avant de procéder.
L'application BDL est composée des fichiers suivants:
- adj.dic
- Le dictionnaire séquentiel contenant la catégorisation des
adjectifs en genre et en nombre.
- adj.csa
- Le scénario permettant d'effectuer la catégorisation des
adjectifs en genre et en nombre (propriété "Adj").
- a-lemme.dic
- Le dictionnaire séquentiel contenant les lemmes des
adjectifs qualificatifs.
- art.dic
- Le dictionnaire séquentiel contenant la catégorisation des
articles en genre et en nombre.
- art.csa
- Le scénario permettant d'effectuer la catégorisation des
articles en genre et en nombre (propriété "Art").
- f-lemme.dic
- Le dictionnaire séquentiel contenant les lemmes des
"catégories fonctionnelles" : abréviations, adverbes,
articles, conjonctions, délimiteurs, interjections,
onomatopées, ponctuations, prépositions et pronoms.
- gramr.dic
- Le dictionnaire séquentiel contenant la catégorie
grammaticale sans traits de genre et nombre, ou de
temps et personne.
- gramr.csa
- Le scénario permettant d'effectuer la catégorisation
grammaticale sans traits de genre et nombre, ou de
temps et personne (propriété "Gramr").
- lemme.csa
- Le scénario permettant d'effectuer la lemmatisation
du lexique (propriété "Lemme"). Ce scénario utilise
les catégories assignées à la propriété "Gramr". Dans
le cas où l'on aurait appliqué une procédure de
désambiguïsation grammaticale, le scénario produira
donc une lemmatisation sans ambiguïtés.
- p-lemme.dic
- Le dictionnaire séquentiel contenant les lemmes des
participes passés (ramenées à la forme non-marquée,
normalement, le masculin singulier).
- nom.dic
- Le dictionnaire séquentiel contenant la catégorisation des
noms et pronoms en genre et en nombre.
- nom.csa
- Le scénario permettant d'effectuer la catégorisation des
noms et pronoms en genre et en nombre (propriété "Nom").
- n-lemme.dic
- Le dictionnaire séquentiel contenant les lemmes des
noms communs.
- verbe.dic
- Le dictionnaire séquentiel contenant la catégorisation des
verbes en temps et personne.
- verbe.csa
- Le scénario permettant d'effectuer la catégorisation des
verbes en temps et personne (propriété "Verbe").
- v-lemme.dic
- Le dictionnaire séquentiel contenant les lemmes des
verbes, y compris les infinitifs et les participes.
les formes seront ramenées à l'infinitif.
Pour effectuer une catégorisation au moyen de la BDL, il suffit d'appliquer
l'un ou l'autre des scénarios décrits dans la section précédente. Pour ce
faire, on doit utiliser la commande SATO suivante :
SCÉNARIO APPLIQUER nom du fichier-scénario
Par exemple,
SCÉNARIO APPLIQUER gramr
définit la propriété "Gramr" qui contient les catégories grammaticales
sans trait de genre et nombre, ou temps et personne. Le scénario
consulte un dictionnaire et applique des patrons d'analyse morphologique.
Si on veut conserver la propriété "Gramr" pour les prochaines sessions
de travail avec SATOINT, on doit sauvegarder les propriétés.
Dans le menu, les fichiers présentés sont ceux qui se terminent par le
suffixe ".csa". Ces fichiers doivent résider soit dans le répertoire
courant ou soit dans un des répertoires figurant dans la liste définie
par la variable DOS "SATO" : cf. Manuel p.25.
Aussi, comme les scénarios de la BDL consultent des dictionnaires, SATO
doit connaître la localisation de ces dictionnaires. Les scénarios ont
été configurés pour trouver ces dictionnaires sur le disque C: et le
répertoire "\sato". Si on a installé la BDL à un autre endroit, on doit
modifier les scénarios pour indiquer la localisation des dictionnaires.
Le texte à modifier est le suivant:
- Localisation des dictionnaires
- Poste variable Attribuer 9 valeur c:\sato\
Si, par exemple, on a installé la BDL sur le disque D: et le répertoire
"\bdl", on doit faire la modification suivante:
- Localisation des dictionnaires
- Poste variable Attribuer 9 valeur d:\bdl\
Des droits d'utilisation de la BDL sont accordés aux utilisateurs qui
possèdent déjà des droits d'utilisation de SATO. La BDL est destinée
à être utilisée à partir de SATO uniquement. Toute distribution à des
tiers est interdite. Pour utiliser la BDL dans d'autres cadres que ceux
définis ici, on devra prendre entente avec le Service ATO de l'UQAM.
© Service ATO (UQAM) et EBSI (Université de Montréal)
- Commentaires: visib@corpus.ato.uqam.ca -
|