Résumé
L'intervention de l'ordinateur, longtemps
réservée aux tâches mécaniques effectuées
en aval de l'analyse des documents et de la constitution des thésaurus,
se déplace en amont vers l'analyse elle-même. Des
logiciels existent désormais qui assistent l'exploration
des textes. On montre comment SATO (système d'analyse de
textes par ordinateur), utilisé par des chercheurs de plusieurs
disciplines, peut faciliter les tâches de contrôle
et de structuration du vocabulaire ainsi que l'indexation. On
présente ses caractéristiques importantes: possibilité
d'ajouter des propriétés aux mots et aux segments
textuels, génération de lexiques, analyses lexico-statistiques
diverses, définition de sous-ensembles de textes et de
lexiques. On examine ensuite l'aide apportée dans l'élaboration
de thésaurus: extraction d'unités lexicales simples
et complexes, pondération pour faciliter le choix, regroupements
divers, repérage en contexte de formes équivalentes,
de synonymes, de termes génériques et spécifiques,
de termes associés. L'indexation assistée par ordinateur
est également illustrée, avec des perspectives d'analyse
"sur mesure", de même que plusieurs stratégies
d'interrogation. On conclut sur la nécessité de
résoudre les questions théoriques auxquelles l'analyse
du contenu confronte désormais les spécialistes
de l'information.
INTRODUCTION
L'intervention de l'ordinateur a été
longtemps réservée aux tâches mécaniques,
notamment à celles qui sont effectuées en aval de
l'analyse des documents et de la constitution des thésaurus,
mais avec la disponibilité des textes sur ordinateur cette
intervention se déplace en amont, vers l'analyse elle-même,
vers l'exploration du contenu des textes.
La construction de vocabulaires contrôlés
et l'indexation, loin de disparaÎtre avec la multiplication
des bases de données en plein texte, comme certains l'avaient
prédit à la fin des années 1970, connaissent
au contraire un regain d'intérêt. Information
Processing & Management a consacré, en 1990, tout
un numéro à l'analyse textuelle et une livraison
entière de International Classification (no3-4,
1990) a été réservée aux logiciels
de gestion de thésaurus. La lecture de publications récentes
confirme que l'intérêt gagne même les cercles
non bibliothéconomiques: dans le numéro d'avril
1991 de Byte sur le bureau sans papier ("Paperless
Office"), Locke entreprend de convaincre les gestionnaires
qui ont opté pour un système de gestion électronique
des documents (GED en français et DIP - "Document
Image Processing" en anglais) de la nécessité
de l'indexation et du contrôle de vocabulaire pour accéder
au contenu des textes. Il souligne la nature complexe de la tâche
"[...] indexing is not a low-level task , and it becomes
more complex as larger volumes of text are involved" (p.194).
Il ajoute: "In fact, the subject analysis that librarians
perform to create these categories and relationships is strongly
akin to what the AI literature calls knowledge engineering
." Parce que le contenu des bases de données textuelles ne peut pas être exploité de façon satisfaisante pour les utilisateurs de plus en plus nombreux et diversifiés avec les méthodes traditionnelles de mots-clés ou de chaÎnes de caractères des systèmes bibliographiques, les spécialistes en sciences de l'information n'ont d'autre choix que de collaborer avec les autres spécialistes de la langue et des textes. Leurs travaux trouvent naturellement une place dans les industries de la langue, comme on peut le constater d'après le programme des congrès sur ce thème (Colloque "Les industries de la langue: Perspectives des années 1990" en novembre 1990 à Montréal). Il ne s'agit pas de leur part d'une démarche opportuniste, mais bien de la reconnaissance de la nature linguistique du matériau à traiter (Bertrand-Gastaldy, 1990a). D'ailleurs la collaboration ne s'effectue pas à sens unique. Les thésaurus ou des outils approchants deviennent nécessaires aux linguistes pour le traitement automatique des langues:
"In a rather rough statement one
could say that is now the linguists, who on the one hand, need
thesauri, or thesaurus-like conceptual structures, to solve their
problem of meaning, i.e. the problem of language understanding,
whereas the IR [information retrieval] systems designers, in turn,
finally came to know that basic LE [linguistic engineering] is
required in their systems to come up with more efficient, intelligent,
machine-aided IR systems." (Schmitz-Esser, 1990: 130).
De plus en plus de parallèles
sont établis d'une part entre les thésaurus et les
méthodes d'indexation avec grilles et, d'autre part, certains
modes de représentation des connaissances en intelligence
artificielle, comme les réseaux sémantiques et les
"frames".
Bien qu'un faible pourcentage de textes
soit disponible sur support lisible par ordinateur (de 3 à
5% selon les estimations), il n'en reste pas moins que la proportion
augmente rapidement et que des outils sont désormais disponibles
pour mieux exploiter les textes. Nous n'avons pas l'ambition de
brosser un portrait des diverses zones d'intervention des logiciels
dans le traitement de la langue des textes et des questions ni
des difficultés à surmonter; nous l'avons fait ailleurs
(Bertrand-Gastaldy, 1990a et 1990b). Nous tenterons de montrer
comment les tâches de construction de thésaurus,
d'indexation et, par le fait même, de repérage peuvent
bénéficier de l'assistance de l'ordinateur pour
explorer le contenu de bases de données textuelles. Nous
prendrons pour cela l'exemple du logiciel SATO qui n'est en aucune
façon dédié aux opérations documentaires.
PRÉSENTATION D'UN OUTIL D'AIDE
À L'EXPLORATION DU CONTENU DES TEXTES: SATO
Les utilisateurs du logiciel
Le logiciel SATO (système d'analyse
de textes par ordinateur) a été conçu par
Jean-Guy Meunier et développé par François
Daoust, responsable de l'équipe ITC (Ingénierie
cognitive et textuelle) au Centre d'ATO de l'Université
du Québec à Montréal. Il tourne sur des ordinateurs
IBM-PC et compatibles. C'est un logiciel général
destiné à un public de chercheurs en sciences humaines
et sociales, désireux de faire de l'analyse de contenu
pour des raisons fort diverses.
Au ministère de l'Éducation,
on l'utilise pour évaluer la lisibilité des textes
destinés aux élèves du primaire et du secondaire,
en fonction de leur connaissance du vocabulaire et de la syntaxe
(Laroche, 1990).
Il a servi, avec Termino, à
faire une analyse lexicologique des réponses lors d'une
pré-enquête sur "Les lycéens 91"
en France (Le Monde, juin 1991). On peut tout aussi bien
y recourir pour les retranscriptions d'entrevues ou d'analyses
de protocoles lorsqu'on fait verbaliser un sujet au cours de l'accomplissement
d'une tâche. Les psychologues font de même pour analyser
et comparer le matériel d'entretien thérapeutique.
Il a été exploité
pour l'analyse de textes politiques, notamment par le sociologue
Jules Duschatel qui a étudié, entre autres, le discours
politique sous le régime Duplessis (Bourque et Duchastel,
1988), ainsi qu'un corpus de dossiers de la cour juvénile
de Winnipeg (Duchastel, 1991).
Des linguistes recourent à SATO
pour découvrir des structures syntaxiques ou des structures
argumentatives dont ils ne posssèdent pas encore de description.
Dans sa thèse de doctorat, Anaïd Donabedian s'en est
servi pour découvrir des régularités dans
l'emploi de l'article en arménien ancien. Monique Lemieux
y trouve une aide précieuse pour l'analyse de la grammaire
du moyen français.
Le logiciel sert d'appui aux cogniticiens
chargés de dépouiller les textes pour l'extraction
des connaissances et la construction de systèmes experts
(Paquin et al., 1990), aux terminologues pour l'élaboration
de terminologies (Auger, 1990) et finalement, comme nous allons
le montrer, à une variété de tâches
reliées à la gestion de l'information textuelle
en vue d'en faciliter le repérage. D'ailleurs plusieurs
des contributions de ce numéro illustrent des réalisations
documentaires effectuées à l'aide de SATO.
Les caractéristiques principales
SATO présente des caractéristiques
bien différentes de la plupart des logiciels documentaires
commercialisés. Quelques explications préalables
sont nécessaires pour apprécier les différentes
opérations qu'il permet.
Sa grande originalité de SATO
réside dans le fait qu'il permet d'ajouter des propriétés
aux mots ou segments textuels. Au point de départ, tout texte est représenté comme une suite de caractères (y compris le caractère blanc), ce qui est en soi très banal. Restitués à l'écran, ces caractères et les suites de caractères ne peuvent prendre de signification que s'ils sont interprétés par un agent cognitif humain doté de multiples connaissances: - connaissances de l'alaphabet et des divers signes graphiques - connaissances des morphèmes et des mots de la langue générale, connaissances de la signification des termes particuliers au domaine - connaissances de la syntaxe - connaissances de sens commun - connaissances du domaine lui-même - connaissances de la structure des textes de tel ou tel type (lois, articles scientifiques, rapports de diagnostic médical, etc.)
- connaissances de la signification
de certains types de caractères dans le contexte particulier
de tel ou tel texte, de tel ou tel ensemble de textes (par exemple,
les italiques peuvent indiquer qu'il s'agit d'un titre, d'un mot
étranger, les caractères gras sont la marque d'un
titre ou d'un sous-titre, les capitales signalent un mot qui est
défini dans un glossaire, etc.)
C'est donc l'ensemble de ces connaissances
qui interagissent au cours de la lecture pour que du sens soit
produit à partir de ce qui n'est que traces sur le papier
ou à l'écran. Des opérations cognitives très
complexes ont alors lieu qui peuvent consister en généralisation,
élimination de détails inutiles, catégorisation,
comparaison, reconstruction, etc. Mais la mémoire humaine
à court terme a des capacités très limitées,
alors que les bases de données peuvent atteindre des gigabytes,
d'où l'intérêt de "passer la main"
à un logiciel pour des analyses sur des corpus d'envergure.
L'inconvénient c'est que le
processeur informatique, contrairement au "processeur humain",
ne connaÎt rien ou presque rien. Cette métaphore
permettra de mieux comprendre ce qu'il faut faire pour qu'un logiciel
puisse procéder lui aussi à des catégorisations
grammaticales, sémantiques, textuelles, pragmatiques, à
des généralisations, à des comparaisons,
etc. sur des ensembles de caractères. Des caractéristiques
ou propriétés doivent donc être rajoutées,
surimposées soit aux mots du lexique, soit aux mots en
contexte. Nous en verrons des exemples plus loin. Retenons que
SATO conserve en mémoire une représentation fidèle
du texte de départ (ce qui permet d'obtenir des références
très exactes sur la position des mots à l'intérieur
des documents, pages et lignes) et en fait, selon une image empruntée
à Maurice Gingras, une photocopie sur laquelle il est possible
d'annoter à volonté. Les annotations (qui sont constituées
de valeurs de propriétés) peuvent d'ailleurs apparaÎtre
en couleurs comme autant de traits de surligneurs. L'ajout de propriétés peut être: 1) le résultat d'une opération automatique (les mots en capitales reçoivent la valeur Cap de la propriété Édition, la fréquence devient une propriété numérique des formes); 2) le résultat d'une opération automatique déclenchée par l'analyste (les codes propres à un logiciel de traitement de texte comme le souligné ou les caractères gras peuvent être convertis en valeurs de la propriété Typo; la projection d'un thésaurus ou d'une base de données lexicales sur le lexique résulte en l'attribution à chaque forme des valeurs déclarées);
3) le résultat d'une opération
humaine effectuée au cas par cas dans le texte (segmentation
et nomination des diverses subdivisions) ou dans le lexique (catégorisation
sémantique du vocabulaire hors contexte). À la demande,
il est possible de faire passer les propriétés textuelles
dans le lexique et vice versa (on parle alors d'héritage
de propriété).
L'exemple suivant illustre l'ajout
de deux propriétés dans le texte (notice et zone);
il s'agit d'une notice de MEDIADOQ dont la structuration en champs
a été exploitée et qui a subi un pré-traitement
léger, comme on peut le déceler d'après le
doublement du point d'abréviation à ne pas confondre
avec le point de fin de phrase pour la segmentation automatique
en phrases: *notice=1 *zone=na Do ... #253 *zone=no A880333 *zone=au Rhéaume, Luc *zone=tm Analyse du traitement journalistique de l'information politique au Québec: le cas du projet de restructuration scolaire de 1982 *zone=so ix, 116, x-xxix f..: tableaux, graph..; 29 cm.. - Mémoire (M..A..) - Université Laval, 1984 *zone=re Les formes de dépendance des journalistes à l'égard des sources d'information sont examinées par le biais d'une analyse de contenu de la couverture accordée par la presse écrite francophone au débat entourant le projet de restructuration scolaire proposé par le Gouvernement du Québec en 1982. La première partie porte sur l'information en tant qu'enjeu d'une lutte politique. La deuxième partie expose la méthodologie de la recherche. Cinq journaux quotidiens québécois ont été analysés: La Presse, Le Devoir, Le Soleil, Le Journal de Québec et Le Journal de Montréal. L'analyse porte sur 4 aspects précis de la couverture: les sources d'information, les thèmes abordés, l'approche de traitement et les tendances exprimées. La troisième partie présente les résultats de l'analyse. Il ressort que tous les intervenants ont eu un droit de parole dans les pages des journaux, mais que la couverture a été superficielle et axée sur les aspects conflictuels du dossier. La presse ne serait pas en mesure d'expliquer et de vulgariser des problèmes complexes. Par ailleurs les chroniqueurs spécialisés et les journalistes font preuve d'une plus grande autonomie à l'égard des sources d'information que les rédacteurs de nouvelles. Ceux-ci ne font que réagir aux initiatives des sources et adoptent une approche très descriptive; ils se limitent à une fonction de transmission du message des sources. bibliogr..: ff.. x-xiv, (J..C..) *zone=dep TRAITEMENT DE L'INFORMATION; PRESSE; INFORMATION POLITIQUE; SOURCE D'INFORMATION *zone=idp SOLEIL, LE; DEVOIR, LE; PRESSE, LA; JOURNAL DE Québec, LE; JOURNAL DE Montréal, LE
Comme on peut modifier à volonté
les propriétés et leurs valeurs, il n'est pas pénalisant
de revenir sur le découpage des textes, au fur et à
mesure que les besoins d'analyse se précisent.
Du texte, on procède à
la génération du lexique dans lequel on peut
faire apparaÎtre les propriétés avec leurs
valeurs en autant de colonnes.
La fréquence - absolue ou relative
- est, tout comme la propriété Édition ou
la propriété Alphabet une propriété.prédéfinie.
Les autres peuvent être définies au besoin et on
peut leur donner n'importe quelles valeurs, symboliques ou numériques
selon le cas. Voici un extrait de lexique avec affichage de quatre
propriétés: l'alphabet (français), la fréquence
absolue, la fréquence relative et la (ou les) zones de
provenance des formes extraites:
Avec SATO on peut effectuer des analyses
lexico-statistiques. L'exemple suivant indique successivement
la moyenne, l'écart-type, la répartition, l'indice
de discrimination de Salton et le chi2:
Une seule commande suffit pour obtenir
la participation d'une forme dans les textes ou sous-textes d'un
corpus:
Participation de information nombre de lexèmes: 1 domaine vocabulaire/domaine domaine/texte fréqtot 101 mots (1.80%) 100%
Cet affichage indique que le mot information
apparaÎt 101 fois dans le corpus et constitue 1.80% de
l'ensemble du texte.
On peut travailler séparément
sur le lexique - et le corpus - de chaque langue , dans le cas
de textes multilingues (maximum de quatre langues).
On peut connaÎtre les formes
qui distinguent le plus un texte d'un autre, un champ d'un autre
dans les notices bibliographiques, grâce à la commande
Distance. Ainsi, à partir des subdivisions introduites
par une propriété textuelle, on peut comparer, par
exemple, le vocabulaire de deux bases de données ou celui
des différentes zones des notices, celui des titres et
des sous-titres, celui des introductions et celui des conclusions,
celui d'un chapitre de livre par rapport à un autre (ou
à l'ensemble des autres, comme dans l'exemple suivant):
Un indice de lisibilité est
fourni à la demande. Il est calculé selon la formule
de Gunning (dont on conteste cependant la validité pour
le français) et tient compte de la longueur des phrases
et de la proportion de mots longs (9 caractères et plus).
Mais les chercheurs du ministère de l'Éducation
travaillent à d'autres indices qui sont fonction des capacités
de compréhension des élèves selon leur âge:
201 mots de 1 car. (4%) 1372 mots de 2 car. (28%) 619 mots de 3 car. (13%) 360 mots de 4 car. (7 %) 286 mots de 5 car. (6%) 390 mots de 6 car. (8%) 430 mots de 7 car. (9%) 298 mots de 8 car. (6%) 267 mots de 9 car. (5%) 229 mots de 10 car. (5%) 203 mots de 11 car. (4%) 96 mots de12 car. (2%) 80 mots de 13 car. (2%) 43 mots de 14 car. (1%) 31 mots de 15 car. (1%) 10 mots de 16 car. (0%) 2 mots de 17 car. (0%) 1 mots de18 car. (0%) 2 mots de 19 car. (0%) 0 mots de 20 car. (0%) 3 mots de 21 à 25 car. (0%) 0 mots de 26 à 30 car. (0%)
0 mots de plus de 30 car. (0%) nombre de mots ............ 4923 longueur moyenne : 5.3 car. nombre de phrases ......... 318 longueur moyenne : 15.5 mots nombre de paragraphes....... 1 longueur moyenne : 4923.0
pourcentage de mots de 9 lettres et
plus : 20% indice de lisibilité de Gunning : 14.0
Nous arrêterons là notre
présentation générale. D'autres fonctionnalités
seront expliquées au fur et à mesure des besoins.
Depuis trois ans environ, nous avons
testé, dans des cours et des projets de recherche, les
capacités de SATO à traiter les textes pleins ou
les textes réduits (notices bibliographiques et analytiques)
pour différentes fonctions documentaires. Nous examinerons
d'abord comment SATO peut aider à contrôler et structurer
un vocabulaire de domaine.
Les opérations que nous allons
présenter supposent que les textes ont été
soumis au préalable en format ASCII, avec au minimum la
déclaration de la propriété Alphabet et un
titre.
CONSTRUCTION DE THÉSAURUS
Effectuée de façon traditionnelle,
soit à partir des résultats de l'indexation manuelle
des textes (méthode a posteriori), soit en consultant
les ouvrages terminologiques ou lexicographiques ainsi que les
experts du domaine (méthode a priori), la construction
de thésaurus est une tâche trop onéreuse,
insuffisamment rigoureuse et le résultat trop décalé
par rapport aux besoins pour que les organisations y accordent
volontiers les ressources nécessaires.
LA NÉCESSITÉ DU CONTRÔLE
DU VOCABULAIRE
Pourtant les résultats des évaluations
du repérage en plein texte prouvent la nécessité
d'une telle opération. Le taux de rappel est bas si un
réseau de relations ne vient pas suggérer des moyens
d'élargir les stratégies par des termes génériques
ou par d'autres termes spécifiques d'une même classe.
Par exemple, si l'on veut récupérer tout ce qui
traite des crucifères cultivées, il faut
savoir que l'information peut être dispersée sous
chacun des termes spécifiques: choux, choux-fleurs,
brocolis, choux-de-Bruxelles, choux chinois, rutabagas, radis.
C'est ainsi que les évaluations de Blair (1986) et Blair
et Maron (1985) sur le système STAIRS/TLS révèlent
un taux de rappel de 20% seulement. L'étude de Balcer et
Gonin (1979) avait abouti à un taux de 41,3 %, performance
peu reluisante que les auteurs attribuaient à l'absence
de renvois et par conséquent à des stratégies
trop limitées. En plein texte, le taux de précision
peut, à force de reformulations de la stratégie
de recherche, atteindre un score très satisfaisant, mais
c'est souvent au prix de beaucoup d'effort et de temps. D'après
Garson et Love (1985), une référence pertinente
dans ACS Journals Online, interrogée sur le serveur BRS,
coûte en moyenne le double d'une notice trouvée dans
Chemical Abstracts sur le serveur DIALOG. Tenopir (1985) a obtenu
le même genre de résultats dans une étude
qui comparait la recherche sur le plein texte et la recherche
sur les résumés et les descripteurs, dans Harvard
Business Online .
L'INFORMATISATION DES OPÉRATIONS
LIÉES À LA CONSTRUCTION DES THÉSAURUS
L'automatisation a surtout touché
jusqu'à présent la gestion des résultats
de la collecte, du contrôle et de la structuration des termes.
De nombreux logiciels existent qui assurent la validation, la
réciprocité des relations, la mise à jour
du contenu des thésaurus, l'édition, etc. en conformité
avec les normes nationales et internationales.
Depuis longtemps déjà,
des méthodes statistiques ont été testées
pour extraire le "vocabulaire" de corpus textuels et
en construire une représentation structurée selon
des algorithmes de classification automatique. On pense surtout
aux travaux de Salton (Salton, 1971) et de Sparck Jones (1971)et
à tout le débat sur les "thésaurus de
recherche" (Lancaster, 1977; Bertrand-Gastaldy, 1984; Richer,
1986). L'intérêt des résultats de ces méthodes
est cependant limité à certains types d'utilisation:
les représentations orientent les utilisateurs qui connaissent
peu le contenu de la base de données interrogée
ou bien offrent des suggestions de "mots" liés
d'une certaine manière à ceux qui figurent dans
les stratégies de recherche, mais l'interprétation
de la nature des liens reste à la charge des utilisateurs.
Couplés à un système d'inférences
chargés d'élargir ou de restreindre les stratégies,
de tels outils risquent de diriger la recherche dans toutes sortes
de direction . D'autre part les unités de représentation
extraites sont hétérogènes: ce sont tantôt
des "mots", tantôt des lexies, tantôt des
termes, tantôt des radicaux.
L'opération de sélection
et de structuration fine des termes d'un domaine, affaire de spécialistes
qu'ils soient indexeurs, terminologues ou "ingénieurs
cogniticiens", souffre encore de la rareté d'outils
adéquats pour l'assister, ce qui a fait écrire à
Ranjard (1991): "[...] force est de reconnaÎtre que
les outils de gestion de thésaurus n'aident en rien à
la conception des vocabulaires contrôlés. [...],
ce qui contraint les documentalistes à attendre "que
les outils informatiques d'analyse de contenu des textes soient
à la portée de tous".
L'AIDE APPORTÉE PAR SATO
DANS LES DIFFÉRENTES ÉTAPES D'ÉLABORATION
D'UN THÉSAURUS
SATO peut apporter une aide non négligeable
dans la conception de vocabulaires de domaines, comme nous allons
tenter de l'illustrer.
Choix du moment opportun pour entreprendre
la construction d'un thésaurus
Mentionnons en passant que, par ses
fonctions statistiques, SATO fournit des indices utiles pour qui
doit décider de l'opportunité d'entreprendre la
construction de thésaurus. La fréquence moyenne
des formes, ou taux de répétitivité, la proportion
des mots de fréquence faible (1,2 et 3) et le calcul des
formes nouvelles à chaque ajout d'une certaine quantité
de textes permettent d'apprécier le plafonnement du renouvellement
du vocabulaire, moment qu'il est sage d'attendre si l'on ne veut
pas faire face à de nombreux problèmes de mise à
jour.
Extraction du vocabulaire
Les formes simples
Comme tout autre logiciel, SATO fournit
le lexique des formes simples contenues dans la base de données.
Il tient compte de tous les caractères et n'élimine
ni les signes de ponctuation ni les formes fonctionnelles, sauf
si on le demande. Nous verrons plus loin l'intérêt
des les conserver.
La catégorisation grammaticale
des formes simples
SATO permet d'affecter à chaque
forme du lexique la ou les catégories grammaticales qu'elle
peut prendre hors contexte. L'affectation s'effectue de façon
automatique, avec la procédure Dogramr à partir
de la consultation de bases de données lexicales. Notons
qu'on peut recourir aux sources lexicographiques ou terminologiques
de son choix. Le résultat se présente ainsi:
Une simple commande permet de connaÎtre
le pourcentage de formes qui sont à la fois verbe et nom,
nom et adjectif, etc.: DÉCRIRE gramr composé pour $
On peut faire afficher la liste des
noms, des verbes, des formes qui n'ont reçu aucune valeur,
et, si on le souhaite, procéder à des ajouts et
à des corrections dans le lexique ou en contexte.
Pour les formes nouvelles, celles qui
ne figurent pas dans les sources consultées, il faut les
catégoriser à la main. On peut le faire en bloc
dans certains cas, d'après le suffixe (les mots qui se
terminent par les caractères able ou ables
sont en général des adjectifs, à part quelques
exceptions comme table ) ou au cas par cas, selon l'ampleur
de la mise à jour nécessaire et la diversité
des formes. Le lexique d'une base de données avec les valeurs
de catégorie grammaticale peut être sauvegardé
sous forme de dictionnaire et être réutilisé
au besoin.
Les expressions complexes
L'ajout de valeurs de propriété
grammaticale rend possible la recherche dans le texte de toute
séquence de valeurs comme: Nom commun + nom propre:Île Dupas, lac Saint-Pierre, rue Ste-Catherine Nom commun + adjectif ou participe passé: acide chromique, chaux hydratée Nom commun + de ou d'+ nom commun ou nom propre: cours d'eau, plan d'urbanisme, village de Bernierville Nom commun + de ou d' + nom commun + adjectif ou participe passé: bureau d'audiences publiques, température d'ébullition normale Nom commun + adjectif ou participe passé + de ou d' + nom commun ou nom propre:agents chimiques de coagulation
etc.
Cette méthode dite de patrons
catégoriels s'assortit d'une procédure exécutable
(l'équivalent d'une macro-commande dans WordPerfect) Marqterm
qui "bloque" au moyen d'un trait de soulignement les
différents éléments de l'expression complexe,
de telle sorte qu'elle soit désormais considérée
comme une simple unité lexicale. Selon le degré
d'exhaustivité cherché, divers patrons peuvent être
spécifiés qui correspondent aux modes les plus courants
de formation des lexies complexes. Le lexique issu de la procédure
ressemble à ceci: fonction_publique hautes_eaux_printanières_moyennes métaux_sous_forme_de_carbonate Office_des_ressources_humaines
personnel_engagé_à_honoraires
On constate donc l'avantage d'un logiciel
qui n'élimine pas les "mots-outils" par un anti-dictionnaire,
puisque les prépositions jouent un rôle important
dans la formation des lexies complexes, et qui permet de formuler
des stratégies de recherche incluant autant les chaÎnes
de caractères (de, d') que leurs valeurs de propriétés
(préposition, par exemple.). Il s'agit d'une fouille exhaustive
et systématique qui n'oblige pas à repérer
et à énumérer auparavant les mots susceptibles
d'entrer dans la composition de termes du domaine. Les opérations
effectuées sur les propriétés constituent
un raccourci pour traiter l'ensemble des unités pertinentes.
Pour les différentes variantes
possibles de la procédure et sur ses limites évidentes
(en particulier le bruit généré par la non-désambiguïsation
en contexte des valeurs multiples), le lecteur pourra se reporter
au chapitre 9 de l'ouvrage de Bertrand-Gastaldy (1992).
Ce dispositif aide donc à repérer
les fameux multitermes qui sont un véritable casse-tête
pour l'établissement des thésaurus. On évalue,
en effet, que jusqu'à 80% des concepts d'un domaine sont
exprimés par ce que les linguistes appellent des termes
complexes (Boulanger,1989:361).
Les termes du domaine
Une fois la liste des expressions complexes
épurées de ses scories évidentes et une fois
prises les décisions délicates de la décomposition
en unités plus petites, il reste à déterminer
ce qui correspond à un terme du domaine, c'est-à-dire
à un sous-ensemble du lexique faisant appel à la
notion d'usage au sein d'une communauté scientifique donnée.
Le choix définitif des termes
du domaine, qu'ils soient simples (unitermes) ou complexes (multitermes),
demeure l'apanage des experts. Nous pouvons profiter de diverses
fonctionnalités de SATO pour offrir à ces experts
une liste exhaustive, mais ordonnée selon un ordre probable
de pertinence décroissante. La pondération part
de différentes propriétés des unités
lexicales, fréquentielles , typographiques, textuelles,
etc. Les propriétés et les valeurs qui entrent en
ligne de compte ne sont pas déterminées d'avance;
elles sont laissées à la discrétion des concepteurs
du thésaurus, ce qui permet de les ajuster aux particularités
des corpus.
Si, dans un corpus, tous les mots importants
sont en gras ou en italiques, on peut décider d'accorder
un certain poids à cette propriété. En outre,
les titres et les sous-titres, les légendes de tableaux,
les tables des matières et les index constituent de bons
réservoirs de termes et l'on a vu qu'on peut caractériser
explicitement ces différents éléments .On
pourrait même décider d'accorder un poids supérieur
aux unités lexicales qui figurent dans les deux premières
et les deux dernières phrases de chaque paragraphe (cette
possibilité a été rajoutée à
notre demande, dans un logiciel qui peut travailler en amont de
SATO, ICON par un des collaborateurs dans deux de nos projets).
On peut aussi pondérer non pas à partir de la fréquence,
mais de la valeur discriminante de Salton implantée depuis
peu dans SATO ou bien en fonction du chi2 qui est disponible depuis
longtemps avec la commande Distance.
Voici illustrés les résultats
de la procédure qui a consisté à ajouter
à la fréquence: + 14 aux termes complexes, + 10
aux noms communs, + 2 aux verbes et + 1 aux adjectifs et à
ajouter + 5 si les formes se trouvent dans la macro-structure
des textes (titres, sous-titres, etc.):
Ce qu'on peut constater donc, c'est
l'éventail et la complémentarité des approches
possibles pour mieux cerner le vocabulaire du domaine. Le logiciel
offre des "prises de vue" multiples sur le vocabulaire.
Un faisceau d'indices est ainsi disponible pour assister le choix.
Une fois la liste éditée,
on peut encore recourir à SATO pour enregistrer le jugement
de plusieurs experts et procéder à l'élimination
des unités non pertinentes sur la base d'un simple calcul.
Voici un exemple qui montre l'avis de trois spécialistes:
Après le choix définitif,
il est possible de sauvegarder la liste des termes du domaine
sous forme d'un dictionnaire qui pourra être réutilisé
par la suite sur tout nouveau texte entré dans la base
de données.
Contrôle du vocabulaire
Dans les bases de données en
plein texte, on peut entendre par contrôle tout ce qui contribue
à favoriser l'univocité du vocabulaire: le regroupement
a posteriori des variantes flexionnelles autour d'une
forme canonique , la mise en relation des différentes graphies
d'un même terme, la mise en évidence de la polysémie
en autant qu'elle existe dans un domaine de spécialité,
au moyen de définitions et de contextes, et finalement
le regroupement de synonymes ou quasi-synonymes. Le contrôle
est d'autant plus nécessaire que les unités sont
plus nombreuses et plus variées.
Les variantes flexionnelles Une des lacunes de SATO est qu'il ne possède pas d'analyseur syntaxique; il est donc impuissant à résoudre les problèmes d'identité (homographie) que l'on trouve par exemple dans: lit _______> sorte de meuble (nom commun, masculin, singulier)
lit________> une des formes
possibles de lire (verbe) avions _____> appareil de locomotion aérienne (nom commun, masculin, pluriel)
avions _____> une des formes
possibles de avoir (verbe)
ainsi que les problèmes d'altérité,
c'est-à-dire du rattachement de deux chaÎnes distinctes
à un même lexème, comme dans: lits _______|_ lit (nom commun, masculin)
lit ________|
lit ________|
_ lire (verbe)
Il existe encore peu de logiciels qui
procèdent à une lemmatisation automatique car, pour
cela, il faut reconnaÎtre la fonction syntaxique du mot
en contexte, lui attribuer une valeur grammaticale unique et finalement
renvoyer la forme flexionnelle à la forme canonique. On
notera cependant que, dans la phase 2 du projet Delta du ministère
des Communications du Québec, il est prévu que le
logiciel Termino, mis au point par l'équipe RDLC (Recherche
et développement en linguistique computationnelle) du Centre
d'ATO pour le dépistage de lexies complexes à l'Office
de la langue française, fournisse à SATO les résultats
de son analyse syntaxique.
En attendant, il est toujours possible
d'effectuer ce renvoi pour toutes les formes qui, hors contexte,
n'ont qu'une valeur, c'est-à-dire sont uniquement noms,
uniquement adjectifs ou uniquement verbes, mais il s'agit d'une
solution "boÎteuse" parce qu'incomplète.
Formes équivalentes: graphies
différentes, abréviations, sigles et acronymes
Par rapport aux autres logiciels documentaires,
l'aide originale qu'apporte SATO consiste dans le repérage
des régularités d'ordre typographique ou linguistique
susceptibles de marquer une variante graphique, une abréviation,
un sigle ou un acronyme. La plupart du temps, les sigles et acronymes
sont inscrits en lettres capitales et sont accompagnés,
lors de leur première mention, de la forme pleine équivalente.
Une parenthèse, parfois des tirets, distingue les deux.
On peut se faire une idée du genre de stratégie
de recherche et de réponses fournies d'après cet
exemple où l'on cherche toute séquence qui comporterait
une parenthèse ouvrante suivie de n'importe quelle chaÎne
de caractères écrite en capitales et où l'on
demande d'écrire le contexte (pour alléger la présentation,
on a supprimé les références): Concordance stricte \($*édit=cap
Écrire concordance* ... La matrice du polymère de l'échangeur peut être un co-polymère_de_styrène et de benzène_divinylique (DVB), phénol et formaldehyde ou des polymères_naturels, tels que le charbon_sulfoné. ... le thénoyltrifluoroacétone (TTA) possède une sélectivité très élevée pour le cuivre, à ph très bas;
On constate une fois de plus l'intérêt
d'un logiciel qui permet de fouiller non seulement les mots, mais
aussi n'importe quel caractère comme un signe de ponctuation.
Synonymie
La stratégie utilisée
précédemment peut être adaptée pour
repérer des synonymes. Évidemment, les réponses
du système vont comporter beaucoup de bruit, mais on sera
sûr de l'exhaustivité de la fouille en autant qu'on
aura su répertorier les divers marqueurs de synonymie:
et, comme, ou, est désigné(e) par, sont désigné(e)s
par, etc. Il restera à user de ses connaissances du
domaine - et souvent du simple bon sens - pour ne conserver que
les passages pertinents. L'établissement de relations de
synonymie est une opération sémantique qu'un ordinateur
ne peut effectuer. On sait que la synonymie dépend beaucoup
du contexte et de la possibilité de visionner ces contextes
(qui, soit dit en passant, sont paramétrables dans SATO).
Voici un exemple de résultats: Le revêtement de surface est désigné par les termes d'électrodéposition, de galvanotechnique ou de galvanostégie.
Nous verrons plus loin comment enregistrer
les relations entre formes Nous allons continuer, pour le moment,
à illustrer l'aide que le logiciel peut apporter dans le
dépistage de ces relations.
Les définitions
De la même façon, on peut
repérer des définitions qui pourront donner lieu
à des notes d'application dans le thésaurus. Selon
les régularités des textes, on pourra chercher une
séquence de deux-points et de guillemets ouvrants, ou bien
des expressions comme définir, entendre par,
etc. ... "emploi excédentaire": un emploi autorisé provisoirement en surplus des effectifs réguliers ... La complexation se définit comme la formation d'un composé_complexe par un agent_complexant_ou_chelatant. ... Le revêtement_de_surface est désigné par les termes_d'_électrodéposition, de galvanotechnique ou de galvanostégie. On peut le définir comme l'action de déposer, par voie_électrique, un métal ou un alliage sur un autre métal ou des plastiques.
Structuration du vocabulaire
Pour ordonner la multiplicité
des unités lexicales recueillies et fournir une image cohérente
du domaine, on procède habituellement à plusieurs
types de regroupements qui en facilitent la consultation et fournissent
des suggestions pour élargir ou rétrécir
les stratégies de recherche.
Regroupement par thèmes
Pour identifier les grandes thématiques,
il est possible de s'appuyer sur un simple affichage du lexique.
Dans la zone des fréquences élevées, là
où l'on retrouve habituellement les formes grammaticales
courtes, se détachent des formes longues, habituellement
des noms qui correspondent à ce que l'on appelle les mots-thèmes.
Ensuite, à l'aide de la commande Tamiser, on fait afficher
les mots qui co-occurrent le plus souvent avec ces mots-thèmes
et l'on obtient une première organisation. Voici les fréquences
les plus élevées d'un corpus:
Écrire lexique $ tri fréqtot
Regroupement par facettes
La subdivision du corpus en plusieurs
thèmes ou domaines (domaine juridique, administratif, économique,
social, etc.) n'est pas suffisante pour introduire une structure.
Il faut souvent chercher les différentes facettes des domaines
en question.
Les suffixes peuvent servir à
détecter des formes dont les membres partagent une caractéristique
commune. Par exemple, les formes qui finissent par -ité
expriment souvent des qualités, celles en -ation
correspondent souvent à des actions ou à des processus.
La recherche de concordances de termes
qui peuvent désigner explicitement cette caractéristique,
par exemple procédés ou processus ,
complète utilement la fouille: procédés #2 *page=doc1/3/10 ... *page=doc1/3/15/6 *divis=résumé La première regroupe les procédés courants pour éliminer les métaux_lourds des effluents, tels: la précipitation_chimique_sous_forme_d'_hydroxydes, de carbonates, de sulfures, de phosphates ou de métal_élémentaire; la coprécipitation; la séparation_solide-liquide_par_filtration, flottation, sédimentation ou centrifugation; la coagulation-floculation, et le traitement_biologique. processus #10 *page=doc1/8/17/6 ... *page=doc1/8/21/2 *divis=intro Ces processus sont : la précipitation_chimique, la coagulation-floculation, l'échange-ionique, l'extraction_par_solvant, la cémentation, la complexation, les traitements_électrochimiques ou biologiques, l'évaporation et la séparation_par_membranes.
Regroupement par familles de mots
Pour contrer la dispersion de l'information
due à la variété de la nature grammaticale
des mots beaucoup plus grande dans un corpus en plein texte que
dans une liste de mots clés contrôlés où
ne sont conservés en général que les noms,
il est commode de procéder à des regroupements autour
d'un même radical. Du même coup, on contrôle
partiellement certaines conséquences fâcheuses de
la synonymie phrastique. Cette opération s'effectue à
partir de la troncature à droite, qui peut pallier en même
temps l'absence de lemmatisation, et aussi à partir de
la lemmatisation à gauche si l'on veut établir des
listes de mots de la même famille. Ainsi avec la stratégie
|plant$, on récupère: planter plants transplant transplants transplanter transplantation replanter
Le rattachement des mots de même
famille n'est malheureusement pas aussi automatique qu'il y paraÎt,
à cause des modifications du radical (voir, vue),
de la formation savante ou populaire (caprin, chèvre)
de l'origine latine ou grecque du radical (aquatique, hydrique)
et de la différenciation sémantique des dérivés
(receveur, récepteur).
Voici des passages qui mentionnent,
sous différentes formes, la notion de récupération
des métaux:
Concordance libre récup$
méta$ récupéré ...
La solution peut être réutilisée
et le métal éliminé est récupéré.
récupérés ... La quantité des métaux récupérés est trop petite pour intéresser les principales compagnies qui les utilisent. récupèrent ... Les procédés de séparation physique, tels la précipitation, la filtration, la floculation et l'évaporation, récupèrent les métaux sous forme d'oxydes, d'hydroxydes ou de sels. récupérer ... L'objectif de ce rapport est de faire une revue critique de la littérature sur les procédés en usage et des nouvelles technologies qui permettent d'éliminer, de récupérer et de recycler les métaux lourds contenus dans les effluents industriels. récupération ... La récupération de chacun des métaux n'est pas toujours possible.
Relations hiérarchiques
On sait que les relations hiérarchiques
constituent l'ossature du thésaurus. Leur dépistage
s'effectue au moyen d'expressions comme: est un(e), sont, tel(le)(s)
le, la, te(le)(s) que ou bien par une stratégie qui
recherche tout nom précèdant un caractère
de ponctuation comme la parenthèse ouvrante ou encore les
deux-points, caractère lui-même suivi d'un ou plusieurs
noms (c'est ce qu'on appelle une tournure cataphorique), avec,
le cas échéant, une fermeture de la parenthèse.
Voici un exemple de statégie de recherche : Concordance stricte est un Concordance stricte est une Concordance stricte sont : Concordance stricte tels l' Concordance stricte tels la Concordance stricte tels que Concordance ordonnée $*gramr=nomcommun \($*gramr=nomcommun \)
Concordance ordonnée $*gramr=nomcommun
\:$*gramr=nomcommun avec des extraits de résultats: ... L'effluent est passé en premier à travers une résine_cationique pour éliminer les cations tels que le Fe, le Cu, le Zn, le Ni et le Cr3+. ... Les produits_chimiques qui sont utilisés fréquemment pour précipiter les métaux_lourds_sous_forme_d'_hydroxydes sont la chaux, la soude, la soude_caustique et l'oxyde_de_magnésium. ... Le procédé est d'autant plus intéressant qu'il y a présence de métaux_précieux (or, argent,platine) dans les effluents. ... L'utilisation de Fes comme co-précipiteur des métaux_lourds (cuivre, cadmium, nickel, chrome et zinc) s'avère avantageuse comparativement aux hydroxides. ... toutes les crucifères cultivées: chou, chou-fleur, brocoli, chou de Bruxelles, chou chinois, rutabaga et radis
De plus, un paradigme peut être
constitué autour d'un nom suivi de ses différentes
déterminations comme ceci: Congé Congé à temps plein Congé à traitement différé Congé de maladie Congé de préretraite Congé de maternité Congé hebdomadaire Congé partiel Congé pour adoption Congé pour affaires judiciaires Congé pour événements familiaux Congé pour responsabilités parentales Congé sabbatique
Congé sans traitement
On peut alors obtenir des sous-ensembles
regroupant les concepts par une de leurs caractéristiques
communes. Le choix des caractéristiques se fait de façon
empirique, d'après la liste des termes recueillis dans
le corpus: . Selon le motif: Congé pour affaires judiciaires Congé pour événements familiaux Congé de préretraite Congé de maladie Congé de maternité Congé pour adoption Congé pour responsabilités parentales
. Selon la fréquence: Congé hebdomadaire
Congé sabbatique . Selon les conditions de rémunération: Congé à traitement différé
Congé sans traitement . Selon la "complétude": Congé à temps plein
Congé partiel Des termes spécifiques peuvent provenir d'une combinaison de caractéristiques:
Congé partiel sans traitement
Quant aux relations partitives, qui
sont rangées avec les relations hiérarchiques dans
les normes de thésaurus, elles sont détectées
par des expressions comme partie de, membre de ... L'article
de Serge Houde dans ce même numéro montre l'intérêt
de l'exploitation de tournures de ce genre dans les définitions
de dictionnaires électroniques.
Recherche de termes associés
Les relations associatives, parce qu'elles
sont souvent établies sans grande rigueur, ont déjà
été qualifiées de véritable fourre-tout.
Elles regroupent des termes qui, dans les énoncés
textuels entretiennent des relations lexico-syntaxiques, du type
action - objet de l'action - instrument de l'action comme Communication,
Communiqué, Radio, des relations entre déterminé
et déterminant comme Permis d'absence , Absence,
des relations entre termes de sens voisin comme Efficacité,
Efficience, des relations entre désignation du concept
et propriétés du concept comme Sol, Humidité.
Il a été suggéré à plusieurs
reprises de les remplacer par des relations de co-occurrence non
étiquetées, mais établies de façon
plus systématique et reflétant mieux le contenu
réel de la base de données à interroger.
Dans SATO, la commande Tamiser filtre,
pour une forme donnée (chaux vive dans l'exemple
ci-dessous), les formes utilisées dans le même contexte,
la phrase par exemple, et indique la fréquence de co-occurrence:
Il est possible de préciser,
pour la forme spécifiée, la nature grammaticale
des mots associés: les verbes seulement, ou les noms et
adjectifs, par exemple. Le texte de Cossette dans cette même
livraison de la revue illustre l'utilisation de cette méthode
pour établir des classes de mots propres à un domaine.
Enregistrement et gestion des relations
entre mots
Les différents types de relations
sont considérés comme des propriétés
et les mots reliés sont autant de valeurs de propriété.
Ainsi peut-on avoir:
. Une propriété Lemme
. Une propriété Équivalent
. Une propriété Facette
. Une propriété Famille
. Une propriété Hiérarchie
La mention de deux niveaux hiérarchiques
est nécessaire à cause de la difficulté de
manipulation des relations dans SATO.
L'ajout d'une propriété
Associés est possible, mais le nombre de valeurs associées
à chaque forme risque d'être encombrant:
. Une propriété Associés
Bilan sur les relations dans SATO
La recherche d'information peut se
faire soit sur chaque forme répertoriée dans le
lexique de la base de données soit sur sa propriété,
de cette façon: tous les passages de textes contenant des
occurrences ayant pour valeur de la propriété générique
métaux précieux. Avec l'exemple fourni plus
haut, on récupèrerait toutes les concordances comportant
argent, or, platine, métaux-précieux. Si
l'on formulait la requête avec métaux, on
obtiendrait tous les passages comportant un des termes du lexique
affiché plus haut: argent, cadmium,chrome, etc.
L'ennui, c'est que SATO n'a pas été
prévu, au départ, pour gérer ce genre de
relations. Il n'assure pas la réciprocité, ce qui
expose le concepteur du thésaurus à toutes sortes
d'erreurs, d'omissions, de contradictions.
L'apport réel du logiciel réside
clairement dans le dépistage des relations, ce que ne font
pas en général les autres logiciels. En somme, SATO
et les logiciels documentaires sont complémentaires. Le
premier assiste les opérations intellectuelles d'appréhension
du contenu, de sélection des termes et de leurs relations,
les seconds gèrent les résultats de ce travail,
contrôlent les doublons, s'assurent de la réciprocité
des relations, bref prennent en charge toutes les tâches,
très lourdes si elles sont effectuées à la
main, de vérification et de contrôle (Rohou, 1987).
C'est ce qui a incité les responsables du projet VIXIT
au Conseil du Trésor du gouvernement du Québec à
coupler SATO et Seconde ( de la firme Destin Inc.) pour l'analyse
des textes en gestion des ressources humaines à l'aide
d'un vocabulaire contrôlé a posteriori .
Mise à jour: extraction des
mots nouveaux
La mise à jour du vocabulaire
est facilitée dans SATO car, au fur et à mesure
que des textes sont inclus dans le corpus, le logiciel permet
de connaÎtre les nouvelles formes introduites par ces textes
et d'appliquer systématiquement les traitements seulement
à ces formes. Il suffit, pour cela de faire deux sous-ensembles
du corpus: le premier comporte tous les textes entrés avant
la mise à jour, le second tous ceux qui ont été
rajoutés. Lorsqu'on fait éditer le lexique, les
formes qui ont une fréquence zéro dans le corpus
le plus ancien correspondent aux formes nouvelles.
Les autres sources pour l'élaboration
de thésaurus
Les questions des utilisateurs
Nous n'avons parlé jusqu'ici
que de l'exploitation des textes qui constituent la base de données.
Cependant, la même méthodologie peut être appliquée
aux questions des utilisateurs. Si on choisit le mode témoin
au début d'une session de travail avec SATO, toutes les
commandes et les réponses sont enregistrées. On
peut donc trier et éditer le tout pour enrichir le thésaurus
avec les termes - et éventuellement les relations - employés
par les utilisateurs.
Les sources terminologiques et lexicographiques
Les banques de terminologie et les
dictionnaires sur support lisible par ordinateur peuvent être
exploités par SATO de la même façon que les
textes. Leur régularité et leur normalisation sont
d'ailleurs plus grandes. L'expérience rapportée
dans ce même numéro par Serge Houde témoigne
de l'intérêt de la démarche. Le fait que,
dans la version du Robert-E destinée au MacIntosh, chaque
mot-clé de l'article soit directement accessible, accroÎt
encore la facilité d'exploitation avec SATO. Un autre essai
a été tenté avec la base de terminologie
Termium sur CD-ROM.
Vers des thésaurus personnalisés
On souligne de plus en plus le caractère
"privé" des structures cognitives. Un terme peut,
en effet, appartenir à plusieurs catégories, selon
le point de vue adopté: "[...] different persons,
in different occupations may possess different world views and
make different demands upon sources od knowledge as a consequence.
" (Wilson, 1984: 200).
Contrairement à ce qu'affirme
la norme ISO 2788 Organisation internationale de normalisation,
1986), il n'existe pas à proprement parler de catégories
a priori , mais des catégories imposées par
des agents cognitifs dans un domaine donné, les auteurs
des textes et reconnues par d'autres agents cognitifs, les lecteurs.
Le choix des caractéristiques sur lesquelles s'appuie la
catégorisation dépend du contexte d'utilisation
(Frohmann, 1983). L'idéal pour un utilisateur est de pouvoir
accéder au regroupement le plus parlant en fonction de
la tâche à accomplir.
La technologie de l'hypertexte permet
d'ores et déjà d'envisager une superposition de
plusieurs visions différentes d'un domaine, comme celle
d'un groupe d'utilisateurs par rapport à un autre (Agosti
et al. , 1989) ou bien d'un individu par rapport à
un groupe (Belkin et al., 1991). Avec SATO, il est possible
de catégoriser le vocabulaire de différentes façons
et de conserver chacune des "prises de vue" sous forme
de dictionnaire.
En guise de conclusion partielle
Lorsqu'il s'agit de construire un thésaurus
de qualité, on ne peut pas compter sur la machine uniquement.
On est confronté à ce défi qui, d'après
Locke (1991: 200) accompagne tout effort de repérage en
plein texte: "[...] the knowledge engineering that goes into
constructing a first-class thesaurus of relevant concepts."
Mais tout comme les cogniticiens chargés d'élaborer
des bases de connaissance, les spécialistes de l'information
peuvent désormais s'appuyer sur des outils qui assistent
l'appréhension du contenu des sources dépouillées
pour structurer à la fois le lexique et les concepts d'un
domaine, donc qui agissent en amont de l'analyse plutôt
qu'en aval comme les logiciels documentaires traditionnels. Il ne reste pas moins beaucoup de recherches à effectuer sur les bases théoriques des thésaurus, sur leur contenu et l'organisation de leur contenu pour qu'ils puissent répondre adéquatement aux nouveaux besoins d'analyse de textes par ordinateur et de manipulation automatique pour la recherche documentaire: "[...] it may now be possible to leave to a human specialist's intervention only the more tricky cases, - interventions like disambiguation, word selection, etc., which then would have to be done by interaction.
So, the question being posed today
is this: How must a machine-operated thesaurus look like, and
can it be built and maintained, if it is to meet the needs of
such machine or machine-aided natural language processing - among
others: IR." [information retrieval] (Schmitz-Esser, 1990:
130).
AIDE À L'INDEXATION
LE DÉCLIN DE L'INDEXATION
HUMAINE
L'indexation humaine est devenue un
véritable goulot d'étranglement. Beaucoup trop subjective,
beaucoup trop longue, beaucoup trop coûteuse, elle est de
plus en plus remplacée par l'indexation automatique rendue
possible par la numérisation des données textuelles.
Nous ne reprendrons pas ici la démonstration de l'impossibilité
d'obtenir des résultats de qualité avec des méthodes
aussi crues que l'indexation des chaÎnes de caractères
autres que les formes fonctionnelles ou même de méthodes
statistiques uniformes pour des types de discours aussi dissemblables
que le droit, la littérature, la chimie, etc. et des genres
aussi divers que l'article scientifique, la correspondance et
le règlement administratif. Des processus cognitifs aussi
complexes que la lecture et la condensation pour d'autres individus
ne peuvent être formalisés, entre autres parce qu'ils
sont encore partiellement inconnus et beaucoup trop complexes.
D'autre part, les méthodes d'analyse linguistique des textes
en langue naturelle sont encore très rudimentaires, malgré
de belles réalisations. Nous avons montré par ailleurs
que la meilleure solution résidait sans doute dans l'indexation
assistée (Bertrand-Gastaldy, 1990b). De plus en plus de
voix s'élèvent pour proposer une complémentarité
des traitements linguistiques, statistiques et procéduraux,
de type système expert (Chaumier et Dejean, 1992; Doszkocs,
1986; Meunier et al. , 1986, entre autres).
L'INDEXATION ASSISTÉE PAR
SATO
Actuellement, avec SATO on peut surtout
bénéficier d'une indexation qui recourt aux équivalents.
C'est au concepteur du système d'indexation de déterminer
la spécificité de son indexation en choisissant
la granularité de son contrôle de vocabulaire. Il
peut considérer comme équivalents seulement les
variantes flexionnelles, y ajouter certaines variantes dérivationnelles
(pour regrouper par exemple les noms et les verbes d'action),
les synonymes, les quasi-synonymes et même les antonymes,
selon le taux de rappel souhaité, puisque la précision
est assurée, en principe, par les formulations en langage
naturel. La profondeur de l'indexation dépend en grande
partie de la segmentation préalable des textes: on peut
prendre comme unité documentaire le texte dans son entier,
chaque chapitre, chaque paragraphe.
SATO va souligner dans les textes (seulement
dans les titres et les sous-titres si on désire une indexation
superficielle) les formes répertoriées comme termes
du domaine ou équivalents, ajouter la valeur de propriété
à côté de la forme détectée
et assigner en début de texte une forme unique, celle qui
aura été déterminée comme le "descripteur"
accepté. Voici un exemple de sous-titre ainsi indexé.
*index=revêtement_de_surface *divis=stitre 1.2 Électrodéposition*index=revêtement_de_surface *divis=texte Le revêtement_de_surface est désigné par les termes d'électrodéposition, de galvanotechnique ou de galvanostégie. On peut le définir comme [...]
Il est possible de se fixer une grille
d'indexation et de faire repérer systématiquement
dans les textes les descripteurs qui correspondent aux "facettes"
souhaitées, par exemple dans les conventions collectives:
mesure, personnel concerné, personnel exclu, durée.
Le rôle de l'indexeur se borne à réviser l'indexation
en contexte, à éliminer les termes repérés
qui ne correspondent pas au sujet, à rajouter des termes
pour les concepts implicites ou ceux qui sont exprimés
par des pronoms, à remplacer un terme général
par un terme spécifique plus adéquat. Sa tâche
est facilitée par le soulignement de toutes les occurrences
qui ont déclenché l'indexation et par une fonction
de "catégorisation" en contexte. Nous avons ainsi
construit un petit modèle d'analyse de la correspondance
de la division des évaluations environnementales au ministère
de l'Environnement qui retient la phase du projet, s'il y a lieu,
l'action (l'intervention sur l'environnement), l'objet de l'action,
le lieu, les limites spatiales . L'exemple ci-dessous ilustre
l'indexation d'une lettre après correction humaine (on
voit toutes les annotations surimposées par les opérations
d'attribution de valeurs de propriétés; l'indexat
- ou ensemble de mots-clés assignés - a été
disposé automatiquement à la tête du texte
et il est suivi du nom des facettes correspondantes): *page=let2/1/4 Sainte-Foy, le *index=(réaménagement, route_148, Aylmer, chemin _Rivermead_et_ Pont_Champlain)*facet=( action, objet, lieu, limites) Destinataire 2 Aylmer*index= Aylmer*facet=lieu (Québec)
J9H-3M2
Mxxxxx, Le projet de réaménagement*index=réaménagement*facet=action de la route_148*index=route_148*facet=objet entre_le_chemin_Rivermead _et_le_Pont_Champlain *index=entre_le_chemin_Rivermead_et_le Pont _Champlain*facet=limites à Aylmer*index= Aylmer*facet=lieu du ministère des transports, est un projet assujetti à la procédure_d'_évaluation_et d'_examen_des_impacts_sur_l'_environnement*index=nil*facet=nil. [...] Le ministère de l' Environnement est actuellement en attente de l'étude_ d'_impact*index=nil*facet=nil. La procédure_d'_évaluation_et_ d'_examen_des_impacts_sur_l_'environnement*index=procédure_d'_ évaluation_et_d'_examen_des_impacts_sur_l'_environnement*facet= phase se poursuivra lorsque l'étude_d'_impact *index=nil*facet=nil sera déposée au ministère de l'Environnement.
Veuillez agréer, Mxxxxx, l'expression
de mes sentiments les meilleurs Auteur Y
Lors de l'interrogation, selon le taux
de rappel et de précision souhaités, on pourra interroger
soit sur n'importe quel mot du texte, soit sur les descripteurs
seulement (si on veut se restreindre à ce qui est vraiment
thématique), soit sur l'ensemble des mots du texte et des
descripteurs. On peut aussi demander la recherche sur tous les
équivalents du descripteur. Les stratégies d'indexation
ou "patrons de fouille" se présenteront ainsi:
1) concordance libre étude_d'_impact
[récupère toutes les
occurrences, telles quelles] 2) concordance libre étude$_d'_impact$
[récupère toutes les
occurrences, au singulier et au pluriel] 3) concordance libre $*équivalent=étude_d'_impact
[récupère toutes les
occurrences équivalentes au descripteur, qu'elles représentent
ou non le sujet du document (il n'y a pas eu d'indexation)] 4) concordance libre $*index=étude_d'_impact
[récupère toutes les
formes équivalentes au descripteur assigné au texte
ou au segment de texte, parce qu'il représentait le sujet
du document selon l'indexeur qui a révisé les suggestions
d'indexation de SATO]
Dans le cas de l'exemple ci-dessus,
la lettre sera signalée par la stratégie no 3 (ou
les stratégies 1 et 2):
$*équivalent=étude_d'_impact
mais ne le sera pas si l'on précise
qu'on ne cherche que les lettres dont le sujet principal porte
sur cette phase du projet (stratégie no 4).
Dans un logiciel documentaire comme
Seconde, un menu présentera ces options et le logiciel
ira chercher dans les champs indexation et/ou texte selon les
spécifications de l'utilisateur. Il pourra aussi, si on
le demande, aller fouiller dans le thésaurus et afficher
les descripteurs environnants. Comme le logiciel a une interface
à menu, la plupart des utilisateurs le trouveront plus
facile à utiliser; par contre, les experts seront privés
de plusieurs fonctionnalités disponibles dans SATO. Dans
l'application VIXIT, on recourt donc au logiciel SATO pour procéder
à l'indexation, puis on transfère les résultats
dans Seconde pour son exploitation.
Indexation personnalisée
L'indexation est ainsi accélérée
et rendue plus uniforme. C'est une façon de procéder
qui convient bien dans les contextes les plus familiers aux bibliothécaires:
ceux où il faut desservir une clientèle assez nombreuse,
qui interroge fréquemment et dont on peut bien cerner les
besoins. Mais les textes informatisés dans les bureaux
peuvent servir à toutes sortes de fins. Certains individus
ont des préoccupations atypiques par rapport à leurs
collègues. C'est ainsi que des étudiants de l'EBSI
(École de bibliohtéconomie et des sciences de l'information)
ont dû proposer, pour une personne chargée de planification
et d'études prospectives, un système qui repérait
toutes les phrases susceptibles d'exprimer dans tout type de texte
(produit à l'intérieur de l'organisation comme à
l'extérieur) une notion de futur, de prévision.
La solution a consisté à élaborer un dictionnaire
pour les différentes formes susceptibles d'exprimer le
temps et à mettre au point une série de stratégies
dépistant la présence simultanée d'un de
ces mots avec les terminaisons du futur ou du conditionnel (Chouinard,
1990; Domecq, 1989). La stratégie visant ce dépistage
consiste donc en un mélange d'indexation au repérage
et de catégorisation préalable du vocabulaire. Voici
un exemple de phrases repérées: ... Il peut encore en être ainsi demain, dans la mesure où seront domestiquées les énergies solaire, géothermique, nucléaire ... ... Dans ces conditions, presque tous les systèmes seraient acceptables, si l'on y consacrait des ressources suffisantes. ... Mais ce que nous indique l'analyse éco-énergétique, et qui échappait à tout autre indicateur, c'est que ce processus ne pourra pas se poursuivre indéfiniment.
On s'approche un tant soit peu de la
situation idéale où l'indexation fournirait autant
de données, accessibles d'autant de façons que le
requerraient les différents problèmes à résoudre
au sein de l'organisation. Habituellement, les gestionnaires de
systèmes d'information en ont une image monolithique et
cultivent une approche centralisatrice. Un bon système
de gestion des ressources d'information devrait normaliser les
pratiques d'analyse sans nier les différences d'approche
nécessaires à l'efficacité: "You must
allow for departmental and even individual requirements while
still providing the standard basis for indexing." (O'Shea,
1989:18).
Il faudra encore beaucoup d'études
sur la façon de lire un texte, d'utiliser l'information,
de poser des questions pour découvrir la diversité
des approches. En rendant le texte accessible aussi facilement,
on fait tomber le carcan dans lequel les systèmes bibliographiques
enfermaient les lecteurs pour des raisons évidentes de
limites technologiques et économiques. Avec des "boÎtes
à outils" du type de SATO, les utilisateurs atypiques
peuvent mettre au point des analyseurs "sur mesure"
qui se superposent aux analyseurs prêts-à-porter"
pour la majorité (Bertrand-Gastaldy, 1990b).
Constitution d'index
Un index peut être constitué
qui comporte les références très précises
(document, page, ligne et position dans la ligne) et peut être
suivi d'un formatage avec un logiciel de traitement de texte:
Concordance libre information_politique
Autres applications en analyse
D'autres fonctionnalités de
SATO peuvent être mises à profit: dans un service
d'indexation, il peut être utile de disposer d'un diagnostic
de lisibilité des textes pour répartir le travail
en fonction de l'expérience ou des habiletés de
chacun. Il n'est pas non plus inintéressant de vérifier
la lisibilité des résumés rédigés
par le service.
Comme certains documents administratifs
connaissent de nombreuses versions, le marquage par un souligné
des ajouts dans une version par rapport à une autre aide
à évaluer rapidement la nécessité
de réindexer la nouvelle version.
Nous utilisons actuellement SATO et
SPSS pour analyser les résultats des analyses effectuées
par des indexeurs afin de détecter les corrélations
entre une rubrique de classification et les mots du texte, plus
précisément, les mots dans certaines subdivisions
de texte. De la sorte, il sera possible de concevoir une série
de règles qui déclencheront l'attribution automatique
de telle ou telle rubrique sur la base de la co-présence
de certaines des unités lexicales discriminantes. En outre,
le système expert pourra exploiter des relations thésaurales
autres que les relations d'équivalence pour l'indexation.
La présence simultanée d'un certain nombre de termes
spécifiques pourra conduire à l'assignation du générique.
La co-présence de tel ou tel terme dans un contexte déterminé
pourra contribuer à désambiguïser un polysème.
LE REPÉRAGE
Nous avons montré comment on
peut recourir à SATO pour mener à bien les principales
activités documentaires: l'élaboration de thésaurus,
l'indexation et, au travers de ces deux fonctions, nous avons
illustré certaines des possibilités d'exploration
des corpus qui constituent autant de stratégies de recherche.
Le lecteur se sera sans doute rendu compte de la multiplicité
des combinaisons possibles. Nous allons récapituler les
caractéristiques les plus saillantes.
On peut visualiser les mots dans le
texte ou dans le lexique trié par ordre alphabétique,
de fréquence, de longueur et d'après les propriétés
assignées.
Plusieurs mots peuvent être inclus
dans la stratégie de recherche avec des conditions sur
leur position respective: dans n'importe quel ordre (concordance
libre), dans l'ordre de la déclaration (concordance ordonnée),
dans une position d'adjacence (concordance stricte).
La fouille sur les chaÎnes de
caractères bénéficie de la possibilité
de troncature à droite et à gauche, comme nous l'avons
vu plus haut, ainsi que du masque: La commande: Écrire lexique pruden-e
peut récupérer: prudence
prudente Si l'on cherche toutes les formes de 3 lettres, on demandera: Écrire lexique $---
ce qui donnera: fréq 7 aux 1 bon 1 cas 7 ces 143 des 2 100 Avec la commande suivante où: ( introduit une suite de patrons alternatifs, ) termine cette suite , sépare chacun des patrons alternatifs Écrire lexique (0,1,3,4,5,6,7,8,9)$
on obtiendra: 1980 1984 1988 223 ... \ sert à inclure dans la stratégie un caractère spécial (comme un signe de ponctuation) ou une majuscule. La commande: Écrire lexique \M$
extrait: Manitoba Matane Mirabel ... Lorsqu'on cherche une valeur de propriété symbolique (qui porte un nom), on peut utiliser = ( pour égal) et ~ (pour différent). Si l'on veut toutes les formes qui sont des noms, on écrit: $*gramr=nomc
et on aboutit à ce genre de
résultat: fréq gramr 1 nomc administrateur 2 nomc administrateurs 2 nomc agence 1 nomc application Les opérateurs disponibles pour les propriétés numériques sont: = pour: égal < pour: plus petit que > pour: plus grand que
, pour l'opérateur logique
ou
$*fréquence>5 fréq 7 accès 10 acteurs 11 agences 28 analyse ... Nous avons dit plus haut que l'on peut associer une fouille sur les caractères et une fouille sur les propriétés. Voici un exemple où l'on cherche tous les mots qui ont reçu la valeur infinitif et qui se terminent par ir, er, oir, re:
|(ir,er,oir,re) *gramr=infinitif
fréq gramr 1 infinitif avoir 1 infinitif conclure 1 infinitif contenir 2 infinitif penser Cet autre exemple combine une troncature à gauche sur une chaÎne de caractères, une valeur de propriété grammaticale et une fréquence:
Écrire lexique |ation*gramr=nomc*fréqtot>5
fréq gramr 13 nomc communication 101 nomc information 10 nomc présentation 6 nomc relation 6 nomc situation
Dans le texte, on peut délimiter
le contexte dans lequel s'effectuera la fouille: contexte numérique
en fonction d'un nombre fixé par l'utilisateur de mots
avant et après le mot cherché; contexte délimité
en fonction de la présence dans le texte de caractères
délimiteurs (comme les signes de ponctuation forte ou faible),
ce qui permet par exemple de chercher dans des phrases, des portions
de phrases ou des paragraphes; contexte homogène obtenu
en fonction des valeurs d'une propriété textuelle
donnée: les textes, les chapitres, les notices, les entrées
de dictionnaire, etc. On peut afficher ou imprimer également
toute portion de texte qui correspond à une valeur de
propriété textuelle, par exemple tous les titres:
Écrire texte $*zone=tm *notice=1*zone=tm Analyse du traitement journalistique de l'information politique au Québec: le cas du projet de restructuration scolaire de 1982 *notice=2*zone=tm La position canadienne face au nouvel ordre mondial de l'information et de la communication *notice=3*zone=tm L'information administrative et les moyens de puissance
On peut ensuite extraire les formes
lexicales qui proviennent des titres: fréq zone 7 tm accès 5 tm activités 3 tm administrative 11 tm agences 28 tm analyse
On n'en finirait pas de donner des
exemples de combinaisons diverses. Il faut laisser aller son imagination,
ce qui n'est pas aussi aisé lorsqu'on est conditionné
par les contraintes des logiciels documentaires traditionnels!
La souplesse d'exploration de SATO
peut d'ailleurs se transformer en difficulté d'utilisation,
car il faut maÎtriser une syntaxe plus riche (tant au niveau
des unités que des opérateurs pour les manipuler)
que celle qu'offrent d'habitude les logiciels documentaires. C'est
pourquoi SATO est bien adapté pour les concepteurs, les
chercheurs et fouineurs de tout acabit! Pour les autres, ceux
qui ont d'autres occupations, il est possible de dissimuler la
plupart des démarches sous des macro-commandes qui rendent
le logiciel transparent, ou bien de déverser les résultats
d'analyse dans un logiciel documentaire qui offre, par contre,
beaucoup moins de diversité d'approches.
AU-DELÀ DES PROCÉDURES
D'ANALYSE DU CONTENU: LES QUESTIONS THÉORIQUES
Au-delà des procédures
pour faciliter l'analyse du contenu, le dépouillement automatique
de textes intégraux soulève des questions théoriques
importantes que nous mentionnons brièvement ( nous les
avons développées davantage dans Bertrand-Gastaldy
et Pagola, 1992).
En ce qui concerne le contenu d'un
thésaurus, on peut s'interroger, par exemple sur le type
d'unités lexicales à conserver, sur l'inclusion
des verbes, des adjectifs et des adverbes à côté
des noms pour une meilleure caractérisation d'un domaine.
On peut aussi se demander comment interrelier les termes propres
au domaine, le vocabulaire de la langue commune et les mots sélectionnés
de façon privilégiée pour accompagner les
termes du domaine (ce que les terminologues appellent les co-occurrents).
La question de la finesse des étiquettes de relations en
fonction des conditions d'utilisation, notamment dans les systèmes
à base d'inférence, est également débattue.
Les liens entre thésaurus, terminologies et bases de connaissances
font également l'objet de recherches.
Pour ce qui est des sources à
exploiter en vue de colliger les termes du thésaurus, on
a mentionné les textes de la base de données à
interoger, les dictionnaires et banques de terminologie, les questions
des utilisateurs. On se doute qu'on ne peut manipuler au hasard
les sources de données. Il faut se poser des questions
sur leur validité à alimenter un thésaurus
et, plus fondamentalement sur la fonction des thésaurus,
donc sur le genre de connaissances à y inclure. Les relations
qu'ils mettent en évidence sont-elles des relations communément
acceptées dans la vie quotidienne, dans le domaine de spécialité,
dans la base de données particulière à laquelle
on veut faciliter l'accès? Ces relations concernent-elles
les concepts qui seraient exprimés par les termes ou les
relations entres les différentes unités lexicales,
ou encore les deux? Rien de tout cela n'est clarifié dans
la littérature sur les thésaurus.
Les phénomènes textuels
qu'il faudrait maÎtriser pour arriver à une indexation
automatique capable d'extraire avec précision le sujet
du document ne sont pas abordés depuis très longtemps
dans la littérature en sciences de l'information. Mais
on sait mieux désormais comment procèdent les indexeurs
humains. Avec toutes leurs connaissances de la langue, du domaine,
des conditions de production des textes et du contexte d'utilisation,
ils réussissent en principe à reconnaÎtre
les équivalences sémantiques entre un terme et sa
définition, les périphrases et les paraphrases,
à distinguer les nuances fines entre énoncés
presque semblables, à détecter les concepts implicites,
à suppléer aux ellipses, à rattacher correctement
les pronoms à leurs référents, à laisser
de côté les informations superflues ou redondantes
et à intègrer progressivement les détails
présentés dans les micro-propositions pour dégager
le sens général, les macro-propositions. Ils filtrent
l'information la plus pertinente pour les utilisateurs dont ils
connaissent bien les besoins. Le problème se pose donc
de savoir jusqu'où et comment on peut le mieux les assister
dans ces tâches complexes, tout en sachant qu'on ne peut
guère les remplacer entièrement, sauf dans des cas
où les sous-titres fournissent une sorte d'auto-indexation
ou encore lorsqu'une indexation de piètre qualité
n'est pas trop pénalisante. La solution à privilégier
doit s'appuyer sur une analyse coût-bénéfices
et dépend de la disponibilité de logiciels évolués.
CONCLUSION
SATO a servi à illustrer le
parti que l'on peut tirer d'outils d'aide à l'analyse de
contenu pour mener à bien certaines tâches reliées
à l'analyse et au repérage.
Le logiciel n'est pas sans défaut.
Le vocabulaire des commandes peut rebuter le spécialiste
de l'information documentaire. Une grosse amélioration
de l'interface serait nécessaire. Il faudrait lui ajouter
d'autres modules, en particulier un analyseur morpho-syntaxique.
Des systèmes comme ALETH de la firme ERLI, SPIRIT, FASIT
ou INDEX-D procèdent à des analyses plus fines des
lexies complexes. Par contre, il offre une panoplie étonnante d'outils destinés à des approches multiples des textes.
De plus, il peut être couplé
à des logiciels aussi bien en amont (éditeurs comme
PE, manipulateurs de chaÎnes de caractères comme
ICON) qu'en aval (logiciel statistique comme SPSS, logiciel documentaire
comme Seconde, coquille de système expert, etc.), ce qui
va dans le sens d'une conception modulaire des instruments de
traitement adaptée à la diversité des objectifs
poursuivis. L'un des bénéfices que l'on peut tirer
de son utilisation est d'ordre pédagogique. Nous prenons
conscience de la complexité de l'objet textuel et du nombre
de connaissances déclaratives et procédurales qu'il
faut ajouter pour reproduire un tant soit peu certaines étapes
de l'analyse humaine.
Avec de tels outils à notre
disposition, nous nous rendons bien compte que, à l'avenir
ce n'est plus tant la mise en oeuvre de certains traitements qui
posera problème mais plutôt les fondements théoriques
de nos façons de fonctionner et de nos outils traditionnels.
De beaux défis sont à l'horizon!
BIBLIOGRAPHIE
Agosti, M.; Gradenigo, G.; Archi, A.;
Inghirami, B.; Nannuci, R.; Colotti, R.; Mattiello, P.; Di Giorgi,
R.M.; Ragona, M. New prospects in information retrieval techniques:
a hypertext prototype in environmental law. In: Online Information
89; Proceedings of the 13th International Online Information Meeting,
London, 12-14 December 1989: 483-494.
Association française de normalisation.
Règles d'établissement des thésaurus monolingues.
Z 47-100. Paris: AFNOR; décembre 1981.
Auger, Pierre. Terminographie et lexicographie
assistées par ordinateur; état de la situation et
prospectives. Actes du Colloque Les industries de la langue:
Perspectives des années 1990, Montréal, 21-24 novembre
1990. [Québec]: Gouvernement du Québec: 659-680.
Balcer, Madeleine; Gonin, Jean-Paul.
Réactions de l'usager face à l'utilisation du système
de repérage en mode dialogué, BADADUQ. Documentaliste;
16(2); mars-avril 1979: 55-61.
Belkin, N.J.; Marchetti, P.G.; Albrecht,
M.; Fusco, L.; Skogvold, S.; Stokke, H,; Troina, G. User interfaces
for information systems. Journal of Information Science ;
17; 1991: 327-344.
Bertrand-Gastaldy, Suzanne, 1992. Le
contrôle du vocabulaire et l'indexation assistés
par ordinateur; une approche méthodologique pour l'utilisation
de SATO. Avec la collaboration de Gracia Pagola. [Montréal]:
Université de Montréal. École de bibliothéconomie
et des sciences de l'information; janvier 1992. pagination variée
[612 p.] [en pré-édition; édition définitive:
été 1992].
Bertrand-Gastaldy, Suzanne, 1984. Les
thésaurus de recherche; des outils pour l'interrogation
en vocabulaire libre. Argus; 13(2); 1984: 51-58.
Bertrand-Gastaldy, S., 1990a "L'évolution
de la gestion de l'information documentaire sous l'impulsion des
nouvelles technologies." Terminogramme; Bulletin d'information
terminologique et linguistique, 55, mars 1990: 25-31.
Bertrand-Gastaldy, S., 1990b. "L'indexation
assistée par ordinateur: un moyen de satisfaire les besoins
collectifs et individuels des utilisateurs de bases de données
textuelles dans les organisations." ICO Québec;
Intelligence artificielle et sciences cognitives au Québec;
2(4); septembre 1990: 71-91.
Bertrand-Gastaldy, S.;Pagola, G. 1992.
"L'élaboration et la gestion d'un vocabulaire de domaine
dans le contexte des bases de données textuelles: remises
en question et méthodologies." Colloque Repérage
de l'information textuelle organisé conjointement par l'Hydro-Québec
et le ministère des Communications du Québec, Montréal,
le 18 septembre 1991. [Montréal]: Hydro-Québec;
mars 1992: 51-71.
Blair, David, C., 1986. Full text retrieval:
evaluation and implications. International Classification;
13(1); 1986: 18-23.
Blair, David, C.; Maron, M.E., 1985.
An evaluation of retrieval effectiveness for a ful-text document
retrieval system. Communications of the ACM; 28(3); march 1985:
289-299
Boulanger, Jean-Claude,1989. Le statut
du syntagme dans les dictionnaires généraux monolingues.
Meta; 34(3); septembre 1989: 360-369.
Bourque, G. ; Duchastel, J.,1988. "Restons
traditionnels et progressifs". Pour une nouvelle analyse
du discours politique; le cas du régime Duplessis au Québec.
Montréal: Boréal; 1988. 399 p.
Chaumier, Jacques; Déjean, Martine,
1992. L'indexation assistée par ordinateur: principes et
méthodes. Documentaliste; sciences de l'information; 29(1);
1992: 3-6.
Chouinard, Daniel, 1990. La notion
d'avenir en français; une exploration au moyen du logiciel
SATO. [Montréal]: Université de Montréal.
École de bibliothéconomie et des sciences de l'information;
avril 1990. 33 p
Domecq, Marie-Cécile, 1989.
SATO; exemple d'une application: détermination de la
valeur "futur" dans des textes administratifs. [Montréal]:
Université de Montréal. École de bibliothéconomie
et des sciences de l'information; décembre 1989. 75 p.
Doszkocs, Tamas E., 1986. Natural language
processing in information retrieval. Journal of the American Society
for Information Science.; 37(4); 1986: 191-196.
Duchastel, Jules, 1991. Étude
d'un corpus de dossiers de la cour juridique de Winnipeg à
l'aide du système d'analyse de textes par ordinateur (SATO).
Actes du Colloque Jornadas Internacionales de Anàlisis
de Datos Textuales, Universitat Politècnica de Catalunya,
Barcelona (Espagne), 1991.
Frohmann, Bernhard P., 1983. An investigation
of the semantic bases of some theoretical principles of classification
proposed by Austin and the CRG. Cataloging and Classification
Quarterly ; Fall 1983; 4(1): 11-27.
Garson, L.R.; Love, R.A., 1985. Full
text searching of the ACS journals online: use and abouse. In:
Online 1985 Conference Proceedings. New York, November
4-6, 1985, Weston, Conn.: Online Inc.; 1985: 116-119.
Lancaster, F.W., 1977 Vocabulary control
in information retrieval systems. Advances in Librarianship;
7; 1977: 1-40.
Laroche, Léo, 1990. Calibrage
des textes et lisibilité. ICO Québec; Intelligence
artificielle et sciences cognitives au Québe); 2(4);
septembre 1990: 114-118.
Locke, Christopher, 1991. The dark
side of DIP. Byte; 16(4); April 1991: 193-206.
Meunier, J.-G., Bertrand-Gastaldy,
S.; Lebel, H., 1987. "A call for enhanced representation
of content as a means of improving on-line full-text retrieval."
International Classification, 14(1), 1987: 2-10.
O'Shea, Michael, 1989. Simply defined:
nonsense filing everyone can live with. Office Equipment &
Methods; 1989 November: 16-18.
Organisation internationale de normalisation,
1986. Principes directeurs pour l'établissement et le
développement de thésaurus monolingues. ISO
2788 (F). [Genève]; ISO; 1986. 32 p.
Paquin, Louis-Claude; Dupuy, Luc; Rochon,
Yves, 1990. Analyse de texte et acquisition des connaissances:
aspects méthodologiques. ICO Québec; Intelligence
artificielle et sciences cognitives au Québec; 2(3);
septembre 1990: 95-113,
Ranjard, Sophie, 1991. L'indexation
manuelle: une valeur ajoutée. Archimag. Hors série;
novembre 1991.
Richer, Pierre, 1986. La création
automatique d'un thésaurus de recherche. Argus;
15(1); 1986: 13-19.
Rohou, Cécile, 1987. La gestion
automatisée des thésaurus; étude comparative
de logiciels. Documentaliste; 24(3); mai-juin 1987: 103-108.
Salton, Gerard, 1971. The SMART
Retrieval System . Englewood Cliffs, NJ: Prentice-Hall; 1971.
Schmitz-Esser, Winfried, 1990. Thesauri
facing new challenges. International Classification; 17(3-4);
1990: 129-132.
Sparck-Jones, Karen, 1971. Automatic
Keyword Classification for Information Retrieval. London:
Archon Books; 1971.
Tenopir, Carol, 1985. Searching Harvard
Business Review online; lessons in searching a full text database.
Online; 9(2); 1985: 71-78. Wilson, T.D., 1984. The cognitive approach to information seeking behaviour and information use. Social Science Information Studies; 4; 1984: 197-204. |