Retour à l'accueil Remonter

L'élaboration et la gestion d'un vocabulaire de domaine dans le contexte des bases de données textuelles: remises en question et méthodologies

Par

Suzanne Bertrand-Gastaldy et Gracia Pagola

Résumé

Le succès du repérage dans une base de données textuelles nécessite, encore plus que dans une base de données bibliographiques, un contrôle et une structuration du vocabulaire (sous quelque forme que ce soit), rôle dévolu traditionnellement au thésaurus.

2) L'élaboration et la gestion de ce vocabulaire sont plus complexes que pour le thésaurus traditionnel pour plusieurs raisons dont voici les principales:

. la diversité et la taille des sources de données

. la nature du matériau à traiter (le langage naturel)

. le nombre et la diversité des utilisateurs potentiels . la multifonctionnalité croissante des bases de données textuelles

À cause de la quantité, de la diversité et de la complexité, il faut procéder à des catégorisations qui rendent les sources et les données lexicales plus manipulables. Il faut donc s'interroger sur la validité des approches et des traitements traditionnels.

Des remises en question s'imposent donc:

. sur le type de sources à exploiter pour la collecte des termes

. sur les objets à représenter

. sur le type d'unités de représentation pertinentes

. sur les interrelations entre le vocabulaire du domaine et le vocabulaire général

. sur les regroupements des unités lexicales

De nouvelles méthodologies doivent être mises au point qui laissent l'être humain intervenir au bon moment, mais qui l'assistent le plus possible. En annexe sont présentées des exemples de traitements effectués à l'aide de SATO (système d'analyse de textes par ordinateur) pour chacune des grandes étapes de l'élaboration et de la gestion du vocabulaire.

5) Bien que nécessaires, le contrôle et la structuration du vocabulaire sont insuffisants pour représenter adéquatement le contenu des textes.

INTRODUCTION

Pour les personnes chargées d'élaborer et de gérer les thésaurus nécessaires à l'indexation et à l'interrogation des bases de données, les nouvelles technologies ont apporté des changements importants ces dernières années. La taille des corpus lisibles par ordinateur s'est accrue soudainement (on parle de centaines de milliers de pages pour un seul service, et même pour un seul projet, dans une grande entreprise). La nature des textes s'est diversifiée: textes scientifiques, techniques, normatifs, législatifs, correspondance, etc. se côtoient. En outre, la langue naturelle dans laquelle les documents sont rédigés constitue un nouveau matériau à traiter, beaucoup plus abondant et complexe que les représentations réduites issues du filtrage et de la normalisation effectués par les indexeurs.

Or, le succès de l'utilisation d'une base de données textuelles nécessite, encore plus que pour une base de données bibliographiques, un contrôle et une structuration du vocabulaire (sous quelque forme que ce soit), rôle dévolu traditionnellement au thésaurus. Mais à cause de la quantité, de la diversité et de la complexité des données textuelles et lexicales, l'élaboration et la gestion de ce vocabulaire posent des problèmes particuliers qui pouvaient passer inaperçus dans les thésaurus traditionnels. Une fois constituées, les bases de données textuelles peuvent être analysées et interrogées à l'aide de l'ordinateur ou de façon automatique; de plus, elles sont susceptibles de remplir toutes sortes de fonctions: repérage de textes ou de passages de textes, aide à la lecture, aide à la synthèse, aide à l'écriture, aide à l'établissement de nomenclatures, aide à l'élaboration de bases de connaissances, fourniture de réponses factuelles, etc. Cette multifonctionnalité accroÎt d'autant le nombre et la diversité des besoins à satisfaire, puisque de nouveaux utilisateurs s'ajoutent aux utilisateurs desservis autrefois par des systèmes bibliographiques construits spécialement pour répondre à des attentes relativement stéréotypées et bien cernées. Les produits issus des opérations de collecte et de gestion du vocabulaire sont donc susceptibles d'être utilisés pour d'autres fins que le repérage et l'analyse documentaires habituels. C'est pourquoi, il faut s'interroger sur la validité des méthodes traditionnelles que l'on pourrait souvent qualifier d' ad hoc, subjectives, longues et coûteuses. Mais on se heurte rapidement à un vide théorique, déploré à quelques reprises - mais trop rarement - dans la littérature.

Nous poursuivons, dans cette présentation, deux objectifs:

1) énumérer quelques-unes des remises en question qui s'imposent en ce qui concerne le contenu et la structure des thésaurus;.

2) exemplifier, en annexe, certains éléments de méthodologie développés pour assister l'élaboration et la gestion d'un vocabulaire de domaine avec le logiciel SATO.

QUELQUES REMISES EN QUESTION NÉCESSAIRES

QUELLES SOURCES DE DONNÉES PRIVILÉGIER?

Les sources documentaires

Alors que, pour construire un thésaurus avec les méthodes traditionnelles, il fallait des mois - voire des années -d'indexation (méthode a posteriori ), de consultation de sources de références et de réunions d'experts pour colliger les termes du domaine (méthode a priori), il suffit désormais de quelques minutes ou de quelques heures, selon le volume des données et la complexité des analyseurs employés, pour obtenir le lexique des formes simples et des formes composées d'une base de données textuelles. D'autres sources de données, comme les définitions de dictionnaires ou de banques de terminologie sont également lisibles par ordinateur. Nous sommes confrontés à des interrogations sur la validité de ces sources tout autant que sur la façon de les exploiter au mieux, le débat sur les thésaurus de recherche ("search only thesaurus") conçus directement à partir du contenu des bases de données (Bertrand-Gastaldy, 1984; Lancaster, 1977; Richer, 1986; etc.) n'ayant pas fourni plus de fondements théoriques que les normes qui continuent de recommander, sans véritables justifications, un mélange des deux méthodes.

Corpus de l'organisation

Dans un contexte administratif, les textes du corpus auxquels on veut accéder constituent en quelque sorte les archives de l'activité de l'organisation qui les a produits. Aussi semble-t-il normal d'extraire le vocabulaire de ces documents et de mettre en évidence les multiples interrelations qui se nouent et se dénouent dans les textes. Nous avons pris le parti d'exploiter d'abord ces sources-là, avec SATO, logiciel orienté vers l'analyse de contenu.

Pour la découverte de leurs régularités, plusieurs théories peuvent être mises à contribution: la linguistique descriptive, et plus particulièrement la sémantique textuelle (Rastier, 1987, 1989), la théorie des langues de spécialité (Grishman et Kittredge, 1986; Kittredge et Lehrberger, 1982, entre autres).

Sur le plan pratique, nous nous sommes posé la question de savoir comment déterminer le moment opportun pour le dépouillement. Trois indicateurs empruntés à la lexicométrie suffisent à nous renseigner sur le ralentissement de la croissance du vocabulaire au fur et à mesure dque de nouveaux documents sont insérés dans la base: taux de renouvellement du vocabulaire, taux de répétitivité, comportement des formes de fréquence 1,2 et 3 .

Documents de référence

Mais ces sources sont-elles suffisantes? Les connaissances nécessaires pour accéder efficacement à ces textes et pour les indexer sont-elles explicitement inscrites dans ces sources? N'y a-t-il pas beaucoup de savoir supposé connu des lecteurs qu'il faudrait aller chercher dans les ouvrages de référence du domaine et dans les lexiques, dictionnaires ou encyclopédies, terminologies du domaine et autres thésaurus?

Cependant, n'y a-t-il pas retard de ces sources et décalage par rapport au savoir contenu dans le corpus auquel on veut donner accès? Ne révèlent-elles pas l'idéologie d'un hyper-énonciateur, dans un contexte donné, à un moment donné de l'évolution du savoir, toutes circonstances qui ne sont pas identiques à celles qui ont entouré la production des textes à interroger?.

Les questions soulevées diffèrent sans doute selon le contexte d'utilisation. Contrairement aux publications scientifiques, les textes prescriptifs, législatifs et normatifs sont en général assez explicites, à preuve les nombreuses définitions que l'on retrouve dans le Répertoire des Politiques du Gouvernement, les lois, les conventions collectives et les contrats. De plus, dans une organisation, la base de données textuelles est interrogée par des utilisateurs qui sont souvent les créateurs des documents; ils possèdent donc le savoir implicite nécessaire à leur interprétation. Pour confirmer cette intuition, il faudrait étudier à quel type de connaissances les indexeurs et les utilisateurs recourent, lesquelles figurent dans les thésaurus, lesquelles sont mobilisées par les individus, selon leur formation et leurs intentions, et avec quel succès.. Les connaissances à représenter pour faciliter l'interrogation ne sont d'ailleurs pas les mêmes selon que celle-ci est effectuée par l'être humain assisté de l'ordinateur ou qu'elle est entièrement déléguée à l'ordinateur. Connaissances linguistiques, sémantiques et pragmatiques sont nécessaires pour interpréter les textes et reconnaÎtre les référents des termes. Les réflexions d'Eco (1988) sur le dictionnaire et l'encyclopédie incitent à une révision profonde de nos façons de concevoir le thésaurus et son interrelation avec d'autres outils de représentation.

Par comparaison avec les questions théoriques, les problèmes pratiques sont plus faciles à résoudre étant donné la disponibilité de plus en plus fréquente sur CD-ROM de ces sources et les recherches en intelligence artificielle pour l'exploitation des définitions (Ahlswede, 1985; Ahlswede et Evens, 1988; Calzolari, 1988) nous ont incitées à mettre au point une méthodologie consistant à dériver des données du dictionnaire électronique Le Grand Robert et à les traiter avec SATO (Houde, 1991). Les expériences sur une banque de terminologie comme Termium se sont révélées moins productives (Tardif, 1991), mais elles devraient être poursuivies.

Les individus

Comme dans tout dialogue, dans la communication avec la base de données on ne peut tenir compte d'un seul interlocuteur. Il faut assurer la compatibilité entre les réalisations linguistiques des textes et les pratiques langagières des utilisateurs (par exemple, frais de voyage employé par les fonctionnaires doit permettre d'accéder à frais de déplacement, seule expression figurant dans le corpus de la Politique administrative du Gouvernement du Québec). On parle de "vocabulaire d'entrée" à propos des termes équivalents qui sont ainsi rajoutés. Les nouvelles technologies permettent de détecter plus facilement les termes manquants: un module de messages pour suggestions d'insertion de nouveaux termes peut être mis à la disposition des utilisateurs ou bien les stratégies d'interrogation peuvent être enregistrées systématiquement (ainsi, pour conserver la trace de l'interaction avec le corpus, il suffit de se mettre en mode témoin dans le module SATOINT de SATO). Ensuite, il faut analyser les données recueillies. Güntzer et al. (1988) propose un système d'apprentissage à partir des questions: TEGEN (thesaurus generating system) qui non seulement construit progressivement des regroupements de termes, mais qualifie les relations lexico-sémantiques sur la base des opérateurs logiques employés dans les stratégies, de vérifications et de dialogue avec les utilisateurs.

QUELS TYPES DE SIGNIFIANTS RETENIR DANS UN THÉSAURUS?

Les signifiants et les signifiés

Comme on traite du texte avec tous les systèmes (morphologiques, lexicaux, sémantiques, textuels et intertextuels) qui s'interrelient pour produire du sens, il faut bien distinguer ce que l'on manipule: signifiants, signifiés et attributs des uns et des autres aux différents niveaux.

Parmi les signifiants, on peut relever les morphèmes, les formes simples, les lexies simples ou complexes, les termes, les noms propres, les énoncés, le texte dans son entier, etc. Les signifiés diffèrent selon la nature des signifiants: sèmes, concepts, actions, propriétés, (Aitchison et Gilchrist, 1987; Pavel, 1989: 349), propositions et discours du texte au sens où Meunier l'enttend (1990). Quant aux référents, ce peut être des objets, des individus, des événements.

L'intérêt de cette distinction est double:

1) On distingue mieux les opérations à effectuer, sur quels objets elles portent , quelles propriétés elles confèrent et selon quels principes on peut regrouper les objets

Par exemple:

- Reconnaissance des caractères et segmentation en chaÎnes de caractères, phrases et paragraphes; édition du lexique des formes;

- Analyse morpho-syntaxique des occurrences pour l'obtention de lexèmes simples ou complexes, de préfixes, suffixes, radicaux avec possibilité de regroupement par familles de mots;

- Analyse lexico-sémantique des lexèmes pour la représentation de relations;

- Analyse sémantico-pragmatique pour le choix des termes du domaine et l'établissement de relations entre termes et lexèmes ainsi que pour la représentation des concepts avec leurs traits;

- Analyse syntaxico-sémantique des énoncés pour la représentation, sous forme normalisée, des termes et du rôle qu'ils occupent (action, agent de l'action, objet ou patient de l'action, etc.)

2) On distingue mieux les propriétés et attributs attachés à chaque objet

En interrogeant la base de données, on pourra alors répondre avec précision à des questions de ce genre:

- Quelle est la fréquence de la forme singulière de "peuple", de sa forme plurielle? du lexème "peuple"? des dérivés comme "dépeuplement"?

- Quelles sont les valeurs de catégorie grammaticale réalisées dans le corpus pour la forme or ? Est-il toujours conjonction de coordination, ou le retrouve-t-on comme substantif?

- Quelle est la fréquence du concept si, dans le corpus, "foule", "citoyen" etc. sont considérés comme synonymes?

- Depuis quand tel ou tel lexème est-il attesté dans le corpus?

- À quelle époque tel ou tel concept est-il apparu, si l'on tient compte des périphrases attestées avant qu'un terme soit adopté par la communauté?

- Depuis quand le système d'indexation a-t-il opté pour tel descripteur au détriment de tel autre pour représenter tel concept?

- Comment a évolué le concept de déchet, dans les dix dernières années? Quelles propriétés (ou traits de substance, selon Le Guern, 1989) lui a-t-on attribuées au fil du temps?

- Quelle est la composition d'un produit chimique? Quelles sont ses utilisations médicales?

- Quels sont les verbes que l'on retrouve le plus souvent associés avec tel ou tel terme du domaine?

- Ce terme figure-t-il exclusivement dans un rôle d'agent par rapport à cette action? Ou bien peut-il occuper le rôle de patient?

- Quelle est la fréquence d'emploi de tel ou tel lexème dans la macro-structure des textes (titres et sous-titres)? Est-il plus souvent présent au niveau de la micro-structure?

- D'après le contenu du corpus, peut-on dire que tel terme est un spécifique de tel autre?

- Quels sont les individus auxquels les textes font référence, selon quelles désignations?

On peut ainsi concevoir une base de concepts, une nomenclature d'objets concrets contenant les propriétés de chacun d'eux et une base de termes dont certains peuvent renvoyer au même concept ou au même objet, parce qu'ils sont synonymes ou équivalents dans des langues différentes. Ainsi la base de termes devient un sous-ensemble du lexique et des interrelations entre les deux entités peuvent être mises en évidence. On notera au passage que si le nom propre n'a de référence qu'individuelle, un nom commun peut renvoyer à un concept et à une réalité désignée (Lerat, 1983), ce que la littérature sur les thésaurus se garde bien de préciser, comme elle escamote d'ailleurs la définition du concept et la question de la différence entre un terme complexe et un énoncé.

Du lexique d'un corpus aux termes du domaine: lexèmes complexes et termes

Toutes les unités lexicales ne sont pas utiles pour exprimer les notions du domaine. Il faut connaÎtre le domaine pour pouvoir se prononcer sur la probabilité qu'un lexème soit un terme.

La collecte et le choix des termes du domaine à partir des corpus posent deux problèmes principaux:

- l'extraction des lexies complexes, puisque beaucoup de termes sont des nominations syntagmatiques.

- la détermination de critères aussi objectifs que possible pour retenir seulement les termes du domaine, parmi les lexèmes simples et complexes .

Il s'agit là de deux opérations très complexes, qui constituent souvent un goulot d'étranglement et pour lesquelles les normes et manuels, conçus dans une perspective de sélection par l'être humain, ne sont pas d'un grand secours. Elles doivent être formalisables, au moins pour la partie du travail que l'on veut confier à l'ordinateur.

Pour la première étape, l'extraction des lexies complexes, un analyseur morpho-syntaxique comme il en existe dans Termino, serait sans doute nécessaire. Au moins deux obstacles s'opposent pour le moment, au recours généralisé à un logiciel de ce genre: la taille des corpus et la particularité de la syntaxe de certains domaines de spécialité par rapport à la syntaxe de la langue courante. La procédure MARQTERM qui a été mise au point avec SATO s'appuie sur l'existence de bases de données lexicales dans lesquelles les formes sont affectées de toutes les valeurs de catégorie grammaticale qu'elles peuvent avoir hors contexte et sur la recherche dans les textes de séquences de valeurs comme: nom + adjectif (politique administrative, conditions météorologiques), Nom +préposition +nom (concours de recrutement, eau de transplantation ), adjectif + nom + adjectif ( grand ensemble urbain, hautes eaux printanières ), etc. Ce procédé, plus bruyant que le premier, peut être appliqué avec plusieurs variantes selon le degré d'exhaustivité recherché; il est indépendant de la langue et peut servir à découvrir des configurations d'expressions complexes propres à un discours donné.

Quelle que soit la stratégie adoptée, il faut faire un tri.

Citons d'abord, parmi les problèmes non résolus, la décision de garder une expression complexe telle quelle ou de la décomposer en ses expressions minimales. La norme ISO 2788 (1986) sur les thésaurus monolingues fournit quelques règles, sans les justifier de façon rigoureuse, en omettant des configurations syntaxiques fréquentes et en faisant abstraction des dimensions socio-cognitives. Elle est orientée vers la collecte de termes minimaux en vue de la représentation d'énoncés complexes basée sur la grammaire des cas. Ses recommandations sont très fortement inspirées du système PRECIS (Preserved Context Indexing System): action, objet de l'action, agent de l'action, lieu de l'action, etc.) et ne sont d'aucun secours pour régler des cas comme abus de pouvoir , abus du pouvoir ; voyage présidentiel , voyage du président, etc.

Ensuite, toutes les lexies complexes retenues ne traduisent pas des objets (concrets ou abstraits) propres au domaine. Comme le soulignent David et Plante (1990), l'unité terminologique n'est pas un pur fait de langue, elle appartient à un système cohérent, énumératif et/ou structuré, chargé de représenter un domaine de connaissances. Elle fait intervenir les pratiques socio-culturelles d'une communauté et des caractéristiques d'ordre psychologique. Pour en tenir compte, il convient de scruter avec soin les réalisations linguistiques du corpus, de considérer la fréquence de certains regoupements, leurs caractéristiques éditoriales (position dans le corpus, typographie, etc.), la mobilité de chacun des éléments entrant dans une expression complexe afin d'en déterminer le degré de figement (Gross, 1988) et,.bien sûr, de recourir à l'avis des experts. Nous avons profité de la souplesse de SATO pour développer quelques procédures qui favorisent la prise de décision: affichage de plusieurs propriétés simultanément, pondération en fonction de certaines de ces propriétés, classement selon un ordre décroissant de pertinence probable et enregistrement des avis des experts qui, ultimement, se prononcent sur l'appartenance ou non au domaine (Paquin et al., 1990:.104)

Il est probable qu'un thésaurus conçu pour l'indexation et le repérage assistés par ordinateur doive contenir des unités de représentation très différentes d'un thésaurus conçu pour une utilisation par un expert humain. Il devrait sans doute offrir des expressions "à géométrie variable", c'est-à-dire plus ou moins précoordonnées. L'affichage du contexte sous forme d'index KWIC rend tout lexème simple accessible quelle que soit sa position dans un terme complexe. Comme, en outre, il faut permettre aux utilisateurs de connaÎtre le plus exhaustivement possible les configurations présentes dans le corpus et comme l'usage évolue, il vaut sans doute mieux ne pas imposer de règles artificielles de décomposition et refléter le contenu réel de la base de données. D'autres modes de visualisation devraient être développés pour permettre de considérer le vocabulaire "sous toutes ses coutures", en contexte et hors contexte.

La catégorie syntaxique des unités lexicales nécessaires pour la représentation des énoncés

Le traitement de corpus en langue naturelle oblige à remettre en question la nature syntaxique des unités linguistiques qui constituent habituellement les thésaurus. Peut-on continuer de se restreindre aux nominaux? Pourquoi ne pas inclure les verbes, les adverbes et les adjectifs? Il faut se demander quelle est la fonction des catégories syntaxiques dans la représentation des concepts et des propositions.

Plusieurs arguments militent en faveur de l'inclusion:

- Les catégories de mots généralement exclues ont des fonctions importantes équivalentes aux catégories de termes "autorisées".

. Actions: noms ou verbes

Extraction, extraire

. Attributs des actions: adjectifs ou adverbes

Extraction automatique, extraire automatiquement

. Objets:

sol

. Attributs des objets: adjectifs ou noms

sol humide, humidité du sol

Dans le premier de ces exemples, le focus est sur l'objet, tandis que dans le second, il est sur l'attribut.

-Tout n'est pas substantivable, comme le montrent ces exemples:

information (nom) informatif (adjectif) informer (verbe)

presse (nom) 0 0

0 social 0

L'adjectif est un des éléments qui modifient le substantif. Quant au verbe, il exprime dynamisme et temporalité. Comme le fait remarquer Garcia Guitiérrez (1990), il sert de régulateur du sens des énoncés documentaires normalisés dans lesquels il introduit des prépositions directionnelles (que l'on appelle des opérateurs de rôle dans les langages documentaires). De même, pour retrouver des notions dans les bases de données en plein texte, il faut disposer d'outils qui permettent d'accéder à plusieurs formulations possibles, car elles ne sont pas toujours exprimées sous forme nominale.

Vocabulaire général, vocabulaire de domaine et co-occurrents

Gémar (1991) parle de trois sous-ensembles du vocabulaire: le vocabulaire général, la terminologie du domaine et les co-occurrents des termes, c'est-à-dire les verbes ou les adjectifs qui reviennent le plus souvent avec tel ou tel terme. La question, pour les concepteurs de thésaurus, est de savoir où faire figurer ces co-occurrents. Faut-il les placer dans les thésaurus, bien qu'ils ne soient pas propres au domaine? Il convient de réfléchir à l'interrelation entre le lexique et le thésaurus. Plus fondamentalement, il faut revoir la fonction du thésaurus dans le contexte nouveau du plein texte.

LES REGROUPEMENTS DES UNITÉS LEXICALES

La diversification et le nombre des objets à inclure ne font qu'accroÎtre le besoin de regroupement pour faciliter l'ordre et la cohérence. Il faut en effet fournir des connaissances sur le vocabulaire et les concepts, afin de faciliter l'établissement des stratégies de recherche et l'obtention de taux de rappel et de précision optimales. La catégorisation en vue de regoupements a toujours existé en documentation. Il est intéressant d'observer que les terminologues s'en préoccupent de plus en plus, pour les mêmes raisons:

"Toutes sortes de relations implicites entre les termes se retrouvent au hasard dans la définition. Ainsi pour le traducteur, le domaine en question est morcelé, chaque définition donne un aperçu fragmentaire du domaine. C'est un peu comme un puzzle qu'on n'arrive pas à assembler parce qu'il y a des pièces qui manquent, et qu'on n'a pas l'image de l'ensemble qui devrait servir de guide.

Nous sommes amenés à conclure qu'on a besoin d'une organisation conceptuelle qui permette à l'usager du dictionnaire de reconstruire, à partir de ses éléments constitutifs, une image cohérente du domaine. " (Kukulska-Hulme et Howles, 1989: 382)

Nous allons passer en revue quelques regroupements possibles, sans nous limiter à ceux que l'on trouve habituellement dans les thésaurus.

Les regroupements lexicaux

La réduction des formes du langage naturel est nécessaire pour contrer la dispersion de l'information sous différentes "étiquettes"; elle s'effectue au moyen de regroupements, dont le plus connu est le contrôle orthographique (clé et clef; BNQ et Bibliothèque nationale du Québec ). D'autres sont nécessaires.

Regroupements des variantes flexionnelles

Dans un thésaurus traditionnel, on n'inscrit que la forme lemmatisée des termes retenus pour représenter le contenu des documents et, comme cette convention est connue des utilisateurs, aucun renvoi n'est effectué.

Dans le cas des textes en langue naturelle, une analyse morpho-syntaxique devrait permettre de regrouper automatiquement, si cela est nécessaire aux besoins de repérage, les différentes variantes flexionnelles d'un lexème. C'est l'opération de lemmatisation qui permet de ramener les verbes à l'infinitif, les substantifs au singulier, les adjectifs au masculin singulier et les formes élidées à la forme sans élision:

plantureux |

plantureuse |_________ plantureux

plantureuses |

veuillez |

veut |_________ vouloir

voudront |

voulons |

etc.

Étant donné que la consultation d'un corpus textuel peut avoir des objectifs fort diversifiés, comme la vérification de la fréquence du pluriel par rapport au singulier ou bien la recherche de l'expression du futur ou du passé, la lemmatisation devrait toujours être offerte en option seulement. Précisons qu'elle n'est pas disponible dans SATO et que le recours aux opérateurs de troncature et au masque n'est qu'un palliatif. Il faut réviser le travail et procéder aux regroupements grâce à une propriété comme Lemme.

Regroupement morpho-lexical des dérivés et des composés autour d'un radical commun

Une même idée peut être exprimée par des combinaisons multiples de différentes catégories grammaticales de mots. Le contrôle lexical offre un moyen de contourner en partie le problème de la variété syntaxique au niveau de la phrase. En effet, si la synonymie phrastique permet d'éviter les répétitions, tout comme la synonymie lexicale, elle a des conséquences fâcheuses pour l'exhaustivité du repérage de l'information.

Par exemple, dans un corpus en environnement, on trouve amélioration des normes de pollution , amélioration du rendement du traitement , mais pas amélioration de la précipitation du cadmium, notion pourtant présente dans la phrase suivante:

La précipitation du cadmium peut être améliorée parl'addition d' hydroxyde de sulfure.

Autre exemple: récupération de nickel et récupération des ions métalliques figurent tels quels, mais pas récupération du cadmium exprimé ainsi:

La technologie de la précipitation permet de récupérer le cadmium sous forme de précipités d'hydroxyde, de carbonates ou de sulfures non solubles.

Ces exemples confirment l'importance, aussi bien pour le repérage que pour l'indexation, d'une part de répertorier les termes simples susceptibles d'entrer dans la composition d'un terme complexe, d'autre part d'effectuer des regroupements de lexèmes formés autour d'un même radical. Il faut cependant prendre garde que si un nom d'action est l'équivalent d'un verbe d'action, il n'est pas l'équivalent d'un adjectif exprimant l'état. Ainsi récupération des métaux n'est pas synonyme de métaux récupérés : dans le premier cas, l'accent (on dit parfois le focus) est mis sur l'action, dans le second sur l'objet issu de l'action. De même, bien que toxicité et toxique soient tous deux des attributs, un segment de texte qui traite de toxicité des métaux n'est pas équivalent à un segment qui traite des métaux toxiques. Dans le premier cas, l'attribut peut lui-même avoir des attributs (la toxicité des métaux est dangereuse ), dans le second c'est l'entité métaux toxiques qui peut avoir des attributs (les métaux toxiques sont dangereux ). C'est pourquoi l'adjectif et le nom ne peuvent être synonymes. Les adjectifs modifient les noms et établissent ainsi des sous-classes de termes spécifiques par rapport aux termes simples.

Autour de -plant-, on pourra regrouper :

planter

plants

transplant

transplants

transplanter

transplantation

replanter

etc.

Le regroupement n'est cependant pas toujours aussi facile, car ou bien le radical a subi des modifications ou bien il se présente sous des formes différentes selon qu'il est pris dans un mot latin ou grec ou dans un mot français, ou encore il est de formation savante et populaire, comme le montrent les exemples suivants empruntés à Ménard (1989):

voir/ visiblement

lumière/lumineux, luminosité

caprin/chevrotant

On fait également face à "des cas de dérivations multiples qui s'accompagnent de différenciations sémantiques importantes, comme celles qui se sont opérées entre receveur et récepteur , parlement et parloir , etc." (Lerat, 1984: 23). Les regroupements ne peuvent donc pas être effectués de façon entièrement automatique, sous peine de nuire à la précision du repérage.

Établissement de classes "fondamentales" ou facettes

Onpeut également regrouper les termes par facettes, selon une caractéristique fondamentale qui les distingue des termes des autres classes:

Actions/processus

améliorer amélioration

précipiter précipitation

récupérer récupération

Entités

cadmium

cuivre

ion, ions

ion métallique, ions métalliques

mercure

métal, métaux

précipité, précipités

Attributs

. Qualificatifs

toxique, toxiques

. Noms de qualités concrètes ou abstraites

toxicité

Les suffixes peuvent être utilisés pour ce type de regroupements en facettes ou sous-facettes. Des troncatures judicieuses rendent l'opération possible en l'espace de quelques minutes; il faut, bien sûr, réviser les listes obtenues, pour que table ne soit pas rangé parmi les attributs au même titre que potable , par exemple.

Les suffixes comme -ture, -tion, -aison, -ie, -age, etc. forment des noms d'actions ou de processus. On cherchera la forme verbale correspondante:

comparaison comparer

cadrage cadrer

copie copier

saisie saisir

instauration instaurer

piégeage piéger

amélioration améliorer

application appliquer

augmentation augmenter

contamination contaminer

Kukulska-Hulme et Howles (1989) fournissent d'autres exemples, comme les verbes dénominaux, pour les actions:

arboriser

complexifier

modulariser

Dans certains corpus, on détectera facilement des termes de maladies se terminant par -ose (fibrose, nécrose, lordose ).

Les agents humains pourront être cherchés avec des suffixes comme -eur (employeur, coiffeur ) et -euse (coiffeuse), -iste (machiniste ), -ateur (formateur ) et -atrice, -ier (policier) et

-ière (infirmière ), -icien (cogniticien, informaticien ), etc.

Des substantifs se terminant en -itude (similitude, amplitude, magnitude), en -ité (vélocité, actualité, humidité ), etc. et des qualificatifs en -if (actif, exclusif, cumulatif ) donneront lieu à des classes de termes indiquant des propriétés.

À ce niveau, il s'agit donc de disposer avant tout de capacités de fouille pour détecter les catégories prédominantes dans le corpus et de possibilités pour catégoriser les unités repérées.

Les relations de synonymie et d'antonymie

Les relations de synonymie et d'antonymie sont plus coûteuses à inclure que les relations entre variantes morpho-lexicales, puisque, reposant sur des connaissances sémantiques et pragmatiques, elles nécessitent un investissement humain. Mais les auteurs sont unanimes à les considérer comme rentables pour l'interrogation.

La synonymie et l'antonymie sont réglées par une seule et même relation, la relation d'équivalence, dans les thésaurus traditionnels. Dans la mesure où le système d'indexation et de repérage repose en partie sur des inférences faites automatiquement, il peut être nécessaire de conserver plus de finesse, d'autant plus que, d'après Wang et al. (1985), l'inclusion d'antonymes lors de l'interrogation d'une base de données textuelles entraÎne une très nette baisse du taux de précision.

La sémantique lexicale fournit d'amples explications sur la synonymie hors contexte et en contexte, la synonymie absolue et la synonymie partielle, de même que sur les différents types d'antonymes: paires opposées comme vente et achat , paires complémentaires comme poule et coq , éléments d'une gradation: grand , moyen et petit.

Outre le choix du degré de finesse en fonction du contexte d'utilisation, se pose le problème de la détermination des synonymes et antonymes dans le domaine particulier représenté dans la base de données, et non pas dans la langue générale. En complément de la consultation d'experts, toujours longue, on a intérêt à fouiller le corpus qui contient des formules (par exemple des formes fonctionnelles: comme, ou, soit, et ) susceptibles de traduire de telles relations. C'est un apport original de logiciels qui , comme SATO, sont orientés vers l'analyse de contenu, contrairement aux logiciels documentaires. La détection des relations hiérarchiques, de même que la recherche des définitions de termes bénéficient d'ailleurs de la même approche.

Les relations hiérarchiques

Dans les thésaurus traditionnels, les relations hiérarchiques recouvrent les relations génériques, les relations d'instanciation et les relations partitives. Chacune d'entre elles devrait être subdivisée en de nombreuses autres dans les systèmes qui fonctionnent par inférence. En effet, pour un repérage efficace, si l'élargissement ou le rétrécissement des stratégies de recherche se fait par consultation automatique du thésaurus, les relations d'inclusion (relations genre/espèce et simples relations spatiales) doivent être distinguées des relations partitives ainsi que des relations de possession et des relations qui expriment les attributs. En intelligence artificielle, il existe des mises en garde contre le risque de confusion entourant la relation IS-A (Brachman, 1982) assimilable à la relation hiérarchique.

Pour les relations génériques, on peut procéder à un premier regroupement autour d'une tête de syntagmes à partir des déterminations nominales, de façon à obtenir un paradigme. Ghazi cité par Nakos (1989: 354) donne cet exemple:

néphrite

|

__|__

| |

| |

néphrite aiguë néphrite chronique

|

| néphrite chronique atrophique

|

|

néphrite chronique atrophique de l'enfance

Une structuration poussée nécessite une connaissance approfondie des traits qui caractérisent chaque concept. La détermination nominale peut, en effet, être trompeuse car on observe une tendance à la réduction des termes complexes qui contiennent la trace de ces traits, réduction qui se fait par siglaison ou acronymie comme dans CAO pour conception assistée par ordinateur, ou encore par télescopage comme dans infotecture pour informatique et architecture (Nakos, 1989: 355-356). Lethuillier (1989: 446) dénonce, lui aussi, la fausse transparence des termes.

La littérature conseille, pour la clarté de la présentation, d'introduire dans la hiérarchie un relais virtuel (ou indicateur de facette) qui indique quelle caractéristique a été utilisée pour diviser une classe (représentée par un terme générique) en ses différents types de spécifiques. C'est la seule occasion où l'on fait référence à la représentation des traits des concepts et, encore, on les met comme entre parenthèses, on parle de relais virtuel. C'est pour le moins étonnant, dans un outil qui est censé représenter les concepts d'un domaine!

Ainsi à partir d'une liste alphabétique non structurée comme celle-ci:

Congé

Congé à temps plein

Congé à traitement différé

Congé de maladie

Congé de préretraite

Congé de maternité

Congé hebdomadaire

Congé partiel

Congé pour adoption

Congé pour affaires judiciaires

Congé pour événements familiaux

Congé pour responsabilités parentales

Congé sabbatique

Congé sans traitement

on peut obtenir des sous-ensembles regroupant les concepts par une de leurs caractéristiques communes. Le choix des caractéristiques se fait de façon empirique, d'après la liste des termes recueillis dans le corpus:

. Selon le motif:

Congé pour affaires judiciaires

Congé pour événements familiaux

Congé de préretraite

Congé de maladie

Congé de maternité

Congé pour adoption

Congé pour responsabilités parentales

. Selon la fréquence:

Congé hebdomadaire

Congé sabbatique

. Selon les conditions de rémunération:

Congé à traitement différé

Congé sans traitement

. Selon la "complétude":

Congé à temps plein

Congé partiel

Des termes spécifiques peuvent provenir d'une combinaison de caractéristiques:

Congé partiel sans traitement

Il existe de nombreux types de relations partitives (méronymiques) qui ont été scrutés par Winston et al. (1987). Elles incluent le composant d'un objet, le membre d'une collection, la portion d'une masse, le matériau qui entre dans la composition d'un objet, une sous-activité d'une activité composite, l'endroit qui fait partie d'un lieu. Ce serait donc par une de ces relations partitives que l'on pourrait exprimer une suite chronologique d'événements, les étapes d'un projet d'évaluation environnementale, par exemple, qui comprend, entre autres, le dépôt de l'avis de projet, l'élaboration de la directive, la réalisation de l'étude d'impact, son dépôt, la consultation par le public, la tenue d'une audience publique, etc. jusqu'à la surveillance et au suivi si le projet est accepté et réalisé. Le thésaurus relationnel de Wang et al. (1985) compte sept types de relations partitives.

Même si l'analyse de contenu assistée permet de repérer des relations hiérarchiques et, dans plusieurs cas, de distinguer entre certains types de relations (partie de, membre de, etc.), dans les corpus et dans les sources lexicologiques ou terminologiques, une sérieuse réflexion s'impose sur les conditions préalables à des regroupements homogènes.

Les relations associatives

Les relations associatives dans les thésaurus sont un véritable fourre-tout, on le sait.

Outre le fait qu'on peut trouver des relations entre termes de sens voisin, on constate que le type de relations admises par la norme regroupe des relations de co-occurrence entre deux termes entretenant dans les énoncés textuels d'abord des relations syntaxico-sémantiques autour d'une action implicite (agent de l'action - objet ou patient de l'action - instrument de l'action, etc.), ensuite des relations entre désignation du concept et propriétés du concept., enfin des relations entre déterminé et déterminant du type Permis d'absence -- Absence .

Regroupements automatiques

On peut se demander, dans ces conditions, si des relations associatives aussi nombreuses et disparates établies bien souvent sans grande systématicité par les concepteurs de thésaurus ne gagneraient pas à être dérivées des textes par une simple analyse de co-occurrence dans un contexte déterminé, celui de la phrase dans lequel on peut retrouver les trois catégories de relations que nous venons d'énumérer. À défaut d'être spécifique, cette solution garantirait une plus grande objectivité et une plus grande fidélité dans la représentation du corpus, pour peu qu'une mise à jour périodique soit assurée. De telles relations devraient être élaborées a posteriori suite à une analyse statistique du corpus, plutôt qu'a priori sur la base du "corpus virtuel" (de la structure cognitive) du concepteur de thésaurus. Ainsi, d'après Hutchins (1975: 48), on associera dans un thésaurus les termes délinquance juvénile et hostilité , parce que ces deux termes ont une co-occurrence élevée dans un corpus documentaire, ou bien comme on l'a constaté il y a quelques années dans un thésaurus en éducation, entre analphabétisme et haïtiens.

La méthode de regroupement la plus attrayante à cause de sa facilité de mise en oeuvre, de son objectivité et de son caractère reproductible réside dans les regroupements de formes ou de lexèmes effectués de façon automatique. Les travaux en classification automatique de Salton (1971), Sparck Jones (1971) sont célèbres et connaissent un regain de popularité avec les machines parallèles. Selon Pomian (1990), l'analyse statistique permet de passer de données brutes à des données structurées susceptibles d'interprétation. Elle fait ressortir une dimension cachée, construite de l'extérieur et projetée sur une entité préexistante. Certains mots, certaines associations de mots apparaissent plus fréquemment que d'autres; cela indique des structures associatives privilégiées, donne des indications sur les contextes de leur apparition et sur les sujets qui organisent les intérêts des personnes. Avec le logiciel SATO, il est possible d'extraire les termes qui co-occurrent dans un contexte spécifié à volonté: distance de n mots, phrase, paragraphe, chapitre, etc., car, alors la nature des relations diffère, comme l'avait fait remarquer Moskovich (1977), puis d'exporter les données vers un logiciel d'analyse statistique comme SPSS pour les soumettre à des algorithmes de classification automatique.

Voici un exemple de mots (noms communs, adjectifs ou verbes) co-occurrant fréquemment avec aménagement (placé en tête de liste) dans un corpus en environnement:

20 aménagement

16 schéma

5 contrôle

5 règlement

La nature précise des relations qui unissent ces mots peut être très diverse et seul un spécialiste pourra distinguer ce qui est relation collocationnelle de ce qui est relation hiérarchique, etc. Tout dépend de ce qui, dans le discours, marque explicitement les relations (prépositions, ponctuation, ordre des mots, etc.) et se trouve déconstruit dans le lexique.

Si la recherche de cooccurrents s'effectue sur des données dotées de propriétés, grammaticales par exemple, il est probable que les regroupements seront plus signifiants. La comparaison du lexique d'un corpus (ou d'une partie de corpus) avec celui d'un autre corpus (ou d'une autre partie de corpus) peut révéler des séries de noms, d'adjectifs, de verbes caractéristiques qui, de plus, ont une fonction syntaxique particulière (certains verbes co-occurrent avec certains noms uniquement quand ils sont sujets et avec d'autres noms en position d'objets). Les domaines scientifiques et techniques présentent en général de ces régularités propres à ce qu'on appelle un langage de spécialité. Hirschman et al. (1975), par exemple, a réussi à regrouper, d'après l'analyse syntaxique de la littérature en pharmacologie, les termes dans les classes suivantes: parties du corps humain, patients, symptômes, analyses de laboratoire, temps, lieu, etc. Comme l'a expérimenté Cossette (1991) sous notre direction, un examen de quelques rapports d'analyse environnementale du ministère de l'Environnement dans les parties consacrées aux impacts et aux mesures de mitigation permet de dégager les actions posées (perturbation, dérangement, modification, etc.) qui génèrent (causer, entraÎner, etc.) des conséquences (accroissement, émettre, subir, etc.) soigneusement estimées quant à l'étendue et à l'intensité (majeur, moyen, etc.) sur un objet (habitat, résidence, , etc.) dans un contexte précis (automne, printemps, etc.). Il s'ensuit des actions pour atténuer les impacts. Il va sans dire qu'une exploration aussi fine des corpus nécessite des analyseurs linguistiques et textuels qui dépassent de loin ce que les logiciels documentaires offrent actuellement ou bien elle peut être effectuée par l'expert assisté de l'ordinateur.

L'utilité des relations de co-occurrence non étiquetées n'est pas la même selon le contexte d'utilisation: si c'est un agent cognitif humain, il sera capable de faire un tri parmi toutes les suggestions du thésaurus, selon la nature réelle des relations que le rapprochement pur et simple de deux termes lui suggère. Par contre un logiciel de consultation n'aura pas ce savoir implicite. C'est pourquoi des auteurs conseillent de distinguer les différents opérateurs de ces relations de co-occurrence, surtout dans le contexte de la consultation automatique des thésaurus pour l'indexation ou l'interrogation. L'élargissement automatique des stratégies de recherche par toutes sortes de liens associatifs disparates nuit à la précision, comme l'a montré une expérience de Rada et Barlow (1991).

Collocations et unités lexicales complexes

La structuration par facettes favorise l'établissement de principes clairs pour l'établissement de liens associatifs entre termes appartenant à des hiérarchies différentes. Ces liens sont en fait ceux que privilégie une communauté linguistique donnée et l'on rejoint ici les unités lexicales complexes ou expressions en voie de figement dont nous avons parlé plus haut.

Selon le point de vue, ces unités lexicales complexes sont, en effet, traitées soit comme des relations entre unités lexicales simples (Calzolari, 1988, entre autres) soit comme des lexèmes plus ou moins figés, comme des collocations "lexicalisées" "considérées par les locuteurs natifs comme étant des "produits semi-finis" de leur langue":

"Les collocations ont un caractère conventionnel à l'intérieur d'une communauté linguistique; c'est aussi vrai pour les "microcommunautés linguistiques" que sont les entreprises, les groupes professionnels, etc: comme on peut observer des différences terminologiques d'entreprise à entreprise, ou entre le langage des ouvriers et celui des ingénieurs ou du marketing, les collocations peuvent aussi varier selon le groupe, le registre, etc." (Heid et Freibott,1991:79)

L'intérêt des terminologues pour les collocations est récent, de même que la prise en compte de la fonction terminologique des verbes; c'est la conséquence de l'influence des dépouillements de textes par ordinateur. Un nouveau domaine de recherche est apparu: la "phraséologie des langues de spécialité", (Heid et Freibott,1991: 84). On assiste à la publication de lexiques de co-occurrents. En terminologie, Kukulska -Hulme et Howles (1989)préconisent non seulement une catégorisation des lexèmes en objets, actions, et attributs des objets et des actions (approche analystique), mais aussi une représentation des diverses combinaisons attestées dans le domaine (approche synthétique):

coût [propriété1]

coût de fonctionnement [propriété1 + action1]

coût d'élimination [propriété1 + action2]

coût d'élimination des rejets [propriété1 + action2+ objet1]

coût d'évacuation des rejets [propriété1 + action3 + objet1]

La même évolution risque bien de se dessiner pour le thésaurus. Ainsi structuré, il dirigerait les utilisateurs vers l'élaboration de stratégies de recherche spécifiques ou élargies, à partir de réalisations attestées dans le corpus. Il serait également fort utile pour l'aide à la rédaction. En documentation, l'idée est loin d'être nouvelle, comme les personnes familières avec les systèmes analytico-synthétiques tels que PRECIS le savent, mais les deux types de représentation figurent dans des outils différents: les unités lexicales minimales dans les thésaurus et les combinaisons collocationnelles dans les index. Cela peut également apporter un éclairage nouveau à la confusion qui a toujours existé à propos de certaines relations associatives à mi-chemin entre les relations thésaurales et les relations syntagmatiques inscrites dans les index.

La proposition répond aux besoins de flexibilité, d'accessibilité et de fidélité des représentations, tout en garantissant l'ordre:

"Le dictionnaire proposé permet donc de voir les données terminologiques de plusieurs points de vue. Par exemple, on peut regarder les attributs des objets tout seuls, les objets tout seuls, les objets avec leurs attributs, les attributs avec leurs objets et ainsi de suite ... Cela fait dix possibilités au total [...] " (Kukulska -Hulme et Howles, 1989: 387)

"[...] la solution est intéressante, car elle est à la fois complexe et simple. À un certain niveau, ce ne sont que des substantifs, des verbes, des adjectifs et des adverbes, tous prêts à être utilisés dans la traduction. À un niveau plus approfondi, c'est une description cohérente du domaine." (Ibid.: 389)

QUELQUES QUESTIONNEMENTS SUPPLÉMENTAIRES SUR LES REGROUPEMENTS

Avec les regroupements, se pose tout le problème de la catégorisation et, par conséquent, des caractéristiques retenues pour subdiviser une liste de termes.

UNIVERSALITÉ ET PÉRENNITÉ DES RELATIONS

La norme ISO 2788 (1986:1) parle de relations a priori à propos des relations figurant dans les thésaurus, par opposition aux relations a posteriori destinées à représenter les relations faites dans un texte pour exprimer un sujet complexe. Elle ajoute que les relations thésaurales "sont indépendantes des documents puisqu'elles sont généralement reconnues et peuvent être établies par référence à des travaux standards tels que dictionnaires ou encyclopédies."

On peut se demander, d'une part, s'il existe bien des relations a priori, indépendantes du contexte, naturelles en quelque sorte, d'autre part en quoi un thésaurus pour l'indexation et le repérage dans un corpus textuel est utile s'il ne fait que retranscrire les relations déjà exprimées dans les dictionnaires de langue ou des encyclopédies.

Un terme peut, en effet, appartenir à plusieurs catégories, selon le point de vue adopté. Il n'existe pas à proprement parler de catégories a priori, mais des catégories imposées par des agents cognitifs, les auteurs des textes et reconnues par d'autres agents cognitifs, les lecteurs, les utilisateurs. Toute sémantique ne dépend-elle pas du contexte d'utilisation? Frohmann (1983) l'affirme et donne l'exemple d'une liste de cinq mots (chien, chat, baleine, brochet, hibou ) que l'on peut subdiviser de plusieurs manières selon la caractéristique retenue:

1er principe de subdivision: nocturne/diurne:

groupe 1: chat, hibou

groupe 2: chien, baleine, brochet

2ème principe de subdivision: mammifères/non-mammifères

groupe 1: chien, chat, baleine

groupe 2: brochet, hibou

3ème principe de subdivision: animaux terrrestres, marins et volants:

groupe 1: chien, chat

groupe 2: baleine, brochet

groupe 3: hibou

La présence de définitions dans les corpus administratifs, législatifs, règlementaires, etc. montre bien la nécessité, pour une communauté donnée, de préciser les caractéristiques qui lui sont importantes pour la conduite de ses activités; elles peuvent différer de ce qu'entend un autre groupe dans un autre contexte. Qu'on prenne pur exemple la définition d'"étudiant" dans le Recueil des politiques de gestion (RPG) du Gouvernement du Québec, d'après le corpus de définitions extraites par Maurice Gingras:

"étudiant, étudiante": un résident ou une résidente du Québec inscrit à temps complet à un programme régulier d'études secondaires, collégiales ou universitaires et qui a terminé sa scolarité de secondaire V ou qui est âgé de 16 ans ou plus le 30 juin de l'année de sa demande." (RPG 133-3/1/32).

Pour qui connaÎt le contexte, les caractéristiques retenues dans la définition semblent pour le moins orientées vers l'embauche des étudiants pour un emploi d'été, emploi d'été que le même document définit ainsi:

"emploi d'été": un emploi créé en vue d'embaucher un étudiant ou une étudiante au cours de la période d'été. (RPG 133-3/1/29).

alors que le Petit Robert fournit cette définition pour étudiant:

"Personne qui fait des .études supérieures et suit les cours d'une université, d'une grande école."

On pourrait citer bien d'autres cas qui montrent à quel point le contexte prime dans le choix des caractéristiques.

Selon la sémantique cognitive, le sens ne peut être étudié indépendamment de toutes les capacités cognitives de l'homme. Il est lié au vécu. Ce que la norme ISO prend pour des relations a priori n'est autre que des relations acceptées par les locuteurs de la langue commune. Ce ne sont pas des relations "naturelles". C'est le résultat d'un consensus. Mais le thésaurus est un vocabulaire de domaine de spécialité destiné à faciliter la représentation et l'interrogation des productions textuelles dans ce domaine. Il devrait donc refléter les structures de référence communes aux membres de ce champ d'activité et suivre les changements de ces structures au fil du temps.

D'ailleurs des études sur les relations établies a priori, selon la connaissance intuitive que le(s) concepteur(s) du thésaurus avai(en)t du domaine à un moment donné, ont révélé des différences notables avec les relations extraites d'une étude statistique des co-occurrences dans un corpus, à un autre moment. Dans le Thésaurus Verrier , les relations entre corrosion , détergent et verre creux n'avaient pas été inscrites, car au moment de sa constitution, les lave-vaisselle n'avaient pas encore fait leur entrée dans les foyers français (Chastinet et Robredo, 1974).

CARACTERE PARTIEL ET ARBITRAIRE DES REGROUPEMENTS

En somme, plusieurs types de regroupements sont possibles et aucun ne suffit à représenter de façon complète l'organisation conceptuelle du domaine; il faut plutôt considérer les diverses possibilités comme complémentaires. En privilégier un plutôt qu'un autre revient à choisir de façon arbitraire ce qui pourrait être utile. L'idéal pour un utilisateur est de pouvoir accéder rapidement au regroupement le plus parlant pour la tâche à accomplir. Heureusement la technologie commence à supporter plusieurs types de représentations concurrentes. En particulier l'hypertexte est suggéré pour superposer des visions différentes, comme celle d'un groupe d'utilisateurs par rapport à un autre (Agosti et al. , 1989 ) ou bien d'un individu par rapport au groupe (Belkin et al., 1991).

D'autre part, les études en sémantique cognitive montrent qu'il vaut mieux penser en termes de similarité, de ressemblance de famille, d'organisation de concepts autour de prototypes, ou groupes de signification quis se recouvent en partie (Geeraerts, 1991: 33) et évoluent au fil du temps. Sinon les catégories sont forcées, artificielles, comme l'ont fait remarquer Kukulska-Hulme et Knowles (1989: 386).

CONCLUSION

Nous avons soulevé beaucoup plus de questions que nous n'en avons résolues. Il est clair que les normes et les manuels de thésaurus ne sont pas à jour du tout et donc de peu de secours. Le temps est venu de repenser la fonction, le contenu et le mode de représentation des thésaurus. Plusieurs disciplines peuvent être appelées à la rescousse pour assurer les fondements sur lesquels développer de nouvelles méthodologies. Actuellement, celles que nous pouvons développer souffrent de l'absence d'une théorie globale et des limites des logiciels disponibles.

L'évolution du repérage dans les bases de données textuelles s'oriente vers deux pôles contradictoires en apparence: plus d'interactivité et plus de tâches déléguées à la machine, ce qui commande à la fois plus de souplesse dans la consultation et plus de rigueur dans la représentation.

Le contexte de production et d'utilisation nous semble primordial pour développer des outils utiles que ce soit à l'étape du choix des sources de collecte, du choix des signifiants, des modes de regroupements, de la nature des relations. Cela nous incite à regarder du côté de la pragmatique et de la sémantique cognitive.

La confrontation avec les études en terminologie et en intelligence artificielle est prometteuse. Même si les finalités ne sont pas les mêmes. Pavel (1989: 350) notait la similarité des techniques de collecte et de systématisation des données en terminologie et en IA. Il est clair que cela est vrai aussi pour la documentation.

"Le terminologue systématise les moyens d'exprimer ces notions en fonction de la clientèle des usages possibles, tandis que le cogniticien atomise les connaissances du spécialiste et les formalise en équations logicielles. La représentation formelle du savoir l'emporte ici sur l'expression lingusitique des notions. C'est la différence entre la dissémination du savoir-dire et la duplication du savoir-faire."

Le documentaliste, quant à lui, doit donner accès à tout ce qui a été dit - et sera dit-, sous quelque forme que ce soit.

On peut donc prévoir que le thésaurus tel qu'on l'a connu depuis trente ans va changer considérablement.

BIBLIOGRAPHIE DES SOURCES CITÉES

Agosti, M.; Gradenigo, G.; Archi, A.; Inghirami, B.; Nannuci, R.; Colotti, R.; Mattiello, P.; Di Giorgi, R.M.; Ragona, M. New prospects in information retrieval techniques: a hypertext prototype in environmental law. In: Online Information 89; Proceedings of the 13th International Online Information Meeting, London, 12-14 December 1989: 483-494.

Ahlswede, Thomas. A tool kit for lexicon building. In: Mann, William, ed. Proceedings of the Association for Computational Linguistics (ACL) 23th Annual Meeting ; 1985 July 8-12; Chicago, Il. Morristown, NJ.: 268-276.

Ahlswede, Thomas; Evens, Martha. Generating a relational lexicon from a machine-readable dictionary. International Journal of Lexicography ; 1(3); 1988 Fall: 214-237.

Belkin, N.J.; Marchetti, P.G.; Albrecht, M.; Fusco, L.; Skogvold, S.; Stokke, H,; Troina, G. User interfaces for information systems. Journal of Information Science ; 17; 1991: 327-344.

Bertrand-Gastaldy, Suzanne. Les thésaurus de recherche; des outils pour l'interrogation en vocabulaire libre. Argus; 13(2); 1984: 51-58.

Brachman, Ronald J. What IS-A Is and Isn't : An Analysis of Taxonomic Links in Semantic Networks. Computer ; 16(10); October 1983: 30-36.

Calzolari, Nicoletta. The dictionary and the thesaurus can be combined. In: Evens, Martha, ed. Relational Models of the Lexicon . Cambridge, England: Cambridge University Press; 1988: 75-96.

Chastinet, Y. ; Robredo, J. Étude des associations réelles entre descripteurs en vue d'améliorer la qualité de l'indexage. Information et documentation ; 1974; 4: 3-30.

Cossette, Patrick. Les rapports d'analyse environnementale et les langages de spécialité: quelques approches . [Montréal]: École de bibliothéconomie et des sciences de l'information. Université de Montréal; avril 1991. 59 p. + annexes. (BLT 6271 - Recherche en analyse documentaire)

David, Sophie; Plante, Pierre. De la nécessité d'une approche morpho-syntaxique en analyse de textes. ICO; Intelligence artificielle et sciences cognitives au Québec; 2(3); septembre 1990: 140-151.

Eco, Umberto. Sémiotique et philosophie du langage. Paris: PUF; 1988. 285 p. (Formes sémioti-ques)

Frohmann, Bernhard P. An investigation of the semantic bases of some theoretical principles of classification proposed by Austin and the CRG. Cataloging and Classification Quarterly ; Fall 1983; 4(1): 11-27.

Garcia Guitiérrez, Antonio Luis. Estructure linguistica de la documentacion: teoria y método. Murcia: Universidad: Secretariado de publicaciones; 1990.

Geeraerts, Dirk. Grammaire cognitive et sémantique lexicale. Communications; 53; 1991: 17-50?. (numéro thématique sur la sémantique cognitive)

Gémar, Jean-Claude. Terminologie, langue et discours juridiques, sens et signification du langage du droit. Meta; 36(1); mars1991: 275-283.

Grishman, Ralph; Kittredge, Richard, eds. Analyzing Language in Restricted Domains: Sublanguage Description and Processing. Hillsdale: LEA; 1986. 246 p.

Gross, Gaston. Degré de figement des noms composés. Langages; 37(2); juin 1988: 57-72

Güntzer, U.; Jüttner, G.; Seegmüller, G.; Sarre, F. Automatic thesaurus construction by machine learning from retrieval sessions. In: User-Oriented Content-Based Text and Image Handling; Proceedings of RIAO 88.; Cambridge, MA; 1988 March 21-24; volume I: 587-596.

Heid, Ulrich; Freibott, Gerhard. Collocations dans une base de données terminologique et lexicale. Meta; 36(1); mars1991: 77-91.

Hirschman, Lynette; Grishman, Ralph; Sager, Naomi. Grammatically-based automatic word class formation. Information Processing & Management ; 11; 1975: 39-57.

Houde, Serge. L'apport du Robert électronique dans l'élaboration d'un thésaurus. [Montréal]: Université de Montréal, École de bibliothéconomie et des sciences de l'information; avril 1991. 59 p. + annexes.

Hutchins, W.J. Languages of Indexing and Classification. Herts (England): Peter Peregrinus; 1975.

Ingwersen, P. Psychological aspects of information retrieval. Social Science Information Studies ; 1984; 4: 83-95.

Kittredge, Richard; Lehrberger, J. Sublanguage: Studies in Restricted Domains. Berlin: De Gruyter; 1982.

Kukulska-Hulme, Agnes; Knowles, Frank. L'organisation conceptuelle des dictionnaires automatiques pour textes techniques. Meta ; 34(3); septembre 1989: 381-397.

Lancaster, F.W. Vocabulary control in information retrieval systems. Advances in Librarianship; 7; 1977: 1-40.

Le Guern,Michel. Sur les relations entre terminologie et lexique. Meta ; 34(3); septembre 1989: 340-343.

Lerat, Pierre. Sémantique descriptive . Paris: Hachette; 1983. 128 p. (Langue, Linguistique, Communication)

Lethuiller, Jacques. La synonymie en langue de spécialité. Meta ; 34(3); septembre 1989: 443-449.

Ménard, Nathan. Mesure des relations lexico-sémantqiues dans des textes scientifiques: problèmes méthodologiques. Meta ; 34(3); septembre 1989: 468-478.

Meunier, Jean-Guy. Le traitement et l'analyse automatique des textes. ICO; intelligence artificielle et sciences cognitives au Québec; 2(3); septembre 1990: 9-18.

Moskovich, Wolf. Perspective paper: quantitative linguistics. In: Walker, D.; Karlgren, K. Natural Language in Information Science: Perspectives and Directions of Research. Stockolm: Skriptor; 1977: 57-73.

Nakos, Dorothy. Étude comparée des modes de formation des lexies complexes dans deux domaines différents. Meta ; 34(3); septembre 1989: 344-351

Organisation internationale de normalisation. Documentation - Principes directeurs pour l'établissement et le développement de thésaurus monolingues. ISO 2788 -1986 (F). 2ème éd. Genève: ISO. 32 p.

Paquin, Louis-Claude; Dupuy, Luc; Rochon, Yves. Analyse de texte et acquisition des connaissances: aspects méthodologiques. ICO; intelligence artificielle et sciences cognitives au Québec; 2(3); septembre 1990: 95-113.

Pavel, Sylvia. Niveaux linguistiques et terminologie de l'intelligence artificielle. Meta ; 34(3); septembre 1989: 344-351.

Pomian, Joanna. Statistiques et connaissances de structure; application à la reformulation des requêtes documentaires. Paris: Université Pierre et Marie Curie - Paris VI; 1990. 281 p. Thèse de doctorat.

Rada, R.; Barlow, J. Document ranking using an enriched thesaurus. Journal of Documentation ; 47(3); 1991: 240-253.

Rastier, François. Sémantique interprétative. Paris: PUF; 1987. 276 p. (Formes sémiotiques)

Rastier, François. Sens et textualité. Paris: Hachette; 1989. 286 p. (Langue, linguistique, communication)

Richer, Pierre. La création automatique d'un thésaurus de recherche. Argus ; 15(1): 13-19.

Salton, Gerard. The SMART Retrieval System . Englewood Cliffs, NJ: Prentice-Hall; 1971.

Sparck-Jones, Karen. Automatic Keyword Classification for Information Retrieval. London: Archon Books; 1971.

Tardif, Hélène. Recherche en analyse documentaire; [Constituion d'une liste de termes de domaine à partir d'un corpus et de la banque de terminologie Termium]. [Montréal]: Université de Montréal, École de bibliothéconomie et des sciences de l'information; avril 1991. 58 p. + annexes.

Wang, Yih-Chen; Vanderhope, James; Evens, James. Relational thesauri in information retrieval. Journal of the American Society for Information Science ; 36(1); 1985: 15-27.

Winston, Morton E.; Chaffin, Roger; Hermann, Douglas. A taxonomy of part-whole relations. Cognitive Science; 11(4); October-December 1987: 417-444.

ANNEXE: ILLUSTRATION D'UNE MÉTHODOLOGIE DÉVELOPPÉE AVEC SATO POUR LA CONSTRUCTION DU THÉSAURUS

Cette annexe illustre brièvement les principaux éléments de la méthodologie développée à l'aide de SATO pour l'élaboration et la gestion d'un vocabulaire de domaine. Elle ne comporte pas, en général, les commandes utilisées pour obtenir les résultats exposés.

Le lecteur qui désire approfondir l'utilisation du logiciel pour effectuer le contrôle et la structuration du vocabulaire pourra se référer au document suivant:

Bertrand-Gastaldy, Suzanne. Avec la collab. de Gracia Pagola. Le contrôle du vocabulaire et l'indexation assistés par ordinateur; une approche méthodologique pour l'utilisation de SATO. Montréal: Université de Montrééal, École de bibliothéconomie et des sciences de l'information; janvier 1992. Pagination variée, env. 500 p.

Les principales étapes à suivre figurent sur le schéma suivant.

LES ÉTAPES DE L'ÉLABORATION ET DE LA GESTION DU VOCABULAIRE D'UN DOMAINE

Choix des sources pour la collecte des unités lexicales

|

Corpus à interroger

Experts du domaine

Utilisateurs de la base de données

Ouvrages de référence: sources lexicales et terminologiques|

V

Choix du moment opportun pour entreprendre l'extraction des unités lexicales|

V

Choix de la nature des unités lexicales

|

Formes simples

Formes simples lemmatisées

Formes simples avec catégorie grammaticale

Lexies simples ou complexes

|

V

Choix des termes représentatifs du domaine

|

Critères de décision

|

V

Contrôle

|

Contrôle flexionnel (lemmatisation)

Contrôle orthographique

Contrôle morphologique

Contrôle syntaxique

Contrôle lexico-sémantique:

Relations synonymiques

Relations d'équivalence

Désambiguïsation

|

V

Structuration

|

Regroupement par thème et/ou facettes

Structuration lexico-sémantique:

Relations hiérarchiques

Relations associatives

Autres relations

|

V

Test et évaluation du thésaurus

Corrections

Mise à jour du thésaurus

Une fois la base de données textuelle constituée et avant d'entreprendre les opérations d'élaboration et de gestion d'un thésaurus, un ensemble d'indices permet de juger de la stabilité du vocabulaire.

CHOIX DU MOMENT OPPORTUN

TAUX DE RENOUVELLEMENT DU VOCABULAIRE

Dans un corpus de textes portant sur un même thème, plus la longueur augmente, plus le taux d'accroissement du vocabulaire ralentit. A l'aide du logiciel SATO, nous pouvons établir l'apport lexical introduit par l'ajout d'un certain nombre de mots. Le plafonnement de la courbe constitue un bon indicateur de la stabilité du vocabulaire.



TAUX DE RÉPÉTITIVITÉ DU VOCABULAIRE

On constate aussi que le taux de répétitivité (la moyenne) augmente à mesure que le corpus s'allonge, car les mêmes mots ont tendance à être réutilisés :
Seg.1 Seg.2 Seg.3 Seg.4 Seg.5
mots 3000 60009000 12000 15000
formes 9041316 1708 2041 2330
fréq. moy. 3.34.6 4.4 5.9 6.4

COMPORTEMENT DES FORMES DE FRÉQUENCE 1, 2 ET 3

Selon le modèle théorique de Michéa, les formes de fréquence 1, 2 et 3 dans un corpus stabilisé se comportent ainsi :

Valeurs attendues

fréq. 1 = 1/2 du nombre total des formes dans le corpus

fréq. 2 = 1/6 "

fréq. 3 = 1/12 "

Ce qui permet de dresser le tableau suivant :
Fréquence absolue Valeurs réelles Valeurs attendues
1 1348 1261.5
2 446 420.5
3 172 210.3

EXTRACTION DES FORMES SIMPLES

Dans un premier temps, la segmentation du texte s'effectue sur les chaÎnes de caractères, ce qui conduit à l'obtention du lexique des formes lexicales simples du corpus.
fréqtot
1 abrasifs
2 abréviation
2 absence
1 absorbante
20 absorption
1 accélérée
1 accélérer

Avec SATO, nous ne pouvons pas procéder à la lemmatisation automatique de ces formes.

EXTRACTION DES FORMES COMPLEXES

CATÉGORISATION GRAMMATICALE DU LEXIQUE

La projection des valeurs grammaticales, par la consultation de dictionnaires, permet d'ajouter des informations linguistiques aux formes du lexique afin de pouvoir extraire les unités considérées comme les plus informatives en documentation (noms, adjectifs, verbes) et afin de chercher des suites formées de plusieurs mots susceptibles de correspondre à des termes complexes.
fréqtot gramr
...
1 (adjectif,nomcommun) abrasifs
2 nomcommun abréviation
2 nomcommun absence
1 adjectif absorbante
20 nomcommun absorption
1 (partpassé,verbe) accélérée
1 (infinitif,verbe) accélérer

...

RECHERCHE DE LOCUTIONS GRAMMATICALES

Afin d'éviter que les différents éléments qui composent les locutions adverbiales, prépositives et conjonctives ne viennent s'insérer dans les expressions nominales à extraire plus tard, il est nécessaire de procéder à leur blocage avant toute recherche de séquences des expressions nominales. Le logiciel SATO permet de lier des suites de formes à l'aide d'un trait de soulignement et de les considérer par la suite comme une entité unique.
fréqtot gramr
5 locution à_cause_de
8 locution ainsi_que
1 locution à_la_place_de
1 locution à_l'_échelle_du
1 locution à_l'_intérieur_de
1 locution à_moins_de
2 locution à_partir_de
9 locution à_travers
1 locution au_moins
1 locution aussi_bien_que

PROCÉDURE MARQTERM

Recherche dans le corpus des suites consécutives de catégories grammaticales selon de configurations spécifiques. Ces modèles correspondent à des expressions nominales susceptibles d'être des termes du domaine.
fréqtot Patron Exemple de forme complexe
20 Nom absorption
2 Nom de Nom absorption_de_cuivre
1 Nom des Nom absorption_des_métaux
1 Nom de Nom Adj absorption_de _métaux_solubles
1 Nom Adj absorption_maximale
1 Nom Adj de Nom absorption_maximale_de_cuivre
3 Nom Adj métaux_solubles

CRITERES DE DÉCISION POUR LE CHOIX DES TERMES REPRÉSENTATIFS DU DOMAINE

Afin de faciliter le choix définitif de l'ensemble des termes simples et complexes qui appartiennent au domaine, nous avons constitué une procédure qui attribue un poids aux formes selon leur valeur grammaticale, leur position danns le texte et leur fréquence. La pondération plus forte reçue par certaines formes pourra constituer un bon indice de leur appartenance ou non au domaine. Ainsi, nous attribons +14 aux termes complexes , +10 aux noms communs, +2 aux verbes, +1 aux adjectifs. En outre, nous ajoutons +5 si les formes se trouvent dans les titres et sous-titres ou la table des matières (ce n'est pas cumulatif), dans la liste des tableaux, le résumé, l'introduction et la conclusion. Dans certains corpus, on voudra retenir systématiqueemnt les termes qui font l'objet d'une définition, qui appartiennent à un index, etc.

RÉSULTATS DE LA PROCÉDURE DE PONDÉRATION
fréqtot gramr division poids

57

terme

(titre, résumé, intro)

(stitre, texte, conclu)


35

métaux_lourds

59

nom

(titre,résumé,intro)

31

effluents
(stitre,texte,conclu)
6 terme (résumé,intro) 30échange_ionique
(texte)
16 terme (résumé,texte) 30osmose_inverse
(conclu)
11 nom(résumé,intro) 20cémentation
(stitre,texte)

JUGEMENT DES EXPERTS

Pour établir l'indice de pertinence et les limites conceptuelles du domaine, les experts mieux que quiconque pourront établir le degré de pertinence des descripteurs.

L'ajout aux formes du lexique d'autant de propriétés lexicales qu'il y a d'experts permet d'exprimer le choix de chacun:
fréqtot poids expert1expert2 expert3 (lexique)
57 35oui ouioui métaux_lourds
59 31oui ouioui effluents
6 30oui ouioui échange_ionique
16 30oui ouioui osmose_inverse
...
1 14oui nonnon contrôle_simple
...
1 14non nonnon demande_faible
1 14non nonnon demande_forte
...

Nous pourrions retenir comme descripteurs à inclure dans le thésaurus les unités pour lesquelles il y a eu consensus entre les experts ou du moins celles pour lesquelles la majorité a exprimé son accord.

CONTROLE ET STRUCTURATION DU VOCABULAIRE

Ayant procédé au choix des termes les plus représentatifs du domaine, l'étape suivante consiste à contrôler et à structurer le vocabulaire. Nous suggérons des regroupements par famille et par facettes. Afin d'éviter des distorsions, nous procédons à la recherche, dans le corpus, des formes susceptibles d'introduire des définitions, des synonymes et variantes orthographiques, des relations génériques, associatives.

RECHERCHE DE DÉFINITIONS

Concordance libre défini$

...

définir

Le revêtement de surface est désigné par les termes d'électrodéposition, de galvanotechnique ou de galvanostégie. On peut le définir comme l'action de déposer, par voie électrique, un métal ou un alliage sur un autre métal ou des plastiques.

définit

La complexation se définit comme la formation d'un composé complexe par un agent complexant ou chelatant.

REGROUPEMENT DES MOTS DE LA MEME FAMILLE
fréqtot famille (lexique)
1 récupérer récupérables
52 récupérer récupération
1 récupérer récupère
14 récupérer récupéré
1 récupérer récupèrent
9 récupérer récupérer
1 récupérer récupérés

RECHERCHE DE VARIANTES SYNTAXIQUES D'EXPRESSIONS COMPORTANT DES MOTS DE LA MEME FAMILLE

Concordance libre récup$ méta$

récupéré

La solution peut être réutilisée et le métal éliminé est récupéré.

récupérés

La quantité des métaux récupérés est trop petite pour intéresser les principales compagnies qui les utilisent.

récupèrent

Les procédés de séparation physique, tels la précipitation, la filtration, la floculation et l'évaporation, récupèrent les métaux sous forme d'oxydes, d'hydroxydes ou de sels.

récupérer

L'objectif de ce rapport est de faire une revue critique de la littérature sur les procédés en usage et des nouvelles technologies qui permettent d'éliminer, de récupérer et de recycler les métaux lourds contenus dans les effluents industriels.

récupération

La récupération de chacun des métaux n'est pas toujours possible.

RECHERCHE DE SYNONYMES ET DE VARIANTES ORTHOGRAPHIQUES

Concordance ordonnée est désign$

Concordance ordonnée sont désign$

Concordance libre et

Concordance libre comme

Concordance libre ou

Concordance stricte ...

Le revêtement de surface est désigné par les termes d'électrodéposition, de galvanotechnique ou de galvanostégie.

le thénolyltrifluoroacétone (TTA) possède une sélectivité très élevée pour le cuivre, à ph très bas;

Catégorisation des formes équivalentes

L'ajout d'une propriété lexicale équivalent permet de catégoriser les formes équivalentes des descripteurs
équivalent (lexique)
dvb benzène_divinylique
revêtement_de_surface électrodéposition
revêtement_de_surface galvanostégie
revêtement_de_surface galvanotechnique
tta thénolyltrifluoroacétone

REGROUPEMENT DE TERMES PAR FACETTES

Les suffixes peuvent servir à détecter des formes dont les membres partagent une caractéristique commune. Par exemple, les formes qui finissent par -ité expriment souvent des qualités, celles en -ation sont souvent des actions ou des processus.
acidité accumulation
alcalinité anodisation
étanchéité augmentation
humidité automatisation
polarité caractérisation
réactivité cémentation
solubilité centrifugation
stabilité chloration
toxicité clarification
... ...

La détection des formes dont les membres partagent une caractéristique commune peut aussi être réalisée par la recherche de concordances de termes qui peuvent marquer cette caractéristique, par exemple procédés ou processus:

procédés

#2 *page=doc1/3/10 ... *page=doc1/3/15/6

*divis=résumé La première regroupe les procédés courants pour éliminer les métaux_lourds des effluents, tels: la précipitation_chimique_sous_forme_d'_hydroxydes, de carbonates, de sulfures, de phosphates ou de métal_élémentaire; la coprécipitation; la séparation_solide-liquide_par_filtration, flottation, sédimentation ou centrifugation; la coagulation-floculation, et le traitement_biologique.

processus

$10 *page=doc1/8/17/6 ... *page=doc1/8/21/2

*divis=intro Ces processus sont : la précipitation_chimique, la coagulation-floculation, l'échange-ionique, l'extraction_par_solvant, la cémentation, la complexation, les traitements_électrochimiques ou biologiques, l'évaporation et la séparation_par_membranes.

Catégorisation par facettes

L'ajout d'une propriété lexicale facette permet de catégoriser le lexique des descripteurs:
facette (lexique)
propriété acidité
propriété alcalinité
matériaux cadmium
processus cémentation
processus coagulation-floculation
processus complexation
produits chaux
produits chaux_caustique
etc.

RECHERCHE DE RELATIONS HIÉRARCHIQUES DANS LE CORPUS

Concordance stricte est un

Concordance stricte est une

Concordance stricte sont :

Concordance ordonnée $*gramr=nomcommun \($*gramr=nomcommun \)

Concordance stricte tels l'

Concordance stricte tels la

Concordance stricte tels que

...

Le procédé est d'autant plus intéressant qu'il y a présence de métaux_précieux (or, argent,platine) dans les effluents.

L'utilisation de Fes comme co-précipiteur des métaux_lourds (cuivre, cadmium, nickel, chrome et zinc) s'avère avantageuse comparativement aux hydroxides

Catégorisation des formes hiérarchiques

On ajoute une propriété hiérarchique:
hiérarchique (lexique)
(métaux, métaux_précieux) argent
(métaux, métaux_lourds) cadmium
(métaux, métaux_lourds) chrome
(métaux, métaux_lourds) cuivre
(métaux) métaux
(métaux, métaux_lourds) métaux_lourds
(métaux, métaux_précieux) métaux-précieux
(métaux, métaux_lourds) nickel
(métaux, métaux_précieux) or
(métaux, métaux_précieux) platine
(métaux, métaux_lourds) zinc

RECHERCHE DE TERMES ASSOCIÉS

Avec la commande Tamiser, on filtre, pour une concordance donnée, les formes qui sont utilisées dans le même contexte, la phrase par exemple:
freqass (lexique)
4 chaux_vive
3 chaux_hydratée
2 équipements_spéciaux
2 nécessite
2 utiliser
1 brûlures
1 cadmium
1 causer
fréqass (lexique)
1 causer
1 graves
1 maladies
1 mercure
1 accident d'empoisonnement

Catégorisation des termes associés

L'ajout d'une propriété Associés est possible, mais le nombre de valeurs risque d'être encombrant:
associés (lexique)
...
maladies accident_d'_empoisonnement
chaux_vive brûlures
brûlures chaux_vive
métaux élimination
accident_d_'empoisonnement maladie
élimination métaux

MISE À JOUR: EXTRACTION DES MOTS NOUVEAUX

La mise à jour du vocabulaire est facilitée dans SATO car, au fur et à mesure que des textes sont inclus dans le corpus, le logiciel permet de connaÎtre les nouvelles formes introduites par ces textes et d'appliquer systématiquement les traitements seulement à ces formes:

sous_ensemble1 sous_ensemble2 (nouvelles formes)
fréq1 fréq2
0 1accumulateurs
0 1actifs
0 1admissible
0 1agent_chelatant
0 1agent_réducteur
0 1aluminium
0 1amalgame
0 1anodique
0 1anodisation
0 1 bioxyde_de_sodium
0 1bisulfite_de_sodium
0 1boue_contaminée
0 1cadmium_résiduel