1. Le projet
Le projet SACAO (Système
d'Analyse de Contenu Assistée par Ordinateur) vise l'intégration
systématique de procédures existantes ou nouvelles
de lecture assistée de données textuelles. Il s'agit
d'offrir à des utilisateurs, dans un environnement logiciel
relativement intégré, divers modules de description,
d'exploration et d'analyse de données textuelles, tout
en leur laissant le soin de paramétrer ces procédures
en fonction de leurs propres hypothèses de lecture. Ces
procédures ne comportent qu'un minimum de préconstruction
théorique et facilitent un maximum d'itérativité
entre leur application et l'analyse du texte. L'intégration
est assurée par l'établissement de liens informatiques
entre fichiers comportant des structures de données communes.
Cet environnement convivial répond ainsi aux besoins différents
de diverses catégories d'usagers confrontés aux
problèmes d'analyse de données textuelles.
1.1. Le problème:
L'évolution récente
de l'informatique et le développement d'un domaine aux
contours encore imprécis, le Traitement Automatique des
Langues (TAL), n'interpellent pas seulement la communauté
des chercheurs de diverses disciplines, mais aussi celle, beaucoup
plus large, des usagers de la langue écrite (documentalistes,
gestionnaires, décideurs, etc.). La micro-informatique
a pénétré aussi bien les lieux de savoirs
que les organisations, favorisant de nouvelles habitudes de travail
et générant de facto une quantité croissante
d'information textuelle sur support magnétique. Celle-ci
se retrouve dans des banques de données ou des répertoires
de textes qui demeurent pour l'instant sous-exploités.
Cette situation a créé
des attentes de la part des usagers quant à l'amélioration
des diverses procédures d'aide à l'écriture
ou à la lecture. Du côté de la production
de texte et de leur gestion, ces attentes vont bien au delà
des traitements de texte. Déjà des systèmes,
opérationnels ou à l'état de prototypes,
proposent une aide à la rédaction (support lexical:
dictionnaires, conjugueurs, terminologie, synonymie,...), à
la révision (correcteurs orthographiques, stylistiques,...)
ou encore à l'annotation (résumés automatiques,
indexation, construction de thésaurus,...). D'un autre
côté, les problèmes d'accès et de valorisation
des banques de données textuelles suscitent également
des espoirs envers les systèmes d'aide à la lecture.
En gros, ces systèmes s'intéressent aux descriptions
morphologique, syntaxique, sémantique, logique ou pragmatique
des textes, à leur exploration pour en extraire l'information
pertinente ou pour y faire surgir un sens quelconque et, enfin,
à l'analyse des données ainsi extraites.
D'un côté, on trouve
des usages en traitement informatique de la langue et une quantité
croissante de données textuelles déjà disponibles,
de l'autre, des procédures diversifiées d'écriture
et de lecture assistées. Par contre, il existe peu de méthodologie
pour l'usage intégré de ces procédures selon
des protocoles définis. Ces procédures sont partielles,
peu standardisées et souvent difficilement accessibles.
Leur utilisation, quand elle a lieu, est peu stratégique
faute de modèles d'utilisation susceptibles de guider les
usagers.
1.2. L'état de la question
Depuis leur origine, les recherches
reliées à la modélisation informatique des
langues naturelles se profilent suivant deux axes : l'adaptation
des modèles linguistiques et logiques à des contextes
informatiques et la mise au point des techniques d'"ingénierie
du langage". Coulon et Kayser définissent deux optiques
possibles correspondant à ces axes: le modèle philosophique
dont le but est d'accroÎtre la connaissance de la langue
et le modèle ergonomique qui est orienté vers la
production et l'utilisation d'outils. Dans un cas, il s'agit du
projet de programmer une machine pour la compréhension
automatique des phénomènes langagiers, dans l'autre,
il s'agit plutôt de proposer des outils pour faciliter,
par étape, cette compréhension.
L'histoire de ce domaine de recherche
est traversée, de part en part, par ces deux optiques,
mais elle est également caractérisée par
une succession d'approches théoriques différentes
qui ont dominé le champ durant des périodes données.
En effet, chaque période est définie par la prévalence
de l'une ou l'autre de ces approches, bien que chacune d'entre
elles se soit superposée aux autres et continue, encore
aujourd'hui, de se développer simultanément. Une
première période (1945-1955), relativement étanche,
a été caractérisée par l'approche
statistico-morphologique. Elle fut suivie d'une dominance de la
syntaxe de 1955 à 1970. Mais dès 1963, la recherche
s'affairait à la programmation de modèles logico-sémantiques.
Enfin, depuis 1974, le souci majeur est la représentation
et l'organisation de la connaissance en faisant appel à
des modèles cognitifs. Ces étapes renvoient, comme
on peut le constater, aux divers niveaux classiques de la compréhension
des phénomènes de langage. On trouve, aussi bien
du côté philosophique que du côté ergonomique,
de très nombreux exemples de ces travaux. Dans le premier
cas, on donnera en exemples le développement important
des approches lexicologiques, des techniques de parsage appliquées
à des langages restreints (grammaires LL(n) et LR(n)) auxquelles
s'ajoutent des syntaxes formelles comme les grammaires en chaÎnes,
transformationnelles ou encore sémantiques (grammaires
de cas et grammaires lexicales-fonctionnelles, etc). Dans le
second cas, l'ingénierie logicielle a, entre autres, contribué
au développement de traitements morphologiques, de la gestion
des lexiques, des analyseurs syntaxico-sémantiques (ATN),
des analyseurs déterministes, des grammaires de métamorphoses
et des Definite Clause Grammars (DCG) et, enfin, des modules d'inférence.
Il ne s'agit pas là d'un inventaire, mais d'une indication
de l'abondance des recherches fondamentales ou appliquées
à tous ces niveaux.
Ces recherches ont permis des avancées
notables, mais elles ont mis en évidence un très
grand nombre de problèmes. La prévalence épisodique
de l'une ou l'autre approche souligne, à loisir, les espoirs
maintes fois déçus d'avoir trouvé l'angle
d'attaque privilégié pour atteindre la compréhension
automatique des langues. Les développements disciplinaires
ou d'écoles ont favorisé des avancées significatives,
mais les contradictions entre diverses approches théoriques
ainsi que l'opacité de certains modèles ont peu
favorisé l'intégration des connaissances ainsi produites.
La relative courte durée des projets indique l'existence
fréquente d'impasses théoriques. La projection très
problématique des avancées théoriques dans
les applications pratiques a mis en évidence l'incomplétude
des systèmes. A travers ce cheminement complexe, pourtant,
les limites de couverture linguistique, conceptuelle ou inter-disciplinaire
qui se sont révélées au grand jour, ont permis
de réévaluer les difficultés liées
à la compréhension des phénomènes
de langue et de discours et certains problèmes sont ainsi
apparus comme prioritaires. On pense à la contextualisation
nécessaire des phénomènes de discours, à
la représentation des connaissances, à la nécessité
d'incorporer une quantité considérable de données
extra-linguistiques dans les modèles de TAL, à la
prise en compte de la logique dite naturelle. 2. L'approche privilégiée
Précisons d'abord que nous
avons réduit le domaine de notre recherche, en choisissant
la langue écrite (y compris les retranscriptions de l'oral)
par opposition à la langue parlée et les aides à
la lecture par opposition aux aides à l'écriture.
Ceci dit, l'approche privilégiée par SACAO se définit
selon deux axes: premièrement, plutôt qu'une approche
de compréhension en profondeur des phénomènes
langagiers, elle propose une orientation pragmatique de valorisation
des données textuelles; deuxièmement, face à
une approche trop stictement syntaxique ou sémantique,
elle favorise une analyse des morphologies du discours.
En ce qui concerne le premier axe,
SACAO vise, avant tout, l'application de modules fonctionnels
à de grands ensembles textuels. En somme, nous choisissons
une approche pragmatique plutôt que fondamentale ou, dans
les termes de Coulon et Kayser, une optique ergonomique plutôt
qu'une optique philosophique. La logique de la démarche
fondamente favorise d'abord l'approfondissement des connaissances
et ne recherche que secondairement des applications robustes et
généralisables aux données du "monde
réel". Une démarche pragmatique s'intéresse,
au contraire, au développement d'outils ou d'applications
qui nous permettent d'ores et déjà d'accroÎtre
notre capacité de lecture de plusieurs manières:
accès rapide et systématique au contenu de grands
ensembles textuels, rigueur et régularité de la
lecture, production d'informations nouvelles par rapport aux formes
traditionnelles de la lecture, introduction de la mesure et de
procédures de validation, etc. Ils ont donc valeur pratique
pour qui s'intéresse à la connaissance des textes.
Bien que les recherches fondamentale
ou appliquée nous semblent indissociables, il est certain
que notre objectif d'accroÎtre le potentiel d'analyse du
contenu des textes plaide inévitablement en faveur d'une
approche pragmatique. Ceci dit, il ne peut y avoir d'application
qui ne soit fondée sur certains choix théoriques,
mettant en jeu non seulement la langue, mais aussi le discours
et la connaissance. Inévitablement les choix pratiques
qui sont effectués dans SACAO ne peuvent obvier à
cette réalité. Il nous faut donc nous questionner
minimalement sur les conséquences épistémologiques
de notre option avant d'en revenir aux orientations théoriques
qui guident notre entreprise.
Il serait abusif aujourd'hui d'associer
trop strictement, d'un côté, démarche fondamentale
et "systèmes automatiques" appliqués à
des micro-mondes et, d'un autre côté, démarche
pragmatique et "systèmes assistés" appliqués
à des macro-mondes. Certaines recherches en intelligence
artificielle ont pourtant privilégié le caractère
automatique des procédures et visé la complétude
des systèmes, du fait même qu'elles recherchaient
la simulation plus ou moins isomorphique de phénomènes
réels. SACAO a renoncé, méthodologiquement,
aux prémisses épistémologiques propres à
cette orientation. L'automatisation n'est recherchée que
sur une base pragmatique et ne constitue pas une condition première.
Nous mettons de l'avant une approche hybride, alliant procédures
automatiques et assistées et une substitution de l'idée
d'intégration maximale des outils à l'objectif de
complétude des systèmes. Ce point de vue n'est pas
uniquement pratique, en ce qu'il serait motivé uniquement
par l'impératif d'une couverture large du monde réel.
Il répond à une conception extensive du problème
de la compréhension des phénomènes de langue
et de discours. Il est fondé également sur la conviction
du caractère créatif qui revient à l'usager
dans le processus d'analyse. Les systèmes automatiques,
aussi puissants soient-ils, proposent avant tout une boÎte
noire aux utilisateurs. SACAO propose une méthode interactive
où le chercheur investit ses hypothèses et construit
progressivement son analyse à l'aide d'outils performants.
Le projet SACAO s'est donc défini
une posture épistémologique de nature empirico-constructiviste.
De manière succinte, cette approche conçoit la connaissance
des phénomènes langagiers comme le produit d'un
processus non-univoque de construction des objets. Cela implique
d'abord la coexistence de plusieurs procès de construction
complémentaires (par exemple, multiplication des niveaux
d'analyse) et potentiellement contradictoires (par exemple, la
coexistence d'approches non exclusivemement compatibles), ensuite
la nécessité d'une démarche d'aller-retour
entre la constitution des modèles et leur validation empirique.
Cette démarche favorise la méthode inductive et
le caractère interactif du système. Par exemple,
nous évitons la projection du modèle aux données,
et de manière plus ou moins déterministe, de modèles
théoriques préconstruits sur le réel. Nous
favorisons, au contraire, l'ajout de descriptions successives
du texte en alternance avec l'exploration de résultats
provisoires.
Revenons-en aux orientations théoriques
de SACAO. Deux arguments nous incitent à expliciter nos
prémisses théoriques. D'une part, la production
ou la sélection d'outils doivent nécessairement
trouver leur cohérence dans des cadres théoriques
de référence. D'autre part, du point de vue des
intérêts immédiats des chercheurs impliqués
dans le projet SACAO, une orientation plus théorique doit
guider et faire converger les développements qui seront
favorisés ultérieurement.Le deuxième axe
de notre approche renvoie à un présupposé
théorique favorable à une analyse des morphologies
du discours.
Un premier choix théorique
place donc SACAO résolument du côté de l'analyse
de contenu par opposition à la description linguistique.
Bien que ces deux options ne soient nullement antagonistes, cette
priorisation donnée à la saisie du sens délimite
l'espace de travail qui sera le nôtre, en fonction d'objectifs
de connaissance des textes. L'étagement des niveaux (morpho-lexical,
syntaxique, sémantique, logique et pragmatique) caractérisant
les phénomènes socio-linguistiques ne fait pas seulement
énumérer les diverses dimensions de la langue et
du discours, mais semble proposer un ordre souhaitable dans les
étapes de la recherche. Par choix de méthode, la
linguistique générale et la linguistique informatique
ont souvent mis de l'avant le caractère prioritaire du
fonctionnement proprement linguistique des phénomènes
de language et de discours. SACAO considère les divers
niveaux de description comme la résultante d'un découpage
et d'une construction différentielles de cet objet, et
non comme les étapes ordonnées d'un parcours obligé
qui mènerait de la description lexico-syntaxique à
la compréhension globale de la langue naturelle. Aussi, lorsque nous préconisons une analyse des morphologies du discours, nous nous déplacons d'un intérêt pour la langue vers un intérêt pour le discours. Les descriptions linguistiques du texte serviront de support à l'analyse d'un système sémiotique, par ailleurs, beaucoup plus complexe. Nous faisons l'hypothèse que le texte est un espace diversement structuré, qui se déploie selon un processus de séquentialisations multiples (par ex., le point de vue de la narration, le point de vue de l'argumentation,...) et dans lequel des objets se schématisent pour former des noyaux de sens. Il nous intéresse donc de repérer les modes de segmentation qui caractérisent l'organisation d'un texte et les condensations de sens qui se produisent en certains lieux privilégiés. Nous nous appuyons, pour ce faire, sur la connaissance lexicale du texte, élargie aux expressions terminologiques, et sur une description morpho-syntaxique non-exhaustive de ses unités. Nous privilégions deux axes principaux: l'axe nominal et l'axe verbal. Le premier renvoie à l'organisation sémantique du texte. L'analyse des proximités ou des relations de dépendance contextuelles (détermination, thème-propos,...) permettent de reconstruire des réseaux de signification. L'axe verbal renvoie davantage à la structure d'action du texte. L'analyse des caractéristiques et de l'environnement des verbes permet de reconstruire l'articulation des textes ainsi que le fil de l'argument.
3. La méthodologie Les quelques remarques qui précèdent auront plutôt indiqué une direction de recherche ou un espace de travail que défini un cadre conceptuel précis. SACAO vise le minimum de préconstruction théorique justement parce qu'il propose, non pas un modèle d'analyse, mais un environnement offrant une panoplie de moyens de lecture diversifiés et minimalement contraints. C'est en ce sens que l'on parle d'une méthodologie pour l'usage intégré et stratégique d'outils d'analyse de données textuelles. Le caractère intégré de l'usage est autorisé par l'architecture du système qui offre la possibilité de retenir une ou plusieurs procédures de description, d'exploration ou d'analyse des données textuelles et de les faires interagir dans un plan d'ensemble. Son aspect stratégique consiste précisément à laisser le choix des modules, à offrir la possibilité de les modifier en fonction d'hypothèses particulières et à favoriser la structuration globale de la démarche de recherche.
Le système, adoptant une
approche utilitaire, ne vise pas une compréhension strictement
automatique du texte, mais propose des aides à la lecture
et à l'analyse de textes. Il met à la disposition
de l'utilisateur des outils éprouvés dans l'état
actuel de leur développement. Il ne s'agit donc pas de
proposer une méthode indépendante du contexte de
recherche de l'utilisateur et qui garantirait des résultats
générés par l'application aveugle de procédures.
SACAO offre plutôt des outils de manipulation des données
dont les a priori théoriques sont identifiés. Ces
outils seront sciemment employés dans des stratégies
de recherche définies.
Le système favorise, en
effet, le maximum d'interactivité entre les besoins de
l'usager et les dispositifs de lecture et d'analyse qui lui sont
fournis. L'utilisateur doit pouvoir tester la valeur des résultats
générés par toute procédure afin de
décider de la retenir ou pas. Il doit pouvoir également
ordonner, dans sa propre démarche, le recours aux divers
moyens qui sont mis à sa disposition. Dans la mesure où
c'est possible, il doit également choisir les paramètres
qui seront activés dans chaque procédure. Cela signifie
que la conception des procédures laisse place à
une redéfinition des paramètres.
C'est donc en fonction des caractéristiques
énoncées ci-haut que nous procédons à
la mise en place du système. Nous présenterons maintenant
les principaux éléments de cette mise en place.
D'abord, la faisabilité du projet n'est possible que grâce
à la disponibilité de modules informatiques spécialisés
d'analyse de textes et de l'expertise que nous réunissons
dans le domaine. Mentionnons les logiciels SATO (Système
de base de données textuelles destiné à l'analyse
de contenu), Déredec (Environnement général
à base d'automates pour l'analyse et la construction de
systèmes cognitifs), FX (progiciel de programmation de
faisceaux), D_expert (Environnement pour la génération
de systèmes experts) et les progiciels de description linguistique
(Catégorisation de base syntaxique du français,
Lemmatisation et caractérisation morphologique du français,
Grammaire de surface du français, Analyseur lexico-syntaxique
du français). Tous ces systèmes ont été
développés au Centre d'ATO, par les membres du Centre
ou en collaboration avec des chercheurs du Centre.
Nos travaux ou bien s'appuient sur
des applications déjà developpées ou en voie
de développement (voir progiciels), ou bien donnent lieu
à de nouveaux développements. Dans le premier cas,
les modules sont soumis à une évaluation dans des
situations de production sur de larges corpus et donnent lieu
à l'optimisation des procédures ou, encore, à
l'identification de sous-modules opérationnels dont l'utilité
pour l'analyse de textes est prioritaire, par exemple, la catégorisation,
la description thématique ou argumentative. Dans le second
cas, nous introduisons des développements originaux qui
s'avèrent nécessaires dans l'économie générale
du système. Les modules "locutions" et "foncteurs
sémantiques" sont des exemples de ces développements
en cours.
SACAO met de l'avant une philosophie
d'intégration des divers modules fondée sur la création
de liens informatiques dans un même environnement machine
et sur la portabilité des modules d'une machine à
l'autre. Chaque adaptation des modules existants ainsi que les
nouveaux développements devraient être intégrés
et implémentés dans ces environnements. Mais, de
façon réaliste, l'objectif prioritaire est de réaliser
l'intégration de l'ensemble des modules sur le VAX, alors
que plusieurs modules particuliers seront disponibles sur micro-ordinateurs.
Nous expérimentons sur une
base systématique les divers modules de SACAO sur de grands
corpus. Nous possédons une banque de données textuelles
très importante contituée des corpus provenant de
différents projets de recherche. Pour l'essentiel, l'expérimentation
se fait à partir de données textuelles provenant
de la sphère publique. Sans restreindre son utilisation
à d'autres types d'application, cela implique que les utilitaires
(par ex., dictionnaire de locutions terminologiques, dictionnaires
sémantiques de domaines,...) sont d'abord enrichis à
même des données relevant du domaine public. Il s'en
trouve alors que l'environnement semblera plus familier à
l'analyste du discours qu'au critique littéraire.
Il faut mentionner, en terminant,
que cette expérimentation donne lieu à l'écriture
systématique de fiches techniques qui permettent de documenter
en profondeur les diverses procédures et qui serviront
de base à la rédaction d'un manuel d'utilisation
de SACAO. 4. L'architecture du système
4.1. Les objectifs Le projet SACAO poursuit, sur le plan informatique, les objectifs suivants : 1) Favoriser l'accroissement de la robustesse du système, en assurant une plus grande intégration des modules entre eux. Assurer la portabilité d'une machine à l'autre (PC, Macintosh et VAX), afin de permettre à l'usager d'accomplir certaines tâches dans des environnements familiers, tout en lui donnant accès à une capacité augmentée de traitement sur VAX. 2) Évaluer systématiquement les modules existants afin, soit de les enrichir, soit d'en extraire des procédures particulières comportant une utilité plus immédiate. Enrichir également le système de procédures de description, d'extraction et d'analyse comportant une complexité et une couverture plus grande.
3) Encourager l'accessibilité
au système, en fournissant une documentation détaillée
et exhaustive de toutes les procédures, appuyée
sur leur expérimentation systématique sur des corpus
témoins.
Nous décrivons ci-après
la dimension fonctionnelle de l'architecture de SACAO. Il faut
préciser d'entrée de jeu que le terme architecture
suppose plusieurs dimensions. La dimension fonctionnelle, privilégiée
ici, décrit les caractéristiques des différents
modules regroupant des unités de traitement. Nous n'aborderons
pas les dimensions organique et algorithmique.
4.2. L'interface personne-machine
À l'heure actuelle, l'environnement
informatique le mieux intégré est celui du VAX.
On y retrouve les langages utilisés pour développer
l'ensemble des applications (Pascal, C et Le_Lisp); on y trouve
également les applications utilisées dans le contexte
du projet, telles que mentionnées à la section méthodologie
: SATO (Système d'Analyse de Textes par Ordinateur), Déredec
et FX (langage de programmation des faisceaux), D_expert (progiciel
pour la génération de systèmes experts) ainsi
que divers utilitaires (programme de conversion des formats ASCII,
courrier électronique, etc.). Du côté de l'environnement
IBM et compatibles nous retrouvons SATO, une version réduite
de Déredec et FX ainsi que des utilitaires pour la conversion
des formats ASCII. Dans le cas de l'environnement Macintosh, nous
y retrouvons principalement les applications réalisées
en LISP soit Déredec, FX et le D_expert.
Une telle variété
d'environnements de travail pourrait entraÎner des difficultés
importantes du point de vue de l'utilisation des ressources SACAO.
Afin de prévenir les inconvénients liés à
cette situation nous avons choisi deux options ergonomiques qui
pourront pallier à ces difficultés : la transparence
et la portabilité.
La transparence doit être
assurée de manière à offrir à l'utilisateur
une interface qui soit relativement indépendante de l'environnement
matériel utilisé. En général, l'ensemble
des décisions s'effectue de manière interactive
à partir de choix offerts dans des menus hiérarchisés.
Cette gestion "par menus" favorise le dialogue utilisateur-unité
de traitement qui doit être sensible au contexte.
Au principe de transparence s'ajoute
le principe de portabilité. Ce principe stipule que les
options de développement doivent faciliter le transfert
du savoir-faire contenu dans les modules de gestion et les unités
de traitements. La portabilité d'une implantation matérielle
à l'autre (PC vers VAX, VAX vers Macintosh, etc.) assure
la possibilité du traitement coopératif (par ex.,
développer une maquette d'analyse sur PC et poursuivre
le traitement des données sur VAX), les transferts des
données entre les différentes unités de traitement,
etc.
4.3. La gestion des données
textuelles
Dans la perspective de rendre accessibles,
au plus grand nombre d'utilisteurs, les outils et les données
textuelles rassemblés dans SACAO, nous nous sommes intéressés
dès le départ au problème de la gestion des
données. Notre objectif était de structurer des
programmathèques ayant un caractère public. Celles-ci
contiennent la panoplie des modules utilisés dans le cadre
du traitement des données textuelles et les procédures
pour les traitements en lot (batch processing). Elles intègrent
également les corpus que différents chercheurs ont
choisi de rendre publics. L'ensemble de ces dispositifs assure
le caractère cumulatif de la production d'outils pour l'analyse
des données textuelles.
Aux utilitaires d'archivage s'ajoute
un utilitaire pour la conversion des formats ASCII propres aux
trois implantations matérielles. Grâce à cet
utilitaire, les usagers francophones sont assurés de pouvoir
maintenir l'intégrité des textes sources et de procéder
à l'analyse et au traitement des données de la même
manière dans les différentes implantations matérielles.
4.4. La description des données
textuelles
Tout mode d'investigation suppose
une intervention technique sur les données à analyser.
En effet, la notion de "donnée" implique nécessairement
un processus de construction des unités de l'analyse et,
par là même, une intervention de re-structuration
qui transforme les unités d'information en unités
d'analyse. Le module de description des données textuelles
est le moment où s'accomplit la structuration initiale
des données. Dans le cadre du projet SACAO, trois niveaux
de description sont prévus: les niveaux lexical, morphologique
et syntagmatique. Ces niveaux sont relativement autonomes les
uns par rapport aux autres, mais ils peuvent être conjugués
de manière différente eu égard aux besoins
spécifiques d'une problématique de recherche ou
d'analyse.
Au niveau lexical, la description
des données vise à mettre en forme les différents
aspects du vocabulaire (lexique) d'un texte. On pense ici plus
particulièrement à la structuration du vocabulaire
à partir de dictionnaires de locutions ou encore de thésaurus
spécialisés. Dans un cas comme dans l'autre il s'agit
de procédures pour dresser l'inventaire des éléments
d'un corpus de données textuelles. Au vocabulaire de base
du français, s'ajoutent des expressions qui marquent les
traits idiomatiques d'une communauté linguistique donnée.
Les formes lexicales se réalisent souvent comme des groupes
de mots qui fonctionnent de la même façon que les
mots uniques. Afin de faciliter l'inventaire de ces unités,
le module de description des données textuelles offre la
possibilité de procéder au regroupement des différentes
formes synaptiques (locutions). Il est ainsi possible d'indexer,
dans le lexique des textes d'un corpus, les locutions canoniques
(prépositionnelles, adverbiales, etc.), les locutions usuelles
propres à un locuteur ou une famille de locuteurs, les
locutions techniques, les termes institutionnels, les locutions
onomastiques (noms propres), etc. Au niveau morphologique, il faut faire en sorte que les dimensions grammaticales (morphèmes lexicaux et grammaticaux) puissent être bien identifiées. Nous disposons à l'heure actuelle d'une unité de traitement pour la caractérisation morpho-syntaxique du français contemporain. Cette unité permet d'effectuer l'indexation des éléments d'un vocabulaire ou d'un lexique, en adjoignant aux formes lexicales des étiquettes syntaxiques (étiquettes pour la classification des noms, des verbes, des adjectifs, etc.). Une seconde unité de traitement rend possible le marquage de traits relatifs à la dimension lexicale des mots (morphème lexical ou radical). Finalement, nous disposons d'unités de traitement pour décrire les dimensions syntagmatiques des données textuelles. A un premier niveau, nous pouvons faire appel à deux analyseurs du français, aptes à produire, de manière automatique ou semi-automatique, une description syntaxique des phrases ("expressions bien formées") du français écrit contemporain. Le premier (GDSF), de nature avant tout heuristique, parvient à dépister pour toute propositon, le thème et le propos, des indications sur des compléments verbaux et plusieurs types de détermination nominale. Le second (ALSF), présentement en développement, a une portée linguistique plus grande. Conçu comme un environnement global de traitement des énoncés en français, il prévoit des modules d'information syntaxique, d'analyse syntaxique et d'interprétation des structures syntaxiques. Dans l'état actuel, certaines unités sont déjà accessibles (par exemple, la description du groupe nominal).
A un second niveau, il existe quelques
exemples d'analyseurs textuels qui prennent appui, soit sur une
première description morpho-syntaxique des phrases du texte,
soit sur l'organisation sémantique des textes. Un exemple
du premier cas se retrouve dans SAADI qui, fonctionnant sur la
base du groupe nominal et de la structure des propositions (concessives,
restrictives,conclusives,...) permet de décrire la structure
argumentative du texte. Il existe, par ailleurs, des grammaires
de représentation sémantique de divers objets textuels,
développées par différents chercheurs. Donc,
dans le cas où ce qui nous intéresse relève
des niveaux de structuration du texte autres que morpho-syntaxiques
(par exemple, les analyses thématiques, la classification
d'expressions ou d'énoncés, etc.), nous disposons
d'unités de traitement permettant de programmer sur mesure
des algorithmes de description. Deux langages (Déredec
et FX) permettent la programmation de grammaires (du genre des
"Augmented Transition Networks") automatiques ou assistées.
4.5. L'exploration des données
textuelles
Le module d'exploration permet un
travail complémentaire à celui effectué par
les unités de traitement du module de description. Une
fois les données constituées, il faut pouvoir disposer
de mécanismes (regroupement d'opérations spécifiques)
pour la sélection, le regroupement et la classification
des données. Dans le module d'extraction, on retrouve
des unités de traitement pour la constitution d'inventaires
ou pour le regroupement catégoriel des informations. Pour les unités qui sont structurées de manière linéaire (séquences lexicales), il est possible d'obtenir: des lexiques fréquentiels; des concordances (ou KWIC : Key Word In Context) basées sur la recherche de mots-clés ou sur des étiquettes symboliques ou numériques associées à ces mots-clés; des co-occurrences (mot-clé et lexique des mots étroitement associés au mot-clé); etc. Pour le dépistage de ces expressions, nous disposons d'opérations permettant de déterminer la forme et le nombre des chaÎnes de caractères qui seront employées comme paramètres des procédures d'extraction.
Dans le cas des unités structurées
à partir de contraintes morphologiques bien définies
(configurations syntaxiques, données structurées
de manière arborescente) ou floues (unités thématiques,
énoncés axiologiques, etc.), le module d'extraction
permet le dépistage des données à partir
de patrons définis par le chercheur ou l'analyste.
En plus des inventaires et des classifications,
le module d'exploration permet la définition et la circonscription
de partitions du corpus analysé. Ainsi, une personne analysant
un corpus quelconque pourra à volonté appliquer
à des sous-ensembles, arbitrairement définis, les
opérations de fouille mentionnées au paragraphe
précédent. Autrement dit, il est possible de générer
à partir du corpus une diversité de sous-textes.
Il faut préciser que la génération de ces
textes peut s'effectuer de manière à répondre
aux exigences des traitements statistiques (techniques d'échantillonnage)
ou de façon à permettre la vérification d'hypothèses
sur un sous-ensemble relativement restreint (principe de la maquette)
avant de poursuivre les opérations sur l'ensemble du texte.
4.6. L'analyse des données
textuelles Le module d'analyse de données textuelles offre actuellement les traitements suivants : A) Un module de statistiques lexicales qui permet d'obtenir pour un lexique donné les statistiques suivantes : moyenne, écart-type, variance, fréquences minimum et maximum , score z et distribution procentuelle des classes de fréquences et d'occurrences. B) Des mesures de distance inter-textuelle. La distance permet de comparer deux à deux des textes ou des parties de textes de manière à faire apparaÎtre quels éléments lexicaux sont "responsables" des écarts de surface entre deux textes ou parties de texte. L'analyse de la distance peut être basée sur différentes distributions de fréquences correspondant à diverses segmentations du lexique et être pondérée par un lexique de référence identifié par le chercheur.
C) Indices de lisibilité.
Les indices de lisibilité sont des mesures empiriques permettant
d'apprécier la difficulté ou la facilité
de lecture, de compréhension et de mémorisation
d'un texte ou des parties d'un texte. Ces mesures sont calculées
à partir de paramètres comme la longueur des mots,
la longueur des phrases, etc.
5. Le fonctionnement du projet SACAO
Revenons rapidement sur les principales
conclusions qui ressortent de l'exposé précédent,
avant d'en montrer les conséquences sur la définition
de l'équipe SACAO et sur l'organisation de ses activités.
Nous avons établi, dès le départ, le besoin
avéré d'une aide à la lecture de données
textuelles. Ce besoin se manifeste aussi bien dans les nombreuses
disciplines universitaires dont une des sources de connaissance
est le matériau textuel, que dans les multiples usages
du texte au sein des organisations. Nous avons opté pour
une approche ergonomique de la question, préconisant l'usage
intégré d'outils diversifiés dans une perspective
de support à l'analyse. Donnant priorité à
l'analyse de contenu par rapport à la connaissance purement
formelle de la langue, nous avons privilégié une
approche interdisciplinaire. Notre point de vue pragmatique encourage
donc une attitude heuristique dans le processus de la recherche
et met de l'avant la plus grande autonomie des chercheurs en
regard des moyens mis à leur disposition. La philosophie
hybride, faisant appel autant à des procédures automatiques
qu'assistées, favorise la participation active de l'analyste
de texte.
Les moyens que nous nous donnons
sont donc orientés en fonction de ces besoins et de cette
approche. La mise sur pied d'une méthodologie pour l'usage
intégré de procédures d'aide à la
lecture se traduit dans une environnement qui permet la gestion
stratégique de ces moyens. L'usager doit pouvoir choisir
librement les procédures qu'il retiendra, choisir également
les paramètres qui seront activés dans ces dernières.
Il doit pouvoir articuler diversement, en fonction de ses propres
besoins, les multiples procédures les unes par rapport
aux autres et, ainsi, structurer globalement sa démarche
de recherche. Les spécifications du système, pour
répondre à cela, favorisent l'interactivité
entre les chercheurs et les outils, demeurent ouvertes à
la possibilité de varier les paramètres et comprennent
le plus grand support documentaire.
L'architecture de SACAO a ainsi
été conçue pour favoriser cette orientation.
Elle définit diverses strates qui correspondent, en quelque
sorte, à la démarche concrète de l'utilisateur.
Fournissant à l'utilisateur des méthodes standardisées
de fonctionnement et des facilités de gestion, elle définit
les trois principaux champs d'activité autour de la description
des données textuelles, de leur exploration et de leur
analyse.
Le projet SACAO a été
pensé et développé dans un contexte qui reflète
bien les préoccupations résumées ici. D'abord
inscrit de manière diffuse dans le cadre des activités
de recherche du Centre d'ATO, le projet s'est progressivement
spécifié dans un processus de différenciation
par rapport à d'autres domaines de recherche en compréhension
des langues naturelles. A côté du développement
nécessaire de modules de description linguistiques ou cognitives,
le besoin spécifique d'outils pour l'analyse de texte s'est
fait urgemment sentir. L'équipe SACAO regroupe ainsi des
chercheurs dont la formation disciplinaire et les domaines de
spécialisation sont différents, mais qui ont pour
objectif ultime l'analyse de textes. Cette équipe comporte
également la caractéristique de correspondre à
des demandes hétérogènes en termes de développement.
Certaines de nos activités s'inscrivent dans la structure
de la recherche universitaire, alors que d'autres sont immédiatement
associées aux demandes de développement de systèmes
destinés aux organisations.
Cette équipe dont chaque
membre poursuit, par ailleurs, une activité relativement
indépendante dans son champ de spécialisation, a
dû conçevoir un projet commun qui reflète
l'aspect polymorphique des besoins, de l'approche et des moyens
préconisés. Elle a donc défini quatre domaines
d'activités et mis en place des mécanismes pour
leur réalisation. Ces activités sont: le développement
informatique, l'adaptation et le développement d'unités
de traitement, l'expérimentation et la documentation et,
enfin, les activités de réflexion et de formation.
Les mécanismes de réalisation consiste en un séminaire
hebdomadaire d'échange et de planification et en un partage
des tâches selon les diverses compétences. Nous illustrerons
très rapidement le type d'activités qui relèvent
de chacun de ces domaines.
Le développement informatique
renvoie à l'aspect informatique lié à la
mise au point et à la gestion des procédures d'aide
à la lecture. Il peut s'agir de l'entretien des environnements
logiciels dans les diverses implantations, de la mise au point
d'interfaces et de la portabilité. Ce sont également
les divers développements informatiques liés aux
développements des procédures: nouvelles structures
de représentation, nouveaux automatismes, etc.. C'est encore
le développement des procédures de gestion des fichiers.
L'adaptation d'unités de
traitement peut s'illustrer par l'exemple d'un travail d'évaluation
que nous avons effectué, des descritions GDSF de la structure
thématique des textes d'un corpus de discours politiques.
Sur la base de cette validation, certains sous-ensembles de prodédures,
enrichis de nouveaux développements, sont utilisés
pour établir une description arborescentes des propositions
du point de vue de leur hiérarchie thématique dans
la tradition de la grammaire fonctionnelle. Le développement
de nouvelles unités de traitement peut s'illustrer par
les nouvelles procédures de repérage, de blocage
et de thésaurisation des locutions. Ce système utilise
les propriétés de nos logiciels et progiciels dans
le but de fournir un instrument nouveau aux utilisateurs.
L'expérimentation renvoie
au travail systématique de validation des procédures
sur des corpus de référence. Ce travail permet de
varier les contextes d'application et de tester la robustesse
des systèmes face à la redéfinition des paramètres.
En plus de la validation, cette expérimentation permet
de produire des fiches techniques destinés à documenter
le système et des fiches d'utilisation réservés
aux usagers.
Enfin, les activités d'échange
et de formation nous sont apparues comme étant primordiales.
L'interdisciplinarité à la base du projet et la
multiplicité des voies qui y sont explorées nous
obligent à faire le point sur des questions théoriques
et méthodologiques fort variées. Nous abordons ainsi
des questions comme: les problèmes de la catégorisation
sémantique, les diverses stratégies d'analyse du
discours, les diverses approches de l'analyse thématique,
la théorie du parsage, etc.. La formation s'effectue quant
à elle à travers la mise sur pied de cours spécialisés
en ATO.
En somme, SACAO n'est pas un projet
fermé, mais plutôt un programme de travail ouvert.
Il correspond à l'identification de besoins précis
et ouvre un espace de travail interdisciplinaire qui doit être
investi pour lui-même. Même s'il bénéficie
abondamment de la recherche fondamentale en linguistique informatique
et en sciences cognitives, il ne doit jamais perdre de vue que
ce qui l'intéresse, c'est l'analyse de textes assistée
par ordinateur.
Actes du colloque: Représentation du réel et informatisation; 26 et 27 mai 1988; Saint Etienne (France) Allen, Sture, (1982) Text processing : text analysis and generation : text typology and attribution, Stockholm, Almqvist & Wiksell International, 1982, 653 pages. Arrivé, Michel, Gadet, Françoise, Galmiche, Michel, (1986) La grammaire d'aujourd'hui. Guide alphabétique de la langue française, Paris, Librairie Flammarion, 720 pages. Berwick, Robert C., (1985) The acquisition of syntactic knowledge, Cambridge, Mass., MIT Press, 368 pages. Bonnet, Alain ; Haton, Jean-Paul ; Truong-Ngoc, Jean-Michel. Systemes-experts : vers la maÎtrise technique. Paris: InterEditions; 1986. Borel, Marie-Jeanne, Grize, Jean-Blaise, Miéville, Denis, (1983) Essai de logique naturelle, Berne, Éditions Peter Lang SA, 1983, Sciences pour la communication, N° 4, 241 pages. Colloque International CNRS, (1986) Méthodes quantitatives et informatiques dans l'étude des textes, Genève - Paris, Slatkine - Champion, 947 pages. Coulon, Daniel, Kayser, Daniel (1986) "Informatique et langage naturel : Présentation générale des méthodes d'interprétation des textes écrits", Technique et Science Informatiques, Février, 1986, pp. 103-126. Cruse, D. A., (1986) Lexical Semantics, Great Britain, Cambridge University Press, 1986, Cambridge textbooks in linguistics, 310 pages.Davies, R. ; Lenat, D. Knowledge-based systems in artificial intelligence: McGraw-Hill; 1982. Dubois, D. ; Prade, H. Théorie des possibilités. Paris: Masson; 1985. Ducrot, Oswald, (1972) Dire et ne pas dire. Principes de sémantique linguistique, Paris, Hermann, 1980, Collection Savoir, 311 pages.Danlos, Laurence, (1987) The linguistic basis of text generation - Laurence Danlos translated by Dominique Debize and Colin Henderson -Generation automatique de textes en langues naturelles, Angleterre, Cambridge University Press, 222 pages. Daoust, François, (1987) SATO : Système d'Analyse de Textes par Ordinateur (version 3.4). Manuel de référence pour les micro-ordinateurs PC et PC compatibles, Université du Québec à Montréal, Centre d'Analyse de Textes par Ordinateur, 1987, 81 pages. Farreny, H., (1987) Les systèmes experts. Principes et exemples, Cepadues-Éditions. Gross, Maurice, (1975) Méthodes en syntaxe. Régime des constructions complétives, Paris, Hermann, 1975, 414 pages. Grosz, Barbara J., Jones, Karen Sparck, Webber Bonnie Lynn, (1986) Readings in Natural Language Processing, California, Morgan Kaufmann Publishers, Inc., 1986, 664 pages. Guiraud, Pierre, (1961) Les locutions françaises, Paris, Presses Universitaires de France, 126 pages. Halliday, M.A.K., (1985) An introduction to functional grammar, London, E. Arnold, 1985, 387 pages. Krippendorff, Klaus, (1980) Content Analysis. An Introduction to its Methodology., Sage Publications, 189 pages. Hayes-Roth, F. ; Waterman, D. A. ; Lenat, D. Building Expert Systems. Reading, Mass.: Addison Wesley; 1983. Numéro spécial "Knowledge Acquisition for Knowledge-based Systems" International Journal of Man Machine Studies; 1987; (26) Lecomte, A., (1988) "Le marmot et la mamelle, critique des représentations du raisonnement", Centre de Coordination pour la Recherche et l'Enseignement en Informatique et Société (CREIS), Représentation du réel et informatisation, Saint-Étienne, I.U.T. de Saint-Étienne, 1988, 21 pages. Lecomte, A., Marandin, J. -M, "Analyse de discours et morphologie discursive", Montréal, Centre d'Analyse de Textes par Ordinateur, Université du Québec à Montréal, 1984, 67 pages. Marandin, J.M., (1988) "A propos de la notion de thème de discours. Éléments d'analyse dans le récit", Langue Française, (à paraÎtre), 1988. Melchuk, Igor Aleksandrovich, Arbatchewsky-Jumarie, Nadia, (1984) Recherches lexico-sémantiques, Montréal, Presses de l'Université de Montréal, 1984, 172 pages. Paquin, Louis-Claude, Déredec-EXPERT (Version 2.0), Université du Québec à Montréal, Centre d'Analyse de Textes par Ordinateur, 1987, 119 pages. Pêcheux, Michel, (1969) Analyse Automatique du Discours, Paris, Dunod. Plante, P., Manuel de programmation Déredec, Centre d'ATO. Plante, P., (1975) Proposition d'algorithme pour le dépistage de relations de dépendance contextuelle dans un texte, Montréal, Université du Québec a Montréal, 111 pages. Rastier François et al., (1987) Sémantique et intelligence artificielle, Paris, Librairie Larousse, 1987, Langage #87, Septembre, 128 pages. Sowa, J. F., (1984) Conceptual Structures. Information Processing in Mind and Machine, Addison-Wesley Publishing Company, Inc., 481 p.
Waterman, D. A. A Guide to Expert
System. Reading, Mass.: Addison-Wesley; 1985. |