Introduction
Malgré tout ce que l'on a pu dire de
l'importance que prennent les médias alternatifs, il reste
qu'une très grande partie de l'information utilisée,
tant par les chercheurs universitaires, que par les agents oeuvrant
dans les organisations est toujours véhiculée par
l'écrit. Alors que les objectifs de productivité
sont de plus en plus élevés et que la masse des
textes ne cesse de s'accroÎtre, les ressources humaines
hautement qualifiées qui peuvent être allouées
à leur lecture sont limitées par des contraintes
temporelles et financières. Tel est le contexte dans lequel
s'inscrit le recours à l'ordinateur.
La présente contribution consiste à
proposer un cadre computationnel pour l'analyse des textes qui
puisse accommoder une grande diversité de points de vue,
satisfaire les besoins véritables de ceux qui sont aux
prises avec les textes et enfin couvrir l'ensemble du processus
d'analyse. La réalisation de ces objectifs nécessite
qu'un renversement de perspective sur l'analyse des textes soit
opéré. Plutôt que chercher à mettre
au point un analyseur général et exhaustif de l'ensemble
des structures des textes, nous proposons d'implanter un modèle
de la lecture particulière telle qu'effectuée par
des experts sur un ensemble particulier de textes. Cette approche,
désignée par l'appellation de lecture experteÎ,
s'est imposée à l'occasion de projets de recherches,
mais surtout de projets pilotes dans les organisations. Elle justifie
pour une large part la commandite du développement d'un
Atelier cognitif et Textuel (ACTE).
Un examen de la problématique reliée
à l'analyse des textes par ordinateur (ATO) nous a amené
à abandonner le découpage de la tâche comme
moyen de réduire sa complexité au profit d'une focalisation
sur la lecture en tant qu'expertise à modéliser
dont nous dégageons les opérations fondamentales.
Nous proposons ensuite un modèle de traitement, un modèle
computationnel pour en faire l'implantation et une méthodologie
de développement. Enfin, les fonctionnalités dont
l'ACTE sera à terme doté sont décrites en
regard de l'ATO.
Problématique
Le processus analytique est habituellement
conçu en quatre étapes successives : le découpage
des unités significatives du texte, la description de ces
unités, l'extraction d'informations à partir des
descriptions et l'interprétation des informations. On arrive
généralement à effectuer au moyen de l'ordinateur,
à des degrés divers d'automatisme et avec plus ou
moins de succès, les trois premières étapes.
Cependant, à notre connaissance, aucun système basé
sur l'un et/ou l'autre des trois modèles de traitement
suivants : statistique, linguistique ou associationniste,
ne s'est attaqué avec succès à l'interprétation
qui pourtant constitue l'étape cruciale de l'analyse.
Quelque soit le modèle de traitement
privilégié, c'est la stratégie étapisteÎ
mise en oeuvre dans le développement des systèmes
d'ATO qui, à notre avis, est déficiente. Étant
donné les difficultés rencontrées à
chacune des étapes, celles-ci deviennent des finalités.
Le découpage du texte en mots ne donne pas pour autant
des unités significatives; celles-ci sont souvent composées
de plusieurs mots et leur délimitation peut donner lieu
à des traitements élaborés. La description
linguistique des unités et de leurs relations à
l'intérieur de la phrase est elle-même l'objet d'une
stratégie étapisteÎ et chacune des
étapes constitue en elle-même un champ de recherches.
Par ailleurs, la description syntaxique d'un
texte, même si elle permet à terme d'accéder
à une certaine sémantique relationnelle des unités,
ne contribue qu'en partie à la description des niveaux
supérieurs d'organisation du texte, tels la structure argumentative
ou encore les figuresÎ, dont la prise en compte
est pourtant essentielle à l'interprétation du texte.
C'est qu'un texte n'est pas seulement un fait de langue mais aussi
de discours. Ce dernier aspect fait appel à des connaissances
externes au texte analysé, celle des autres textes et celle
des conventions sociales qui en régissent la production.
Voilà pourquoi l'étiquetage contextuel de catégories
autres que linguistiques aux unités significatives est
si difficile à réaliser à l'aide de l'ordinateur.
Plutôt que de réduire la complexité du processus analytique en le découpant en étapes et de consacrer des efforts théoriques et computationnels à la résolution automatique de tous les problèmes qui se posent pour chacune des étapes, nous proposons de focaliser sur les besoins et les pratiques de ceux qui effectuent l'analyse des textes, les lecteurs. Au lieu de chercher à mettre au point un algorithme général d'ATO, nous mettons l'accent sur la modélisation d'une lecture particulière des textes et le passage d'une lecture humaine vers une lecture machine.
La lecture en tant qu'expertise
La lecture nous apparaÎt relever plus
d'un savoir-faire plus ou moins implicite, que d'un savoir exact
formalisé dans une théorie. Il s'agit d'une expertiseÎ,
acquise non pas tant par apprentissage mais au fil d'une pratique.
De plus, cette pratique constitue rarement une fin en elle-même,
est partie intégrante d'une activité professionnelle,
comme par exemple, déterminer l'admissibilité d'un
dossier ou encore à analyser des récits de vie,
etc. Nous explorons un modèle empirique de la lecture pour
en dégager les composantes opérationnelles mises
en oeuvre par les experts de domaine. Dans cette perspective,
le lecteur expert effectue sur les textes quatre opérations
fondamentales dont la complexité est croissante :
segmenter, filtrer, déchiffrer et interpréter.
La segmentation consiste à découper
la suite des caractères du texte en mots significatifs.
Tous les mots d'un texte ne sont que rarement pris en compte par
le lecteur. La plupart du temps, un filtrage plus ou moins sévère
est effectué en vertu de ses objectifs, de sa connaissance
du domaine de référence, etc. Sa lecture se trouvera
d'autant accélérée que le filtrage sera sévère.
Toute l'information nécessaire à sa compréhension
n'étant pas repérable à la surface du texte,
le lecteur procède au déchiffrement d'indices lui
donnant accès à l'information ou encore projetant
un éclairage particulier sur celle-ci.
Par ailleurs, déchiffrer c'est aussi
prédire dans la mesure où, même sans la co-présence
de tous les indices, le lecteur peut quand même accéder
à l'information du texte. Son expertise lui permet de lire
entre les lignesÎ, de combler l'absence d'indices ou encore
de discriminer la relation probable entre les indices de celle
qui ne l'est pas dans des configurations ambiguës. Il utilise
alors les indices déjà relevés au cours de
la lecture ou fait appel à des lectures précédentes.
Dans le cadre des théories cognitives, on dirait que le
lecteur a en tête des prototypesÎ qu'il retrouve
dans les textes dans un état plus ou moins complet.
Quant à l'interprétation, dans
la perspective opérationnelle qui est la nôtre, c'est
une relation que fait le lecteur entre l'information obtenue par
le dépistage des indices et la connaissance qu'il a du
monde de référence.
Le modèle de traitement
Le modèle de traitement qui a été
élaboré pour prendre en compte les quatre opérations
de la lecture dégagées précédemment
tente de répondre aux contraintes suivantes : demeurer
assez simple pour permettre une implantation sur micro-ordinateur
dotée d'une couverture satisfaisante et être assez
général pour demeurer unique malgré des expertises
de lecture différentes. Chacune de ces opérations
est en quelque sorte une transformation effectuée sur un
texte d'origine et dont le résultat est un autre texte.
Avant même d'effectuer la segmentation
du texte en unités significatives, tout comme le lecteur
devant un mot nouveau consulterait le dictionnaire, le premier
traitement consiste à projeter sur les mots du texte des
descriptions pertinentes. Cette information catégorielle,
appelée indicesÎ peut être assignée,
soit hors contexte à toutes les occurrences d'un mot donné,
soit à une occurrence donnée dans un contexte particulier.
Selon les besoins du modèle de lecture, l'information pourra
être de nature linguistique, relative à la morphologie,
au lemme; à la syntaxe, etc. L'information pourra aussi
être la distribution du mot au travers du texte, du corpus
et/ou d'une partition de celui-ci; l'information sera enfin relative
au domaine d'expertise. Cette information a assurément
nécessité la constitution d'immenses dictionnaires
électroniques et/ou la réalisation d'analyses très
complexes, et ce dans des disciplines et des cadres théoriques
variés afin de réaliser des objectifs particuliers,
souvent différents de celui qui leur est réservé
ici. C'est pourquoi le présent modèle de traitement
peut être qualifié d'intégrateur.
La segmentation en unités pertinentes
sera réalisée par des regroupements de mots faits
à partir des indices déposés sur les mots
et selon des critères explicités lors de la constitution
du modèle de lecture experte. Il sera aussi possible de
bénéficier de l'apport de logiciels développés
à cette fin via un protocole. Tout comme les mots, les
segments pourront être l'objet d'une description.
L'opération de déchiffrement
consiste à mettre en relation un ou plusieurs indices provenant
des descriptions effectuées préalablement avec une
hypothèse de représentation (HR). L'HR constitue
en quelque sorte une variable intermédiaire entre les indices
et leur interprétation. La catégorisation des unités
textuelles permet de réduire sensiblement la diversité
des formes en présence et, par conséquent, le nombre
de configurations différentes mises en relation avec une
HR donnée afin de couvrir l'ensemble des cas d'espèce.
L'opération d'interprétation
c'est la mise en relation d'une ou plusieurs HR avec un élément
extérieur à l'univers textuel, appelé interprétationÎ.
Cette relation n'est pas de nature formelle comme la précédente
mais subjective. Ainsi deux interprétations différentes
peuvent être données à une même HR,
alors qu'une seule HR devrait être assignée à
une configuration donnée d'indices. Voici une schématisation du modèle de traitement proposé :
Le modèle de traitement permet la récursion :
les interprétations devenant à leur tour les indices
díune méta-lecture, etc.
Le modèle computationnel
L'implantation du modèle de traitement
exposé précédemment fait appel à deux
modèles computationnels différents. Un premier modèle
pour la description des mots et des segments de mots et un second
modèle pour la mise en relation successive des indices
avec les HR et des HR avec une interprétation.
La description des mots et des segments est
effectuée à l'aide du système d'analyse de
textes par ordinateur SATO. Ce système offre un cadre interactif
pour l'annotation, le filtrage et le décompte des mots
de très grands corpus de textes. On peut adjoindre des
propriétés aux mots dont les valeurs seront numériques
ou symboliques. LexicalesÎ, les propriétés
affectent toutes les occurrences d'un mot; textuellesÎ
elles en affectent une occurrence particulière. Les annotations
peuvent être faites manuellement ou systématiquement,
soit par la projection d'un dictionnaire ou lors de la réalisation
d'un filtre arbitrairement complexe. Le filtrage s'effectue à
l'aide d'un langage d'interrogation complet qui s'applique sur
le lexique ou sur le texte lui-même. Une propriété
peut hériter des valeurs d'une propriété
mère. Un mécanisme de répartition peut, pour
les segments de texte désignés, fusionner les valeurs
d'une propriété symbolique de tous les mots de ce
segment et les rapporter sur chacun d'eux. Enfin, SATO permet
de produire des statistiques sur la distribution des éléments
lexicaux à travers l'ensemble du corpus ou entre diverses
partitions de celui-ci.
Le modèle computationnel qui nous apparaÎt
convenir le mieux pour implanter les mises en relation est celui
des règles de production. Parce qu'elle repose sur les
propriétés de la logique des propositions, cette
représentation des instructions permet la compositionnalité
et un accès systématique à de nouvelles informations
sans compromis quant à leur modularité. Les systèmes
à base de connaissances (SBC), de par leur architecture
favorisent le développement et l'exploitation de grands
ensembles de règles. Les règles, tout comme les
données pour les systèmes conventionnels, sont tenues
séparées du dispositif computationnel appelé
moteur d'inférencesÎ qui a pour seule fonction
la validation de leur prémisseÎ en regard
de faitsÎ et, le cas échéant, l'exécution
de leurs actionsÎ consistant en la production de
nouveaux faitsÎ qui permettront la validation d'autres
règles, etc. Pour implanter le modèle de traitement,
il suffit de traduire en règles d'inférencesÎ
les relations établies lors de la modélisation.
Les indices réunis par une conjonction ou une disjonction
sont mis en relation avec une hypothèse de représentation
(HR). Il en va de même pour HR et l'interprétation
correspondante.
Une lecture experte s'accomplirait de la façon
suivante. D'abord les descriptions qui fourniront les indices
sont effectuées et projetées sur les mots du texte.
Ensuite, une à une, des entités logiques du texte,
telles le paragraphe, l'article, le chapitre, etc. sont constituées
en faits de départ et soumis au moteur d'inférencesÎ.
Une chaÎne inférentielle est alors initiée.
Les règles qui testent les indices en présence sont
une à une validées et, le cas échéant,
les HR sont inféréesÎ, c'est-à-dire
qu'elles acquièrent le statut de faitsÎ.
Au cycle d'inférences suivant, les règles qui testent
les HR affirmées sont validées et, le cas échéant,
des interprétations sont à leur tour inféréesÎ
et sont consignées dans un rapportÎ. Plus
tard, les éléments du rapport peuvent, à
leur tour, constituer les indices d'une méta-analyse et
ainsi de suite.
De plus, en ayant recours à un atelier
logiciel pour générer un SBC, un non-informaticien
peut lui-même jouer le rôle de développeur
en modélisant sa propre expertise de lecture. De tels ateliers
logiciels, aussi appelés générateursÎ
offrent en plus d'un moteur d'inférences, un éditeur
des règles d'inférences et des utilitaires de validation
pour s'assurer de la cohérence des déclarations.
Contrairement à la programmation conventionnelle
où tout changement en cours de route dans le modèle
est pénalisant, la phase d'implantation dans un SBC, participe
de la démarche exploratoire. Ainsi, les SBC favorisent
le prototypage, c'est-à-dire une implantation schématique
qui, par essai et erreur sera raffinée. Il est alors possible
de construire graduellement et de façon modulaire des systèmes
de plus en plus complexes. Les SBC présentent un autre
avantage au niveau de l'efficacité : contrairement
aux implantations sous la forme procédurale d'automates
où pour toutes les analyses possibles, toutes les conditions
sont testées, ce sont les indices qui déclenchent
les analyses pertinentes.
Les coefficients de certitude
La capacité de prédiction du
lecteur qui lui permet de déchiffrer l'information même
en l'absence d'indices pourtant nécessaires est implantée
dans notre modèle de la lecture experte au moyen de coefficients
numériques. Les générateurs de SBC offrent
généralement la possibilité d'adjoindre aux
conclusions des règles d'inférences un coefficient
afin que le développeur du système puisse exprimer
la confiance qu'il prête à ses associations, ici
d'indices avec l'HR correspondante. Le moteur d'inférences
incorpore un mode de cumul de ces coefficients pour propager l'incertitude
ou encore la confiance tout au long de la chaÎne inférentielle.
Les formules utilisées pour cumuler ces coefficients selon
la conjoncture provoquent, soit leur atténuation, soit
leur renforcement; dans le cadre de la lecture experte ces opérations
présentent les avantages suivants.
D'une part, l'association d'une configuration
particulière d'indices peut être associée
à une HR donnée malgré l'absence de certains
indices, pourtant jugés nécessaires lors de l'élaboration
du modèle. Le système fera quand même l'association
mais avec un coefficient de certitude moindre qui, à son
tour, provoquera une atténuation de la certitude lors de
l'association subséquente de l'HR avec l'interprétation
correspondante. L'utilisation des coefficients permet un dépassement
du cadre strict de la logique booléenne. En effet comme
le modèle prévoyait associer une HR à une
conjonction d'indices, si l'un d'eux venait à manquer,
sans le recours aux coefficients, l'association n'aurait pu être
établie.
D'autre part, il n'est plus besoin d'inclure
dans une seule règle d'inférences tous les indices
dont la conjonction est associée à une HR donnée.
Les indices peuvent être associés individuellement
à l'HR avec un faible coefficient qui sera renforcé
au fur et à mesure du déclenchement des règles
filtrant les autres indices. L'utilisation des coefficients permet
une réduction de la complexité des règles
nécessaires pour implanter un modèle donné
et permet le dépassement de l'unicité pour déboucher
sur des associations plurielles mais différenciées.
Ainsi, par exemple, il est possible dans une même règle
d'exprimer qu'un même indice dénote très faiblement
une HR donnée, car la co-présence de plusieurs indices
est nécessaire, et que ce même indice dénote
moyennement une autre HR.
Le développement des systèmes
de lecture experte
Cette nouvelle façon de concevoir l'ATO
entraÎne une redistribution des rôles dans le développement
des systèmes. Plutôt que la mise au point en vase
clos par des spécialistes d'un programme dont seuls les
résultats sont présentés aux utilisateurs,
ceux-ci sont appelés à intervenir plusieurs fois
dans le cycle de développement. D'abord pour effectuer
un transfert de leur expertise de lecture dans le modèle
de traitement et ensuite pour valider les résultats générés
par le programme en fonction de leurs besoins. Cette validation
entraÎnera la révision ou l'adjonction de nouvelles
descriptions et/ou règles d'inférences au système
qui sera validé à nouveau et ainsi de suite jusqu'à
ce qu'il ne soit plus rentable d'effectuer de nouveaux cycles
de développement. La rentabilité est décroissante
lorsque les ajouts ne concernent que des exceptions dont la fréquence
d'occurrence est marginale par rapport à la majorité
des cas traités.
Il ne s'agit plus de modéliser les multiples
aspects ou dimensions des textes, mais de modéliser une
lecture particulière qui en est faite. Les seuls aspects
retenus seront ceux qui sont pertinents pour une pratique de lecture
donnée, ce qui facilite la tâche de la modélisation.
De plus, des facteurs extra-textuels devront être pris en
considération, tels les objectifs du lecteur, ses particularités
culturellesÎ, ce qu'il entend faire des résultats
obtenus, etc. Toutefois, le lecteur, expert d'un domaine, éprouve
le plus souvent de la difficulté à structurer de
lui-même un schéma pédagogique des indices
qui lui permettent d'interpréter le texte.
C'est ainsi qu'il nous apparaÎt opportun
d'avoir recours à des techniques de transfert de connaissances
et de modélisation empruntées à l'ingénierie
de la connaissance. Cette discipline vise à produire des
spécifications complètes et claires permettant de
développer un système expert lorsqu'un domaine d'expertise
n'a pas encore été modélisé informatiquement.
Pour ce faire, un modèle de l'expertise est élaboré
à partir de l'analyse des verbalisations effectuées
par les experts qui doivent subir un certain entraÎnement
pour arriver à décrire leur expertise. Ce modèle
sera par la suite traduit dans les termes du modèle de
traitement puis implémenté et soumis aux experts
pour validation.
Les protocoles sont des verbalisations effectuées
par l'expert en situation de résolution de problème;
elles servent à capter leur performance effective. On demandera
aux lecteurs de dire à haute voix et sans censure tout
ce qui leur passe par la tête au moment où il exercent
leur expertise de lecture sur les textes. Chacune des étapes
ou opérations, même si elles apparaissent insignifiantes
doivent être mentionnées. Les entrevues sont des
échanges où les experts, en dehors du contexte de
leur activité professionnelle, fournissent une description
générale du domaine. L'entrevue n'offrant pas de
garantie d'objectivité; l'information recueillie doit être
recoupée avec le contenu des protocoles.
Parallèlement à l'analyse des
verbalisation, les concepteurs du système de lecture experte
tireront profit d'une analyse de contenu d'un sous-corpus de textes
représentatif du domaine de référence. En
plus de leur fournir des questions pertinentes à poser
aux experts lors des entrevues, cette démarche leur permettra
d'évaluer la faisabilité d'une modélisation
et de valider les différents aspects du modèle envisagé.
Le cas échéant, une analyse des
textes qui résultent de la lecture par les experts doit
aussi être effectuée. La comparaison des textes produits
par les lecteurs avec les textes d'origine fournit habituellement
de l'information très utile sur la lecture qui a été
faite. Ainsi, par exemple, dans le cas d'un résumé,
la comparaison permettra d'identifier ce qui a été
sélectionné. Plus tard l'entrevue fournira les critères
et la justification de la sélection.
Un atelier cognitif et textuel (ACTE)
Un atelier cognitif et textuel (ACTE) qui intègre
dans un même environnement informatique SATO et un générateur
de SBC est présentement en cours de développement
au Centre d'ATO. La lecture experte sera implantée et expérimentée
dans l'ACTE, dans son état actuel de développement.
Présentement le moteur d'inférences du générateur
de SBC est complété, de même qu'une version
partielle d'un éditeur de définitions des données
cognitives et des règles d'inférences. Les données
cognitives qui servent à formuler les règles d'inférences
prennent la forme d'objets valués, ce qui permet de traiter
directement des unités textuelles préalablement
décrites en SATO.
À terme, les commandes de SATO pourront
être exécutées en conclusion des règles
d'inférences. Ainsi, le filtrage et l'annotation des textes
pourra se faire à l'intérieur même d'une chaÎne
inférentielle ce qui autorise des structures de contrôle
de description et d'analyse des textes complexes et fines tout
en demeurant lisibles. De plus, le résultat des fouilles
et des analyses de SATO pourra être admissible au filtrage
par les prémisses des règles d'inférences.
Du point de vue de l'analyse des textes, l'ACTE
permettra le dépassement de l'approche séquentielle
habituelle pour expérimenter, en temps réel et sur
des corpus d'envergure, une approche topologique. Le texte pourra
être conçu, non plus seulement comme une suite linéaire
de séquences mais comme un espace multidimensionnel. Les
régularités et les ruptures, tant formelles que
sémantiques pourront être traitées en réseaux
multiples qui s'enchevêtrent à l'intérieur
de l'espace textuel. Ce dispositif computationnel, par ses capacités
de filtrage et d'étiquetage, permet, à partir de
n'importe quelle unité lexicale ou segmentale, d'examiner,
de catégoriser ou re-catégoriser n'importe quelle
autre unité, en aval ou en amont de l'unité qui
est analysée.
Du point de vue de la théories des SBC,
cette intégration permet un élargissement de l'espace
de filtrage des règles d'inférences dont la structure
des unités est présentement contrainte par un modèle
formel, les frames, les prédicats du premier ordre,
etc. aux unités textuelles en tant que tel.
Conclusion
Nous croyons que la lecture experte a le potentiel
de pallier au manque de dispositifs computationnels pour assister,
autant les agents des organisations que les chercheurs en sciences
humaines dans les phases de l'analyse des textes consécutives
à leur catégorisation, soit le déchiffrement
d'indices et leur interprétation. Dans la mesure où
le déploiement du modèle de la lecture humaine sur
le modèle de traitement sera possible, la lecture experte
permettra le passage du cas par cas à la formulation de
règles, ce qui garantirait l'uniformité et l'exhaustivité
du processus interprétatif. Des expérimentations avec l'ACTE seront menées afin de valider le cadre méthodologique et le modèle de traitement proposés pour la modélisation et l'implantation de la lecture experte. Les domaines d'application, de même que les types de texte et les perspectives de lecture seront aussi variés que possible. Nous serons alors en mesure de délimiter le champ optimal d'application de la lecture experte, ses limites, de même que l'ampleur des efforts requis pour son implantation. |