Proposition
de COMMUNICATION au colloque ICO 93
Titre:
DE LA
NÉCESSITÉ DE REPENSER LA GESTION ET DE L'ANALYSE
DE L'INFORMATION TEXTUELLE DANS LES ORGANISATIONS
Sous-thème:
Repérage,
analyse et gestion de textes et de documents
Auteurs:
Suzanne BERTRAND-GASTALDY
Ecole de bibliothéconomie
et des sciences de l'information
Université
de Montréal
Case Postale 6128,
Station A
Montréal,
Québec
CANADA H3C 3J7
tél.: (514)
343-6048
fax : (514) 343-5753
GASTALDY@ERE.UMONTREAL.CA
Jean-Guy MEUNIER
et Louis-Claude PAQUIN
Centre ATOïCI
Université
du Québec à Montréal
Case Postale 8888,
Station A
Montreal, Québec
CANADA H3C 3P8
tél.: (514)
987-8256
fax : (514) 987-4567
PAQUIN@ATOCI.UQAM.CA
DE LA NÉCESSITÉ DE REPENSER
LA GESTION ET DE L'ANALYSE DE L'INFORMATION TEXTUELLE DANS LES
ORGANISATIONS
Les différents types de logiciels disponibles
sur le marché ont grandement amélioré la
gestion des documents et de l'information textuels. Cependant,
aussi bien les logiciels documentaires que les logiciels de gestion
des documents saisis en mode image et les logiciels de repérage
en plein texte n'apportent que des solutions partielles aux besoins
des organisations. Ils ne tiennent pas compte de la diversité
de structure des multiples données à consulter ni
de l'ensemble des tâches à effectuer sur les textes.
De plus, ils ne contribuent que très peu à faciliter
les opérations de haut niveau de lecture et d'analyse qui,
pourtant, consomment beaucoup du temps des professionnels et des
décideurs. Cela tient d'une part à une incompréhension
des processus d'interprétation, processus éminemment
subjectifs, d'autre part à un manque de sensibilité
à la culture organisationnelle et aux difficultés
d'appropriation des technologies nouvelles. À la suite
de divers projets effectués pour le compte d'organisations
publiques et para-publiques, une équipe du Centre ATO.CI
rattaché à l'Université du Québec
à Montréal, a été amenée à
proposer un mode d'intervention quelque peu différent.
Sa méthodologie s'appuie sur une analyse statistico-linguistique
des textes doublée d'une enquête cognitive et sur
la mise au point de chaÎnes de traitement adaptées
aux habitudes de lecture des utilisateurs. Les caractéristiques
souhaitables d'un système de gestion intelligemment assistée
de l'information laissent le contrôle ultime des opérations
à l'être humain et le favorisent. La structure de
réalisation qui s'est peu à peu dégagée
des différentes expérimentions nécessite
une forte implication des futurs utilisateurs et la formation
d'un consortium d'organismes qui se partagent les risques d'une
réalisation sortant des sentiers battus.
Mots-clés : Système de gestion de l'information
textuelle; Analyse de textes assistée par ordinateur; Documents
administratifs; Transfert technologique.
Sous-thème : Repérage, analyse et gestion de
textes et de documents
DE LA NÉCESSITÉ DE REPENSER LA GESTION
ET DE L'ANALYSE DE L'INFORMATION TEXTUELLE DANS LES ORGANISATIONS
INTRODUCTION
L'avènement de l'ordinateur et surtout des
micro-ordinateurs a augmenté de façon considérable
la capacité des organisations et des individus à
générer de l'information.
Mais si la plupart des documents sont depuis plusieurs
années mis en forme avec l'aide de l'ordinateur, leur gestion
- depuis leur production jusqu'à leur consultation en passant
par leur analyse, leur diffusion et leur stockage - est loin de
répondre aux besoins réels des utilisateurs dans
le cadre des tâches pour lesquelles l'information est demandée
et aux exigences d'efficience dans un contexte de compétitivité
et de rareté des ressources matérielles. Bien souvent,
en effet, ce sont encore des documents papier qui sont manipulés
(on évalue à 92% la part de ceux-ci par rapport
aux autres supports) et, lorsque des solutions informatiques sont
adoptées, elles ne sont que partielles et se limitent à
certaines sous-fonctions.
Nous passerons brièvement en revue les logiciels
habituellement proposés pour nous attarder ensuite à
quelques-uns des problèmes qui doivent être résolus
pour améliorer la performance qualitative des systèmes
informatiques consacrés à la gestion des documents
textuels et de l'information dans le sens entendu plus haut. Nous
montrerons comment, à l'occasion de plusieurs réalisations
dans les organisations, une équipe du Centre ATOïCI
a pu explorer un espace de solution à ces problèmes.
Ces diverses interventions ont abouti à la formulation
de principes généraux et de recommandations quant
à la méthodologie de gestion de l'information, à
la mise en oeuvre exploratoire de cette méthodologie sous
forme de chaÎnes de traitements, à la définition
des caractéristiques souhaitables d'un environnement informatique
unifié qui supporterait cette méthodologie et enfin
à une proposition sur structure de réalisation des
projets dans ce domaine.
1. LES PROGRÈS ACCOMPLIS DANS LA GESTION
DE L'INFORMATION GRÂCE AUX LOGICIELS RÉCENTS
1.1 Les logiciels documentaires
La plupart des organisations sont dotées de
logiciels conçus pour tenir compte d'un type particulier
de documents et d'un type de service administratif: repérage
de documents d'archives, interrogation de bases de données
bibliographiques, emprunt de livres de bibliothèques, systèmes
d'information de gestion, etc. La plupart ont été
développés il y a plusieurs années pour remplir
des fonctions bien spécifiques (acquisition, classement,
prêt, conservation, préservation de la confidentialité,
etc.) sans souci d'intégration des différents services
d'information, à une époque où l'accès
au plein texte relevait encore de l'utopie et où l'on n'envisageait
pas de politique globale de gestion des ressources informationnelles
(Karivalo, 1990).
Sur le plan logiciel, la structure interne des données
de chacun des systèmes empêche le partage de l'information;
les stratégies d'interfaces sont variées et, la
plupart du temps, cryptiques de sorte que la manipulation des
systèmes requiert souvent une période d'entraÎnement
longue et intensive. Sur le plan conceptuel, chacun de ces systèmes
a déterminé sa propre grille d'analyse et ses propres
catégories d'accès (Bertrand-Gastaldy, 1990b: 74).
Ceci constitue un obstacle à la collecte ponctuelle de
renseignements. Or, la nature des tâches accomplies par
les professionnels et les enjeux qui y sont reliés exigent
un accès rapide et précis à plusieurs types
d'informations situées sur des systèmes différents
et ce par la personne qui a un problème à résoudre,
une décision à prendre, un dossier à évaluer,
etc.
À ces systèmes sont venus s'ajouter,
dans certains cas, des logiciels de repérage en plein texte
et des systèmes de GED (gestion électronique des
documents) .
1.2 Les logiciels de gestion des documents saisis
en mode image
Le succès des systèmes de gestion électronique
des documents s'explique par le fait qu'ils résolvent la
plupart des problèmes liés à la manipulation
du support papier. Ils réunissent sur un même support
les documents composites autrefois dispersés dans plusieurs
systèmes de stockage. Tout en préservant la présentation
visuelle des documents originaux, ces systèmes réduisent
considérablement les coûts de stockage. Les coûts
et les délais de manipulation connaissent également
une diminution importante. Les systèmes de GED centralisent
la documentation et offrent, par conséquent, l'assurance
que le document consulté ou dupliqué est toujours
le plus récent, que la confidentialité est respectée
et que seules les personnes autorisées peuvent apporter
des modifications, ce qui garantit l'intégrité des
données. De plus, l'ergonomie de la consultation ne change
pas trop les habitudes par rapport au support papier. On peut
agrandir ou rétrécir les documents sur l'écran,
les faire pivoter, les envoyer à un télécopieur,
etc. Enfin, il est souvent possible d'ajouter des annotations
ou même des messages vocaux (Benmergui-Perez, 1989; Chevreau
et Kelly, 1989).
Cependant ils automatisent surtout les tâches
effectuées par du personnel de bureau sur des supports
physiques. L'accès au contenu qui mobilise une grande partie
du temps des employés de plus haut niveau pose les mêmes
problèmes que lorsque l'information est sur support papier;
il faut fournir des mots-clés pour décrire le ou
les thèmes principaux traités dans les documents
et renoncer à repérer directement l'information
spécifique, selon de multiples points de vue. On voit cependant
apparaÎtre des logiciels de GED interfacés avec des
systèmes de repérage en plein texte qui travaillent
sur les textes codés en ASCII après reconnaissance
optique des caractères (ROC).
1.3 Les logiciels de repérage en plein
texte
Aux États-Unis, le marché du repérage
de l'information textuelle a presque atteint un stade de maturité,
d'après Delphi Consulting Group (1992) qui a dénombré
107 000 sites où sont installés des logiciels. La
croissance de ce marché est considérable si l'on
en juge par l'analyse que ce groupe en a faite. Conçus
à l'origine d'après les logiciels de repérage
des données bibliographiques, il évoluent vers un
niveau plus élevé d'interactivité, des capacités
de sélectivité plus étendues et vers une
convivialité plus grande. Dans certains cas, le repérage
s'appuie sur des analyses statistiques et permet de réinjecter
une réponse pertinente à titre de nouvelle question.
Différents opérateurs sont fournis pour travailler
sur les chaÎnes de caractères elles-mêmes (masque,
troncature, etc.) et sur leur position dans la phrase. Quelques
logiciels offrent de plus des possibilités de navigation
hypertextuelle: l'utilisateur peut alors, comme avec le support
papier, s'appuyer sur l'organisation logique des documents en
sections, chapitres, paragraphes, illustrations et tableaux. Mais,
pour être exploitable électroniquement, cette organisation
logique doit avoir été préalablement décrite
et reliée au contenu des documents.
Cependant la plupart de ces logiciels de repérage
en plein texte n'offrent pas la possibilité de retrouver
autre chose que des mots du texte, des chaÎnes de caractères.
À la limite, la mise à disposition brute de très
nombreux textes enregistrés sur support informatique accroÎt
les problèmes d'accès à l'information plus
qu'elle ne les résoud. En effet, l'ambiguïté
inhérente au langage naturel empêche la formulation
de requêtes précises et un repérage vraiment
efficace avec pour conséquence que les utilisateurs sont
inondés de textes non pertinents. De plus des phénomènes
courants comme l'anaphore, l'ellipse, l'implicite et la paraphrase
nuisent au repérage de tous les textes pertinents. La segmentation
des textes en paragraphes et en phrases réduit l'abondance,
mais ne constitue pas une solution suffisante aux problèmes
de bruit et de silence.
Certes, il existe des logiciels qui tiennent davantage
compte de la nature linguistique du matériau à traiter.
Ils tentent de retrouver par delà les chaÎnes de
caractères de véritables unités conceptuelles.
Les meilleurs résultats s'arrêtent cependant à
la reconnaissance de termes complexes susceptibles de dénoter
des notions importantes dans le domaine de référence
à condition que celles-ci soient bien forméesÎ.
Mais la possibilité d'explorer les textes dans une perspective
autre que terminologique et de les analyser en fonction d'objectifs
divers est quasiment absente. En dernière analyse, la plupart
des logiciels constituent une "boÎte noire" qui
a pour fonction unique de mettre les utilisateurs en relation
avec les textes ou passages de textes contenant telle ou telle
expression ou traitant de tel ou tel sujet.
2. QUELQUES RÉALITÉS NÉGLIGÉES
PAR LES CONSTRUCTEURS DE SYSTÈMES:
Les solutions informatiques que nous venons de présenter
à grands traits sont loin de répondre aux muliples
besoins des professionnels oeuvrant dans les organisations en
ce qui concerne la gestion de l'information. Son volume, son rythme
d'accroissement, l'instabilité de son contenu, l'interdépendance
des différents documents qui réfèrent les
uns aux autres, la variété et l'hétérogénéité
des supports, des sources, de la durée de vie de l'information
et, finalement, la multiplicité des motifs qui mènent
à sa consultation requièrent des approches plus
novatrices.
2.1 Diversité des données à
consulter
La résolution des problèmes quotidiens
nécessite la récupération d'informations
disponibles sur plusieurs serveurs, diversement structurées
comme celles des banques de données bibliographiques, des
banques de données terminologiques, des dictionnaires ou
encyclopédies électroniques, du courrier électronique,
d'articles de revues, de lois, de règlements, de procédures,
etc.
On donc a un besoin urgent de systèmes qui
mettent les utilisateurs en relation directe avec de multiples
sources de données, au moyen d'une interface commune et
conviviale (Belkin et al., 1991).
2.2 Diversité des tâches à
effectuer sur les textes
À l'examen des logiciels récents que
l'on classe dans le créneau de l'informatique documentaire,
on peut observer une tendance à l'intégration progressive
des fonctionnalités offertes autrefois par plusieurs logiciels
différents dédiés chacun à l'un ou
l'autre aspect de la chaÎne documentaire: la production,
la gestion et l'exploitation des documents (Bertrand-Gastaldy,
1990a). Toutefois, les organisations sont loin de disposer du
soutien nécessaire à un accomplissement harmonieux,
intégré et économique des multiples tâches
qui mènent de la création d'un document à
son élimination et ce, dans un environnement souvent multilingue
où le travail est effectué sous un mode coopératif.
Ainsi les logiciels de repérage en plein texte
qui s'appuient sur des analyseurs linguistiques pour l'indexation
et/ou le repérage n'intègrent pas d'outils pour
assister la rédaction des documents; ce sont des correcteurs
linguistiques dédiés qui le font. On se retrouve
dans la situation où une analyse complexe doit être
mise en branle pour dépister certaines caractéristiques
qui auraient pu facilement être encodées lors de
la production des documents si les concepteurs des logiciels de
production connaissaient les besoins des logiciels de repérage.
Les différentes phases de la production des
textes par plusieurs auteurs, avec ses cycles de consultation,
de traduction, de révision, d'approbation, etc. ne sont
pas couvertes. De même, la validation des éléments
autres que le contenu est laissée pour compte: aucun automatisme
ne permet de vérifier l'uniformité de la terminologie
employée, la lisibilité en fonction du public visé,
la conformité à une politique éditoriale.
L'insertion de modules n'est pas prévue pour assister la
création de thésaurus ou de bases de connaisances
de plus en plus nécessaires pourtant dans les systèmes
dits "intelligents", malgré l'intérêt
qui émerge pour ce genre d'applications dans des publications
récentes (Schmitz-Esser, 1990; RIAO Conference Proceedings
1991). Les documentalistes, terminologues et ingénieurs
cogniticiens sont contraints d'attendre "que les outils informatiques
d'analyse de contenu des textes soient à la portée
de tous" (Ranjard, 1991).
De plus, la vision qu'ont les concepteurs de logiciels
des interactions entre les utilisateurs et leurs textes est extrêmement
réductrice; ils ne s'intéressent qu'à une
petite portion des motivations de consultation: le repérage
de passages en fonction d'une question thématique. Pourtant
de nombreuses questions factuelles et stylistiques seraient posées
si l'infrastructure le permettait. On oublie aussi tout le travail
d'annotation et de synthèse qui est effectué une
fois les passages pertinents retrouvés et qui pourrait,
au moins en partie, bénéficier de l'assistance de
l'ordinateur.
La barrière entre les divers systèmes
de gestion même électronique des documents est, on
le voit, encore bien réelle.Cette étanchéité
regrettable des logiciels les uns par rapport aux autres a été
soulignée par Duchastel (1991: 601), à propos des
tâches complexes de lecture et d'écriture qui "nécessitent
la mise en oeuvre d'un grand nombre de nos facultés".
Il ajoutait:.
Cette multiplicité se reflète dans
le profusion des solutions informatiques proposées (traitements
de textes, correcteurs, dictionnaires, analyseurs). Cependant,
ces progiciels sont rarement pensés dans un cadre d'intégration.
Tant que l'usager ne cherche qu'une aide ponctuelle pour effectuer
une tâche spécialisée, il trouve généralement
des systèmes adaptés à cette demande. C'est
dans la mesure où un même usager requiert une aide
globale pour effectuer un ensemble de tâches complexes de
lecture et d'écriture que devient urgente leur intégration
dans un cadre méthodologique complet.
On notera que la solution préconisée
réside dans l'intégration méthodologique
et non pas dans l'intégration des logiciels pour lesquels
la modularité et, par conséquent la compatibilité,
semble suffisante.
2.3 Importance des tâches de haut niveau
On aura remarqué que certaines des tâches
mentionnées, l'écriture et la lecture, constituent
des activités cognitives de haut niveau, comme d'ailleurs
les activités d'indexation et de condensation qui en constituent
un aspect particulier. Elles mobilisent une grande partie des
ressources humaines et financières dans une organisation.
Ainsi, on a calculé que les professionnels peuvent passer
plus de 60% de leur temps à lire des documents papier.
D'après une étude américaine (Killen), les
employés de bureaux consacrent plus de temps à la
lecture, à l'analyse et à la génération
d'information qu'à la simple manipulation des supports.
Donc il y aurait des gains de productivité
importants à réaliser dans l'automatisation de ces
tâches, automatisation malheureusement rendue impossible
par la complexité et le caractère "privé"
des interprétations.
2.4 Complexité de la lecture et de l'analyse
des textes
Pour interpréter un texte, il faut d'abord aller au-delà
de sa matérialité. C'est, en effet, le contenu signifiant,
le sens, le discours que tente de rejoindre un lecteur. Celui-ci
veut accéder à l'acte cognitif d'un locuteur qui
a composé, organisé et communiqué des propositions,
des idées, des arguments, une histoire. Pour cela, il effectue
parallèlement des traitements cognitifs complexes au niveau
perceptif, linguistique, sémantique et contextuel, ce qui
l'amène à projeter toute une série de connaissances
préalables sur les signes graphiques et à les catégoriser
de diverses manières.
Puisque chaque individu construit le sens au fur
et à mesure de la lecture, comme le montrent bien les théories
sémiotiques de l'interprétation (Eco, 1985), mieux
vaut l'outiller pour faciliter ce processus plutôt que de
le déposséder au profit d'un automate qui ne pourra
de toute façon que construire des représentations
rudimentaires. En effet,, s'il est impossible de doter un ordinateur
de toutes les connaissances et habiletés nécessaires
pour "comprendre" un texte, il est cependant réaliste
de concevoir des outils capables d'assister l'utilisateur dans
la transformation des données en éléments
sémantiquement structurés, en connaissances. Il
sera alors plus aisé pour ce dernier de manipuler, de classifier,
de relier et d'interpréter de tels éléments
que de simples chaÎnes de caractères sur lesquelles
les opérations sont très limitées, car elles
ne sont que les porteurs matériels de l'information.
2.5 Caractère "privé"
de l'interprétation des textes
Mais l'interprétation est une activité subjective
par essence qui dépend à la fois de la structure
cognitive du lecteur et de ses objectifs de lecture.
Quiconque veut comprendre un texte a toujours un projet. Dès
qu'il se dessine un premier sens dans le texte, l'interprète
anticipe un sens pour le tout. À son tour, ce premier sens
ne se dessine que parce qu'on lit déjà le texte,
guidé par l'attente d'un sens déterminé.
C'est dans l'élaboration d'un tel projet anticipant, constamment
revisé, il est vrai, sur la base de ce qui ressort de la
pénétration ultérieure dans le sens du texte,
que consiste la compréhension de ce qui s'offre à
lire [...]. Ce processus est donc le renouvellement incessant
du projet qui entretient le mouvement de la compréhension
et de l'interprétation. (Gadamer; 1976: 196)
Autrement dit, il faut toujours situer la gestion
et l'analyse d'un texte dans un horizon d'action. Le texte ne
se laissera jamais épuiser par une approche unique. Son
interprétation peut varier d'une personne à une
autre, d'un moment à un autre. Et même s'il se présente
dans une langue spécifique, par exemple, le français,
même si l'ensemble des expressions linguistiques qui le
constituent sont relativement stables et susceptibles d'être
décrites selon une certaine grammaire, son contenu est
toujours plurivalent.
Le texte contient une composante d'indétermination. Ce
n'est pas un défaut, mais bien une condition fondamentale
de la communication du texte; elle permet la participation du
lecteur à l'intention du texte. Iser (1985: 15)
Un système d'information devrait donc s'adapter
aux différents points de vue des utilisateurs.
En raison de la nature sémiotique de l'objet
textuel et du postulat herméneutique de la multiplicité
des interprétations possibles d'un texte, il est donc impossible
de construire un système de lecture et d'analyse automatiques
de textes. Cela n'est d'ailleurs pas souhaitable, puisque la "lecture"
change en fonction de l'évolution des besoins et de l'état
des connaissances des lecteurs humains:
[...] different persons, in different occupations
may possess different world views and make different demands upon
sources of knowledge as a consequence. For example, some occupations
may require no more than 'recipe knowlege' for their effective
performance; others, falling short of a need for 'expert ' knowledge,
may demand more in the nature of 'reasoned opinion' and, hence,
a greater need for access to sources of information . (Wilson,
1984: 200).
Or, les systèmes actuels de gestion de l'information
ne permettent pas une catégorisation du vocabulaire ni
une analyse "sur mesure" adaptée à des
objectifs de recherche bien particuliers. Pourtant, au sein de
l'organisation, chacun devrait trouver son compte dans la manipulation
de l'information, du cadre supérieur au personnel de secrétariat
en passant pas le rédacteur, le réviseur, le chargé
de projet, l'agent d'information, etc.(Trowbridge, 1988).
Pour cela, il faudrait envisager un système
qui soit un "adjuvant" à l'activité cognitive
de l'être humain (Meunier, 1992) et qui laisse la maÎtrise
ultime du traitement de l'information entre les mains de l'expert.
C'est en ce sens qu'on devrait plutôt envisager des systèmes
de gestion et d'analyse intelligemment assistées de la
documention textuelle qui réconcilieraient deux formes
de lecture: il s'agirait de procurer au lecteur des instruments
à l'aide desquels son expertise pourrait être mise
à profit, en même temps qu'ils lui garantiraient
une capacité de lecture augmentée en termes de volume,
de rigueur, bref de systématicité (Paquin et Beauchemin,
1988). Afin de respecter le caractère "privé"
de toute interprétation, l'outillage mis à la disposition
du lecteur devrait être paramétrable, se plier à
ses objectifs de lecture. Or, même si quelques systèmes
actuellement disponibles intègrent une certaine catégorisation,
ils ne le font pas à tous les niveaux: graphique, morphologique,
lexical, syntaxique, sémantique, pragmatique. Avec de telles
informations supplémentaires, il deviendrait possible d'envisager
des traitements mixtes (à la fois linguistiques, cognitifs
et statistiques) sur de grands corpus sans aller à l'encontre
des parcours interprétatifs des individus.
2.6 Importance des modes de lecture développés
en fonction de la culture organisationnelle
Dans les organisations, ces parcours interprétatifs
sont autant le fait de groupes que d'individus en particulier.
Les analyses des textes sont dirigées à la fois
par les structures de textes et par les tâches à
accomplir. Bien souvent les systèmes d'analyse livrés,
même s'ils ont été précédés
d'une analyse de besoins, sont développés en dehors
de tout contact avec les utilisateurs et uniquement en fonction
de modèles théoriques qui ignorent les contextes
et les situations particulières d'utilisation. Si l'effort
requis des utilisateurs pour s'adapter à de nouvelles technologies
est trop grand et qu'en retour cette dernière ne parvient
pas à faciliter leur tâche, elle sera rejetée
malgré les avantages objectifs qu'elle peut apporter. En
somme, les développements technologiques qui ne prévoient
pas de modes d'appropriation par les utilisateurs sont voués
à l'échec.
2.7 Acculturation en ce qui concerne les technologies
d'exploitation des informations textuelles
La manipulation consciente de l'information textuelle
avec des outils aussi nouveaux pose un certain nombre de problèmes
d'acculturation. Le surlignage de passages pertinents, les annotations
marginales qui aboutissent à la lente élaboration
d'une synthèse ne se prêtent pas aux mêmes
manipulations que les catégories surimposées aux
textes exploitables par toutes sortes d'algorithmes, y compris
les calculs statistiques, dans un système ouvert. Il faut
une certaine formation et un certain temps d'assimilation pour
maÎtriser toutes les opérations possibles. D'ailleurs
même les individus familiers avec les outils informatiques
traditionnels ont du mal à utiliser un système qui
fait appel à la créativité et surtout à
des connaissances spécialisées sur ce qu'est un
texte et ce qu'est une analyse de texte. C'est pourquoi, on ne
peut pas se contenter de livrer un système; il faut d'abord
former les utilisateurs, les rendre conscients de leurs stratégies
d'appropriation des textes, notamment par des exemples d'application
qui se rapprochent le plus de leurs besoins. Ceci nécessite
de part et d'autre, un lent apprivoisement des cultures respectives
de l'organisation et de la firme auteur du système.
3. LES SOLUTIONS PRÉCONISÉES PAR
UNE ÉQUIPE DU CENTRE ATOÏCI
Depuis plusieurs années, des chercheurs du
Centre ATOïCI interviennent dans les organisations pour développer
des systèmes d'analyse de textes par ordinateur. Au fil
de leurs réalisations, ils en sont venus à proposer
une méthodologie d'analyses mixtes (de type statistico-linguistique
et cognitif) des textes, implantée sous forme de chaÎnes
de traitement adaptées aux différents contextes
d'utilisation. Ceci les a conduits à réfléchir
aux caractéristiques souhaitables d'un système intégré
de gestion intelligemment assistée de l'information et
aux conditions de sa réalisation. Ce sont les trois volets
que nous allons maintenant exposer.
3.1 La méthodologie
Analyse statistico-linguistique des textes doublée
d'une enquête cognitive
Il nous faut d'abord procéder à l'analyse
d'un échantillon des corpus de l'organisation. On ne prend
pas connaissance d'une lettre comme on le fait d'un rapport de
recherche, d'une directive, d'une loi, etc. À chaque genre
de texte correspondent une structure d'information et un type
de lecture qui projette la connaissance préalable de cette
superstructure. Il est, à note avis, naïf de penser
qu'on peut indexer ou repérer de l'information de la même
façon dans tous les textes, ce que nous confirment d'ailleurs
l'examen des produits dérivés de ces textes et les
observations des employés dans l'exercice de leurs tâches.
La technique d'analyse de textes n'est pas seulement
employée pour les textes primaires, mais aussi, lorsqu'ils
sont disponibles, pour les textes secondaires, produits d'une
analyse humaine préalable et pour les outils documentaires
utilisés à cette fin (thésaurus et plan de
classification). C'est ainsi qu'à travers les traces laissées
par les indexeurs dans leurs résumés, leur choix
de mots-clés ou de rubriques de classification, nous pouvons
déceler des tendances et des anomalies qui nous renseignent
sur les processus plus ou moins conscients de condensation. En
somme, en confrontant les textes primaires et les textes secondaires,
nous cherchons à découvrir les propriétés
des éléments d'information retenus par les indexeurs
par opposition aux propriétés des éléments
laissés de côté. Il va de soi qu'une telle
observation nécessite un ou des logiciels capables de catégoriser
de multiples façons les unités lexicales et textuelles.
Cette technique est employée actuellement dans deux projets
.
En parallèle, nous menons une enquête
cognitive auprès des indexeurs; nous les interviewons,
nous les observons dans l'exécution de leurs tâches,
nous leur demandons d'expliciter leur démarche, et aussi
de commenter les résultats de nos analyses. Puis nous revenons
aux textes pour trouver la confirmation de leurs dires. Cette
double approche permet de mesurer l'écart entre les affirmations
et la pratique réelle, d'enrichir nos intuitions de départ,
de provoquer aussi de la part des indexeurs une prise de conscience
qui les amène à revoir et à normaliser leurs
habitudes, de leur plein gré et en toute connaissance de
cause. La richesse des résultats obtenus par les analyses
statistico-linguistiques pique leur curiosité et suscite
la demande de formation à l'utilisation des logiciels.
Du point de vue de la recherche, cette interaction
nous conduit à observer davantage de propriétés
que celles auxquelles se sont intéressées les quelques
études de ce genre déjà effectuées
(Grunberger, 1985). Alors que ces dernières ont surtout
porté sur la fréquence des mots-clés et leur
position dans le paragraphe, nous vérifions plusieurs indices
statistiques, dont la valeur discriminante, nous tenons compte
aussi de l'appartenance au sous-domaine du savoir dans lequel
le texte peut être classé, de la position des termes
à la fois dans la micro-structure et la macro-structure
aussi bien dans le texte intégral que dans le résumé,
de la pertinence de certaines informations comme l'intitulé
d'une loi, les lois ou articles de lois cités, les parties
au litige pour déterminer la classification, les variations
selon le domaine de droit et selon la provenance du jugement,
etc. Ces études contribuent à enrichir la connaissance
encore très rudimentaire que nous avons des tâches
cognitives extrêmement complexes de lecture et d'analyse,
en vue de la classification et de l'indexation dans ce cas précis.
Elles abordent sous un angle différent des réflexions
entreprises par quelques rares auteurs comme Beghtol (1986), David
(1990), Farrow (1991) et Endres-Niggemeyer (1990).
Cette modélisation de l'analyse humaine en
vue de la classification et de l'indexation peut bien sûr
être étendue à d'autres types de lecture effectuée
pour atteindre d'autres objectifs: repérage de textes écrits
avec une perspective de prospective, classement en fonction de
variables thématiques, stylistiques, détermination
des auteurs les plus prolifiques, des centres de recherche les
plus productifs dans un champ d'intérêt nouveau pour
l'utilisateur, représentation des termes associés
à telle ou telle problématique, etc. Il s'agit de
comprendre ce que les lecteurs font avec leurs textes et de déceler
les marqueurs les plus pertinents pour réduire la masse
d'information, la présenter dans certains cas de façon
synthétique, donc faciliter la prise de connaissance du
contenu en fonction de l'horizon de lecture. Davantage de temps
peut alors être consacré aux opérations cognitives
très complexes.
Les chaÎnes de traitement
Une fois les habitudes de lecture mises en évidence
et une fois validés les paramètres, des chaÎnes
de traitement peuvent être mises au point. Les analyses
appropriées sont découpées en opérations
qui sont effectuées séquentiellement à l'aide
de plusieurs logiciels. Une interruption des opérations
automatiques est prévue chaque fois que l'utilisateur doit
intervenir. Cette façon de faire rend plus aisée
la reproduction des analyses sur des textes nouveaux. Nous envisageons
de formaliser les modèles après validation dans
un système expert, ce qui nous permettrait un contrôle
plus fin et une plus grande sensiblité au contexte. C'est
ainsi qu'on espère modéliser non seulement les traitements
mais les parcours interprétatifs des utilisateurs (Paquin,
1992).
Les systèmes que nous développons répondent
bien à ce que Lee (1985) recommandait pour les entreprises:
des systèmes d'aide à la décision qui ne
remplacent pas l'être humain, mais l'assistent et augmentent
ses capacités, avec des modules qui peuvent être
combinés différemment pour répondre à
des situations différentes.
L'approche adoptée nécessite une architecture
logicielle ouverte dont les fonctionnalités sont développées
au fur et à mesure des besoins. SATO (Système d'Analyse
de Textes par Ordinateur) constitue la boÎte à outils
de base pour pré-traiter les textes, les catégoriser
(de façon automatique, assistée ou manuelle), les
fouiller sur les mots ou sur leurs catégories, les partitionner
en domaines et effectuer des calculs statistiques de base. Nous
avons aussi recours à SPSS pour implanter les analyseurs
statistiques. Enfin, la modélisation en système
à base de connaissance sera faite sur ACTE (Atelier Cognitif
et TExtuel) qui est en cours de développement au centre
ATOïCI.
3.2 Caractéristiques souhaitables d'un
environnement informatique unifié
Les études réalisées en étroite
collaboration avec les intervenants dans les organisations nous
ont amenés à réfléchir aux caractéristiques
que tout système de gestion intelligemment assistée
de l'information devrait posséder:
- Grande capacité de traitement:
pour traiter, sans dégradation de performance,
des banques de documents textuels dépassant plusieurs fois
le gigaoctet.
- Catégorisation à différents niveaux:
pour répondre à la complexité variable
des traitements à effectuer.
- Modularité
: pour qu'il soit possible de combiner à volonté
les analyseurs et les chaÎnes de traitement, en fonction
des besoins, le contrôle de l'échange entre unités
de traitement s'effectuant au moyen d'un système de communication
de type "black board".
- Paramétrisation : qui
va de pair avec la modularité pour adapter les traitements
à la qualité souhaitée des résultats
et aux investissements en termes de temps et de coût qu'on
veut bien consentir.
- Compatibilité : des données
soumises aux traitements et issues de ceux-ci pour être
admissibles aux différents modules.
- ntégration
: c'est, d'après les résultats
de l'étude d'Andersen Conseil en 1990 sur la gestion de
l'information dans les années 1990 la question qui, avec
celles de connectivité, de réseaux et de communication,
figure au premier rang - et de loin (61%) - des principaux problèmes
techniques dont se préoccupent le plus les responsables
de la gestion de l'information.
- Assistance intelligente
: pour encadrer une partie des tâches cognitives qui sont
normalement associées à la gestion de l'information:
la production et plus spécifiquement l'écriture,
la normalisation, la catégorisation, la description, l'analyse,
la classification, l'indexation, l'extraction de connaissances,
le repérage, la diffusion, etc.
- Interactivité : l'utilisateur
gardant le contrôle ultime des opérations, celui-ci
doit pouvoir choisir l'une des stratégies offertes ou encore
développer - et sauvegarder pour réutilisation -
ses propres modèles pour naviguer dans la base de documents
et réaliser les opérations cognitives désirées.
- Convivialité : La
convivialité va de pair avec l'interactivité, car
si le système est trop difficile à utiliser, il
est délaissé.
- Navigabilité : opérer
sur de multiples documents ou portions de documents, y appliquer
des descriptions et des catégorisations, les annoter, les
rechercher au moyen d'outils d'aide au repérage, rechercher
de l'information pertinente, tout cela nécessite des moyens
de naviguer au moyen de liens hypertexte et hypermédia.
3.3 Structure de réalisation des projets
de mise sur pied de systèmes de gestion de l'information
La méthodologie exposée plus haut ainsi
que l'implantation de systèmes dotés des caractéristiques
énumérées exigent beaucoup en termes de ressources
humaines et financières. La structure de réalisation
qui s'est peu à peu dégagée des différentes
interventions de l'équipe du centre ATOïCI s'appuie
d'une part sur une forte implication des futurs utilisateurs,
d'autre part sur la formation d'un consortium d'organismes qui
se partagent les risques d'une réalisation sortant des
sentiers battus.
Implication des futurs utilisateurs à tous
les stades du projet et transfert d'expertise
Les futurs utilisateurs sont impliqués à
tous les stades du projet: enquête préliminaire,
élaboration du cahier des charges, design, développement
par prototypage, mise au point du système, évaluation.
Le système est conçu, comme nous l'avons
dit plus haut, à partir de corpus de documents sélectionnés
par les participants de l'organisation. Afin que ceux-ci puissent
mieux définir leurs besoins, une formation leur est donnée
tout au cours du projet pour qu'ils assimilent la technologie
de l'analyse de textes assistée par ordinateur et prennent
progressivement en charge la gestion de l'information dans leur
milieu de travail jusqu'à ce qu'ils acquièrent une
autonomie totale. Le transfert d'expertise prend d'abord la forme
de cours, puis de séances d'animation et finalement de
travaux supervisés dans l'organisation même. Cette
façon de procéder a fait ses preuves dans tous les
projets menés jusqu'ici par l'équipe et rejoint
une nouvelle théorie de développement des systèmes
d'information qui tient compte à la fois du caractère
évolutif du processus et de l'importance de la communication
entre les concepteurs, les développeurs et les utilisateurs.
Cette approche permet d'inclure un processus continu d'évaluation
et de réajustement du produit en cours de route, plutôt
qu'en bout de piste seulement, et d'y ajouter des critères
aussi importants pour tous les participants que la croissance
professionnelle et la reconnaisance par les pairs, ainsi que la
pérennité de l'utilité et de la qualité
du produit (Sonnenwald, 1992).
Nous avons pu constater (Bertrand-Gastaldy et
al., 1990) que la mise à disposition de technologies
nouvelles pour exploiter le texte et la formation in situ
stimulent la créativité des utilisateurs qui découvrent
des applications nouvelles, des façons différentes
de travailler avec les textes et réclament des systèmes
dont les fonctionnalités sortent des applications habituellement
commercialisées (ce que Delphi Consulting Group (1992:
Intro-4) appelle: "new generation of information management
that is more versatile and comprehensive than its predecessors"):
As this technology is accepted into the corporate
information management systems, users are discovering their capability
beyond traditional applications. It is these advanced applications
that will finally propel text retrieval into the main stream of
an integrated electronic document management system." (Delphi
Consulting Group, 1992: TR-9)
Les futurs utilisateurs découvrent qu'ils
peuvent exploiter les gisements documentaires pour toutes sortes
d'activités qu'il était tout simplement impossible
d'effectuer auparavant: normalisation des textes sur le plan terminologique
et stylistique, documentation systématique des décisions,
mise à disposition de renseignements autrefois dispersés
dans de nombreux dossiers, présentation de la documentation
en fonction d'utilisations différentes. Cela va bien au-delà
du simple repérage que permettent les systèmes documentaires
traditionnels.
Développement par consortium
Un projet de développement d'un environnement
informatique intégrant toutes les caractéristiques
énumérées plus haut implique non seulement
l'adaptation des logiciels existants à des normes industrielles,
mais aussi des développements d'envergure autant pour tenir
compte de la masse des documents que les organisations ont à
traiter que pour raffiner la profondeurÎ d'analyse
requise. Un tel projet présente un risque à la fois
technologique et organisationnel qui ne peut être assumé
par les moyens traditionnels où une entreprise reprend
les travaux des universitaires pour les traduire et les encapsuler
dans des développements logiciels robustes. La seule solution
possible qui pourrait être envisagée consiste en
un partenariat entre des universités, des entreprises productrices
de logiciels et des entreprises utilisatrices comme des banques
et des services para-publics, selon une formule encouragée
par le gouvernement du Québec et préconisée
par une étude de l'Observatoire français des industries
de la langue pour répondre aux besoins qui ne sont pas
satisfaits par les logiciels existants:
Les utilisateurs pourraient s'associer entre eux
pour financer partiellement le développement de produits
dans le cas où aucun de ceux disponibles ne répondrait
à leurs besoins. Mais le développement de ce type
de projet coûte très cher [...]. Les fournisseurs
pourraient ainsi investir dans une recherche-développement
à risque partagé. (Observatoire français
des industries de la langue: 100)
CONCLUSION
Malgré les progrès réels enregistrés
dans la gestion de l'information textuelle, nous avons pu constater
un certain nombre de lacunes qui proviennent autant des logiciels
que des méthodologies de développement et d'implantation
dans les organisations. L'option que nous préconisons de
fournir un accès différencié au contenu textuel
à des utilisateurs qui s'impliquent dans le développement
et la prise en charge de leur système s'oppose aux options
faciles de recherche en plein texte ou d'indexation automatique
de type "boÎte noire". Cette option ne peut d'emblée
emporter l'adhésion, car elle suppose une prise de conscience
préalable des processus cognitifs complexes de lecture
et d'interprétation. Le marché actuellement en émergence
a un potentiel important mais qui est relativement mal compris.
C'est pourquoi la formation de consortiums réunissant des
intervenants convaincus des bénéfices d'une gestion
intelligemment assistée est peut-être le seul moyen
de contribuer à un changement de paradigme dans la façon
d'envisager le rapport des utilisateurs aux textes.
BIBLIOGRAPHIE DES SOURCES CITÉES
Beghtol, Clare (1986). Bibliographic classification
theory and text linguistics: aboutness analysis, intertextuality
and the cognitive act of classifying documents. Journal of
Documentation; 42(2); June 1986: 84-113
Belkin, N.J.; Marchetti, P.G.; Albrecht, M.; Fusco,
L.; Skogvold, S.; Stokke, H.; Troina, G. (1991). User interfaces
for information systems. Journal of Information Science;
17; 1991: 327-344.
Benmergui-Perez, M. (1988). Charting the uncharted.
Office Equipments & Methods; November 1988: 26-29.
Bertrand-Gastaldy, Suzanne (1990a). L'évolution
de la gestion de l'information documentaire sous l'impulsion des
nouvelles technologies. Terminogramme; Bulletin d'information
terminologique et linguistique ; 55; mars 1990: 25-31.
Bertrand-Gastaldy, Suzanne (1990b). L'indexation
assistée par ordinateur: un moyen de satisfaire les besoins
collectifs et individuels des utilisateurs de bases de données
textuelles dans les organisations. ICO Québec; intelligence
artificielle et sciences cognitives au Québec; 2(3);
septembre 1990: 71-91.
Bertrand-Gastaldy, Suzanne; Paquin, Louis-Claude;
Dupuy, Luc ,.1990. The need for information and knowledge management.
In: Hans Czap et Wolfgang Nedobity, eds. TKE'90: Terminology
and Knowledge Engineering; Proceedings of the Second International
Congress on Terminology and Knowledge Engineering, 2-4 October
1990, University of Trier, Federal Republic of Germany. Frankfurt:
Indeks Verlag; 1990: 509-517.
Chevreau, J.; Kelly, T. (1989). Paperless report.
Office Equipments & Methods; January-February 1989:
42-46.
David, Claire (1990). Élaboration d'une
méthodologie d'analyse des processus cognitifs dans l'indexation
documentaire. Montréal: Université de Montréal,
Département de communication; septembre 1990. (mémoire
de maÎtrise).
Delphi Consulting Group.(1992) Information Management:
The Next Generation; Conferences and Seminars on Electronic Management
Systems ; 1992.
Duchastel, Jules (1991). Pour une méthodologie
d'aide à la lecture et à l'écriture. Actes
du coloque "Les industries de la langue: perspectives des
années 1990, Montréal, 21-24 novembre 1990.
[s.l.]: Office de la langue française / Société
des traducteurs du Québec, 1991: 583- 601.
Eco, Umberto. Lector in fabula ou la Coopération
interprétative dans les textes narratifs. Paris: Grasset;
1985.
Endres-Niggemeyer, B.(1990). A procedural model of
abstracting, and some ideas for its implementation. In : Hans
Czap et Wolfgang Nedobity, eds. TKE'90: Terminology and Knowledge
Engineering; Proceedings of the Second International Congress
on Terminology and Knowledge Engineering, 2-4 October 1990,
University of Trier (FRG), Frankfurt: Indeks Verlag; 1990: 230-243.
Farrow, J. F.(1991). A cognitive process model of
document indexing. Journal of Documentation; 47(2); June
1991:149-166.
Gadamer, H. G. (1976) Vente et méthode.
Paris: Seuil; 1976.
Grunberger, Michael W. (1985). Textual Analysis
and the Assignment of Index Entries for Social Science and Humanities
Monographs. New Brunswick, NJ: Rutgers University; 1985. 136
p. (Ph.D thesis).
Iser, W. (1976). The Art of Reading A
Theory of Esthetic response, Baltimore 1976: John Hopkins
University.
Karivalo, M.(1989). Training for information management
in a company. Information Services & Use; 9; 1989:
341-346.
Lee, R.M. (1985). On information system semantics:
expert vs. decision support systems. Social Science Information
Studies; 5; 1985: 3-10.
Meunier, J.-G. (1992). SATO: un philologue électronique.
Documentation et bibliothèques; 38(2); avril-juin
1992: 65-69.
Observatoire français des industries de la
langue (1991) Utilisations et utilisateurs en produits et services
des industries de la langue . Québec: OFIL; 1991.
Paquin, L.-C. (1992). La lecture experte" Technologie,
idéologie et pratique, numéro spécial
consacré au colloque "Intelligence artificielle et
sciences sociales"; 10 (2-4): 209-222.
Paquin, L.-C.; Beauchemin, J. (1988). Apport de l'ordinateur
à l'analyse des données textuelles. In: RELAI: Recherche
en linguistique aappliquée à l'informatique. Actes
du colloque "La description des langues naturelles en vue
d'applications informatiques" . Université Laval,
7-9 décembre 1988. Québec: Centre international
de recherche sur le bilinguisme; 1989: 197-210.
Perriault, I. (1989). SITE: la documentation technique
sur supports optiques. Archimag; 23; 1989: 81.
Ranjard, S. (1991). L'indexation manuelle: une valeur
ajoutée. Archimag. Hors série; novembre 1991.
RIAO 91 Conference Proceedings (1991). Intelligent
Text and Image Handling, Universitat Autonòma
de Barcelona, Barcelona, Spain, April 2-5, 1991. 2 vol.
Schmitz-Esser, Winfried (1990). Thesauri facing new
challenges. International Classification ; 17 (3/4); 1990:
129-132.
Sonnenwald, Diane H.(1992). Developing a theory to
guide the process of designing information retrieval systems.
Proceedings of the Fifteenth Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval,
Copenhagen, Denmark, June 21-24, 1992 : 310-317.
Trowbridge, R. (1988). Lost, stolen or strayed; you
can escape the horror of the lost document. Office Equipment
& Methods; 1988 November: 34-38.
Wilson, T.D (1984). The cognitive approach to information-seeking
behaviour and information use. Social Science Information Studies;
4; 1984: 197-204.
|