INTRODUCTION
La disponibilité d'un nombre croissant de textes
intégraux sur support informatique pose le problème
de leur exploitation en vue de traitements automatisés
qui étaient jusqu'à tout récemment
-- et sont encore pour une grande part -- effectués par
des spécialistes. En effet, les coûts et les délais
impliqués, ainsi que le manque de cohérence qui
caractérise l'indexation sujet, incitent à
chercher des solutions plus expéditives, avec si possible,
une qualité acceptable. Des activités cognitives
de haut niveau comme le catalogage descriptif et l'indexation
du contenu effectuées sur le texte, objet beaucoup plus
complexe que les logiciels documentaires les plus répandus
ne le considèrent, sont-elles entièrement ou partiellement
automatisables?
Notre présentation a pour objectif de montrer que les opérations
intellectuelles effectuées sur les textes s'appuient
sur une catégorisation à plusieurs niveaux. En effet,
du catalogage descriptif à l'analyse de contenu
en passant par l'indexation, les processus cognitifs à
l'oeuvre supposent d'abord une identification de
données spécifiques, ensuite leur description -
résultat d'une activité de catégorisation,
et enfin divers traitements aboutissant à leur extraction
et à leur mise en forme. Même si c'est la
mise en forme des produits issus de l'analyse qui a d'abord
et presque exclusivement été automatisé,
en réalité chacune de ces opérations peut
bénéficier du support de l'ordinateur à
des degrés divers. C'est ce qu'illustrera
Gracia Pagola avec le logiciel SATO (système d'analyse
de textes par ordinateur) sur des textes de jurisprudence. Quant
à l'interprétation finale, elle demeure le
privilège de l'être humain.
1. STRUCTURATION LOGIQUE ET CATALOGAGE DESCRIPTIF
1.1 Qu'est-ce que le catalogage descriptif?
Pour distinguer la description bibliographique de l'indexation
sujet qui avaient été rassemblés dans le
même état de la question sous le titre dans les volumes
5 à 9 d'ARIST , Liston et Howder (1977: 107)
retenaient ces éléments:
L'activité d'analyse porte donc sur des objets
différents: les attributs du support (le document) pour
la première, le contenu conceptuel du texte, du discours
inscrit sur le support, pour l'autre. Tout le monde convient
que la complexité de l'opération est bien
plus grande dans le second cas. Mais qu'en est-il des ressemblances?
Dans le cas de l'analyse descriptive, le catalogueur identifie
et organise les éléments décrétés
pertinents en vertu d'une série de règles
inscrites dans un code de catalogage. Afin de faciliter la manipulation
informatique des attributs descriptifs, chacun d'eux est
affecté d'une étiquette (en anglais ) qui
s'insère dans un format normalisé, par exemple
le format MARC. Cette normalisation permet non seulement l'échange
et la compatibilité des données bibliographiques
mais aussi un repérage différencié. Comme le rappelle Chan (1994: 33-47), on a commencé à concevoir des codes de catalogage dès le milieu du dix-neuvième siècle, d'abord à l'intérieur d'un même établissement (Panizzi au British Museum) ensuite grâce à la collaboration de plusieurs organismes, mais ce n'est que dans les années 1960 que la Bibliothèque du Congrès s'attela à la tâche de normaliser la structure et l'étiquetage des différents types de données bibliographiques en vue de leur communication sur support ordinolingue vers des bibliothèques utilisatrices. La structure du format MARC fut adoptée comme norme nationale (ANSI Standard Z39.2) en 1971 et comme norme internationale (ISO Standard Z2709) en 1973. Ce format comprend trois éléments: - la structure de l'enregistrement (); - l'indicateur de contenu ();
- les données du contenu ().
1.2 Norme SGML et description bibliographique
La disponibilité des textes intégraux sur support
ordinolingue a soulevé le même souci d'échange
et de compatibilité que les enregistrements bibliographiques.
Pour éviter la perte de certaines informations (comme les
données typographiques, la mise en page à la suite
des échanges électroniques), perte provoquée
par l'incompatibilité des logiciels de traitement
de textes et par l'incompatibilité du matériel
(incompatibilité des ordinateurs entre eux, incompatibilité
entre ordinateurs et imprimantes), on a pensé normaliser
les étiquettes d'identification des éléments
logiques des textes une fois ceux-ci identifiés et ce fut
la naissance de la norme SGML (Standard Generalized Markup Language)
ainsi que de la norme ODA (Office Document Architecture ou Open
Document Architecture) pour les documents composites (Attar et
Leenhardt, 1990).
a) Codage ou description Décrire un texte selon la norme SGML (norme d'abord conçue par et pour les éditeurs et devenue norme ISO en 1986), c'est procéder au marquage des éléments du texte grâce à une série d'étiquettes, de balises (). Une seule propriété permet de caractériser ces divers éléments: la propriétéÉlément . Mais celle-ci peut prendre plusieurs valeurs: chapitre, paragraphe, note, référence bibliographique, mot à insérer dans l'index, etc. La syntaxe comporte, en outre: - des opérateurs de connexion pour combiner les éléments de manière variée et des opérateurs d'occurrence (pour préciser si l'élément doit se trouver une fois seulement ou une fois au moins, comme un chapitre, ou si l'élément est faculttif, comme la préface dans un livre). - un schéma ou DTD (Document Type Description ) qui fournit: . la liste des éléments qu'il est possible ou obligatoire de retrouver dans un type de document (pour une lettre, ce peut être l'adresse du destinataire, la date de rédaction, l'objet, la formule d'interpellation, le message lui-même, la formule de politesse, le nom et le titre de l'auteur, sa signature, et, le cas échéant, la mention de copie conforme et le post-scriptum;
. la manière dont ils peuvent se combiner entre eux (une
note ne peut pas être insérée à l'intérieur
d'une autre note).
Nous reproduisons ci-dessous un exemple de DTD donné par
Role (1991: 190): <! DOCTYPE note [ <! ELEMENT note (date, auteur, destinataire, contenu) <! ELEMENT date (*PCDATA)> <! ELEMENT auteur (*PCDATA)> <! ELEMENT destinataire (*PCDATA)> <! ELEMENT contenu (objet, information)> <! ELEMENT information (*PCDATA)>
<! ELEMENT objet (*PCDATA)> ]>
Une note balisée se présenterait ainsi:
<note> <date> lundi, 7 février </date>
<auteur>Marc </auteur> <destinataire> Pierre
</destinataire> <contenu> <objet> Voyage à
Anvers </objet> <information> Le voyage est reporté
au 10 mars </information> </contenu> </note>
En pratique, l'interaction entre la DTD, définition
de la structure logique du document, et le document lui-même
peut être décrite schématiquement comme suit:
la cohérence de l'information contenue dans la DTD
est vérifiée par un (un programme d'analyse
syntaxique). Cette information est ensuite utilisée par
le parser pour vérifier la cohérence du balisage
inséré dans le document lui-même. (Role, 1991:
189)
On remarque donc la présence des mêmes types d'éléments
que pour un format MARC: une structure de données, une
série de codes et les données elles-mêmes.
Parmi les informations contenues dans un texte, il s'en
trouve certaines qui permettent de décrire les attributs
du document lui-même: auteur(s), titre, lieu, maison et
date d'édition, etc. Donc, moyennant une application
spécifiquement conçue pour le catalogage, on peut
envisager l'extraction de la plupart des données
descriptives préalablement identifiées dans le texte
lui-même et c'est bel et bien l'objet d'un
volet des travaux du Text Encoding Initiative (bibliographic
file description ), projet international visant à formuler
et à disséminer des normes pour la préparation
et l'échange de textes informatisés pour
le bénéfice des chercheurs en sciences humaines
surtout et des industries de la langue (Walker et Hockey, 1991).
b) Applications SGML: extraction et mise en forme de l'information
codée
Ceci nous amène à préciser ce qu'on
entend par application. Il s'agit de programmes qui procèdent
à la lecture et à l'analyse des documents
SGML. Leur objectif peut être:
- L'édition : une feuille de style donne des
instructions procédurales sur la façon de rendre
typographiquement les différents éléments
identifiés: l'auteur, les titres, les sous-titres,
les citations, les références citées, les
paragraphes, etc. ce qui pourrait donner ceci, dans le cas de
la note ci-dessus, toujours d'après Role:
lundi, 7 février
Marc
Pierre
Voyage à Anvers
Le voyage est reporté au 10 mars
avec le résultat suivant à l'impression:
Lundi 7 février Marc
Pierre
Voyage à Anvers
Le voyage est reporté au 10 mars
- Le catalogage à la source (en cours de publication):
le programme extrait et met en forme les données bibliographiques
à retenir: titre et mention de responsabilité, zone
d'édition, zone de la collation (avec mention de
la taille du fichier plutôt qu edu nombre de pages), etc.
- La fabrication d'un index: le programme est spécifiquement
prévu pour organiser en ordre alphabétique les éléments
que l'on a jugé bon d'identifier dans le
texte et les accompagner de leurs coordonnées (pages, paragraphes,
lignes, selon le cas).
- Le repérage, qui nécessite, en général,
l'identification du contenu en plus de l'identification
des éléments descriptifs.
En fait, une application extrait les éléments pertinents,
les manipule et les met en forme, de telle sorte qu'elle
réponde aux objectifs pour lesquels elle a été
créée.
On remarquera que ni SGML ni aucune des applications SGML ne permettent
de catégoriser automatiquement un élément
comme le nom d'un auteur, le titre d'une oeuvre, etc. L'identification
reste à la charge de l'humain qui, parcourant le
texte, applique un certain nombre de stratégies pour reconnaître
et déterminer les éléments à retenir.
La norme SGML ne se préoccupe que de la normalisation des
étiquettes, des balises () une fois repérés
les éléments appropriés. L'être
humain peut reconnaître un titre ou un sous-titre grâce
à des propriétés typographiques et de mise
en page comme la position dans l'ensemble du texte, et,
selon le cas,le centrage, la mise en caractères gras ou
en italiques, la grosseur des caractères, la longueur,
la rareté des signes de ponctuation, mais aussi grâce
à des caractéristiques linguistiques comme, par
exemple, l'absence quasi-totale de verbes -- surtout de
verbes conjugués -- et la tendance à ne pas déterminer
les noms par des articles. Cependant, si, pour un locuteur de
la langue dans laquelle est écrit le texte, la reconnaissance
de ces caractéristiques est un jeu d'enfant, il
en va tout autrement d'un programme d'ordinateur
dont l'intelligence dépasse rarement la reconnaissance
des caractères et des chaînes de caractères.
Jeng (1986) a, en particulier montré comment un système
expert pourrait, sur une page titre, isoler le titre propre du
document. Il faut donc que le système soit doté
des connaissances nécessaires.
2. INDEXATION ET DESCRIPTION MULTI-NIVEAUX DES ÉLÉMENTS
TEXTUELS
2.1 En quoi consiste l'indexation?
L'indexation du contenu consiste à retenir des mots-clés
identifiant les notions traitées dans le texte et à
les organiser dans un index pour en permettre le repérage
ultérieur. Même si les mots-clés peuvent être
extraits de la surface du texte lui-même, les opérations
cognitives qui conduisent à leur sélection impliquent
l'interaction d'une multitude de connaisances et
de prise de décision. Elles résultent d'une
compréhension au moins superficielle du discours (ce qui
nécessite connaissance de la langue, du type de textes,
du sujet traité), d'une sélection des thèmes
principaux contenues dans des macro-propositions au détriment
des thèmes secondaires, et souvent d'une généralisation
(Beghtol, 1986; Van Dijk, 1977). La sélection s'effectue
non seulement en fonction de la place des propositions dans la
macro-structure, mais aussi de l'intérêt potentiel
qu'elles peuvent présenter pour les utilisateurs
de la base de données et de leur originalité par
rapport aux propositions retenues dans les textes précédemment
analysés. D'autres éléments comme
les contraintes de temps et d'espace entrent également
en ligne de compte (Bertrand-Gastaldy, 1993). Le recours à
un vocabulaire contrôlé oblige à une traduction
des termes extraits, le cas échéant, du texte ou
des termes assignés par l'indexeur en vocabulaire
libre.
On retiendra de l'ensemble de ces opérations l'approche
également catégorisante, mais combien plus complexe
que la description bibliographique. Si l'on fait abstraction
des facteurs liés au contexte, au lecteur-intermédiaire
qu'est l'indexeur et aux utilisateurs finals et
même si l'on tient compte, de façon tout-à-fait
arbitraire, uniquement du texte, la tâche de superficielle
d'un texte à indexer est loin d'être
aisée pour un programme informatique.
2.2 Le texte: un objet sémiotique complexe
Le texte est, en effet, un objet sémiotique où s'enchevêtrent
de multiples systèmes et dont l'interprétation
requiert de multiples connaissances. Comme le fait remarquer McKenzie
(1991: 32), le mot dérive du latin qui signifie et fait
référence non plus au façonnement d'un
support matériel, mais à l'élaboration
d'un système conceptuel. Par glissement de sens,
on est passé du tissage d'une étoffe au tissu des
mots:
Le texte n'est donc pas un objet informe, une suite de
chaînes de caractères, mais un objet sémiotique
structuré interprété par un agent cognitif
intelligent qui y investit une somme énorme de connaissances
diverses. Or la plupart des méthodes d'indexation
automatique, dont on s'accorde à reconnaître
les insuffisances, reposent en grande partie sur des propriétés
statistiques du porteur, la chaîne de caractères
ou bien sur la présence ou l'absence de termes appartenant
au domaine ou au thésaurus. Ce sont des analyseurs statistiques
qui, dans le premier cas, calculent les propriétés
de fréquence, de valeur discriminante, etc. Dans le second
cas, il faut des algorithmes aptes à comparer à
tout le moins les chaînes de caractères présentes
dans le texte avec celles qui figurent dans le thésaurus.
Mais cela ne suffit pas, il faut que les analyseurs puissent distinguer
un nom d'un verbe, rattacher un nom à un syntagme
nominal ou à un syntagme verbal, détecter l'insertion
d'un adjectif ou d'un adverbe, résoudre la
coordination, la juxtaposition, etc.: il la lance violemment
et il le transperce de sa lance; avoir plein d'essence
et faire le plein d'essence; ministre de l'Environnement
et ministre québécois de l'Environnement;
propriété artistique et littéraire
et propriété littéraire; projet
de remplissage et projet de dragage, creusage, remplissage,
redressement ou remblayage, par exemple.
Bref, la mise en oeuvre d'une analyse morpho-syntaxique
est nécessaire. Pour aller au-delà, il faudrait
doter l'ordinateur de connaissances sémantiques
et pragmatiques. Que dire, en effet, de la désambiguisation
des mots polysémiques, de la résolution des anaphores,
de la détection de concepts implicites, etc.? Pour une
véritable compréhension, une foule de connaissances
de sens commun, de connaissances propres au domaine, d'information
sur les conditions de production et d'utilisation (croyances,
motivations, buts des lecteurs) devraient être disponibles,
ce qui est impossible. Aussi peut-on viser non pas une compréhension
automatique, mais une aide à la compréhension qui
s'appuie sur de traitements d'assez bas niveau:
typographiques, norphologiques, lexicaux, syntaxiques et, dans
le meilleur des cas, partiellement sémantiques pourvu que
le domaine soit restreint.
3. DE L'INDEXATION HUMAINE À L'INDEXATION ASSISTÉE
PAR ORDINATEUR
3.1 À la recherche des propriétés importantes
On peut admettre que l'opération d'indexation
ne nécessite pas une lecture approfondie du texte et ne
consiste pas en une compréhension complète.
Afin de mieux comprendre comment s'effectue l'indexation,
dans le but de l'automatiser surtout, on cherche généralement
à savoir ce qui caractérise un bon mot-clé.
On a émis plusieurs hypothèses sur les propriétés
d'un bon candidat à être sélectionné
comme mot-clé, hypothèses que l'on a testées
en partie. Plusieurs chercheurs ont travaillé sur les propriétés
statistiques: fréquence dans le document, fréquence
et répartition dans l'ensemble de la base de données,
valeur discriminante. Quelques auteurs ont cherché à
explorer d'autres propriétés comme la position de
ces mots dans le texte. C'est ainsi que O'Connor (1965) a pu démontrer,
sur un corpus en chimie, qu'un terme situé dans la première
ou la dernière phrase d'un paragraphe était un bon
candidat pour l'indexation humaine. Les quatre expériences
menées par Aslib Informatics Group et rapportées
par Jones (1983) aboutissent au même résultat; malheureusement
elles souffrent de problèmes méthodologiques. Quant
aux hypothèses de Grunberger (1985) sur la fréquence
et la position des termes dans un corpus de monographies en sciences
humaines et sociales, elles ont toutes deux été
infirmées. En fait, bien des propriétés de nature différente méritent l'attention des chercheurs. Citons à titre d'exemples: - catégorie grammaticale - mise en valeur typographique - fréquence dans le texte et dans l'ensemble du corpus - valeur discriminante - position dans le texte (appartenance à tel ou tel élément ) - appartenance au thésaurus - nouveauté du terme - nouveauté du concept - qualité de déterminant ou de déterminé - rôle de thème ou de rhème - position dans la structure d'argumentation - appartenance à une catégorie sémantique: animé, inanimé, ustensile, etc.
- rôle syntaxico-sémantique: objet, patient,
instrument de l'action, etc.
En fait, il s'agit sans doute d'un mélange
de tout ceci et de bien d'autres choses, mélange
qui peut changer selon les objectifs de l'indexation, les
personnes à qui elle est destinée, etc.
Une chose est certaine, c'est que les caractéristiques
(ou propriétés) d'un bon terme d'indexation
font référence à des niveaux différents
d'analyse du texte. Tantôt ce sont les propriétés
du , des signes graphiques: mise en valeur typographique, fréquence,
valeur discriminante, etc., tantôt ce sont des propriétés
linguistiques, sémantiques et pragmatiques (dépendantes
du contexte). Certaines de ces propriétés sont tributaires
non seulement du texte analysé, mais de la position de
ce texte par rapport aux autres textes (ou à d'autres
textes) de la base de données, également du statut
du mot dans le vocabulaire du domaine, de l'envergure et
de la portée du thésaurus, de la perspective d'analyse
(un bon terme d'indexation pour un service documentaire ou pour
un individu ne l'est pas pour un autre). La des textes change,
en effet, en fonction de l'évolution des besoins et de
l'état des connaissances de l'organisation sociale:
[...] different persons, in different occupations may possess
different world views and make different demands upon sources
of knowledge as a consequence. For example, some occupations may
require no more than 'recipe knowlege' for their effective performance;
others, falling short of a need for 'expert' knowledge, may demand
more in the nature of 'reasoned opinion' and, hence, a greater
need for access to sources of information. (Wilson, 1984: 200)
Pour trouver en quoi consiste un bon terme d'indexation on peut soit partir d'indexations déjà effectuées par des indexeurs soit observer les indexeurs dans l'exercice de leur tâche et leur demander de verbaliser ce qui se passe dans leur tête pendant ce temps, soit combiner les deux types d'étude. C'est précisément cette double approche qui a été adoptée dans deux recherches en cours: - Le premier projet, subventionné par le CRSH (Centre de recherches en sciences humaines du Canada), est le fruit d'une collaboration entre Luc Giroux du département de Communication de l'Université de Montréal et Suzanne Bertrand-Gastaldy; il porte sur les aspects cognitifs de l'indexation des documents dans les bases de données bibliographiques (Bertrand-Gastaldy et al., 1994).
- Le second projet, effectué par une équipe
de l'EBSI (École de bibliothéconomie et des sciences
de l'information) et du Centre de recherche en information
et cognition ATO.CI , est subventionné par le CEFRIO (Centre
francophone de recherche en informatisation des organisations),
par SOQUIJ (Société québécoise d'information
juridique) et par le ministère des Communications du Québec.
Il a déjà abouti à la conception d'un prototype
de système expert pour l'aide à l'analyse des jugements
(Bertrand-Gastaldy et al., 1993).
Pour mettre au jour les propriétés dont il vient
d'être question, il faut bien sûr avoir des
hypothèses sur les propriétés importantes
(ce que peuvent fournir la littérature sur le sujet mais
aussi les observations et entrevues d'indexeurs). Il faut
aussi que les porteurs aient au préalable fait l'objet
d'analyses à différents niveaux, analyses
au terme desquelles ils peuvent être catégorisés:
Bref, le texte doit être soumis à des analyseurs qui en décrivent les constituants sémiotiques. Il est important de noter que le texte qui est alors l'objet de l'analyse n'est plus le texte de départ mais le texte amplifié de ces multiples niveaux de description. Ces descriptions qualifiant les unités d'information d'un document textuel, obtenues manuellement ou par des analyseurs spécialisés, sont ajoutées au texte lui-même par le biais d'une catégorisation. Celle-ci consiste en l'ajout d'étiquettes qui décrivent le statut sémiotique (éditique, linguistique, logique, etc.) des constituants du texte auxquels ils sont adjoints. En ce sens, il s'agit d'un mode d'opérationnalisation formel de l'une des étapes du processus d'interprétation du texte.
Aucun système informatique n'est actuellement en mesure
d'interpeler des modules qui permettent de réaliser une
catégorisation automatique, complète et fiable sur
tous les niveaux en jeu. Aussi, devant l'étroitesse de
la couverture des analyseurs disponibles et surtout devant la
complexité des descriptions à effectuer, l'opération
de catégorisation est souvent effectuée partiellement
ou entièrement à la main. Mais comme la qualité
d'une analyse dépend de cette catégorisation, il
faut malgré tout tenter d'y recourir le plus systématiquement
possible. (Meunier et al., 1993: 11)
Il faut donc disposer d'un mécanisme qui permette
de passer d'un texte constitué d'une suite
de caractères à un objet structuré sur lequel
on va pouvoir effectuer diverses opérations (Wright, 1992).
L'attribution de toute une variété de propriétés
doit être aussi automatique que possible, sans quoi la tâche
de parcourir de grandes quantités de données textuelles
et de les baliser à la manière SGML selon les différents
systèmes auxquels elles participent serait surhumaine.
C'est précisément ce que permet un logiciel
comme SATO originellement conçu pour l'assistance
à l'analyse de contenu (Daoust, 1990 et 1992). Des
analyseurs statistiques calculent la fréquence de mots,
leur moyenne, leur indice de répartition dans les différents
sous-textes, la valeur discriminante, la contribution de chaque
mot à la différenciation entre deux textes, etc.
Les mots du texte peuvent être comparés à
une liste préalable contenant des informations grammaticales
et être reconnus comme noms, adjectifs, verbes, ou bien
comme constituant d'un thésaurus (à titre
de descripteurs ou de non-descripteurs) ou comme appartenant à
toute catégorie sémantique déterminée.
En outre, les mots peuvent être distingués par certaines
propriétés typographiques, de mise en page, d'appartenance
à un élément de la structuration logique
du texte.
Nous présentons ci-dessous un extrait de texte dans lequel
apparaissent des informations sur diverses propriétés
(les caractères typographiques *typo, les subdivisions
*par, les outils documentaires d'où sont
tirés les mots-clés - *pc pour plan de classification
et *th pour thésaurus -, la numérotation
des phrases *phr et leur ordre *ord):
NOTICE 91-3.STR
*par=ident*typo=nil<ND>91-3
*par=provenance<HD>COUR D'APPEL
*par=manchette ASSURANCE*pc=oui*th=oui
-- assurance de responsabilité -- recours contre le tiers
responsable -- option*th=oui -- article 2603 C.C. -- interdiction
de cumul -- amendement*th=oui.
*par=litige *phr=1 *ord=ad
Appel d'un jugement de la \Cour supérieure ayant
accueilli une requête en irrecevabilité. *phr=2
*ord=de Rejeté, avec dissidence.
*par=contexte *phr=1 *ord=pr Le
18 février 1988, l'appelante a intenté une action
contre la mise en cause \Fontaine, lui réclamant
23 688$ à titre de dommages à la suite d'un incendie
provoqué par sa négligence. *phr=2 *ord=aut Quelques
mois plus tard, l'appelante a fait signifier une déclaration
amendée qui ajoutait la compagnie d'assurances intimée
à titre de défenderesse et qui concluait à
la condamnation conjointe et solidaire des codéfenderesses.
L'intimée a alors présenté une requête
en irrecevabilité fondée sur le fait que l'appelante
n'avait aucun recours contre elle puisque, en poursuivant \Fontaine,
elle avait exercé l'option prévue à l'article
2603 \C..\C.. . *phr=3 *ord=aut La
requête en irrecevabilité a été accueillie
malgré la demande verbale d'amendement présentée
par l'appelante visant à modifier la désignation
des parties et à ne maintenir que l'intimée à
titre de défenderesse, reléguant \Fontaine
au rang de mise en cause. [...]
*par=décision *phr=1*ord=pr *typo=italique
\Mme la juge \Tourigny et \M..
le juge \Proulx: *typo=nil Les dispositions du *typo=italique
Code de procédure civile *typo=nil relatives
à l'amendement doivent recevoir une interprétation
aussi large que possible. *phr=2 *ord=aut Cependant, une
interprétation, aussi large soit--elle, ne peut
écarter une disposition de droit substantif incluse dans
le *typo=italique \Code civil. *typo=nil *phr=3 *ord=aut
Le législateur a voulu que, en intentant un recours,
la partie demanderesse fasse un choix, ainsi que l'a confirmé
\M.. le juge Mayrand dans l'arrêt \L'\Union
québécoise, mutuelle d'assurance contre l'incendie
c.. \Mutuelle des \Bois-Francs: [...]
*par=référence
Compagnie d'assurances Traders générale c. Laurentienne
générale, Compagnie d'assurances inc.. Juges
Tourigny, Proulx et Chouinard (diss..). C.A.
En comparant les propriétés des termes présents
dans les textes et retenus par les indexeurs à celles des
termes présents mais non retenus, ainsi que les propriétés
des termes absents mais assignés par les indexeurs aux
termes du texte ayant pu donner lieu à une inférence,
il est possible d'envisager un système qui extraie
les mots dotés des propriétés souhaitables
à la place de l'indexeur humain, ce dernier devenant
plus disponible pour la vérification des cas problématiques
et la mise au point d'outils plus performants.
3.2 À la recherche des processus cognitifs des indexeurs
D'ailleurs, aussi compliquée soit-elle, l'identification
des propriétés des bons termes d'indexation
ne suffit pas pour aboutir au même résultat que l'indexeur.
Il faudrait pouvoir comprendre au terme de quels processus cognitifs,
il aboutit à une telle décision. Cela revient à
se demander comment un indexeur détermine ce qu'il
retient ou ne retient pas pour l'indexation (). La question
posée par Coates en 1979 n'a pas encore reçu
de réponse, comme le faisait remarquer Grunberger (1985),
au terme de sa thèse de doctorat.
C'est pourquoi quelques recherches sont entreprises qui
ne se contentent pas seulement d'examiner les produits
de l'indexation mais également les processus cognitifs
à l'oeuvre au cours de la tâche d'indexation.
C'est, entre autres, ce à quoi s'est attelé,
après Beghtol (1986), Endres-Niggemeyer (1990) et Farrow
(1991). En rapprochant la prise de connaissance d'un document
pour fins d'analyse documentaire de la lecture rapide,
Farrow a suggéré des pistes intéressantes
de recherche, avec de nouvelles hypothèses. D'après
lui, les lecteurs rapides avec but comme les indexeurs opèrent
en même temps au niveau perceptif et au niveau conceptuel,
parcourent le texte de façon sélective et recherchent
des indices bien précis: certains sont purement typographiques
(mots en italiques, titres, sous-titres, début ou fin de
paragraphe), beaucoup sont lexicaux (des mots fréquents,
par exemple, dont certains déclenchent l'activation des
autres mots du réseau) ou documentaires (recherche des
termes du thésaurus), d'autres sont structuraux: mots ou
expressions marquant l'introduction ou la conclusion, "In
this paper we ...", "results suggest":
Indexers operate at a number of levels, one of which is a 'structural
or textual framework level', where it is claimed that authors
jot down, or at least carry in their heads, 'skeletal structures'
of what they are writing, and the indexer's task is to 'disinter
this skeleton' by searching for surface clues. (Farrow, 1991:
155)
Des rares études qui ont été menées
sur l'indexation, il ressort qu'il s'agit
d'un processus cognitif complexe encore passablement méconnu,
mais de très haut niveau. La lecture qui la précède
- ou l'accompagne - est rapide, orientée vers un
but, contrainte par des impératifs de productivité,
dépendante des intérêts particuliers de la
clientèle. C'est une activité catégorisante
requérant une multitude de connaissances: typographiques,
morphologiques, lexicales, syntaxiques, sémantiques (au
niveau du lexique, de la phrase et du texte), documentaires, pragmatiques,
etc. Le groupe ACID sur les aspects cognitifs de l'indexation
des documents ajoute une autre dimension à l'étude
des processus cognitifs en jeu: il fait l'hypothèse
que les variations individuelles dans les produits de l'indexation
peuvent s'expliquer par de variations dans les stratégies
et les connaissances mises en oeuvre et, pour cela, il emprunte
à la psychologie cognitive le cadre de la résolution
de problème (David (1990).
Donc, pour qu'un système d'indexation soit
vraiment opérationnel, il faudrait qu'il dispose,
en plus de toutes les informations pertinentes, d'un mécanisme
qui simule les opérations humaines, une fois celles-ci
connues, sur les unités d'information et sur leurs
propriétés. L'objectif à moyen terme
que nous poursuivons dans le cadre du projet mené pour
SOQUIJ est, plus modestement, de concevoir un système expert
pour assister une (Paquin, 1992) qui, ici est appliquée
à une tâche particulière, l'indexation
(de mêm qu'à la classification). En aucun
cas, cette lecture n'est généralisable, puisqu'elle
dépend du contexte. Elle ne peut pas, non plus, être
considérée comme entièrement automatisable,
à cause des innombrables connaissances qu'il faudrait
pouvoir représenter dans le système:
[...] depuis peu, un générateur de systèmes
à base de connaissances a été intégré
à SATO pour constituer un atelier cognitif et textuel (ACTE)
[Paquin et Daoust, 1993]. ACTE permet à des non-informaticiens
de mettre au point des analyseurs spécifiques à
leurs besoins incorporant des stratégies de contrôle
sensibles au contexte. De plus, la prise en compte d'informations
incertaines permet de dépasser le cadre strict de la logique
booléenne pour déboucher sur la modélisation
de l'interpétation de descriptions plurielles, différenciées
par leur plausibilité. (Meunier et al., 1993)
4. DE L'ASSISTANCE À L'INDEXATION À L'ASSISTANCE
À DIVERSES LECTURES POSSIBLES D'UN TEXTE
Le recours à un système expert n'est toutefois
pas indispensable. On peut très bien se contenter d'un
système d'aide à la prise de connaissance
du contenu qui, comme SATO, permette de visualiser les propriétés
jugées importantes par un lecteur ou encore affiche seulement
les passages de textes répondant aux propriétés
souhaitées (par exemple, toutes les premières et
dernières phrases des paragraphes), ou mette en évidence
ces passages par un surlignement ou une couleur distincte (toutes
les phrases qui contiennent un terme consigné dans le thésaurus).
C'est le lecteur qui effectue les opérations de
sélection et de mise en forme des éléments
ainsi soulignés.
Comme tout texte est susceptible d'être soumis à
un ensemble extrêmement diversifié de parcours interprétatifs,
chaque lecteur devrait idéalement pouvoir mettre en place
la série de traitements qui correspond à ses objectifs
de lecture. Parmi les questions posées, on peut évidemment
formuler celle-ci: Quels sont les termes à retenir pour
l'indexation? Quels sont les termes candidats à
faire partie d'un thésaurus? Quels sont les termes
du domaine? Mais ce n'est qu'une possibilité
parmi d'autres. En effet, une fois le texte catégorisé
richement, on peut l'analyser sous différents angles
et pas seulement sous l'angle de l'indexation ou
de la structuration d'un vocabulaire de domaine. Ainsi,
avec SATO, comme on peut introduire les catégories sémantiques
que l'on désire, on peut faire de l'analyse
de discours évoluée. Tout dépend de la puissance
des analyseurs auxquels on recourt pour automatiser le processus
de catégorisation. Le genre de questions susceptibles d'être
posées dépend de la richesse de la description qui
aura au préalable été faite, description
qui, on l'a vu, peut découler des différents
systèmes sémiotiques à l'oeuvre et
doit bénéficier de l'assistance de l'ordinateur
pour être réalisable. C'est, en tout cas,
grâce à des dispositifs de ce genre que l'on
peut envisager des systèmes comme MAESTRO (Management Environment
for Structured Text Retrieval and Organization) permettant de
formuler des questions aussi complexes que celle-ci (adaptée
de MacLeod, 1990) :
Je cherche un article de revue dont le titre concerne le repérage
interactif de documents administratifs, ou à tout le moins
le repérage interactif. Les auteurs sont Croft et Krovetz;
il a été publié en novembre ou en décembre,
probablement en décembre. La première section de
l'article mentionnait un système appelé OFFICER
et la gestion de l'incertitude. Il y avait une illustration
avec une légende d'une recherche dans la moitié
supérieure d'une des premières pages. Je
suis assez sûr du contenu du titre.
Ce genre de questions exploite la capacité de spécifier
non seulement diverses chaînes de caractères ainsi
que divers éléments textuels et non textuels, mais
aussi leurs propriétés. D'ailleurs des chercheurs
comme Kircz (1991?) ont proposé d'abandonner le
repérage booléen qui exige que le chercheur précise
son besoin au profit d'une navigation dans les textes dont
la structure argumentative aurait été explicitement
marquée au moment de la création: On peut songer à l'exploitation des bases de données textuelles pour des recherches en linguistique (comme une équipe de recherche de l'UQAM le fait sous la direction de Monique Lemieux pour l'étude de la syntaxe dans les textes en moyen français, ou comme une chercheure frnaçaise l'a fait pour l'article en arménien ancien), en analyse de discours (comme l'ont fait Duchastel et Bourque sur le discours politique de Duplessis, entre autres), pour le dépouillement de réponses à des questions ouvertes, et imaginer toutes sortes d'explorations des textes comme celles-ci, parmi bien d'autres: - Contextes d'emploi: Par ex.: d'un mot (congé, environnemental, etc.) d'un terme exprimant un concept du domaine (congé de maternité, impact environnemental, etc.)? - Diagnostic de lisibilité: Par ex.: indice de la complexité lexicale, syntaxique, etc. des textes produits par une entreprise ou des textes à donner à lire à des enfants. - Vérifications stylistiques: Par ex.: Les documents émis par telle ou telle division ont-ils le vocabulaire incitatif souhaité par le ministre? Si non, quelles sont les expressions de type coercitif à remplacer? - Étude de l'évolution d'un concept: Par ex.: L'évolution du concept de déchet, dans les dix dernières années et les propriétés qu'on lui a attribuées au fil du temps - Construction d'une thématique conceptuelle: Par ex.: interprétation légale de concepts aux frontières floues, tels : meurtre au premier degré , contrat de bonne foi , intention de frauder - Repérage des arguments pour ou contre une décision: Par ex.: dans les rapports sur l'établissement d'un site d'enfouissement de déchets dangereux. - Identification des défendeurs d'une idée, d'un mouvement, et des arguments pour et contre: Par ex.: Quels sont les individus qui ont pris parti pour telle ou telle proposition? quels étaient leurs arguments? - Étude de l'évolution d'une argumentation pour ou contre une politique: Par ex.: les positions du gouvernement relativement à l'avortement depuis 1940. - Identification des préoccupations des auteurs:
Par ex.: les textes écrits avec un souci de prospective
Des expérimentations sur des références bibliographiques
obtenues par l'interrogation de bases de données
sur CD-ROM ont montré tout l'avantage qu'on
pouvait tirer d'analyses de ce genre pour l'aide
à la synthèse (Ouellet, 1992). Bref, peu importe
l'objectif poursuivi, ce que nous avons mis en évidence
c'est l'avantage d'une description fine des
éléments lexicaux et textuels pour dépasser
la surface des textes et commencer à pénétrer
le contenu.
CONCLUSION
Nous avons tenté de montrer en quoi l'analyse du
contenu peut, au même titre que la description bibliographique
et l'édition, bénéficier de la catégorisation.
De données indifférenciées, donc exploitables
dans des limites très étroites, on peut passer à
des données interprétables de multiples façons
en fonction d'objectifs variés. En effet, étant
donné que les opérations cognitives de compréhension
des textes impliquent une appréhension des multiples niveaux
selon lesquels ils sont structurés, la description du plus
grand nombre d'entre eux est souhaitable pour faciliter
des analyses selon différents points de vue. Le repérage,
l'indexation et le contrôle du vocabulaire ne constituent
d'ailleurs que quelques applications possibles d'une
analyse de contenu fondée sur les propriétés
des éléments lexicaux et textuels. Comme les lectures
possibles d'un textes ou d'un ensemble sont infinies,
un très grand nombre de propriétés sont susceptibles
d'être utilisées pour faciliter ces explorations.
La tâche de catégoriser "à la main"
serait incommensurable; c'est pourquoi il est nécessaire
de disposer d'un logiciel qui supporte plusieurs types
de propriétés, qui permette à l'utilisateur
de définir ses propres propiétés et surtout
qui les mette au jour par des analyseurs automatiques ou des mécanismes
d'assistance avec une syntaxe d'extraction et les
fonctionnalités de mise en forme suffisamment riches et
souples. en effet, si tous les niveaux participent à la
signification, depuis les marques éditiques jusqu'aux
propriétés discursives et interdiscursives en passant
par les niveaux linguistiques et sémantiques, certains
niveaux de description sont inaccessibles au traitement automatique
et l'intervention humaine est nécessaire.
BIBLIOGRAPHIE DES SOURCES CITÉES Attar, P.; Leenhardt, 1990. Documents électroniques: plus jamais ça! Sciences et Technologie ; 31; novembre 1990: 50-55. Beghtol, C., 1986. Bibliographic classification theory and text linguistics: aboutness analysis, intertextuality and the cognitive act of classifying documents. Journal of Documentation ; 42(2); June 1986: 84-113. Bertrand-Gastaldy, S. , 1993. Analyse documentaire et intertextualité. Les Sciences du texte juridique: Le droit saisi par l'ordinateur . Sous la direction de Claude Thomasset, René Côté et Danièle Bourcier. Textes présentés à un séminaire tenu à Val-Morin, Québec, du 5 au 7 oct. 1992 sous l'égide du Laboratoire Informatique, droit et linguistique du CNRS et du Groupe de recherche Informatique et droit de l'Université du Québec à Montréal. Cowansville: Les Éditions Yvon Blais; 1993: 139-173. Bertrand-Gastaldy, S.; Daoust, F.; Meunier, J.-G.; Pagola, G.; Paquin, L.-C., 1993. Prototype de système expert pour l'aide à l'analyse (tri, classification, indexation) des documents de jurisprudence. ICO93; Actes du Colloque international en informatique cognitive des organisations/ International Conference on Cognitive and Computer Sciences for Organizations., 4-7 mai 1993, Montréal:: 503-507. Bertrand-Gastaldy, S.; Giroux, L.; Lanteigne, D.; David, C., 1994. Les produits et processus cognitifs de l'indexation humaine. À paraître dans ICO Québec; avril 1994. Chan, L.M., 1994 Cataloging and Classification; An Introduction. New York: McGraw Hill; 1994. 519 p. Daoust, F.,1992. L'informaticien, le lecteur et le texte; l'approche SATO. ICO: Intelligence artificielle et sciences cognitives au Québec ; 2(3); septembre 1990: 55-60. Daoust, F., 1992. SATO; Système d'analyse de texte par ordinateur. Manuel de références. [Montréal]: Université du Québec à Montréal, Centre d'analyse de textes par ordinateur; 1992. David, C., 1990 Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire. Montréal: Université de Montréal, Département de communication; 1990. (Mémoire de maîtrise) Endres-Niggemeyer, B., 1990. A procedural model of abstracting, and some ideas for its implementation. TKE'90; Terminology and Knowledge Engineering. Frankfurt: Indeks Verlag; 1990: 230-243. Farrow, J.F., 1991 A cognitive process model of document indexing. Journal of Documentation ; 47(2); June 1991: 149-166. Grunberger, M.W., 1985 Textual Analysis and the Assignment of Index Entries for Social Science and Humanities Monographs. New Brunswick, NJ: Rutgers University; 1985. viii,136 p. (thèse de doctorat) Jeng, L.-H., 1986. An expert system for determining title proper in descriptive cataloging: a conceptual model. Cataloging & Classification Quarterly ; 7(2); Winter 1986: 55-70. Jones, K.P., 1983. How do we index?. a report of some Aslib Information Group activity. Journal of Documentation ; 39; 1983: 1-23. Kircz, J.G. Rhetorical structure of scientific articles; the case for argumentational analysis in information retrieval. Journal of Documentation; 47(4); december 1991: 354-372. Liston, D. Jr; Howder, M.L., 1977. Subject analysis. Annual Review of Information Science and technology (ARIST) ; 1977; vol. 12: 107-126. MacLeod, I. A., 1990. Storage and retrieval of structured documents. Information Processing & Management ; 26(2); 1990: 197-208. McKenzie, D.F. La bibliographie et la sociologie des textes. Paris: Éditions du Cercle de la Librairie; 1991. 119 p. Meunier, J.-G.; Bertrand-Gastaldy, S.; Paquin, L.-C., 1993. L'analyse des documents par opposition à leur gestion, 1993. Actes du colloque ARMA Le pont vers l'avenir\ The bridge to the future, Neuvième congrès canadien sur la gestion des documents, Montréal, 16-19 mai 1993. Ouellet, M., 1992. L'analyse de références bibliographiques assistée par ordinateur. Documentation et bibliothèques; 38(2); avril-juin 1992: 103-109. Paquin, L.-C., 1992 La lecture experte. Technologie, idéologie et pratique; 10(2-4); 1992: 209-222. Numéro spécial consacré au colloque "Intelligence artificielle et sciences sociales". Paquin, L.-C. et Daoust, F.,1993. ACTE Atelier cognitif et textuel, version 1.0, manuel de référence, Centre ATO•CI, Université du Québec à Montréal. Role, F. La norme SGML pour décrire la structure logique des documents. Documentaliste ; 28(4-5); 1991: 187-192. Van Dijk, T.A., 1977. Perspective paper: complex semantic information processing. In: Walker, D.E.; Karlgren, H.; Kay, M., eds. Natural Language in Information Science; Perspectives and Directions for Research . Stockholm: Skriptor, 1977: 127-163. Walker, D. E.; Hockey, S., 1991 The text encoding initiative. L'informatique documentaire; Bulletin du Centre des Hautes Études internationales d'Informatique Documentaire; 44; 4e trimestre 1991: 77-81. Weinberg, B.H., 1981. Word Frequency and Automatic Indexing. Columbia University; 1981. PhD Thesis. Wilson, T.D., 1984. The cognitive approach to information-seeking behaviour and information use. Social Science Information Studies; 4; 1984: 197-204.
Wright, H., 1992. SGML frees information: escape a world where
there is too much data and go to a place where you can access
the information hidden within it. Byte; June 1992: 279-286.
|