ASTED.Oct93

LE TRAITEMENT DE L'INFORMATION: DE LA DESCRIPTION À L'ANALYSE AUTOMATISÉE, DE L'ANALYSE AUTOMATISÉE À ...

Par

Suzanne Bertrand-Gastaldy

INTRODUCTION

La disponibilité d'un nombre croissant de textes intégraux sur support informatique pose le problème de leur exploitation en vue de traitements automatisés qui étaient jusqu'à tout récemment -- et sont encore pour une grande part -- effectués par des spécialistes. En effet, les coûts et les délais impliqués, ainsi que le manque de cohérence qui caractérise l'indexation sujet, incitent à chercher des solutions plus expéditives, avec si possible, une qualité acceptable. Des activités cognitives de haut niveau comme le catalogage descriptif et l'indexation du contenu effectuées sur le texte, objet beaucoup plus complexe que les logiciels documentaires les plus répandus ne le considèrent, sont-elles entièrement ou partiellement automatisables?

Notre présentation a pour objectif de montrer que les opérations intellectuelles effectuées sur les textes s'appuient sur une catégorisation à plusieurs niveaux. En effet, du catalogage descriptif à l'analyse de contenu en passant par l'indexation, les processus cognitifs à l'oeuvre supposent d'abord une identification de données spécifiques, ensuite leur description - résultat d'une activité de catégorisation, et enfin divers traitements aboutissant à leur extraction et à leur mise en forme. Même si c'est la mise en forme des produits issus de l'analyse qui a d'abord et presque exclusivement été automatisé, en réalité chacune de ces opérations peut bénéficier du support de l'ordinateur à des degrés divers. C'est ce qu'illustrera Gracia Pagola avec le logiciel SATO (système d'analyse de textes par ordinateur) sur des textes de jurisprudence. Quant à l'interprétation finale, elle demeure le privilège de l'être humain.

1. STRUCTURATION LOGIQUE ET CATALOGAGE DESCRIPTIF

1.1 Qu'est-ce que le catalogage descriptif?

Pour distinguer la description bibliographique de l'indexation sujet qui avaient été rassemblés dans le même état de la question sous le titre dans les volumes 5 à 9 d'ARIST , Liston et Howder (1977: 107) retenaient ces éléments:

Document description treats the process of characterizing by bibliographic indexing (often called descriptive cataloging) the attributes of the document itself - when it was published, who wrote it, how big it is, etc.
Document representation treats the process of characterizing the nature of the conceptual content of the text of the document.

L'activité d'analyse porte donc sur des objets différents: les attributs du support (le document) pour la première, le contenu conceptuel du texte, du discours inscrit sur le support, pour l'autre. Tout le monde convient que la complexité de l'opération est bien plus grande dans le second cas. Mais qu'en est-il des ressemblances?

Dans le cas de l'analyse descriptive, le catalogueur identifie et organise les éléments décrétés pertinents en vertu d'une série de règles inscrites dans un code de catalogage. Afin de faciliter la manipulation informatique des attributs descriptifs, chacun d'eux est affecté d'une étiquette (en anglais ) qui s'insère dans un format normalisé, par exemple le format MARC. Cette normalisation permet non seulement l'échange et la compatibilité des données bibliographiques mais aussi un repérage différencié.

Comme le rappelle Chan (1994: 33-47), on a commencé à concevoir des codes de catalogage dès le milieu du dix-neuvième siècle, d'abord à l'intérieur d'un même établissement (Panizzi au British Museum) ensuite grâce à la collaboration de plusieurs organismes, mais ce n'est que dans les années 1960 que la Bibliothèque du Congrès s'attela à la tâche de normaliser la structure et l'étiquetage des différents types de données bibliographiques en vue de leur communication sur support ordinolingue vers des bibliothèques utilisatrices. La structure du format MARC fut adoptée comme norme nationale (ANSI Standard Z39.2) en 1971 et comme norme internationale (ISO Standard Z2709) en 1973. Ce format comprend trois éléments:

- la structure de l'enregistrement ();

- l'indicateur de contenu ();

- les données du contenu ().

1.2 Norme SGML et description bibliographique

La disponibilité des textes intégraux sur support ordinolingue a soulevé le même souci d'échange et de compatibilité que les enregistrements bibliographiques.

Pour éviter la perte de certaines informations (comme les données typographiques, la mise en page à la suite des échanges électroniques), perte provoquée par l'incompatibilité des logiciels de traitement de textes et par l'incompatibilité du matériel (incompatibilité des ordinateurs entre eux, incompatibilité entre ordinateurs et imprimantes), on a pensé normaliser les étiquettes d'identification des éléments logiques des textes une fois ceux-ci identifiés et ce fut la naissance de la norme SGML (Standard Generalized Markup Language) ainsi que de la norme ODA (Office Document Architecture ou Open Document Architecture) pour les documents composites (Attar et Leenhardt, 1990).

a) Codage ou description

Décrire un texte selon la norme SGML (norme d'abord conçue par et pour les éditeurs et devenue norme ISO en 1986), c'est procéder au marquage des éléments du texte grâce à une série d'étiquettes, de balises (). Une seule propriété permet de caractériser ces divers éléments: la propriétéÉlément . Mais celle-ci peut prendre plusieurs valeurs: chapitre, paragraphe, note, référence bibliographique, mot à insérer dans l'index, etc. La syntaxe comporte, en outre:

- des opérateurs de connexion pour combiner les éléments de manière variée et des opérateurs d'occurrence (pour préciser si l'élément doit se trouver une fois seulement ou une fois au moins, comme un chapitre, ou si l'élément est faculttif, comme la préface dans un livre).

- un schéma ou DTD (Document Type Description ) qui fournit:

. la liste des éléments qu'il est possible ou obligatoire de retrouver dans un type de document (pour une lettre, ce peut être l'adresse du destinataire, la date de rédaction, l'objet, la formule d'interpellation, le message lui-même, la formule de politesse, le nom et le titre de l'auteur, sa signature, et, le cas échéant, la mention de copie conforme et le post-scriptum;

. la manière dont ils peuvent se combiner entre eux (une note ne peut pas être insérée à l'intérieur d'une autre note).

Nous reproduisons ci-dessous un exemple de DTD donné par Role (1991: 190):

<! DOCTYPE note [

<! ELEMENT note (date, auteur, destinataire, contenu)

<! ELEMENT date (*PCDATA)>

<! ELEMENT auteur (*PCDATA)>

<! ELEMENT destinataire (*PCDATA)>

<! ELEMENT contenu (objet, information)>

<! ELEMENT information (*PCDATA)>

<! ELEMENT objet (*PCDATA)> ]>

Une note balisée se présenterait ainsi:

<note> <date> lundi, 7 février </date> <auteur>Marc </auteur> <destinataire> Pierre </destinataire> <contenu> <objet> Voyage à Anvers </objet> <information> Le voyage est reporté au 10 mars </information> </contenu> </note>

En pratique, l'interaction entre la DTD, définition de la structure logique du document, et le document lui-même peut être décrite schématiquement comme suit: la cohérence de l'information contenue dans la DTD est vérifiée par un (un programme d'analyse syntaxique). Cette information est ensuite utilisée par le parser pour vérifier la cohérence du balisage inséré dans le document lui-même. (Role, 1991: 189)

On remarque donc la présence des mêmes types d'éléments que pour un format MARC: une structure de données, une série de codes et les données elles-mêmes.

Parmi les informations contenues dans un texte, il s'en trouve certaines qui permettent de décrire les attributs du document lui-même: auteur(s), titre, lieu, maison et date d'édition, etc. Donc, moyennant une application spécifiquement conçue pour le catalogage, on peut envisager l'extraction de la plupart des données descriptives préalablement identifiées dans le texte lui-même et c'est bel et bien l'objet d'un volet des travaux du Text Encoding Initiative (bibliographic file description ), projet international visant à formuler et à disséminer des normes pour la préparation et l'échange de textes informatisés pour le bénéfice des chercheurs en sciences humaines surtout et des industries de la langue (Walker et Hockey, 1991).

b) Applications SGML: extraction et mise en forme de l'information codée

Ceci nous amène à préciser ce qu'on entend par application. Il s'agit de programmes qui procèdent à la lecture et à l'analyse des documents SGML. Leur objectif peut être:

- L'édition : une feuille de style donne des instructions procédurales sur la façon de rendre typographiquement les différents éléments identifiés: l'auteur, les titres, les sous-titres, les citations, les références citées, les paragraphes, etc. ce qui pourrait donner ceci, dans le cas de la note ci-dessus, toujours d'après Role:

UTILISE Times gras droit

lundi, 7 février

UTILISE Geneva souligné droit

Marc

UTILISE Geneva souligné droit

Pierre

UTILISE Geneva italique gauche

Voyage à Anvers

UTILISE Geneva gauche

Le voyage est reporté au 10 mars

avec le résultat suivant à l'impression:

Lundi 7 février

Marc

Pierre

Voyage à Anvers

Le voyage est reporté au 10 mars

- Le catalogage à la source (en cours de publication): le programme extrait et met en forme les données bibliographiques à retenir: titre et mention de responsabilité, zone d'édition, zone de la collation (avec mention de la taille du fichier plutôt qu edu nombre de pages), etc.

- La fabrication d'un index: le programme est spécifiquement prévu pour organiser en ordre alphabétique les éléments que l'on a jugé bon d'identifier dans le texte et les accompagner de leurs coordonnées (pages, paragraphes, lignes, selon le cas).

- Le repérage, qui nécessite, en général, l'identification du contenu en plus de l'identification des éléments descriptifs.

En fait, une application extrait les éléments pertinents, les manipule et les met en forme, de telle sorte qu'elle réponde aux objectifs pour lesquels elle a été créée.

On remarquera que ni SGML ni aucune des applications SGML ne permettent de catégoriser automatiquement un élément comme le nom d'un auteur, le titre d'une oeuvre, etc. L'identification reste à la charge de l'humain qui, parcourant le texte, applique un certain nombre de stratégies pour reconnaître et déterminer les éléments à retenir. La norme SGML ne se préoccupe que de la normalisation des étiquettes, des balises () une fois repérés les éléments appropriés. L'être humain peut reconnaître un titre ou un sous-titre grâce à des propriétés typographiques et de mise en page comme la position dans l'ensemble du texte, et, selon le cas,le centrage, la mise en caractères gras ou en italiques, la grosseur des caractères, la longueur, la rareté des signes de ponctuation, mais aussi grâce à des caractéristiques linguistiques comme, par exemple, l'absence quasi-totale de verbes -- surtout de verbes conjugués -- et la tendance à ne pas déterminer les noms par des articles. Cependant, si, pour un locuteur de la langue dans laquelle est écrit le texte, la reconnaissance de ces caractéristiques est un jeu d'enfant, il en va tout autrement d'un programme d'ordinateur dont l'intelligence dépasse rarement la reconnaissance des caractères et des chaînes de caractères. Jeng (1986) a, en particulier montré comment un système expert pourrait, sur une page titre, isoler le titre propre du document. Il faut donc que le système soit doté des connaissances nécessaires.

2. INDEXATION ET DESCRIPTION MULTI-NIVEAUX DES ÉLÉMENTS TEXTUELS

2.1 En quoi consiste l'indexation?

L'indexation du contenu consiste à retenir des mots-clés identifiant les notions traitées dans le texte et à les organiser dans un index pour en permettre le repérage ultérieur. Même si les mots-clés peuvent être extraits de la surface du texte lui-même, les opérations cognitives qui conduisent à leur sélection impliquent l'interaction d'une multitude de connaisances et de prise de décision. Elles résultent d'une compréhension au moins superficielle du discours (ce qui nécessite connaissance de la langue, du type de textes, du sujet traité), d'une sélection des thèmes principaux contenues dans des macro-propositions au détriment des thèmes secondaires, et souvent d'une généralisation (Beghtol, 1986; Van Dijk, 1977). La sélection s'effectue non seulement en fonction de la place des propositions dans la macro-structure, mais aussi de l'intérêt potentiel qu'elles peuvent présenter pour les utilisateurs de la base de données et de leur originalité par rapport aux propositions retenues dans les textes précédemment analysés. D'autres éléments comme les contraintes de temps et d'espace entrent également en ligne de compte (Bertrand-Gastaldy, 1993). Le recours à un vocabulaire contrôlé oblige à une traduction des termes extraits, le cas échéant, du texte ou des termes assignés par l'indexeur en vocabulaire libre.

On retiendra de l'ensemble de ces opérations l'approche également catégorisante, mais combien plus complexe que la description bibliographique. Si l'on fait abstraction des facteurs liés au contexte, au lecteur-intermédiaire qu'est l'indexeur et aux utilisateurs finals et même si l'on tient compte, de façon tout-à-fait arbitraire, uniquement du texte, la tâche de superficielle d'un texte à indexer est loin d'être aisée pour un programme informatique.

2.2 Le texte: un objet sémiotique complexe

Le texte est, en effet, un objet sémiotique où s'enchevêtrent de multiples systèmes et dont l'interprétation requiert de multiples connaissances. Comme le fait remarquer McKenzie (1991: 32), le mot dérive du latin qui signifie et fait référence non plus au façonnement d'un support matériel, mais à l'élaboration d'un système conceptuel. Par glissement de sens, on est passé du tissage d'une étoffe au tissu des mots:

Le texte n'est donc pas un objet informe, une suite de chaînes de caractères, mais un objet sémiotique structuré interprété par un agent cognitif intelligent qui y investit une somme énorme de connaissances diverses. Or la plupart des méthodes d'indexation automatique, dont on s'accorde à reconnaître les insuffisances, reposent en grande partie sur des propriétés statistiques du porteur, la chaîne de caractères ou bien sur la présence ou l'absence de termes appartenant au domaine ou au thésaurus. Ce sont des analyseurs statistiques qui, dans le premier cas, calculent les propriétés de fréquence, de valeur discriminante, etc. Dans le second cas, il faut des algorithmes aptes à comparer à tout le moins les chaînes de caractères présentes dans le texte avec celles qui figurent dans le thésaurus. Mais cela ne suffit pas, il faut que les analyseurs puissent distinguer un nom d'un verbe, rattacher un nom à un syntagme nominal ou à un syntagme verbal, détecter l'insertion d'un adjectif ou d'un adverbe, résoudre la coordination, la juxtaposition, etc.: il la lance violemment et il le transperce de sa lance; avoir plein d'essence et faire le plein d'essence; ministre de l'Environnement et ministre québécois de l'Environnement; propriété artistique et littéraire et propriété littéraire; projet de remplissage et projet de dragage, creusage, remplissage, redressement ou remblayage, par exemple.

Bref, la mise en oeuvre d'une analyse morpho-syntaxique est nécessaire. Pour aller au-delà, il faudrait doter l'ordinateur de connaissances sémantiques et pragmatiques. Que dire, en effet, de la désambiguisation des mots polysémiques, de la résolution des anaphores, de la détection de concepts implicites, etc.? Pour une véritable compréhension, une foule de connaissances de sens commun, de connaissances propres au domaine, d'information sur les conditions de production et d'utilisation (croyances, motivations, buts des lecteurs) devraient être disponibles, ce qui est impossible. Aussi peut-on viser non pas une compréhension automatique, mais une aide à la compréhension qui s'appuie sur de traitements d'assez bas niveau: typographiques, norphologiques, lexicaux, syntaxiques et, dans le meilleur des cas, partiellement sémantiques pourvu que le domaine soit restreint.

3. DE L'INDEXATION HUMAINE À L'INDEXATION ASSISTÉE PAR ORDINATEUR

3.1 À la recherche des propriétés importantes

On peut admettre que l'opération d'indexation ne nécessite pas une lecture approfondie du texte et ne consiste pas en une compréhension complète.

Afin de mieux comprendre comment s'effectue l'indexation, dans le but de l'automatiser surtout, on cherche généralement à savoir ce qui caractérise un bon mot-clé. On a émis plusieurs hypothèses sur les propriétés d'un bon candidat à être sélectionné comme mot-clé, hypothèses que l'on a testées en partie. Plusieurs chercheurs ont travaillé sur les propriétés statistiques: fréquence dans le document, fréquence et répartition dans l'ensemble de la base de données, valeur discriminante. Quelques auteurs ont cherché à explorer d'autres propriétés comme la position de ces mots dans le texte. C'est ainsi que O'Connor (1965) a pu démontrer, sur un corpus en chimie, qu'un terme situé dans la première ou la dernière phrase d'un paragraphe était un bon candidat pour l'indexation humaine. Les quatre expériences menées par Aslib Informatics Group et rapportées par Jones (1983) aboutissent au même résultat; malheureusement elles souffrent de problèmes méthodologiques. Quant aux hypothèses de Grunberger (1985) sur la fréquence et la position des termes dans un corpus de monographies en sciences humaines et sociales, elles ont toutes deux été infirmées.

En fait, bien des propriétés de nature différente méritent l'attention des chercheurs. Citons à titre d'exemples:

- catégorie grammaticale

- mise en valeur typographique

- fréquence dans le texte et dans l'ensemble du corpus

- valeur discriminante

- position dans le texte (appartenance à tel ou tel élément )

- appartenance au thésaurus

- nouveauté du terme

- nouveauté du concept

- qualité de déterminant ou de déterminé

- rôle de thème ou de rhème

- position dans la structure d'argumentation

- appartenance à une catégorie sémantique: animé, inanimé, ustensile, etc.

- rôle syntaxico-sémantique: objet, patient, instrument de l'action, etc.

En fait, il s'agit sans doute d'un mélange de tout ceci et de bien d'autres choses, mélange qui peut changer selon les objectifs de l'indexation, les personnes à qui elle est destinée, etc.

Une chose est certaine, c'est que les caractéristiques (ou propriétés) d'un bon terme d'indexation font référence à des niveaux différents d'analyse du texte. Tantôt ce sont les propriétés du , des signes graphiques: mise en valeur typographique, fréquence, valeur discriminante, etc., tantôt ce sont des propriétés linguistiques, sémantiques et pragmatiques (dépendantes du contexte). Certaines de ces propriétés sont tributaires non seulement du texte analysé, mais de la position de ce texte par rapport aux autres textes (ou à d'autres textes) de la base de données, également du statut du mot dans le vocabulaire du domaine, de l'envergure et de la portée du thésaurus, de la perspective d'analyse (un bon terme d'indexation pour un service documentaire ou pour un individu ne l'est pas pour un autre). La des textes change, en effet, en fonction de l'évolution des besoins et de l'état des connaissances de l'organisation sociale:

[...] different persons, in different occupations may possess different world views and make different demands upon sources of knowledge as a consequence. For example, some occupations may require no more than 'recipe knowlege' for their effective performance; others, falling short of a need for 'expert' knowledge, may demand more in the nature of 'reasoned opinion' and, hence, a greater need for access to sources of information. (Wilson, 1984: 200)

Pour trouver en quoi consiste un bon terme d'indexation on peut soit partir d'indexations déjà effectuées par des indexeurs soit observer les indexeurs dans l'exercice de leur tâche et leur demander de verbaliser ce qui se passe dans leur tête pendant ce temps, soit combiner les deux types d'étude. C'est précisément cette double approche qui a été adoptée dans deux recherches en cours:

- Le premier projet, subventionné par le CRSH (Centre de recherches en sciences humaines du Canada), est le fruit d'une collaboration entre Luc Giroux du département de Communication de l'Université de Montréal et Suzanne Bertrand-Gastaldy; il porte sur les aspects cognitifs de l'indexation des documents dans les bases de données bibliographiques (Bertrand-Gastaldy et al., 1994).

- Le second projet, effectué par une équipe de l'EBSI (École de bibliothéconomie et des sciences de l'information) et du Centre de recherche en information et cognition ATO.CI , est subventionné par le CEFRIO (Centre francophone de recherche en informatisation des organisations), par SOQUIJ (Société québécoise d'information juridique) et par le ministère des Communications du Québec. Il a déjà abouti à la conception d'un prototype de système expert pour l'aide à l'analyse des jugements (Bertrand-Gastaldy et al., 1993).

Pour mettre au jour les propriétés dont il vient d'être question, il faut bien sûr avoir des hypothèses sur les propriétés importantes (ce que peuvent fournir la littérature sur le sujet mais aussi les observations et entrevues d'indexeurs). Il faut aussi que les porteurs aient au préalable fait l'objet d'analyses à différents niveaux, analyses au terme desquelles ils peuvent être catégorisés:

Bref, le texte doit être soumis à des analyseurs qui en décrivent les constituants sémiotiques. Il est important de noter que le texte qui est alors l'objet de l'analyse n'est plus le texte de départ mais le texte amplifié de ces multiples niveaux de description. Ces descriptions qualifiant les unités d'information d'un document textuel, obtenues manuellement ou par des analyseurs spécialisés, sont ajoutées au texte lui-même par le biais d'une catégorisation. Celle-ci consiste en l'ajout d'étiquettes qui décrivent le statut sémiotique (éditique, linguistique, logique, etc.) des constituants du texte auxquels ils sont adjoints. En ce sens, il s'agit d'un mode d'opérationnalisation formel de l'une des étapes du processus d'interprétation du texte.

Aucun système informatique n'est actuellement en mesure d'interpeler des modules qui permettent de réaliser une catégorisation automatique, complète et fiable sur tous les niveaux en jeu. Aussi, devant l'étroitesse de la couverture des analyseurs disponibles et surtout devant la complexité des descriptions à effectuer, l'opération de catégorisation est souvent effectuée partiellement ou entièrement à la main. Mais comme la qualité d'une analyse dépend de cette catégorisation, il faut malgré tout tenter d'y recourir le plus systématiquement possible. (Meunier et al., 1993: 11)

Il faut donc disposer d'un mécanisme qui permette de passer d'un texte constitué d'une suite de caractères à un objet structuré sur lequel on va pouvoir effectuer diverses opérations (Wright, 1992). L'attribution de toute une variété de propriétés doit être aussi automatique que possible, sans quoi la tâche de parcourir de grandes quantités de données textuelles et de les baliser à la manière SGML selon les différents systèmes auxquels elles participent serait surhumaine. C'est précisément ce que permet un logiciel comme SATO originellement conçu pour l'assistance à l'analyse de contenu (Daoust, 1990 et 1992). Des analyseurs statistiques calculent la fréquence de mots, leur moyenne, leur indice de répartition dans les différents sous-textes, la valeur discriminante, la contribution de chaque mot à la différenciation entre deux textes, etc. Les mots du texte peuvent être comparés à une liste préalable contenant des informations grammaticales et être reconnus comme noms, adjectifs, verbes, ou bien comme constituant d'un thésaurus (à titre de descripteurs ou de non-descripteurs) ou comme appartenant à toute catégorie sémantique déterminée. En outre, les mots peuvent être distingués par certaines propriétés typographiques, de mise en page, d'appartenance à un élément de la structuration logique du texte.

Nous présentons ci-dessous un extrait de texte dans lequel apparaissent des informations sur diverses propriétés (les caractères typographiques *typo, les subdivisions *par, les outils documentaires d'où sont tirés les mots-clés - *pc pour plan de classification et *th pour thésaurus -, la numérotation des phrases *phr et leur ordre *ord):

NOTICE 91-3.STR

*par=ident*typo=nil<ND>91-3 *par=provenance<HD>COUR D'APPEL

*par=manchette ASSURANCE*pc=oui*th=oui -- assurance de responsabilité -- recours contre le tiers responsable -- option*th=oui -- article 2603 C.C. -- interdiction de cumul -- amendement*th=oui.

*par=litige *phr=1 *ord=ad Appel d'un jugement de la \Cour supérieure ayant accueilli une requête en irrecevabilité. *phr=2 *ord=de Rejeté, avec dissidence.

*par=contexte *phr=1 *ord=pr Le 18 février 1988, l'appelante a intenté une action contre la mise en cause \Fontaine, lui réclamant 23 688$ à titre de dommages à la suite d'un incendie provoqué par sa négligence. *phr=2 *ord=aut Quelques mois plus tard, l'appelante a fait signifier une déclaration amendée qui ajoutait la compagnie d'assurances intimée à titre de défenderesse et qui concluait à la condamnation conjointe et solidaire des codéfenderesses. L'intimée a alors présenté une requête en irrecevabilité fondée sur le fait que l'appelante n'avait aucun recours contre elle puisque, en poursuivant \Fontaine, elle avait exercé l'option prévue à l'article 2603 \C..\C.. . *phr=3 *ord=aut La requête en irrecevabilité a été accueillie malgré la demande verbale d'amendement présentée par l'appelante visant à modifier la désignation des parties et à ne maintenir que l'intimée à titre de défenderesse, reléguant \Fontaine au rang de mise en cause. [...]

*par=décision *phr=1*ord=pr *typo=italique \Mme la juge \Tourigny et \M.. le juge \Proulx: *typo=nil Les dispositions du *typo=italique Code de procédure civile *typo=nil relatives à l'amendement doivent recevoir une interprétation aussi large que possible. *phr=2 *ord=aut Cependant, une interprétation, aussi large soit--elle, ne peut écarter une disposition de droit substantif incluse dans le *typo=italique \Code civil. *typo=nil *phr=3 *ord=aut Le législateur a voulu que, en intentant un recours, la partie demanderesse fasse un choix, ainsi que l'a confirmé \M.. le juge Mayrand dans l'arrêt \L'\Union québécoise, mutuelle d'assurance contre l'incendie c.. \Mutuelle des \Bois-Francs: [...]

*par=référence Compagnie d'assurances Traders générale c. Laurentienne générale, Compagnie d'assurances inc.. Juges Tourigny, Proulx et Chouinard (diss..). C.A.

En comparant les propriétés des termes présents dans les textes et retenus par les indexeurs à celles des termes présents mais non retenus, ainsi que les propriétés des termes absents mais assignés par les indexeurs aux termes du texte ayant pu donner lieu à une inférence, il est possible d'envisager un système qui extraie les mots dotés des propriétés souhaitables à la place de l'indexeur humain, ce dernier devenant plus disponible pour la vérification des cas problématiques et la mise au point d'outils plus performants.

3.2 À la recherche des processus cognitifs des indexeurs

D'ailleurs, aussi compliquée soit-elle, l'identification des propriétés des bons termes d'indexation ne suffit pas pour aboutir au même résultat que l'indexeur. Il faudrait pouvoir comprendre au terme de quels processus cognitifs, il aboutit à une telle décision. Cela revient à se demander comment un indexeur détermine ce qu'il retient ou ne retient pas pour l'indexation (). La question posée par Coates en 1979 n'a pas encore reçu de réponse, comme le faisait remarquer Grunberger (1985), au terme de sa thèse de doctorat.

C'est pourquoi quelques recherches sont entreprises qui ne se contentent pas seulement d'examiner les produits de l'indexation mais également les processus cognitifs à l'oeuvre au cours de la tâche d'indexation. C'est, entre autres, ce à quoi s'est attelé, après Beghtol (1986), Endres-Niggemeyer (1990) et Farrow (1991). En rapprochant la prise de connaissance d'un document pour fins d'analyse documentaire de la lecture rapide, Farrow a suggéré des pistes intéressantes de recherche, avec de nouvelles hypothèses. D'après lui, les lecteurs rapides avec but comme les indexeurs opèrent en même temps au niveau perceptif et au niveau conceptuel, parcourent le texte de façon sélective et recherchent des indices bien précis: certains sont purement typographiques (mots en italiques, titres, sous-titres, début ou fin de paragraphe), beaucoup sont lexicaux (des mots fréquents, par exemple, dont certains déclenchent l'activation des autres mots du réseau) ou documentaires (recherche des termes du thésaurus), d'autres sont structuraux: mots ou expressions marquant l'introduction ou la conclusion, "In this paper we ...", "results suggest":

Indexers operate at a number of levels, one of which is a 'structural or textual framework level', where it is claimed that authors jot down, or at least carry in their heads, 'skeletal structures' of what they are writing, and the indexer's task is to 'disinter this skeleton' by searching for surface clues. (Farrow, 1991: 155)

Des rares études qui ont été menées sur l'indexation, il ressort qu'il s'agit d'un processus cognitif complexe encore passablement méconnu, mais de très haut niveau. La lecture qui la précède - ou l'accompagne - est rapide, orientée vers un but, contrainte par des impératifs de productivité, dépendante des intérêts particuliers de la clientèle. C'est une activité catégorisante requérant une multitude de connaissances: typographiques, morphologiques, lexicales, syntaxiques, sémantiques (au niveau du lexique, de la phrase et du texte), documentaires, pragmatiques, etc. Le groupe ACID sur les aspects cognitifs de l'indexation des documents ajoute une autre dimension à l'étude des processus cognitifs en jeu: il fait l'hypothèse que les variations individuelles dans les produits de l'indexation peuvent s'expliquer par de variations dans les stratégies et les connaissances mises en oeuvre et, pour cela, il emprunte à la psychologie cognitive le cadre de la résolution de problème (David (1990).

Donc, pour qu'un système d'indexation soit vraiment opérationnel, il faudrait qu'il dispose, en plus de toutes les informations pertinentes, d'un mécanisme qui simule les opérations humaines, une fois celles-ci connues, sur les unités d'information et sur leurs propriétés. L'objectif à moyen terme que nous poursuivons dans le cadre du projet mené pour SOQUIJ est, plus modestement, de concevoir un système expert pour assister une (Paquin, 1992) qui, ici est appliquée à une tâche particulière, l'indexation (de mêm qu'à la classification). En aucun cas, cette lecture n'est généralisable, puisqu'elle dépend du contexte. Elle ne peut pas, non plus, être considérée comme entièrement automatisable, à cause des innombrables connaissances qu'il faudrait pouvoir représenter dans le système:

[...] depuis peu, un générateur de systèmes à base de connaissances a été intégré à SATO pour constituer un atelier cognitif et textuel (ACTE) [Paquin et Daoust, 1993]. ACTE permet à des non-informaticiens de mettre au point des analyseurs spécifiques à leurs besoins incorporant des stratégies de contrôle sensibles au contexte. De plus, la prise en compte d'informations incertaines permet de dépasser le cadre strict de la logique booléenne pour déboucher sur la modélisation de l'interpétation de descriptions plurielles, différenciées par leur plausibilité. (Meunier et al., 1993)

4. DE L'ASSISTANCE À L'INDEXATION À L'ASSISTANCE À DIVERSES LECTURES POSSIBLES D'UN TEXTE

Le recours à un système expert n'est toutefois pas indispensable. On peut très bien se contenter d'un système d'aide à la prise de connaissance du contenu qui, comme SATO, permette de visualiser les propriétés jugées importantes par un lecteur ou encore affiche seulement les passages de textes répondant aux propriétés souhaitées (par exemple, toutes les premières et dernières phrases des paragraphes), ou mette en évidence ces passages par un surlignement ou une couleur distincte (toutes les phrases qui contiennent un terme consigné dans le thésaurus). C'est le lecteur qui effectue les opérations de sélection et de mise en forme des éléments ainsi soulignés.

Comme tout texte est susceptible d'être soumis à un ensemble extrêmement diversifié de parcours interprétatifs, chaque lecteur devrait idéalement pouvoir mettre en place la série de traitements qui correspond à ses objectifs de lecture. Parmi les questions posées, on peut évidemment formuler celle-ci: Quels sont les termes à retenir pour l'indexation? Quels sont les termes candidats à faire partie d'un thésaurus? Quels sont les termes du domaine? Mais ce n'est qu'une possibilité parmi d'autres. En effet, une fois le texte catégorisé richement, on peut l'analyser sous différents angles et pas seulement sous l'angle de l'indexation ou de la structuration d'un vocabulaire de domaine. Ainsi, avec SATO, comme on peut introduire les catégories sémantiques que l'on désire, on peut faire de l'analyse de discours évoluée. Tout dépend de la puissance des analyseurs auxquels on recourt pour automatiser le processus de catégorisation. Le genre de questions susceptibles d'être posées dépend de la richesse de la description qui aura au préalable été faite, description qui, on l'a vu, peut découler des différents systèmes sémiotiques à l'oeuvre et doit bénéficier de l'assistance de l'ordinateur pour être réalisable. C'est, en tout cas, grâce à des dispositifs de ce genre que l'on peut envisager des systèmes comme MAESTRO (Management Environment for Structured Text Retrieval and Organization) permettant de formuler des questions aussi complexes que celle-ci (adaptée de MacLeod, 1990) :

Je cherche un article de revue dont le titre concerne le repérage interactif de documents administratifs, ou à tout le moins le repérage interactif. Les auteurs sont Croft et Krovetz; il a été publié en novembre ou en décembre, probablement en décembre. La première section de l'article mentionnait un système appelé OFFICER et la gestion de l'incertitude. Il y avait une illustration avec une légende d'une recherche dans la moitié supérieure d'une des premières pages. Je suis assez sûr du contenu du titre.

Ce genre de questions exploite la capacité de spécifier non seulement diverses chaînes de caractères ainsi que divers éléments textuels et non textuels, mais aussi leurs propriétés. D'ailleurs des chercheurs comme Kircz (1991?) ont proposé d'abandonner le repérage booléen qui exige que le chercheur précise son besoin au profit d'une navigation dans les textes dont la structure argumentative aurait été explicitement marquée au moment de la création:

On peut songer à l'exploitation des bases de données textuelles pour des recherches en linguistique (comme une équipe de recherche de l'UQAM le fait sous la direction de Monique Lemieux pour l'étude de la syntaxe dans les textes en moyen français, ou comme une chercheure frnaçaise l'a fait pour l'article en arménien ancien), en analyse de discours (comme l'ont fait Duchastel et Bourque sur le discours politique de Duplessis, entre autres), pour le dépouillement de réponses à des questions ouvertes, et imaginer toutes sortes d'explorations des textes comme celles-ci, parmi bien d'autres:

- Contextes d'emploi:

Par ex.: d'un mot (congé, environnemental, etc.)

d'un terme exprimant un concept du domaine (congé de maternité, impact environnemental, etc.)?

- Diagnostic de lisibilité:

Par ex.: indice de la complexité lexicale, syntaxique, etc. des textes produits par une entreprise ou des textes à donner à lire à des enfants.

- Vérifications stylistiques:

Par ex.: Les documents émis par telle ou telle division ont-ils le vocabulaire incitatif souhaité par le ministre? Si non, quelles sont les expressions de type coercitif à remplacer?

- Étude de l'évolution d'un concept:

Par ex.: L'évolution du concept de déchet, dans les dix dernières années et les propriétés qu'on lui a attribuées au fil du temps

- Construction d'une thématique conceptuelle:

Par ex.: interprétation légale de concepts aux frontières floues, tels : meurtre au premier degré , contrat de bonne foi , intention de frauder

- Repérage des arguments pour ou contre une décision:

Par ex.: dans les rapports sur l'établissement d'un site d'enfouissement de déchets dangereux.

- Identification des défendeurs d'une idée, d'un mouvement, et des arguments pour et contre:

Par ex.: Quels sont les individus qui ont pris parti pour telle ou telle proposition? quels étaient leurs arguments?

- Étude de l'évolution d'une argumentation pour ou contre une politique:

Par ex.: les positions du gouvernement relativement à l'avortement depuis 1940.

- Identification des préoccupations des auteurs:

Par ex.: les textes écrits avec un souci de prospective

Des expérimentations sur des références bibliographiques obtenues par l'interrogation de bases de données sur CD-ROM ont montré tout l'avantage qu'on pouvait tirer d'analyses de ce genre pour l'aide à la synthèse (Ouellet, 1992). Bref, peu importe l'objectif poursuivi, ce que nous avons mis en évidence c'est l'avantage d'une description fine des éléments lexicaux et textuels pour dépasser la surface des textes et commencer à pénétrer le contenu.

CONCLUSION

Nous avons tenté de montrer en quoi l'analyse du contenu peut, au même titre que la description bibliographique et l'édition, bénéficier de la catégorisation. De données indifférenciées, donc exploitables dans des limites très étroites, on peut passer à des données interprétables de multiples façons en fonction d'objectifs variés. En effet, étant donné que les opérations cognitives de compréhension des textes impliquent une appréhension des multiples niveaux selon lesquels ils sont structurés, la description du plus grand nombre d'entre eux est souhaitable pour faciliter des analyses selon différents points de vue. Le repérage, l'indexation et le contrôle du vocabulaire ne constituent d'ailleurs que quelques applications possibles d'une analyse de contenu fondée sur les propriétés des éléments lexicaux et textuels. Comme les lectures possibles d'un textes ou d'un ensemble sont infinies, un très grand nombre de propriétés sont susceptibles d'être utilisées pour faciliter ces explorations. La tâche de catégoriser "à la main" serait incommensurable; c'est pourquoi il est nécessaire de disposer d'un logiciel qui supporte plusieurs types de propriétés, qui permette à l'utilisateur de définir ses propres propiétés et surtout qui les mette au jour par des analyseurs automatiques ou des mécanismes d'assistance avec une syntaxe d'extraction et les fonctionnalités de mise en forme suffisamment riches et souples. en effet, si tous les niveaux participent à la signification, depuis les marques éditiques jusqu'aux propriétés discursives et interdiscursives en passant par les niveaux linguistiques et sémantiques, certains niveaux de description sont inaccessibles au traitement automatique et l'intervention humaine est nécessaire.

BIBLIOGRAPHIE DES SOURCES CITÉES

Attar, P.; Leenhardt, 1990. Documents électroniques: plus jamais ça! Sciences et Technologie ; 31; novembre 1990: 50-55.

Beghtol, C., 1986. Bibliographic classification theory and text linguistics: aboutness analysis, intertextuality and the cognitive act of classifying documents. Journal of Documentation ; 42(2); June 1986: 84-113.

Bertrand-Gastaldy, S. , 1993. Analyse documentaire et intertextualité. Les Sciences du texte juridique: Le droit saisi par l'ordinateur . Sous la direction de Claude Thomasset, René Côté et Danièle Bourcier. Textes présentés à un séminaire tenu à Val-Morin, Québec, du 5 au 7 oct. 1992 sous l'égide du Laboratoire Informatique, droit et linguistique du CNRS et du Groupe de recherche Informatique et droit de l'Université du Québec à Montréal. Cowansville: Les Éditions Yvon Blais; 1993: 139-173.

Bertrand-Gastaldy, S.; Daoust, F.; Meunier, J.-G.; Pagola, G.; Paquin, L.-C., 1993. Prototype de système expert pour l'aide à l'analyse (tri, classification, indexation) des documents de jurisprudence. ICO93; Actes du Colloque international en informatique cognitive des organisations/ International Conference on Cognitive and Computer Sciences for Organizations., 4-7 mai 1993, Montréal:: 503-507.

Bertrand-Gastaldy, S.; Giroux, L.; Lanteigne, D.; David, C., 1994. Les produits et processus cognitifs de l'indexation humaine. À paraître dans ICO Québec; avril 1994.

Chan, L.M., 1994 Cataloging and Classification; An Introduction. New York: McGraw Hill; 1994. 519 p.

Daoust, F.,1992. L'informaticien, le lecteur et le texte; l'approche SATO. ICO: Intelligence artificielle et sciences cognitives au Québec ; 2(3); septembre 1990: 55-60.

Daoust, F., 1992. SATO; Système d'analyse de texte par ordinateur. Manuel de références. [Montréal]: Université du Québec à Montréal, Centre d'analyse de textes par ordinateur; 1992.

David, C., 1990 Élaboration d'une méthodologie d'analyse des processus cognitifs dans l'indexation documentaire. Montréal: Université de Montréal, Département de communication; 1990. (Mémoire de maîtrise)

Endres-Niggemeyer, B., 1990. A procedural model of abstracting, and some ideas for its implementation. TKE'90; Terminology and Knowledge Engineering. Frankfurt: Indeks Verlag; 1990: 230-243.

Farrow, J.F., 1991 A cognitive process model of document indexing. Journal of Documentation ; 47(2); June 1991: 149-166.

Grunberger, M.W., 1985 Textual Analysis and the Assignment of Index Entries for Social Science and Humanities Monographs. New Brunswick, NJ: Rutgers University; 1985. viii,136 p. (thèse de doctorat)

Jeng, L.-H., 1986. An expert system for determining title proper in descriptive cataloging: a conceptual model. Cataloging & Classification Quarterly ; 7(2); Winter 1986: 55-70.

Jones, K.P., 1983. How do we index?. a report of some Aslib Information Group activity. Journal of Documentation ; 39; 1983: 1-23.

Kircz, J.G. Rhetorical structure of scientific articles; the case for argumentational analysis in information retrieval. Journal of Documentation; 47(4); december 1991: 354-372.

Liston, D. Jr; Howder, M.L., 1977. Subject analysis. Annual Review of Information Science and technology (ARIST) ; 1977; vol. 12: 107-126.

MacLeod, I. A., 1990. Storage and retrieval of structured documents. Information Processing & Management ; 26(2); 1990: 197-208.

McKenzie, D.F. La bibliographie et la sociologie des textes. Paris: Éditions du Cercle de la Librairie; 1991. 119 p.

Meunier, J.-G.; Bertrand-Gastaldy, S.; Paquin, L.-C., 1993. L'analyse des documents par opposition à leur gestion, 1993. Actes du colloque ARMA Le pont vers l'avenir\ The bridge to the future, Neuvième congrès canadien sur la gestion des documents, Montréal, 16-19 mai 1993.

Ouellet, M., 1992. L'analyse de références bibliographiques assistée par ordinateur. Documentation et bibliothèques; 38(2); avril-juin 1992: 103-109.

Paquin, L.-C., 1992 La lecture experte. Technologie, idéologie et pratique; 10(2-4); 1992: 209-222. Numéro spécial consacré au colloque "Intelligence artificielle et sciences sociales".

Paquin, L.-C. et Daoust, F.,1993. ACTE Atelier cognitif et textuel, version 1.0, manuel de référence, Centre ATO�CI, Université du Québec à Montréal.

Role, F. La norme SGML pour décrire la structure logique des documents. Documentaliste ; 28(4-5); 1991: 187-192.

Van Dijk, T.A., 1977. Perspective paper: complex semantic information processing. In: Walker, D.E.; Karlgren, H.; Kay, M., eds. Natural Language in Information Science; Perspectives and Directions for Research . Stockholm: Skriptor, 1977: 127-163.

Walker, D. E.; Hockey, S., 1991 The text encoding initiative. L'informatique documentaire; Bulletin du Centre des Hautes Études internationales d'Informatique Documentaire; 44; 4e trimestre 1991: 77-81.

Weinberg, B.H., 1981. Word Frequency and Automatic Indexing. Columbia University; 1981. PhD Thesis.

Wilson, T.D., 1984. The cognitive approach to information-seeking behaviour and information use. Social Science Information Studies; 4; 1984: 197-204.

Wright, H., 1992. SGML frees information: escape a world where there is too much data and go to a place where you can access the information hidden within it. Byte; June 1992: 279-286.