Exemple d'analyse de documents d'information

Exemple d'analyse de documents d'information

Claire Gélinas-Chébat, Clémence Préfontaine et François Daoust.

Claire Gélinas-Chébat et Clémence Préfontaine sont professeures au département de linguistique de l'UQAM. François Daoust est chercheur au Centre ATO-CI de l'UQAM.

Introduction

Le gouvernement du Québec, comme toute entreprise de services, diffuse des tonnes de documents écrits dans le but d'informer le public. Or, ces fascicules d'information ne semblent pas toujours remplir leur mission.

Nos services ont été requis (Gélinas-Chebat, et al. 1990) pour évaluer le niveau d'intelligibilité de fascicules d'information produits par l'un des nombreux ministère du Gouvernement du Québec. Ce ministère diffuse régulièrement des documents d'information auprès de ses bénéficiaires. Or lorsqu'il leur envoyait l'un de ces documents, la réaction typique des bénéficiaires étaient de téléphoner aux bureaux régionaux pour obtenir plus d'information. Ce ministère se retrouvait donc devant un double problème de productivité et d'efficacité: les documents envoyés ne remplissaient pas leur fonction d'information et les préposés du ministère, au lendemain d'un envoi, ne pouvaient effectuer d'autres tâches que celles de donner une information qui était en principe contenu dans le fascicule.

Nous décrirons le contexte dans lequel nous utilisons SATO pour aider à évaluer des documents, ainsi que les résultats que nous avons obtenus suite à la reformulation de l'un de leur fascicule.

Problématique

Les différents ministères des gouvernements doivent produire des documents d'information respectant des contraintes bureaucratiques et légales. S'ils sont conformes à la loi, ils ne sont pas pour autant toujours faciles à comprendre Nous tentons de l'illustrer à partir de la reproduction du document suivant:

____________________________________________________________

ERRATUM

Calcul mécanographique des retenues à la source de l'impôt

sur le revenu, des contributions au RRQ et de la

contribution de l'employeur au RAMQ (voir TPD-107)

Nous désirons vous informer que la formule mathématique pour le calcul des retenues à la source de l'impôt du Québec sur le revenu comporte une variable erronée à la ligne T¹ du paragraphe d) de la page 22 qui devrait plutôt se lire comme suit:

T¹=TI - K¹- 0,2E

De plus, la formule mathématique mentionnée au paragraphe f) de la page 23 devrait également être modifiée de la façon suivante:

A=[T(I + B) - K¹ - 0,2E]S² - M + L

Enfin, il y aurait lieu de corriger la variable I de la même page comme suit:

I=Revenu imposable annuel estimatif

=S¹(G-C-U-F-H¹-N)-Q-J ou S¹(G-C-U-F-N)-H²-Q-J

Nous nous excusons de ce contretemps et nous vous remercions de votre collaboration.

______________________________________________________________

Pour procéder à l'analyse de textes écrits, nous utilisons le modèle proposé par Préfontaine et Lecavalier (1990). Ce modèle tient compte de trois niveaux différents d'analyses de façon à tenir compte non seulement des aspects lexicaux d'un texte mais également de son aspect formel, son organisation, et de sa représentation sémantique, sa cohérence explicite et implicite.

Nous ne décrirons ici que les résultats des analyses optenues à partir du logiciel SATO. En effet, au moment de cette recherche, SATO a été un outil précieux surtout pour l'analyse microstructurelle des documents d'information.

Méthodologie

1. Matériel

Nous avons choisi 12 fascicules produits par le ministère qui nous consultait. Cette série de fascicules d'information est intitulée ¨Saviez-vous que...¨. Neuf de ces fascicules se présentent sur une seule page recto-verso dont les dimensions sont de 3.5 po. par 8.5 po. environ. La ligne de lecture est de 3 po. environ.

Le document intitulé "Apte" est un fascicule de 39 pages, recto-verso dont les dimensions sont de 7.5 po. par 3.5 po. environ. La ligne de lecture varie: elle est de 3.5 po. environ pour la première page de lecture, qui est la page "Avis", elle est de 5.5 po.environ pour les pages de la table des matières et de l'index, et de 1.5 po. environ sur trois colonnes pour les pages de texte.

Le fascicule "Apport" est un document de 13 pages recto-verso dont les dimensions sont de 4 po. par 8.25 environ. La ligne de lecture est de 3.5 po environ pour l'ensemble du texte.

2. Procédures

Nous avons soumis tous les textes des formulaires au logiciel SATO.

Pour chacun des textes, nous avons obtenus le lexique complet, c'est-à-dire la liste complète des mots utilisés par ordre alphabétique, avec leur fréquence d'utilisation et un indice de familiarité des mots.

SATO nous a également fourni différentes listes des mots utilisés, en fonction des critères suivants: lexique des mots apparaissant plus d'une fois, lexique des déterminants (sauf les articles), lexique des pronoms non-personnels (sauf les articles), lexique des pronoms personnels (sauf les articles), lexique des mots-liens (sauf les articles).

À la requête "lisibilité" nous avons obtenu de SATO le décompte précis du nombre de mots à 1, 2, ..., n, caractères et le pourcentage correspondant, des mots de chacun des textes. De plus, il y a également le nombre total de mots pour chaque texte et la longueur moyenne des mots en fonction du nombre de caractères.

SATO nous a donné aussi le nombre de phrases en moyenne et la longueur moyenne de ces phrases en terme de nombre de mots, le nombre de paragraphe et leur longueur moyenne en terme de mots. Enfin pour chaque texte, le pourcentage de mots de 9 lettres et plus, et l'indice de lisibilité de Gunning.

Nous avons également obtenu différentes analyses des mots (c'est-à-dire les lexèmes et leur ventilation, en valeur absolue et relative) et des phrases. Ces analyses sont les suivantes: le rattachement des lexèmes aux catégories grammaticales, la répartition des lexèmes par rapport aux listes de mots connus, la liste des mots identifiés comme inconnus, la liste des mots longs, les phrases contenant plus de 15 mots, les phrases commençant par une préposition, une conjonction ou un adverbe, les phrases débutant par un pronom à la 3e personne, la liste des phrases contenant quatre propositions ou plus, la liste des phrases contenant un patron particulier (pronom, pronom, verbe; pronom non-personnel, verbe; pronom-écran, pronom, verbe), la liste des phrases contenant au moins une proposition subordonnée relative, les phrases contenant au moins deux mots inconnus, et enfin les phrases conprenant une séquence de 3 pronoms.

Résultats

Nous présentons ici, sous forme de tableau (tableau 1 suivant), les résultats de la requête "lisibilité", pour chacun des 12 fascicules étudiés.

Tableau 1 : Indices de lisibilité des fascicules d'information

Doc. Long. moy. Long. moy. % de mots Indice de

# des mots des phrases de plus Gunning

(N de car) (N de mots) de 9 lettres

F-188 4.7 15.2 10 % 10.0

F-189 4.7 16 10 % 10.5

F-190 5.1 15.5 18 % 13.5

F-191 4.9 16.6 14 % 12.2

F-192 4.9 12.8 12 % 9.8

F-193 4.8 14.1 12 % 10.4

F-352 5.1 11.5 14 % 10.3

F-353 5.4 13.9 19 % 13.2

F-354 4.9 18 11 % 11.7

Apte 4.8 18.4 14 % 12.8

S. Fin. 4.8 17.3 13 % 12.1

S. Rev. 5.1 13.5 15 % 11.6

Min 4.7 11.5 10 % 9.8

Max 5.4 18.4 19 % 13.5

Les résultats des analyses de SATO nous ont permis de donner des indices précis du niveau de difficulté des fascicules d'information. De plus, nous pouvions pointer plus précisément les responsables sémantiques ou syntaxiques de ces difficultés.

Analyse des résultats

1. Exemple d'analyse de premier niveau

Pour un document particulier (le texte F-189), voici le genre d'indications fournies pour des analyses de premier niveau:

a. L'indice de lisibilité

SATO a calculé l'indice de lisibilité du document F-189, qui est de 10,5 (le pourcentage de mots de 9 lettres et plus est de 10%). Il s'agit donc d'un texte de difficulté moyenne selon cette mesure (Bourbeau, 1988, p. 26).

b. Les paragraphes

Pour les besoins de l'analyse faite par SATO, ce texte a été considéré comme un seul paragraphe, ce qui nous paraît discutable. Toutefois, comme cette mesure ne contribue pas au calcul de la lisibilité, il ne semble pas pertinent de considérer le nombre de paragraphes dans le texte.

c. Les phrases

La longueur moyenne des phrases est de 16,0 mots. Ce sont des phrases relativement longues, selon Bourbeau (1988) qui considère que “pour le lecteur moyen, le nombre de mots à ne pas dépasser est de 15” (p. 41). Elle ajoute que “le critère de la longueur des phrases est relié aux limites de la mémoire à court terme” (p. 41). Il faut compléter ces remarques en précisant que le nombre de propositions joue un rôle dans la compréhension des phrases: “Il n'en reste pas moins, qu'en moyenne, un texte comprenant de nombreuses subordonnées et dont les phrases seront longues, est vraisemblablement plus difficile à comprendre qu'un texte syntaxiquement plus dépouillé” (Henry, 1975, p. 67). Toutefois, une description complémentaire des phrases contenues dans le document F-189 s'impose pour que nous puissions saisir mieux l'impact de la longueur des phrases dans ce document.

d. Les mots

La longueur moyenne des mots est de 4,7 caractères, ce qui nous apparaît acceptable et porteur d'aucune difficulté particulière.

e. La fréquence de mots en fonction du nombre de caractères

Nous remarquons d'abord que 25 mots ont entre 10 et 17 caractères, dont 3 mots de 14 caractères; par une description subséquente, nous devrions mettre en évidence la difficulté sémantique de ces mots. Nous remarquons également qu'il y a 100 mots de 6 à 9 caractères sur un total de 321, ce qui signifie qu'environ le tiers des mots sont de difficulté moyenne.

f. Le lexique

Ce lexique est constitué de la liste par ordre alphabétique de tous les mots contenus dans le texte en respectant les formes morphologiques. Il faut savoir que d' est considéré comme un mot, de même que les éléments de ponctuation, les nombres, les suites de nombres (numéro de téléphone) ainsi que tous les symboles.

Le mot assurance-chômage compte 17 caractères, les mots renseignements (qui apparaît 2 fois) et 1-800-361-4740 (qui apparaît 1 fois) comptent 14 caractères. Il s'agit là de termes familiers, qui ne présentent pas de difficulté de compréhension.

Les mots de 11 à 14 caractères devront faire l'objet d'une description plus approfondie, afin d'évaluer leur niveau réel de difficulté. Pour une telle analyse, il peut être interressant de voir si un tel mot fait partie ou non d'un lexique courant. Pour des linguistes il existe de nombreuses listes de mots avec généralement leur fréquence d'usage. Mais ces listes de vocabulaire comprennent nécessairement des listes finies de mots et la constitution des listes représente des aires sémantiques liées aux méthodes expérimentales utilisées pour les constituer. D'un point de vue linguistique, il est important de définir ces variables afin de saisir la portée réelle de ces listes. En éducation, Fortier (1979) fournit une liste intéressante à consulter. L'application SATO-CALIBRAGE a, quant à elle, sa propre banque de données lexicales ou encore sa liste de mots connues.

Pour le cas qui nous intéresse, par exemple, le mot subsistance qui compte 11 caractères n'est pas présent dans le Vocabulaire fondamental de Gougenheim (In Henri, 1975) ni dans le Vocabulaire fondamental du québécois parlé de Beauchemin et Martel (In Bourbeau, 1988) ; la fréquence d'usage de ce mot est très limitée et devrait constituer une difficulté supplémentaire de compréhension. Toutefois, le mot programmes qui compte 10 caractères apparaît au singulier dans les deux listes.

D'autres observations peuvent être faites, notamment par la description des marqueurs de négation, des marqueurs de relation entre les propositions, des mots d'interrogation (pronoms, adverbes). Bref, il serait utile de faire sortir le lexique en fonction des catégories grammaticales, ce que SATO peut réaliser assez facilement.

L'intérêt d'une telle démarche est de mettre en évidence la complexité relative à certaines catégories grammaticales; par exemple, ni n'est pas en soi un mot complexe, mais lorsqu'il apparaît deux fois dans la même phrase, il en augmente nécessairement la difficulté de compréhension "Ces frais ne s'appliquent ni au revenu de travail à votre compte ni à ceux relatifs à l'exécution d'une charge".

La même remarque peut s'appliquer au nombre de verbes lorsqu'il est comparé au nombre de phrases ; ainsi, un nombre marqué de verbes par rappport au nombre de phrases indique la complexité des phrases. Il serait également possible de mettre en évidence d'autres éléments relatifs aux catégories grammaticales (référents des pronoms).

2. Exemple d'analyse de second niveau.

Nous présentons d'abord l'analyse du lexique faite par SATO pour le fascicule "Soutien Financier ...":

158 mots de 1 car. (6 %) 708 mots de 2 car. (26 %)

338 mots de 3 car. (12 %) 289 mots de 4 car. (11 %)

198 mots de 5 car. (7 %) 220 mots de 6 car. (8 %)

227 mots de 7 car. (8 %) 207 mots de 8 car. (8 %)

135 mots de 9 car. (5 %) 85 mots de 10 car. (3 %)

63 mots de 11 car. (2 %) 27 mots de 12 car. (1 %)

20 mots de 13 car. (1 %) 3 mots de 14 car. (1 %)

6 mots de 15 car. (0 %) 0 mot de 16 car. (0 %)

3 mots de 17 car. (0 %) 0 mot de 18 car. (0 %)

3 mots de 19 car. (0 %) 0 mot de 20 car. (0 %)

1 mot de 21 à 25 car. (0 %) 0 mot de 26 à 30 car. (0 %)

0 mot de plus de 30 car. (0 %)

nombre de mots .........2714 longueur moyenne : 4.8 car.

nombre de phrases........157 longueur moyenne : 17.3 mots

nombre de paragraphes......2 longueur moyenne : 1357.0 mots

pourcentage de mots de 9 lettres et plus : 13 %

indice de Gunning : 12.1

On peut aussi utiliser SATO pour effectuer une catégorisation grammaticale hors contexte. Ainsi on découvre que 218 mots (28.46%) font partie de la catégorie "nom commun" alors que 80 (10.44%) sont des verbes conjugués. Il y a une soixantaine de catégories différentes pour rendre compte des nombreuses possibilités grammaticales des mots.

Nous avons ensuite soumis le lexique de ce document au lexique de SATO-CALIBRAGE (le lexique qui a été fait en collaboration avec le Ministère de l'Education). Nous constatons que 180 mots différents, sont considérés peu familiers par SATO-CALIBRAGE. Il est possible de faire apparaître à l'écran le texte où les mots considérés difficiles sont mis en évidence par un jeu différent de couleur. En imprimé, les mots peuvent être soulignés. Par exemple :

" - le remboursement d'impôts fonciers et le remboursement de la taxe de vente fédérale ; ..."

Enfin, selon SATO, ce fascicule présente 82 segments ou phrases de plus de 15 mots. À titre d'exemple,

" des montants supplémentaires sont accordés aux familles pour chacun de leurs enfants à charge de 18 ans et plus qui fréquente une école secondaire et pour chaque enfant qui réside avec ses parents et qui fréquente une école post-secondaire à temps plein ; "

Discussion

Les résultats des analyses faites par SATO nous ont aidés dans l'évaluation de l'intelligibilité de ces fascicules d'information. Ces documents s'avéraient généralement difficiles entre autres soit en fonction des éléments sémantiques ou encore des structures syntaxiques adoptées. Une reformulation des fascicules pour les rendre plus accessibles au public cible a donc été tentée. Cette reformulation intégre bien entendu les éléments propres aux niveaux de la microstructure, macrostructure et superstructure du modèle de Préfontaine et Lecavalier (1990).

Voici les résultats de l'analyse à la requête "lisibilité" pour les deux textes, avant la reformulation (version 1), et après la reformulation (version 2).

Longueur des mots,

des phrases et des paragraphes

(Sécurité du revenu, version 1)

22 mots de 1 car. (7 %) 71 mots de 2 car. (23 %)

42 mots de 3 car. (14 %) 48 mots de 4 car. (15 %)

19 mots de 5 car. (6 %) 19 mots de 6 car. (6 %)

21 mots de 7 car. (7 %) 21 mots de 8 car. (7 %)

13 mots de 9 car. (4 %) 11 mots de 10 car. (4 %)

3 mots de 11 car. (1 %) 4 mots de 12 car. (1 %)

3 mots de 13 car. (1 %) 7 mots de 14 car. (2 %)

1 mots de 15 car. (0 %) 0 mot de 16 car. (0 %)

3 mots de 17 car. (0 %) 0 mot de 18 car. (0 %)

0 mots de 19 car. (0 %) 0 mot de 20 car. (0 %)

0 mot de 21 à 25 car. (0 %) 0 mot de 26 à 30 car. (0 %)

0 mot de plus de 30 car. (0 %)

nombre de mots .........311 longueur moyenne : 5.1 car.

nombre de phrases........23 longueur moyenne : 13.5 mots

nombre de paragraphes......9 longueur moyenne : 34.6 mots

pourcentage de mots de 9 lettres et plus : 15 %

indice de Gunning : 11.6

Longueur des mots,

des phrases et des paragraphes

(Sécurité du revenu, version 2)

25 mots de 1 car. (9%) 59 mots de 2 car. (22%)

34 mots de 3 car. (13%) 38 mots de 4 car. (14%)

16 mots de 5 car. (6%) 14 mots de 6 car. (5%)

25 mots de 7 car. (9%) 20 mots de 8 car. (7%)

10 mots de 9 car. (4%) 9 mots de 10 car. (3%)

3 mots de 11 car. (1%) 1 mot de 12 car. (0%)

3 mots de 13 car. (1%) 5 mots de 14 car. (2%)

0 mot de 15 car. (0%) 0 mot de 16 car. (0%)

0 mot de 17 car. (0%) 1 mot de 18 car. (0%)

4 mots de 19 car. (1%) 0 mot de 20 car. (0%)

0 mot de 21 à 25 car. (0%) 0 mot de 26 à 30 car. (0%)

0 mot de plus de 30 car. (0%)

nombre de mots........ 267 longueur moyenne: 5.0 car.

nombre de phrases..... 29 longueur moyenne: 9.2 mots

nombre de paragraphes. 9 longueur moyenne: 29.7 mots

pourcentage de mots de 9 lettres et plus: 13%

indice de lisibilité de Gunning: 9.1

Conclusion

Nous avons décrit le contexte dans lequel nous avons utilisé SATO dans une tâche d'évaluation de fascicules d'information, de même que les résultats obtenus.

SATO est un outil formidable nous permettant d'obtenir des indices sûrs quant à la lisibilité de ces textes. De plus, SATO permet de faire ressortir les mots, les structures syntaxiques des textes qui contribuent à rendre ces textes difficiles.

Nous avons comparé le lexique de ces fascicules à la banque de données lexicales facilement accessible sur SATO. Cette mesure était un indicateur du niveau de difficulté des mots relativement satisfaisant en fonction de nos objectifs. Cependant, comme toutes les entreprises, ce ministère a un vocabulaire qui lui est propre et il faudrait constituer une nouvelle banque de données lexicales, propre à ce ministère. Certains mots considérés difficiles dans un certain milieu ne le sont plus dans un autre puisque très familiers. Une recherche empirique s'impose cependant parce que trop souvent le scripteur prend pour acquis que tel ou tel mot est tout à fait familier à son lecteur, ce qui n'est pas le cas. C'est donc auprès des bénéficiaires des services qu'il faudrait se référer.

Références

Bourbeau, Nicole, (1988), C'est pas lisable ! La lisibilité des textes didactiques, Guide pratique, Sherbrooke, Collège de Sherbrooke, 166p.

Gélinas-Chebat, C., Macot, M., Préfontaine, C., et Daoust, F. (1991). La lisibilité de documents d'information du Ministère de la Main d'oeuvre, de la Sécurité du revenu et de la Formation professionnelle, Avis professionnel présenté au Ministère de la Main d'oeuvre, de la Sécurité du revenu et de la Formation professionnelle, Gouvernement du Québec, 50 p.

Gunning, R. (1952). The technique of clear writing. New York: McGraw-Hill.

Henry, Georges, (1975), Comment mesurer la lisibilité, Paris, Fernand Nathan, Editions Labor, 176p.

Laroche, Léo (1990) Calibrage des textes et lisibilité, ICO Québec, Revue de liaison de la recherche en informatique cognitive des organisations, 2 (3), p.114 à 118.

Préfontaine, Cl. et Lecavalier, J. (1990). La mesure de la lisibilité et de l'intelligibilité des textes. Communication présentée à l'Association pour le développement de la mesure et de l'évaluation en éducation (ADMEE). Montréal, 25-27 octobre.