Claire Gélinas-Chébat, Clémence Préfontaine
et François Daoust.
Claire Gélinas-Chébat et Clémence Préfontaine
sont professeures au département de linguistique de l'UQAM.
François Daoust est chercheur au Centre ATO-CI de l'UQAM.
Introduction
Le gouvernement du Québec, comme toute entreprise de services,
diffuse des tonnes de documents écrits dans le but d'informer
le public. Or, ces fascicules d'information ne semblent pas toujours
remplir leur mission.
Nos services ont été requis (Gélinas-Chebat,
et al. 1990) pour évaluer le niveau d'intelligibilité
de fascicules d'information produits par l'un des nombreux ministère
du Gouvernement du Québec. Ce ministère diffuse
régulièrement des documents d'information auprès
de ses bénéficiaires. Or lorsqu'il leur envoyait
l'un de ces documents, la réaction typique des bénéficiaires
étaient de téléphoner aux bureaux régionaux
pour obtenir plus d'information. Ce ministère se retrouvait
donc devant un double problème de productivité et
d'efficacité: les documents envoyés ne remplissaient
pas leur fonction d'information et les préposés
du ministère, au lendemain d'un envoi, ne pouvaient effectuer
d'autres tâches que celles de donner une information qui
était en principe contenu dans le fascicule.
Nous décrirons le contexte dans lequel nous utilisons
SATO pour aider à évaluer des documents, ainsi que
les résultats que nous avons obtenus suite à la
reformulation de l'un de leur fascicule.
Problématique
Les différents ministères des gouvernements doivent
produire des documents d'information respectant des contraintes
bureaucratiques et légales. S'ils sont conformes à
la loi, ils ne sont pas pour autant toujours faciles à
comprendre Nous tentons de l'illustrer à partir de la
reproduction du document suivant:
____________________________________________________________
ERRATUM Calcul mécanographique des retenues à la source de l'impôt sur le revenu, des contributions au RRQ et de la
contribution de l'employeur au RAMQ (voir TPD-107)
Nous désirons vous informer que la formule mathématique pour le calcul des retenues à la source de l'impôt du Québec sur le revenu comporte une variable erronée à la ligne T1 du paragraphe d) de la page 22 qui devrait plutôt se lire comme suit:
T1=TI - K1 - 0,2E De plus, la formule mathématique mentionnée au paragraphe f) de la page 23 devrait également être modifiée de la façon suivante: A=[T(I + B) - K1 - 0,2E]S2 - M + L Enfin, il y aurait lieu de corriger la variable I de la même page comme suit: I=Revenu imposable annuel estimatif
=S1(G-C-U-F-H1-N)-Q-J ou S1(G-C-U-F-N)-H2-Q-J
Nous nous excusons de ce contretemps et nous vous remercions de votre collaboration.
______________________________________________________________
Pour procéder à l'analyse de textes écrits,
nous utilisons le modèle proposé par Préfontaine
et Lecavalier (1990). Ce modèle tient compte de trois
niveaux différents d'analyses de façon à
tenir compte non seulement des aspects lexicaux d'un texte mais
également de son aspect formel, son organisation, et de
sa représentation sémantique, sa cohérence
explicite et implicite.
Nous ne décrirons ici que les résultats des analyses
optenues à partir du logiciel SATO. En effet, au moment
de cette recherche, SATO a été un outil précieux
surtout pour l'analyse microstructurelle des documents d'information.
Méthodologie
1. Matériel
Nous avons choisi 12 fascicules produits par le ministère
qui nous consultait. Cette série de fascicules d'information
est intitulée ¨Saviez-vous que...¨. Neuf de
ces fascicules se présentent sur une seule page recto-verso
dont les dimensions sont de 3.5 po. par 8.5 po. environ. La ligne
de lecture est de 3 po. environ.
Le document intitulé "Apte" est un fascicule
de 39 pages, recto-verso dont les dimensions sont de 7.5 po. par
3.5 po. environ. La ligne de lecture varie: elle est de 3.5
po. environ pour la première page de lecture, qui est la
page "Avis", elle est de 5.5 po.environ pour les pages
de la table des matières et de l'index, et de 1.5 po. environ
sur trois colonnes pour les pages de texte.
Le fascicule "Apport" est un document de 13 pages recto-verso
dont les dimensions sont de 4 po. par 8.25 environ. La ligne
de lecture est de 3.5 po environ pour l'ensemble du texte.
2. Procédures
Nous avons soumis tous les textes des formulaires au logiciel
SATO. Pour chacun des textes, nous avons obtenus le lexique complet, c'est-à-dire la liste complète des mots utilisés par ordre alphabétique, avec leur fréquence d'utilisation et un indice de familiarité des mots.
SATO nous a également fourni différentes listes
des mots utilisés, en fonction des critères suivants:
lexique des mots apparaissant plus d'une fois, lexique des déterminants
(sauf les articles), lexique des pronoms non-personnels (sauf
les articles), lexique des pronoms personnels (sauf les articles),
lexique des mots-liens (sauf les articles).
À la requête "lisibilité" nous
avons obtenu de SATO le décompte précis du nombre
de mots à 1, 2, ..., n, caractères et le pourcentage
correspondant, des mots de chacun des textes. De plus, il y a
également le nombre total de mots pour chaque texte et
la longueur moyenne des mots en fonction du nombre de caractères.
SATO nous a donné aussi le nombre de phrases en moyenne
et la longueur moyenne de ces phrases en terme de nombre de mots,
le nombre de paragraphe et leur longueur moyenne en terme de mots.
Enfin pour chaque texte, le pourcentage de mots de 9 lettres
et plus, et l'indice de lisibilité de Gunning.
Nous avons également obtenu différentes analyses
des mots (c'est-à-dire les lexèmes et leur ventilation,
en valeur absolue et relative) et des phrases. Ces analyses sont
les suivantes: le rattachement des lexèmes aux catégories
grammaticales, la répartition des lexèmes par rapport
aux listes de mots connus, la liste des mots identifiés
comme inconnus, la liste des mots longs, les phrases contenant
plus de 15 mots, les phrases commençant par une préposition,
une conjonction ou un adverbe, les phrases débutant par
un pronom à la 3e personne, la liste des phrases contenant
quatre propositions ou plus, la liste des phrases contenant un
patron particulier (pronom, pronom, verbe; pronom non-personnel,
verbe; pronom-écran, pronom, verbe), la liste des phrases
contenant au moins une proposition subordonnée relative,
les phrases contenant au moins deux mots inconnus, et enfin les
phrases conprenant une séquence de 3 pronoms.
Résultats Nous présentons ici, sous forme de tableau (tableau 1 suivant), les résultats de la requête "lisibilité", pour chacun des 12 fascicules étudiés.
Tableau 1 : Indices de lisibilité des fascicules
d'information
Doc. Long. moy. Long. moy. % de mots Indice de # des mots des phrases de plus Gunning (N de car) (N de mots) de 9 lettres
F-188 4.7 15.2 10 % 10.0 F-189 4.7 16 10 % 10.5 F-190 5.1 15.5 18 % 13.5 F-191 4.9 16.6 14 % 12.2 F-192 4.9 12.8 12 % 9.8 F-193 4.8 14.1 12 % 10.4 F-352 5.1 11.5 14 % 10.3 F-353 5.4 13.9 19 % 13.2 F-354 4.9 18 11 % 11.7 Apte 4.8 18.4 14 % 12.8 S. Fin. 4.8 17.3 13 % 12.1 S. Rev. 5.1 13.5 15 % 11.6 Min 4.7 11.5 10 % 9.8
Max 5.4 18.4 19 %
13.5
Les résultats des analyses de SATO nous ont permis de
donner des indices précis du niveau de difficulté
des fascicules d'information. De plus, nous pouvions pointer
plus précisément les responsables sémantiques
ou syntaxiques de ces difficultés.
Analyse des résultats
1. Exemple d'analyse de premier niveau Pour un document particulier (le texte F-189), voici le genre d'indications fournies pour des analyses de premier niveau:
a. L'indice de lisibilité
SATO a calculé l'indice de lisibilité du document
F-189, qui est de 10,5 (le pourcentage de mots de 9 lettres et
plus est de 10%). Il s'agit donc d'un texte de difficulté
moyenne selon cette mesure (Bourbeau, 1988, p. 26). b. Les paragraphes
Pour les besoins de l'analyse faite par SATO, ce texte a été
considéré comme un seul paragraphe, ce qui nous
paraît discutable. Toutefois, comme cette mesure ne contribue
pas au calcul de la lisibilité, il ne semble pas pertinent
de considérer le nombre de paragraphes dans le texte. c. Les phrases
La longueur moyenne des phrases est de 16,0 mots. Ce sont des
phrases relativement longues, selon Bourbeau (1988) qui considère
que pour le lecteur moyen, le nombre de mots à ne
pas dépasser est de 15 (p. 41). Elle ajoute que le
critère de la longueur des phrases est relié aux
limites de la mémoire à court terme (p. 41).
Il faut compléter ces remarques en précisant que
le nombre de propositions joue un rôle dans la compréhension
des phrases: Il n'en reste pas moins, qu'en moyenne, un
texte comprenant de nombreuses subordonnées et dont les
phrases seront longues, est vraisemblablement plus difficile à
comprendre qu'un texte syntaxiquement plus dépouillé
(Henry, 1975, p. 67). Toutefois, une description complémentaire
des phrases contenues dans le document F-189 s'impose pour que
nous puissions saisir mieux l'impact de la longueur des phrases
dans ce document. d. Les mots La longueur moyenne des mots est de 4,7 caractères, ce qui nous apparaît acceptable et porteur d'aucune difficulté particulière.
e. La fréquence de mots en fonction du nombre de caractères
Nous remarquons d'abord que 25 mots ont entre 10 et 17 caractères,
dont 3 mots de 14 caractères; par une description subséquente,
nous devrions mettre en évidence la difficulté sémantique
de ces mots. Nous remarquons également qu'il y a 100 mots
de 6 à 9 caractères sur un total de 321, ce qui
signifie qu'environ le tiers des mots sont de difficulté
moyenne. f. Le lexique
Ce lexique est constitué de la liste par ordre alphabétique
de tous les mots contenus dans le texte en respectant les formes
morphologiques. Il faut savoir que d' est considéré
comme un mot, de même que les éléments de
ponctuation, les nombres, les suites de nombres (numéro
de téléphone) ainsi que tous les symboles.
Le mot assurance-chômage compte 17 caractères,
les mots renseignements (qui apparaît 2 fois) et
1-800-361-4740 (qui apparaît 1 fois) comptent 14
caractères. Il s'agit là de termes familiers, qui
ne présentent pas de difficulté de compréhension.
Les mots de 11 à 14 caractères devront faire l'objet
d'une description plus approfondie, afin d'évaluer leur
niveau réel de difficulté. Pour une telle analyse,
il peut être interressant de voir si un tel mot fait partie
ou non d'un lexique courant. Pour des linguistes il existe de
nombreuses listes de mots avec généralement leur
fréquence d'usage. Mais ces listes de vocabulaire comprennent
nécessairement des listes finies de mots et la constitution
des listes représente des aires sémantiques liées
aux méthodes expérimentales utilisées pour
les constituer. D'un point de vue linguistique, il est important
de définir ces variables afin de saisir la portée
réelle de ces listes. En éducation, Fortier (1979)
fournit une liste intéressante à consulter. L'application
SATO-CALIBRAGE a, quant à elle, sa propre banque de données
lexicales ou encore sa liste de mots connues.
Pour le cas qui nous intéresse, par exemple, le mot subsistance
qui compte 11 caractères n'est pas présent dans
le Vocabulaire fondamental de Gougenheim (In Henri,
1975) ni dans le Vocabulaire fondamental du québécois
parlé de Beauchemin et Martel (In Bourbeau,
1988) ; la fréquence d'usage de ce mot est très
limitée et devrait constituer une difficulté supplémentaire
de compréhension. Toutefois, le mot programmes qui
compte 10 caractères apparaît au singulier dans les
deux listes.
D'autres observations peuvent être faites, notamment par
la description des marqueurs de négation, des marqueurs
de relation entre les propositions, des mots d'interrogation (pronoms,
adverbes). Bref, il serait utile de faire sortir le lexique en
fonction des catégories grammaticales, ce que SATO peut
réaliser assez facilement.
L'intérêt d'une telle démarche est de mettre
en évidence la complexité relative à certaines
catégories grammaticales; par exemple, ni n'est
pas en soi un mot complexe, mais lorsqu'il apparaît deux
fois dans la même phrase, il en augmente nécessairement
la difficulté de compréhension "Ces frais
ne s'appliquent ni au revenu de travail à votre compte
ni à ceux relatifs à l'exécution d'une charge".
La même remarque peut s'appliquer au nombre de verbes lorsqu'il
est comparé au nombre de phrases ; ainsi, un nombre marqué
de verbes par rappport au nombre de phrases indique la complexité
des phrases. Il serait également possible de mettre en
évidence d'autres éléments relatifs aux catégories
grammaticales (référents des pronoms).
2. Exemple d'analyse de second niveau. Nous présentons d'abord l'analyse du lexique faite par SATO pour le fascicule "Soutien Financier ...": 158 mots de 1 car. (6 %) 708 mots de 2 car. (26 %) 338 mots de 3 car. (12 %) 289 mots de 4 car. (11 %) 198 mots de 5 car. (7 %) 220 mots de 6 car. (8 %) 227 mots de 7 car. (8 %) 207 mots de 8 car. (8 %) 135 mots de 9 car. (5 %) 85 mots de 10 car. (3 %) 63 mots de 11 car. (2 %) 27 mots de 12 car. (1 %) 20 mots de 13 car. (1 %) 3 mots de 14 car. (1 %) 6 mots de 15 car. (0 %) 0 mot de 16 car. (0 %) 3 mots de 17 car. (0 %) 0 mot de 18 car. (0 %) 3 mots de 19 car. (0 %) 0 mot de 20 car. (0 %) 1 mot de 21 à 25 car. (0 %) 0 mot de 26 à 30 car. (0 %) 0 mot de plus de 30 car. (0 %) nombre de mots .........2714 longueur moyenne : 4.8 car. nombre de phrases........157 longueur moyenne : 17.3 mots nombre de paragraphes......2 longueur moyenne : 1357.0 mots
pourcentage de mots de 9 lettres et plus : 13 % indice de Gunning : 12.1
On peut aussi utiliser SATO pour effectuer une catégorisation
grammaticale hors contexte. Ainsi on découvre que 218 mots
(28.46%) font partie de la catégorie "nom commun"
alors que 80 (10.44%) sont des verbes conjugués. Il y
a une soixantaine de catégories différentes pour
rendre compte des nombreuses possibilités grammaticales
des mots.
Nous avons ensuite soumis le lexique de ce document au lexique
de SATO-CALIBRAGE (le lexique qui a été fait en
collaboration avec le Ministère de l'Education). Nous
constatons que 180 mots différents, sont considérés
peu familiers par SATO-CALIBRAGE. Il est possible de faire apparaître
à l'écran le texte où les mots considérés
difficiles sont mis en évidence par un jeu différent
de couleur. En imprimé, les mots peuvent être soulignés.
Par exemple :
" - le remboursement d'impôts fonciers
et le remboursement de la taxe de vente fédérale
; ..." Enfin, selon SATO, ce fascicule présente 82 segments ou phrases de plus de 15 mots. À titre d'exemple,
" des montants supplémentaires sont accordés
aux familles pour chacun de leurs enfants à charge de 18
ans et plus qui fréquente une école secondaire et
pour chaque enfant qui réside avec ses parents et qui fréquente
une école post-secondaire à temps plein ; "
Discussion
Les résultats des analyses faites par SATO nous ont aidés
dans l'évaluation de l'intelligibilité de ces fascicules
d'information. Ces documents s'avéraient généralement
difficiles entre autres soit en fonction des éléments
sémantiques ou encore des structures syntaxiques adoptées.
Une reformulation des fascicules pour les rendre plus accessibles
au public cible a donc été tentée. Cette
reformulation intégre bien entendu les éléments
propres aux niveaux de la microstructure, macrostructure et superstructure
du modèle de Préfontaine et Lecavalier (1990).
Voici les résultats de l'analyse à la requête
"lisibilité" pour les deux textes, avant la reformulation
(version 1), et après la reformulation (version 2).
22 mots de 1 car. (7 %) 71 mots de 2 car. (23 %) 42 mots de 3 car. (14 %) 48 mots de 4 car. (15 %) 19 mots de 5 car. (6 %) 19 mots de 6 car. (6 %) 21 mots de 7 car. (7 %) 21 mots de 8 car. (7 %) 13 mots de 9 car. (4 %) 11 mots de 10 car. (4 %) 3 mots de 11 car. (1 %) 4 mots de 12 car. (1 %) 3 mots de 13 car. (1 %) 7 mots de 14 car. (2 %) 1 mots de 15 car. (0 %) 0 mot de 16 car. (0 %) 3 mots de 17 car. (0 %) 0 mot de 18 car. (0 %) 0 mots de 19 car. (0 %) 0 mot de 20 car. (0 %) 0 mot de 21 à 25 car. (0 %) 0 mot de 26 à 30 car. (0 %) 0 mot de plus de 30 car. (0 %) nombre de mots .........311 longueur moyenne : 5.1 car. nombre de phrases........23 longueur moyenne : 13.5 mots
nombre de paragraphes......9 longueur moyenne :
34.6 mots
pourcentage de mots de 9 lettres et plus : 15 %
indice de Gunning : 11.6
25 mots de 1 car. (9%) 59 mots de 2 car. (22%) 34 mots de 3 car. (13%) 38 mots de 4 car. (14%) 16 mots de 5 car. (6%) 14 mots de 6 car. (5%) 25 mots de 7 car. (9%) 20 mots de 8 car. (7%) 10 mots de 9 car. (4%) 9 mots de 10 car. (3%) 3 mots de 11 car. (1%) 1 mot de 12 car. (0%) 3 mots de 13 car. (1%) 5 mots de 14 car. (2%) 0 mot de 15 car. (0%) 0 mot de 16 car. (0%) 0 mot de 17 car. (0%) 1 mot de 18 car. (0%) 4 mots de 19 car. (1%) 0 mot de 20 car. (0%) 0 mot de 21 à 25 car. (0%) 0 mot de 26 à 30 car. (0%) 0 mot de plus de 30 car. (0%)
nombre de mots........ 267 longueur moyenne: 5.0 car. nombre de phrases..... 29 longueur moyenne: 9.2 mots nombre de paragraphes. 9 longueur moyenne: 29.7 mots
pourcentage de mots de 9 lettres et plus: 13%
indice de lisibilité de Gunning: 9.1
Conclusion
Nous avons décrit le contexte dans lequel nous avons utilisé
SATO dans une tâche d'évaluation de fascicules d'information,
de même que les résultats obtenus.
SATO est un outil formidable nous permettant d'obtenir des indices
sûrs quant à la lisibilité de ces textes.
De plus, SATO permet de faire ressortir les mots, les structures
syntaxiques des textes qui contribuent à rendre ces textes
difficiles.
Nous avons comparé le lexique de ces fascicules à
la banque de données lexicales facilement accessible sur
SATO. Cette mesure était un indicateur du niveau de difficulté
des mots relativement satisfaisant en fonction de nos objectifs.
Cependant, comme toutes les entreprises, ce ministère
a un vocabulaire qui lui est propre et il faudrait constituer
une nouvelle banque de données lexicales, propre à
ce ministère. Certains mots considérés difficiles
dans un certain milieu ne le sont plus dans un autre puisque très
familiers. Une recherche empirique s'impose cependant parce que
trop souvent le scripteur prend pour acquis que tel ou tel mot
est tout à fait familier à son lecteur, ce qui n'est
pas le cas. C'est donc auprès des bénéficiaires
des services qu'il faudrait se référer.
Bourbeau, Nicole, (1988), C'est pas lisable ! La lisibilité
des textes didactiques, Guide pratique, Sherbrooke, Collège
de Sherbrooke, 166p.
Gélinas-Chebat, C., Macot, M., Préfontaine, C.,
et Daoust, F. (1991). La lisibilité de documents d'information
du Ministère de la Main d'oeuvre, de la Sécurité
du revenu et de la Formation professionnelle, Avis professionnel
présenté au Ministère de la Main d'oeuvre,
de la Sécurité du revenu et de la Formation professionnelle,
Gouvernement du Québec, 50 p.
Gunning, R. (1952). The technique of clear writing. New
York: McGraw-Hill.
Henry, Georges, (1975), Comment mesurer la lisibilité,
Paris, Fernand Nathan, Editions Labor, 176p.
Laroche, Léo (1990) Calibrage des textes et lisibilité,
ICO Québec, Revue de liaison de la recherche en informatique
cognitive des organisations, 2 (3), p.114 à 118.
Préfontaine, Cl. et Lecavalier, J. (1990). La mesure
de la lisibilité et de l'intelligibilité des textes.
Communication présentée à l'Association
pour le développement de la mesure et de l'évaluation
en éducation (ADMEE). Montréal, 25-27 octobre.
|