Retour à l'accueil Remonter

SATO-CALIBRAGE

Programme d'analyse de lisibilité

Guide de l'usager

Version 1.0

Avril 1996

François Daoust

Lise Ouellet

Léo Laroche

Université du Québec à Montréal (ATO)

Pour obtenir une copie de ce manuel ou

pour tout renseignement, veuillez contacter :

Service d'analyse de textes par ordinateur (ATO)

Université du Québec à Montréal

C.P. 8888, Succ. Centre-ville

Montréal (Québec), H3C 3P8, CANADA

Tél. : (514) 987-8256

Fax : (514) 987-4567

Adresse électronique : daoust.francois@uqam.ca

Dépôt légal - 2ième trimestre 1996

Bibliothèque nationale du Québec

Bibliothèque nationale du Canada

ISBN 2-7630-0062-2


Table des matières
1.0 Introduction 1
2.0 Problématique et méthodologie 3
3.0 Équipement requis et installation 4
4.0 Préparation des textes soumis au programme 5
5.0 Démarrage du programme 7
6.0 Options de traitement 8
6.1 Options générales 9
6.1.1 Traitement avec validation 9
6.1.2 Identification de répertoires 10
6.1.3 Extension des textes à analyser 10
6.1.4 Éditeur 10
6.1.5 Poursuite de l'interrogation 10
6.1.6 Sauvegarde des options 11
6.2 Options des rapports 11
6.3 Traitement 13
6.3.1 Préparation seulement 14
6.3.2 Préparation et rapport 15
6.3.3 Rapport seulement 15
6.3.4 Appel de SATO 16
6.4 Fonctions utilitaires 17
6.4.1 Éditeur 17
6.4.2 Sortie temporaire à DOS 18
6.5 Quitter 18
7.0 Tâches à réaliser en mode validation 18
7.1 Confirmation du lexique des noms propres 18
7.2 Confirmation des verbes conjugués ambigus 22
8.0 Analyse des résultats 23
8.1 Indices SATO-CALIBRAGE et rapport sommaire 23
8.2 Rapport qualitatif 26
9.0 Illustration d'applications pédagogiques 28
9.1 Une application didactique 28
9.2 Une application en évaluation 30
9.3 Une application en rédaction 30
9.4 En conclusion 30
Annexe A Glossaire 31
Annexe B Exemple de texte en format ASCII préparé pour SATO-CALIBRAGE 35
Annexe C Graphiques des variables de l'indice SATO-CALIBRAGE 37

1.0 Introduction

«À la fin des années quatre-vingt, quelques personnes du ministère de l'Éducation ont pris connaissance du logiciel SATO développé par le Centre d'ATO de l'Université du Québec à Montréal. Elles ont été fascinées par les possibilités du logiciel pour l'analyse des textes. L'indice Gunning étant implanté à l'intérieur de SATO, il est apparu que le logiciel pourrait faire davantage pour étudier la question de la lisibilité des textes. (...)

Le terme «calibrage» des textes, utilisé par certains groupes du milieu scolaire, s'est installé dans nos travaux sans qu'il soit remis en question, d'où l'appellation SATO- CALIBRAGE. Il s'agit d'un néologisme qui donne une acception nouvelle au mot calibrage. Calibrer un texte signifie donner un indice à ce texte pour le situer sur un continuum, établi de la première année du primaire à la cinquième année du secondaire. L'indice recherché veut dépasser les formules traditionnelles de lisibilité et prendre en compte les meilleures variables susceptibles de démarquer un texte d'une classe à l'autre.

Le public visé pour l'élaboration de l'indice de calibrage est constitué des élèves de sixième année du primaire. Cependant, les instruments mis en place tiennent compte d'une échelle graduée allant du début du primaire à la fin du secondaire.»

La lecture est au coeur des apprentissages fondamentaux de l'école. On souhaite non seulement que les élèves sachent lire et qu'ils aiment la lecture, mais qu'ils puissent développer des stratégies de lecture efficaces. L'enseignement et l'évaluation de la lecture représentent donc des défis constants pour les enseignantes et les enseignants du primaire et du secondaire. Parmi leur préoccupation, le choix de textes figure en tête de liste puisqu'il est le moteur de tout apprentissage de la lecture.

Les textes utilisés pour l'enseignement ou pour l'évaluation proviennent de multiples sources. On peut aussi décider de rédiger des textes devant servir de matériel didactique ou de matériel d'évaluation. On fait face alors à diverses questions: par exemple, veut-on un texte assez facile ou, à l'inverse, un texte qui présente les défis nécessaires pour que les élèves développent des stratégies de lecture précises? Que peut faire alors une enseignante ou un enseignant, une auteure ou un auteur? Bien sûr, l'intuition et l'expérience viendront à la rescousse, mais est-ce suffisant? Est-on assuré d'avoir le texte que l'on recherche? Spontanément, le recours aux formules de lisibilité vient à l'esprit.

SATO-CALIBRAGE veut répondre à ces besoins en offrant une assistance pour le choix et la rédaction de textes. En plus de produire des indices numériques, SATO-CALIBRAGE permet d'obtenir, pour chaque texte, de nombreux renseignements qui sont fort utiles au moment de la planification de l'enseignement, de l'évaluation de l'écriture et de la rédaction de textes.

Ce document se veut un guide d'accompagnement de l'application SATO- CALIBRAGE. Les deux premiers chapitres ont pour objectif de situer le projet SATO- CALIBRAGE.

Le chapitre 3 explique comment installer l'application SATO-CALIBRAGE.

Le chapitre 4 décrit les règles minimales à suivre pour préparer un texte à soumettre à SATO-CALIBRAGE.

Les chapitres 5 et 6 décrivent l'appel du programme et ses diverses options de fonctionnement.

Le chapitre 7 décrit les tâches que l'utilisateur devra réaliser s'il a choisi de traiter son texte en «mode validation».

Le chapitre 8 présente des résultats d'analyse. Le chapitre 9 illustre l'utilisation du logiciel dans le contexte d'applications pédagogiques.

En annexe, on trouvera d'abord un glossaire des termes employés (annexe A), le texte d'un fichier préparé pour SATO-CALIBRAGE (Annexe B) et divers graphiques permettant de mieux interpréter les indices SATO-CALIBRAGE (annexe C). 2.0

Problématique et méthodologie

SATO-CALIBRAGE a été développé par le ministère de l'Éducation et l'Université du Québec à Montréal (ATO) avec la collaboration d'un comité d'usagers formé de personnes oeuvrant dans différents milieux scolaires.

Il existe déjà un certain nombre d'indices permettant d'apprécier la lisibilité d'un texte. Cependant, la plupart de ces mesures sont issues de travaux réalisés avec des textes rédigés en langue anglaise. Il apparaissait souhaitable de disposer d'un indice adapté à des textes en français; de plus, on désirait que cette statistique soit établie en référence aux classes d'enseignement du système scolaire québécois.

Pour réaliser cette étude sur les variables textuelles influençant la lisibilité, un corpus a été constitué. Les textes qui composent ce corpus proviennent de deux sources: du matériel didactique approuvé par le ministère de l'Éducation, des instruments d'évaluation. On a pu ainsi attribuer une classe d'appartenance à chaque texte. Au moins 50 textes par classe d'enseignement ont été retenus; le corpus se trouve donc constitué de près de 700 textes différents.

Un dictionnaire des mots connus par les élèves de sixième année du primaire a été constitué en faisant valider le lexique de l'ensemble du corpus par des enseignantes et des enseignants.

Diverses variables ont été calculées par le logiciel SATO pour rendre compte de la variation possible des textes selon la classe d'enseignement, par exemple le nombre de propositions, le nombre de phrases dépassant une certaine longueur, le pourcentage d'utilisation de certains mots, etc. Pour ce faire, nous avons dû appliquer aux textes divers dispositifs linguistiques. Des traitements statistiques ont, par la suite, permis de proposer des indices rendant compte de la lisibilité des textes.

Le chapitre 8 présente la liste des variables retenues pour chacun des deux indices disponibles dans cette version de SATO-CALIBRAGE: a) un indice tenant compte de la taille du texte; b) un indice ne tenant pas compte de la taille du texte. On trouvera aussi des données statistiques qui pourront être utiles pour interpréter les résultats obtenus.

Le logiciel SATO est au centre de l'application d'analyse de la lisibilité d'un texte. SATO est un outil informatique orienté vers l'analyse des contenus de textes. En fait, on l'utilise pour constituer un corpus textuel sur lequel on peut ensuite effectuer diverses manipulations. Parmi les principales fonctions de SATO on retrouve, entre autres, l'annotation d'un texte, la définition de sous-textes, le repérage de segments, la génération de lexiques, la catégorisation de mots en contexte et hors contexte, de façon manuelle, assistée ou automatique, la mise en forme et le stockage de données lexicales, diverses analyses «lexico-statistiques», la construction et la consultation de dictionnaires, l'identification de segments de textes.

SATO-CALIBRAGE comprend donc l'ensemble du logiciel SATO, y compris le fichier d'aide en contexte qui en documente les fonctionnalités. Cette aide est accessible en utilisant la touche «F1». On peut aussi obtenir le Manuel de références du logiciel en s'adressant au Service ATO de l'UQAM. Comme SATO-CALIBRAGE est destiné à manipuler des textes courts, une limite de 2048 entrées lexicales (ou unités de vocabulaire) a été ajoutée par rapport à la version standard de SATO qui peut traiter des textes beaucoup plus volumineux. SATO-CALIBRAGE permet à l'usager d'utiliser directement le logiciel SATO pour réaliser des analyses complémentaires. 3.0

Équipement requis et installation

La version 4 du logiciel SATO est utilisée pour réaliser les différents traitements nécessaires à l'obtention des données utilisées pour mesurer la lisibilité d'un texte. Il s'agit d'un programme conçu pour le système DOS ou une fenêtre DOS sous WINDOWS. Le fichier «CALITEXT.BAT» (et le programme «CALIPGM.EXE» qui lui est associé) permet à l'usager de préciser divers paramètres de traitement et de contrôler l'exécution du programme. Il s'agit donc d'une coquille qui sert d'interface entre l'usager et le logiciel SATO.

Une procédure d'installation permet le transfert sur disque dur des différents fichiers contenus sur la disquette de distribution. Il est souhaitable de disposer d'un micro-ordinateur assez rapide si l'on veut minimiser le temps de traitement des textes soumis au programme. Le disque dur doit disposer d'un espace d'environ 5 mégaoctets. Voici les étapes à suivre pour l'installation de ce programme.

1-

Insérer la disquette SATO-CALIBRAGE #1 dans l'unité de disquette appropriée. Sélectionner cette unité comme l'unité implicite. Par exemple, si l'unité choisie est l'unité «A:», on doit entrer la commande DOS suivante:

A:

2-

Ensuite, on doit entrer la commande «INSTALLE» suivie d'un espace et de l'unité sur laquelle on doit installer SATO-CALIBRAGE («INSTALLE C:» par exemple). L'application va s'installer automatiquement sur le répertoire «CALITEXT». Si on veut installer l'application sur un autre répertoire, on peut l'indiquer comme deuxième paramètre de la procédure d'installation («INSTALLE C: \CALIB» par exemple). La commande «INSTALLE» doit être suivie de la touche «Entrée». L'installation débute alors: copie des fichiers de la disquette et décompression des fichiers compressés. À un moment donné, la procédure demandera d'insérer dans l'unité de disquette la deuxième disquette de livraison. La procédure se répéterait si l'application devait être livrée sur plus de deux disquettes.

4-

Après l'installation, l'usager peut démarrer immédiatement le programme en tapant la commande «CALITEXT suivie de la touche «Entrée». Nous suggérons de créer un sous-répertoire qui contiendra les textes à analyser. L'une des options de SATO-CALIBRAGE permet d'ailleurs de préciser le répertoire ou le sous-répertoire qui contient les fichiers contenant les textes à traiter. Des exemples de textes sont fournis avec l'application. Il se trouvent dans le sous-répertoire «TEXTES:».

5-

Normalement, on utilise SATO-CALIBRAGE à partir du répertoire contenant le logiciel. Si l'on veut faire appel à SATO-CALIBRAGE à partir de n'importe quel répertoire, il est recommandé de rédiger un fichier de commandes DOS («.BAT») qui pourra donner accès aux fichiers utilisés par SATO-CALIBRAGE. Ce type de manipulation implique une bonne connaissance du DOS et dépasse la portée de ce guide.

4.0 Préparation des textes soumis au programme

SATO-CALIBRAGE réalise ses traitements à partir de textes en format ASCII (cf. glossaire en annexe). Ordinairement, l'usager disposera de documents saisis à l'aide d'un logiciel de traitement de textes. On sait que ces logiciels doivent ajouter des codes indiquant différentes caractéristiques reliées à l'édition du document (par exemple, les polices de caractères, le soulignement, etc.). L'analyse de la lisibilité par SATO ne tient pas compte de ces aspects de présentation d'un texte. Les documents soumis à SATO-CALIBRAGE devront être transformés en format ASCII s'ils sont dans le format interne du traitement de textes. La plupart des logiciels de traitement de textes permettent d'ailleurs de sauvegarder les textes produits en format ASCII.

Pour la préparation d'un document à soumettre à SATO-CALIBRAGE, il faudra tenir compte d'un certain nombre de prescriptions de présentation. Avant de modifier le texte original, il serait prudent cependant de conserver une copie intégrale du document à analyser dans son format d'origine.

Voici donc quelques règles de présentation des textes sauvegardés en codes ASCII pour assurer une utilisation optimale du programme d'analyse de la lisibilité.

A- On devrait éviter d'utiliser l'astérisque («*») dans le texte soumis à SATO- CALIBRAGE. Ce caractère est réservé par le logiciel pour introduire des indications spécifiques.

B- Il est possible de mettre en commentaire certaines sections du texte à analyser. Par exemple, les tableaux, les schémas, les titres marquant les sections ne se prêtent pas à des analyses de lisibilité. Il est préférable d'exclure ces sections d'un document avant de réaliser une analyse de lisibilité. On peut signaler les circonstances suivantes qui pourraient justifier la «mise en commentaire» de certaines parties du texte :

1) Les titres ou intertitres qui ne sont pas des phrases; si un titre ne se présente pas sous la forme d'une phrase complète, on doit prévoir la présence d'un point à la fin. Sinon, on doit le mettre en commentaire.

2) L'indication d'interlocuteurs dans un dialogue.

3) Une portion de texte qui n'est pas un texte suivi comme, par exemple, les tableaux, les schémas, les adresses, la signature.

4) La référence du texte indiquant l'auteur, la source, la date de publication.

5) Les notes en bas de page.

Voici la convention retenue pour soustraire un segment de texte à l'analyse, sans pour autant devoir détruire ces parties du document. Il s'agit de placer au début du passage à exclure le code «*{». À la fin du passage, on insère le code «}». L'annexe « B » contient un exemple de texte préparé pour une exploitation à l'aide de SATO- CALIBRAGE.

C- Des analyses réalisées par SATO-CALIBRAGE portent sur des caractéristiques reliées aux phrases. Pour cela, le programme tient compte des signes de ponctuation forte (point, point-virgule, point d'interrogation, point d'exclamation, deux points, point de suspension). Aussi, il est important de ne pas utiliser ces caractères pour des fins autres que celles prévues pour indiquer la ponctuation forte (par exemple l'utilisation du point pour marquer des sections). Les nombres réels contenant des points devraient être complets. Par exemple «5.0» plutôt que «5.».

D- Au moment de la préparation d'un document à l'aide d'un logiciel de traitement de textes, on utilise ordinairement des polices proportionnelles. Si l'usager ne modifie pas ces formats de police avant de sauvegarder le texte en format ASCII, il est possible que plusieurs lignes du texte apparaissent sur plus d'une ligne lorsqu'il sera créé en format ASCII. Cette organisation physique du texte n'a pas d'influence sur le fonctionnement de SATO-CALIBRAGE. L'affichage sera cependant moins agréable.

Pour éviter cela, il suffit de remplacer les différents codes de police proportionnelle du texte par une police fixe permettant d'afficher le texte sur moins de quatre-vingts colonnes (la police «courrier 10» remplit bien cette fonction).

E- SATO-CALIBRAGE examine les mots en majuscules pour trouver des noms propres potentiels. Si un texte utilise les capitales (mots tout en majuscules), de faux noms propres peuvent être repérés. Si on est en mode validation, on pourra intervenir lors de l'analyse. Sinon, il peut être utile d'éviter l'emploi des mots tout en majuscules. 5.0

Démarrage du programme

À partir du répertoire où est installé SATO-CALIBRAGE, l'usager lance le programme en tapant la commande «CALITEXT» suivi de la touche «Entrée». Cette commande peut être intégrée à un programme de gestion de menu. Après avoir lancé l'application, une bannière est affichée indiquant la version et la date de production du logiciel. Cette bannière identifie aussi les auteurs.

6.0 Options de traitement

Après avoir appuyé sur une touche, l'usager a accès au menu principal du programme.

Comme on peut le constater, cinq modules sont présentés à l'usager. Nous allons les examiner à tour de rôle.

6.1 Options générales

Ce premier module permet à l'usager de préciser certaines préférences quant aux modalités de traitement ainsi que des paramètres spécifiques à l'environnement informatique du poste de travail. Après avoir choisi ce module, la liste des options prévues est affichée.

L'usager peut entrer un «O» dans la case prévue à cet effet lorsqu'il souhaite retenir la modalité affichée. S'il s'agit d'une option ouverte, l'usager doit entrer le texte correspondant à son choix. Examinons les différents items compris dans cette liste d'options générales.

6.1.1 Traitement avec validation

Le traitement des textes soumis à l'analyse peut se réaliser selon deux modalités. La première («N») suppose que l'usager ne souhaite pas intervenir en cours de traitement pour résoudre les cas d'ambiguïté sur les noms propres et les verbes conjugués laissés en suspens par le programme. Il s'agit alors du mode «automatique». En plaçant un «O» dans la case située à la fin de la ligne «Traitement avec validation», le programme fournira à l'usager l'occasion d'intervenir sur les noms propres et les verbes conjugués encore ambigus.

On consultera le chapitre 7 pour la description des tâches que devra effectuer l'usager lorsqu'il choisit un traitement avec validation.

6.1.2 Identification de répertoires

L'usager doit indiquer le nom du répertoire contenant les textes à analyser. Il doit aussi identifier le répertoire où a été installé SATO-CALIBRAGE. Les identificateurs proposés correspondent à la procédure normale d'installation «INSTALLE C:».

6.1.3 Extension des textes à analyser

Les textes soumis à ce programme doivent être en codes ASCII. Pour faciliter l'identification des textes prêts pour le traitement, il est préférable de leur attribuer une même extension. Dans notre exemple, nous avons utilisé «TXT» comme extension. L'usager peut utiliser d'autres étiquettes. Il s'agit de l'indiquer dans l'espace prévu à cet effet.

6.1.4 Éditeur

Il peut être intéressant de consulter, à partir de cette application, les rapports produits par le programme. L'usager doit indiquer ici l'éditeur de son choix. Si un chemin («path») est nécessaire pour lancer ce programme externe, il doit apparaître dans l'espace prévu à cette fin. La valeur proposée pour ce paramètre correspond à l'éditeur «EDIT» du système DOS.

6.1.5 Poursuite de l'interrogation

L'usager peut souhaiter poursuivre l'interrogation sur le texte à l'aide du logiciel SATO après avoir obtenu le rapport de base. Il sera alors possible d'explorer d'autres volets de l'analyse textuelle dans le but d'obtenir des réponses plus spécifiques. Un «O» dans cette dernière case indique au programme que l'on souhaite poursuivre l'interrogation à l'aide de SATO à la suite du rapport commandé à SATO-CALIBRAGE.

6.1.6 Sauvegarde des options

Pour signifier sa volonté de sauvegarder les options indiquées sur cette page-écran, l'usager doit recourir à la séquence de touches «Contrôle» et «Entrée». Si la touche «Échappement» est utilisée, les modifications ne seront pas conservées.

6.2 Options des rapports

Ayant complété la description des options générales, on aborde le module «Options des rapports» qui permet de choisir les options reliées à la production des rapports à la suite des traitements analytiques faits par le programme. Il faut ici rappeler qu'un sommaire présentant les indices de lisibilité SATO-CALIBRAGE est toujours produit au moment des traitements.

Voici les options prévues pour adapter les rapports aux besoins de l'usager.

On a prévu cinq sections au rapport de calibrage. Le programme produit un fichier en codes ASCII identifié du même nom que celui du texte analysé; l'extension «CAL» y est ajoutée.

L'usager peut choisir les sections de son choix en plaçant un «O» à la fin des rubriques sélectionnées. À l'inverse, «N» indique au programme de ne pas produire cette section dans le rapport. Les cinq sections concernent les aspects suivants:

-

Lexique général. Il s'agit ici du lexique des mots apparaissant plus d'une fois. Ce lexique est trié par rapport à la fréquence. Le programme indique aussi le nombre de lexèmes compris dans cette liste. Il faut noter ici que les formes fonctionnelles (cf. glossaire) sont exclues de cette liste.

-

Indice Gunning. En plus de l'indice de lisibilité de Gunning, cette section comprend l'affichage d'un ensemble de statistiques sur le texte comme par exemple la longueur moyenne des mots, des phrases, des paragraphes.

-

Lexique des mots inconnus. On sait que SATO-CALIBRAGE a été d'abord réalisé pour une clientèle d'élèves de la fin du cours primaire. Même si diverses catégories de classement ont été prévues, pour le moment le logiciel ne tient pas compte de ces catégories fines. Un mot ayant reçu l'étiquette «nil» (étiquette vide) est inconnu. La liste des mots inconnus est terminée par le décompte du nombre de lexèmes écrits.

On peut, si on le désire, donner le statut de mot connu à l'un ou l'autre des mots de la liste des mots inconnus. Pour ce faire, il s'agit de se positionner sur un mot à l'aide des flèches «Haut» ou «Bas» et de taper une des touches suivantes pour attribuer une nouvelle catégorie à ce mot:

« 6 » le mot est connu par les élèves de 6e année.

« - » pour corriger un jugement précédent.

Au moment de quitter le programme, cette information sera enregistrée dans le dictionnaire personnel «AJOUT.BDL». Lors d'une future utilisation de SATO- CALIBRAGE, ce fichier sera consulté et l'étiquette «p6a» indiquera que le mot est connu d'après le dictionnaire personnel de l'usager.

-

Liste des mots longs. On sait que la présence de mots longs diminue habituellement la lisibilité d'un texte. Cette liste affiche les mots considérés comme longs, c'est-à-dire comportant au moins 9 caractères et qui sont pris en compte dans l'indice de Gunning. Cette liste est triée alphabétiquement. Le nombre de lexèmes est noté.

-

Phrases complexes. Le rapport de calibrage peut enfin comprendre la liste des phrases susceptibles d'être complexes; les types suivants de complexité sont prévus:

-

La phrase comprend au moins quatre verbes conjugués (cette information est indiquée par l'abréviation «4Verbes»). On doit noter que, si le traitement se réalise en mode automatique, certains mots peuvent être faussement identifiés comme des verbes conjugués.

-

La phrase contient plus de 30 mots (cette information est indiquée par l'abréviation «31-99»). Il est à noter que les ponctuations font partie du décompte.

-

La phrase possède un mot qui, au dictionnaire, peut être pronom relatif («qui», «que», «dont», etc.). La phrase est affichée même si, en contexte, le mot agit comme conjonction (cette information est indiquée par l'abréviation «PronomRelatif»).

-

La phrase contient au moins deux mots inconnus (cette information est indiquée par l'abréviation «2MotsInconnus»).

Une phrase contenant plus d'un verdict relatif à sa complexité n'apparaîtra qu'une seule fois; dans ce cas, les différents verdicts seront affichés.

-

Affichage avec pause. Il existe deux modes d'affichage du rapport de calibrage. Le programme peut faire une pause après chaque page-écran afin de permettre une lecture immédiate. Il est aussi possible de faire défiler en continu le rapport produit. L'usager indique son choix en inscrivant «O» ou «N» sous la rubrique «Affichage avec pause». S'il y a affichage avec pause, le programme indique qu'il attend une action de l'usager en inscrivant le message suivant au bas de l'écran : «Intervention requise». L'usager doit alors utiliser la touche «Entrée» (prochaine ligne) ou «Page Down» (prochaine page-écran) pour poursuivre les opérations. Il faut noter que peu importe le mode d'affichage retenu, le rapport produit est déposé dans un fichier portant l'extension «CAL».

6.3 Traitement

Il existe quatre modes de traitement des textes dans SATO-CALIBRAGE.

On peut partager ces modes en deux catégories compte tenu du format des textes soumis au programme. Les deux premières options acceptent les fichiers en codes ASCII portant l'extension précisée dans les «Options générales». Les deux autres façons d'analyser des textes supposent qu'une des options de préparation a déjà été sélectionnée. Dans ce cas, le programme liste les textes portant l'extension «TEX». Voici une présentation de chacune de ces options de traitement.

6.3.1 Préparation seulement

Rappelons que le logiciel SATO est formé de deux programmes réalisant des tâches spécifiques. Le premier, «SATOGEN», construit une représentation du texte qui sera consultée par le deuxième programme, «SATOINT», qui est un module interactif d'analyse de texte.

L'option «Préparation seulement» appelle «SATOGEN» et «SATOINT» en vue de réaliser les tâches d'analyse préalables à la production des rapports. Cette phase de traitement fera appel à une intervention de l'usager pour enlever les ambiguïtés sur les noms propres et les verbes conjugués si ce mode a été sélectionné dans le tableau des options générales. Le choix de l'option «Préparation seulement» entraîne l'affichage d'une deuxième fenêtre présentant la liste de tous les fichiers pertinents, tels que définis selon les paramètres inscrits dans les options générales.

L'usager choisit les fichiers à traiter à l'aide de la barre d'espacement. La touche «Entrée» lance l'opération. Le programme réalise le traitement du premier texte sélectionné par rapport au mode retenu. À la fin du traitement, il y a production du rapport sommaire. Puis le programme entreprend le traitement d'un autre texte si requis. Sinon, le menu général de SATO- CALIBRAGE est affiché, permettant à l'usager de réaliser une autre opération ou bien de quitter le programme.

6.3.2 Préparation et rapport

L'option «Préparation et rapport» permet de réaliser les mêmes opérations que celles présentées à la section précédente. Il y a toutefois production d'un rapport de calibrage contenant les renseignements précisés dans les «options de rapports». L'affichage de ce rapport se fera avec ou sans pause compte tenu du choix précisé par l'usager. Une copie du rapport produit sera déposée dans un fichier en codes ASCII portant l'extension «CAL».

6.3.3 Rapport seulement

L'option «Rapport seulement», tout comme la suivante, nécessite la présence d'un texte déjà préparé à l'aide de l'une ou l'autre option précédente. Le rapport sera produit conformément aux spécifications contenues dans les options de rapports.

6.3.4 Appel de SATO

Cette option permet à l'usager de faire directement appel au logiciel SATO afin d'approfondir l'analyse. Il est entendu que ce recours à SATO exige la présence de textes déjà traités par l'une ou l'autre des options de préparation.

Il est possible de faire exécuter par le logiciel SATO des scénarios de commandes qui ont été préparés pour examiner des aspects particuliers d'un texte. Voici la démarche à suivre pour appeler ces scénarios.

À partir du menu général du logiciel SATO, il s'agit de choisir l'option «Scénario». Dans la boîte de dialogue de SATO, une sélection se réalise en parcourant la liste des options au moyen des curseurs. On peut aussi taper la première lettre de l'option. On confirme la sélection par la touche «Entrée». Après avoir choisi l'option «Scénario», on sélectionne l'action «Appliquer». Le logiciel affiche alors l'ensemble des scénarios disponibles. Les scénarios préparés spécifiquement pour SATO-CALIBRAGE ont été regroupés sous l'appellation «Analyse». Il s'agit de choisir ce scénario pour avoir la liste des scénarios suivants dont voici une brève présentation.

Ces divers scénarios vont générer des résultats affichables à l'écran. De plus, une copie des résultats sera automatiquement ajoutée à la fin du rapport de calibrage (fichier avec l'extention «.CAL»). On pourra donc recourir à l'option «Édition des rapports de calibrage» dans le menu des fonctions utilitaires pour revoir les résultats et les imprimer.

6.4 Fonctions utilitaires

Le logiciel comprend diverses fonctions utilitaires d'édition et la possibilité d'une sortie temporaire à DOS.

6.4.1 Éditeur

Il peut être utile d'examiner les textes à soumettre à SATO-CALIBRAGE (option «Édition des documents») ou des rapports sommaires (option «Édition des rapports sommaires») ou, finalement des rapports qualitatifs («Édition des rapports de calibrage»). Après avoir choisi cette option, le programme appelle le logiciel identifié dans l'item «Éditeur» des options générales. C'est ainsi qu'un usager pourrait apporter des modifications à un texte déjà analysé à l'aide du programme et le soumettre à un nouveau traitement. Le choix d'une option de sélection entraîne l'ouverture d'une fenêtre permettant de choisir le fichier à éditer.

6.4.2 Sortie temporaire à DOS

Il est parfois nécessaire de quitter momentanément le programme pour réaliser une tâche exigeant le recours à une commande du DOS. Cette option offre cette possibilité. Pour revenir au programme, il s'agit de taper «EXIT». Si on relance directement CALITEXT plutôt que de taper «EXIT», on risque de rencontrer un problème de mémoire. Il faudra alors revenir dans la coquille originale en tapant «EXIT».

6.5 Quitter

L'usager doit quitter le programme en sélectionnant le module «Quitter». Cette façon de faire permet au programme de détruire ou de modifier certains fichiers de commandes afin d'optimiser son fonctionnement au moment d'un nouvel appel.

7.0 Tâches à réaliser en mode validation

Si l'on a sélectionné l'item «Traitement avec validation» du menu des options générales, SATO-CALIBRAGE fera appel à l'usager pour confirmer certains choix. Cette section décrit les tâches à réaliser.

7.1 Confirmation du lexique des noms propres

Après avoir effectué diverses opérations d'analyse, SATO-CALIBRAGE présente un lexique de mots susceptibles d'être des noms propres. Seuls les mots qui ne sont pas identifiés comme connus seront présentés. Voici un exemple des écrans qui seront affichés.

La colonne décision indique l'action que prendra SATO si l'usager ne modifie pas la décision en utilisant les touches décrites dans la fenêtre de messages. La décision «np» (nom propre) est suggérée par SATO lorsque le mot se retrouve en majuscules en position libre dans la phrase, c'est-à-dire sans être précédée d'une ponctuation forte.

En utilisant les curseurs, on peut pointer un mot de la liste qui apparaît en surbrillance à l'écran. L'élément pointé se mettra alors à clignoter. On peut appuyer sur une des touches indiquées pour modifier la décision. Dans l'écran présenté en exemple, nous avons pointé le mot «thaïlandais» et nous avons appuyé sur la touche «v» pour voir les contextes d'utilisation du mot avant de confirmer s'il s'agit d'un nom propre. Nous avons ensuite appuyé sur la touche «Page Down» pour passer à l'écran suivant.

Cet écran nous présente les contextes d'utilisation du mot «thaïlandais». On constate qu'il s'agit effectivement d'un nom propre désignant les habitants de la Thaïlande. Il est à remarquer que si aucun lexème n'avait été catégorisé à «voir», cet écran serait présenté mais sans aucun contexte. Pour passer à l'écran suivant, on doit appuyer sur la touche «Page Down».

Visualisation finale du lexique des noms propres potentiels.

L'écran suivant est une reprise de la liste de noms propres potentiels. Après avoir vu les contextes, il s'agit donc de pointer les lexèmes marqués «voir» et appuyer sur la touche «n» (nom propre) ou «-» (pas un nom propre) selon la décision que l'on veut prendre. Il est à noter que cet écran sera présenté même s'il n'y avait pas de lexèmes marqués «voir». Dans ce cas, il n'y a aucune intervention à faire. On passe à l'écran suivant en appuyant sur la touche «Page Down».

7.2 Confirmation des verbes conjugués ambigus

Cet écran affiche le début du texte à calibrer. Les mots du textes sont affichés en surbrillance alors que le mot souligné sera présenté en rouge. Il s'agit d'un verbe ambigu pour lequel SATO n'a pu prendre aucune décision. On peut se positionner directement sur un mot souligné par la touche de tabulation «Tab». Si ce mot n'est pas un verbe conjugué, il suffit alors d'appuyer sur la touche «-» et de se déplacer sur le prochain mot souligné par la touche «Tab». Lorsque tous les cas d'ambiguïté auront été réglés sur cette page écran, on passera au prochain écran par la touche «Page down» jusqu'à la fin du texte. Par la suite, SATO complétera son analyse et produira le rapport sommaire.

8.0 Analyse des résultats

8.1 Indices SATO-CALIBRAGE et rapport sommaire

Le programme est en mesure de calculer deux indices SATO-CALIBRAGE. Le premier tient compte de la longueur des textes alors que le deuxième ignore la taille du texte à lire. Le premier indice est davantage adapté aux textes soumis à des élèves qui disposent d'une période de temps fixe pour en faire la lecture. Le deuxième indice conviendra davantage à des textes plus longs qui ne sont pas nécessairement lus en une seule fois.

Le programme produit de façon automatique un «rapport sommaire» qui contient le résultat des deux indices de SATO-CALIBRAGE accompagné de diverses informations permettant de mieux juger du résultat de chacun des indices. Ce rapport sommaire porte le même nom que le fichier analysé; l'extension «SOM» indique qu'il s'agit d'un rapport sommaire préparé en codes ASCII.

Voici à titre d'exemple le rapport sommaire produit pour le fichier PR3PASAN dont le texte est reproduit à l'annexe B.

Le premier indice est le plus performant par rapport à notre corpus de référence. Il s'agit de l'indice sensible à la longueur du texte. En effet, la variable «Nombre de phrases» est directement proportionnelle à la longueur du texte avec un facteur multiplicatif de 0.14. C'est donc dire que plus un texte est long et plus il est destiné à un public d'âge scolaire plus avancé.

Sur les quatorze variables considérées, les neuf dernières variables ne contribuent qu'à 4% de la valeur prédictive de l'indice alors que les cinq premières permettent d'expliquer 70% de la variance associée au niveau scolaire.

Un poids positif indique que la variable introduit un élément de difficulté alors qu'un poids négatif introduit un élément de facilité.

La valeur de l'indice représente approximativement l'année scolaire auquel le texte se compare le mieux en tenant compte des variables indiquées. Cet indice est obtenu en multipliant les valeurs de chacune des variables par le facteur multiplicatif qui apparaît dans la colonne «Poids». C'est la somme de ces produits plus une constante qui donne la valeur de l'indice. Pour le premier indice, par exemple, la constante est 3.613. Les diverses variables qui composent l'indice sont présentées par ordre d'importance.

La colonne intitulée «Classe» ne sert pas au calcul mais permet de mieux interpréter l'indice. Elle compare la valeur de chaque variable et sa moyenne calculée pour l'ensemble des textes d'une classe donnée. On inscrit dans la colonne «Classe» la classe d'enseignement dont la moyenne se rapproche le plus de la valeur obtenue sur le texte analysé. Cela nous donne une évaluation de la contribution respective de chaque variable à l'indice final. Aussi, on trouvera à l'annexe «C» des graphiques présentant la distribution moyenne de chaque variable par rapport à la classe d'enseignement.

Le deuxième indice SATO-CALIBRAGE est insensible à la longueur du texte. La variable «Nombre de phrases» a été éliminée. Toutes les variables s'expriment en termes de pourcentages et de valeurs moyennes. Cet indice est moins performant mais est plus approprié pour des textes du type roman ou nouvelles que l'enfant peut lire en dehors de situations d'apprentissage ou d'évaluation.

Signalons en terminant que la variable composite «formes fonctionnelles difficiles + vous» contient, outre le pronom «vous», les lexèmes suivants: «alors que», «à l'instant», «à présent», «au-delà», «au-dessous», «au-dessus», «au-devant», «certes», «dont», «guère», «parmi», «particulièrement», «séparément», «toutefois», «d'ailleurs», «en effet», «en vertu de», «le long de», «tel», «telle», «telles», «tels».

8.2 Rapport qualitatif

Le rapport qualitatif, ou rapport général, comporte un certain nombre d'éléments susceptibles d'aider à évaluer le texte analysé sous une variété de points de vue. Les éléments contenus dans le rapport ont été sélectionnés dans le menu «Options des rapports» du module de contrôle de SATO-CALIBRAGE. Le rapport peut aussi être complété par l'appel à des scénarios particuliers ou par une exploration libre du texte à l'aide du logiciel SATO.

Dans ce rapport, les mots qui étaient soulignés à l'écran sont mis entre parenthèses carrées («[», «]»). L'utilisateur pourra, s'il le désire, utiliser ces balises dans son traitement de texte pour mettre ces mots dans la fonte de son choix.

Signalons aussi que les catégories grammaticales que l'on trouvera dans certaines sorties du rapport sont des catégories hors contexte. Cependant, pour le décompte des propositions, la catégorie «v_conj» (verbe conjugué) de la propriété «syntaxe» correspond à une catégorie en contexte qui aura pu être précisée à l'étape «Traitement» (option «Mode d'intervention»).

Remarquons finalement que le dictionnaire des mots familiers qui a servi à l'identification des mots connus est susceptible d'être augmenté au cours des livraisons subséquentes de SATO-CALIBRAGE. Nous discutons actuellement du bien fondé linguistique et pédagogique d'ajouter automatiquement des flexions et des conjugaisons à partir de certaines formes connues. Par exemple, si une forme du verbe «cultiver» a déjà été identifiée comme connue par nos enseignants experts, nous pourrions décider d'ajouter toutes les formes du verbe qui correspondent à l'indicatif présent, à l'impératif, au subjonctif présent et à l'imparfait. Pour le moment, il est toujours possible d'ajouter à la pièce les mots que l'on considère connus. Si on refait l'analyse du texte, ces nouveau mots seront automatiquement reconnus.

9.0 Illustration d'applications pédagogiques Afin de mieux comprendre l'utilisation qui peut être faite de SATO-CALIBRAGE, nous l'illustrerons à l'aide de quelques exemples.

9.1 Une application didactique

Une enseignante de sixième année a observé que plusieurs élèves de sa classe ont de la difficulté à comprendre les phrases longues et qu'ils ne savent pas comment aborder ce problème. Elle a en main un texte qu'elle juge intéressant Le travail des enfants et qui, de surcroît, aborde un thème traité dans son cours de sciences humaines. Elle le soumet à l'analyse à l'aide de SATO- CALIBRAGE. L'outil lui donne un indice de 4,5; de prime abord, l'enseignante le juge facile pour ses élèves. En consultant les différents renseignements sur le texte, elle constate qu'il y a peu de mots inconnus mais que le texte renferme sept phrases longues, ce qui est l'objet de sa préoccupation. Elle examine ces phrases et constate qu'elle pourrait travailler les liens qu'établissent les conjonctions «et» et «ou».

Après avoir abordé la compréhension globale du texte et proposé aux élèves quelques tâches, l'enseignante retient les phrases 1, 2, 3 et 6 (voir encadré) pour faire un travail systématique d'analyse et compréhension; elle pourra aussi demander aux élèves de retrouver la phrase minimale, notion abordée en écriture récemment. Par la suite, elle demande aux élèves de trouver dans d'autres textes des phrases longues qui comportent plusieurs «et» et «ou» et de vérifier s'ils les comprennent facilement. En outre, l'enseignante garde en réserve la phrase 7 pour une autre séance où elle abordera les compléments de phrase antéposés et les appositions, ou encore les différentes relations amenées par la préposition «pour».

TABLEAU 6 : Phrases longues trouvées par SATO-CALIBRAGE

1. Vers douze ans, une fille peut prendre la responsabilité de la maison et remplacer sa mère quand celle-ci est malade ou quand elle doit aller travailler aux champs.

2. Ils transportent le bois du hangar à la maison, allument et alimentent le feu dans les foyers et le poêle et transportent l'eau à l'étable et à la maison.

3. Le chef de famille doit gagner un salaire pour acheter la nourriture, les tissus ou les vêtements, le charbon ou le bois de chauffage et pour payer un loyer.

4. le boeuf coûtait entre 5 et 10 cents la livre, le beurre, de 15 à 30 cents la livre, les oeufs, de 13 à 20 cents la douzaine.

5. Entre 1870 et 1930 environ, de nombreux enfants ont dû travailler dans des conditions très difficiles et malsaines, avant même d'avoir atteint l'âge de douze ans.

6. Entre sept et douze ans, on l'initiait donc aux travaux, aux techniques et aux responsabilités de la vie adulte pour qu'à douze ou quatorze ans il puisse fonder et entretenir une famille.

7. Enfin, avec l'arrivée des industries, surtout dans les grosses usines des villes, les patrons ont exploité les travailleurs, particulièrement les femmes et les enfants, pour augmenter leurs profits.

9.2 Une application en évaluation

Un conseiller pédagogique doit préparer une épreuve pour des élèves de troisième année. Il souhaite trouver un texte à caractère imaginaire qui ne soit pas trop difficile pour les élèves. Il rassemble cinq textes : trois contes et deux extraits de roman. Il soumet ces textes à SATO- CALIBRAGE et obtient les indices 2.0, 3.3, 5.2, 3.7 et 3.1. Dans un premier temps, il élimine le premier et le troisième texte, les jugeant trop facile et trop difficile. En examinant de plus près les données qui concernent les trois autres textes, il constate que le quatrième texte comporte beaucoup de mots inconnus et que, pour cette raison, il causera sûrement des difficultés à plusieurs élèves. Quant aux deux autres textes, leur niveau de difficulté semble convenir pour élaborer une épreuve; ils comportent quelques phrases longues et quelques mots inconnus, ce qui semble raisonnable pour des élèves de troisième année à la fin de l'année. L'analyse du déroulement de l'histoire et l'intérêt des personnages le font opter pour le deuxième texte.

9.3 Une application en rédaction

Un auteur doit rédiger un texte à l'intention des élèves de sixième année. Il a soumis une première version de son texte à SATO-CALIBRAGE. La phrase suivante est ressortie comme étant potentiellement difficile parce qu'elle est très longue et qu'elle comporte plusieurs mots inconnus (cohabitent, armadas, hordes, évoluant).

Déjà que les automobilistes cohabitent difficilement avec les armadas de bicyclettes dans notre centre-ville, il fallait que s'ajoutent des hordes de patineurs évoluant de façon aussi ordonnée qu'un nuage de poussière poussé par le vent.

L'auteur pourra donc envisager de faire deux phrases plus courtes, d'utiliser des synonymes plus familiers ou des périphrases qui font comprendre les mots inconnus des élèves. Il pourra aussi établir différemment le lien de cette phrase avec la précédente.

9.4 En conclusion

Notons en terminant que SATO-CALIBRAGE peut être utilisé dans des situations qui dépassent le contexte pédagogique. Par exemple, on peut utiliser le logiciel pour évaluer les difficultés de lecture d'un texte destiné à un tout autre public. Il s'agira alors d'interpréter les résultats obtenus en fonction de la connaissance que l'on peut avoir du lecteur cible. De plus, comme SATO- CALIBRAGE donne aussi accès à SATO, on peut toujours ajouter à l'application des analyseurs spécifiques destinés à valider une politique éditoriale spécifique.

Annexe A Glossaire

ASCII

Norme américaine pour la représentation numérique des caractères. Cette norme touche les caractères numérotés 0 à 127. Ce code est indépendant des logiciels et des ordinateurs et sert au transfert de fichiers de caractères d'un système à l'autre. La plupart des logiciels de traitement de texte permet une exportation en ASCII. Comme les caractères numérotés de 0 à 127 ne suffisent pas à représenter tous les caractères accentués, on utilise souvent un système d'ASCII étendu qui couvre les caractères numérotés de 128 à 255. La définition de ces codes ne suit pas une norme unique. Pour l'utilisation de SATO, on suggère de configurer le DOS en fonction de la norme internationale connue sous le nom de «code de page 850».

Base de données lexicales

Une base de données lexicales contient des informations en format électronique sur des lexèmes. SATO-CALIBRAGE utilise plusieurs de ces bases. La première, que l'on nomme simplement la «BDL», contient les catégories grammaticales hors-contextes d'un grand ensemble de lexèmes (flexions). La deuxième base de données lexicales a été constituée pour ce projet et contient une liste validée de mots (flexions) connus à l'oral d'une majorité substantielle d'élèves de sixième année. L'usager peut aussi constituer sa propre base de mots connus qui sera consultée par l'application. Finalement, nous avons prévu la possibilité d'ajouter des bases spécialisées de mots connus pour tenir compte, par exemple, d'un vocabulaire disciplinaire.

Contexte (en/hors)

On entend par contexte une portion de texte, par exemple une phrase, dans lequel apparaît un ou plusieurs mots. On retrouvera aussi l'expression «mot en contexte» (cf. «occurrence»), c'est-à- dire un mot employé dans un contexte donné. À l'opposé, l'expression «mot hors-contexte» (cf lexème) désigne un mot (lemme ou flexion) dont le sens ou la catégorie grammaticale n'est pas précisée par le contexte. C'est le mot considéré sous l'angle de la langue plutôt que sous l'angle du texte.

Corpus

On utilise le terme «corpus» pour désigner un ensemble de textes constituant un objet d'études. Ainsi, dans le projet SATO-CALIBRAGE, on a utilisé un corpus représentatif de textes fournis aux élèves des différentes classes. Le corpus est structuré de telle sorte que l'on puisse facilement comparer les sous-corpus composés de l'ensemble des textes destinés à chacune des classes.

Dictionnaire

Un dictionnaire de langue contient sous des entrées normalisées un ensemble d'informations sur l'utilisation d'un terme dans une langue. Dans SATO, nous utilisons le terme «dictionnaire» dans un sens plus technique. Il s'agit d'une base de donnée lexicale qui contient pour une entrée donnée (flexion, lemme ou concept), un ou plusieurs champs contenant de l'information sous format électronique. Il est facile dans SATO de transférer dans un dictionnaire une information lexicale existant sous la forme d'une propriété. De même, on peut facilement consulter un dictionnaire pour alimenter une propriété lexicale.

Flexion (forme fléchie)

Une entrée dans un dictionnaire de langue est généralement normalisée à sa forme la plus simple. Pour les verbes, par exemple, on retrouve l'infinitif plutôt que la forme conjuguée. Un adjectif sera présenté dans sa forme la moins marquée morphologiquement, généralement le masculin singulier. Pour désigner ces entrées, on emploie souvent le terme de «lemme». Certaines entrées peuvent être multiples pour tenir compte de graphies identiques correspondant à des racines différentes et à des catégories grammaticales différentes. À l'opposé, on va utiliser le terme «flexion» pour désigner une forme marquée du lemme. Par exemple, le verbe «aimer» va avoir comme flexions toutes les formes conjuguées simples du verbe. Les flexions de l'adjectif «joli» sont «joli», «jolis», «jolie» et «jolies».

Formes fonctionnelles

Terme général utilisé pour désigner en bloc les catégories grammaticales qui ont surtout un rôle grammatical (préposition, conjonction, adverbe) par rapport aux catégories qui portent davantage le sens (nom, adjectif qualificatif, verbe).

Gunning

Voir Lisibilité.

Indice

Dans SATO-CALIBRAGE, on utilise le terme «indice» pour désigner une composition de variables qui, dans notre cas, est destinée à mesurer le niveau de difficulté d'un texte sur une échelle qui correspond au nombre d'années de scolarité.

Lemme

Voir flexion.

Lexème

Ce terme est utilisé dans SATO pour désigner un élément du lexique du texte, le lexique étant le catalogue de l'ensemble des formes graphiques du texte: par exemple «joli», «jolie» mais aussi «.», «3.1416», etc. Le lexème désigne la forme hors-contexte à l'opposé de l'occurrence qui désigne l'apparition d'un lexème dans un contexte donné, c'est-à-dire localisé précisément dans le texte.

Lexique

Dans SATO, le lexique est simplement l'ensemble des lexèmes. Souvent, en analyse de texte par ordinateur, le lexique désigne un ensemble de lexèmes accompagnés de leur fréquence d'utilisation. En terminologie, le lexique désigne généralement un ensemble de termes appartenant à un domaine de spécialité, par exemple de lexique de l'informatique (ou vocabulaire de l'informatique).

Lisibilité

Le concept de lisibilité d'un texte renvoie généralement à la plus ou moins grande difficulté de lecture d'un texte en fonction d'indices de surface du texte. Le concept de lisibilité ne concerne donc pas la sémantique du texte ni sa structure argumentaire. Le logiciel SATO permet de calculer l'indice de Gunning, un des indices classiques de la lisibilité développé d'abord pour la langue anglaise. Cet indice augmente en proportion du nombre de mots de 9 lettres et plus et de la longueur moyenne des phrases. Cet indice s'avère peu utile pour les textes de niveau primaire, si on en juge par le corpus utilisé dans le projet SATO-CALIBRAGE.

Mot

Le terme «mot» est très polysémique dans le contexte de l'analyse de texte. Ainsi, par exemple, l'expression «compter les mots du texte» pourrait dire compter le nombre de lexèmes ou de lemmes utilisés dans le texte, ou le nombre d'occurrences incluant ou excluant les ponctuations, distinguant ou pas leur emploi comme verbe, adjectif, etc. On remplacera donc le terme «mot» par un terme plus précis lorsque l'on voudra décrire une procédure d'analyse.

Occurrence

Voir «lexème».

Patron (de fouille), filtre

Ce concept est utilisé dans SATO pour désigner un ensemble de lexèmes ou d'occurrences ayant en commun un certain nombre de propriétés. Par exemple, le patron «jo$*gramr=adj» désigne l'ensemble des mots qui commencent par les lettres «jo» et qui ont reçus la catégorie «adj» (adjectif qualificatif). Par exemple «joli», «jolie», «jobard», «jouable»...

Ponctuation forte/faible

On divise généralement les ponctuations en deux groupes. Les ponctuations fortes délimitent les phrases alors que les ponctuations faibles sont utilisées à l'intérieur des phrases. Malheureusement, plusieurs marques de ponctuations peuvent servir à la fois de ponctuations fortes et faibles. Ainsi le point d'abréviation peut marquer la fin de la phrase mais peut aussi être utilisé dans les abréviations.

Propriété

Dans SATO, on utilise le terme «propriété» pour désigner un système de catégorisation ou d'annotation permettant de rajouter de l'information sur des lexèmes ou des occurrences. On dispose ainsi d'un texte «augmenté» ou décrit et dont les propriétés explicitent le contenu structurel, grammatical, sémantique ou stylistique.

Scénario

Un scénario désigne, pour le logiciel SATO, un fichier comprenant des commandes SATO et qui permet de réaliser une tâche quelconque. Le concept de scénario ressemble à celui de macro-commande que l'on retrouve dans certains traitements de textes. Les scénarios de SATO sont en codes ASCII. Ils sont lisibles et facilement modifiables avec un éditeur.

Variable

Le terme «variable» est utilisé en mathématique pour désigner une valeur abstraite désignée par un symbole. La variable désigne un élément quelconque d'un ensemble défini. La valeur efffective de la variable dépend de l'expérimentation. Ainsi, la longueur du texte est une variable entière positive qui désigne le nombre d'occurrences dans un texte. Cette variable prend une valeur effective pour un texte donné.

Annexe B Exemple de texte en format ASCII préparé pour SATO-CALIBRAGE

*{ une journée avec Pasan en Thaïlande *}

Pasan est un jeune de douze ans qui vit en Thaïlande. Suivons-le pendant une journée entière et découvrons la vie des écoliers et des écolières dans ce pays.

*{7 h} Pasan déjeune. Il enfile son uniforme d'écolier : une culotte courte brune et une chemise blanche. Ensuite, il parcourt rapidement le trajet de chez lui à l'école. Il ne doit pas rater le début de ses cours. Monsieur Marut, son professeur, est très sévère pour les retardataires.

*{8 h 30} C'est à cette heure que commence l'école. Tous les élèves se rassemblent pour chanter l'hymne national thaïlandais. Puis, Pasan se rend en classe. Monsieur Marut accueille ses 35 élèves. Il leur enseigne les mathématiques et la musique. Demain, ce sera le tour des sciences humaines et du cours religieux sur le bouddhisme (religion des Thaïlandais et de millions de gens). Après une courte récréation, ils et elles étudient la langue thaï. Dans ce pays, c'est la plus importante langue parlée.

*{13 h} Au retour du dîner, la classe de Pasan travaille dehors. C'est le cours de préparation aux métiers.

Présentement, les élèves construisent un bassin où on élèvera des poissons qui aideront à nourrir les gens du village.

*{15 h} Les élèves remercient respectueusement monsieur Marut et retournent à la maison.

*{16 h 30} Pasan aide son père en travaillant dans les champs, où on cultive des arachides. Puis, il va pêcher des carpes à la rivière avec son père. Quand la pêche est bonne, ils en vendent la moitié au marché du village et ils gardent le reste pour le souper.

*{20 h 30} Avant d'aller au lit, Pasan fait ses devoirs et repasse ses leçons sans se plaindre, en pensant aux grandes vacances d'avril qui approchent.

*{PASAN SAWÄT DII (Au revoir, Pasan)}

Annexe C Graphiques des variables de l'indice SATO-CALIBRAGE

L'annexe « A » contient un glossaire des mots techniques utilisés dans ce Guide. Plusieurs publications pourront fournir au lecteur une présentation plus approfondie de la méthodologie qui est à la base du projet SATO-CALIBRAGE. Citons, entre autres, le Cahier de recherche no.3 sur le projet SATO-CALIBRAGE (Service ATO, UQAM), un ouvrage collectif publié en 1993 sous la direction de François Daoust, Lise Ouellet et Léo Laroche. Citons aussi SATO-CALIBRAGE: un outil d'assistance au choix et à la rédaction de textes, (DAOUST, LAROCHE, OUELLET) à paraître dans la Revue québécoise de linguistique. Cet ouvrage et cet article contiennent une bibliographie sur divers indices de «lisibilité». SATO 4, Manuel de références, Daoust, François, 1996, Service ATO, département de linguistique, Université du Québec à Montréal.