Retour à l'accueil Remonter

La présente annexe fournit l'essentiel des informations nécessaires à la compréhension de la démarche mise en oeuvre pour le traitement et l'analyse du discours politique dont les résultats font la trame de ce livre. On pourra trouver ailleurs un exposé plus élaboré des fondements théoriques et méthodologiques de notre travail (Duchastel, 1995, 1992; Duchastel et Armony, 1994, 1993). Nous procéderons plutôt ici à une description des divers choix méthodologiques concernant le corpus, la catégorisation et la stratégie de traitement des données.

La mise en forme du corpus

Dans le type de démarche que nous privilégions, la construction et la mise en forme du corpus s'avère une phase névralgique": même si celle-ci comporte des opérations de nature surtout technique, leur exécution rigoureuse et systématique est essentielle à la réussite des procédures analytiques subséquentes. Le corpus colligé -"un ensemble de documents photocopiés"- devra devenir une base de données textuelles susceptible d'être traitée à l'aide de l'ordinateur.

Une fois que les documents ont été sélectionnés, leur contenu est "numérisé"", c'est-à-dire qu'ils sont convertis en fichiers informatiques. Cela s'effectue en trois étapes": d'abord, on effectue la saisie optique de chaque page (au moyen d'un scanner)"; par la suite, ces images sont soumises à un logiciel de "reconnaissance" qui traduit les graphismes en caractères"; enfin, les textes obtenus de cette manière sont édités afin de corriger les erreurs de reconnaissance, enlever les éléments qui ne sont pas pertinents pour l'analyse du discours (tables de matières, diagrammes, etc.) et uniformiser le format d'écriture (simplification des styles typographiques, standardisation des noms propres, etc.).

Par la suite, ces archives informatisées doivent subir trois autres manipulations": le blocage des locutions, la classification morpho-syntaxique et l'introduction des repères contextuels. La première consiste en l'identification des multi-termes. Il s'agit des unités lexicales composées de plusieurs mots": par exemple, "Banque du Canada". L'objectif est de pouvoir les traiter en tant qu'entrées uniques du lexique (ainsi, lorsque le terme "Canada" apparaÎt dans la formule "Banque du Canada", il n'est pas compté parmi les occurrences de "Canada"). Cette approche permet de mieux dépister les référents du discours. La deuxième opération vise à regrouper les mots en fonction des principales classes grammaticales": noms communs, verbes, pronoms, etc. Cela est fait au moyen d'un "dictionnaire" informatisé qui attribue à chaque vocable du corpus une "étiquette" morpho-syntaxique. Cette classification est nécessaire pour déterminer les candidats à la catégorisation socio-sémantique. En effet, nous n'avons retenu à cette fin que les noms et les adjectifs. Les formes fonctionnelles ont été exclues en raison de leur faible potentiel sémantique et les verbes ignorés parce qu'ils auraient nécessité un traitement trop spécialisé. Enfin, les documents font l'objet d'un codage fondé sur leur "coordonnées de production"": date, lieu et identité du locuteur (nom et province représentée). Des repères sont inscrits dans les fichiers eux-mêmes, de sorte que toute interrogation de la base des données peut s'effectuer de manière ciblée : par exemple, quels sont les termes caractéristiques du discours des premiers ministres des provinces maritimes durant la conférence de 1964? quelles sont les phrases où Pierre Elliott Trudeau parle de "bilinguisme" entre 1978 et 1982?

La catégorisation socio-sémantique

Nous définissons la catégorisation socio-sémantique comme un ensemble de procédures visant à superposer aux unités lexicales une grille de codage à valeur descriptive et analytique d'un point de vue sociologique. La catégorisation du corpus est clé dans l'approche que nous adoptons, car l'objectif est de faire ressortir, au sein de grands ensembles textuels, des régularités et des ruptures dans les divers axes et niveaux de structuration du discours politique (références à des valeurs, désignations des collectifs sociaux, thématisation d'enjeux, etc.). Dans le cadre de cette recherche, nous avons effectué une catégorisation "en contexte"": chaque occurrence est soumise à une décision. Le catégorisateur doit établir d'abord la pertinence de retenir le terme (a-t-il une signification "forte" et "précise", par rapport à notre grille?) et, le cas échéant, lui attribuer une "étiquette" informatique.

La grille que nous proposons est avant tout un classement empirique des différents objets du discours politique. Elle est empirique dans la mesure où elle a été progressivement construite à partir de l'observation et de la catégorisation effective des divers sous-corpus, dans le but de rendre compte du contenu socio-sémantique qui s'en dégageait. Cela n'exclut cependant pas qu'elle réfère aux dimensions théoriques de l'analyse du discours politique dans la société moderne. C'est ainsi qu'elle permet d'identifier les principaux acteurs, institutions et valeurs travaillés par ce discours. Cette grille devient donc un outil d'analyse. L'application de catégories aux mots du texte n'a pourtant pas l'effet de faire disparaÎtre le mot sous la catégorie. Le système informatique utilisé permet, en effet, d'apposer plusieurs catégories appartenant à des systèmes différents, tout en autorisant l'accès au mot lui-même, indépendamment des catégories qui lui sont attachées.

L'application de la grille se fait selon quatre principes": (a) la catégorisation est exhaustive": tous les noms et adjectifs du corpus font l'objet d'une décision de catégorisation"; (b) les catégories sont exclusives": une occurrence ne peut recevoir qu'une seule catégorie, celle qui correspond à sa signification "prédominante""; (c) la catégorisation est centrée sur la fonction référentielle des mots": deux termes qui ont le même référent reçoivent la même catégorie, indépendamment de leur "connotation" particulière"; (d) la catégorisation tient compte du contexte d'emploi des mots": deux occurrences d'une même forme lexicale peuvent avoir deux référents différents et reçoivent alors deux catégories différentes.

Cette démarche préalable à l'analyse permet de garantir la signification "qualitative" des résultats obtenus par le biais des calculs statistiques": chaque vocable qui apparaÎt dans les tableaux correspond à des occurrences sémantiquement pleines. Par exemple, lorsque le mot unité ressort dans un tableau de cooccurrence, on sait qu'il s'agit d'une association statistiquement significative entre le mot-pôle et l'acception axiologique du terme unité (car les usages non-axiologiques du mot unité -""par exemple, dans l'expression "l'unité de mesure""- ont été écartés lors de la catégorisation socio-sémantique).

La démarche analytique

Notre approche privilégie la fonction référentielle du discours": nous traitons les unités sémantiques (axe paradigmatique) et leurs combinaisons (axe syntagmatique). Le lexique constitue donc la base de notre analyse. Nous y repérons les unités sémantiques à travers les lexèmes mêmes ou des regroupements de lexèmes ayant reçu la même catégorie socio-sémantique, donc sur l'axe paradigmatique. Nous examinons également la dimension contextuelle qui renvoie à l'axe syntagmatique. Sans proposer d'analyse des relations fonctionnelles entre éléments de la phrase comme nous avons pu le faire ailleurs (Duchastel, Paquin et Beauchemin, 1994, 1992"; Bourque et Duchastel, 1988), nous nous intéressons aux relations de cooccurrence dans le contexte de la phrase, à partir du lexique des cooccurrents et des concordances. Nous avons donc un triple accès au sens du texte à travers les mots, leur catégorie et le contexte où ils émergent.

L'analyse a été effectuée à l'aide du logiciel SATO (Système d'Analyse de Textes par Ordinateurs). Ce logiciel est défini par son auteur comme un système de base de données textuelles qui permet d'annoter des textes multilingues et de les manipuler de diverses façons: repérage de concordances, construction de lexiques, catégorisation des mots, dénombrements de tout ordre et analyseurs lexicométriques.(Daoust, 1989: 117).

SATO est un environnement informatique que l'on peut représenter comme une boÎte à outils dans laquelle se trouverait un ensemble d'instruments destinés à l'analyse des données textuelles. En plus de la diversité des outils disponibles, l'originalité principale de SATO réside dans le fait qu'il permet à l'usager d'entretenir un rapport interactif au texte qu'il étudie. Les diverses tâches d'annotation, de production de lexiques, de repérage de concordances ainsi que d'analyse lexicométrique s'effectuent directement à l'écran et peuvent être constamment réitérées ou modifiées. Mais, quelque soient les manipulations et les enrichissements successifs dont le texte est l'objet, le texte original demeure accessible en tout temps.

Les procédures

SATO permet d'abord de produire des lexiques de tous ordres suivant des paramètres fixés par l'utilisateur. On pourra, par exemple, produire le lexique de tous les mots commençant par "constitu" dans les allocutions de la période 1941-1950 dont la fréquence dans le corpus est supérieure à 10 occurrences. Le logiciel produit instantanément un lexique, ventilé par sous-corpus s'ils ont été préalablement définis comme domaines (discours du fédéral, du Québec, des autres provinces), regroupant dans ce cas des mots tels "Constitution", "constitutionnel", "constitutionnelles", etc. Ces lexiques peuvent être ordonnés en fonction de la fréquence des mots qu'ils regroupent ou de leur ordre alphabétique.

SATO facilite également l'étude du covoisinage à travers la production de lexiques de cooccurrences. Le logiciel offre la possibilité de repérer et de dénombrer, suivant une multitude de paramètres possibles, la co-présence de mots. L'analyse s'est ainsi penchée, de diverses manières, sur le fonctionnement discursif du covoisinage, s'intéressant tantôt aux relations qui s'établissent entre des notions afférentes aux valeurs, tantôt aux rapports entre certaines valeurs et des catégories de l'univers social ou encore au réseau que forment les mots eux-mêmes, indépendamment de leur catégorie. Dans ce livre, nous avons privilégié l'étude des cooccurrences en fonction d'un test de signification statistique.

Nous présenterons brièvement le fondement mathématique de ce test. Nous nous intéressons donc à la cooccurrence d'un mot particulier, le mot pôle, avec l'ensemble des mots qui apparaissent avec lui dans un segment donné. Le but de la méthode est d'obtenir la liste des mots cooccurrant avec le mot pôle, pour lesquels la cooccurrence est statistiquement significative, aussi bien lorsque la cooccurrence est surabondante ou au contraire lorsqu'elle est rare. Nous avons retenu la phrase comme segment de référence, considérant que celle-ci représente une unité "naturelle" de sens. Nous considérons donc que l'ensemble des phrases du corpus analysé constitue l'échantillon de référence. Pour une cooccurrence particulière, l'observation est donc la phrase et la variable étudiée (que nous appelons x) est le nombre de phrases contenant cette cooccurrence. La mise en évidence de la significativité de la cooccurrence s'effectuera alors par l'intermédiaire du test statistique suivant":

Soit n le nombre de phrases du corpus.

Soit fp le nombre de phrases contenant le mot pôle.

Soit fc le nombre de phrases contenant le mot cooccurrent dans le corpus.

Soit fpc le nombre de phrases contenant le mot pôle et le mot cooccurrent dans le corpus.

Si la présence des deux mots dans une phrase est due au hasard, la fréquence espérée des phrases contenant les deux mots est :

fp X fc

e = -----

n

et la variable X suit une loi binomiale de paramètres n et e/n.

Formellement, on peut alors tester l'hypothèse nulle que la proportion de phrases contenant le mot pôle et le mot cooccurrent est de e/n sachant qu'on en a fpc dans l'échantillon, l'hypothèse alternative étant l'hypothèse contraire. Si fpc _ e, on calcule la probabilité que X soit supérieur à fpc si la proportion de phrases contenant le mot pôle et le mot cooccurrent est de e/n. Si cette probabilité est excessivement petite, on en conclue que e/n ne peut pas être la proportion de phrases contenant le mot pôle et le mot cooccurrent et on rejette l'hypothèse nulle. Il suffit de fixer un seuil de probabilité en dessous duquel on considère la probabilité comme étant trop faible, par exemple 0.01 (soit 99"% de confiance).

Un autre type de test statistique nous a permis de détecter les notions et les catégories (ensemble de notions sémantiquement proches) nodales -"par période"- et distinctives -"par locuteurs"- du corpus. Pour une période donnée, les notions ou catégories nodales sont celles dont la répartition entre les locuteurs est jugée aléatoire. Autrement dit, ces notions ou catégories ne sont spécifiques à aucun locuteur en particulier. Cela veut dire concrètement que les fréquences relatives sont similaires dans tous les sous-corpus. A l'inverse, mais selon le même principe statistique, les notions ou catégories distinctives sont celles qui apparaissent plutôt concentrées dans l'un des sous-corpus.

Enfin, en raison même de la structure de représentation des données propre à SATO, l'utilisateur peut retourner au texte à tous moments de l'investigation. Il est ainsi possible de retrouver la phrase correspondant aux occurrences ou cooccurrences que l'analyse lexicale aura mises à jour. SATO permet le repérage instantané des concordances à partir de critères de sélection fixés par l'utilisateur. On peut définir la concordance comme la chaÎne syntagmatique (ou la liste des chaÎnes syntagmatiques) comportant l'occurrence d'une ou la cooccurrence de plusieurs formes lexicales sélectionnées. Les mots du texte apparaissent alors en contexte (dont les limites sont définies par l'utilisateur) et peuvent faire l'objet de nouvelles manipulations (nouvelle catégorisation, sous-catégorisation, désambiguïsation, etc.) dont le résultat pourra, par la suite, être réinvestigué. Les concordances sont utilisées lors des opérations de catégorisation, mais aussi afin de valider l'interprétation des lexiques produits par nos modèles de fouille. Nous avons reproduit, dans ce livre, un choix de ces concordances afin d'illustrer la pertinence de ces analyses.