Bienvenue au
Concours Message d'Amour
Présidé par Christian Fortin, m.d. mph, responsable du Groupe de recherche en santé publique au Centre de recherche du Centre hospitalier de l'Université Laval, le Mouvement Jean-Boudreau est une association à but non lucratif et à caractère humanitaire, qui regroupe chercheurs, médecins et sociologues ayant pour but d'influencer les jeunes de façon à induire des changements déterminants quant à leurs comportements sur le plan sexuel.
Le communiqué émis lors du lancement du lancement du concours présente ainsi les objectifs de Message mais sage d'amour.
Au début de 1998, au terme du projet de recherche, le service ATO de l'UQAM a pris entente avec le Dr. Fortin afin de réaliser une première étude du corpus intégral au moyen du logiciel SATO. En général, nous effectuons nos analyses en collaboration avec l'équipe de recherche qui en a défini la problématique. Dans ce cas-ci, comme le projet était terminé, nous avons dû procédé de façon autonome à partir des données brutes et de la seule information publique disponible sur le site Internet du concours. Dans les circonstances, nous avons donc procédé à une première analyse de caractère exploratoire visant à révéler les caractéristiques générales du corpus.Montréal, le 2 décembre 1996. - C'est en présence de centaines de jeunes et de l'artiste Mitsou qu'a été lancé aujourd'hui, à l'école F.A.C.E. de Montréal, le concours "Message mais sage d'amour". L'objectif du concours est de susciter une réflexion et une prise de conscience des jeunes à l'égard de la sexualité, des maladies transmissibles sexuellement et du sida. Si "l'amour, c'est sérieux... faut pas rire de ça", il faut donc en parler...
D'ici au 14 février 1997, jour de la Saint-Valentin, les jeunes de 14 à 25 ans sont invités à raconter, par écrit ou sur bande audio, des histoires décrivant les sentiments et les émotions que ces thèmes éveillent chez eux. Ces histoires, qui peuvent être élaborées individuellement ou en groupe, seront évaluées par un jury composé majoritairement de jeunes. Dans chaque région sociosanitaire, on retiendra une histoire chez les 14-17 ans, une chez les 1821 ans et une chez les 22-25 ans. Parmi toutes les histoires choisies, neuf seront primées à l'échelle nationale. Des prix d'une valeur totale de 55 000 $ seront remis aux gagnantes et aux gagnants, dont 15 000 $ en argent.
Ce concours a la particularité d'être jumelé à un projet de recherche mené conjointement par l'Université du Québec à Montréal et par les deux promoteurs du concours, le Centre de santé publique de Québec et le Mouvement Jean-Boudreau pour la prévention du sida. L'équipe de recherche analysera toutes les histoires reçues et vérifiera si une campagne de prévention élaborée, comme celle-ci, en fonction de la culture, du discours et des valeurs de référence de la jeunesse peut avoir plus de retombées qu'une campagne conçue par des adultes qui comprendraient mal l'univers des jeunes.
Les histoires gagnantes, fruits de l'expérience même des jeunes, seront adaptées sous forme de vidéoclips, de chansons ou de messages de prévention, dont la diffusion est prévue pour septembre 1997 dans les médias, dans le réseau scolaire, dans celui de la santé et dans le milieu de l'intervention communautaire.
Le concours profite de l'appui du ministère de l'Éducation, du ministère de la Santé et des Services sociaux et des commanditaires Glaxo-Wellcome, Ansell Canada, la Banque Scotia, Vidéotron et Cogeco.
(MONTRÉAL, 2 DÉCEMBRE 1996: LANCEMENT DU CONCOURS MESSAGE mais sage D'AMOUR)
Le volet textuel consiste en un ensemble de textes en français et en anglais saisis sur traitement de texte. Chaque texte correspond à la contribution d'un partipant au concours Message d'amour. Les textes nous sont parvenus groupés dans quelques fichiers sous divers formats. Nous les avons normalisés et exportés en format texte (Isolatin). La notice sur la codification originale du document (manuscrit, cassette audio, etc.) a été transformée en commentaire SATO pour la distinguer du texte plein. Certains des fichiers de données contenaient des anomalies qui ont entraîné la suppression de quelques textes. Le corpus épuré et mis en forme pour SATO contient finalement 632 textes totalisant 547067 mots et ponctuations.
Le volet quantitatif nous est parvenue sous la forme d'un tableau Excel dont chaque ligne correspond à un texte alors que chaque colonne contient des données codées sur les textes et leur auteur.
Les lignes du tableau Excel ne correspondaient plus aux textes du corpus épuré. Il a donc fallu refaire l'apariement entre les données quantitatives et le texte plein. Il a fallu vérifier les entrées une par une pour ne conserver du tableau que les 632 lignes correspondant aux bons textes. Une fois cet apariement réalisé, la première étape a consisté à associer à chacun des textes la donnée du tableau qui identifiait la langue du texte. En couplant cette variable avec une analyse du vocabulaire des textes, on a pu procéder à une validation des données pour corriger l'appariement des textes avec les lignes de données. Cela a aussi été l'occasion de découvrir que le tableau de données comportait des erreurs d'identification de la langue. Ces erreurs ont été corrigées. Finalement, une deuxième mise en forme du texte a permis de distinguer le lexique des textes en anglais du lexique des textes en français.
Il était donc maintenant possible d'apparier d'autres données du tableau avec chacun des textes du corpus de façon à procéder à une analyse différentielle des textes selon leur profil sociologique. Le tableau de données comporte beaucoup de dimensions. À défaut d'indications précises sur l'intérêt des diverses variables, on s'est concentré sur les variables les plus générales: le sexe, le groupe d'âge et la région d'habitation.
Analyse descriptive
Ventilation selon la langue
Nombre de lexèmes sélectionnés: 25380 Fréquence cumulée: 547067 Lexèmes %Lex Occurr. %Occ. Alphabet 21539 84.87% 510607 93.34% fr 3841 15.13% 36460 6.66% en
On remarque que le corpus est en français à plus de 93%. Étant donné que l'analyse lexicale doit s'appliquer à des lexiques de la même langue, la constitution des sous-textes et les analyses lexicométriques ne seront appliquées qu'aux textes en français. Il est à noter qu'on peut aussi réaliser des analyses catégorielles sur des lexiques multilingues étiquetés.
Ventilation selon le sexe
Nombre de lexèmes sélectionnés: 25380 Nombre d'occurrences sélectionnés: 547067 Occurr. %Occ. Sexe 450261 82.30% 0 (filles) 96806 17.70% 1 (garçons)
Les textes rédigés par les filles représentent plus de 82% du corpus. Il est possible que cet écart donne un poids plus important au vocabulaire employé par les garçons. Ce biais ne devrait cependant pas être trop important car le sous-corpus associé aux garçons est quand même assez volumineux.
Ventilation selon le groupe d'âge
Nombre de lexèmes sélectionnés: 25380 Nombre d'occurrences sélectionnés: 547067 Occurr. %Occ. GrAge 393457 71.92% 1 (14-17 ans) 120217 21.97% 2 (18-21 ans) 33393 6.10% 3 (22-25 ans)
Ici aussi, on note une stratification du corpus en parties très inégales. Le sous-corpus associé au groupe d'âge codé «3» est moins susceptible d'avoir atteint la saturation lexicale.
Ventilation selon le code de région
Nombre de lexèmes sélectionnés: 25380 Nombre d'occurrences sélectionnés: 547067 Occurr. %Occ. Région 129384 23.65% 3 82455 15.07% 16 75845 13.86% 6 37254 6.81% 12 31185 5.70% 2 30306 5.54% 14 28130 5.14% 15 27834 5.09% 4 22007 4.02% 1 14733 2.69% 13 13273 2.43% 7 11745 2.15% 9 11451 2.09% 5 11185 2.04% 11 7170 1.31% 8 6460 1.18% 17 5127 0.94% 10 1523 0.28% 99
Les trois régions codées «3», «16» et «6» font plus de 50% du corpus alors que les 15 autres se partagent le reste. Il est certain que la statistique lexicale appliquée aux régions les moins représentées risque d'être peu significative.
Ventilation selon la catégorie grammaticale des lexèmes français
Nombre de lexèmes sélectionnés: 21539 Fréquence cumulée: 510607 Lexèmes %Lex Occurr. %Occ. Gramr 6645 30.85% 139736 27.37% Nomcom 6297 29.24% 74295 14.55% Vconj 4180 19.41% 45283 8.87% Adjqua 3706 17.21% 12992 2.54% nil 2630 12.21% 26442 5.18% Vparpas 1239 5.75% 18701 3.66% Vinf 554 2.57% 3399 0.67% Vparpré 395 1.83% 48629 9.52% Adv 260 1.21% 13377 2.62% Adjnum 117 0.54% 1161 0.23% Rés 53 0.25% 51831 10.15% Pré 48 0.22% 41566 8.14% Con 31 0.14% 12432 2.43% Adjpos 31 0.14% 23336 4.57% Proind 30 0.14% 7894 1.55% Adjind 30 0.14% 1124 0.22% Int 21 0.10% 72898 14.28% Proper 19 0.09% 1061 0.21% Abr 16 0.07% 10025 1.96% Dél 13 0.06% 10605 2.08% Proint 10 0.05% 116 0.02% Adjrel 10 0.05% 8763 1.72% Prodém 9 0.04% 16075 3.15% Proréf 8 0.04% 33544 6.57% Artdéf 7 0.03% 58492 11.46% Pon 6 0.03% 15353 3.01% Prorel 5 0.02% 40 0.01% Mor 4 0.02% 5234 1.03% Adjdém 4 0.02% 204 0.04% Adjint 3 0.01% 12281 2.41% Artind 2 0.01% 4498 0.88% Artpar 1 0.00% 115 0.02% Adjexc 1 0.00% 295 0.06% ProexcLe tableau précédent nous indique qu'il y a un nombre assez élevé de mots qui ne sont pas reconnus par le dictionnaire. Il peut s'agir de québécismes ou de termes techniques, de fautes d'orthographe ou de noms propres. Une lecture du lexique des mots non reconnus nous a permis de catégoriser manuellement les québécismes et les termes techniques, comme des mots associés à des maladies. On a aussi constaté qu'il y a beaucoup de noms propres, ce qui est normal dans le cas de récits. Il y a aussi bon nombre d'erreurs orthographiques, notamment des fautes d'accents qui sont peut-être causées par des problèmes de conversion de fichiers. Dans une analyse plus poussée, il serait utile de corriger les fautes les plus fréquentes, ce qui est assez facile avec SATO.
Dans l'analyse lexicométrique de distance, nous allons exclure les mots non reconnus avec l'objectif en fait d'exclure les noms propres qui sont spécifiques à des récits et qui ne doivent pas être pris en compte dans la différenciation lexicale.
Après avoir catégorisé manuellement certains mots non reconnus, on obtient une correction mineure à la distribution des catégories grammaticales, comme en fait foi le tableau suivant.
Description de la propriétés Gramr Filtre: $*alphabet=fr Nombre de lexèmes sélectionnés: 21539 / 25380 (84.87 %) Fréqtot cumulée: 510607 / 547067 (93.34 %) Lexèmes %Lex Occ. %Occ Gramr 6661 30.93% 140405 27.50% Nomcom 6298 29.24% 74307 14.55% Vconj 4187 19.44% 45332 8.88% Adjqua 3679 17.08% 12220 2.39% nil 2630 12.21% 26442 5.18% Vparpas 1239 5.75% 18701 3.66% Vinf 554 2.57% 3399 0.67% Vparpré 396 1.84% 48636 9.53% Adv 260 1.21% 13377 2.62% Adjnum 117 0.54% 1161 0.23% Rés 53 0.25% 51831 10.15% Pré 48 0.22% 41566 8.14% Con 32 0.15% 1159 0.23% Int 31 0.14% 12432 2.43% Adjpos 31 0.14% 23336 4.57% Proind 30 0.14% 7894 1.55% Adjind 21 0.10% 72898 14.28% Proper 19 0.09% 1061 0.21% Abr 16 0.07% 10025 1.96% Dél 13 0.06% 10605 2.08% Proint 10 0.05% 116 0.02% Adjrel 10 0.05% 8763 1.72% Prodém 9 0.04% 16075 3.15% Proréf 8 0.04% 33544 6.57% Artdéf 7 0.03% 58492 11.46% Pon 6 0.03% 15353 3.01% Prorel 5 0.02% 40 0.01% Mor 4 0.02% 5234 1.03% Adjdém 4 0.02% 204 0.04% Adjint 3 0.01% 12281 2.41% Artind 2 0.01% 4498 0.88% Artpar 1 0.00% 115 0.02% Adjexc 1 0.00% 295 0.06% Proexc
Analyseur DISTANCE Filtre: $*Alphabet=fr*gramr~nil*Fréqtot>2 distance: 4.39 distance/dimension: 0.00 liste des unités contribuant le plus à la distance: * Fréqtot Sexe0 Sexe1 explique cumul 0.01 0.00 0.06 1.09 1.09 plan 0.30 0.27 0.51 1.00 2.09 vous 0.13 0.11 0.25 0.87 2.97 ( 0.14 0.12 0.27 0.82 3.79 ) 0.03 0.02 0.08 0.53 4.32 jean 0.00 0.00 0.02 0.48 4.80 caméra 0.00 0.00 0.02 0.44 5.24 am 0.00 0.00 0.02 0.44 5.68 gardien 1.49 1.66 1.31 0.43 6.11 je * 0.00 0.00 0.02 0.41 6.52 maria 0.03 0.02 0.07 0.40 6.92 voix 0.75 0.85 0.61 0.39 7.31 j' * 0.55 0.63 0.43 0.37 7.68 me * 0.00 0.00 0.01 0.37 8.05 q 0.02 0.01 0.04 0.31 8.36 vos 0.00 0.00 0.02 0.31 8.67 changement 0.00 0.00 0.01 0.30 8.97 colibri 0.00 0.00 0.01 0.29 9.26 cochon 0.00 0.00 0.01 0.26 9.51 chante 0.00 0.00 0.01 0.26 9.77 rapproché 0.40 0.46 0.32 0.24 10.01 m' * 0.00 0.00 0.01 0.23 10.24 casino 0.00 0.00 0.01 0.23 10.48 profil 0.05 0.05 0.10 0.22 10.70 marie 0.00 0.00 0.01 0.22 10.92 dés 0.02 0.02 0.05 0.21 11.13 risque 0.00 0.00 0.01 0.21 11.35 taux 0.00 0.00 0.02 0.21 11.55 ailes 0.00 0.00 0.01 0.20 11.75 do 0.00 0.00 0.01 0.20 11.95 gymnase 0.00 0.00 0.01 0.20 12.15 lancez 0.00 0.00 0.01 0.20 12.35 ml 0.00 0.00 0.01 0.20 12.55 obtenez 0.88 0.98 0.80 0.20 12.75 pas * 4.73 5.14 4.72 0.19 12.94 . * 0.31 0.32 0.42 0.19 13.13 au 0.00 0.00 0.01 0.19 13.33 humanité 0.00 0.00 0.01 0.19 13.52 déplacement 0.00 0.00 0.01 0.19 13.71 g 0.00 0.00 0.01 0.18 13.89 chair 1.03 1.07 1.26 0.18 14.07 - 0.02 0.02 0.04 0.17 14.24 rendez 0.01 0.00 0.02 0.17 14.41 gang 0.47 0.53 0.41 0.17 14.58 ai * 0.00 0.00 0.01 0.17 14.75 apparence 0.00 0.00 0.01 0.17 14.92 ajoutez 0.00 0.00 0.01 0.17 15.08 char 0.00 0.00 0.01 0.17 15.25 entrez 0.00 0.00 0.01 0.17 15.41 orchidée 0.00 0.00 0.01 0.17 15.58 ré
L'astérisque renvoie au vocabulaire caractéristique du sexe codé «0» (filles). Les mots non marqués sont caractéristiques du vocabulaire utilisé par le sexe codé «1» (garçons). La liste est triée en donnant priorité aux mots qui distinguent le plus les deux sous-textes. Ce qui frappe d'abord, c'est la position des locuteurs. Les textes rédigés par les filles prennent une position plus personnelle. On y trouve une dominance de la première personne du singulier («je», «j'», «me», «m'» et «ai). À l'inverse, les garçons privilégient «vous» et «vos». Il est à remarquer que nous n'avons pas bloqué les mots composés, ce qu'il aurait été possible de faire. La présence de «rendez» et du trait d'union «-» suggère aussi que les garçons utilisent de façon particulière l'expression «rendez-vous»! Mais on trouve aussi beaucoup d'autres verbes à la deuxième personne du pluriel qui suggèrent l'emploi du «vous» à l'indicatif présent ou à l'impératif présent. Il faudrait confirmer en lisant les contextes mais, visiblement, le ton utilisé par les garçons est beaucoup moins intimiste que celui utilisé par les filles.
On note d'autres indications stylistiques qui pourraient être significative. Pourquoi les filles utilisent-elles davantage le «pas»? Il s'agit probablement de l'adverbe de négation. Les garçons utilisent beaucoup les parenthèses. Il peut s'agir d'un tic d'auteur mais ça peut aussi être un indice d'une plus grande présence de notes techiques. Il faudrait vérifier les contextes.
Autrement, la plupart des termes pleins distinctivement utilisés le sont par les garçons. On trouve certains noms communs homographes avec des noms propres («jean», «maria», «marie»). Si nous avions appliqué le scénario SATO de dépistage des noms propres, on aurait probablement éliminé ces mots. Sinon, on trouve «plan», «caméra», «am», «gardien», «voix», «changement», «colibri», «cochon», «casino», «profil», etc.
Analyse du vocabulaire des 14-17 ans
Analyseur DISTANCE Filtre: $*Alphabet=fr*gramr~nil*Fréqtot>2 distance: 3.71 distance/dimension: 0.00 liste des unités contribuant le plus à la distance: * Fréqtot Age1 ~Age1 explique cumul 4.73 5.13 3.91 2.30 2.30 . * 1.03 1.21 0.66 2.14 4.44 - * 4.30 4.56 3.77 1.05 5.49 , * 1.49 1.63 1.21 0.88 6.37 je * 1.04 1.15 0.82 0.74 7.11 elle * 0.54 0.62 0.39 0.72 7.83 était * 1.42 1.54 1.18 0.67 8.50 à * 2.66 2.81 2.35 0.59 9.09 de * 0.49 0.55 0.36 0.56 9.65 " * 1.26 1.36 1.05 0.55 10.20 que * 1.45 1.56 1.24 0.52 10.72 le * 0.27 0.31 0.17 0.52 11.24 ils * 0.30 0.34 0.20 0.52 11.75 vous * 0.40 0.46 0.29 0.51 12.27 m' * 1.13 1.22 0.95 0.49 12.75 il * 0.50 0.55 0.38 0.44 13.20 lui * 1.56 1.66 1.35 0.43 13.63 et * 0.76 0.83 0.62 0.43 14.06 une * 0.79 0.86 0.65 0.39 14.45 ne * 0.01 0.00 0.03 0.37 14.82 plan 0.55 0.61 0.45 0.32 15.14 me * 0.00 0.00 0.01 0.32 15.46 magnolia 0.10 0.12 0.05 0.30 15.77 tard * 0.15 0.18 0.10 0.30 16.07 après * 0.36 0.40 0.28 0.30 16.36 ? * 1.01 1.08 0.88 0.28 16.65 un * 1.13 1.20 0.99 0.28 16.93 l' * 0.35 0.39 0.28 0.28 17.21 nous * 0.75 0.81 0.64 0.27 17.48 qu' * 0.63 0.68 0.53 0.26 17.74 pour * 0.75 0.81 0.64 0.26 18.01 j' * 0.88 0.94 0.76 0.26 18.26 pas * 0.38 0.41 0.30 0.25 18.51 tout * 1.54 1.61 1.38 0.25 18.77 la * 0.53 0.58 0.44 0.25 19.02 n' * 0.49 0.53 0.40 0.24 19.26 mais * 0.55 0.60 0.46 0.24 19.49 plus * 0.06 0.08 0.03 0.24 19.73 virus * 0.38 0.41 0.31 0.22 19.95 son * 0.07 0.09 0.04 0.21 20.16 étaient * 0.13 0.15 0.09 0.21 20.36 car * 0.43 0.46 0.35 0.21 20.57 tu * 0.16 0.18 0.11 0.20 20.77 deux * 0.05 0.07 0.03 0.20 20.97 marie * 0.15 0.17 0.10 0.20 21.17 avais * 0.11 0.13 0.07 0.20 21.36 étais * 0.43 0.46 0.35 0.20 21.56 s' * 0.04 0.06 0.02 0.20 21.75 école * 0.10 0.12 0.07 0.20 21.95 mois * 0.11 0.13 0.07 0.19 22.14 chez *
L'âge codé «1» correspond au groupe des 14-17ans. Dans cette analyse ~Age1 désigne le complément de Age1, donc le nombre total d'occurrences de chaque mot moins le nombre d'occurrences dans les textes appartenant au groupe des 14-17ans.
Comme on l'a vu, le groupe des 14-17ans fait à lui seul 72% du corpus. On y voit clairement des différences stylistiques. Les phrases sont plus courtes (il y a plus de points). L'usage important du trait d'union est peut-être relié à l'usage du style direct (dialogues). On y trouve un usage important des pronoms personnels à toutes les personnes. On y utilise davantage le point d'interrogation et la négation («pas» et «ne»). En termes de mots pleins, on trouve «plan», «virus», «école»
Analyse du vocabulaire des 18-21 ans
Analyseur DISTANCE Filtre: $*Alphabet=fr*gramr~nil*Fréqtot>2 distance: 3.76 distance/dimension: 0.00 liste des unités contribuant le plus à la distance: * Fréqtot Age2 ~Age2 explique cumul 0.01 0.05 0.00 1.06 1.06 plan * 0.40 0.56 0.36 0.66 1.72 ... * 0.00 0.02 0.00 0.51 2.23 caméra * 0.05 0.09 0.04 0.45 2.68 ta * 1.03 0.83 1.08 0.44 3.12 - 0.00 0.02 0.00 0.41 3.54 gardien * 0.01 0.02 0.00 0.38 3.92 rose * 0.00 0.01 0.00 0.36 4.28 benjamin * 0.80 0.95 0.77 0.31 4.59 en * 0.47 0.59 0.44 0.30 4.89 des * 4.30 4.64 4.21 0.30 5.19 , * 0.00 0.02 0.00 0.28 5.47 changement * 2.66 2.91 2.59 0.27 5.74 de * 0.36 0.45 0.34 0.24 5.97 on * 0.07 0.11 0.06 0.23 6.21 ton * 0.01 0.03 0.01 0.23 6.44 bar * 0.35 0.43 0.33 0.23 6.67 : * 0.00 0.01 0.00 0.22 6.89 argentin * 0.00 0.01 0.00 0.22 7.11 joué * 0.47 0.57 0.45 0.21 7.32 ai * 0.29 0.36 0.27 0.21 7.53 ma * 0.02 0.04 0.02 0.20 7.74 cas * 0.35 0.43 0.33 0.20 7.94 du * 0.05 0.08 0.05 0.20 8.14 homme * 0.00 0.01 0.00 0.19 8.32 do * 0.00 0.01 0.00 0.19 8.51 ml * 0.00 0.01 0.00 0.19 8.70 originale * 0.00 0.01 0.00 0.18 8.88 96 * 0.00 0.01 0.00 0.18 9.06 déplacement * 0.00 0.01 0.00 0.18 9.24 rapproché * 0.03 0.05 0.02 0.17 9.40 voix * 0.00 0.01 0.00 0.17 9.57 fût * 0.00 0.01 0.00 0.17 9.74 étape * 0.13 0.17 0.12 0.16 9.90 ( * 0.01 0.02 0.00 0.16 10.05 herpès * 0.00 0.00 0.00 0.16 10.21 guitare * 0.00 0.00 0.00 0.16 10.37 messe * 0.00 0.00 0.00 0.16 10.52 ré * 0.00 0.00 0.00 0.16 10.68 vacciner * 0.04 0.07 0.04 0.15 10.83 entre * 0.51 0.60 0.49 0.15 10.98 c' * 0.00 0.01 0.00 0.15 11.13 baisé * 0.00 0.01 0.00 0.15 11.28 descend * 0.00 0.01 0.00 0.15 11.42 fa * 0.00 0.01 0.00 0.15 11.57 profil * 0.00 0.01 0.00 0.15 11.72 teintes * 0.00 0.01 0.00 0.15 11.87 puce * 0.01 0.02 0.01 0.15 12.01 départ * 0.15 0.20 0.14 0.15 12.16 t' * 0.04 0.07 0.04 0.14 12.30 bon *
Le groupe des 18-21 ans représente 22% du corpus. On y note une utilisation plus prononcée du tutoiement («ta», «ton», «t'») et l'usage du pronom impersonnel «on». Aussi, on y voit beaucoup plus de mots pleins. Plusieurs semblent être associés au monde des arts (cinéma, musique, sorties) : «plan», «caméra», «changement», «argentin», «do,», «original», «voix», , «guitare», «profil», «teintes», «bar», «gardien». D'autres ont des connotations sexuelles: «herpès», «baisé».
Analyse du vocabulaire des 22-25 ans
Analyseur DISTANCE Filtre: $*Alphabet=fr*gramr~nil*Fréqtot>2 distance: 6.66 distance/dimension: 0.00 liste des unités contribuant le plus à la distance: * Fréqtot Age3 ~Age3 explique cumul 0.00 0.08 0.00 3.02 3.02 magnolia * 0.00 0.03 0.00 1.05 4.07 colibri * 0.00 0.03 0.00 1.04 5.12 pi * 0.00 0.03 0.00 0.68 5.80 démon * 0.00 0.04 0.00 0.65 6.45 ailes * 0.01 0.07 0.01 0.64 7.09 partenaire * 0.00 0.02 0.00 0.58 7.67 orchidée * 0.61 0.98 0.59 0.57 8.24 a * 0.00 0.01 0.00 0.47 8.70 gagnante * 0.00 0.01 0.00 0.47 9.17 gono * 0.00 0.01 0.00 0.47 9.63 parfums * 0.00 0.02 0.00 0.43 10.07 individu * 0.00 0.02 0.00 0.39 10.46 menant * 0.95 1.33 0.93 0.39 10.85 est * 0.00 0.01 0.00 0.36 11.21 buts * 0.01 0.04 0.01 0.36 11.57 sexuel * 0.00 0.03 0.00 0.35 11.92 chemins * 0.00 0.01 0.00 0.35 12.27 abeilles * 0.00 0.01 0.00 0.35 12.62 acteurs * 0.00 0.01 0.00 0.35 12.97 administratives * 0.00 0.01 0.00 0.35 13.32 pleut * 0.00 0.01 0.00 0.35 13.67 possibilités * 4.30 5.03 4.25 0.32 13.98 , * 0.07 0.16 0.06 0.32 14.30 parce * 0.00 0.02 0.00 0.29 14.59 miel * 0.00 0.01 0.00 0.29 14.88 acceptation * 0.00 0.01 0.00 0.29 15.17 sketch * 0.01 0.05 0.01 0.28 15.45 connaître * 1.54 1.94 1.51 0.27 15.73 la * 0.00 0.02 0.00 0.26 15.98 papillons * 0.00 0.01 0.00 0.25 16.23 auteure * 0.00 0.01 0.00 0.25 16.48 créatures * 0.00 0.01 0.00 0.25 16.73 dansent * 0.00 0.01 0.00 0.25 16.98 lacs * 0.00 0.01 0.00 0.25 17.23 légèreté * 0.00 0.01 0.00 0.25 17.49 paysages * 0.00 0.01 0.00 0.25 17.74 plate * 0.00 0.01 0.00 0.25 17.99 répétition * 0.00 0.01 0.00 0.25 18.24 vola * 0.00 0.01 0.00 0.25 18.49 écoulement * 0.02 0.06 0.02 0.25 18.73 condoms * 0.00 0.01 0.00 0.24 18.98 condylômes * 0.00 0.01 0.00 0.24 19.22 défaite * 0.00 0.01 0.00 0.24 19.46 nouveauté * 0.36 0.55 0.35 0.24 19.70 on * 0.02 0.07 0.02 0.23 19.92 chum * 0.03 0.07 0.02 0.22 20.15 ben * 0.00 0.02 0.00 0.22 20.37 valeurs * 0.02 0.05 0.01 0.22 20.59 parfois * 0.47 0.68 0.46 0.22 20.81 des *
Le groupe des 22-25 ans est très petit. Il représente 6% du corpus. Plus un corpus est petit, plus les termes associés aux particularités du corpus sont susceptibles de prendre de l'importance. Ainsi, les mots «magnola», «colibri», «parfums», «orchidés», «ailes», «abeilles», «miel», «papillons»,«démons» sont probablement reliés à leur dominance dans quelques récits. Ils semblent faire partie d'une thématique narrative assez serrée. Donc, d'un côté on semble avoir une imagerie romantique et, secondairement, une thématique sexuelle avec beaucoup de termes associés aux MTS : «partenaire», «gono», «sexuel», «écoulement», «condoms», «condylomes». Il serait intéressants de vérifier si ces thématiques coexistent chez les mêmes auteurs ou, au contraire, s'ils distinguent les auteurs. Il y a des techniques SATO qui permettraient de voir cela, en plus de l'approche qualitative.
Comparaison entre le vocabulaire utilisé par la région 3 et le reste du corpus
Analyseur DISTANCE Filtre: $*alphabet=fr*gramr~nil*freqtot>2 distance: 3.59 distance/dimension: 0.00 liste des unités contribuant le plus à la distance: * Fréqtot Rég3 ~Rég3 explique cumul 0.00 0.02 0.00 0.69 0.69 jade * 4.73 5.19 4.59 0.59 1.28 . * 0.04 0.00 0.06 0.54 1.82 * 2.66 2.96 2.56 0.46 2.28 de * 0.00 0.02 0.00 0.44 2.72 am * 0.28 0.37 0.25 0.39 3.11 amour * 0.00 0.01 0.00 0.36 3.47 manuel * 0.30 0.38 0.27 0.35 3.82 vous * 0.01 0.02 0.00 0.35 4.17 décidèrent * 0.00 0.01 0.00 0.34 4.51 taux * 1.13 1.30 1.08 0.33 4.84 il * 4.30 4.61 4.20 0.29 5.14 , * 0.09 0.13 0.08 0.29 5.43 aller * 0.00 0.01 0.00 0.28 5.71 q * 0.00 0.01 0.00 0.26 5.97 g * 0.00 0.01 0.00 0.26 6.22 maria * 0.08 0.12 0.07 0.25 6.48 condom * 0.43 0.51 0.40 0.23 6.70 tu * 0.02 0.04 0.01 0.22 6.93 décida * 0.02 0.03 0.01 0.22 7.15 / * 0.48 0.39 0.51 0.22 7.37 ! 0.00 0.01 0.00 0.22 7.59 cochon * 0.04 0.06 0.03 0.22 7.81 votre * 0.00 0.01 0.00 0.21 8.02 équipe * 0.55 0.64 0.53 0.20 8.21 plus * 1.45 1.60 1.41 0.19 8.41 le * 0.01 0.02 0.01 0.19 8.60 p * 0.63 0.73 0.60 0.18 8.78 pour * 0.00 0.01 0.00 0.18 8.96 78 * 0.00 0.01 0.00 0.18 9.14 argentin * 0.00 0.01 0.00 0.18 9.32 aujourd`hui * 0.00 0.01 0.00 0.18 9.50 casino * 0.00 0.01 0.00 0.18 9.68 cellule * 0.00 0.01 0.00 0.18 9.86 football * 0.04 0.06 0.03 0.18 10.04 protéger * 0.10 0.13 0.08 0.17 10.20 tard * 0.27 0.32 0.25 0.16 10.37 ils * 1.01 1.12 0.98 0.16 10.53 un * 0.12 0.16 0.11 0.16 10.69 toi * 1.56 1.69 1.52 0.16 10.85 et * 0.02 0.03 0.02 0.16 11.00 rendez * 0.00 0.01 0.00 0.15 11.16 chair * 0.50 0.57 0.47 0.15 11.31 lui * 0.00 0.00 0.00 0.15 11.46 bêtes * 0.00 0.00 0.00 0.15 11.62 lancez * 0.00 0.00 0.00 0.15 11.77 notaire * 0.00 0.00 0.00 0.15 11.93 obtenez * 0.00 0.00 0.00 0.15 12.08 pendule * 0.00 0.00 0.00 0.15 12.23 valentine * 0.15 0.20 0.14 0.15 12.39 très *
La région 3 constitue 23.65% du corpus et compte 128888 occurrences de mots en français. Les phrases y sont plus courtes que dans le reste du Québec si on doit se fier à la plus grande utilisation du point. On y note une utilisation dominante du pronom «vous». et une absence significative du «!». Les mots pleins qui dominent sont : «jade», «amour», «manuel» (s'il ne s'agit pas du nom propre Manuel), «taux», «condon», «cochon», «équipe», «argentin», «casino», «cellule», «football».
Comparaison entre le vocabulaire utilisé par la région 16 et le reste du corpus
Analyseur DISTANCE Filtre: $*alphabet=fr*gramr~nil*freqtot>2 distance: 4.08 distance/dimension: 0.00 liste des unités contribuant le plus à la distance: * Fréqtot Rég1 ~Rég1 explique cumul 0.01 0.05 0.00 1.84 1.84 ève * 4.30 5.11 4.16 1.28 3.12 , * 1.49 1.83 1.43 0.63 3.75 je * 0.00 0.01 0.00 0.50 4.25 paragraphe * 0.00 0.01 0.00 0.45 4.70 clémentine * 0.00 0.01 0.00 0.45 5.15 colibri * 0.35 0.49 0.33 0.44 5.59 mon * 0.38 0.51 0.35 0.41 6.00 tout * 0.00 0.01 0.00 0.35 6.35 maya * 0.00 0.01 0.00 0.34 6.69 poignard * 0.40 0.53 0.38 0.31 7.00 m' * 0.35 0.24 0.37 0.26 7.25 : 0.02 0.04 0.01 0.25 7.51 ah * 0.00 0.01 0.00 0.25 7.75 orchidée * 0.00 0.01 0.00 0.25 8.00 sinistres * 0.00 0.01 0.00 0.25 8.25 miel * 1.56 1.77 1.52 0.23 8.48 et * 0.00 0.01 0.00 0.22 8.70 toit * 0.00 0.01 0.00 0.21 8.91 donnent * 0.00 0.00 0.00 0.20 9.11 entrepôt * 0.00 0.00 0.00 0.20 9.31 jouaient * 0.00 0.00 0.00 0.20 9.51 obsédé * 0.00 0.01 0.00 0.19 9.70 plaie * 0.00 0.01 0.00 0.19 9.90 poisson * 0.00 0.01 0.00 0.19 10.09 déroulée * 0.00 0.01 0.00 0.19 10.29 gare * 0.00 0.01 0.00 0.19 10.48 poissons * 0.00 0.01 0.00 0.19 10.67 écrits * 1.04 1.19 1.02 0.18 10.86 elle * 0.40 0.50 0.39 0.18 11.04 ... * 0.00 0.01 0.00 0.18 11.22 endurer * 0.06 0.09 0.05 0.18 11.39 ' * 0.00 0.01 0.00 0.17 11.56 exactement * 0.02 0.04 0.02 0.17 11.73 réalité * 0.47 0.57 0.46 0.17 11.90 ai * 0.00 0.01 0.00 0.16 12.06 parc * 0.18 0.24 0.17 0.16 12.22 mes * 0.55 0.66 0.54 0.16 12.38 me * 0.00 0.01 0.00 0.16 12.54 étrange * 0.00 0.01 0.00 0.16 12.70 courut * 0.00 0.01 0.00 0.15 12.85 intelligents * 0.00 0.01 0.00 0.15 13.01 précipite * 0.05 0.08 0.04 0.15 13.16 leurs * 0.00 0.01 0.00 0.15 13.31 doigt * 1.42 1.58 1.39 0.15 13.46 à * 0.00 0.00 0.00 0.15 13.61 accrochant * 0.00 0.00 0.00 0.15 13.76 acteurs * 0.00 0.00 0.00 0.15 13.91 déceler * 0.00 0.00 0.00 0.15 14.06 frontière * 0.00 0.00 0.00 0.15 14.21 interrogea *
La région 16 constitue 15.07% du corpus et compte 81276 occurrences de mots en français. On y note une dominance de la première personne («je», «mon», «m'»). Parmi les mots pleins, on trouve : «paragraphe», «clémentine», «colibri», «maya», «poignard», «orchidée».
Comparaison entre le vocabulaire utilisé par la région 6 et le reste du corpus
Analyseur DISTANCE Filtre: $*alphabet=fr*gramr~nil*freqtot>2 distance: 4.78 distance/dimension: 0.00 liste des unités contribuant le plus à la distance: * Fréqtot Rég6 ~Rég6 explique cumul 0.01 0.07 0.00 1.58 1.58 > * 0.01 0.06 0.01 1.00 2.57 > * 0.00 0.02 0.00 0.72 3.30 pi * 0.38 0.57 0.35 0.57 3.87 avait * 0.00 0.01 0.00 0.49 4.35 do * 0.00 0.01 0.00 0.49 4.84 ml * 0.00 0.02 0.00 0.42 5.26 joué * 0.00 0.02 0.00 0.41 5.67 croix * 0.00 0.01 0.00 0.41 6.08 ré * 0.00 0.01 0.00 0.40 6.48 fa * 0.00 0.01 0.00 0.36 6.84 chante * 0.01 0.05 0.01 0.36 7.20 pierre * 0.02 0.05 0.01 0.35 7.55 frère * 0.00 0.01 0.00 0.32 7.87 sauna * 0.00 0.01 0.00 0.32 8.19 psychiatre * 0.00 0.01 0.00 0.32 8.51 ajouta * 1.13 1.38 1.11 0.28 8.80 il * 0.01 0.03 0.01 0.25 9.05 seize * 0.00 0.01 0.00 0.25 9.30 messe * 0.00 0.01 0.00 0.24 9.54 bill * 0.00 0.01 0.00 0.24 9.78 dispute * 0.00 0.01 0.00 0.24 10.03 fantôme * 0.00 0.01 0.00 0.24 10.27 faveurs * 0.00 0.01 0.00 0.24 10.51 filtre * 0.00 0.01 0.00 0.24 10.76 souvenu * 0.00 0.01 0.00 0.24 11.00 voleur * 0.30 0.18 0.31 0.24 11.24 vous 0.02 0.04 0.01 0.23 11.47 copain * 0.00 0.01 0.00 0.22 11.69 quelquefois * 0.01 0.02 0.01 0.21 11.90 faible * 0.29 0.39 0.27 0.20 12.10 sa * 0.05 0.01 0.06 0.20 12.30 marie 0.38 0.49 0.36 0.19 12.49 son * 0.00 0.01 0.00 0.19 12.69 emmener * 0.00 0.01 0.00 0.19 12.88 gai * 0.00 0.01 0.00 0.19 13.07 courageuse * 0.35 0.46 0.34 0.18 13.25 du * 0.75 0.91 0.74 0.17 13.42 j' * 0.00 0.02 0.00 0.17 13.59 paix * 0.00 0.01 0.00 0.17 13.76 aida * 0.00 0.01 0.00 0.17 13.93 article * 0.00 0.01 0.00 0.17 14.10 coffre * 0.00 0.01 0.00 0.17 14.27 cupidon * 0.00 0.01 0.00 0.17 14.44 désagréable * 0.00 0.01 0.00 0.17 14.61 gamin * 0.00 0.01 0.00 0.17 14.78 guérie * 0.00 0.01 0.00 0.17 14.95 hi * 0.00 0.01 0.00 0.17 15.12 insista * 0.00 0.01 0.00 0.17 15.29 somme * 0.00 0.01 0.00 0.17 15.45 sports *
La région 6 constitue 13.86% du corpus et compte 54295 occurrences de mots en français. Dans cette région, on trouve plusieurs mots renvoyant à la musique : «do», «joué», «ré», «fa», «chante». On trouve le mot «psychiatre» et des mots faisant davantage allusion à une réalité homosexuelle : «sauna» et «gai». On trouve des mots suggérant la religion : «croix», «messe». On y note une absence significative du pronom «vous».
Éléments de conclusion
Dans une analyse de corpus, la première analyse descriptive a pour objectif de saisir les grandes caractéristiques d'un corpus: dimension, stratification, saturation et caractéristiques lexicales. Cette étape est essentielle pour bien saisir la nature du corpus et les biais possibles associés à sa constitution. Cette première analyse permet aussi de dégager la pertinence de certains traitement comme la correction orthographique, la catégorisation grammaticale, le dépistage des locutions et expressions. Elle permet aussi de saisir l'étendue des diverses variables sociologiques. Dans la présente analyse d'ailleurs, nous n'avons pas épuisé la description de ces variables qui sont très nombreuses et dont l'importance nous est inconnue. Nous avons donc priorisé les variables à portée plus universelle.
Le peu d'interactions avec l'équipe de chercheurs ayant constitué le corpus a imposé des limites à cette analyse qui s'est déroulée à l'aveugle. Même le descriptif des codes nous était inconnu. Même si l'analyse descriptive doit laisser parler les données, une connaissance plus intime du corpus et des hypothèses de travail permettent de diriger les outils d'investigation vers les phénomènes linguistiques et discursifs qui risquent d'être les plus éclairants du point de vue de l'analyse.
L'analyse a montré que certains traitements préalables pourraient être utiles : corrections des fautes, identification des noms propres. On aurait pu aussi évaluer l'utilité d'identifier les locutions fonctionnelles, par exemple les marqueurs d'argumentation comme «c'est-à-dire», «par conséquent» ou certaines locutions terminologiques.
L'analyse exploratoire présentée dans ce document devrait servir de base à une analyse thématique faisant appel à la catégorisation des mots. Une catégorisation au niveau lexical devrait déjà permettre de dégager des résultats très significatifs sur les préoccupations et les valeurs des divers groupes de jeunes qui ont produit des textes dans le cadre du concours. La connaissance des analyses qualitatives déjà réalisées, et de la problématique qui est à l'origine de la constitution du corpus, serait sans doute très utile pour définir la grille de catégorisation thématique.
Le corpus, ainsi que le présent rapport, sont disponibles sur Internet. Plus encore, le corpus est directement accessible pour être analysé à l'aide de la version Internet de SATO. Tout groupe de chercheurs qui s'intéresse au discours et aux préoccupations des jeunes
serait donc à même de valoriser ce très beau corpus constitué dans le cadre du concours Message d'amour.
© ATO