Disc. & Info.4

Discours et informatique : des objets sociologiques?

Par

Jules Duchastel, Département de sociologie, UQAM

Introduction

Mon objectif est de proposer une réflexion sur les implications méthodologiques et théoriques de l'analyse du discours assistée par ordinateur et de présenter une approche permettant de penser à la fois l'objet discours en sociologie et la contribution de l'informatique à son analyse. Ma réflexion a été suscitée par l'observation de deux tendances en recherche sociologique. La première porte sur l'importance croissante que prend le discours comme accès à la connaissance du social, ou comme objet de connaissance en lui-même. La seconde concerne l'usage - ou la demande exprimée - de plus en plus important de méthodes informatisées pour l'analyse de données discursives.

Ces deux tendances n'interpellent pas nécessairement le sociologue de la même façon. La question de la nature sociologique de l'objet discours renvoie au statut théorico-méthodologique qu'on lui prête. La question du recours à l'informatique se pose autrement, comme intersection spécifique de cette discipline avec la sociologie. je fais l'hypothèse que le rapport de ces objets à la sociologie n'a pas reçu l'attention méritée. J'essayerai de montrer que le fait de poser les critères méthodologiques et épistémologiques pour l'analyse du discours permet d'éclairer la nature de l'usage que le sociologue fera de l'informatique.

C'est ainsi que dans une première partie, j'examinerai la prépondérance que prend le discours dans les stratégies de la recherche sociologique, d'abord au plan théorique général, comme déplacement du paradigme de la production vers celui du langage et ensuite, au plan méthodologique, en tant que prolifération des analyses de discours. J'examinerai les enjeux méthodologiques et épistémologiques provoqués par ces déplacements. Dans une deuxième partie, je m'interrogerai sur l'actualité d'une présence de plus en plus forte de l'informatique dans les procédures de recherche. Cela me conduira à examiner les principales attitudes entretenues à l'égard de l'usage de l'informatique, à proposer un modèle d'utilisation de l'ordinateur en analyse du discours et à examiner les impacts d'un tel recours sur la recherche elle-même.

I- De la production au langage : le discours comme source de savoir

L'importance croissante du discours comme source de savoir sociologique contraste paradoxalement avec sa relative sous-théorisation en sociologie. Je ne m'intéresserai pas tant à la question théorique des formes de représentation sociale qu'au problème de la théorisation locale du discours comme objet empirique. J'articulerai mes réflexions à trois niveaux afin d'en arriver progressivement à définir les conditions de l'analyse du discours. Je pose que ces conditions seront celles qui rendent possible et utile le recours à l'informatique. J'expliquerai d'abord comment, dans l'ensemble des sciences sociales, cette prépondérance du discours témoigne d'un renversement paradigmatique qui substitue le langage à la production. Le discours acquiert, dès lors, un statut d'objet privilégié en vue d'accéder à la connaissance objective du social. Je rappellerai, dans un deuxième temps, comment cet objet discours se construit progressivement à l'intersection de deux traditions, celle des sciences du langage et celle des sciences sociales, pour donner naissance à une pluralité d'approches d'analyse du discours qui ne peuvent échapper à la double exigence de tenir compte de la forme et du contenu. Je tenterai alors de définir, en troisième lieu, les enjeux épistémologiques qui émergent de cette mise en évidence du discours. Est-il possible, en effet, de proposer un modèle qui tente à la fois l'explication du discours comme forme sociale et son interprétation comme fondement de l'analyse de la société?

Du paradigme de la production à celui du langage J'emprunte à Gyorgy Markus (Markus, 1982) l'idée que les théories des sciences humaines et sociales peuvent se diviser entre deux paradigmes, celui de la production et celui du langage. Le paradigme de la production met l'accent sur la formation et l'usage des objets sociaux principalement dans le procès de travail. C'est l'approche privilégiée par Marx dans Le Capital. Ce paradigme s'est propagé, en sociologie, à l'étude de l'ensemble des conditions de la production et de la reproduction des rapports sociaux. Le paradigme du langage privilégie, au contraire, les phénomènes d'intersubjectivité en tant qu'ils sont médiatisés par le langage. Ce paradigme est présent dans toutes les sociologies attentives à la dimension symbolique de l'activité humaine. Markus refuse pourtant de rapporter cette opposition au couple matérialisme/idéalisme.

"Toute ces théories sont des théories de l'objectivation, c'est-à-dire des tentatives de donner une explication immanente à la vie humaine, d'interpréter de manière exhaustive la diversité et la multiplicité des formes historiques de la vie à travers les activités sociales humaines et l'appropriation sociale ininterrompue de leurs résultats".

En effet, l'opposition production/langage est trop facilement renvoyée à la topique marxiste de l'infrastructure et de la superstructure. Selon Markus, il n'y a pas incompatibilité entre les deux paradigmes du point de vue du projet de connaissance. La ligne de partage ne doit pas tant passer entre production et langage, mais entre théories objectivistes et subjectivistes de la connaissance. Comme nous le verrons plus loin, il n'y a donc pas d'association nécessaire entre théorie du langage et un quelconque point de vue compréhensif. Les paradigmes de la production et du langage, en autant qu'ils se rapportent à la première option, permettent à la fois l'explication et l'interprétation des formes historiques de la vie sociale.

Ces deux paradigmes coexistent dans les sciences humaines et sociales d'aujourd'hui. Il est toutefois intéressant de noter que le langage est en voie de devenir le paradigme dominant dans ces disciplines. Les déboires récents du marxisme ne sont certes pas étrangers à cette tendance, mais la prépondérance de ce paradigme s'est déjà largement manifestée dans les diverses traditions linguistiques, herméneutiques, psychanalytiques, de l'anthropologie structurale et même des écoles marxistes hongroise et de Francfort. Ces traditions, en dépit de leurs différences, entretiennent toutes le projet de recourir au langage comme "paradigme et modèle de l'objectivation sociale" (Markus, 1982). Ce contexte explique l'importance croissante que prend le discours comme objet d'intelligibilité du social.

De la forme et du contenu Cette centralité du discours a une portée théorique inégale en sociologie et je n'entrerai pas dans les filiations nombreuses qu'il serait possible d'établir entre les théories mentionnées ci-haut et certains courants de la sociologie. Je me contenterai d'indiquer que le discours reçoit, de manière très générale, deux statuts principalement en sociologie. D'un côté, le discours est considéré comme source de savoir ce qui se traduit souvent par le recours à une méthodologie traditionnelle qui procède à l'analyse du contenu de documents, d'entrevues ou de témoignages. De l'autre, le discours n'est plus considéré comme réceptacle commode du sens à donner à des actions ou à des situations, mais devient processus social à part entière dont précisément l'analyse - du discours - doit rendre compte.

L'analyse du discours en sociologie se trouve, en effet, au carrefour de deux traditions disciplinaires qui définissent les paramètres de cette dichotomie de perspectives. D'une part, les disciplines des sciences sociales ont tendance à définir leur rapport au discours dans une perspective d'interprétation. Elles cherchent dans les expressions du langage le sens des pratiques et des institutions. Cette perspective a donné naissance à la tradition de l'analyse de contenu dont une des principales caractéristiques est d'ignorer le fonctionnement linguistique du discours et de ne considérer celui-ci que comme surface indicielle d'un autre niveau de réalité. L'analyse de contenu cherche à caractériser par le discours une réalité qui lui est extérieure, que ce soit l'action sociale, les rapports de classes, les institutions,.... D'autre part, la tradition des sciences du langage, profondément marquées par la linguistique moderne, s'intéressent aux manifestations langagières d'abord en tant qu'elles sont des systèmes - sociaux - de codes plus ou moins complexes répondant à des règles de formation et de transformation. Tentant de dépasser la coupure langue/parole instaurée par Saussure, elles constituent autant de tentatives de penser des systèmes d'unités langagières plus larges que la phrase. Toutes ces perspectives para linguistiques (énonciation, pragmatique, analyse structurale,...) cherchent à comprendre la structuration et le fonctionnement en langue de discours complexes produits dans des situations de communication déterminées. L'analyse du discours en sociologie se trouve donc à de multiples points sur l'axe dont les pôles sont définis par ces deux traditions.

La question en sociologie n'est plus tant de savoir si l'on choisit l'une ou l'autre tradition d'analyse, mais dans quelle mesure on privilégiera la question du sens qui émerge des pratiques discursives ou celle de leur fonctionnement. Il n'est plus pertinent de distinguer analyse de contenu et analyse du discours, car il ne devrait plus y avoir d'analyse de contenu qui ignore totalement la nature langagière du discours ni, non plus, d'analyse du discours qui ne pense la relation avec ses conditions socio-historique de production. Cette opposition permet, par contre, de montrer la double tension nécessaire dans toute analyse qui ne peut renoncer ni à la forme ni au contenu du discours qu'elle entreprend d'analyser et de comprendre. L'opposition n'est plus tellement entre analyse de contenu et analyse du discours, mais entre les diverses formes d'analyse du discours qui privilégieront des situations particulières de production et de communication et des modalités différentes de fonctionnement.

Ainsi, il semble légitime aujourd'hui de s'en tenir à l'expression analyse du discours. Cela n'implique pas qu'il y aurait pour autant resserrement du champ analytique. Au contraire, on observe une prolifération des types d'analyse du discours, autant du côté des sciences du langage que de celui des sciences sociales. À l'intérieur même de la tradition d'analyse du discours, cette multiplicité pose, à la limite, le problème de l'unité du champ. Actuellement, deux écoles définissent les deux pôles de cette pratique d'analyse. L'une, l'École française d'analyse du discours, favorise le rapport entre les composantes historiques et linguistiques du discours et privilégie l'étude des discours social et politique. La tradition germano-anglophone, quant à elle, met l'accent sur l'étude des situations d'interlocutions localisées dans une perspective intersubjectiviste. Mais, dans tous les cas, le discours demeure un objet construit théoriquement et observable empiriquement. La diversité des approches traduit une pluralité de perspectives analytiques bien définies. Là où le problème est réel, c'est dans les analyses trop nombreuses qui ne définissent ni la nature théorique du discours ni les dispositifs mis en oeuvre pour son analyse. La pluralité des perspectives cède alors à l'indétermination analytique.

De l'interprétation et de l'explication La sociologie ne pose jamais le discours comme pur objet formel. Ce qui l'intéresse, c'est d'accéder à la compréhension du social à travers les manifestations du langage. Comme nous venons de le voir, les analyses du discours doivent tenir compte, à la fois de son caractère formel, ce qui les renvoie à la nécessité d'expliquer son fonctionnement, et de son aspect signifiant, ce qui les confronte au problème de son interprétation. Cela entraÎne inévitablement la question du rapport entre l'explication et l'interprétation dans le processus d'analyse du discours.

Penser le rapport entre l'explication et l'interprétation implique de résoudre deux difficultés. D'un côté, il faut s'interroger sur la pertinence de l'opposition entre démarche explicative et approche compréhensive. De l'autre, il faut penser l'interprétation comme opération dans la démarche scientifique, au même titre que l'explication.

J'aborderai succinctement la question du rapport entre approche compréhensive et approche explicative. Cette opposition est au fondement de l'épistémologie de plusieurs démarches dites qualitatives et gouverne, en quelque sorte, le type d'analyse du discours qui s'y pratique. Celles-ci s'appuient sur la distinction que Dilthey propose entre sciences de la nature et sciences de l'esprit. Dans cette perspective, les sciences naturelles proposent une démarche objectivante qui s'appuie sur l'explication des phénomènes alors que les sciences de l'esprit définissent une approche de compréhension globale des phénomènes humains qui repose sur leur interprétation. Cette perspective disqualifie a priori les procédures de description des formes sociales et tend à masquer la distinction entre interprétation et compréhension. Paul Ricoeur (1986) conteste cette opposition entre sciences naturelles et sciences de l'esprit. Il montre bien que si ces sciences se distinguent par leur objet, elles entretiennent un même projet de connaissance objective. Toute science vise, selon lui, la compréhension des phénomènes à travers des opérations d'explication et d'interprétation.

Cela nous conduit à notre deuxième exigence. Ce qui doit être pensé est la place respective de l'explication et de l'interprétation dans la compréhension scientifique. Il est d'abord nécessaire de distinguer la compréhension de l'interprétation. Même chez Dilthey, compréhension et interprétation représentent deux moments distincts de la démarche. <<Nous appelons compréhension le processus par lequel nous connaissons quelque chose de psychique à l'aide de signes sensibles qui en sont la manifestation>>. L'interprétation est plutôt conçue comme l'art de comprendre ces signes. Elle est opération concrète de connaissance qui conduit, au terme du processus, à la compréhension de la chose. Évidemment, Dilthey ne propose pas pour autant de considérer l'interprétation comme démarche objective. Pourtant, c'est en s'appuyant sur cette distinction que Ricoeur propose de considérer l'explication et l'interprétation comme deux moments de la lecture, comme deux opérations d'objectivation.

"Ce que nous avons appelé l'occultation du monde ambiant par le quasi-monde des textes engendre deux possibilités. Nous pouvons, en tant que lecteur, rester dans le suspens du texte, le traiter comme texte sans monde et sans auteur ; alors nous l'expliquons par ses rapports internes, par sa structure. Ou bien nous pouvons lever le suspens du texte, achever le texte en paroles, le restituant à la communication vivante ; alors nous l'interprétons. Ces deux possibilités appartiennent toutes les deux à la lecture et la lecture est la dialectique de ces deux attitudes".

Cette citation de Ricoeur est tributaire de la distinction qu'il établit entre discours oral et texte. Pour lui, le texte se caractérise par une occultation du monde, c'est-à-dire une décontextualisation de la situation immédiate du discours et une mise à distance des interlocuteurs initiaux. Il entrevoit donc deux moments de la lecture, celui du texte comme structure immanente susceptible d'explication et celui du texte recontextualisé, objet de l'interprétation. Une certaine confusion entre ces diverses opérations de connaissance risque de perdurer, ce qui m'oblige à apporter quelques précisions conceptuelles. D'abord, il est clair que compréhension et interprétation ne doivent pas être confondues. La compréhension renvoie au processus global de connaissance du monde, compris comme processus "naturel" de la connaissance de tous les jours ou comme processus objectivé de la connaissance scientifique ou herméneutique. L'interprétation est une opération partielle qui consiste à donner sens aux diverses manifestations du discours, contribuant de la sorte au processus global de compréhension. Il est naturellement plus facile d'isoler l'interprétation de la compréhension dans les types de connaissance objectivante.

De la même manière l'explication est une opération de connaissance menant ultimement à la compréhension des phénomènes. À la différence de l'interprétation, l'explication s'appuie d'avantage sur la description des formes sociales et sur les relations qu'elles entretiennent à l'intérieur d'un univers déterminé. L'explication est le résultat du raisonnement scientifique appliqué à des objets décrits dans leur structure et leur fonctionnement. L'interprétation doit nécessairement s'articuler à l'explication. C'est ainsi que l'interprétation peut être conçue de manière externe ou interne. L'interprétation externe est relativement extérieure au processus de la recherche et consiste à donner sens aux résultats du processus explicatif. L'interprétation interne est partie intégrante du processus et définit les règles du raisonnement scientifique. Dans le premier cas, il s'agit de donner le sens global d'un phénomène, dans le second, il s'agit d'assurer la stabilité des règles d'interprétation. Le but de toute analyse du discours devrait être de pousser le plus loin possible le processus interne de la recherche en s'appuyant sur des règles explicites d'interprétation des phénomènes que l'on décrit. La conséquence n'en est pas pour autant d'esquiver l'interprétation externe qui échappe à la méthode. La complexité même des phénomènes de discours empêche de poser un modèle exhaustif de compréhension. Le processus de la recherche est nécessairement gouverné par un cadre interprétatif qui lui est relativement extérieur. La connaissance scientifique ne fait que poser l'exigence de pousser le plus loin l'explicitation de l'ensemble de ses procédures, y compris celle de l'interprétation.

L'ensemble des considérations qui précèdent me permettent d'établir trois conclusions qui indiquent la compatibilité possible entre la démarche d'analyse du discours et le projet de son informatisation. À un niveau très général, le passage du paradigme de la production à celui du langage doit être, principalement, interprété comme la réactivation d'un projet de connaissance objective du social par opposition à une connaissance purement subjective. Ce passage se caractérise par la profusion des approches qui tendent à la formalisation de l'explication et de l'interprétation de l'objet discours. Cette exigence d'objectivation peut aisément se traduire dans le formalisme de la science informatique. Par ailleurs, la nécessité d'une description des formes et des règles du discours comme préalable à la compréhension du sens renvoie de nouveau à cette affinité naturelle avec le caractère procédural de l'informatique. Enfin, la nécessité de définir les opérations aussi bien de description des formes que du raisonnement scientifique, qu'il soit explicatif ou interprétatif, conduit naturellement à rechercher l'aide de l'ordinateur.

II Formalisation, informatisation et compréhension du discours

J'ai dit au point de départ qu'il y avait accroissement de l'utilisation de l'informatique pour l'analyse des données discursives. Cet accroissement se manifeste, d'un côté, par l'existence d'une offre de plus en plus imposante de logiciels dédiés à ce type d'analyse (Tesh, 1990) et, de l'autre, par une demande qui s'accroÎt dans des proportions comparables. À l'incrédulité que suscitèrent les premières expériences d'analyse du discours assistée par ordinateur a succédé une crédulité parfois étonnante dans les vertus des systèmes qui nous sont proposés aujourd'hui. Entre ces deux extrêmes, il est nécessaire de s'interroger sur la pertinence et la portée du recours à l'ordinateur dans le processus d'analyse.

J'essaierai de montrer que le recours à l'ordinateur consiste à se soumettre à certaines exigences de formalisation. Ces exigences sont extrêmement variables et correspondent peu ou prou à celles que nous nous donnons au sein même de notre pratique d'analyse du discours. L'ordinateur n'introduit rien de nouveau par rapport aux questionnements de l'analyse du discours, sinon qu'il oblige le chercheur à expliciter les procédures de sa lecture, tout en lui faisant prendre conscience des limites des opérations d'objectivation qu'il met en oeuvre. L'ordinateur impose que la compréhension du sens s'effectue à travers l'étude des formes, mais celles-ci peuvent être définies dans des états de complexité variables. Une compréhension parfaitement automatisée impliquerait que la machine soit capable de décrypter le sens d'un message à travers l'analyse exhaustive des formes graphiques, linguistiques, cognitives, pragmatiques,... du discours et des relations qu'elles entretiennent entre elles. La question n'est pas tant de savoir jusqu'où l'ordinateur peut s'acquitter avec succès des tâches nécessaires à la compréhension globale d'un discours, mais dans quelle mesure cette formalisation appliquée à des niveaux de complexité variables contribuera à cette compréhension.

Je tenterai de montrer, dans un premier temps, qu'il existe plusieurs attitudes possibles face à l'usage de l'informatique. Je fais l'hypothèse que ces attitudes ne sont pas indépendantes de la manière de poser le problème du discours aux niveaux théorique et méthodologique. Je présenterai, dans un second temps, une conception de l'usage de l'ordinateur qui permet de reproduire les opérations méthodologiques, quelqu'en soit le degré de complexité, en couplant des stratégies d'assistance et des stratégies d'automatisme. J'essaierai, enfin, de montrer que l'informatique n'est pas neutre, de sorte que son usage doit être manié avec autant de vigilance qu'il en est nécessaire dans l'ensemble de la démarche méthodologique.

Typologie des attitudes face à l'usage de l'informatique J'esquisserai d'abord une typologie des attitudes des chercheurs vis-à-vis de l'usage de l'ordinateur dans le domaine de l'analyse du discours. Ces attitudes correspondent plus ou moins aux réponses apportées par eux aux diverses questions méthodologiques et épistémologiques soulevées plus haut.

La première attitude est celle du rejet. Celle-ci est invariablement motivée par l'argument de la complexité du langage qui ne saurait être formalisée dans son ensemble. Cet argument de la complexité s'appuie principalement sur deux positions à l'égard de l'analyse du discours qui sont relativement opposées.

D'un côté, certaines approches qualitatives - ou compréhensives - ont tendance à sacrifier à la critique de l'objectivisme toute procédure explicite de lecture. De leur point de vue, la complexité s'inscrit dans la richesse des situations de communication symbolique ou dans l'épaisseur des couches signifiantes sédimentées dans les textes (Bernier et Perrault, 1985). D'un autre côté, le rejet peut être motivé également par une posture opposée qui place l'explication au centre de la démarche d'analyse. Je pense en cela aux analyses du discours qui, par l'adoption de perspectives analytiques multiples, font la démonstration d'une complexité telle de structures enchevêtrées qu'il serait utopique d'en proposer une formalisation immédiatement transposable au niveau informatique. Une analyse du discours qui privilégie la multiplicité des niveaux de description trouvera difficilement la possibilité de les représenter dans les systèmes informatiques aujourd'hui disponibles.

La seconde attitude est relativement paradoxale. Il s'agit de l'enthousiasme naïf pour tout produit informatique proposant de près ou de loin des analyses de données langagières. Cette attitude est le propre de chercheurs qui prennent le discours pour acquis, comme surface signifiante, sans profondeur et qui n'ont généralement aucune hypothèse sur les procédures à mettre en oeuvre pour son analyse. Le recours naïf à l'informatique produit nécessairement des effets de connaissance non maÎtrisés. En effet, il n'existe pas de procédures parfaitement indépendantes de leur conception, ni de leur mise en oeuvre. Il arrive donc que des chercheurs se trouvent devant des données dont ils ne maÎtrisent pas le principe de leur production. Ils s'en trouvent réduits à pratiquer une herméneutique naïve sur des objets construits hors de leur contrôle.

La troisième attitude pourrait être qualifiée d'utopique. Elle est motivée par la croyance dans la capacité à terme de l'ordinateur de produire une compréhension automatique du sens produit dans le langage. C'est le cas des chercheurs qui s'intéressent au traitement automatique des langues naturelles dans le cadre du vaste projet de développement d'une intelligence artificielle. Bien que l'emblème des sciences de l'information et de la cognition ait remplacé celui de l'intelligence artificielle, il n'en subsiste pas moins, dans ce cadre renouvelé et sous des formes moins naïves, l'ambition d'une simulation informatique de comportements intelligents, relativement isomorphe aux processus humains. Cette position implique de faire l'hypothèse de la formalisation absolue de la totalité du processus de compréhension. L'interprétation, dans ce cadre, ne serait plus que procédure interne. Les chercheurs qui adoptent cette attitude sont peu nombreux en sociologie. D'abord, les traditions linguistiques et cognitivistes, partageant un même souci de formalisation, ont, en quelque sorte, hégémonisé ce champ de recherche. Il en est résulté une sous-théorisation du caractère proprement social du discours et l'absence de la sociologie dans le concert des disciplines intéressées par ce projet. Ensuite, la sociologie, elle-même le plus souvent incapable de proposer des modèles formels, s'éloigne tout naturellement de ce genre de recherche.

La quatrième attitude est celle qui considère l'informatique comme ensemble de procédures, plus ou moins automatisées, d'aide au traitement et à l'analyse du discours. Cette attitude me semble la plus propice pour répondre à la situation d'explosion des perspectives en analyse du discours. Faute d'une théorie unifiée, il faut pouvoir tirer profit des capacités de l'ordinateur pour formaliser certaines procédures et effectuer de manière très efficace des tâches complexes ou répétitives. La philosophie d'aide vise à identifier les procédures communes à toutes les démarches de description et d'analyse afin d'en permettre l'activation dans le cadre des hypothèses propres à chaque chercheur. Il n'y a pas de modèles imposés, si ce n'est au niveau des opérations méthodologiques de base.

Proposition pour l'usage de l'ordinateur en analyse du discours Je ne crois pas que l'on puisse à terme simuler la compréhension humaine dans un système parfaitement automatisé. Cette conviction ne découle pas principalement des limites intrinsèques de l'informatique, mais des difficultés mêmes que nous éprouvons dans la formalisation de ce processus dans les sciences du langage et surtout dans les sciences sociales. L'informatique ne peut résoudre des problèmes théoriques que nos propres sciences n'arrivent pas à solutionner.

Le problème de l'automatisation peut cependant être posé à un niveau plus restreint, celui des descriptions partielles. Il nous faut, dans ce cadre, nous interroger sur leur pertinence. Les systèmes informatisés comportent nécessairement des procédures automatiques. C'est le propre de l'informatique que d'effectuer des tâches programmées. La question est de savoir jusqu'à quel niveau ces automatismes s'appliquent : traitement des formes graphiques à l'instar des traitements de texte, analyseurs syntaxiques, sémantiques, textuels,...? Chacun de ces niveaux d'automatisation s'appuient sur des théories plus ou moins complexes et le recours à des automatismes n'a de sens que si ces fondements théoriques sont connus et maÎtrisés. Cette maÎtrise peut pourtant varier en fonction du type de description et d'analyse proposé et du type d'usage envisagé. Par exemple, il se peut qu'un analyseur morpho-syntaxique soit bien adapté aux besoins d'un sociologue, sans pour autant qu'il soit nécessaire de maÎtriser le fondement théorique de cette catégorisation. Mais il n'en est pas nécessairement de même de tous les analyseurs disponibles. Un analyseur permettant d'identifier les thèmes des propositions dans le cadre d'une théorie linguistique fonctionnelle, n'est pas l'équivalent d'un analyseur qui tenterait de repérer le thème d'un discours sur la base d'une hypothèse de condensation sémantique (effet de résumé). Dans les deux cas, les règles de production sont différentes et correspondent à des hypothèses théoriques sur la nature du thème (propositionnel ou discursif).

En tout état de cause, il me semble que tout système informatique devrait être conçu de manière à ce qu'il ne se substitue pas à la démarche analytique du chercheur. À partir de là, il est intéressant de tirer partie des caractéristiques propres à l'informatique, soit la nécessité qu'elle pose de formaliser et la capacité qu'elle offre d'effectuer des tâches complexes ou répétitives, de manière plus ou moins automatisée. C'est dans ce sens que j'examinerai rapidement les opérations générales qu'elle peut faciliter. Je parle d'opérations générales parce qu'il existe, dans toute démarche d'analyse, des opérations logiques fondamentales qui sont mises en oeuvre, quelle que soit la perspective d'analyse.

Ces opérations peuvent être regroupées dans quatre catégories. Il y a d'abord des opérations de gestion des données langagières. Ces opérations de gestion sont les plus connues et ont donné lieu à des applications informatiques nombreuses. Elles consistent, entre autres, en la saisie de textes (lecture optique), en son traitement comme chaÎnes de caractères (traitement de texte), en la gestion de base de données textuelles avec ses fonctions d'indexation et de navigation (Systèmes de Gestion de Bases de Données, Hypertextes). L'ensemble de ces systèmes permettent de gérer des unités d'information à divers niveaux. C'est ici qu'on rencontre la première opération logique de toute analyse. En effet, quelque soit l'approche, le chercheur devra toujours identifier le jeu des unités formelles qui feront l'objet de son analyse. Les systèmes informatisés sont aptes à reconnaÎtre et à manipuler les divers niveaux d'unités qui peuvent intéresser le chercheur : le mot et l'ensemble des segments plus larges (phrases, paragraphes, textes, collections de textes). La capacité d'identifier divers niveaux d'unités et de les retrouver est donc la condition première des autres opérations sur le texte.

La seconde série d'opérations concerne l'ensemble des dispositifs de description des unités du texte. Il n'est pas nécessaire d'insister sur le caractère fondamental de la catégorisation comme processus de connaissance. Toute science procède à la catégorisation d'unités d'observation. Celle-ci est préalable à la formulation de règles et à l'établissement de relations. L'ordinateur va donc faciliter l'apposition de catégories aux diverses unités du texte. Par exemple, les mots pourront recevoir une caractérisation morpho-syntaxique ou sémantique, les segments thématiques ou argumentatifs une codification appropriée. La seconde opération de description concerne donc l'identification de structures qui définissent des relations entre les objets décrits sur la base d'un système de règles. Il permettra ensuite de marquer les diverses relations entre ces objets. Par exemple, ces enchaÎnements entre objets pourront être notés dans des systèmes hiérarchiques (arborescences) ou inférentiels (systèmes-experts). Dans tous ces cas, le chercheur tentera de représenter les divers aspects du texte dans une structure de catégories et de relations. Il existe un grand nombre de logiciels qui sont destinés à ces opérations d'annotation et de description structurelle (FIEDLDING et LEE 1991, TESCH, 1991). Le chercheur y trouve donc un support à sa démarche de recherche, en autant toutefois qu'il pousse l'analyse jusqu'à ce niveau de formalisation.

La troisième série d'opérations renvoie à l'exploration de l'information à l'état brut ou telle qu'elle a été structurée. Elle permet de retrouver les unités, simples ou complexes, leur(s) catégorie(s) ou encore la représentation structurelle qui en a été faite. Par exemple, il est facile d'obtenir des listes de mots et leur contexte, des propositions ou phrases contenant certaines catégories, des structures thématiques, argumentatives ou actancielles en autant qu'elles ont fait l'objet d'une description préalable. Cette exploration permet l'observation de régularités ou, inversement de faits isolés mais significatifs. Elle peut être pratiquée sur plusieurs plans comparatifs, tirant partie de la capacité de l'ordinateur de consulter de large bases de connaissances en même temps que des structures d'une grande complexité. L'ensemble de ces opérations sont des automatismes dont l'efficacité repose sur la pertinence de la représentation informatique des données et des règles procédurales capables de les explorer. Cependant, ces automatismes ne proposent pas d'analyse. Ils sont des dispositifs de traitement de l'information, idéalement paramétrables, qui exécutent des tâches trop complexes ou trop répétitives pour être accomplies manuellement.

L'analyse commence dans le quatrième groupe de procédures. Celles-ci consistent toujours à développer des automatismes de raisonnement. Elles permettent donc la mise en oeuvre de l'explication et de l'interprétation. Elles ne sont possibles que dans la mesure où le raisonnement peut être formalisé. Je donnerai trois exemples élémentaires de ces procédures d'analyse qui peuvent être récupérées par le sociologue. Le premier renvoie aux analyseurs linguistiques qui font partie intégrante du processus de description. Ces analyseurs appliquent des règles de raisonnement afin d'attribuer des catégories ou de définir les relations qui unissent ces dernières dans des structures. Ces analyseurs sont appliqués au départ de la chaÎne de production. On peut penser, par exemple, à des dispositifs automatiques de catégorisation morpho-syntaxique et de lemmatisation ou encore à des analyseurs syntaxiques plus complexes. Outre le fait que ces analyseurs ne peuvent, en aucun temps, se suffire à eux-mêmes du point de vue de l'analyse du discours, il faut être conscient de leur forte dépendance des modèles linguistiques théoriques qui les fondent. Dans la mesure où on tient compte de leurs limites et de leur prédétermination théorique, ils pourront être mis à contribution dans le processus plus global d'analyse du discours.

Le second exemple est celui des analyseurs statistiques. Ils s'appliquent aux résultats générés par les différentes procédures d'exploration, elles-mêmes appliquées à des données déjà décrites. Ils mettent en oeuvre le raisonnement mathématique en effectuant des calculs pouvant rendre compte du comportement statistique de certaines unités du texte. Ces dispositifs facilitent le processus d'analyse des données générées par l'ensemble des procédures appliquées au texte. Leur application n'est cependant pas toujours pertinente dans la mesure où la logique des nombres ne s'applique pas en tout temps.

Le troisième exemple consiste à utiliser la technologie des systèmes-experts pour modéliser l'interprétation des données textuelles (Paquin, 1992, 1993). Cette approche consiste à activer des règles d'inférences dans le processus d'analyse et d'interprétation des faits discursifs. Le recours à de tels systèmes est encore de nature expérimentale en raison des difficultés intrinsèques liées à la formalisaiton des opérations d'interprétation (identification de faits pertinents et de règles d'inférence productives). Dans tous ces exemples, il y a toujours une forte détermination par le modèle théorique mis en branle. La procédure ne peut donc qu'être utilisée localement. L'idéal sera donc de permettre au chercheur de les activer dans un environnement global en raison des besoins spécifiques de la recherche.

Impact de l'informatique sur la démarche sociologique L'ensemble des considérations qui précèdent m'amènent à poser la question de l'impact de l'usage de l'informatique en analyse du discours. J'ai toujours cru à la contribution non seulement instrumentale, mais fondamentale de l'informatique à la démarche de recherche. J'essayerai d'en donner plus loin les raisons. Mais, je ne peux passer sous silence les effets pervers d'un tel recours. J'examinerai maintenant le pour et le contre en m'en reportant aux quatre attitudes face à l'informatique, décrites plus haut.

Le rejet de l'informatique peut, comme nous l'avons vu, être parfaitement motivé par différentes conceptions de la complexité des faits de discours. À un extrême, toute tentative d'objectivation est récusée au nom d'une approche compréhensive. À l'autre, le choix méthodique d'une perspective d'analyses multi-niveaux empêche encore de s'appuyer sur une technologie insuffisamment développée. Il est inutile, dans cette optique, de recourir à l'informatique si ce n'est sous l'aspect des opérations de gestion des données. Dans les deux cas, la question de l'impact est presque sans objet.

L'enthousiasme naïf est certainement l'attitude la plus susceptible d'entraÎner des effets pervers. Le chercheur utilise une machine dont il ne sait pas précisément ce qu'elle fait. Par définition, les opérations sur le texte produisent des résultats. Au mieux, ceux-ci prendront la forme d'une distribution de "parties de discours" découpées au gré des modèles d'exploration. Le chercheur en sera quitte pour les "interpréter" de l'extérieur. Au pire, le traitement informatique produira des résultats d'analyse qui, faute d'une maÎtrise des principes ayant présidé à leur production, prédétermineront les conclusions du chercheur.

Les deux autres attitudes méritent plus d'attention. Comme je l'ai dit plus haut, on trouvera plus de partisans de l'automatisation des procédures du côté des sciences plus formelles, comme la linguistique ou la psychologie. Dans la mesure où ces disciplines testent des hypothèses descriptives et explicatives comportant déjà une forte composante de formalisation, elles peuvent aisément contrôler la validité et évaluer l'efficacité de leur démarche lorsqu'elle est transposée au niveau informatique. Tout le problème provient de l'interconnexion entre ces disciplines et les autres sciences sociales, ce qui ne signifie pas nécessairement l'interdisciplinarité. Sans parler des utilisateurs naïfs, il existe une forte tentation à la subordination des sciences à vocation plus "interprétative", comme c'est le cas pour la sociologie, à ces disciplines plus "explicatives". C'est pourquoi les sociologues doivent se garder de prendre les résultats générés par les algorithmes conçus dans le cadre des recherches en linguistique ou en psychologie cognitive, comme des faits objectifs. La disponibilité de logiciels effectuant certaines tâches dans une direction donnée ne devrait jamais l'emporter sur la nécessité pour l'analyste d'obtenir des descriptions allant dans une autre direction.

La perspective qui consiste à considérer l'informatique comme un ensemble de procédures d'aide au traitement et à l'analyse de données textuelles, devrait mettre le chercheur à l'abri des effets pervers. Ce n'est malheureusement pas toujours le cas. Il faut d'abord rappeler la prévention qui vient juste d'être dite. Tout recours à des automatismes devrait toujours être évalué en connaissance de cause. Mais cela est relativement facile. Ce qui l'est moins, c'est de se protéger contre la prédétermination des procédures elles-mêmes. Le système ouvert auquel je me suis référé jusqu'à présent demeure encore un type idéal. Tous les systèmes informatiques comportent des contraintes. Celles-ci s'imposent en quelque sorte au chercheur qui doit les adapter à sa propre démarche. Je donnerai quelques exemples. Si le système adopté favorise la représentation des mots plus que celle des segments, le chercheur aura tendance à retraduire sa stratégie dans les limites imposées par le système. Si, par ailleurs, il dispose d'analyseurs statistiques à la sortie, il sera tenté de poursuivre un raisonnement probabiliste plutôt qu'analytique. Notons cependant que bien que ces contraintes existent, elles ne sont pas différentes de celles de toute méthodologie dans laquelle un chercheur pourrait progressivement s'enfermer. L'informatique exige peut-être de conserver une plus grande vigilance critique. Les dispositifs mis en oeuvre sont là pour supporter l'analyse, non pas pour la supplanter.

Il existe pourtant des avantages décisifs à l'utilisation de l'informatique. Je ne reviendrai pas sur l'effet premier de cet usage, maintes fois répété, c'est-à-dire la nécessité qu'il provoque chez le chercheur de formaliser les diverses opérations d'analyse. J'insisterai d'abord sur l'efficacité de l'ordinateur. J'ai mentionné à plusieurs reprises sa capacité d'étudier en largeur des bases importantes de données et d'explorer en profondeur des structures complexes. La faculté de traiter les grands ensembles peut certes avoir l'effet d'inciter le chercheur à multiplier inutilement ses corpus. Mais, là où cela s'impose, l'exploration systématique de grands ensembles de données accroÎt la connaissance et la validité. Quant à l'exploration des structures complexes, l'ordinateur parvient à produire des analyses qui seraient difficilement réalisables sans son aide. En effet, plus la représentation des données gagne en complexité, plus il devient difficile de parcourir de manière systématique ces descriptions.

Un avantage supplémentaire de l'usage de l'ordinateur découle d'une combinaison des caractéristiques mentionnées jusqu'ici. L'efficacité en largeur et en profondeur, le raffinement des descriptions possibles, les possibilités d'exploration tous azimuts des données dans autant d'états qu'il en existe, la présence d'analyseurs produisant de nouveaux résultats, tout cela contribue à développer les opportunités de découvertes ("serendipity" dans le vocabulaire de la méthode sociologique). À l'encontre même de ce qui se passe le plus souvent dans l'application de méthodologies rigoureuses, l'utilisation de l'ordinateur, en autant que l'on s'en tienne à une stratégie d'utilisation souple, permet d'arriver à des résultats inattendus. Une stratégie d'utilisation souple implique deux caractéristiques : elle doit favoriser la démarche heuristique et multiplier les angles de lecture. L'analyse du discours ou de contenu est toujours aux prises avec le problème de la surdétermination des données. Ces méthodes produisent en effet des données surdéterminées par les descriptions catégorielles et relationnelles qu'elles y produisent. Ces descriptions plus ou moins figées ne peuvent souvent donner lieu qu'à la confirmation ou à la réfutation d'hypothèses (Gardin, 1974). Un usage optimal de l'informatique permet à la fois de conserver les données vierges derrière les données décrites et d'opérer des changements aux descriptions déjà produites dans le cours de l'analyse. L'ordinateur autorise donc un cheminement heuristique qui procède par mouvements d'aller-retour. L'ordinateur peut également permettre la multiplication des angles de lecture. Le produit des opérations de description, d'exploration et d'analyse représente autant de nouveaux textes qui émanent du texte originel et sont sujets à interprétation. La multiplication des points de vue sur le texte favorise l'émergence de nouvelles connaissances.

Conclusion

J'ai renoncé à poser le problème de la nature théorique du discours en sociologie, présupposant qu'il est minimalement conçu comme une forme sociale, voire historique. Cela m'a évité de poursuivre la discussion sur les conséquences que diverses théories pouvaient avoir sur les choix méthodologiques. Je me suis concentré, au contraire, sur la construction du discours comme objet empirique pouvant être pris en charge par la méthode sociologique. J'ai dû pour cela poser que la sociologie participe à la démarche de connaissance définie comme processus d'objectivation. Je n'ai pas pour autant résolu la question de savoir jusqu'où cette objectivation peut aller et si elle épuise l'expérience de connaissance de la sociologie. Il m'a suffit de poser qu'elle est toujours aussi connaissance objectivante.

C'est donc dans d'une telle perspective que j'ai tenté de réfléchir aux opérations de connaissance pouvant mener à la compréhension des phénomènes sociaux à travers le discours. J'ai montré que l'analyse du discours procède à un ensemble d'opérations méthodo-logiques appliquées à des données discursives : gestion et description des unités, descriptions des relations et des structures, exploration et analyse de ces descriptions. J'ai également montré que ces opérations mettent nécessairement en branle les processus d'explication et d'interprétation en tant qu'éléments constitutifs du raisonnement sociologique. L'explication met l'accent sur le processus de démonstration lié à toute compréhension objective alors que l'interprétation constitue l'action de donner sens aux phénomènes étudiés. J'ai distingué l'interprétation interne de l'interprétation externe pour montrer qu'il est possible de penser des règles d'interprétation dans le cadre de systèmes analytiques délimités (interprétation interne) alors que l'interprétation externe constitue toujours un horizon qui échappe à la rigueur du raisonnement méthodique.

L'ensemble de ces réflexions m'ont permis de montrer que l'analyse du discours ne peut se contenter d'une approche purement compréhensive qui renoncerait à toute procédure objective de connaissance au profit d'une démarche d'interprétation purement externe. Il me semble, au contraire, qu'il faut accroÎtre le caractère formel des opérations appliquées à la lecture d'un texte jusqu'à y inclure les règles d'interprétation. L'informatique, sans se substituer à la démarche studieuse du chercheur, permet de répondre à ces exigences formelles, tout en maximisant l'efficacité des protocoles et en favorisant les chances de la découverte.

Bibliographie

BERNIER, L. et PERRAULT, I. (1985), L'artiste et l'oeuvre à faire, IQRS.

BOURQUE, G. et DUCHASTEL, J. (1988), Restons traditionnels et progressifs, Pour une nouvelle analyse du discours politique, Le cas du régime Duplessis au Québec, Montréal, Boréal.

DUCHASTEL, J., PAQUIN, L.C., BEAUCHEMIN, J. (1992), "Automated Syntactic Text Description Enhancement : Thematic Structure Analysis", Computers and the Humanities, no 26.1.

DUCHASTEL, J. , PAQUIN, L.C., BEAUCHEMIN, J. (1993), "Automated Syntactic Text Description Enhancement : Determination Analysis", The New Medium, Research in Humanities Computing,, Oxford, Oxford University Press.

DILTHEY, W. (1947), "Origine et développement de l'herméneutique", in Le Monde de l'esprit, I, Paris, Aubier-Montaigne.

FIEDLDING, N. G. et LEE, R.M. (1991), Using Computers in Qualitative Research,, London, Sage Publications.

GARDIN J.-C. (1974), Les analyses du discours, Neuchâtel, Delachaux et Niestlé.

GARDIN, J.-C. et al.(1987), Systèmes experts et sciences humaines, Paris, Eyrolles.

GRIZE, J.-B., VERGES, P., SILEM, A. (1987), Salariés face aux nouvelles technologies, Vers une approche socio-logique des représentations sociales, Paris, Ed. du CNRS.

LEBART, L. et SALEM, A (1988), Analyse statistique des données textuelles. Paris: Dunod.

MAINGUENEAU, Dominique (1987), Nouvelles tendances en analyse du discours, Paris, Hachette.

MARKUS, Gyorgy (1982), Langage et production, Paris, Denoèl/Gonthier.

PAQUIN, L.C. (1992), "La lecture experte", Technologie, idéologie et pratique, numéro spécial "Intelligence artificielle et sciences sociales" Volume X no. 2-4, pp. 209-222.

PAQUIN, L. C. (1993), "Une lecture experte des textes juridiques", in Les sciences du texte juridique, Le droit saisi par l'ordinateur, Montréal, Les éditions Yvon Blais.

PIRES, Alvaro (1987), "Deux thèses erronées sur les lettres et les chiffres", Cahiers de recherche sociologique, vol. 5, no. 2, pp. 85-105.

PIRES, Alvaro (1989),"Analyse causale et récits de vie", Anthropologie et Sociétés, Vol. 13, no. 3, pp. 37-57.

RICOEUR, Paul (1986), Du texte à l'action, Essais d'herméneutique, II, Paris, Seuil.

TESCH, Renata (1990), Qualitative Research : Analysis Types and Software Tools, London and Philadelphia, Falmer Press, 1990.

TESCH, Renata (1991), "Software for Qualitative Researchers : Analysis Needs and Program Capabilities", in Fielding & Lee, Using Computers in Qualitative Research, London, Sage Publications, pp. 16-37.