Introduction
Mon objectif est de proposer une réflexion
sur les implications méthodologiques et théoriques
de l'analyse du discours assistée par ordinateur et de
présenter une approche permettant de penser à la
fois l'objet discours en sociologie et la contribution de l'informatique
à son analyse. Ma réflexion a été
suscitée par l'observation de deux tendances en recherche
sociologique. La première porte sur l'importance croissante
que prend le discours comme accès à la connaissance
du social, ou comme objet de connaissance en lui-même.
La seconde concerne l'usage - ou la demande exprimée -
de plus en plus important de méthodes informatisées
pour l'analyse de données discursives.
Ces deux tendances n'interpellent pas nécessairement
le sociologue de la même façon. La question de la
nature sociologique de l'objet discours renvoie au statut théorico-méthodologique
qu'on lui prête. La question du recours à l'informatique
se pose autrement, comme intersection spécifique de cette
discipline avec la sociologie. je fais l'hypothèse que
le rapport de ces objets à la sociologie n'a pas reçu
l'attention méritée. J'essayerai de montrer que
le fait de poser les critères méthodologiques et
épistémologiques pour l'analyse du discours permet
d'éclairer la nature de l'usage que le sociologue fera
de l'informatique.
C'est ainsi que dans une première
partie, j'examinerai la prépondérance que prend
le discours dans les stratégies de la recherche sociologique,
d'abord au plan théorique général, comme
déplacement du paradigme de la production vers celui du
langage et ensuite, au plan méthodologique, en tant que
prolifération des analyses de discours. J'examinerai les
enjeux méthodologiques et épistémologiques
provoqués par ces déplacements. Dans une deuxième
partie, je m'interrogerai sur l'actualité d'une
présence de plus en plus forte de l'informatique dans les
procédures de recherche. Cela me conduira à examiner
les principales attitudes entretenues à l'égard
de l'usage de l'informatique, à proposer un modèle
d'utilisation de l'ordinateur en analyse du discours et à
examiner les impacts d'un tel recours sur la recherche elle-même.
I- De la production au langage : le discours
comme source de savoir
L'importance croissante du discours comme
source de savoir sociologique contraste paradoxalement avec sa
relative sous-théorisation en sociologie. Je ne m'intéresserai
pas tant à la question théorique des formes de représentation
sociale qu'au problème de la théorisation locale
du discours comme objet empirique. J'articulerai mes réflexions
à trois niveaux afin d'en arriver progressivement à
définir les conditions de l'analyse du discours. Je pose
que ces conditions seront celles qui rendent possible et utile
le recours à l'informatique. J'expliquerai d'abord comment,
dans l'ensemble des sciences sociales, cette prépondérance
du discours témoigne d'un renversement paradigmatique qui
substitue le langage à la production. Le discours acquiert,
dès lors, un statut d'objet privilégié en
vue d'accéder à la connaissance objective du social.
Je rappellerai, dans un deuxième temps, comment cet objet
discours se construit progressivement à l'intersection
de deux traditions, celle des sciences du langage et celle des
sciences sociales, pour donner naissance à une pluralité
d'approches d'analyse du discours qui ne peuvent échapper
à la double exigence de tenir compte de la forme et du
contenu. Je tenterai alors de définir, en troisième
lieu, les enjeux épistémologiques qui émergent
de cette mise en évidence du discours. Est-il possible,
en effet, de proposer un modèle qui tente à la fois
l'explication du discours comme forme sociale et son interprétation
comme fondement de l'analyse de la société?
Du paradigme
de la production à celui du langage J'emprunte
à Gyorgy Markus (Markus, 1982) l'idée que les théories
des sciences humaines et sociales peuvent se diviser entre deux
paradigmes, celui de la production et celui du langage. Le paradigme
de la production met l'accent sur la formation et l'usage des
objets sociaux principalement dans le procès de travail.
C'est l'approche privilégiée par Marx dans Le
Capital. Ce paradigme s'est propagé, en sociologie,
à l'étude de l'ensemble des conditions de la production
et de la reproduction des rapports sociaux. Le paradigme du langage
privilégie, au contraire, les phénomènes
d'intersubjectivité en tant qu'ils sont médiatisés
par le langage. Ce paradigme est présent dans toutes les
sociologies attentives à la dimension symbolique de l'activité
humaine. Markus refuse pourtant de rapporter cette opposition
au couple matérialisme/idéalisme.
"Toute ces théories
sont des théories de l'objectivation, c'est-à-dire
des tentatives de donner une explication immanente à
la vie humaine, d'interpréter de manière
exhaustive la diversité et la multiplicité des formes
historiques de la vie à travers les activités sociales
humaines et l'appropriation sociale ininterrompue de leurs résultats".
En effet, l'opposition production/langage
est trop facilement renvoyée à la topique marxiste
de l'infrastructure et de la superstructure. Selon Markus, il
n'y a pas incompatibilité entre les deux paradigmes du
point de vue du projet de connaissance. La ligne de partage ne
doit pas tant passer entre production et langage, mais entre théories
objectivistes et subjectivistes de la connaissance. Comme nous
le verrons plus loin, il n'y a donc pas d'association nécessaire
entre théorie du langage et un quelconque point de vue
compréhensif. Les paradigmes de la production et du langage,
en autant qu'ils se rapportent à la première option,
permettent à la fois l'explication et l'interprétation
des formes historiques de la vie sociale.
Ces deux paradigmes
coexistent dans les sciences humaines et sociales d'aujourd'hui.
Il est toutefois intéressant de noter que le langage est
en voie de devenir le paradigme dominant dans ces disciplines.
Les déboires récents du marxisme ne sont certes
pas étrangers à cette tendance, mais la prépondérance
de ce paradigme s'est déjà largement manifestée
dans les diverses traditions linguistiques, herméneutiques,
psychanalytiques, de l'anthropologie structurale et même
des écoles marxistes hongroise et de Francfort. Ces traditions,
en dépit de leurs différences, entretiennent toutes
le projet de recourir au langage comme "paradigme et modèle
de l'objectivation sociale" (Markus, 1982). Ce contexte
explique l'importance croissante que prend le discours comme objet
d'intelligibilité du social.
De la forme et du contenu
Cette centralité
du discours a une portée théorique inégale
en sociologie et je n'entrerai pas dans les filiations nombreuses
qu'il serait possible d'établir entre les théories
mentionnées ci-haut et certains courants de la sociologie.
Je me contenterai d'indiquer que le discours reçoit, de
manière très générale, deux statuts
principalement en sociologie. D'un côté, le discours
est considéré comme source de savoir ce qui se traduit
souvent par le recours à une méthodologie traditionnelle
qui procède à l'analyse du contenu de documents,
d'entrevues ou de témoignages. De l'autre, le discours
n'est plus considéré comme réceptacle commode
du sens à donner à des actions ou à des situations,
mais devient processus social à part entière dont
précisément l'analyse - du discours - doit rendre
compte.
L'analyse du discours en sociologie
se trouve, en effet, au carrefour de deux traditions disciplinaires
qui définissent les paramètres de cette dichotomie
de perspectives. D'une part, les disciplines des sciences sociales
ont tendance à définir leur rapport au discours
dans une perspective d'interprétation. Elles cherchent
dans les expressions du langage le sens des pratiques et des institutions.
Cette perspective a donné naissance à la tradition
de l'analyse de contenu dont une des principales caractéristiques
est d'ignorer le fonctionnement linguistique du discours et de
ne considérer celui-ci que comme surface indicielle d'un
autre niveau de réalité. L'analyse de contenu cherche
à caractériser par le discours une réalité
qui lui est extérieure, que ce soit l'action sociale, les
rapports de classes, les institutions,.... D'autre part, la tradition
des sciences du langage, profondément marquées par
la linguistique moderne, s'intéressent aux manifestations
langagières d'abord en tant qu'elles sont des systèmes
- sociaux - de codes plus ou moins complexes répondant
à des règles de formation et de transformation.
Tentant de dépasser la coupure langue/parole instaurée
par Saussure, elles constituent autant de tentatives de penser
des systèmes d'unités langagières plus larges
que la phrase. Toutes ces perspectives para linguistiques (énonciation,
pragmatique, analyse structurale,...) cherchent à comprendre
la structuration et le fonctionnement en langue de discours complexes
produits dans des situations de communication déterminées.
L'analyse du discours en sociologie se trouve donc à de
multiples points sur l'axe dont les pôles sont définis
par ces deux traditions.
La question en sociologie n'est plus tant
de savoir si l'on choisit l'une ou l'autre tradition d'analyse,
mais dans quelle mesure on privilégiera la question du
sens qui émerge des pratiques discursives ou celle de leur
fonctionnement. Il n'est plus pertinent de distinguer analyse
de contenu et analyse du discours, car il ne devrait plus y avoir
d'analyse de contenu qui ignore totalement la nature langagière
du discours ni, non plus, d'analyse du discours qui ne pense la
relation avec ses conditions socio-historique de production.
Cette opposition permet, par contre, de montrer la double tension
nécessaire dans toute analyse qui ne peut renoncer ni à
la forme ni au contenu du discours qu'elle entreprend d'analyser
et de comprendre. L'opposition n'est plus tellement entre analyse
de contenu et analyse du discours, mais entre les diverses formes
d'analyse du discours qui privilégieront des situations
particulières de production et de communication et des
modalités différentes de fonctionnement.
Ainsi, il semble légitime aujourd'hui
de s'en tenir à l'expression analyse du discours. Cela
n'implique pas qu'il y aurait pour autant resserrement du champ
analytique. Au contraire, on observe une prolifération
des types d'analyse du discours, autant du côté des
sciences du langage que de celui des sciences sociales. À
l'intérieur même de la tradition d'analyse du discours,
cette multiplicité pose, à la limite, le problème
de l'unité du champ. Actuellement, deux écoles
définissent les deux pôles de cette pratique d'analyse.
L'une, l'École française d'analyse du discours,
favorise le rapport entre les composantes historiques et linguistiques
du discours et privilégie l'étude des discours social
et politique. La tradition germano-anglophone, quant à
elle, met l'accent sur l'étude des situations d'interlocutions
localisées dans une perspective intersubjectiviste. Mais,
dans tous les cas, le discours demeure un objet construit théoriquement
et observable empiriquement. La diversité des approches
traduit une pluralité de perspectives analytiques bien
définies. Là où le problème est réel,
c'est dans les analyses trop nombreuses qui ne définissent
ni la nature théorique du discours ni les dispositifs mis
en oeuvre pour son analyse. La pluralité des perspectives
cède alors à l'indétermination analytique.
De l'interprétation et de l'explication
La sociologie ne pose jamais
le discours comme pur objet formel. Ce qui l'intéresse,
c'est d'accéder à la compréhension du social
à travers les manifestations du langage. Comme nous venons
de le voir, les analyses du discours doivent tenir compte, à
la fois de son caractère formel, ce qui les renvoie à
la nécessité d'expliquer son fonctionnement, et
de son aspect signifiant, ce qui les confronte au problème
de son interprétation. Cela entraÎne inévitablement
la question du rapport entre l'explication et l'interprétation
dans le processus d'analyse du discours.
Penser le rapport entre l'explication et
l'interprétation implique de résoudre deux difficultés.
D'un côté, il faut s'interroger sur la pertinence
de l'opposition entre démarche explicative et approche
compréhensive. De l'autre, il faut penser l'interprétation
comme opération dans la démarche scientifique, au
même titre que l'explication.
J'aborderai succinctement la question du
rapport entre approche compréhensive et approche explicative.
Cette opposition est au fondement de l'épistémologie
de plusieurs démarches dites qualitatives et gouverne,
en quelque sorte, le type d'analyse du discours qui s'y pratique.
Celles-ci s'appuient sur la distinction que Dilthey propose entre
sciences de la nature et sciences de l'esprit. Dans cette perspective,
les sciences naturelles proposent une démarche objectivante
qui s'appuie sur l'explication des phénomènes alors
que les sciences de l'esprit définissent une approche de
compréhension globale des phénomènes humains
qui repose sur leur interprétation. Cette perspective
disqualifie a priori les procédures de description des
formes sociales et tend à masquer la distinction entre
interprétation et compréhension. Paul Ricoeur (1986)
conteste cette opposition entre sciences naturelles et sciences
de l'esprit. Il montre bien que si ces sciences se distinguent
par leur objet, elles entretiennent un même projet de connaissance
objective. Toute science vise, selon lui, la compréhension
des phénomènes à travers des opérations
d'explication et d'interprétation.
Cela nous conduit à notre deuxième
exigence. Ce qui doit être pensé est la place respective
de l'explication et de l'interprétation dans la compréhension
scientifique. Il est d'abord nécessaire de distinguer
la compréhension de l'interprétation. Même
chez Dilthey, compréhension et interprétation représentent
deux moments distincts de la démarche. <<Nous appelons
compréhension le processus par lequel nous connaissons
quelque chose de psychique à l'aide de signes sensibles
qui en sont la manifestation>>. L'interprétation
est plutôt conçue comme l'art de comprendre ces signes.
Elle est opération concrète de connaissance qui
conduit, au terme du processus, à la compréhension
de la chose. Évidemment, Dilthey ne propose pas pour autant
de considérer l'interprétation comme démarche
objective. Pourtant, c'est en s'appuyant sur cette distinction
que Ricoeur propose de considérer l'explication et l'interprétation
comme deux moments de la lecture, comme deux opérations
d'objectivation.
"Ce que nous avons
appelé l'occultation du monde ambiant par le quasi-monde
des textes engendre deux possibilités. Nous pouvons, en
tant que lecteur, rester dans le suspens du texte, le traiter
comme texte sans monde et sans auteur ; alors nous l'expliquons
par ses rapports internes, par sa structure. Ou bien nous pouvons
lever le suspens du texte, achever le texte en paroles, le restituant
à la communication vivante ; alors nous l'interprétons.
Ces deux possibilités appartiennent toutes les deux à
la lecture et la lecture est la dialectique de ces deux attitudes".
Cette citation de Ricoeur est tributaire
de la distinction qu'il établit entre discours oral et
texte. Pour lui, le texte se caractérise par une occultation
du monde, c'est-à-dire une décontextualisation de
la situation immédiate du discours et une mise à
distance des interlocuteurs initiaux. Il entrevoit donc deux
moments de la lecture, celui du texte comme structure immanente
susceptible d'explication et celui du texte recontextualisé,
objet de l'interprétation. Une certaine confusion entre
ces diverses opérations de connaissance risque de perdurer,
ce qui m'oblige à apporter quelques précisions conceptuelles.
D'abord, il est clair que compréhension et interprétation
ne doivent pas être confondues. La compréhension
renvoie au processus global de connaissance du monde, compris
comme processus "naturel" de la connaissance de tous
les jours ou comme processus objectivé de la connaissance
scientifique ou herméneutique. L'interprétation
est une opération partielle qui consiste à donner
sens aux diverses manifestations du discours, contribuant de la
sorte au processus global de compréhension. Il est naturellement
plus facile d'isoler l'interprétation de la compréhension
dans les types de connaissance objectivante.
De la même manière l'explication
est une opération de connaissance menant ultimement à
la compréhension des phénomènes. À
la différence de l'interprétation, l'explication
s'appuie d'avantage sur la description des formes sociales et
sur les relations qu'elles entretiennent à l'intérieur
d'un univers déterminé. L'explication est le résultat
du raisonnement scientifique appliqué à des objets
décrits dans leur structure et leur fonctionnement. L'interprétation
doit nécessairement s'articuler à l'explication.
C'est ainsi que l'interprétation peut être conçue
de manière externe ou interne. L'interprétation
externe est relativement extérieure au processus de la
recherche et consiste à donner sens aux résultats
du processus explicatif. L'interprétation interne est
partie intégrante du processus et définit les règles
du raisonnement scientifique. Dans le premier cas, il s'agit
de donner le sens global d'un phénomène, dans le
second, il s'agit d'assurer la stabilité des règles
d'interprétation. Le but de toute analyse du discours
devrait être de pousser le plus loin possible le processus
interne de la recherche en s'appuyant sur des règles explicites
d'interprétation des phénomènes que l'on
décrit. La conséquence n'en est pas pour autant
d'esquiver l'interprétation externe qui échappe
à la méthode. La complexité même des
phénomènes de discours empêche de poser un
modèle exhaustif de compréhension. Le processus
de la recherche est nécessairement gouverné par
un cadre interprétatif qui lui est relativement extérieur.
La connaissance scientifique ne fait que poser l'exigence de
pousser le plus loin l'explicitation de l'ensemble de ses procédures,
y compris celle de l'interprétation.
L'ensemble des considérations qui
précèdent me permettent d'établir trois conclusions
qui indiquent la compatibilité possible entre la démarche
d'analyse du discours et le projet de son informatisation. À
un niveau très général, le passage du paradigme
de la production à celui du langage doit être, principalement,
interprété comme la réactivation d'un projet
de connaissance objective du social par opposition à une
connaissance purement subjective. Ce passage se caractérise
par la profusion des approches qui tendent à la formalisation
de l'explication et de l'interprétation de l'objet discours.
Cette exigence d'objectivation peut aisément se traduire
dans le formalisme de la science informatique. Par ailleurs,
la nécessité d'une description des formes et des
règles du discours comme préalable à la compréhension
du sens renvoie de nouveau à cette affinité naturelle
avec le caractère procédural de l'informatique.
Enfin, la nécessité de définir les opérations
aussi bien de description des formes que du raisonnement scientifique,
qu'il soit explicatif ou interprétatif, conduit naturellement
à rechercher l'aide de l'ordinateur.
II Formalisation, informatisation et
compréhension du discours
J'ai dit au point de départ qu'il
y avait accroissement de l'utilisation de l'informatique pour
l'analyse des données discursives. Cet accroissement se
manifeste, d'un côté, par l'existence d'une offre
de plus en plus imposante de logiciels dédiés à
ce type d'analyse (Tesh, 1990) et, de l'autre, par une demande
qui s'accroÎt dans des proportions comparables. À
l'incrédulité que suscitèrent les premières
expériences d'analyse du discours assistée par ordinateur
a succédé une crédulité parfois étonnante
dans les vertus des systèmes qui nous sont proposés
aujourd'hui. Entre ces deux extrêmes, il est nécessaire
de s'interroger sur la pertinence et la portée du recours
à l'ordinateur dans le processus d'analyse.
J'essaierai de montrer que le recours à
l'ordinateur consiste à se soumettre à certaines
exigences de formalisation. Ces exigences sont extrêmement
variables et correspondent peu ou prou à celles que nous
nous donnons au sein même de notre pratique d'analyse du
discours. L'ordinateur n'introduit rien de nouveau par rapport
aux questionnements de l'analyse du discours, sinon qu'il oblige
le chercheur à expliciter les procédures de sa lecture,
tout en lui faisant prendre conscience des limites des opérations
d'objectivation qu'il met en oeuvre. L'ordinateur impose que
la compréhension du sens s'effectue à travers l'étude
des formes, mais celles-ci peuvent être définies
dans des états de complexité variables. Une compréhension
parfaitement automatisée impliquerait que la machine soit
capable de décrypter le sens d'un message à travers
l'analyse exhaustive des formes graphiques, linguistiques, cognitives,
pragmatiques,... du discours et des relations qu'elles entretiennent
entre elles. La question n'est pas tant de savoir jusqu'où
l'ordinateur peut s'acquitter avec succès des tâches
nécessaires à la compréhension globale d'un
discours, mais dans quelle mesure cette formalisation appliquée
à des niveaux de complexité variables contribuera
à cette compréhension.
Je tenterai de montrer, dans un premier
temps, qu'il existe plusieurs attitudes possibles face à
l'usage de l'informatique. Je fais l'hypothèse que ces
attitudes ne sont pas indépendantes de la manière
de poser le problème du discours aux niveaux théorique
et méthodologique. Je présenterai, dans un second
temps, une conception de l'usage de l'ordinateur qui permet de
reproduire les opérations méthodologiques, quelqu'en
soit le degré de complexité, en couplant des stratégies
d'assistance et des stratégies d'automatisme. J'essaierai,
enfin, de montrer que l'informatique n'est pas neutre, de sorte
que son usage doit être manié avec autant de vigilance
qu'il en est nécessaire dans l'ensemble de la démarche
méthodologique.
Typologie des attitudes face à
l'usage de l'informatique J'esquisserai
d'abord une typologie des attitudes des chercheurs vis-à-vis
de l'usage de l'ordinateur dans le domaine de l'analyse du discours.
Ces attitudes correspondent plus ou moins aux réponses
apportées par eux aux diverses questions méthodologiques
et épistémologiques soulevées plus haut.
La première attitude est celle du
rejet. Celle-ci est invariablement motivée par l'argument
de la complexité du langage qui ne saurait être formalisée
dans son ensemble. Cet argument de la complexité s'appuie
principalement sur deux positions à l'égard de l'analyse
du discours qui sont relativement opposées.
D'un côté, certaines approches
qualitatives - ou compréhensives - ont tendance à
sacrifier à la critique de l'objectivisme toute procédure
explicite de lecture. De leur point de vue, la complexité
s'inscrit dans la richesse des situations de communication symbolique
ou dans l'épaisseur des couches signifiantes sédimentées
dans les textes (Bernier et Perrault, 1985). D'un autre côté,
le rejet peut être motivé également par une
posture opposée qui place l'explication au centre de la
démarche d'analyse. Je pense en cela aux analyses du discours
qui, par l'adoption de perspectives analytiques multiples, font
la démonstration d'une complexité telle de structures
enchevêtrées qu'il serait utopique d'en proposer
une formalisation immédiatement transposable au niveau
informatique. Une analyse du discours qui privilégie la
multiplicité des niveaux de description trouvera difficilement
la possibilité de les représenter dans les systèmes
informatiques aujourd'hui disponibles.
La seconde attitude est relativement paradoxale.
Il s'agit de l'enthousiasme naïf pour tout produit informatique
proposant de près ou de loin des analyses de données
langagières. Cette attitude est le propre de chercheurs
qui prennent le discours pour acquis, comme surface signifiante,
sans profondeur et qui n'ont généralement aucune
hypothèse sur les procédures à mettre en
oeuvre pour son analyse. Le recours naïf à l'informatique
produit nécessairement des effets de connaissance non maÎtrisés.
En effet, il n'existe pas de procédures parfaitement indépendantes
de leur conception, ni de leur mise en oeuvre. Il arrive donc
que des chercheurs se trouvent devant des données dont
ils ne maÎtrisent pas le principe de leur production. Ils
s'en trouvent réduits à pratiquer une herméneutique
naïve sur des objets construits hors de leur contrôle.
La troisième attitude pourrait être
qualifiée d'utopique. Elle est motivée par la croyance
dans la capacité à terme de l'ordinateur de produire
une compréhension automatique du sens produit dans le langage.
C'est le cas des chercheurs qui s'intéressent au traitement
automatique des langues naturelles dans le cadre du vaste projet
de développement d'une intelligence artificielle. Bien
que l'emblème des sciences de l'information et de la cognition
ait remplacé celui de l'intelligence artificielle, il n'en
subsiste pas moins, dans ce cadre renouvelé et sous des
formes moins naïves, l'ambition d'une simulation informatique
de comportements intelligents, relativement isomorphe aux processus
humains. Cette position implique de faire l'hypothèse
de la formalisation absolue de la totalité du processus
de compréhension. L'interprétation, dans ce cadre,
ne serait plus que procédure interne. Les chercheurs qui
adoptent cette attitude sont peu nombreux en sociologie. D'abord,
les traditions linguistiques et cognitivistes, partageant un même
souci de formalisation, ont, en quelque sorte, hégémonisé
ce champ de recherche. Il en est résulté une sous-théorisation
du caractère proprement social du discours et l'absence
de la sociologie dans le concert des disciplines intéressées
par ce projet. Ensuite, la sociologie, elle-même le plus
souvent incapable de proposer des modèles formels, s'éloigne
tout naturellement de ce genre de recherche.
La quatrième attitude est celle qui
considère l'informatique comme ensemble de procédures,
plus ou moins automatisées, d'aide au traitement et à
l'analyse du discours. Cette attitude me semble la plus propice
pour répondre à la situation d'explosion des perspectives
en analyse du discours. Faute d'une théorie unifiée,
il faut pouvoir tirer profit des capacités de l'ordinateur
pour formaliser certaines procédures et effectuer de manière
très efficace des tâches complexes ou répétitives.
La philosophie d'aide vise à identifier les procédures
communes à toutes les démarches de description et
d'analyse afin d'en permettre l'activation dans le cadre des hypothèses
propres à chaque chercheur. Il n'y a pas de modèles
imposés, si ce n'est au niveau des opérations méthodologiques
de base.
Proposition pour l'usage de l'ordinateur
en analyse du discours
Je ne crois pas que l'on puisse
à terme simuler la compréhension humaine dans un
système parfaitement automatisé. Cette conviction
ne découle pas principalement des limites intrinsèques
de l'informatique, mais des difficultés mêmes que
nous éprouvons dans la formalisation de ce processus dans
les sciences du langage et surtout dans les sciences sociales.
L'informatique ne peut résoudre des problèmes théoriques
que nos propres sciences n'arrivent pas à solutionner.
Le problème de l'automatisation peut
cependant être posé à un niveau plus restreint,
celui des descriptions partielles. Il nous faut, dans ce cadre,
nous interroger sur leur pertinence. Les systèmes informatisés
comportent nécessairement des procédures automatiques.
C'est le propre de l'informatique que d'effectuer des tâches
programmées. La question est de savoir jusqu'à
quel niveau ces automatismes s'appliquent : traitement des formes
graphiques à l'instar des traitements de texte, analyseurs
syntaxiques, sémantiques, textuels,...? Chacun de ces
niveaux d'automatisation s'appuient sur des théories plus
ou moins complexes et le recours à des automatismes n'a
de sens que si ces fondements théoriques sont connus et
maÎtrisés. Cette maÎtrise peut pourtant varier
en fonction du type de description et d'analyse proposé
et du type d'usage envisagé. Par exemple, il se peut
qu'un analyseur morpho-syntaxique soit bien adapté aux
besoins d'un sociologue, sans pour autant qu'il soit nécessaire
de maÎtriser le fondement théorique de cette catégorisation.
Mais il n'en est pas nécessairement de même de tous
les analyseurs disponibles. Un analyseur permettant d'identifier
les thèmes des propositions dans le cadre d'une théorie
linguistique fonctionnelle, n'est pas l'équivalent d'un
analyseur qui tenterait de repérer le thème d'un
discours sur la base d'une hypothèse de condensation sémantique
(effet de résumé). Dans les deux cas, les règles
de production sont différentes et correspondent à
des hypothèses théoriques sur la nature du thème
(propositionnel ou discursif).
En tout état de cause, il me semble
que tout système informatique devrait être conçu
de manière à ce qu'il ne se substitue pas à
la démarche analytique du chercheur. À partir de
là, il est intéressant de tirer partie des caractéristiques
propres à l'informatique, soit la nécessité
qu'elle pose de formaliser et la capacité qu'elle offre
d'effectuer des tâches complexes ou répétitives,
de manière plus ou moins automatisée. C'est dans
ce sens que j'examinerai rapidement les opérations générales
qu'elle peut faciliter. Je parle d'opérations générales
parce qu'il existe, dans toute démarche d'analyse, des
opérations logiques fondamentales qui sont mises en oeuvre,
quelle que soit la perspective d'analyse.
Ces opérations peuvent être
regroupées dans quatre catégories. Il y a d'abord
des opérations de gestion des données langagières.
Ces opérations de gestion sont les plus connues et ont
donné lieu à des applications informatiques nombreuses.
Elles consistent, entre autres, en la saisie de textes (lecture
optique), en son traitement comme chaÎnes de caractères
(traitement de texte), en la gestion de base de données
textuelles avec ses fonctions d'indexation et de navigation (Systèmes
de Gestion de Bases de Données, Hypertextes). L'ensemble
de ces systèmes permettent de gérer des unités
d'information à divers niveaux. C'est ici qu'on rencontre
la première opération logique de toute analyse.
En effet, quelque soit l'approche, le chercheur devra toujours
identifier le jeu des unités formelles qui feront l'objet
de son analyse. Les systèmes informatisés sont
aptes à reconnaÎtre et à manipuler les divers
niveaux d'unités qui peuvent intéresser le chercheur
: le mot et l'ensemble des segments plus larges (phrases, paragraphes,
textes, collections de textes). La capacité d'identifier
divers niveaux d'unités et de les retrouver est donc la
condition première des autres opérations sur le
texte.
La seconde série d'opérations
concerne l'ensemble des dispositifs de description des unités
du texte. Il n'est pas nécessaire d'insister sur le caractère
fondamental de la catégorisation comme processus de connaissance.
Toute science procède à la catégorisation
d'unités d'observation. Celle-ci est préalable
à la formulation de règles et à l'établissement
de relations. L'ordinateur va donc faciliter l'apposition de
catégories aux diverses unités du texte. Par exemple,
les mots pourront recevoir une caractérisation morpho-syntaxique
ou sémantique, les segments thématiques ou argumentatifs
une codification appropriée. La seconde opération
de description concerne donc l'identification de structures qui
définissent des relations entre les objets décrits
sur la base d'un système de règles. Il permettra
ensuite de marquer les diverses relations entre ces objets. Par
exemple, ces enchaÎnements entre objets pourront être
notés dans des systèmes hiérarchiques (arborescences)
ou inférentiels (systèmes-experts). Dans tous ces
cas, le chercheur tentera de représenter les divers aspects
du texte dans une structure de catégories et de relations.
Il existe un grand nombre de logiciels qui sont destinés
à ces opérations d'annotation et de description
structurelle (FIEDLDING et LEE 1991, TESCH, 1991). Le chercheur
y trouve donc un support à sa démarche de recherche,
en autant toutefois qu'il pousse l'analyse jusqu'à ce niveau
de formalisation.
La troisième série d'opérations
renvoie à l'exploration de l'information à l'état
brut ou telle qu'elle a été structurée.
Elle permet de retrouver les unités, simples ou complexes,
leur(s) catégorie(s) ou encore la représentation
structurelle qui en a été faite. Par exemple, il
est facile d'obtenir des listes de mots et leur contexte, des
propositions ou phrases contenant certaines catégories,
des structures thématiques, argumentatives ou actancielles
en autant qu'elles ont fait l'objet d'une description préalable.
Cette exploration permet l'observation de régularités
ou, inversement de faits isolés mais significatifs. Elle
peut être pratiquée sur plusieurs plans comparatifs,
tirant partie de la capacité de l'ordinateur de consulter
de large bases de connaissances en même temps que des structures
d'une grande complexité. L'ensemble de ces opérations
sont des automatismes dont l'efficacité repose sur la pertinence
de la représentation informatique des données et
des règles procédurales capables de les explorer.
Cependant, ces automatismes ne proposent pas d'analyse. Ils
sont des dispositifs de traitement de l'information, idéalement
paramétrables, qui exécutent des tâches trop
complexes ou trop répétitives pour être accomplies
manuellement.
L'analyse commence dans le quatrième
groupe de procédures. Celles-ci consistent toujours à
développer des automatismes de raisonnement. Elles permettent
donc la mise en oeuvre de l'explication et de l'interprétation.
Elles ne sont possibles que dans la mesure où le raisonnement
peut être formalisé. Je donnerai trois exemples
élémentaires de ces procédures d'analyse
qui peuvent être récupérées par le
sociologue. Le premier renvoie aux analyseurs linguistiques qui
font partie intégrante du processus de description. Ces
analyseurs appliquent des règles de raisonnement afin d'attribuer
des catégories ou de définir les relations qui unissent
ces dernières dans des structures. Ces analyseurs sont
appliqués au départ de la chaÎne de production.
On peut penser, par exemple, à des dispositifs automatiques
de catégorisation morpho-syntaxique et de lemmatisation
ou encore à des analyseurs syntaxiques plus complexes.
Outre le fait que ces analyseurs ne peuvent, en aucun temps,
se suffire à eux-mêmes du point de vue de l'analyse
du discours, il faut être conscient de leur forte dépendance
des modèles linguistiques théoriques qui les fondent.
Dans la mesure où on tient compte de leurs limites et
de leur prédétermination théorique, ils pourront
être mis à contribution dans le processus plus global
d'analyse du discours.
Le second exemple est celui des analyseurs
statistiques. Ils s'appliquent aux résultats générés
par les différentes procédures d'exploration, elles-mêmes
appliquées à des données déjà
décrites. Ils mettent en oeuvre le raisonnement mathématique
en effectuant des calculs pouvant rendre compte du comportement
statistique de certaines unités du texte. Ces dispositifs
facilitent le processus d'analyse des données générées
par l'ensemble des procédures appliquées au texte.
Leur application n'est cependant pas toujours pertinente dans
la mesure où la logique des nombres ne s'applique pas en
tout temps.
Le troisième exemple consiste à
utiliser la technologie des systèmes-experts pour modéliser
l'interprétation des données textuelles (Paquin,
1992, 1993). Cette approche consiste à activer des règles
d'inférences dans le processus d'analyse et d'interprétation
des faits discursifs. Le recours à de tels systèmes
est encore de nature expérimentale en raison des difficultés
intrinsèques liées à la formalisaiton des
opérations d'interprétation (identification de faits
pertinents et de règles d'inférence productives).
Dans tous ces exemples, il y a toujours une forte détermination
par le modèle théorique mis en branle. La procédure
ne peut donc qu'être utilisée localement. L'idéal
sera donc de permettre au chercheur de les activer dans un environnement
global en raison des besoins spécifiques de la recherche.
Impact de l'informatique sur la démarche
sociologique L'ensemble
des considérations qui précèdent m'amènent
à poser la question de l'impact de l'usage de l'informatique
en analyse du discours. J'ai toujours cru à la contribution
non seulement instrumentale, mais fondamentale de l'informatique
à la démarche de recherche. J'essayerai d'en donner
plus loin les raisons. Mais, je ne peux passer sous silence les
effets pervers d'un tel recours. J'examinerai maintenant le pour
et le contre en m'en reportant aux quatre attitudes face à
l'informatique, décrites plus haut.
Le rejet de l'informatique peut, comme nous
l'avons vu, être parfaitement motivé par différentes
conceptions de la complexité des faits de discours. À
un extrême, toute tentative d'objectivation est récusée
au nom d'une approche compréhensive. À l'autre,
le choix méthodique d'une perspective d'analyses multi-niveaux
empêche encore de s'appuyer sur une technologie insuffisamment
développée. Il est inutile, dans cette optique,
de recourir à l'informatique si ce n'est sous l'aspect
des opérations de gestion des données. Dans les
deux cas, la question de l'impact est presque sans objet.
L'enthousiasme naïf est certainement
l'attitude la plus susceptible d'entraÎner des effets pervers.
Le chercheur utilise une machine dont il ne sait pas précisément
ce qu'elle fait. Par définition, les opérations
sur le texte produisent des résultats. Au mieux, ceux-ci
prendront la forme d'une distribution de "parties de discours"
découpées au gré des modèles d'exploration.
Le chercheur en sera quitte pour les "interpréter"
de l'extérieur. Au pire, le traitement informatique produira
des résultats d'analyse qui, faute d'une maÎtrise
des principes ayant présidé à leur production,
prédétermineront les conclusions du chercheur.
Les deux autres attitudes méritent
plus d'attention. Comme je l'ai dit plus haut, on trouvera plus
de partisans de l'automatisation des procédures du côté
des sciences plus formelles, comme la linguistique ou la psychologie.
Dans la mesure où ces disciplines testent des hypothèses
descriptives et explicatives comportant déjà une
forte composante de formalisation, elles peuvent aisément
contrôler la validité et évaluer l'efficacité
de leur démarche lorsqu'elle est transposée au niveau
informatique. Tout le problème provient de l'interconnexion
entre ces disciplines et les autres sciences sociales, ce qui
ne signifie pas nécessairement l'interdisciplinarité.
Sans parler des utilisateurs naïfs, il existe une forte
tentation à la subordination des sciences à vocation
plus "interprétative", comme c'est le cas pour
la sociologie, à ces disciplines plus "explicatives".
C'est pourquoi les sociologues doivent se garder de prendre les
résultats générés par les algorithmes
conçus dans le cadre des recherches en linguistique ou
en psychologie cognitive, comme des faits objectifs. La disponibilité
de logiciels effectuant certaines tâches dans une direction
donnée ne devrait jamais l'emporter sur la nécessité
pour l'analyste d'obtenir des descriptions allant dans une autre
direction.
La perspective qui consiste à considérer
l'informatique comme un ensemble de procédures d'aide au
traitement et à l'analyse de données textuelles,
devrait mettre le chercheur à l'abri des effets pervers.
Ce n'est malheureusement pas toujours le cas. Il faut d'abord
rappeler la prévention qui vient juste d'être dite.
Tout recours à des automatismes devrait toujours être
évalué en connaissance de cause. Mais cela est
relativement facile. Ce qui l'est moins, c'est de se protéger
contre la prédétermination des procédures
elles-mêmes. Le système ouvert auquel je me suis
référé jusqu'à présent demeure
encore un type idéal. Tous les systèmes informatiques
comportent des contraintes. Celles-ci s'imposent en quelque sorte
au chercheur qui doit les adapter à sa propre démarche.
Je donnerai quelques exemples. Si le système adopté
favorise la représentation des mots plus que celle des
segments, le chercheur aura tendance à retraduire sa stratégie
dans les limites imposées par le système. Si, par
ailleurs, il dispose d'analyseurs statistiques à la sortie,
il sera tenté de poursuivre un raisonnement probabiliste
plutôt qu'analytique. Notons cependant que bien que ces
contraintes existent, elles ne sont pas différentes de
celles de toute méthodologie dans laquelle un chercheur
pourrait progressivement s'enfermer. L'informatique exige peut-être
de conserver une plus grande vigilance critique. Les dispositifs
mis en oeuvre sont là pour supporter l'analyse, non pas
pour la supplanter.
Il existe pourtant des avantages décisifs
à l'utilisation de l'informatique. Je ne reviendrai pas
sur l'effet premier de cet usage, maintes fois répété,
c'est-à-dire la nécessité qu'il provoque
chez le chercheur de formaliser les diverses opérations
d'analyse. J'insisterai d'abord sur l'efficacité de l'ordinateur.
J'ai mentionné à plusieurs reprises sa capacité
d'étudier en largeur des bases importantes de données
et d'explorer en profondeur des structures complexes. La faculté
de traiter les grands ensembles peut certes avoir l'effet d'inciter
le chercheur à multiplier inutilement ses corpus. Mais,
là où cela s'impose, l'exploration systématique
de grands ensembles de données accroÎt la connaissance
et la validité. Quant à l'exploration des structures
complexes, l'ordinateur parvient à produire des analyses
qui seraient difficilement réalisables sans son aide.
En effet, plus la représentation des données gagne
en complexité, plus il devient difficile de parcourir de
manière systématique ces descriptions.
Un avantage supplémentaire de l'usage
de l'ordinateur découle d'une combinaison des caractéristiques
mentionnées jusqu'ici. L'efficacité en largeur
et en profondeur, le raffinement des descriptions possibles, les
possibilités d'exploration tous azimuts des données
dans autant d'états qu'il en existe, la présence
d'analyseurs produisant de nouveaux résultats, tout cela
contribue à développer les opportunités de
découvertes ("serendipity" dans le vocabulaire
de la méthode sociologique). À l'encontre même
de ce qui se passe le plus souvent dans l'application de méthodologies
rigoureuses, l'utilisation de l'ordinateur, en autant que l'on
s'en tienne à une stratégie d'utilisation souple,
permet d'arriver à des résultats inattendus. Une
stratégie d'utilisation souple implique deux caractéristiques
: elle doit favoriser la démarche heuristique et multiplier
les angles de lecture. L'analyse du discours ou de contenu est
toujours aux prises avec le problème de la surdétermination
des données. Ces méthodes produisent en effet des
données surdéterminées par les descriptions
catégorielles et relationnelles qu'elles y produisent.
Ces descriptions plus ou moins figées ne peuvent souvent
donner lieu qu'à la confirmation ou à la réfutation
d'hypothèses (Gardin, 1974). Un usage optimal de l'informatique
permet à la fois de conserver les données vierges
derrière les données décrites et d'opérer
des changements aux descriptions déjà produites
dans le cours de l'analyse. L'ordinateur autorise donc un cheminement
heuristique qui procède par mouvements d'aller-retour.
L'ordinateur peut également permettre la multiplication
des angles de lecture. Le produit des opérations de description,
d'exploration et d'analyse représente autant de nouveaux
textes qui émanent du texte originel et sont sujets à
interprétation. La multiplication des points de vue sur
le texte favorise l'émergence de nouvelles connaissances.
Conclusion
J'ai renoncé à poser le problème
de la nature théorique du discours en sociologie, présupposant
qu'il est minimalement conçu comme une forme sociale, voire
historique. Cela m'a évité de poursuivre la discussion
sur les conséquences que diverses théories pouvaient
avoir sur les choix méthodologiques. Je me suis concentré,
au contraire, sur la construction du discours comme objet empirique
pouvant être pris en charge par la méthode sociologique.
J'ai dû pour cela poser que la sociologie participe à
la démarche de connaissance définie comme processus
d'objectivation. Je n'ai pas pour autant résolu la question
de savoir jusqu'où cette objectivation peut aller et si
elle épuise l'expérience de connaissance de la sociologie.
Il m'a suffit de poser qu'elle est toujours aussi connaissance
objectivante.
C'est donc dans d'une telle perspective
que j'ai tenté de réfléchir aux opérations
de connaissance pouvant mener à la compréhension
des phénomènes sociaux à travers le discours.
J'ai montré que l'analyse du discours procède à
un ensemble d'opérations méthodo-logiques appliquées
à des données discursives : gestion et description
des unités, descriptions des relations et des structures,
exploration et analyse de ces descriptions. J'ai également
montré que ces opérations mettent nécessairement
en branle les processus d'explication et d'interprétation
en tant qu'éléments constitutifs du raisonnement
sociologique. L'explication met l'accent sur le processus de
démonstration lié à toute compréhension
objective alors que l'interprétation constitue l'action
de donner sens aux phénomènes étudiés.
J'ai distingué l'interprétation interne de l'interprétation
externe pour montrer qu'il est possible de penser des règles
d'interprétation dans le cadre de systèmes analytiques
délimités (interprétation interne) alors
que l'interprétation externe constitue toujours un horizon
qui échappe à la rigueur du raisonnement méthodique.
L'ensemble de ces réflexions m'ont
permis de montrer que l'analyse du discours ne peut se contenter
d'une approche purement compréhensive qui renoncerait à
toute procédure objective de connaissance au profit d'une
démarche d'interprétation purement externe. Il
me semble, au contraire, qu'il faut accroÎtre le caractère
formel des opérations appliquées à la lecture
d'un texte jusqu'à y inclure les règles d'interprétation.
L'informatique, sans se substituer à la démarche
studieuse du chercheur, permet de répondre à ces
exigences formelles, tout en maximisant l'efficacité des
protocoles et en favorisant les chances de la découverte.
BERNIER, L. et PERRAULT, I. (1985), L'artiste
et l'oeuvre à faire, IQRS.
BOURQUE, G. et DUCHASTEL, J. (1988), Restons
traditionnels et progressifs, Pour une nouvelle analyse du discours
politique, Le cas du régime Duplessis au Québec,
Montréal, Boréal.
DUCHASTEL, J., PAQUIN, L.C., BEAUCHEMIN,
J. (1992), "Automated Syntactic Text Description Enhancement
: Thematic Structure Analysis", Computers and the Humanities,
no 26.1.
DUCHASTEL, J. , PAQUIN, L.C., BEAUCHEMIN,
J. (1993), "Automated Syntactic Text Description Enhancement
: Determination Analysis", The New Medium, Research
in Humanities Computing,, Oxford, Oxford University Press.
DILTHEY, W. (1947), "Origine et développement
de l'herméneutique", in Le Monde de l'esprit,
I, Paris, Aubier-Montaigne.
FIEDLDING, N. G. et LEE, R.M. (1991), Using
Computers in Qualitative Research,, London, Sage Publications.
GARDIN J.-C. (1974), Les analyses du
discours, Neuchâtel, Delachaux et Niestlé.
GARDIN, J.-C. et al.(1987), Systèmes
experts et sciences humaines, Paris, Eyrolles.
GRIZE, J.-B., VERGES, P., SILEM, A. (1987),
Salariés face aux nouvelles technologies, Vers une approche
socio-logique des représentations sociales, Paris,
Ed. du CNRS.
LEBART, L. et SALEM, A (1988), Analyse
statistique des données textuelles. Paris: Dunod.
MAINGUENEAU, Dominique (1987), Nouvelles
tendances en analyse du discours, Paris, Hachette.
MARKUS, Gyorgy (1982), Langage
et production, Paris, Denoèl/Gonthier.
PAQUIN, L.C. (1992), "La lecture experte",
Technologie, idéologie et pratique, numéro
spécial "Intelligence artificielle et sciences sociales"
Volume X no. 2-4, pp. 209-222.
PAQUIN, L. C. (1993), "Une lecture
experte des textes juridiques", in Les sciences du texte
juridique, Le droit saisi par l'ordinateur, Montréal,
Les éditions Yvon Blais.
PIRES, Alvaro (1987), "Deux
thèses erronées sur les lettres et les chiffres",
Cahiers de recherche sociologique, vol. 5, no. 2, pp. 85-105.
PIRES, Alvaro (1989),"Analyse
causale et récits de vie", Anthropologie et Sociétés,
Vol. 13, no. 3, pp. 37-57.
RICOEUR, Paul (1986), Du
texte à l'action, Essais d'herméneutique, II,
Paris, Seuil.
TESCH, Renata (1990), Qualitative Research
: Analysis Types and Software Tools, London and Philadelphia,
Falmer Press, 1990.
TESCH, Renata (1991), "Software for
Qualitative Researchers : Analysis Needs and Program Capabilities",
in Fielding & Lee, Using Computers in Qualitative Research,
London, Sage Publications, pp. 16-37. |