Pour réaliser ses objectifs, le réseau ATONET regroupe ses activités autour de trois groupes de travail étroitement lié au groupe de travail des JADT sur le format des données: .

  • Corpus Groupe sur la méthodologie et le partage de corpus Les travaux de ce groupe de travail concernent le partage des méthodes et des ressources en analyse de texte assistée par ordinateur. Les communications scientifiques, notamment celles présentées lors des JADT, permettent de saisir la nature complémentaire de plusieurs de nos méthodes et programmes informatiques. Le temps est venu de se donner un cadre précis et concret pour évaluer la portée de ces méthodes et des logiciels qui les supportent en les appliquant à un même ensemble de données. L'objectif du réseau est de favoriser les initiatives pour une expérimentation contrôlée sur divers corpus représentant plusieurs niveaux de langage et de discours.

    Ce projet d'expérimentation implique une mise en commun de corpus en vue de constituer un ensemble test de données textuelles déjà constituées permettant de valider nos formats d'échanges, nos outils informatiques et nos pratiques d'analyse. Chaque chercheur et groupe de recherche possède déjà des corpus spécialisés. L'objectif est de convenir d'un ensemble élargi de textes représentatifs des divers types de corpus qui seront mis à la disposition de tous les chercheurs et développeurs de logiciels au sein du réseau : corpus politiques, entrevues, dialogues oraux, réponses à des questions ouvertes, corpus littéraires, sociaux-linguistiques, etc. Sur la base de cette typologie, on pourra convenir du mode d'approbation des divers corpus qui feront partie de cet ensemble test. Pour l'expérimentation et l'échange méthodologique, chaque membre du réseau a accès aux programmes informatiques et aux ressources lexicales nécessaires à leur utilisation.

    L'expérimentation vise aussi à développer les liens entre les diverses méthodologies mises en œuvre dans les différents logiciels développés par nos partenaires. D’un côté, on doit tenir compte de la spécificité des corpus et des problématiques de recherche qui sont privilégiés par chacun. De l’autre, il faut explorer les transferts de certaines stratégies concernant les diverses opérations de description, d’exploration ou d’analyse des données. Une fois le formatage des corpus normalisé, il est possible de penser que les diverses stratégies de catégorisation (lemmatisation, catégorisation morpho-syntaxique ou sémantique, marquage des parties du discours) puissent être transférées d’un logiciel à l’autre. De même, les stratégies de fouille des corpus à partir de patrons ou d’algorithmes peuvent donner lieu à la génération de données (tableaux ou graphes) transportables d’un logiciel à l’autre. Enfin, les diverses approches d’analyses statistiques (descriptives, factorielles ou classificatoires) devraient pouvoir être mises en relation les unes avec les autres, permettant de boucler des cycles intéractifs dans le processus d’investigation.
    Un certain nombre d'analyse sur corpus ont été réalisées par des membres d'ATONET afin de combiner les méthodes soutenues par les divers logiciels développés par les chercheurs. Voici quelques références bibliographiques menant à des publications concernant certains de ces travaux.
    • Daoust F.; Dobrowolski, G.; Dufresne, M.; Gélinas-Chebat, C. Analyse exploratoire d'entrevues de groupe : quand ALCESTE, DTM, LEXICO et SATO se donnent la main, in Les Cahiers de la MSH Ledoux no. 3, Actes des JADT-2006, vol. 1, pp- 313-326, Presses universitaires de Franche-Comté, 2006. ISBN 2.84867130.0 pdf
    • Duchastel J.; Daoust F.; Della Faille, D. Le problème de l’interprétation des données à partir d’un corpus bilingue. L’exemple du discours des trois chefs de parti sur la motion de reconnaissance du « Québec comme société distincte au sein du Canada » , in Actes des JADT-2008, vol. 1, pp- 421-431, Presses universitaires de Lyon, 2008. ISBN 978-2-7297-0810-8. pdf
  • La première année d'ATONET a permis de convenir de l'utilisation d'un format d'échange de corpus faisant appel à un ensemble réduit de balises conformes aux recommandations du Text encoding Initiative. Il s'agit des propositions Sacacomie empruntant leurs noms au lieu où s'est tenu le séminaire de travail où furent présentées ces propositions. Des passerelles en Perl ont été développées pour convertir les corpus des formats propriétaires vers ce format TEI, et inversement. Voir la présentation aux JADT 2006 et Logiciels d'analyse textuelle : vers un format XML-TEI pour l'échange de corpus annotés, François Daoust, Yves Marcoux in Les Cahiers de la MSH Ledoux no. 3, Actes des JADT-2006, vol. 1, pp- 327-340, Presses universitaires de Franche-Comté, 2006. Sur la base de ces premières propositions de normalisation des formats d'échange, des travaux de recherche ont été entrepris pour proposer un cadre intégré et dynamique de gestion des corpus et de leurs annotations. Voir Pour un modèle de dépôt de données adapté à la constitution de corpus de recherche. Daoust F.; Duchastel J.; Marcoux Y.; Rizkallah E. (2008). Actes des JADT-2008, vol. 1, pp- 355-367, Presses universitaires de Lyon, 2008. ISBN 978-2-7297-0810-8. Des recherches récentes ont approfondi cette question de la normalisation XML appuyées sur les propositions Sacacomie.
    • Daoust, F. ; Marcoux, Y. ; Viprey, J.-M. L'annotation structurelle. JADT 2010.
    • Martinez, W. ; Daoust, F. ; Duchastel, J. Un service Web pour l'analyse de la cooccurrence. JADT 2010.Normalisation des formats Groupe sur les formats d'échange de documents électroniques L'expérimentation sur corpus exige qu'on puisse transférer les données d'un logiciel à l'autre et d'une méthode à l'autre sans perte des niveaux de description antérieurs. Pour ce faire, il faut convenir de formats d'échange de documents électroniques en vue de leur traitement par les divers outils logiciels développés au sein de la communauté des chercheurs en ATO. L'utilisation du langage de balisage XML s'impose naturellement pour cette tâche. XML, rappelons-le, est un langage général de balisage des documents électroniques qui permet de publier, conserver, annoter et transformer des textes selon un protocole indépendant des formats propriétaires. La conversion des données, des logiciels et des interfaces à la norme XML facilite l'accès à l'ensemble de la chaîne de traitement textuelle : documentation et archivage sur la base d'une définition rigoureuse des données, ajout et maintenance de données provenant de diverses sources, interopérabilité des modules d'analyse, diffusion auprès de la communauté des chercheurs. Le problème se pose sous plusieurs aspects.
      • l'établissement d'un consensus autour de normes minimales de balisage XML constituant le format de référence pour l'échange des corpus à des fins de traitement par divers logiciels;
      • l'écriture de passerelles permettant de passer des formats propriétaires au format XML et du format XML aux formats propriétaires afin de pouvoir utiliser les logiciels dans leur version actuelle;
      • la discussion de stratégies permettant la manipulation de corpus ayant déjà fait l'objet de balisage XML suivant des DTD (description du type de documents) définies par d'autres groupes d'intérêt, en particulier les documents qui suivent les recommandations du Text Encoding Initiative ( http://www.tei-c.org/ ) ;
      • la discussion de formats permettant l'exportation ou l'importation des résultats produits par les logiciels d'analyse textuelle : marquage de segments textuels, production de tableaux lexicaux, graphes et données lexicographiques.

    Le réseau ATONET n'étant plus actif, le service Web de cooccurrence, écrit dans le langage Perl, a été intégré à l'interface Web de SATO http://sato.ato.uqam.ca. On y a accès en ouvrant une session de travail et en cliquant sur Tâches / Cooccurences du menu de commandes.

  • Terminologie Groupe sur la terminologie de l'analyse des données textuelles Chaque logiciel en ATO a sa terminologie spécifique désignant de façon différente des réalités qui peuvent être voisines. L'établissement d'un lexique de référence explicitant les termes du domaine est un outil très utile pour l'échange et l'apprentissage. Aussi, en particulier dans la tradition des JADT, l'échange en ATO met en contact de façon régulière des logiciels, des ressources linguistiques et des corpus dans plusieurs langues romanes (français, espagnol, italien) et en anglais. La production d'interfaces multilingues, ou la compréhension des interfaces monolingues, bénéficierait fortement d'un lexique comparatif permettant d'établir des équivalents terminologiques entre ces diverses langues. Ce groupe de travail vise donc la mise en commun de ressources terminologiques : recension et comparaison des terminologies existantes au sein de nos équipes et mise en place d'une plateforme accessible par Internet permettant aux membres du réseau d'avoir accès à ces terminologies.
    ATONET a mis en place un modèle de fiche terminologique accessible et modifiable à partir du WEB et a monté une première base terminologique sur la base de ce modèle.
    Base terminologique ATONET