PREMIERS RESULTATS D'UN TEST D'INDEXATION ET DE REPERAGE AVEC DIFFERENTS TYPES DE REPRESENTATIONS DU CONTENU, DANS ARCHIMEDE, LE CATALOGUE EN LIGNE DE LA BIBLIOTHEQUE DE L'ECOLE POLYTECHNIQUE DE L'UNIVERSITE DE MONTREAL

Par

Suzanne Bertrand-Gastaldy

Gilles Deschâtelets

1. Le projet d'indexation de l'Ecole Polytechnique

En mai 1988, la direction de la bibliothèque de l'Ecole Polytechnique confiait à un groupe de professeurs de l'Ecole de bibliothéconomie et des sciences de l'information le mandat de doter Archimède, le catalogue en ligne de la bibliothèque de l'Ecole Polytechnique, d'un système d'indexation et, par conséquent, d'un accès sujet digne de ce nom puisque, actuellement seuls les titres et les cotes sont interrogeables pour retrouver des documents sur un sujet.

L'équipe de recherche est composée de Suzanne Bertrand-Gastaldy qui en assume la responsabilité, de Gilles Deschâtelets et de Réjean Savard, tous trois professeurs à l'Ecole de bibliothéconomie et des sciences de l'information, et enfin de BenoÎt Legault, assistant de recherche, qui a accepté d'autres responsabilités un peu avant la fin du projet.

Elle travaille en étroite collaboration avec le Directeur de la Bibliothèque, M. Olivier Paradis et les membres du Comité de la base de données: Mmes Nicole Lemyre, Minh-Thu Nguyen, M. André Maltais.

1.3 Méthodologie

Afin de tenir compte de tous les éléments du contexte, du système en place et des besoins des utilisateurs, le projet s'est déroulé en plusieurs étapes (acétate 1)

1- étude du contexte

2-revue de la littérature sur les types d'analyse et d'accès sujet les plus courants dans les catalogues en ligne, ainsi que sur les fonctionnalités de plusieurs systèmes existants, le tout complété par un inventaire des thésaurus en sciences, en technologie et en génie;

3- étude de la façon dont le système GLIS a été implanté à l'Ecole Polytechnique, des choix effectués lors de la paramétrisation du système avec leurs conséquences pour le repérage, des capacités réelles du système à l'usage;

4- évaluation des comportements des utlisateurs lors du repérage dans ARCHIMEDE;

5- enquête sur les perceptions et attitudes des clientèles face à ARCHIMEDE;

6- bilan de la capacité d'ARCHIMEDE à satisfaire les besoins des utilisateurs;

7- tests d'indexation d'une mini-collection selon différentes méthodes;

8- évaluation des performances au repérage des différentes méthodes d'indexation;

9- recommandations finales (à venir)

2. L'indexation selon différentes méthodes et les résultats au repérage en termes de rappel et de précision

Notre revue de la littérature (étude no 2), notre observation des usagers en train d'interroger le catalogue en ligne (étude no 4) et notre enquête auprès des utilisateurs (étude no 5) ont amplement démontré l'importance de l'accès sujet (par rapport à l'accès auteur) .... et le besoin d'outils d'aide au repérage.

2.1 Le test d'indexation

Nous avons donc décidé, dans un premier temps, d'expérimenter différentes méthodes d'analyse du contenu. Notre objectif était d'évaluer les opérations et le temps requis par chacune d'elles, les outils documentaires nécessaires, les politiques et procédures à mettre en place, le niveau d'expertise souhaitable de la part des indexeurs, ainsi que certaines fonctionnalités du logiciel permettant d'optimiser l'exploitation de l'analyse sujet.

Il a fallu d'abord procédé au choix d'un mini-corpus aussi représentatif que possible de l'ensemble de la collection (en termes de types de documents et de langue) et utile à l'ensemble d ela communauté de l'Ecole: nous avons retenu 200 documents en thermodynamique, soit la moitié de la collection de la Bibliothèque dans ce domaine.

Nous avons indexé ces ouvrages avec au moins un des types de langages documentaires possibles si l'on tient compte de la typologie basée sur la coordination et le contrôle, à l'exception du langage analytico-synthétique, impossible à implanter avec le logiciel actuel et long à apprendre. Ceci nous a donné, pour chaque document, les représentations suivantes (acétate 2):

- en langage contrôlé précoordonné:

code alphanumérique (déjà disponible):

. indices de classification de la Bibliothèque du Congrès

. indices du système CODOC (pour les rapports techniques)

code linguistique:

. vedettes-matière de l'Université Laval

- en vocabulaire contrôlé postcoordonné:

descripteurs d'un thésaurus bilingue (BSI Root Thesaurus, produit par British Standards

Institution): indexation approfondie d'une quinzaine de concepts par document extraits lors

de l'indexation en vocabulaire libre postcoordonné

- en vocabulaire libre précoordonné (en anglais ou en français, selon la langue du document):

titres (déjà disponibles)

titres des collections (déjà disponibles)

titres enrichis à partir des tables des matières ou des résumés

- en vocabulaire libre postcoordonné (en anglais et en français):

termes simples ou composés exprimant un uniconcept tirés des titres enrichis ou d'autres

parties informatives du document

- mention du type de document

Une zone du format MARC a été affectée à chaque type de représentation et a été recherchable et affichable pour le test de repérage optionnel: le tableau no 1 de la page 66 du rapport no 7).

Les tests d'indexation ont fait ressortir les forces et les faiblesses des vocabualires contrôlés choisis.

2.2 Tests de l'efficacité au repérage des différentes méthodes d'indexation

2.2.1 Objectif:

L'objectif de l'étude no 8 a consisté à mesurer les performances de chacune des méthodes d'indexation prises individuellement et combinées entre elles, en termes de taux de rappel (nombre de documents pertinents repérés sur l'ensemble des documents pertinents existants) et du taux de précision (nombre de documents pertinents repérés sur l'ensemble des documents repérés), ainsi que l'effort requis de l'usager.

2.2.2 Les mesures:

Nous avons voulu que ce test mesure les performances des différents langages documentaires, indépendamment des aptitudes différentes des utilisateurs à se servir d'un catalogue automatisé ou à cerner un sujet. C'est un test en laboratoire, effectué par une personne connaissant bien à la fois l'indexation et le repérage et la littérature scientifique, notre assistant de recherche. Les études d'utilisateurs que nous avons menées antérieurement nous ont fourni suffisamment d'informations sur l'interaction système/usager.

Autant que possible, nous avons également essayé de contourner les limites actuelles du logiciel, comme celle qui empêche de distinguer deux types de représentations du contenu, lors de l'accès sujet (vedettes-matière et descripteurs; titres et titres enrichis, par exemple).

Le taux de rappel est un taux de rappel relatif. Le nombre de documents pertinents pour une question donnée est calculé en faisant la somme des documents pertinents différents repérés par l'ensemble des stratégies, et non pas par l'examen des 200 documents de la collection-test.

Est considéré comme pertinent tout document contenant l'expression recherchée par la stratégie (ceci évite tout problème de subjectivité).

Nous nous proposons aussi de mesurer l'effort de l'usager, non pas mesuré en temps, mais en démarches nécessaires pou élaborer sa stratégie de recherche: outils documentaires ou lexicologiques à consulter (répertoire de vedettes-matière, thésaurus, dictionnaires), index à interroger, commandes à utiliser (opérateurs booléens, troncature, adjacence, etc.)

2.2.3 Les questions et les stratégies de recherche:

Les questions utilisées pour les tests ont été fournies par un professeur en thermodynamique à l'Ecole Polytechnique, M. Amram et par Mme Nicole Lemyre, responsable de la référence à la Bibliothèque.

Vingt-et -une questions réparties en cinq catégories ont été retenues (acétate 3):

- questions avec un seul concept (exprimé par un uniterme):

par exemple, ENTHALPIE

- questions avec un seul concept (exprimé par un multiterme):

par exemple, CHALEUR DE FORMATION

- questions avec un seul concept (susceptible d'être exprimé par plusieurs unitermes

synonyme reliés par des OU logiques dans les stratégies):

par exemple, GAZ PARFAIT, GAZ IDEAL

- questions avec deux concepts (reliés par des ET logiques dans les stratégies):

par exemple, EQUILIBRE, REACTION CHIMIQUE

- questions avec trois concepts (reliés par des ET logiques dans les stratégies)

par exemple, CYCLE, POMPE A CHALEUR, RENDEMENT

En tout, 24 stratégies ont été testées dans chacun des .10 (11?) index produits pour les besoins du test

2.2.4 Présentation de quelques résultats:

N.B. Chaque fois, nos indiquons 2 résultats, le premier correspond à l'interrogation par chaÎne de caractères, à partir du début dans l'index inverse des termes entiers , le second correspond à l'interrogation par uniterme dans l'index inverse des termes éclatés.

a) Performances en termes de précision (acétate 4)

Moyenne, pour chaque type de représentation, par ordre décroissant:

Vocabulaire libre postcoordonné: 98 % 96 %

Titres enrichis: 98 % 95 %

Titres: 83 % 89 %

Descripteurs du thésaurus: 46 % 40 %

Vedettes-matière: 42 % 36 %

Cote: 40 %

Moyenne, pour certaines combinaisons de représentations, par ordre décroissant:

Titre enrichi + vedette-matière: 51 %

Vocabulaire libre postc. + vedettes-matière: 47 %

Titre enrichi + descripteurs du thés.: 47 %

Vedettes-matière + descripteurs du thés.: 44 %

Vocabulaire libre postc. + descripteurs du thés.:

b) Performances en termes de rappel (acétate 5)

Moyenne, pour chaque type de représentation, par ordre décroissant:

Vocabulaire libre postcoordonné: 60 % 65 %

Descripteurs du thésaurus: 57 % 64 %

Titres enrichis (Voc. libre préc.): 33 % 42 %

Vedettes-matière: 21 % 26 %

Cote: 6%

Titres: 5 % 9 %

Moyenne, pour certaines combinaisons de représentations, par ordre décroissant:

Voc. libre postcoordonné + descripteurs du thés.: 78 %

Titre enrichi + descripteurs du thésaurus: 77 %

Voc. libre postcoordonné + vedettes-matière: 74 %

Vedettes-matière + descripteurs du thésaurus: 70 %

Titre enrichi + vedettes-matière: 54 %

Nous avons aussi calculé les performances moyennes, par question et par type de questions, mais nous n'avons pas le temps de les présenter ici.

c) Effort de l'usager:

Nous n'avons pas encore chiffré cet élément en nombre de termes et d'opérateurs employés.

2.2.5 Début d'interprétation des résultats:

Ce qui frappe, à la simple lecture des tableaux que nous venons de présenter, ce sont les performances remarquables des représentations en vocabulaire libre, aussi bien pour le rappel que pour la précision, de même que l'avantage qu'il y a à combiner deux types de langages, surtout un en vocabulaire libre et l'autre en vocabulaire contrôlé. Enfin, les résultats des combinaisons sont toujours supérieurs aux résultats des représentations uniques et exactement inversement proportionnels pour la précision et pour le rappel.

a) Les causes principales des failles au repérage:

Nous n'avons pas encore analysé en détail les résultats, mais plusieurs explications peuvent être tirées d'ores et déjà des constations que nous avions faites lors de l'indexation.

On sait que les sources de bruit et de silence peuvent provenir de quatre sources:

- l'indexation:

- les langages documentaires:

- les stratégies de recherche

- l'interface du système

L'interface du système n'a pas été pris en ligne de compte dans cette étude, car nous l'avons évlalué dans une étude antérieure (étude no 4).

En ce qui concerne la précision, on remarque tout de suite la très nette supériorité du vocabulaire libre. Ce n'est évidemment pas la première expérience qui aboutit à ce genre de résultats. Les pourcentages très élevés s'expliquent d'une part par l'exhaustivité de l'analyse et la spécificité du vocabulaire employé dans les tables des matières, par la nature du domaine: une discipline scientifique où le vocabulaire semble très normalisé, par la nature et le nombre des questions et, enfin, par l'homogénéité de la collection (les mêmes questions posées sur l'ensemble de la collection de l'EP, avec tous les domaines, auraient sans doute généré plus de bruit, quoique les termes étaient suffisamment précis pour ne pas s'appliquer à trop de sous-disciplines).

On constate également que l'interrogation par unitermes génère plus de bruit que l'interrogation par expressions complètes, à cause de fausses coordinations, sans doute, sauf pour les titres (et c'est normal, car avec le système GLIS, interroger les titres par chaÎnes de caractères revient à aller chercher les termes dans l'ordre dans lequel ils ont été inscrits par les auteurs à partir du premier mot: or, des concepts pertinents peuvent se trouver à l'intérieur, en sous-titre par exemple et ne sont pas repérables par la première méthode, ce qui cause un certain silence)

On s'aperçoit également que le vocabulaire contrôlé a des performances nettement moindres. Dans le cas du thésaurus, on peut invoquer deux raisons. D'une part on n'a pas pu traduire tous les concepts retenus lors de l'indexation en vocabulaire contrôlé, soit parce qu'il n'y avait aucun équivalent, même à un niveau hiérarchique supérieur, soit parce que les concepts étaient des concepts propres qui ne sont jamais inclus dans un thésaurus - et cela montre la nécessité de prévoir une indexation complémentaire en vocabualire libre. D'autre part, parce que le thésaurus n'avait jamais auparavant été utilisé par l'EP, il n'était pas adapté à la collection. La thermodynamique s'y trouve au cinquième niveau hiérarchique et plusieurs concepts ont été traduits par des termes plus généraux: par exemple, ENTHALPIE a été rendu par PROPRIETES THERMODYNAMIQUES, PERFECT GASES ( ou IDEAL GASES), FIRST LAW, SECOND LAW, THIRD LAW ont été rendus par THERMODYNAMICS, ce qui d'ailleurs n'était pas forcément un inconvénient, car ils étaient très fréquents et n'auraient pas eu une grande valeur discriminante.

La même chose s'est finalement produite pour les vedettes-matière: ENERGIE LIBRE a été traduit par PROPRIETES THERMIQUES, FIRST LAW (PREMIER PRINCIPE ou PREMIERE LOI) par THERMODYNAMIQUE; CHALEUR DE FORMATION a été indexé par CHALEUR..... (à vérifier)

Ceci explique qu'il ne se démarque pas de façon spectaculaire des vedettes-matière. Avec ce langage, on a d'ailleurs noté à plusieurs reprises que l'indexation avec vedettes-matière était beaucoup plus générale que le titre, surtout dans le cas des rapports techniques classifiés en CODOC: par exemple, .....

Il a fallu indexer avec des vedettes très générales qui n'avaient aucune valeur discriminante au repérage: par exemple, PREMIER PRINCIPE (ou PREMIERE LOI, ou FIRST LAW) a dû être traduit par THERMODYNAMIQUE, ce qui a rappelé 114 documents sur les 200 de la collection-test, alors que l'on en a détecté seulement ... pertinents avec l'ensemble des stratégies de recherche.

En ce qui concerne le rappel, les taux inférieurs du vocabulaire libre précoordonné (titres enrichis) par rapport au vocabulaire libre postcoordonné peuvent avoir deux causes liées à l'indexation:

- l'exhaustivité moindre de l'analyse: les indexeurs sont allés chercher des concepts à l'intérieur des documents qui ne figuraient pas dans les tables des matières ou dans les résumés (ce qui confirme l'utilité d'une intervention humaine) ou bien ils ont interprété de différentes façons la politique d'indexation établie qui, visiblement, n'était pas suffisamment claire: on a parfois inscrit un simple sous-titre là où on aurait pu reproduire la table des matières.

Les langages contrôlés n'ont pas permis une indexation aussi exhaustive qu'on l'aurait souhaité, puisque seulement 65% des descripteurs principaux ont pu trouver un équivalent dans le thésaurus choisi et que, seulement pour 11.5% des documents, on a pu traduire tous les concepts.

Cela est nécessairement source de silence.

Du côté des stratégies de recherche, on pourrait soupçonner que l'on n'a pas trouvé les équivalents des termes cherché dans les deux langues (puisque les titres enrichis ne contenaient que

la langue originale du document, alors que, en vocabulaire libre, on a traduit tous les concepts en anglais ou en français, selon le cas.

Il faudrait étudier les variations des taux de rappel et de précision, pour un même langage (on parle des inégalités pour les vedettes-matière).

De plus, l'effort demandé aux usagers pour construire une stratégie à partir des vedettes-matière est accru à cause de la structure défaillante des renvois: à partir de THERMODYNAMIQUE, la consultation de CALORIMETRES ET CALORIMETRIE, CHALEUR, PROPRIETES THERMIQUES n'ont pas permis de repérer RELATIONS D'ENERGIE LIBRE LINEAIRES.

b) Les limites techniques

Il nous a été impossible de distinguer, lors de l'indexation en vocabulaire libre et en vocabulaire contrôlé postcoordonnés, les mot-clés principaux des mots-clés secondaires, si bien que nous ne pourrons pas mesurer les effets de l'exhaustivité de l'indexation sur le rappel et la précision.

Une foule de limites techniques ont sinon nui au calcul du résultat, du moins ont compliqué et allongé considérablement notre travail.

La collection-test a été choisie dans un seul domaine, de façon à pouvoir retrouver l'ensemble des documents pertinents nécessaires au calcul du taux de rappel (?) et, surtout, parce qu'il n'était pas possible, avec le système GLIS d'isoler une partie de la collection. Lorsque nous avons posé nos questions, l'ensemble de la BdD était en réalité interrogé et nous avons perdu beaucoup de temps à trier les listings, mais peu ou prou seuls les documents en thermodynamique étaient susceptibles de sortir, soit 400 documents, le double de notre collection-test.

Nous n'avons pu obtenir sur support ordinolingue les index produits par les différentes méthodes d'indexation, ce qui limite certaines de nos interprétations. Il aurait été utile de pouvoir comparer les taux de précoordination des différents langages documentaires: par exemple, le fait que la recherche en unitermes fait croÎtre davantage le taux de rappel des descripteurs du thésaurus que des vedettes-matière signifie-t-il que, en général, les descripteurs ont un taux de précoordination plus élevé que les vedettes-matière ou est-ce que cela tient aux seules questions de notre test?

Nous n'avons pas pu tester l'effet de certains types d'affichage qui devraient améliorer le repérage, d'après certains auteurs ni l'effet de cerraines fonctionnalités, comme la troncature automatique ...

c) Les limites méthodologiques

Les politiques d'indexation, au moins en ce qui concerne le titre enrichi, n'ont pas été suffisamment claires et ont laissé place à des interprétations variées de la part des trois indexeurs qui ont participé à l'expérience.

Nous n'avons pas la certitude que les constations faites sur ce corpus puissent être transposées à l'ensemble de la collection. Le thésaurus pourra s'avérer plus ou moins adéquat selon les domaines couverts par l'EP. Mais une observation détaillée et comparative, avec trois autres thésaurus, prouve que c'est celui qui couvre le plus des domaines de la collection.

A cause du manque de ressources, nous avons dû limiter le nombre de questions posées. Pour la même raison, nous ne pourrons pas analyser en détail toutes les causes des failles au repérage.

2.2.6 4. La technologie peut-elle améliorer la performance des vedettes-matière?

4.1 Oui, en faisant disparaÎtre certains inconvénients liés à la fois aux bizarreries de la construction des vedettes et au spport papier:

4.1.1 Postcoordination:

Avec ARCHIMEDE et la plupart des catalogues en ligne, on peut accéder à chacun des mots composant la vedette-matière, ce qui donne la même accessibilité que les index permutés sur support papier ou microfiches suggérés à plusieurs reprises dans la littérature (Dykstra, 1988? ;Mandel et Herschmann, 1983, par exemple). C'est d'autant plus nécessaire que maintes études ont montré l'incohérence des décisions sur le terme d'accès dans le cas d'une expression composée (Mon cours). Cependant, l'amélioration du rappel constatée dans notre échantillon n'est pas énorme.

En outre, cela pallierait, mais en partie seulement, l'insuffisance de la structure syndétique et, par conséquent allègerait le fardeau des utilisateurs à la recherche du bon terme ou de vedettes permettant d'élargir ou de rétrécir une stratégie.

4.1.2 Troncature:

La possibilité de tronquer les termes permet de réduire en partie les inconvénients liés à l' emploi incohérent du substantif et/ou de l'adjectif correspondant (Mon cours).

4.1.3 Affichage des relations entre les vedettes:

Cet affichage est certes commode, mais pas autant qu'il pourrait l'être, à cause de l'absence de véritable structure hiérarchique. L'introduction récente de symboles de termes génériques et termes spécifiques ne convaincra que les naifs ou les aveuglés volontaires. On ne peut lier entre eux indifféremment des sujets et des concepts, coome l'ont fait valoir Peterson et aussi Dykstra (1988). Les études en psychologie cognitive et en intelligence artificielle sur les réseaux sémantiques nous fournissent des modèles vraisemblables de structuration sémantique en mémoire humaine et mettent en lumière la nécessité d'une représentation rigoureusement logique des concepts et de leurs interrelations, encore plus que celle qui est préconisée dans les normes sur la construction des thésaurus. L'introduction d'éléments d'inteligence artificielle dans les ystèmes d'information, surtout pour assister l'tilisateur, ne peut pas épargner les catalogues en ligne, bien au contraire, puisqu'ils visent une clientèle hétérogène et peu formée. Tout procédé d'inférence nécessite cette rigueur à laquelle on n'aviat pas été suffisamment attentif dans le spremières bases de connaissance (Brachmann)

4.2 Non, à cause de certains défauts incontournables:

4.2.1 Le parcours visuel des vedettes dans lesquelles le mot cherché apparaÎt n'est pas facile, car sa place n'est pas prévisible

Ce langage documentaire, s'il a l'avantage de posséder les deux éléments principaux de tout langage: un vocabulaire et une syntaxe, par contre possède les inconvénients suivants, pour le traitement:

-aucune règle sur les unités de base qui constituent le vocabulaire (incohérence dans l'atomicité): on ne sait pas si ce sont des termes qui représentent des concepts ou des termes et expressions qui représentent des sujets, des propositions, des énoncés

- une syntaxe qui n'obéit à aucune règle (incohérence dans la componentialité)

avec, pour conséquences que:

il a très peu de pouvoir de générativité et que, contrairement au langage naturel, il ne permet pas de générer un nombre illimité de "phrases" à partir d'un nombre fini de mots et de règles syntaxiques pour les lier entre eux. Il faut donc recourir à des phrases (énoncés) tout faits pour traduire des sujets dont une partie seulement correspond à la phrase toute faite (exemples). Son pouvoir d'expressivité est limité.

Autre conséquence, donc: il est difficile à apprendre, à manipuler

Et surtout, il génère des représentations fausses du contenu des documents

-des représentations qui sont tantôt précoordonnées tantôt postcoordonnées par rapport au contenu des documents

cf. la thèse de Mary Dykstra

4.2.2 Parce que les unités de base appartiennent à des catégories hétéroclites (représentent un concept, un sujet), elles ne peuvent pas être organisées selon un principe cohérent. Leur catégorisation manque de logique, contrairement à ce qui se passe dans un bon thésaurus, car on ne peut classer ensemble que des éléments de même catégorie, pourvu qu'on spécifie le point de vue

(à travailler)

Citer l'article de Mary Dykstra.

4.3 Solution la meilleure pour le moment: dépendre le moins possible des vedettes-matière, en se servant des autres représentations du contenu

Ce qui ajoute de la valeur au catalogue, c'est l'inclusion de zones en vocabulaire libre, la production d'outils d'aide au repérage et la conception d'écrans de visualisation combinant plusieurs zones d'analyse sujet et suggérant des cotes additionnelles ou des vedettes-matière ou des descripteurs, ce qui permet d'augmenter le rappel, ou bien donnnant la table des matières pour choisir avec plus de précision.

5. Les caractéristiques d'un langage de représentation

Pour conclure, il faudrait revoir les caractéristiques d'un langage de représentation:

5.1 En fonction des objectifs d'un langage documentaire (ou d'un système documentaire):

représentation fidèle,

sans ambiguité

ordonnée

rappel et précision

Relire les articles de Fugmann

5.2 En fonction des objectifs de toute représentation manipulable par ordinateur

5.2.1 théorie de la psychologie cognitive

(Lindsay et Norman)

5.2.2 théorie cognitiviste classique

(cours de JGM)

6. CONCLUSION

Les solutions existent.

Le meilleur sevice que nous rendent les nouvelles technologies, c'est de nous permettre de dépendre de moins en moins des vedettes-matière, de nous en débarrasser en douceur, sans vexer personne! Tactique de la désaffection. La nouvekle technologie ne supplée pas à l'absence de fondements théoriques.

Différences entre catalogues en ligne et bases de données

Les catalogues en ligne ont copié les catalogues manuels:

"[...] for quite some time libraries have been in a process of transition from traditional manual methods of information handling to computer-based. So far that transition has been characterized by attempts to do the same things as before, only with different means. It was apparent as early as 1968, two years after the MARC-project was initiated, that "A machine record is not simply a different physical means of recording a traditional bibliographic entry, for use in a traditional way^" [...], but the library wworld, by and large, has not heeded the accompanying plea for research aimed at the determination of the structure and content of an optimal bibliographic record (in machine-readable form).

The abstracting and indexing services have appeared to be the only ones to experiment with and utilize the inherent possibilities of machine-readable bibliographic representations. However, the advent of Online Public Access Catalogs now makes librarians realize that there are other ways to present and use bibliographic representations than those created for the card catalog."

However, sophisticated and "user-friendly" systems we might design and implement, they will be of no avail if the data, the representations, they manipulate are found wanting in structure and content. Hence there is a need to learn from the erudition of the past, the experience of present practice and the experiments of information services, using fully the potential capabilities of information technology and the theories of computer and information science." (Hjerppe; Olander, 1989, p.29)

LES ETAPES DU PROJET D'INDEXATION DE L'ECOLE POLYTECHNIQUE

Tableau no 1

1- Etude du contexte

2- Revue de la littérature sur:

. les types d'analyse et d'accès sujet les plus courants dans les

catalogues en ligne

. les fonctionnalités de plusieurs systèmes existants

- Inventaire des thésaurus en sciences, en technologie et en génie

3- Etude:

. de la façon dont le système GLIS a été implanté à l'EP

. des choix effectués lors de la paramétrisation du système avec

leurs conséquences pour le repérage

. des capacités réelles du système à l'usage

4- Evaluation des comportements des utilisateurs lors du

repérage dans ARCHIMEDE

5- Enquête sur les perceptions et attitudes des clientèles face à

ARCHIMEDE

6- Bilan de la capacité d'ARCHIMEDE à satisfaire les besoins des

utilisateurs

7- Tests d'indexation d'une mini-collection selon différentes

méthodes

8- Evaluation des performances au repérage des différentes

méthodes d'indexation (en cours)

9- Recommandations finales (à venir)

REPRESENTATIONS DU CONTENU DISPONIBLES A LA SUITE

DU TEST D'INDEXATION

Tableau no 2

- En langage contrôlé précoordonné:

code alphanumérique (déjà disponible):

. indices de classification de la Bibliothèque du Congrès

. indices du système CODOC (pour les rapports techniques)

code linguistique:

. vedettes-matière de l'Université Laval

- En vocabulaire contrôlé postcoordonné:

descripteurs d'un thésaurus bilingue (BSI Root Thesaurus)

- En vocabulaire libre précoordonné (en anglais ou en français,

selon la langue du document):

titres (déjà disponibles)

titres des collections (déjà disponibles)

titres enrichis à partir des tables des matières ou des résumés

- En vocabulaire libre postcoordonné (en anglais et en français):

termes simples ou composés exprimant un uniconcept

- Mention du type de contenu

CATEGORIES DE QUESTIONS SOUMISES A LA COLLECTION-TEST

Tableau no 3

- questions avec un seul concept (exprimé par un

uniterme):

par exemple, ENTHALPIE

- questions avec un seul concept (exprimé par un

multiterme):

par exemple, CHALEUR DE FORMATION

- questions avec un seul concept exprimé par des

synonymes

(reliés par des OU logiques dans les stratégies):

par exemple, GAZ PARFAIT, GAZ IDEAL

- questions avec deux concepts (reliés par des ET logiques dans

les stratégies):

par exemple, EQUILIBRE, REACTION CHIMIQUE

- questions avec trois concepts (reliés par des ET logiques dans

les stratégies)

par exemple, CYCLE, POMPE A CHALEUR, RENDEMENT

TAUX DE PRECISION OBTENUS AVEC LES DIFFERENTES

REPRESENTATIONS

Tableau no 4

Moyenne, pour chaque type de représentation, par ordre décroissant:

Vocabulaire libre postcoordonné: 98 % 96 %

Titres enrichis: 98 % 95 %

Titres: 83 % 89 %

Descripteurs du thésaurus: 46 % 40 %

Vedettes-matière: 42 % 36 %

Cote: 40 %

Moyenne, pour certaines combinaisons de représentations, par ordre décroissant:

Titre enrichi + vedette-matière: 51 %

Vocabulaire libre postc. + vedettes-matière: 47 %

Titre enrichi + descripteurs du thés.: 47 %

Vedettes-matière + descripteurs du thés.: 44 %

Vocabulaire libre postc. + descripteurs du thés.:

TAUX DE RAPPEL OBTENUS AVEC LES DIFFERENTES

REPRESENTATIONS

Tableau no 5

Moyenne, pour chaque type de représentation, par ordre décroissant:

Vocabulaire libre postcoordonné: 60 % 65 %

Descripteurs du thésaurus: 57 % 64 %

Titres enrichis (Voc. libre préc.): 33 % 42 %

Vedettes-matière: 21 % 26 %

Cote: 6 %

Titres: 5 % 9 %

Moyenne, pour certaines combinaisons de représentations, par ordre décroissant:

Voc. libre postcoordonné + descripteurs du thés.: 78 %

Titre enrichi + descripteurs du thésaurus: 77 %

Voc. libre postcoordonné + vedettes-matière: 74 %

Vedettes-matière + descripteurs du thésaurus: 70 %

Titre enrichi + vedettes-matière: 54 %