PREMIERS RESULTATS D'UN TEST D'INDEXATION ET DE REPERAGE
AVEC DIFFERENTS TYPES DE REPRESENTATIONS DU CONTENU, DANS ARCHIMEDE,
LE CATALOGUE EN LIGNE DE LA BIBLIOTHEQUE DE L'ECOLE POLYTECHNIQUE
DE L'UNIVERSITE DE MONTREAL Par Suzanne Bertrand-Gastaldy et
Gilles Deschâtelets
En mai 1988, la direction de la bibliothèque
de l'Ecole Polytechnique confiait à un groupe de professeurs
de l'Ecole de bibliothéconomie et des sciences de l'information
le mandat de doter Archimède, le catalogue en ligne de
la bibliothèque de l'Ecole Polytechnique, d'un système
d'indexation et, par conséquent, d'un accès sujet
digne de ce nom puisque, actuellement seuls les titres et les
cotes sont interrogeables pour retrouver des documents sur un
sujet.
L'équipe de recherche est composée
de Suzanne Bertrand-Gastaldy qui en assume la responsabilité,
de Gilles Deschâtelets et de Réjean Savard, tous
trois professeurs à l'Ecole de bibliothéconomie
et des sciences de l'information, et enfin de BenoÎt Legault,
assistant de recherche, qui a accepté d'autres responsabilités
un peu avant la fin du projet.
Elle travaille en étroite collaboration avec
le Directeur de la Bibliothèque, M. Olivier Paradis et
les membres du Comité de la base de données: Mmes
Nicole Lemyre, Minh-Thu Nguyen, M. André Maltais.
1.3 Méthodologie Afin de tenir compte de tous les éléments du contexte, du système en place et des besoins des utilisateurs, le projet s'est déroulé en plusieurs étapes (acétate 1) 1- étude du contexte 2-revue de la littérature sur les types d'analyse et d'accès sujet les plus courants dans les catalogues en ligne, ainsi que sur les fonctionnalités de plusieurs systèmes existants, le tout complété par un inventaire des thésaurus en sciences, en technologie et en génie; 3- étude de la façon dont le système GLIS a été implanté à l'Ecole Polytechnique, des choix effectués lors de la paramétrisation du système avec leurs conséquences pour le repérage, des capacités réelles du système à l'usage; 4- évaluation des comportements des utlisateurs lors du repérage dans ARCHIMEDE; 5- enquête sur les perceptions et attitudes des clientèles face à ARCHIMEDE; 6- bilan de la capacité d'ARCHIMEDE à satisfaire les besoins des utilisateurs; 7- tests d'indexation d'une mini-collection selon différentes méthodes; 8- évaluation des performances au repérage des différentes méthodes d'indexation;
9- recommandations finales (à venir)
2. L'indexation selon différentes méthodes
et les résultats au repérage en termes de rappel
et de précision
Notre revue de la littérature (étude
no 2), notre observation des usagers en train d'interroger le
catalogue en ligne (étude no 4) et notre enquête
auprès des utilisateurs (étude no 5) ont amplement
démontré l'importance de l'accès sujet (par
rapport à l'accès auteur) .... et le besoin d'outils
d'aide au repérage.
2.1 Le test d'indexation
Nous avons donc décidé, dans un premier
temps, d'expérimenter différentes méthodes
d'analyse du contenu. Notre objectif était d'évaluer
les opérations et le temps requis par chacune d'elles,
les outils documentaires nécessaires, les politiques et
procédures à mettre en place, le niveau d'expertise
souhaitable de la part des indexeurs, ainsi que certaines fonctionnalités
du logiciel permettant d'optimiser l'exploitation de l'analyse
sujet. Il a fallu d'abord procédé au choix d'un mini-corpus aussi représentatif que possible de l'ensemble de la collection (en termes de types de documents et de langue) et utile à l'ensemble d ela communauté de l'Ecole: nous avons retenu 200 documents en thermodynamique, soit la moitié de la collection de la Bibliothèque dans ce domaine.
Nous avons indexé ces ouvrages avec au moins
un des types de langages documentaires possibles si l'on tient
compte de la typologie basée sur la coordination et le
contrôle, à l'exception du langage analytico-synthétique,
impossible à implanter avec le logiciel actuel et long
à apprendre. Ceci nous a donné, pour chaque document,
les représentations suivantes (acétate 2): - en langage contrôlé précoordonné: code alphanumérique (déjà disponible): . indices de classification de la Bibliothèque du Congrès . indices du système CODOC (pour les rapports techniques) code linguistique:
. vedettes-matière de l'Université
Laval - en vocabulaire contrôlé postcoordonné: descripteurs d'un thésaurus bilingue (BSI Root Thesaurus, produit par British Standards Institution): indexation approfondie d'une quinzaine de concepts par document extraits lors
de l'indexation en vocabulaire libre postcoordonné
- en vocabulaire libre précoordonné (en anglais ou en français, selon la langue du document): titres (déjà disponibles) titres des collections (déjà disponibles)
titres enrichis à partir des tables des matières
ou des résumés - en vocabulaire libre postcoordonné (en anglais et en français): termes simples ou composés exprimant un uniconcept tirés des titres enrichis ou d'autres
parties informatives du document
- mention du type de document
Une zone du format MARC a été affectée
à chaque type de représentation et a été
recherchable et affichable pour le test de repérage optionnel:
le tableau no 1 de la page 66 du rapport no 7).
Les tests d'indexation ont fait ressortir les forces
et les faiblesses des vocabualires contrôlés choisis.
2.2 Tests de l'efficacité au repérage
des différentes méthodes d'indexation
2.2.1 Objectif:
L'objectif de l'étude no 8 a consisté
à mesurer les performances de chacune des méthodes
d'indexation prises individuellement et combinées entre
elles, en termes de taux de rappel (nombre de documents pertinents
repérés sur l'ensemble des documents pertinents
existants) et du taux de précision (nombre de documents
pertinents repérés sur l'ensemble des documents
repérés), ainsi que l'effort requis de l'usager.
2.2.2 Les mesures: Nous avons voulu que ce test mesure les performances des différents langages documentaires, indépendamment des aptitudes différentes des utilisateurs à se servir d'un catalogue automatisé ou à cerner un sujet. C'est un test en laboratoire, effectué par une personne connaissant bien à la fois l'indexation et le repérage et la littérature scientifique, notre assistant de recherche. Les études d'utilisateurs que nous avons menées antérieurement nous ont fourni suffisamment d'informations sur l'interaction système/usager.
Autant que possible, nous avons également
essayé de contourner les limites actuelles du logiciel,
comme celle qui empêche de distinguer deux types de représentations
du contenu, lors de l'accès sujet (vedettes-matière
et descripteurs; titres et titres enrichis, par exemple).
Le taux de rappel est un taux de rappel relatif.
Le nombre de documents pertinents pour une question donnée
est calculé en faisant la somme des documents pertinents
différents repérés par l'ensemble des stratégies,
et non pas par l'examen des 200 documents de la collection-test.
Est considéré comme pertinent tout
document contenant l'expression recherchée par la stratégie
(ceci évite tout problème de subjectivité).
Nous nous proposons aussi de mesurer l'effort de l'usager, non pas mesuré en temps, mais en démarches nécessaires pou élaborer sa stratégie de recherche: outils documentaires ou lexicologiques à consulter (répertoire de vedettes-matière, thésaurus, dictionnaires), index à interroger, commandes à utiliser (opérateurs booléens, troncature, adjacence, etc.)
2.2.3 Les questions et les stratégies de recherche:
Les questions utilisées pour les tests ont
été fournies par un professeur en thermodynamique
à l'Ecole Polytechnique, M. Amram et par Mme Nicole Lemyre,
responsable de la référence à la Bibliothèque.
Vingt-et -une questions réparties en cinq catégories ont été retenues (acétate 3): - questions avec un seul concept (exprimé par un uniterme): par exemple, ENTHALPIE - questions avec un seul concept (exprimé par un multiterme): par exemple, CHALEUR DE FORMATION - questions avec un seul concept (susceptible d'être exprimé par plusieurs unitermes synonyme reliés par des OU logiques dans les stratégies): par exemple, GAZ PARFAIT, GAZ IDEAL - questions avec deux concepts (reliés par des ET logiques dans les stratégies): par exemple, EQUILIBRE, REACTION CHIMIQUE - questions avec trois concepts (reliés par des ET logiques dans les stratégies)
par exemple, CYCLE, POMPE A CHALEUR, RENDEMENT
En tout, 24 stratégies ont été
testées dans chacun des .10 (11?) index produits pour les
besoins du test
2.2.4 Présentation de quelques résultats:
N.B. Chaque fois, nos indiquons 2 résultats,
le premier correspond à l'interrogation par chaÎne
de caractères, à partir du début dans l'index
inverse des termes entiers , le second correspond à l'interrogation
par uniterme dans l'index inverse des termes éclatés.
a) Performances en termes de précision (acétate
4)
Moyenne, pour chaque type de représentation,
par ordre décroissant: Vocabulaire libre postcoordonné: 98 % 96 % Titres enrichis: 98 % 95 % Titres: 83 % 89 % Descripteurs du thésaurus: 46 % 40 % Vedettes-matière: 42 % 36 %
Cote:
40 %
Moyenne, pour certaines combinaisons de représentations,
par ordre décroissant: Titre enrichi + vedette-matière: 51 % Vocabulaire libre postc. + vedettes-matière: 47 % Titre enrichi + descripteurs du thés.: 47 % Vedettes-matière + descripteurs du thés.: 44 %
Vocabulaire libre postc. + descripteurs du thés.:
b) Performances en termes de rappel (acétate
5)
Moyenne, pour chaque type de représentation,
par ordre décroissant: Vocabulaire libre postcoordonné: 60 % 65 % Descripteurs du thésaurus: 57 % 64 % Titres enrichis (Voc. libre préc.): 33 % 42 % Vedettes-matière: 21 % 26 % Cote: 6%
Titres:
5 % 9 %
Moyenne, pour certaines combinaisons de représentations,
par ordre décroissant: Voc. libre postcoordonné + descripteurs du thés.: 78 % Titre enrichi + descripteurs du thésaurus: 77 % Voc. libre postcoordonné + vedettes-matière: 74 % Vedettes-matière + descripteurs du thésaurus: 70 %
Titre enrichi + vedettes-matière:
54 %
Nous avons aussi calculé les performances
moyennes, par question et par type de questions, mais nous n'avons
pas le temps de les présenter ici.
c) Effort de l'usager:
Nous n'avons pas encore chiffré cet élément
en nombre de termes et d'opérateurs employés.
2.2.5 Début d'interprétation des résultats:
Ce qui frappe, à la simple lecture des tableaux
que nous venons de présenter, ce sont les performances
remarquables des représentations en vocabulaire libre,
aussi bien pour le rappel que pour la précision, de même
que l'avantage qu'il y a à combiner deux types de langages,
surtout un en vocabulaire libre et l'autre en vocabulaire contrôlé.
Enfin, les résultats des combinaisons sont toujours supérieurs
aux résultats des représentations uniques et exactement
inversement proportionnels pour la précision et pour le
rappel.
a) Les causes principales des failles au repérage:
Nous n'avons pas encore analysé en détail
les résultats, mais plusieurs explications peuvent être
tirées d'ores et déjà des constations que
nous avions faites lors de l'indexation. On sait que les sources de bruit et de silence peuvent provenir de quatre sources: - l'indexation: - les langages documentaires: - les stratégies de recherche
- l'interface du système
L'interface du système n'a pas été
pris en ligne de compte dans cette étude, car nous l'avons
évlalué dans une étude antérieure
(étude no 4).
En ce qui concerne la précision, on remarque
tout de suite la très nette supériorité du
vocabulaire libre. Ce n'est évidemment pas la première
expérience qui aboutit à ce genre de résultats.
Les pourcentages très élevés s'expliquent
d'une part par l'exhaustivité de l'analyse et la spécificité
du vocabulaire employé dans les tables des matières,
par la nature du domaine: une discipline scientifique où
le vocabulaire semble très normalisé, par la nature
et le nombre des questions et, enfin, par l'homogénéité
de la collection (les mêmes questions posées sur
l'ensemble de la collection de l'EP, avec tous les domaines, auraient
sans doute généré plus de bruit, quoique
les termes étaient suffisamment précis pour ne pas
s'appliquer à trop de sous-disciplines).
On constate également que l'interrogation
par unitermes génère plus de bruit que l'interrogation
par expressions complètes, à cause de fausses coordinations,
sans doute, sauf pour les titres (et c'est normal, car avec le
système GLIS, interroger les titres par chaÎnes de
caractères revient à aller chercher les termes dans
l'ordre dans lequel ils ont été inscrits par les
auteurs à partir du premier mot: or, des concepts pertinents
peuvent se trouver à l'intérieur, en sous-titre
par exemple et ne sont pas repérables par la première
méthode, ce qui cause un certain silence) On s'aperçoit également que le vocabulaire contrôlé a des performances nettement moindres. Dans le cas du thésaurus, on peut invoquer deux raisons. D'une part on n'a pas pu traduire tous les concepts retenus lors de l'indexation en vocabulaire contrôlé, soit parce qu'il n'y avait aucun équivalent, même à un niveau hiérarchique supérieur, soit parce que les concepts étaient des concepts propres qui ne sont jamais inclus dans un thésaurus - et cela montre la nécessité de prévoir une indexation complémentaire en vocabualire libre. D'autre part, parce que le thésaurus n'avait jamais auparavant été utilisé par l'EP, il n'était pas adapté à la collection. La thermodynamique s'y trouve au cinquième niveau hiérarchique et plusieurs concepts ont été traduits par des termes plus généraux: par exemple, ENTHALPIE a été rendu par PROPRIETES THERMODYNAMIQUES, PERFECT GASES ( ou IDEAL GASES), FIRST LAW, SECOND LAW, THIRD LAW ont été rendus par THERMODYNAMICS, ce qui d'ailleurs n'était pas forcément un inconvénient, car ils étaient très fréquents et n'auraient pas eu une grande valeur discriminante.
La même chose s'est finalement produite pour
les vedettes-matière: ENERGIE LIBRE a été
traduit par PROPRIETES THERMIQUES, FIRST LAW (PREMIER PRINCIPE
ou PREMIERE LOI) par THERMODYNAMIQUE; CHALEUR DE FORMATION a été
indexé par CHALEUR..... (à vérifier) Ceci explique qu'il ne se démarque pas de façon spectaculaire des vedettes-matière. Avec ce langage, on a d'ailleurs noté à plusieurs reprises que l'indexation avec vedettes-matière était beaucoup plus générale que le titre, surtout dans le cas des rapports techniques classifiés en CODOC: par exemple, .....
Il a fallu indexer avec des vedettes très
générales qui n'avaient aucune valeur discriminante
au repérage: par exemple, PREMIER PRINCIPE (ou PREMIERE
LOI, ou FIRST LAW) a dû être traduit par THERMODYNAMIQUE,
ce qui a rappelé 114 documents sur les 200 de la collection-test,
alors que l'on en a détecté seulement ... pertinents
avec l'ensemble des stratégies de recherche. En ce qui concerne le rappel, les taux inférieurs du vocabulaire libre précoordonné (titres enrichis) par rapport au vocabulaire libre postcoordonné peuvent avoir deux causes liées à l'indexation:
- l'exhaustivité moindre de l'analyse: les
indexeurs sont allés chercher des concepts à l'intérieur
des documents qui ne figuraient pas dans les tables des matières
ou dans les résumés (ce qui confirme l'utilité
d'une intervention humaine) ou bien ils ont interprété
de différentes façons la politique d'indexation
établie qui, visiblement, n'était pas suffisamment
claire: on a parfois inscrit un simple sous-titre là où
on aurait pu reproduire la table des matières. Les langages contrôlés n'ont pas permis une indexation aussi exhaustive qu'on l'aurait souhaité, puisque seulement 65% des descripteurs principaux ont pu trouver un équivalent dans le thésaurus choisi et que, seulement pour 11.5% des documents, on a pu traduire tous les concepts. Cela est nécessairement source de silence.
Du côté des stratégies de recherche, on pourrait soupçonner que l'on n'a pas trouvé les équivalents des termes cherché dans les deux langues (puisque les titres enrichis ne contenaient que
la langue originale du document, alors que, en vocabulaire
libre, on a traduit tous les concepts en anglais ou en français,
selon le cas.
Il faudrait étudier les variations des taux
de rappel et de précision, pour un même langage (on
parle des inégalités pour les vedettes-matière).
De plus, l'effort demandé aux usagers pour
construire une stratégie à partir des vedettes-matière
est accru à cause de la structure défaillante des
renvois: à partir de THERMODYNAMIQUE, la consultation de
CALORIMETRES ET CALORIMETRIE, CHALEUR, PROPRIETES THERMIQUES n'ont
pas permis de repérer RELATIONS D'ENERGIE LIBRE LINEAIRES.
b) Les limites techniques
Il nous a été impossible de distinguer,
lors de l'indexation en vocabulaire libre et en vocabulaire contrôlé
postcoordonnés, les mot-clés principaux des mots-clés
secondaires, si bien que nous ne pourrons pas mesurer les effets
de l'exhaustivité de l'indexation sur le rappel et la précision.
Une foule de limites techniques ont sinon nui au
calcul du résultat, du moins ont compliqué et allongé
considérablement notre travail.
La collection-test a été choisie dans
un seul domaine, de façon à pouvoir retrouver l'ensemble
des documents pertinents nécessaires au calcul du taux
de rappel (?) et, surtout, parce qu'il n'était pas possible,
avec le système GLIS d'isoler une partie de la collection.
Lorsque nous avons posé nos questions, l'ensemble de la
BdD était en réalité interrogé et
nous avons perdu beaucoup de temps à trier les listings,
mais peu ou prou seuls les documents en thermodynamique étaient
susceptibles de sortir, soit 400 documents, le double de notre
collection-test.
Nous n'avons pu obtenir sur support ordinolingue
les index produits par les différentes méthodes
d'indexation, ce qui limite certaines de nos interprétations.
Il aurait été utile de pouvoir comparer les taux
de précoordination des différents langages documentaires:
par exemple, le fait que la recherche en unitermes fait croÎtre
davantage le taux de rappel des descripteurs du thésaurus
que des vedettes-matière signifie-t-il que, en général,
les descripteurs ont un taux de précoordination plus élevé
que les vedettes-matière ou est-ce que cela tient aux seules
questions de notre test?
Nous n'avons pas pu tester l'effet de certains types
d'affichage qui devraient améliorer le repérage,
d'après certains auteurs ni l'effet de cerraines fonctionnalités,
comme la troncature automatique ...
c) Les limites méthodologiques
Les politiques d'indexation, au moins en ce qui
concerne le titre enrichi, n'ont pas été suffisamment
claires et ont laissé place à des interprétations
variées de la part des trois indexeurs qui ont participé
à l'expérience.
Nous n'avons pas la certitude que les constations
faites sur ce corpus puissent être transposées à
l'ensemble de la collection. Le thésaurus pourra s'avérer
plus ou moins adéquat selon les domaines couverts par l'EP.
Mais une observation détaillée et comparative, avec
trois autres thésaurus, prouve que c'est celui qui couvre
le plus des domaines de la collection.
A cause du manque de ressources, nous avons dû
limiter le nombre de questions posées. Pour la même
raison, nous ne pourrons pas analyser en détail toutes
les causes des failles au repérage.
2.2.6 4. La technologie peut-elle améliorer
la performance des vedettes-matière?
4.1 Oui, en faisant disparaÎtre certains inconvénients
liés à la fois aux bizarreries de la construction
des vedettes et au spport papier:
4.1.1 Postcoordination: Avec ARCHIMEDE et la plupart des catalogues en ligne, on peut accéder à chacun des mots composant la vedette-matière, ce qui donne la même accessibilité que les index permutés sur support papier ou microfiches suggérés à plusieurs reprises dans la littérature (Dykstra, 1988? ;Mandel et Herschmann, 1983, par exemple). C'est d'autant plus nécessaire que maintes études ont montré l'incohérence des décisions sur le terme d'accès dans le cas d'une expression composée (Mon cours). Cependant, l'amélioration du rappel constatée dans notre échantillon n'est pas énorme. En outre, cela pallierait, mais en partie seulement, l'insuffisance de la structure syndétique et, par conséquent allègerait le fardeau des utilisateurs à la recherche du bon terme ou de vedettes permettant d'élargir ou de rétrécir une stratégie.
4.1.2 Troncature:
La possibilité de tronquer les termes permet
de réduire en partie les inconvénients liés
à l' emploi incohérent du substantif et/ou de l'adjectif
correspondant (Mon cours).
4.1.3 Affichage des relations entre les vedettes:
Cet affichage est certes commode, mais pas autant
qu'il pourrait l'être, à cause de l'absence de véritable
structure hiérarchique. L'introduction récente de
symboles de termes génériques et termes spécifiques
ne convaincra que les naifs ou les aveuglés volontaires.
On ne peut lier entre eux indifféremment des sujets et
des concepts, coome l'ont fait valoir Peterson et aussi Dykstra
(1988). Les études en psychologie cognitive et en intelligence
artificielle sur les réseaux sémantiques nous fournissent
des modèles vraisemblables de structuration sémantique
en mémoire humaine et mettent en lumière la nécessité
d'une représentation rigoureusement logique des concepts
et de leurs interrelations, encore plus que celle qui est préconisée
dans les normes sur la construction des thésaurus. L'introduction
d'éléments d'inteligence artificielle dans les ystèmes
d'information, surtout pour assister l'tilisateur, ne peut pas
épargner les catalogues en ligne, bien au contraire, puisqu'ils
visent une clientèle hétérogène et
peu formée. Tout procédé d'inférence
nécessite cette rigueur à laquelle on n'aviat pas
été suffisamment attentif dans le spremières
bases de connaissance (Brachmann)
4.2 Non, à cause de certains défauts
incontournables: 4.2.1 Le parcours visuel des vedettes dans lesquelles le mot cherché apparaÎt n'est pas facile, car sa place n'est pas prévisible Ce langage documentaire, s'il a l'avantage de posséder les deux éléments principaux de tout langage: un vocabulaire et une syntaxe, par contre possède les inconvénients suivants, pour le traitement:
-aucune règle sur les unités de base
qui constituent le vocabulaire (incohérence dans l'atomicité):
on ne sait pas si ce sont des termes qui représentent des
concepts ou des termes et expressions qui représentent
des sujets, des propositions, des énoncés - une syntaxe qui n'obéit à aucune règle (incohérence dans la componentialité)
avec, pour conséquences que: il a très peu de pouvoir de générativité et que, contrairement au langage naturel, il ne permet pas de générer un nombre illimité de "phrases" à partir d'un nombre fini de mots et de règles syntaxiques pour les lier entre eux. Il faut donc recourir à des phrases (énoncés) tout faits pour traduire des sujets dont une partie seulement correspond à la phrase toute faite (exemples). Son pouvoir d'expressivité est limité. Autre conséquence, donc: il est difficile à apprendre, à manipuler
Et surtout, il génère des représentations
fausses du contenu des documents
-des représentations qui sont tantôt
précoordonnées tantôt postcoordonnées
par rapport au contenu des documents
cf. la thèse de Mary Dykstra
4.2.2 Parce que les unités de base appartiennent
à des catégories hétéroclites (représentent
un concept, un sujet), elles ne peuvent pas être organisées
selon un principe cohérent. Leur catégorisation
manque de logique, contrairement à ce qui se passe dans
un bon thésaurus, car on ne peut classer ensemble que des
éléments de même catégorie, pourvu
qu'on spécifie le point de vue (à travailler)
Citer l'article de Mary Dykstra.
4.3 Solution la meilleure pour le moment: dépendre
le moins possible des vedettes-matière, en se servant des
autres représentations du contenu
Ce qui ajoute de la valeur au catalogue, c'est l'inclusion
de zones en vocabulaire libre, la production d'outils d'aide au
repérage et la conception d'écrans de visualisation
combinant plusieurs zones d'analyse sujet et suggérant
des cotes additionnelles ou des vedettes-matière ou des
descripteurs, ce qui permet d'augmenter le rappel, ou bien donnnant
la table des matières pour choisir avec plus de précision.
5. Les caractéristiques d'un langage de représentation
Pour conclure, il faudrait revoir les caractéristiques
d'un langage de représentation: 5.1 En fonction des objectifs d'un langage documentaire (ou d'un système documentaire): représentation fidèle, sans ambiguité ordonnée
rappel et précision
Relire les articles de Fugmann
5.2 En fonction des objectifs de toute représentation
manipulable par ordinateur 5.2.1 théorie de la psychologie cognitive
(Lindsay et Norman) 5.2.2 théorie cognitiviste classique
(cours de JGM)
6. CONCLUSION
Les solutions existent.
Le meilleur sevice que nous rendent les nouvelles
technologies, c'est de nous permettre de dépendre de moins
en moins des vedettes-matière, de nous en débarrasser
en douceur, sans vexer personne! Tactique de la désaffection.
La nouvekle technologie ne supplée pas à l'absence
de fondements théoriques.
Différences entre catalogues en ligne et bases
de données
Les catalogues en ligne ont copié les catalogues
manuels: "[...] for quite some time libraries have been in a process of transition from traditional manual methods of information handling to computer-based. So far that transition has been characterized by attempts to do the same things as before, only with different means. It was apparent as early as 1968, two years after the MARC-project was initiated, that "A machine record is not simply a different physical means of recording a traditional bibliographic entry, for use in a traditional way^" [...], but the library wworld, by and large, has not heeded the accompanying plea for research aimed at the determination of the structure and content of an optimal bibliographic record (in machine-readable form). The abstracting and indexing services have appeared to be the only ones to experiment with and utilize the inherent possibilities of machine-readable bibliographic representations. However, the advent of Online Public Access Catalogs now makes librarians realize that there are other ways to present and use bibliographic representations than those created for the card catalog."
However, sophisticated and "user-friendly"
systems we might design and implement, they will be of no avail
if the data, the representations, they manipulate are found wanting
in structure and content. Hence there is a need to learn from
the erudition of the past, the experience of present practice
and the experiments of information services, using fully the potential
capabilities of information technology and the theories of computer
and information science." (Hjerppe; Olander, 1989, p.29)
LES ETAPES DU PROJET D'INDEXATION DE L'ECOLE POLYTECHNIQUE
Tableau no 1
1- Etude du contexte 2- Revue de la littérature sur: . les types d'analyse et d'accès sujet les plus courants dans les catalogues en ligne . les fonctionnalités de plusieurs systèmes existants
- Inventaire des thésaurus en sciences,
en technologie et en génie 3- Etude: . de la façon dont le système GLIS a été implanté à l'EP . des choix effectués lors de la paramétrisation du système avec leurs conséquences pour le repérage
. des capacités réelles du système
à l'usage 4- Evaluation des comportements des utilisateurs lors du
repérage dans ARCHIMEDE 5- Enquête sur les perceptions et attitudes des clientèles face à
ARCHIMEDE 6- Bilan de la capacité d'ARCHIMEDE à satisfaire les besoins des
utilisateurs 7- Tests d'indexation d'une mini-collection selon différentes
méthodes 8- Evaluation des performances au repérage des différentes
méthodes d'indexation (en cours)
9- Recommandations finales (à venir) REPRESENTATIONS DU CONTENU DISPONIBLES A LA SUITE DU TEST D'INDEXATION
Tableau no 2 - En langage contrôlé précoordonné: code alphanumérique (déjà disponible): . indices de classification de la Bibliothèque du Congrès . indices du système CODOC (pour les rapports techniques) code linguistique:
. vedettes-matière de l'Université
Laval - En vocabulaire contrôlé postcoordonné:
descripteurs d'un thésaurus bilingue (BSI
Root Thesaurus) - En vocabulaire libre précoordonné (en anglais ou en français, selon la langue du document): titres (déjà disponibles) titres des collections (déjà disponibles)
titres enrichis à partir des tables des matières
ou des résumés - En vocabulaire libre postcoordonné (en anglais et en français): termes simples ou composés exprimant un uniconcept
- Mention du type de contenu
CATEGORIES DE QUESTIONS SOUMISES A LA COLLECTION-TEST
Tableau no 3 - questions avec un seul concept (exprimé par un uniterme):
par exemple, ENTHALPIE - questions avec un seul concept (exprimé par un multiterme):
par exemple, CHALEUR DE FORMATION - questions avec un seul concept exprimé par des synonymes (reliés par des OU logiques dans les stratégies):
par exemple, GAZ PARFAIT, GAZ IDEAL - questions avec deux concepts (reliés par des ET logiques dans les stratégies):
par exemple, EQUILIBRE, REACTION CHIMIQUE - questions avec trois concepts (reliés par des ET logiques dans les stratégies)
par exemple, CYCLE, POMPE A CHALEUR, RENDEMENT
TAUX DE PRECISION OBTENUS AVEC LES DIFFERENTES REPRESENTATIONS
Tableau no 4
Moyenne, pour chaque type de représentation,
par ordre décroissant: Vocabulaire libre postcoordonné: 98 % 96 % Titres enrichis: 98 % 95 % Titres: 83 % 89 % Descripteurs du thésaurus: 46 % 40 % Vedettes-matière: 42 % 36 %
Cote:
40 %
Moyenne, pour certaines combinaisons de représentations,
par ordre décroissant: Titre enrichi + vedette-matière: 51 % Vocabulaire libre postc. + vedettes-matière: 47 % Titre enrichi + descripteurs du thés.: 47 % Vedettes-matière + descripteurs du thés.: 44 %
Vocabulaire libre postc. + descripteurs du thés.:
TAUX DE RAPPEL OBTENUS AVEC LES DIFFERENTES REPRESENTATIONS
Tableau no 5
Moyenne, pour chaque type de représentation,
par ordre décroissant: Vocabulaire libre postcoordonné: 60 % 65 % Descripteurs du thésaurus: 57 % 64 % Titres enrichis (Voc. libre préc.): 33 % 42 % Vedettes-matière: 21 % 26 % Cote: 6 %
Titres:
5 % 9 %
Moyenne, pour certaines combinaisons de représentations,
par ordre décroissant: Voc. libre postcoordonné + descripteurs du thés.: 78 % Titre enrichi + descripteurs du thésaurus: 77 % Voc. libre postcoordonné + vedettes-matière: 74 % Vedettes-matière + descripteurs du thésaurus: 70 %
Titre enrichi + vedettes-matière:
54 % |