© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur...
-
Upload
mathieu-carre -
Category
Documents
-
view
107 -
download
1
Transcript of © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur...
© M. Hudon 20021
De l'utilité des contrôles lexical et sémantique des accès-
sujets sur Internet et en Intranets
Michèle Hudon, Ph.D.Professeure adjointe
Université de Montréal
© M. Hudon 20022
Présenter divers modes d’organisation documentaire qui permettent et
même facilitent le repérage d’information pertinente
Objectif …
© M. Hudon 20023
Mots-clés
Utilisateur / Demandeur Information Document Organisation Contrôle Recherche et repérage Système de transfert d’information
© M. Hudon 20024
À distinguer
Information « récréative » Information « requise »
Information factuelle Information discursive / textuelle
© M. Hudon 20025
À distinguer aussi …
L’utilisateur qui connaît déjà la source qui lui procurera l’information requise
L’utilisateur qui sait ce qu’il cherche mais ne connaît pas la ou les sources qui lui procureront l’information requise
L’utilisateur qui ne sait pas ce dont il a besoin
© M. Hudon 20026
Description des documents
ContenantTitreCréateur de la ressourceDate de publication / mise à jourNombre de pages / de méga-octets
ContenuSujet(s)
© M. Hudon 20027
Accès sujet
Permet le repérage de sources d’information pertinentes dont on ne connaît pas encore l’existence par la voie de leur contenu plutôt que par l’utilisation d’éléments descriptifs externes caractérisant l’objet document
© M. Hudon 20028
Description du contenu
Titres, Sous-titres, Titres alternatifs, etc.
Classement dans une catégorie particulière Mots-clés Résumé
Texte dans son entier
© M. Hudon 20029
Contexte
quand on cherche de l’information sur un sujet, on ne peut examiner tout ce qui se trouve dans une collection
un document est souvent trop volumineux pour être utilisé dans son entier, n’a pas besoin d’être utilisé dans son entier
le créateur et l’utilisateur d’un document n’emploient pas forcément le même vocabulaire pour représenter les mêmes concepts
la coïncidence entre la formulation des questions et la représentation du contenu est indispensable pour qu’un système de transfert d’information fonctionne correctement
© M. Hudon 200210
Multiplicité des langues naturelles
Variations nationales et régionales Niveaux de langue Code / Signe
Problèmes liés à l’utilisation de la langue naturelle
© M. Hudon 200211
Plus précisément
Synonymie : SILENCE– Mots de même sens ou de sens assez voisins pour
être interchangeables (Ex. société multinationale, société transnationale, entreprise internationale, multinationale)
Polysémie : BRUIT– Un mot, plusieurs sens
(Ex. Architecture, Kiwi)
© M. Hudon 200212
Une solution possible :
normaliserpurifiercontrôler« artificialiser »la langue naturelle
© M. Hudon 200213
Le langage documentaire
Tout système de signes qui permet de représenter le contenu de documents dans le but d’en faciliter le repérage. Le langage documentaire se compose au minimum
– d'un lexique : ensemble des mots et des expressions utilisables pour la représentation et pour la recherche d’information
– d'une syntaxe : règles d'utilisation et de combinaison de ces mots et expressions.
© M. Hudon 200214
Contrôle lexical
contrôle morphologique et flexionnel : nature et forme du terme
contrôle syntaxique : ordre des mots qui composent un terme
© M. Hudon 200215
Contrôle sémantique
contrôle sémantique : signification du terme
– un terme ne doit représenter qu'un seul concept et donc n'avoir qu'un seul sens (bi-univocité) et chaque concept ne doit être représenté que par un seul terme
© M. Hudon 200216
Étapes du contrôle sémantique
réduction du langage naturel par identification des synonymes et quasi-synonymes et établissement de relations d'équivalence
clarification du sens d'un terme par son intégration dans une structure hiérarchique ou création de définitions
construction d'un réseau d'associations formant contexte et précisant encore davantage la signification d'un terme
© M. Hudon 200217
Instruments de contrôlede la langue naturelle
Cadres ou Schémas de classification Répertoires de vedettes-matières Thésaurus Liste de mots-clés
Taxonomies et ontologies
© M. Hudon 200218
Schéma de classification
Langage documentaire fondé sur la structuration en classes des sujets d’un ou plusieurs domaines de la connaissance et dans lequel les classes et leurs relations peuvent être représentées par les indices d’une notation
© M. Hudon 200219
Structure hiérarchique
Technologie (Sciences appliquées)
Sciences médicales. Médecine
Physiologie humaine
Système sanguin
Globules blancs
© M. Hudon 200220
© M. Hudon 200221
© M. Hudon 200222
© M. Hudon 200223
© M. Hudon 200224
Vedettes-matièreet Répertoire de vedettes-matière
Terme (mot ou expression) résultant de la pré-coordination de plusieurs concepts distincts, exprimant un sujet de façon normalisée
Outil lexical qui présente l’ensemble des vedettes-matières développées et qui montre les relations d'équivalence, de hiérarchie et d’associations qui existent entre elles.
© M. Hudon 200225
Exemple
Documentalistes – Formation – France – 1990-2000 – Bibliographie
Musique country – Histoire – 1970
Québec (Province). Ministère de l’Éducation – Rapport annuel – 2001
© M. Hudon 200226
Descripteurs et Thésaurus
Descripteur = Terme (ou symbole) choisi pour représenter sans ambiguïté un concept particulier et dont l’énoncé et la forme ont fait l’objet d’un processus de normalisation
Thésaurus = Langage documentaire fondé sur une structuration hiérarchisée d’un ou plusieurs domaines de la connaissance et dans lequel les concepts sont représentés par des termes d’une ou plusieurs langues naturelles et les relations entre concepts par des signes conventionnels
© M. Hudon 200227
© M. Hudon 200228
© M. Hudon 200229
© M. Hudon 200230
© M. Hudon 200231
© M. Hudon 200232
© M. Hudon 200233
Mots clés et Listes de mots-clés
Mot choisi dans le titre ou le texte d’un document. On parle de mot-clé libre si on ne fait aucune consultation d’un outil lexical. On parle d’un mot-clé contrôlé s’il y a consultation d’un outil lexical (un thésaurus, par exemple)
Liste de mots-clés présentés en ordre alphabétique, sans structure logique et sans relations entre eux
© M. Hudon 200234
Taxonomie et Ontologie
À mi-chemin entre les schémas de classification et les thésaurus, taxonomies et ontologies en contexte réseau sont des outils qui se cherchent encore une personnalité propre
Souvent créés plus ou moins automatiquement par manipulation de la langue naturelle
© M. Hudon 200235
© M. Hudon 200236
© M. Hudon 200237
© M. Hudon 200238
Libre versus contrôlé 1
Peu prévisible
Dispersion des différentes représentations verbales d'un même concept
Stratégie de recherche complexe et coûteuse pour le chercheur
Bruit au repérage
Très prévisible
Regroupement des différentes représentations verbales d'un même concept
Stratégie de recherche compacte et efficace
Peu de bruit au repérage
© M. Hudon 200239
Libre versus contrôlé 2
Très grande spécificité
Plus dynamique
Investissement minimal (formation des indexeurs, préparation des outils, etc.)
Grande flexibilité au niveau de la traduction des concepts
Plus général
Moins dynamique
Investissement important (formation des indexeurs, préparation des outils, contrôle de qualité, etc.)
Limites imposées au niveau de la traduction des concepts
© M. Hudon 200240
Pourquoi organiser et contrôler ?
Some users come to a search for information knowing exactly what they want. But other users do not quite know or are unable to articulate the object of their search, and yet they are able to recognize it immediately when they find it. Such users expect guidance. An example is the guidance provided by a classification used to order books that are stored on the shelves of a library. Walking through library stacks and browsing, a user may suddenly come across just the right book and credit his luck with serendipity. But such a finding would be serendipitous only if the books were shelved in random order, whereas in fact they are ordered according to a rigorous system of semantic relationships, which like an invisible hand guides the seeker to his “lucky” find (Svenonius 2000, 19).