© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur...

Post on 04-Apr-2015

107 views 1 download

Transcript of © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur...

© M. Hudon 20021

De l'utilité des contrôles lexical et sémantique des accès-

sujets sur Internet et en Intranets

Michèle Hudon, Ph.D.Professeure adjointe

Université de Montréal

© M. Hudon 20022

Présenter divers modes d’organisation documentaire qui permettent et

même facilitent le repérage d’information pertinente

Objectif …

© M. Hudon 20023

Mots-clés

Utilisateur / Demandeur Information Document Organisation Contrôle Recherche et repérage Système de transfert d’information

© M. Hudon 20024

À distinguer

Information « récréative » Information « requise »

Information factuelle Information discursive / textuelle

© M. Hudon 20025

À distinguer aussi …

L’utilisateur qui connaît déjà la source qui lui procurera l’information requise

L’utilisateur qui sait ce qu’il cherche mais ne connaît pas la ou les sources qui lui procureront l’information requise

L’utilisateur qui ne sait pas ce dont il a besoin

© M. Hudon 20026

Description des documents

ContenantTitreCréateur de la ressourceDate de publication / mise à jourNombre de pages / de méga-octets

ContenuSujet(s)

© M. Hudon 20027

Accès sujet

Permet le repérage de sources d’information pertinentes dont on ne connaît pas encore l’existence par la voie de leur contenu plutôt que par l’utilisation d’éléments descriptifs externes caractérisant l’objet document

© M. Hudon 20028

Description du contenu

Titres, Sous-titres, Titres alternatifs, etc.

Classement dans une catégorie particulière Mots-clés Résumé

Texte dans son entier

© M. Hudon 20029

Contexte

quand on cherche de l’information sur un sujet, on ne peut examiner tout ce qui se trouve dans une collection

un document est souvent trop volumineux pour être utilisé dans son entier, n’a pas besoin d’être utilisé dans son entier

le créateur et l’utilisateur d’un document n’emploient pas forcément le même vocabulaire pour représenter les mêmes concepts

la coïncidence entre la formulation des questions et la représentation du contenu est indispensable pour qu’un système de transfert d’information fonctionne correctement

© M. Hudon 200210

Multiplicité des langues naturelles

Variations nationales et régionales Niveaux de langue Code / Signe

Problèmes liés à l’utilisation de la langue naturelle

© M. Hudon 200211

Plus précisément

Synonymie : SILENCE– Mots de même sens ou de sens assez voisins pour

être interchangeables (Ex. société multinationale, société transnationale, entreprise internationale, multinationale)

Polysémie : BRUIT– Un mot, plusieurs sens

(Ex. Architecture, Kiwi)

© M. Hudon 200212

Une solution possible :

normaliserpurifiercontrôler« artificialiser »la langue naturelle

© M. Hudon 200213

Le langage documentaire

Tout système de signes qui permet de représenter le contenu de documents dans le but d’en faciliter le repérage. Le langage documentaire se compose au minimum

– d'un lexique : ensemble des mots et des expressions utilisables pour la représentation et pour la recherche d’information

– d'une syntaxe : règles d'utilisation et de combinaison de ces mots et expressions.

© M. Hudon 200214

Contrôle lexical

contrôle morphologique et flexionnel : nature et forme du terme

contrôle syntaxique : ordre des mots qui composent un terme

© M. Hudon 200215

Contrôle sémantique

contrôle sémantique : signification du terme

– un terme ne doit représenter qu'un seul concept et donc n'avoir qu'un seul sens (bi-univocité) et chaque concept ne doit être représenté que par un seul terme

© M. Hudon 200216

Étapes du contrôle sémantique

réduction du langage naturel par identification des synonymes et quasi-synonymes et établissement de relations d'équivalence

clarification du sens d'un terme par son intégration dans une structure hiérarchique ou création de définitions

construction d'un réseau d'associations formant contexte et précisant encore davantage la signification d'un terme

© M. Hudon 200217

Instruments de contrôlede la langue naturelle

Cadres ou Schémas de classification Répertoires de vedettes-matières Thésaurus Liste de mots-clés

Taxonomies et ontologies

© M. Hudon 200218

Schéma de classification

Langage documentaire fondé sur la structuration en classes des sujets d’un ou plusieurs domaines de la connaissance et dans lequel les classes et leurs relations peuvent être représentées par les indices d’une notation

© M. Hudon 200219

Structure hiérarchique

Technologie (Sciences appliquées)

Sciences médicales. Médecine

Physiologie humaine

Système sanguin

Globules blancs

© M. Hudon 200220

© M. Hudon 200221

© M. Hudon 200222

© M. Hudon 200223

© M. Hudon 200224

Vedettes-matièreet Répertoire de vedettes-matière

Terme (mot ou expression) résultant de la pré-coordination de plusieurs concepts distincts, exprimant un sujet de façon normalisée

Outil lexical qui présente l’ensemble des vedettes-matières développées et qui montre les relations d'équivalence, de hiérarchie et d’associations qui existent entre elles.

© M. Hudon 200225

Exemple

Documentalistes – Formation – France – 1990-2000 – Bibliographie

Musique country – Histoire – 1970

Québec (Province). Ministère de l’Éducation – Rapport annuel – 2001

© M. Hudon 200226

Descripteurs et Thésaurus

Descripteur = Terme (ou symbole) choisi pour représenter sans ambiguïté un concept particulier et dont l’énoncé et la forme ont fait l’objet d’un processus de normalisation

Thésaurus = Langage documentaire fondé sur une structuration hiérarchisée d’un ou plusieurs domaines de la connaissance et dans lequel les concepts sont représentés par des termes d’une ou plusieurs langues naturelles et les relations entre concepts par des signes conventionnels

© M. Hudon 200227

© M. Hudon 200228

© M. Hudon 200229

© M. Hudon 200230

© M. Hudon 200231

© M. Hudon 200232

© M. Hudon 200233

Mots clés et Listes de mots-clés

Mot choisi dans le titre ou le texte d’un document. On parle de mot-clé libre si on ne fait aucune consultation d’un outil lexical. On parle d’un mot-clé contrôlé s’il y a consultation d’un outil lexical (un thésaurus, par exemple)

Liste de mots-clés présentés en ordre alphabétique, sans structure logique et sans relations entre eux

© M. Hudon 200234

Taxonomie et Ontologie

À mi-chemin entre les schémas de classification et les thésaurus, taxonomies et ontologies en contexte réseau sont des outils qui se cherchent encore une personnalité propre

Souvent créés plus ou moins automatiquement par manipulation de la langue naturelle

© M. Hudon 200235

© M. Hudon 200236

© M. Hudon 200237

© M. Hudon 200238

Libre versus contrôlé 1

Peu prévisible

Dispersion des différentes représentations verbales d'un même concept

Stratégie de recherche complexe et coûteuse pour le chercheur

Bruit au repérage

Très prévisible

Regroupement des différentes représentations verbales d'un même concept

Stratégie de recherche compacte et efficace

Peu de bruit au repérage

© M. Hudon 200239

Libre versus contrôlé 2

Très grande spécificité

Plus dynamique

Investissement minimal (formation des indexeurs, préparation des outils, etc.)

Grande flexibilité au niveau de la traduction des concepts

Plus général

Moins dynamique

Investissement important (formation des indexeurs, préparation des outils, contrôle de qualité, etc.)

Limites imposées au niveau de la traduction des concepts

© M. Hudon 200240

Pourquoi organiser et contrôler ?

Some users come to a search for information knowing exactly what they want. But other users do not quite know or are unable to articulate the object of their search, and yet they are able to recognize it immediately when they find it. Such users expect guidance. An example is the guidance provided by a classification used to order books that are stored on the shelves of a library. Walking through library stacks and browsing, a user may suddenly come across just the right book and credit his luck with serendipity. But such a finding would be serendipitous only if the books were shelved in random order, whereas in fact they are ordered according to a rigorous system of semantic relationships, which like an invisible hand guides the seeker to his “lucky” find (Svenonius 2000, 19).