© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur...

40
© M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe Université de Montréal

Transcript of © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur...

Page 1: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20021

De l'utilité des contrôles lexical et sémantique des accès-

sujets sur Internet et en Intranets

Michèle Hudon, Ph.D.Professeure adjointe

Université de Montréal

Page 2: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20022

Présenter divers modes d’organisation documentaire qui permettent et

même facilitent le repérage d’information pertinente

Objectif …

Page 3: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20023

Mots-clés

Utilisateur / Demandeur Information Document Organisation Contrôle Recherche et repérage Système de transfert d’information

Page 4: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20024

À distinguer

Information « récréative » Information « requise »

Information factuelle Information discursive / textuelle

Page 5: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20025

À distinguer aussi …

L’utilisateur qui connaît déjà la source qui lui procurera l’information requise

L’utilisateur qui sait ce qu’il cherche mais ne connaît pas la ou les sources qui lui procureront l’information requise

L’utilisateur qui ne sait pas ce dont il a besoin

Page 6: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20026

Description des documents

ContenantTitreCréateur de la ressourceDate de publication / mise à jourNombre de pages / de méga-octets

ContenuSujet(s)

Page 7: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20027

Accès sujet

Permet le repérage de sources d’information pertinentes dont on ne connaît pas encore l’existence par la voie de leur contenu plutôt que par l’utilisation d’éléments descriptifs externes caractérisant l’objet document

Page 8: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20028

Description du contenu

Titres, Sous-titres, Titres alternatifs, etc.

Classement dans une catégorie particulière Mots-clés Résumé

Texte dans son entier

Page 9: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 20029

Contexte

quand on cherche de l’information sur un sujet, on ne peut examiner tout ce qui se trouve dans une collection

un document est souvent trop volumineux pour être utilisé dans son entier, n’a pas besoin d’être utilisé dans son entier

le créateur et l’utilisateur d’un document n’emploient pas forcément le même vocabulaire pour représenter les mêmes concepts

la coïncidence entre la formulation des questions et la représentation du contenu est indispensable pour qu’un système de transfert d’information fonctionne correctement

Page 10: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200210

Multiplicité des langues naturelles

Variations nationales et régionales Niveaux de langue Code / Signe

Problèmes liés à l’utilisation de la langue naturelle

Page 11: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200211

Plus précisément

Synonymie : SILENCE– Mots de même sens ou de sens assez voisins pour

être interchangeables (Ex. société multinationale, société transnationale, entreprise internationale, multinationale)

Polysémie : BRUIT– Un mot, plusieurs sens

(Ex. Architecture, Kiwi)

Page 12: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200212

Une solution possible :

normaliserpurifiercontrôler« artificialiser »la langue naturelle

Page 13: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200213

Le langage documentaire

Tout système de signes qui permet de représenter le contenu de documents dans le but d’en faciliter le repérage. Le langage documentaire se compose au minimum

– d'un lexique : ensemble des mots et des expressions utilisables pour la représentation et pour la recherche d’information

– d'une syntaxe : règles d'utilisation et de combinaison de ces mots et expressions.

Page 14: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200214

Contrôle lexical

contrôle morphologique et flexionnel : nature et forme du terme

contrôle syntaxique : ordre des mots qui composent un terme

Page 15: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200215

Contrôle sémantique

contrôle sémantique : signification du terme

– un terme ne doit représenter qu'un seul concept et donc n'avoir qu'un seul sens (bi-univocité) et chaque concept ne doit être représenté que par un seul terme

Page 16: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200216

Étapes du contrôle sémantique

réduction du langage naturel par identification des synonymes et quasi-synonymes et établissement de relations d'équivalence

clarification du sens d'un terme par son intégration dans une structure hiérarchique ou création de définitions

construction d'un réseau d'associations formant contexte et précisant encore davantage la signification d'un terme

Page 17: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200217

Instruments de contrôlede la langue naturelle

Cadres ou Schémas de classification Répertoires de vedettes-matières Thésaurus Liste de mots-clés

Taxonomies et ontologies

Page 18: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200218

Schéma de classification

Langage documentaire fondé sur la structuration en classes des sujets d’un ou plusieurs domaines de la connaissance et dans lequel les classes et leurs relations peuvent être représentées par les indices d’une notation

Page 19: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200219

Structure hiérarchique

Technologie (Sciences appliquées)

Sciences médicales. Médecine

Physiologie humaine

Système sanguin

Globules blancs

Page 20: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200220

Page 21: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200221

Page 22: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200222

Page 23: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200223

Page 24: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200224

Vedettes-matièreet Répertoire de vedettes-matière

Terme (mot ou expression) résultant de la pré-coordination de plusieurs concepts distincts, exprimant un sujet de façon normalisée

Outil lexical qui présente l’ensemble des vedettes-matières développées et qui montre les relations d'équivalence, de hiérarchie et d’associations qui existent entre elles.

Page 25: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200225

Exemple

Documentalistes – Formation – France – 1990-2000 – Bibliographie

Musique country – Histoire – 1970

Québec (Province). Ministère de l’Éducation – Rapport annuel – 2001

Page 26: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200226

Descripteurs et Thésaurus

Descripteur = Terme (ou symbole) choisi pour représenter sans ambiguïté un concept particulier et dont l’énoncé et la forme ont fait l’objet d’un processus de normalisation

Thésaurus = Langage documentaire fondé sur une structuration hiérarchisée d’un ou plusieurs domaines de la connaissance et dans lequel les concepts sont représentés par des termes d’une ou plusieurs langues naturelles et les relations entre concepts par des signes conventionnels

Page 27: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200227

Page 28: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200228

Page 29: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200229

Page 30: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200230

Page 31: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200231

Page 32: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200232

Page 33: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200233

Mots clés et Listes de mots-clés

Mot choisi dans le titre ou le texte d’un document. On parle de mot-clé libre si on ne fait aucune consultation d’un outil lexical. On parle d’un mot-clé contrôlé s’il y a consultation d’un outil lexical (un thésaurus, par exemple)

Liste de mots-clés présentés en ordre alphabétique, sans structure logique et sans relations entre eux

Page 34: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200234

Taxonomie et Ontologie

À mi-chemin entre les schémas de classification et les thésaurus, taxonomies et ontologies en contexte réseau sont des outils qui se cherchent encore une personnalité propre

Souvent créés plus ou moins automatiquement par manipulation de la langue naturelle

Page 35: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200235

Page 36: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200236

Page 37: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200237

Page 38: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200238

Libre versus contrôlé 1

Peu prévisible

Dispersion des différentes représentations verbales d'un même concept

Stratégie de recherche complexe et coûteuse pour le chercheur

Bruit au repérage

Très prévisible

Regroupement des différentes représentations verbales d'un même concept

Stratégie de recherche compacte et efficace

Peu de bruit au repérage

Page 39: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200239

Libre versus contrôlé 2

Très grande spécificité

Plus dynamique

Investissement minimal (formation des indexeurs, préparation des outils, etc.)

Grande flexibilité au niveau de la traduction des concepts

Plus général

Moins dynamique

Investissement important (formation des indexeurs, préparation des outils, contrôle de qualité, etc.)

Limites imposées au niveau de la traduction des concepts

Page 40: © M. Hudon 2002 1 De l'utilité des contrôles lexical et sémantique des accès- sujets sur Internet et en Intranets Michèle Hudon, Ph.D. Professeure adjointe.

© M. Hudon 200240

Pourquoi organiser et contrôler ?

Some users come to a search for information knowing exactly what they want. But other users do not quite know or are unable to articulate the object of their search, and yet they are able to recognize it immediately when they find it. Such users expect guidance. An example is the guidance provided by a classification used to order books that are stored on the shelves of a library. Walking through library stacks and browsing, a user may suddenly come across just the right book and credit his luck with serendipity. But such a finding would be serendipitous only if the books were shelved in random order, whereas in fact they are ordered according to a rigorous system of semantic relationships, which like an invisible hand guides the seeker to his “lucky” find (Svenonius 2000, 19).