Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation...

34
comme une renégociation des espaces documentaires. Etude exploratoire des pratiques d’indexation sociale

Transcript of Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation...

Page 1: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

comme une renégociation des

espaces documentaires.

Etude exploratoire des pratiques

d’indexation sociale

Page 2: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Gabriel Gallezot. Maître de Conférences

Université de Nice - Sophia Antipolis

Urfist PacaC. Laboratoire I3M (EA 3820)

www.urfist.info.

Olivier Ertzscheid. Maître de Conférences.

Université de Nantes.

IUT de la Roche sur Yon. Equipe CREC.

Laboratoire DOCSI (Université de Lyon).

www.affordance.info

Conférence Doc’SocDocument numérique et société

Fribourg / 20-21 Septembre 2006

Page 3: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Observations

• « Indexation sociale » / Folksonomies• Impactent durablement les pratiques

d’IR (accès, représentation, recherche, navigation)

• Contexte redocumentarisation : caractériser documents « tertiaires »

• Posent la question d’une transition vers web (socio-)sémantique.

Hétérogénéité des contenus

Massi

ficatio

n/marc

handisatio

n des acc

ès

Com

mun

a uta

ris a

t io n

de s

pra

tiqu

es

Economie « sociale » des documents numériques

Web/documenet public

Web/document`privé

Web personnel(Desktop)

Web intime(Mail)

Web extime(blogs)

Page 4: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Dérive des continents « documentaires ».

1995

2005

2015 ?

Web public

Web privéWeb personnel

(Desktop)Web intime

(Mail)

Quoi ?

Web public Web privé

Web personnel(Desktop)

Web intime(Mail)

Web extime(blogs)

Qui ?

Web public Web privé

Web personnel(Desktop)

Web intime(Mail)

Web extime(blogs)

? Pourquoi ?

indexé

non-indexé

Page 5: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Tectonique documentaire

• « Eclaire » communautarisation des pratiques• « Correspond »

– Nouvelle échelle, nouveaux formats, nouvelles volumétries– Acculturation aux outils et aux pratiques de marchandisation des accès – Processus global de redocumentarisation :

• « Comme dans la précédente modernisation, le document participe au processus et même y joue un rôle clé, mais il s’est transformé au point que l’on peut se demander s’il s’agit encore de la même entité »

• Archive foucaldienne• « Par archive, j’entends d’abord la masse des choses dites dans une culture,

conservées, valorisées, réutilisées, répétées et transformées. Bref toute cette masse verbale qui a été fabriquée par les hommes, investie dans leurs techniques et leurs institutions, et qui est tissée avec leur existence et leur histoire »

• Hypothèse : émergence d’une « indexation sociale » correspond au besoin de traitement, d’appropriation, de partage, de mise en représentation de ces nouvelles configurations informationnelles.

Page 6: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Définition

• « Folksonomies désignent – un processus de classification collaborative

– par des mots-clés librement choisis

– Ou le résultat de cette classification. » (Wikipédia)

Page 7: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

≠ thesaurus

• « vocabulaire normalisé sur la base de termes génériques et de termes spécifiques à un domaine »

Page 8: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

≠ ontologie• « ensemble structuré de concepts. (…) • organisés dans un graphe (…) • relations sémantiques et de composition ou d'héritage. »

Page 9: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

4 écoles d’indexation Web

Full-text => Balises Méta =>

Métadonnées

WebSémantique

Folksonomies : indexation sociale

communautaire

Standardisation => Dublin Core => OAI-PMH

Ontologies (Ingénierie des connaissances)

?

?

Standardisation

Linguistiquede corpus

Page 10: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Folksonomie ≠ thesaurus ≠ ontologie

• « Folksonomies désignent – un processus de classification collaborative

– par des mots-clés librement choisis

– Ou le résultat de cette classification. »

• Vocabulaire non-normalisé, • non-structuré, • non-spécifique à un domaine, • sans relations sémantiques ou hiérarchiques.

Page 11: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

? Avantages = Inconvénients ?

• Point de vue de l’Information Retrieval– En amont :

• Indexation humaine, à la volée, instantanée, cumulative• Facile / Rapide /

– En aval : • filtrage collaboratif (communautaire - del.icio.us, connotea - , thématique -

technorati - orienté-support - flickR - …)

• Avantages « de surface » : – Simplicité, Rapidité, – Coût 0 <=> Expertise 0,– Tous types d’objets (documents, livres, photos, couriels …) FLickR : http://www.

flickr.com/map/ )– Adéquation aux usages / pratiques de l’IR (onebox, oneword)

Page 12: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

? Avantages = Inconvénients ?

• Inconvénients : les mêmes …– Trop simple, trop peu coûteux, trop peu d’expertise, trop

d’hétérogénéité

• +– Confusion entretenue (IR) entre pertinence (autorité) et popularité

(photos les plus vues les plus tagguées et réciproquement)– polysémie, synonymie, lemmatisation, orthographe, langue,

redondance, univers de référence (« peinture » et/ou « louvre », etc.)

… ET POURTANT …

Page 13: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

… ça marche !

• Y’a-t-il un intérêt ?– Du point de vue des utilisateurs ?

• OUI. Adhésion massive. Généralisation des pratiques.

– Du point de vue de l’hétérogénéité et de la masse des corpus décrits ?

• OUI. Efficace sinon pertinent (empiriquement … théorie évoquée plus loin)

– Du point de vue de la facilitation et/ou de nouvelles modalités du processus d’IR ?

• OUI. Sérendipité.

• Adhésion utilisateurs, gain de temps, gain d’échelle, économie d’expertise …

==> Pourquoi ? Pérennité des pratiques ?

Page 14: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

3 modèles « inadaptés »

• Au regard des nouveaux continents documentaires du web.

• Web (= contenus indexables) oxymorique :– Homogénéité des processus (tout est lié à tout - ou peut l’être)

– Hétérogénéité des contenus, des éléments liés (mail, photos de vacances, textes, sites, signets, etc.)

• Finalité (religion ?) de l’accès : – Accès au document. Accès au partage. Accès à une communauté.

– Gratuit. Instantané.

Full-text => Balises Méta =>

Métadonnées

Standardisation => Dublin Core => OAI-PMH

Ontologies (Ingénierie des connaissances)

Web/documenet public

Web/document`privé

Web personnel(Desktop)

Web intime(Mail)

Web extime(blogs)

Page 15: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Finalité de l’accès et bibliothéconomie de masse.

• Bibliothéconomie de masse :– quel modèle ? Marchand ? Raisonné ?– Quelles logiques : qualitatives ? Quantitatives ?

• Librarything (5 millions d’ouvrages)– Indexation « standard » : notice au format MARC, indexation DEWEY,

LC "subjects headings », – + indexation sociale : des tags associés, des fiches de lecture et

revues de la communauté, système de recommandation– http://www.librarything.com

Page 16: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Science et folksonomies

• Interface – Bibliothèque & Catalogue http://tags.library.upenn.edu/

– communautaire scientifique (www.postgenomic.com)

– Partage de signets (del.icio.us, connotea)

• Les 2 écoles ou le meilleur des deux mondes.– Interface BdD (http://www.hubmed.org)

Page 17: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Science et folksonomies

Page 18: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

? Approches complémentaires ?

• Construire des ontologies « sur » des folksonomies ?

WebSocio-

Sémantique

Folksonomies : indexation sociale

communautaire

Ontologies (Ingénierie des connaissances)

?

?

Page 19: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Folksonomies et moteurs (IR)

• Illustration de la « puissance d’interface »– Tagnautica : – http://www.quasimondo.com/tagnaut

ica.php

• Héritage de la linguistique de corpus– http://aixtal.blogspot.com/2006/01/o

util-le-nbuloscope.html

• Moteurs dédiés (technorati)

• Fonctionalité intégrée (MyYahoo)

Page 20: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Folksonomies et IR

• Interfaçage « idéal » de tous types de requêtage– Requêtes informationnelles

• Information « précise » ou dédiée.

– Requêtes transactionnelles• Réserver un billet d’avion.

– Requêtes navigationnelles• Vue d’ensemble (cartographie, clusters)

– Requêtes « interactionnelles »• « Search party’s », social bookmarking, tagging

Le mot contre son absence

Page 21: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Les raisons du succès (1/5) : Une temporalité (ré?)unifiée entre interface et indexation

• Temps consultation ≈ temps de l’accès ≈ temps de l’indexation

• Micro-temporalités successives, parfois simultanées, jamais contraintes, sans préalables.

• Langages documentaires & formels (Thésaurus & ontologies) pour l’accès à l’information : – Interfaces asynchrones.– Nbre textes > nbre d’indexeur = temporalité interfaçage longue– acculturation à rebours (des novices vers l’expert)

• Folksonomies – Interface synchrone. Le temps de l’indexation est le même que celui de l’accès et du

repérage.

– Nbre documents < = nbre d’indexeurs = temporalité interfaçage courte (simultanée)

– Acculturation a priori.

Page 22: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Les raisons du succès (2/5) : La fonction symbolique plutôt que la vocation analytique.

• Vocation analytique des langages documentaires & formels : – classer physiquement et/ou conceptuellement selon la nature de l’objet

– Univers de référence « construit » par l’indexeur, l’expert et l’état des connaissances au moment de l’indexation

– Approche « objective », logique ou logiciste

• Fonction symbolique Folksonomies : – repérer spatialement et/ou sémantiquement pour accéder et/ou représenter

l’objet.

– Univers de référence induit par l’objet lui-même et le rapport objet/indexeur

– Approche « subjective », empirique, « essai et erreur »

Page 23: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Les raisons du succès (3/5) : la sagesse des foules

• « (…) N'importe qui peut déposer n'importe quel tag sur n'importe quelle photo. Mais - et c'est la clé - Flickr offre un retour sur les tags les plus utilisés et les plus populaires, et les gens souhaitant attirer l'attention sur leurs photos (...) apprennent rapidement à utiliser ce lexique si celui-ci fait sens. Cela rend le système étonnamment stable. Del.icio.us fait la même chose. Le succès de Google pour rendre les recherches plus pertinentes reposait sur la puissance de cette sagesse populaire (PageRank)... » Adam Bosworth, VP ingénierie chez Google.

• Postule l’existence pour tout élément donné (texte, image, document) d’une série de mots et termes composant le plus petit lexique commun (concensus) permettant de décrire l'objet ou le document.

Page 24: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Les raisons du succès (4/5) : un faible coût cognitif

• Marquage élimine la phase de décision (choix de la bonne catégorie)

• Dissipe la phase de paralysie d’analyse (choix du mot-clé)

• Permet l’ancrage en contexte socio-cognitif immédiat.– Google image labeller : http://images.google.com/imagelabeler/

• Hiérarchie centrée document VS anarchie centrée utilisateur MAIS …

• Confirmation de l’axiomatique du memex : – « human mind doesn’t work that way »

– « association »

• Emergence de patterns stables et auto-régulés

Page 25: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Les raisons du succès (5/5) : Auto-régulation ?

• Golder Scott A. & Huberman Bernardo A., « The Structure of Collaborative Tagging Systems », Information Dynamics Lab, HP Labs , 2005.

• Méthodologie– Site Del.icio.us– Sur une période donnée (5 jours)– Corpus :

• Les plus populaires (212 URL présents dans 19422 signets)• Échantillon aléatoire de 229 usagers ayant partagé durant

période test + tous leurs signets y compris hors-période (68 668 signets)

Page 26: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Auto-régulation ?

• Résultats– 7 types de tags :

• Thématiques (orientés sujet) /

• Nature de l’objet (article, blog, livre) /

• Propriétaire (auteur du signet) /

• adjectifs de caractérisation (drôle, stupide, horreur) /

• auto-référence (messignets, monnom …) /

• orientés tâche (à lire, recherche d‘emploi)

• Plus on possède (= partage), plus on taggue – (avec fortes variations selon individus)

• Motifs stables dans la proportion et le choix des tags.– Plus une ressource est partagée, plus le nombre de tags la décrivant se

stabilise ainsi que leur nature.

• Subjectivation des adjectifs de caractérisation s’avère pertinente du fait de son inscription dans une communauté.

Page 27: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Documents primaires, secondaires …TERTIAIRES

• Un document « tertiaire » est porteur d’une triple hybridation :– Mécanismes d’inscription ET de navigation

– Synchronicité des temporalités de repérage, d’analyse ET d’accès

– Babélisation des pratiques expertes (indexation), individuelles (tagging) ET communautaires (filtrage)

• Continent documentaire « unifié » (usages)

• Force tectonique : indexabilité.

• Folksonomies :– creuset de nouvelles pratiques sociales du document.

– Impact durable (à étudier) sur pratiques d’IR

Page 28: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Folksonomies comme …

• « ontologies sémiotiques » ? – « acteurs divers +

– compétences hétérogènes impliquant recours à des classifications partagées par le collectif

– et représentées explicitement dans l’interface du système ». (Zacklad)

• Partie usages émergés web socio-sémantique :– « codétermination des usages informationnels et

communicationnels » (Zacklad)

– « à l’intérieur de communautés de pratique »

Page 29: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

… M

eRci

? QuEsTioNs ?

? QuEsTioN

s ?

Page 30: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Confusion des pratiques informationnelles

chercher communiquer Tagger / indexerorganisers’orienter partager

google

talk

earth

printorkut

API’s

Web/documenet public

Web/document`privé

Web personnel(Desktop)

Web intime(Mail)

Web extime(blogs)

Page 31: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Question d’indexabilité

• Réunion d’Univers informationnels distincts• Questionnent l’indexabilité de cette « masse »

selon troix axes/modèles : – Bibliothéconomique. Gestion et accès raisonné des/aux

contenus.– Marchand (prime à l’accès. Ex. de Google books)– Communautaire et à la volée : indexation sociale.

– Copie nuage de tags sur le meur ou autre, sur mon blog, del.icio.us.

Page 32: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

• PERONOMIES : Kekseksa ? Le dernier de ces néologismes dont le web 2.0 est friand. Dans la lignée (inverse) des folksonomies, les personomies se définissent comme "mon environnement informationnel personnel. C'est l'environnement informationnel que j'ai construit dans le temps (...) et qui inclue mes contacts, mes achats, mes historiques de recherche, mes emails, mes fils rss, mes commentaires sur les blogs, etc ... »

• Nota Bene de 10 minutes plus tard : la socionomie n'est pas seulement un synonyme de "folksonomie" ou de "potonomie", elle est une théorie scientifique qui intégre "une nouvelle approche de l'économie politique en intégrant le comportement des agents économiques et la psychologie de masse.", comme l'indique la seule publication francophone dénichée sur le sujet. Mais il en est sûrement d'autres et des meilleures que vous aurez l'obligeance de me signaler en commentaires :-)

• En tout cas et sous-réserve d'approfondissement, il se pourrait bien que cette socionomie là soit le champ de recherche encadrant idéalement l'ensemble des études sur les moteurs de recherche et leurs implications cognitives et sociétales. Et hop, une chaire de socionomie ! Comme un écho à celle d'intelligence collective initiée par Pierre Lévy.

Page 33: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

Avantages folkso

• Taux de rappel (TR) nombre de documents pertinents retournés divisé par le nombre de documents pertinents existants.

• Taux de précision (TP) nombre de documents pertinents retournés divisé par le nombre de documents retournés.

• Mesures non adaptées : – nature des corpus (sites d’actualité, taguage uniforme : « 11 Septembre »).

Taux de recouvrement non-mesurable entre sites communautaires : tags sous del.icio.us, ne sont pas tags sous technorati ou sous MyYahoo!, et documents sont également différents.

• Juger de la pertinence des folksonomies dans un processus d’IR réclamerait l’ajout de nouvelles métriques : – Taux de partage (nbre de doc. Pertinents par rapports aux nobre de documents

partagés)– Taux de partage optimal (nbre de doc. Pertinents par rapports aux nombre de

documents les plus partagés)

Page 34: Comme une renégociation des espaces documentaires. Etude exploratoire des pratiques dindexation sociale.

• Les trois âges documentaires– Web 0 : ce qui est publié (navigateurs)

– Web 1.0 : ce qui est accédé (moteurs) ou indexé pour être accédé. Ceux qui indexent (bots) n’étant pas ceux qui accèdent (users)

– Web 2.0 : ce qui est indexé pour être accédé pour/par/dans une communauté d’usagers-indexeurs.