Dicen Tagging Mars2010

48
Approche collaborative et assistée à l'enrichissement des folksonomies: entre ergonomie et algorithmie DICEN – Séminaire tagging & folksonomies – 26 mars 2010 Freddy Limpens, Edelweiss, INRIA Sophia-Antipolis [email protected] Edelweiss

Transcript of Dicen Tagging Mars2010

Page 1: Dicen Tagging Mars2010

Approche collaborative et assistée à l'enrichissement des folksonomies:

entre ergonomie et algorithmie

DICEN – Séminaire tagging & folksonomies – 26 mars 2010

Freddy Limpens, Edelweiss, INRIA [email protected]

Edelweiss

Page 2: Dicen Tagging Mars2010

Objectifs

→ Ancrage dans un contexte d’usage

→ Synergie entre automatisme et contribution des utilisateurs

Page 3: Dicen Tagging Mars2010

1. problématique

Page 4: Dicen Tagging Mars2010

limites des folksonomies

Page 5: Dicen Tagging Mars2010

Variation d'écriture des tags:

newyork = new_york

ademe = ADEME

musique = music

Page 6: Dicen Tagging Mars2010

Ambiguité des tags:

RDF =? Ressource Description Framework

RDF =? Rwanda Defense Force

RDF =? Reality Distortion Field

Page 7: Dicen Tagging Mars2010

Manque de liens sémantiques entre les tags:

Page 8: Dicen Tagging Mars2010

Une ontologie = une vue sur le monde

Page 9: Dicen Tagging Mars2010
Page 10: Dicen Tagging Mars2010

Limites des ontologies:

→ coût d 'acquisition

→ intégrer toute l'expertise de la communauté

→ goulet d'étranglement à la formalisation

Page 11: Dicen Tagging Mars2010

Scenario Ademe

→ ingénieurs experts : distribués

→ gestion documentaire : centralisée

Comment structurer folksonomie contrôlée en capturant un maximum de l’expertise ?

Page 12: Dicen Tagging Mars2010

Scenario Ademe

Comment tirer partie de l’activité ?

→ documentalistes : structuration concertée d’une liste d’autorité

→ Ingé-experts : navigation dans la base documentaire

Page 13: Dicen Tagging Mars2010

2. Notre approche

Page 14: Dicen Tagging Mars2010

Exploiter :

→ dynamique et simplicité du social tagging

→ traitements automatiques sur les tags

→ expertises des utilisateurs

Page 15: Dicen Tagging Mars2010

En proposant:

→ modèle supportant les divergences

→ cycle de vie s’appuyant sur une analyse des usages

→ interfaces ergonomiques pour faciliter la contribution

Page 16: Dicen Tagging Mars2010

car pollutionskos:related

2.A Supporter les divergences

Page 17: Dicen Tagging Mars2010

car pollutionskos:related

John

agrees

2.A Supporter les divergences

Page 18: Dicen Tagging Mars2010

car pollutionskos:related

John

agrees

Paul

disagrees

2.A Supporter les divergences

Page 19: Dicen Tagging Mars2010

2.A Supporter les divergences

Page 20: Dicen Tagging Mars2010

2.A Supporter les divergences

Page 21: Dicen Tagging Mars2010

2.A Supporter les divergences

Page 22: Dicen Tagging Mars2010

2.B Cycle de vie de la folksonomie structurée

Page 23: Dicen Tagging Mars2010

3. Combiner traitements auto& contributions des utilisateurs

Page 24: Dicen Tagging Mars2010

→ Tags comme « candidats-concepts »

→ lien tag-ressource de type « is about »

Hypothèses et modèle de tagging

Page 25: Dicen Tagging Mars2010

→ Evaluation des distances d’éditions*

→ Variations orthographique: pollution <-> pollutions

→ Hyponymes : pollution <-> pollution des sols

→ Termes associés : pollution <-> détection de polluants

*http://sourceforge.net/projects/simmetrics/

3.A analyse des labels de tags

Page 26: Dicen Tagging Mars2010

3.A analyse des labels de tags

→ Jeu de test Ademe

→ 1 ensemble / type de relation

→2 types de métriques simples + combinées

Page 27: Dicen Tagging Mars2010

Cas

Détecter related

→ MongeElkan_Soundex→ seuil 0.8 / rappel > 0.5

Page 28: Dicen Tagging Mars2010

Cas

Distinguer spelling variant

→ Jaro-Winkler→ seuil > 0.9

Page 29: Dicen Tagging Mars2010

Cas

Distinguer hyponymes

→ MongeElkan-QGram → différence entre d(t1,t2) et d(t2,t1) > 0.39

Page 30: Dicen Tagging Mars2010

Cas

Méthode heuristique

→ confirme intuitions→ Nécessité d’autres méthodes

Page 31: Dicen Tagging Mars2010

3.B analyse de la structure des folksonomies

Page 32: Dicen Tagging Mars2010

→ Calcul de la similarité entre tags (Mika, 2005; Cattuto et al., 2008)

→ Différents contextes d’associationsressourcesutilisateurs taggings

3.B analyse de la structure des folksonomies

Page 33: Dicen Tagging Mars2010

tag1 tag2 tag3

tag1 freq cooc cooc

tag2 cooc freq cooc

tag3 cooc cooc freq

tagstags

3.B analyse de la structure des folksonomies

Page 34: Dicen Tagging Mars2010

Tag "Most related" tags

environnement développement_durable, énergie

environment france, green, ecology, sustainable, energy

déchets administration, EEDD, renouvelable

développementdurable ecologie , EEDD, france, climat ,imported

(données delicious.com)

3.B analyse de la structure des folksonomies

Page 35: Dicen Tagging Mars2010

Calcul automatiques

3.C Contribution des utilisateurs

Page 36: Dicen Tagging Mars2010

Interface d’édition(SRTags Editor)

3.C Contribution des utilisateurs

Page 37: Dicen Tagging Mars2010

3.C Contribution des utilisateurs

Page 38: Dicen Tagging Mars2010

3.C Contribution des utilisateurs

Page 39: Dicen Tagging Mars2010

3.D Détection de conflits et vue consensuelle

Page 40: Dicen Tagging Mars2010

3.D Détection de conflits et vue consensuelle

Page 41: Dicen Tagging Mars2010

3.D Détection de conflits et vue consensuelle

Page 42: Dicen Tagging Mars2010

3.E Combinaison des points de vue

Point de vue « consensuel » du ReferentUser

→ Sans conflits

→Utilisé par documentalistes pour maintenir un thésaurus

Page 43: Dicen Tagging Mars2010

3.E Combinaison des points de vue

Points de vue individuels:

→ Coexistent même si divergents

→ Aide à former un point de vue consensuel

Page 44: Dicen Tagging Mars2010

3.E Combinaison des points de vue

Règles de priorité pour une navigation cohérente:

4.Utilisateur courant5.ReferentUser6.ConflictSolver7.Autre utilisateur8.Automate

Page 45: Dicen Tagging Mars2010

4. Conclusion

Page 46: Dicen Tagging Mars2010

Nos contributions :

→ Système socio-technique ancré dans les usages

→ Modèle supportant les points de vue divergents (SRTag)

→ Complémentarité des traitements automatiques (labels + structure)

→ Combinaison des traitements auto + contribution des utilisateurs

→ Coexistence des points de vue + élaboration d’un point de vue consensuel

Page 47: Dicen Tagging Mars2010

Travaux en cours et futurs

→ Amorçage : intégration ressources terminologiques (docs, ontologies, thesaurus, etc.)

→ Services "sémantiques« pour l’exploitation des données de tagging et de structuration sémantiques

→ ISICIL : Evaluation & Tests Ademe & Orange Labs

Page 48: Dicen Tagging Mars2010

fin.

[email protected]