Dicen Tagging Mars2010

Post on 02-Jul-2015

606 views 5 download

Transcript of Dicen Tagging Mars2010

Approche collaborative et assistée à l'enrichissement des folksonomies:

entre ergonomie et algorithmie

DICEN – Séminaire tagging & folksonomies – 26 mars 2010

Freddy Limpens, Edelweiss, INRIA Sophia-Antipolisfreddy.limpens@inria.fr

Edelweiss

Objectifs

→ Ancrage dans un contexte d’usage

→ Synergie entre automatisme et contribution des utilisateurs

1. problématique

limites des folksonomies

Variation d'écriture des tags:

newyork = new_york

ademe = ADEME

musique = music

Ambiguité des tags:

RDF =? Ressource Description Framework

RDF =? Rwanda Defense Force

RDF =? Reality Distortion Field

Manque de liens sémantiques entre les tags:

Une ontologie = une vue sur le monde

Limites des ontologies:

→ coût d 'acquisition

→ intégrer toute l'expertise de la communauté

→ goulet d'étranglement à la formalisation

Scenario Ademe

→ ingénieurs experts : distribués

→ gestion documentaire : centralisée

Comment structurer folksonomie contrôlée en capturant un maximum de l’expertise ?

Scenario Ademe

Comment tirer partie de l’activité ?

→ documentalistes : structuration concertée d’une liste d’autorité

→ Ingé-experts : navigation dans la base documentaire

2. Notre approche

Exploiter :

→ dynamique et simplicité du social tagging

→ traitements automatiques sur les tags

→ expertises des utilisateurs

En proposant:

→ modèle supportant les divergences

→ cycle de vie s’appuyant sur une analyse des usages

→ interfaces ergonomiques pour faciliter la contribution

car pollutionskos:related

2.A Supporter les divergences

car pollutionskos:related

John

agrees

2.A Supporter les divergences

car pollutionskos:related

John

agrees

Paul

disagrees

2.A Supporter les divergences

2.A Supporter les divergences

2.A Supporter les divergences

2.A Supporter les divergences

2.B Cycle de vie de la folksonomie structurée

3. Combiner traitements auto& contributions des utilisateurs

→ Tags comme « candidats-concepts »

→ lien tag-ressource de type « is about »

Hypothèses et modèle de tagging

→ Evaluation des distances d’éditions*

→ Variations orthographique: pollution <-> pollutions

→ Hyponymes : pollution <-> pollution des sols

→ Termes associés : pollution <-> détection de polluants

*http://sourceforge.net/projects/simmetrics/

3.A analyse des labels de tags

3.A analyse des labels de tags

→ Jeu de test Ademe

→ 1 ensemble / type de relation

→2 types de métriques simples + combinées

Cas

Détecter related

→ MongeElkan_Soundex→ seuil 0.8 / rappel > 0.5

Cas

Distinguer spelling variant

→ Jaro-Winkler→ seuil > 0.9

Cas

Distinguer hyponymes

→ MongeElkan-QGram → différence entre d(t1,t2) et d(t2,t1) > 0.39

Cas

Méthode heuristique

→ confirme intuitions→ Nécessité d’autres méthodes

3.B analyse de la structure des folksonomies

→ Calcul de la similarité entre tags (Mika, 2005; Cattuto et al., 2008)

→ Différents contextes d’associationsressourcesutilisateurs taggings

3.B analyse de la structure des folksonomies

tag1 tag2 tag3

tag1 freq cooc cooc

tag2 cooc freq cooc

tag3 cooc cooc freq

tagstags

3.B analyse de la structure des folksonomies

Tag "Most related" tags

environnement développement_durable, énergie

environment france, green, ecology, sustainable, energy

déchets administration, EEDD, renouvelable

développementdurable ecologie , EEDD, france, climat ,imported

(données delicious.com)

3.B analyse de la structure des folksonomies

Calcul automatiques

3.C Contribution des utilisateurs

Interface d’édition(SRTags Editor)

3.C Contribution des utilisateurs

3.C Contribution des utilisateurs

3.C Contribution des utilisateurs

3.D Détection de conflits et vue consensuelle

3.D Détection de conflits et vue consensuelle

3.D Détection de conflits et vue consensuelle

3.E Combinaison des points de vue

Point de vue « consensuel » du ReferentUser

→ Sans conflits

→Utilisé par documentalistes pour maintenir un thésaurus

3.E Combinaison des points de vue

Points de vue individuels:

→ Coexistent même si divergents

→ Aide à former un point de vue consensuel

3.E Combinaison des points de vue

Règles de priorité pour une navigation cohérente:

4.Utilisateur courant5.ReferentUser6.ConflictSolver7.Autre utilisateur8.Automate

4. Conclusion

Nos contributions :

→ Système socio-technique ancré dans les usages

→ Modèle supportant les points de vue divergents (SRTag)

→ Complémentarité des traitements automatiques (labels + structure)

→ Combinaison des traitements auto + contribution des utilisateurs

→ Coexistence des points de vue + élaboration d’un point de vue consensuel

Travaux en cours et futurs

→ Amorçage : intégration ressources terminologiques (docs, ontologies, thesaurus, etc.)

→ Services "sémantiques« pour l’exploitation des données de tagging et de structuration sémantiques

→ ISICIL : Evaluation & Tests Ademe & Orange Labs

fin.

freddy.limpens@inria.fr