Events reconciliation

19
Réconcilier les évènements dans le web des données Houda Khrouf <[email protected] > Raphaël Troncy <[email protected] > Ingénierie des Connaissances 2011, Chambéry

Transcript of Events reconciliation

Page 1: Events reconciliation

Réconcilier les évènements dans le web des données

Houda Khrouf <[email protected]>Raphaël Troncy <[email protected]>

Ingénierie des Connaissances 2011, Chambéry

Page 2: Events reconciliation

Un évènement ?

Les évènements sont des observables qui regroupent

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 2

Des expériences documentées par des Medias

Personnes Lieux Temps

Page 3: Events reconciliation

Contexte

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 3

Besoin d’une plateforme agrégeant et structurant toutes ces données

Event Media : description sémantique des évènements et de

médiasObjectif : Réconciliation d’Event Media avec le nuage des données

Page 4: Events reconciliation

Event Media

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 4

Page 5: Events reconciliation

Event Media

L’ontologie LODE

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 5

Page 6: Events reconciliation

Event Media

Event AgentLocatio

nPhotos User

Last.fm 37,647 50,150 16,4711,393,03

918,542

Upcoming

13,114 0 7,330 347,959 4,518

Eventful 37,647 6,543 14,576 52 12

Total 88,408 56,693 38,3771,741,05

023,072

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 6

Page 7: Events reconciliation

Problème : Réconciliation

Quelles sont les bulles du nuage de données faut-il choisir ? Requêtes SPARQL sur http://lod.openlinksw.com

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 7

Page 8: Events reconciliation

Problème : Réconciliation

Event Media

MusicBrainz

DBpedia

Geonames

Foursquare

Uberblic

Freebase

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 8

Agent

Last.fm Eventful MusicBrainz DBpedia Freebase Uberblic New York

Times

Lieu

Last.fm Eventful Upcoming DBpedia Freebase Foursquare Geonames

Évènement

Last.fm Eventful Upcoming DBpedia Freebase Uberblic

Page 9: Events reconciliation

Alignement

LODE est un modèle interopérable décrivant les évènements

Un thésaurus de catégories SKOS: Sport, Music, Arts, Movies, etc.

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 9

ABC CIDOC DUL EO LODE

atTime P4.has_time-spanisObservableAt

time atTime

P7.took place at place inSpace

inPlace hasLocation atPlace

involvesP12.occurred in the presence of

hasParticipant factor involved

hasPresence

P11.had_participant

involvesAgent agent involvedAgent

Page 10: Events reconciliation

SILK Framework

Basé sur un langage de spécification de liens Silk-LSL

Des transformations et des fonctions algébriques : max, min,

avg, etc

Plusieurs métriques de similarité:

Syntaxique : égalité, Jaro, Leveinstein, n-gram

Lexicale : WordNet

Géographique : wgs84

Temporelle : date

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 10

Page 11: Events reconciliation

SILK Framework

Configuration SILK - LSL

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 11

Page 12: Events reconciliation

Méthodologie

Alignement par les étiquettes

Jaro est une métrique fiable *

Alignement par les coordonnées géographiques (lieux)

Le score de « wgs84 » est normalisé par rapport au seuil 10 km.

* Cohen, William W., Ravikumar, Pradeep and Fienberg, Steve. 2003. A Comparison of String Distance Metrics for Name-

Matching Tasks. IIWeb 2003: 73--78.

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 12

Page 13: Events reconciliation

Alignement des agents

Alignement basé sur les propriétés des agents : foaf:Agent rdfs:label

Exemples : Donavon Frankenreiter / Donovan Frankenreiter (Jaro 0.98) × Birds & Batteries / Birds and Batteries (Jaro 0.70)

Total : Eventful : 61 % Last.fm : 58 %

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 13

Eventful(6543)

Last.fm(50151)

MusicBrainz

(459023)

Dbpedia(107112)

Uberblic(236691)

NYTimes(4794)

Eventful

- 2865 (44%) 3616 (55%) 1985 (30%) 1567 (24%) 7 (0.1%)

Last.fm 2865 (6%) - 26619 (53%) 9442 (19%) 12905 (26%) 14 (0.03%)

Page 14: Events reconciliation

Alignement des lieux

Exemples :

The Stone Bar (34.1019 ;-118.304) The Stone (34.1017 ;-118.304)

× fall harvest wine dinner bavarian inn restaurant frankenmuth (43.32 ; -83.73) × Frankenmuth Bavarian Inn Restaurant (43.32 ; -83.74)

Total : Eventful : 17 % Last.fm : 15 % Upcoming : 36 %

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 14

Eventful

(13516)

Last.fm(15857)

Upcoming

(5173)

DBpedia(496728)

Foursquare

(641770)

Geonames

(1090357)

Eventful - 998 (7%) 366 (3%) 90 (0,7%) 1296 (10%) 320 (2%)

Last.fm 998 (6%) - 626 (4%) 141 (0.9%) 911 (6%) 345 (2%)

Upcoming

366 (7%) 626 (12%) - 74 (1,4%) 1300 (25%) 232 (4%)

Dist : 29 m – Score (sim): 0.98

Dist : 80 m Score : 0.92

Page 15: Events reconciliation

Alignement des évènements Alignement basé sur le titre, le lieu et le temps

Exemples : LastFm : « Camp Bestival » à « Lulworth Castle » le 18/07/2008 Eventful : « New Camp Bestival Dorset » à « Lulworth Castle » le

18/07/2008

Total : Eventful : 0,4 % Last.fm : 3;8 % Upcoming : 4,8 %

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 15

Eventful

(37647)

Last.fm

(57258)

Upcoming

(13114)

DBpediaMusic

Festival(662)

UberblicPerformer(228238)

Eventful - 76 (0,2%) 34 (0,1%) 28 (0,1%) 15 (0,04%)

Last.fm 76 (0,1%) - 586 (1%) 389 (0,7%) 1148 (2%)

Upcoming

34 (0,3%) 586 (4%) - 31 (0,2%) 15 (0,1%)

Page 16: Events reconciliation

Alignement des évènements

La métrique Date de SILK est rigide Upcoming : « A Season in Hell » a eu lieu du 7 novembre au 22 novembre

2008 Eventful : « A Season in Hell » a eu lieu du 8 novembre 2008

Autres types d’évènements : sportif, militaire, mission spatiale

Un appariement faible pour les évènements de type sport DBpedia : Alpine skiing at the 2002 Winter Olympics Uberblic : Alpine skiing at the 2002 Winter Olympics – Men's slalom

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 16

Type DBpedia Uberblic Alignments

Military Conflict 8 750 8 899 7 151 (81 %)

Space Mission 396 362 346 (95 %)

Sport Events 4 046 3 056 942 (30 %)

Page 17: Events reconciliation

Discussion

Une approche conservatrice assurant une précision élevée

Un bon nombre des agents appariés. Les étiquettes sont

relativement des chaines de caractères courts.

Un nettoyage des lieux pour réduire les doublons constatés

(e.g Foursquare)

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 17

Page 18: Events reconciliation

Perspectives

Limite de SILK : il ne supporte pas les méthodes hybrides

Étendre la métrique Date de SILK

Créer une métrique pour comparer les adresses

Utiliser les méthodes de machine Learning supervisé

Evaluation : précision et rappel

Assurer une version LIVE d’Event Media

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 18

Page 19: Events reconciliation

http://www.slideshare.net/khrouf

Merci de votre attention

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 19