Events reconciliation

Post on 24-May-2015

575 views 1 download

Transcript of Events reconciliation

Réconcilier les évènements dans le web des données

Houda Khrouf <houda.khrouf@eurecom.fr>Raphaël Troncy <raphael.troncy@eurecom.fr>

Ingénierie des Connaissances 2011, Chambéry

Un évènement ?

Les évènements sont des observables qui regroupent

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 2

Des expériences documentées par des Medias

Personnes Lieux Temps

Contexte

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 3

Besoin d’une plateforme agrégeant et structurant toutes ces données

Event Media : description sémantique des évènements et de

médiasObjectif : Réconciliation d’Event Media avec le nuage des données

Event Media

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 4

Event Media

L’ontologie LODE

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 5

Event Media

Event AgentLocatio

nPhotos User

Last.fm 37,647 50,150 16,4711,393,03

918,542

Upcoming

13,114 0 7,330 347,959 4,518

Eventful 37,647 6,543 14,576 52 12

Total 88,408 56,693 38,3771,741,05

023,072

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 6

Problème : Réconciliation

Quelles sont les bulles du nuage de données faut-il choisir ? Requêtes SPARQL sur http://lod.openlinksw.com

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 7

Problème : Réconciliation

Event Media

MusicBrainz

DBpedia

Geonames

Foursquare

Uberblic

Freebase

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 8

Agent

Last.fm Eventful MusicBrainz DBpedia Freebase Uberblic New York

Times

Lieu

Last.fm Eventful Upcoming DBpedia Freebase Foursquare Geonames

Évènement

Last.fm Eventful Upcoming DBpedia Freebase Uberblic

Alignement

LODE est un modèle interopérable décrivant les évènements

Un thésaurus de catégories SKOS: Sport, Music, Arts, Movies, etc.

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 9

ABC CIDOC DUL EO LODE

atTime P4.has_time-spanisObservableAt

time atTime

P7.took place at place inSpace

inPlace hasLocation atPlace

involvesP12.occurred in the presence of

hasParticipant factor involved

hasPresence

P11.had_participant

involvesAgent agent involvedAgent

SILK Framework

Basé sur un langage de spécification de liens Silk-LSL

Des transformations et des fonctions algébriques : max, min,

avg, etc

Plusieurs métriques de similarité:

Syntaxique : égalité, Jaro, Leveinstein, n-gram

Lexicale : WordNet

Géographique : wgs84

Temporelle : date

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 10

SILK Framework

Configuration SILK - LSL

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 11

Méthodologie

Alignement par les étiquettes

Jaro est une métrique fiable *

Alignement par les coordonnées géographiques (lieux)

Le score de « wgs84 » est normalisé par rapport au seuil 10 km.

* Cohen, William W., Ravikumar, Pradeep and Fienberg, Steve. 2003. A Comparison of String Distance Metrics for Name-

Matching Tasks. IIWeb 2003: 73--78.

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 12

Alignement des agents

Alignement basé sur les propriétés des agents : foaf:Agent rdfs:label

Exemples : Donavon Frankenreiter / Donovan Frankenreiter (Jaro 0.98) × Birds & Batteries / Birds and Batteries (Jaro 0.70)

Total : Eventful : 61 % Last.fm : 58 %

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 13

Eventful(6543)

Last.fm(50151)

MusicBrainz

(459023)

Dbpedia(107112)

Uberblic(236691)

NYTimes(4794)

Eventful

- 2865 (44%) 3616 (55%) 1985 (30%) 1567 (24%) 7 (0.1%)

Last.fm 2865 (6%) - 26619 (53%) 9442 (19%) 12905 (26%) 14 (0.03%)

Alignement des lieux

Exemples :

The Stone Bar (34.1019 ;-118.304) The Stone (34.1017 ;-118.304)

× fall harvest wine dinner bavarian inn restaurant frankenmuth (43.32 ; -83.73) × Frankenmuth Bavarian Inn Restaurant (43.32 ; -83.74)

Total : Eventful : 17 % Last.fm : 15 % Upcoming : 36 %

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 14

Eventful

(13516)

Last.fm(15857)

Upcoming

(5173)

DBpedia(496728)

Foursquare

(641770)

Geonames

(1090357)

Eventful - 998 (7%) 366 (3%) 90 (0,7%) 1296 (10%) 320 (2%)

Last.fm 998 (6%) - 626 (4%) 141 (0.9%) 911 (6%) 345 (2%)

Upcoming

366 (7%) 626 (12%) - 74 (1,4%) 1300 (25%) 232 (4%)

Dist : 29 m – Score (sim): 0.98

Dist : 80 m Score : 0.92

Alignement des évènements Alignement basé sur le titre, le lieu et le temps

Exemples : LastFm : « Camp Bestival » à « Lulworth Castle » le 18/07/2008 Eventful : « New Camp Bestival Dorset » à « Lulworth Castle » le

18/07/2008

Total : Eventful : 0,4 % Last.fm : 3;8 % Upcoming : 4,8 %

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 15

Eventful

(37647)

Last.fm

(57258)

Upcoming

(13114)

DBpediaMusic

Festival(662)

UberblicPerformer(228238)

Eventful - 76 (0,2%) 34 (0,1%) 28 (0,1%) 15 (0,04%)

Last.fm 76 (0,1%) - 586 (1%) 389 (0,7%) 1148 (2%)

Upcoming

34 (0,3%) 586 (4%) - 31 (0,2%) 15 (0,1%)

Alignement des évènements

La métrique Date de SILK est rigide Upcoming : « A Season in Hell » a eu lieu du 7 novembre au 22 novembre

2008 Eventful : « A Season in Hell » a eu lieu du 8 novembre 2008

Autres types d’évènements : sportif, militaire, mission spatiale

Un appariement faible pour les évènements de type sport DBpedia : Alpine skiing at the 2002 Winter Olympics Uberblic : Alpine skiing at the 2002 Winter Olympics – Men's slalom

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 16

Type DBpedia Uberblic Alignments

Military Conflict 8 750 8 899 7 151 (81 %)

Space Mission 396 362 346 (95 %)

Sport Events 4 046 3 056 942 (30 %)

Discussion

Une approche conservatrice assurant une précision élevée

Un bon nombre des agents appariés. Les étiquettes sont

relativement des chaines de caractères courts.

Un nettoyage des lieux pour réduire les doublons constatés

(e.g Foursquare)

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 17

Perspectives

Limite de SILK : il ne supporte pas les méthodes hybrides

Étendre la métrique Date de SILK

Créer une métrique pour comparer les adresses

Utiliser les méthodes de machine Learning supervisé

Evaluation : précision et rappel

Assurer une version LIVE d’Event Media

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 18

http://www.slideshare.net/khrouf

Merci de votre attention

20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 19