Méthodes et outils pour interrelier le web des données

25
Novembre

description

Présentation pour le projet Web Intelligence en Novembre 2009

Transcript of Méthodes et outils pour interrelier le web des données

Page 1: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Melinda

Méthodes et outils pour lier le web des données

François Schar�e et Jérôme Euzenat

Novembre

Page 2: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

1 Introduction

2 Cadre de travail

3 Outils

4 Application

5 Conclusions

Page 3: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Un nuage de jeux de données

Page 4: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Le Web sémantique

Fig.: Semantic Web stack

Page 5: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Publier des données sur le Web

Quatre principes de publication1 L'utilistation d'URI pour identi�er les resources2 L'utilisation d'URI pouvant être déréférencées3 Lorsqu'une URI est déréférencée, une description de cette

resource est retournée4 Les jeux de données ainsi publiés sont reliés vers d'autres jeux

de données

Page 6: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Lier les jeux de données

Des jeux de données speci�ques contiennent les liens.

<http://www.example.org/linkset/DBPedia-MB>

a void:Linkset ;

void:target <http://www.dpbedia.org>;

void:target <http://www.musicbrainz.org>;

<http://www.example.org/linkset/DBPedia-MB>

<http://www.dbpedia.org/resource/

Johann_Sebastian_Bach>

owl:sameAs

<http://www.musicbrainz.org/artist/

24f1766e-9635-4d58-a4d4-9413f9f98a4c> .

Page 7: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Que faisons nous ?

Nous proposons un cadre englobant di�erentes méthodes deliage des données

Nous étudions les outils existant et les plaçons dans ce cadre

Nous proposons une architecture permettant d'articuler outilsde liage et alignements d'ontologies

Page 8: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Méthodologie Générale

owl:sameAs

URI 2

Méthode de comparaisondes ressources

URI 1

Fig.: Approche générale

Page 9: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Alignement manuel des resources

owl:sameAs

URI 2

Observation manuelle

URI 1

Fig.: Alignement manuel

Page 10: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Mise en correspondence des identi�ants

owl:sameAs

URI 2

Mise en équivalencedes identifiants

URI 1

Fig.: Transformation des identi�ants

Page 11: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Mise en correspondence des identi�ants - Exemple

http://dbpedia.org/resource/Johann_Sebastian_Bach

http://www.lastfm.fr/music/Johann+Sebastian+Bach

owl:sameAs

Transformation de l'URI

Fig.: Exemple de transformation d'URI

Page 12: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Alignement de données avec ontologie commune

owl:sameAs

URI 2

Algorithme de comparaisondes ressources décrites en

fonction d'une même ontologie

URI 1

O1 O1

Fig.: Ontologie commune

Page 13: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Alignement de données avec ontologie commune - Exemple

URI1 URI2prénom

mo:MusicArtist

nom prénom nom

Johann-Sebastian Bach

Jean-Sébastien Bach

Algorithme de comparaisondes ressources décrites enfonction d'une même ontologie

type type

DBPedia Musicbrainz

Fig.: Exemple d'alignement entre données décrites en fonction d'une

ontologie

Page 14: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Alignement de données et ontologies di�érentes

owl:sameAs

URI 2

Algorithme de comparaisondes ressources décrites enfonction de deux ontologies

URI 1

O1 O2Alignementimplicite

Fig.: Alignement entre données décrites en fonction d'ontologies

di�érentes

Page 15: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Exemple

URI1 URI2

mo:MusicArtist

givenname

nameSebastianBach"

"Johann"Jean-Sébastien"

"Bach"

type type

OpenCyc Musicbrainz

Classical Music Performer

English ID

Page 16: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Processus et speci�cations

processus resultatinstance speci�cation de lien linksetclasse matcher alignement

Tab.: Processus de mise en correspondence, interrelations, et leur

resultats.

Page 17: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Critères d'analyse

Degré d'automaticité

L'outil est-il complètement automatique ? (boite noire)

l'outil a-t'il besoin d'être paramétré par l'utilisateur ? Queltype de paramètres ?

Techniques d'alignement utilisées

alignement de chaînes de caractères ?

fonctions externes ?

propagation de similarité ?

autres techniques ?

Domaine : l'outil est-il spéci�que à un certain domaine ?

Page 18: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Ontologies

L'outil prend-il en compte les ontologies associées auxdonnées ?

L'outil permet-il d'aligner des jeux de données décrits enfonction d'ontologies di�érentes ?

Dans le cas où elles sont di�érentes, l'outil aligne-t-il lesontologies ?

Sortie

Qu'est-ce que l'outil produit en sortie ? (liens owl :sameAs,autre types de liens)

L'outil propose-t-il de fusionner deux jeux de données ?

Jeux de données : comment l'outil accède-t-il aux données ?Post-opératoire : l'outil e�ectue-t-il des traitementspost-opératoire ?

Page 19: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Six outils d'interreliage

RKB-CRS Service de résolution de co-référence de la base deconnaissances RKB.

LD-mapper Outil de liage pour l'ontologie de la musique MO.

ODD Linker Outil de liage basé sur le langage SQL.

RDF-AI Outil de liage et fusion de jeux de données.

Silk et Silk LSL Outil de liage et language de speci�cation de liens.

Knofuss architecture Outil de liage et fusion de jeux de données.

Page 20: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Six outils d'interreliage

owl:sameAs

URI 2

Méthode de comparaisondes ressources

URI 1

O1 O2Alignement

implicite

Système d'alignementd'ontologies

Silk

ODD-Linker LD-Mapper

RDF-AI Knofuss

Alignementexplicite

RKB-CRS

Fig.: Outils placés dans le cadre général dé�ni

Page 21: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Application

Considerons une speci�cation de liens entre DBPedia et Geonames :

<Silk><Prefix id="rdfs" namespace=

"http://www.w3.org/2000/01/rdf-schema#" /><Prefix id="dbpedia" namespace=

"http://dbpedia.org/ontology/" /><Prefix id="gn" namespace=

"http://www.geonames.org/ontology#" />

<DataSource id="dbpedia"><EndpointURI>http://demo_sparql_server1/sparql</EndpointURI><Graph>http://dbpedia.org</Graph>

</DataSource>

<DataSource id="geonames"><EndpointURI>http://demo_sparql_server2/sparql</EndpointURI><Graph>http://sws.geonames.org/</Graph>

</DataSource>

<Thresholds accept="0.9" verify="0.7" /><Output acceptedLinks="accepted_links.n3"

verifyLinks="verify_links.n3"mode="truncate" />

<Interlink id="cities"><LinkType>owl:sameAs</LinkType><SourceDataset dataSource="dbpedia" var="a"><RestrictTo>

?a rdf:type dbpedia:City</RestrictTo>

</SourceDataset><TargetDataset dataSource="geonames" var="b"><RestrictTo>

?b rdf:type gn:P</RestrictTo>

</TargetDataset><LinkCondition><AVG>

<Compare metric="jaroSimilarity"><Param name="str1" path="?a/rdfs:label" /><Param name="str2" path="?b/gn:name" />

</Compare><Compare metric="numSimilarity">

<Param name="num1"path="?a/dbpedia:populationTotal" />

<Param name="num2" path="?b/gn:population" /></Compare>

</AVG></LinkCondition>

</Interlink></Silk>

Page 22: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Application

Alignement implicitement contenu dans la speci�cations de liens.

:dbp-geo a align:Alignment;align:onto1 <http://dbpedia.org/ontology/>;align:onto2 <http://www.geonames.org/ontology#>;align:map [ :map1 a align:Cell;align:entity1 dbpedia:City;align:entity2 gn:P;align:relation align:subsumedBy.

];align:map [ :map2 a align:Cell;align:entity1 dbpedia:populationTotal;align:entity2 gn:population;align:relation align:equivalent.

];align:map [ :map3 a align:Cell;align:entity1 rdfs:label;align:entity2 gn:name;align:relation align:equivalent.

].

align:map [ :map2 a align:Cell;align:entity1 [ a align:Property;

edoal:and dbpedia:populationTotal.edoal:and [ a edoal:PropertyDomainRestriction;

edoal:domain dbpedia:City.];

align:entity2 [ a align:Property;edoal:and gn:population;

edoal:and [ a edoal:PropertyDomainRestriction;edoal:domain gn:P. ];

align:relation align:equivalent.];align:map [ :map2 a align:Cell;

align:entity1 [ a align:Property;edoal:and rdfs:label.

edoal:and [ a edoal:PropertyDomainRestriction;edoal:domain dbpedia:City.

];align:entity2 [ a align:Property;

edoal:and gn:name;edoal:and [ a edoal:PropertyDomainRestriction;

edoal:domain gn:P. ];align:relation align:equivalent.

].

Page 23: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Application

Nous pouvons dès lors simpli�er la speci�cation de liens.

<UseAlignment rdf:resource="#dbp-geo" />

<Interlink id="cities"><LinkType>owl:sameAs</LinkType><LinkCell rdf:resource="#map1" /><LinkCondition><AVG>

<Compare metric="jaroSimilarity"><CellParam rdf:resource="#map2" />

</Compare><Compare metric="numSimilarity">

<CellParam rdf:resource="#map3" /></Compare>

</AVG></LinkCondition>

<Thresholds accept="0.9" verify="0.7" /><Output acceptedLinks="accepted_links.n3"verifyLinks="verify_links.n3"mode="truncate" />

</Interlink>

Page 24: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Conclusions

Nous proposons un cadre général de liaison des ressources surle Web des données

Nous avons présenté les outils actuels et les avons positionnépar rapport au cadre dé�ni

Nous avons concrétisé nos propositions sur un exemplearticulant alignment d'ontologies et spéci�cations de liens pourle Web des données

Nos travaux actuels nous guident vers toujours plusd'automatisation pour la speci�cation de liens :

Est il possible de construire des speci�cations de liens plusgénériques ? (attachées aux jeux de données ou aux ontologies)

Peut on trouver des méthodes permettant de trouver defaÃ�on automatique l'ensemble de propriétés permettant dedeterminer l'equivalence entre deux ressources ?

Page 25: Méthodes et outils pour interrelier le web des données

Introduction Cadre de travail Outils Application Conclusions

Pour en savoir plus

http://melinda.inrialpes.fr

François Schar�e et Jérôme Euzenat. Un cadre général pourlier le web des données. RFIA 2010. Caen, France.