Méthodes et outils pour interrelier le web des données
-
Upload
francois-scharffe -
Category
Technology
-
view
1.662 -
download
2
description
Transcript of Méthodes et outils pour interrelier le web des données
Introduction Cadre de travail Outils Application Conclusions
Melinda
Méthodes et outils pour lier le web des données
François Schar�e et Jérôme Euzenat
Novembre
Introduction Cadre de travail Outils Application Conclusions
1 Introduction
2 Cadre de travail
3 Outils
4 Application
5 Conclusions
Introduction Cadre de travail Outils Application Conclusions
Un nuage de jeux de données
Introduction Cadre de travail Outils Application Conclusions
Le Web sémantique
Fig.: Semantic Web stack
Introduction Cadre de travail Outils Application Conclusions
Publier des données sur le Web
Quatre principes de publication1 L'utilistation d'URI pour identi�er les resources2 L'utilisation d'URI pouvant être déréférencées3 Lorsqu'une URI est déréférencée, une description de cette
resource est retournée4 Les jeux de données ainsi publiés sont reliés vers d'autres jeux
de données
Introduction Cadre de travail Outils Application Conclusions
Lier les jeux de données
Des jeux de données speci�ques contiennent les liens.
<http://www.example.org/linkset/DBPedia-MB>
a void:Linkset ;
void:target <http://www.dpbedia.org>;
void:target <http://www.musicbrainz.org>;
<http://www.example.org/linkset/DBPedia-MB>
<http://www.dbpedia.org/resource/
Johann_Sebastian_Bach>
owl:sameAs
<http://www.musicbrainz.org/artist/
24f1766e-9635-4d58-a4d4-9413f9f98a4c> .
Introduction Cadre de travail Outils Application Conclusions
Que faisons nous ?
Nous proposons un cadre englobant di�erentes méthodes deliage des données
Nous étudions les outils existant et les plaçons dans ce cadre
Nous proposons une architecture permettant d'articuler outilsde liage et alignements d'ontologies
Introduction Cadre de travail Outils Application Conclusions
Méthodologie Générale
owl:sameAs
URI 2
Méthode de comparaisondes ressources
URI 1
Fig.: Approche générale
Introduction Cadre de travail Outils Application Conclusions
Alignement manuel des resources
owl:sameAs
URI 2
Observation manuelle
URI 1
Fig.: Alignement manuel
Introduction Cadre de travail Outils Application Conclusions
Mise en correspondence des identi�ants
owl:sameAs
URI 2
Mise en équivalencedes identifiants
URI 1
Fig.: Transformation des identi�ants
Introduction Cadre de travail Outils Application Conclusions
Mise en correspondence des identi�ants - Exemple
http://dbpedia.org/resource/Johann_Sebastian_Bach
http://www.lastfm.fr/music/Johann+Sebastian+Bach
owl:sameAs
Transformation de l'URI
Fig.: Exemple de transformation d'URI
Introduction Cadre de travail Outils Application Conclusions
Alignement de données avec ontologie commune
owl:sameAs
URI 2
Algorithme de comparaisondes ressources décrites en
fonction d'une même ontologie
URI 1
O1 O1
Fig.: Ontologie commune
Introduction Cadre de travail Outils Application Conclusions
Alignement de données avec ontologie commune - Exemple
URI1 URI2prénom
mo:MusicArtist
nom prénom nom
Johann-Sebastian Bach
Jean-Sébastien Bach
Algorithme de comparaisondes ressources décrites enfonction d'une même ontologie
type type
DBPedia Musicbrainz
Fig.: Exemple d'alignement entre données décrites en fonction d'une
ontologie
Introduction Cadre de travail Outils Application Conclusions
Alignement de données et ontologies di�érentes
owl:sameAs
URI 2
Algorithme de comparaisondes ressources décrites enfonction de deux ontologies
URI 1
O1 O2Alignementimplicite
Fig.: Alignement entre données décrites en fonction d'ontologies
di�érentes
Introduction Cadre de travail Outils Application Conclusions
Exemple
URI1 URI2
mo:MusicArtist
givenname
nameSebastianBach"
"Johann"Jean-Sébastien"
"Bach"
type type
OpenCyc Musicbrainz
Classical Music Performer
English ID
Introduction Cadre de travail Outils Application Conclusions
Processus et speci�cations
processus resultatinstance speci�cation de lien linksetclasse matcher alignement
Tab.: Processus de mise en correspondence, interrelations, et leur
resultats.
Introduction Cadre de travail Outils Application Conclusions
Critères d'analyse
Degré d'automaticité
L'outil est-il complètement automatique ? (boite noire)
l'outil a-t'il besoin d'être paramétré par l'utilisateur ? Queltype de paramètres ?
Techniques d'alignement utilisées
alignement de chaînes de caractères ?
fonctions externes ?
propagation de similarité ?
autres techniques ?
Domaine : l'outil est-il spéci�que à un certain domaine ?
Introduction Cadre de travail Outils Application Conclusions
Ontologies
L'outil prend-il en compte les ontologies associées auxdonnées ?
L'outil permet-il d'aligner des jeux de données décrits enfonction d'ontologies di�érentes ?
Dans le cas où elles sont di�érentes, l'outil aligne-t-il lesontologies ?
Sortie
Qu'est-ce que l'outil produit en sortie ? (liens owl :sameAs,autre types de liens)
L'outil propose-t-il de fusionner deux jeux de données ?
Jeux de données : comment l'outil accède-t-il aux données ?Post-opératoire : l'outil e�ectue-t-il des traitementspost-opératoire ?
Introduction Cadre de travail Outils Application Conclusions
Six outils d'interreliage
RKB-CRS Service de résolution de co-référence de la base deconnaissances RKB.
LD-mapper Outil de liage pour l'ontologie de la musique MO.
ODD Linker Outil de liage basé sur le langage SQL.
RDF-AI Outil de liage et fusion de jeux de données.
Silk et Silk LSL Outil de liage et language de speci�cation de liens.
Knofuss architecture Outil de liage et fusion de jeux de données.
Introduction Cadre de travail Outils Application Conclusions
Six outils d'interreliage
owl:sameAs
URI 2
Méthode de comparaisondes ressources
URI 1
O1 O2Alignement
implicite
Système d'alignementd'ontologies
Silk
ODD-Linker LD-Mapper
RDF-AI Knofuss
Alignementexplicite
RKB-CRS
Fig.: Outils placés dans le cadre général dé�ni
Introduction Cadre de travail Outils Application Conclusions
Application
Considerons une speci�cation de liens entre DBPedia et Geonames :
<Silk><Prefix id="rdfs" namespace=
"http://www.w3.org/2000/01/rdf-schema#" /><Prefix id="dbpedia" namespace=
"http://dbpedia.org/ontology/" /><Prefix id="gn" namespace=
"http://www.geonames.org/ontology#" />
<DataSource id="dbpedia"><EndpointURI>http://demo_sparql_server1/sparql</EndpointURI><Graph>http://dbpedia.org</Graph>
</DataSource>
<DataSource id="geonames"><EndpointURI>http://demo_sparql_server2/sparql</EndpointURI><Graph>http://sws.geonames.org/</Graph>
</DataSource>
<Thresholds accept="0.9" verify="0.7" /><Output acceptedLinks="accepted_links.n3"
verifyLinks="verify_links.n3"mode="truncate" />
<Interlink id="cities"><LinkType>owl:sameAs</LinkType><SourceDataset dataSource="dbpedia" var="a"><RestrictTo>
?a rdf:type dbpedia:City</RestrictTo>
</SourceDataset><TargetDataset dataSource="geonames" var="b"><RestrictTo>
?b rdf:type gn:P</RestrictTo>
</TargetDataset><LinkCondition><AVG>
<Compare metric="jaroSimilarity"><Param name="str1" path="?a/rdfs:label" /><Param name="str2" path="?b/gn:name" />
</Compare><Compare metric="numSimilarity">
<Param name="num1"path="?a/dbpedia:populationTotal" />
<Param name="num2" path="?b/gn:population" /></Compare>
</AVG></LinkCondition>
</Interlink></Silk>
Introduction Cadre de travail Outils Application Conclusions
Application
Alignement implicitement contenu dans la speci�cations de liens.
:dbp-geo a align:Alignment;align:onto1 <http://dbpedia.org/ontology/>;align:onto2 <http://www.geonames.org/ontology#>;align:map [ :map1 a align:Cell;align:entity1 dbpedia:City;align:entity2 gn:P;align:relation align:subsumedBy.
];align:map [ :map2 a align:Cell;align:entity1 dbpedia:populationTotal;align:entity2 gn:population;align:relation align:equivalent.
];align:map [ :map3 a align:Cell;align:entity1 rdfs:label;align:entity2 gn:name;align:relation align:equivalent.
].
align:map [ :map2 a align:Cell;align:entity1 [ a align:Property;
edoal:and dbpedia:populationTotal.edoal:and [ a edoal:PropertyDomainRestriction;
edoal:domain dbpedia:City.];
align:entity2 [ a align:Property;edoal:and gn:population;
edoal:and [ a edoal:PropertyDomainRestriction;edoal:domain gn:P. ];
align:relation align:equivalent.];align:map [ :map2 a align:Cell;
align:entity1 [ a align:Property;edoal:and rdfs:label.
edoal:and [ a edoal:PropertyDomainRestriction;edoal:domain dbpedia:City.
];align:entity2 [ a align:Property;
edoal:and gn:name;edoal:and [ a edoal:PropertyDomainRestriction;
edoal:domain gn:P. ];align:relation align:equivalent.
].
Introduction Cadre de travail Outils Application Conclusions
Application
Nous pouvons dès lors simpli�er la speci�cation de liens.
<UseAlignment rdf:resource="#dbp-geo" />
<Interlink id="cities"><LinkType>owl:sameAs</LinkType><LinkCell rdf:resource="#map1" /><LinkCondition><AVG>
<Compare metric="jaroSimilarity"><CellParam rdf:resource="#map2" />
</Compare><Compare metric="numSimilarity">
<CellParam rdf:resource="#map3" /></Compare>
</AVG></LinkCondition>
<Thresholds accept="0.9" verify="0.7" /><Output acceptedLinks="accepted_links.n3"verifyLinks="verify_links.n3"mode="truncate" />
</Interlink>
Introduction Cadre de travail Outils Application Conclusions
Conclusions
Nous proposons un cadre général de liaison des ressources surle Web des données
Nous avons présenté les outils actuels et les avons positionnépar rapport au cadre dé�ni
Nous avons concrétisé nos propositions sur un exemplearticulant alignment d'ontologies et spéci�cations de liens pourle Web des données
Nos travaux actuels nous guident vers toujours plusd'automatisation pour la speci�cation de liens :
Est il possible de construire des speci�cations de liens plusgénériques ? (attachées aux jeux de données ou aux ontologies)
Peut on trouver des méthodes permettant de trouver defaÃ�on automatique l'ensemble de propriétés permettant dedeterminer l'equivalence entre deux ressources ?
Introduction Cadre de travail Outils Application Conclusions
Pour en savoir plus
http://melinda.inrialpes.fr
François Schar�e et Jérôme Euzenat. Un cadre général pourlier le web des données. RFIA 2010. Caen, France.