DBpédia en français

24
Julien Cojan Inria – équipe Wimmics

description

DBpédia en français est un projet d'extraction de données de Wikipédia en français. Les données sont publiées au format RDF sur le Web de données (Linked Data) afin d'être librement réutilisées par des applications. Présentation pour la journée de lancement de Sémanticpédia, le 19 Novembre 2012.

Transcript of DBpédia en français

Page 1: DBpédia en français

Julien CojanInria – équipe Wimmics

Page 2: DBpédia en français

● Extraction de données depuis Wikipédia en français

● Membre du comité d'internationalisation(12 chapitres)http://dbpedia.org/Internationalization

Page 3: DBpédia en français

Données

Page 4: DBpédia en français

Données extraites de Wikipédia

Page 5: DBpédia en français

Données extraites de Wikipédia

Musée du Louvre

villepays

Catégorie:Musée_égyptologique

catégorie

10/08/1793Date

ouverture

99, rue de Rivoli75001 Paris

adresse

48.861073 2.335784

latitudelongitude

France

Paris

InfoboxMusée

modèle

Page 6: DBpédia en français

Données extraites de Wikipédia

Musée du Louvre

villepays

pays

Catégorie:Musée_égyptologique

catégorie

75056

code insee

Île-de-France

région

10/08/1793Date

ouverture

99, rue de Rivoli75001 Paris

adresse

48.861073 2.335784

latitudelongitude

France

Paris

InfoboxMusée

modèle

Page 7: DBpédia en français

Données extraites de Wikipédia

Musée du Louvre

villepays

pays

Catégorie:Musée_égyptologique

catégorie

75056

code insee

Île-de-France

région

10/08/1793Date

ouverture

99, rue de Rivoli75001 Paris

adresse

48.861073 2.335784

latitudelongitude

France

pays

Paris

InfoboxMusée

modèle

Page 8: DBpédia en français

Nommage des ressources

Sujet des articles de DBpedia : http://fr.dbpedia.org/resource/[Nom_Page]

Propriétés extraites textuellement :http://fr.dbpedia.org/property/[propriété]

Musée du Louvre

pays

dbFr:

dbFr-prop:

Page 9: DBpédia en français

Représentation RDF

● RDF : Resource Description Formatstandard du W3C pour la représentation de données

structurées

● Triplet : arrête du graphe

Musée du Louvre ville Paris

dbpedia-fr:Musée_du_Louvre

(Sujet)

dbpediaFr-prop:ville dbpedia-fr:Paris

(predicat) (objet)

Page 10: DBpédia en français

Mais aussi :

● Vocabulaire normalisé (Ontologie DBpedia)

● URI stables

Page 11: DBpédia en français

Vocabulaire normalisé

Problèmes soulevés par l'extraction textuelle

● Mêmes termes, plusieurs sens

● Différents termes avec le même sens

Musée du Louvre pays France

RaymondPoulidor

pays France

Emmanuel Kant naissance22/04/1724

Le Corbusier date de naissance06/10/1887

Page 12: DBpédia en français

Vocabulaire normalisé

Vocabulaire défini collaborativement sur http://mappings.dbpedia.org

Ontologie :● Hiérarchie de classes

http://dbpedia.org/ontology/Museum● Propriétés

http://dbpedia.org/ontology/city

Mappings :

dbo:

Musée duLouvre

InfoboxMusée

Paris

infobox

ville

Musée duLouvre

dbo :Museum

Paris

rdf:type

dbo:city

Page 13: DBpédia en français

URI stables

● Lorsqu'une page est renommée« Le Louvre » « Palais du Louvre »

● Introduction d'URI ne indépendante du titrehttp://fr.dbpedia.org/resourceById/469958

dbFr :Le_Louvre dbFr :Palais_du_Louvre

dbFrId:

dbFrId :469958

dbFr :Le_Louvre

owl:sameAs

dbFrId :469958

dbFr :Palais_du_Louvre

owl:sameAs

Page 14: DBpédia en français

Volume des données

En total 130 millions de triplets. (soit le second chapitre en taille).

fichier nbr de triplets

correspondance avecles pages wikipédia

7574361

id page wikipédia 2863425

titre des pages 2524787

extraction d'infoboxtextuelle

16579168

extraction d'infoboxnormalisée

2092711

types des instances 2118305

fichier nbr de triplets

liens interlangues 1876807

liens entre pages 60849851

redirections 1214339

homonymie 298634

liens vers catégories

3779203

categories 201230

liens externes 2140229

images 1649470

Page 15: DBpédia en français

Interroger les données

Page 16: DBpédia en français

Accès aux données

● Téléchargement de l'ensemble des données http://fr.dbpedia.org/download/(licence: CC – BY – SA)

● Par déréférencement

● SPARQLhttp://fr.dbpedia.org/sparql

SPARQL

http

Page 17: DBpédia en français

Déréférencement

http://fr.dbpedia.org/resource/Musée_du_Louvre

Page 18: DBpédia en français

SPARQL

● Langage de requête sur des données RDF

● Standard du W3C

● Accessible à http://fr.dbpedia.org/sparql

Page 19: DBpédia en français

Exemple SPARQL 1

?m

ville

Paris

Musée

type

Musées à ParisSELECT DISTINCT ?m WHERE { ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city dbpedia-fr:Paris .}

Page 20: DBpédia en français

Exemple SPARQL 2

?m

ville

Île-de-France

région

?ville

Musée

type

Musées dans une ville d'Île de FranceSELECT DISTINCT ?m?ville WHERE { ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city ?ville . ?ville dbpedia-owl:region dbpedia-fr:Île-de-France}

Page 21: DBpédia en français

Exemple SPARQL 3

?m

ville

Catégorie:Musée_égyptologique

sujet

?ville

Musée

type

Dans quelles villes y a-t-il des musées égyptologiques ? Combien ?

select ?ville count(distinct ?m) as ?nb where { ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city ?ville . ?m dcterms:subject <http://fr.dbpedia.org/resource/Catégorie:Musée_égyptologique>} group by ?ville order by desc(?nb)

Page 22: DBpédia en français

À venir

● Outils ● Lookup en français

Recherche de termes par mot clés● Spotlight en français

Reconnaissance d'entités nommées dans un texte

● Historisation des données

Page 23: DBpédia en français

Merci

Page 24: DBpédia en français

Musées, DBpedia en

Musées, DBpedia fr