Partager et réutiliser des données sur le web

128
Partager et réutiliser des données sur le web Thomas Francart, sparna.fr Crédits : Ce travail monte sur les épaules de Fabien Gandon , Serge Garlatti , Pierre-Yves Vandenbussche , Sylvie Dalbin , Jean Delahousse , Cyrille Giquello , Julien Cojan Si vous voulez monter sur mes épaules, ce travail est réutilisable et modifiable librement, y compris à des fins commerciales, à condition de citer son auteur et d’être placé sous la même licence. Pour plus

description

open data, schema.org, DBPedia et Wikidata : Panorama et introduction à la problématique du partage des données structurées sur le web : entre la réutilisation des données des portails open-data, la structuration du contenu des pages web pour Google, l'exploitation des données de DBPedia, et la pose de liens entre les données pour favoriser leur découverte et leur réutilisation...

Transcript of Partager et réutiliser des données sur le web

Page 1: Partager et réutiliser des données sur le web

Partager et réutiliser des

donnéessur le web

Thomas Francart, sparna.fr

Crédits : Ce travail monte sur les épaules de Fabien Gandon, Serge Garlatti , Pierre-Yves Vandenbussche, Sylvie Dalbin, Jean Delahousse, Cyrille Giquello, Julien Cojan

Si vous voulez monter sur mes épaules, ce travail est réutilisable et modifiable librement, y compris à des fins commerciales, à condition de citer son auteur et d’être placé sous la même licence. Pour plus d’informations, voir la licence.

Page 2: Partager et réutiliser des données sur le web

Sparna1. Systèmes d’organisation des

connaissancesThesaurus, taxonomies, dictionnaires, glossaires, plans de

classements, nomenclatures, etc.

2. Moteurs de recherche d’entreprise & centres de docSolR, enrichissement sémantiques

3. Web sémantique et web de donnéesRDF, SPARQL, SKOS, OWL, etc.

Page 3: Partager et réutiliser des données sur le web

Les données, c’est

quoi ?

Page 4: Partager et réutiliser des données sur le web

À la 103e minute, Florent Malouda tire un coup franc à la hauteur du rond central dans la moitié de terrain irlandaise. Le ballon passe au-dessus de la défense irlandaise et est contrôlé par Thierry Henry qui s’enfonce dans la surface de réparation sur le côté gauche. Dans la zone des six mètres irlandais, le long de la ligne de fond du terrain, il contrôle deux fois la balle avec la main gauche empêchant ainsi la balle de sortir des limites du terrain, avant de centrer devant le but déserté par le gardien irlandais Shay Given. La balle est reprise de la tête par William Gallas qui marque le but de l’égalisation, synonyme de qualification pour l’équipe de France.

http://plexus-logos-calx.blogspot.fr/2009/11/a0047-le-meilleur-format-standard.html

http://fr.wikipedia.org/wiki/Match_de_football_France_%E2%80%93_R%C3%A9publique_d%27Irlande_%282009%29

Page 5: Partager et réutiliser des données sur le web

Les données sont

structurées

Page 6: Partager et réutiliser des données sur le web

Date Match Buteur Temps de jeu

18/11/2009 France-Irlande William Gallas 103

Page 7: Partager et réutiliser des données sur le web

Les données sont

en série (complètes)

Page 8: Partager et réutiliser des données sur le web

Équipe Parcours Date de qualification Phases finales

Nb d'apparitionsconsécutives

Meilleure performance

passée

ClassementFIFA

1

Afrique du Sud Qualifié d’office (hôte) 15 mai 2004 3e 1 1er tour (1998, 2002) 85e

Danemark Europe, groupe 1 1re place 10 octobre 2009 4e 1 Quart de finale (

1998) 27e

Suisse Europe, groupe 2 1re place 14 octobre 2009 9e 2 Quart de finale (

1934, 1938, 1954) 13e

Slovaquie Europe, groupe 3 1re place 14 octobre 2009 9e2 1 Finaliste (1934, 1962

) 33e

Allemagne Europe, groupe 4 1re place 10 octobre 2009 17e3 15 Vainqueur (1954,

1974, 1990) 5e

Espagne Europe, groupe 5 1re place 9 septembre 2009 13e 9 4e place (1950) 2e

Angleterre Europe, groupe 6 1re place 9 septembre 2009 13e 4 Vainqueur (1966) 7e

Serbie Europe, groupe 7 1re place 10 octobre 2009 11e4 2 4e place (19305,

1962) 20e

Italie Europe, groupe 8 1re place 10 octobre 2009 17e 13 Vainqueur (1934,

1938, 1982, 2006) 4e

Pays-Bas Europe, groupe 9 1re place 6 juin 2009 9e 2 Finaliste (1974, 1978

) 3e

France Europe, barrage Vainqueur 18 novembre 2009 13e 4 Vainqueur (1998) 9e

Portugal Europe, barrage Vainqueur 18 novembre 2009 5e 3 3e place (1966) 10e

Grèce Europe, barrage Vainqueur 18 novembre 2009 2e 1 1er tour (1994) 16e

Slovénie Europe, barrage Vainqueur 18 novembre 2009 2e 1 1er tour (2002) 49e

Brésil Amérique du Sud 1re place 5 septembre 2009 19e 19

Vainqueur (1958, 1962, 1970, 1994,

2002)1er

http://fr.wikipedia.org/wiki/%C3%89liminatoires_de_la_coupe_du_monde_de_football_2010

Page 9: Partager et réutiliser des données sur le web

Les données sont

primaires

Page 10: Partager et réutiliser des données sur le web

Libellé_du_siteCaractéristiqu

e_du_site Code_postal Localité

Temps d’attente

moyen (factice)

Nombre de guichets (factice)

AMBERIEU EN BUGEY Bureau de poste 1500AMBERIEU EN BUGEY 8 3

AMBERIEU EN DOMBES BP Bureau de poste 1330AMBERIEUX EN DOMBES 2 4

AMBRONAY BP Bureau de poste 1500AMBRONAY 12 1

ANGLEFORT APRelais poste commerçant 1350ANGLEFORT 3 5

ARBENT BP Bureau de poste 1100ARBENT 3 5

ARGIS APRelais poste commerçant 1230ARGIS 4 4

Libellé_du_siteCaractéristique_du_site Adresse Code_postal Localité

Niveau de satisfaction

usagers (factice)

AMBERIEU EN BUGEY Bureau de poste 38 RUE ALEXANDRE BERARD 1500AMBERIEU EN BUGEY MOYEN

AMBERIEU EN DOMBES BP Bureau de poste 240 RUE GOMBETTE 1330

AMBERIEUX EN DOMBES BON

AMBRONAY BP Bureau de poste PLACE DE LA BOUVERIE 1500AMBRONAY MEDIOCRE

ANGLEFORT APRelais poste commerçant 1350ANGLEFORT BON

ARBENT BP Bureau de poste 56 RUE DU GENERAL ANDREA 1100ARBENT BON

ARGIS APRelais poste commerçant LES RAISINS D OR 1230ARGIS BON

Vs.

Données des bureaux de poste sur http://data.gouv.fr (colonnes de droites factices)

Page 11: Partager et réutiliser des données sur le web

Les données sont

pourriesincompréhensibles, illisibles, pas normalisées, incomplètes, fausses, incohérentes, contradictoires, etc.

Page 12: Partager et réutiliser des données sur le web

nomDuPays indiceDeveloppementHumain

Autriche 0.851

Afghanistan 0.374

Argentine 0.866

Afrique du Sud 0.619

Arabie saoudite 0.752

Arménie 0.695

Angola 0.564

Espagne 0.885

Chypre du Nord "inconnu"@fr

Géographie du Soudan du Sud

Géographie du Moyen-Orient

Fédération d'Afrique de l'Est

Géographie des îles Caïmans

Définition IDH : http://fr.wikipedia.org/wiki/Indice_de_d%C3%A9veloppement_humainDonnées : http://fr.dbpedia.org

Page 13: Partager et réutiliser des données sur le web

Les données sont

reliées

Page 14: Partager et réutiliser des données sur le web

nomVille population

"Abbeville"@fr 24155

"Achicourt"@fr 7705

"Achères (Yvelines)"@fr 19626

"Agde"@fr 24567

"Agen"@fr 33981

"Ambérieu-en-Bugey"@fr 13835

"Ambérieux"@fr 572"Ambérieux-en-Dombes"@fr 1616

"Amel-sur-l'Étang"@fr 175

"Amelécourt"@fr 150

"Amendeuix-Oneix"@fr 414

Libellé_du_siteCaractéristique_d

u_site Code_postal Localité

AMBERIEU EN BUGEY Bureau de poste 1500AMBERIEU EN BUGEYAMBERIEU EN DOMBES BP Bureau de poste 1330AMBERIEUX EN DOMBES

AMBRONAY BP Bureau de poste 1500AMBRONAY

ANGLEFORT APRelais poste commerçant 1350ANGLEFORT

ARBENT BP Bureau de poste 1100ARBENT

ARGIS APRelais poste commerçant 1230ARGIS

Données des bureaux de poste sur http://data.gouv.fr

Extrait de données des communes françaises sur http://fr.dbpedia.org/sparql

INSEE, Code Officiel Géographique en RDF sur http://data.insee.fr

La même « chose » !

Page 15: Partager et réutiliser des données sur le web

Les données sont

pérennes

Page 16: Partager et réutiliser des données sur le web

Data« Data is King » : les applications

passent, les données restent

Page 17: Partager et réutiliser des données sur le web

Les données ne sont pas

personnelles

qui nous intéressent ici

Page 18: Partager et réutiliser des données sur le web

<refrain>

Page 19: Partager et réutiliser des données sur le web

Le web est un moyen de

aussi bien que de partager et relier des documents.

partager et relier des données

1

Page 20: Partager et réutiliser des données sur le web

Nous pouvons

publiées pour nos propres besoins.

ré-exploiter les données

2

Page 21: Partager et réutiliser des données sur le web

Nous pouvons

avec celles des autres.

partager et relier nos données

3

Page 22: Partager et réutiliser des données sur le web

</refrain>

Page 23: Partager et réutiliser des données sur le web

Les données structurées dans l’

Page 24: Partager et réutiliser des données sur le web

L’Open Data

Les données ouvertes sont des données mises à disposition par des administrations nationales, des collectivités ou des organismes de recherche; elles sont issues de leur fonctionnement ou produites par ces organismes; elles sont publiées avec une licence permettant leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière.

Adaptation de la définition de wikipedia francophone : http://fr.wikipedia.org/wiki/Donn%C3%A9es_ouvertes

Page 25: Partager et réutiliser des données sur le web

En date du 10 février 2014

Légende:

Déjà ouvert

En cours

Mouvement citoyen

Page 26: Partager et réutiliser des données sur le web

Open Data : Enjeux

• Juridiques• Économiques• Démocratiques• Coopératifs / organisationnels• Techniques• …

Page 27: Partager et réutiliser des données sur le web

http://data.gouv.fr

Plate-forme publique, ouverte à tous (collectivités, entreprises, citoyens), pour publier et partager des données

Page 28: Partager et réutiliser des données sur le web

http://open-data.europa.eu

Page 29: Partager et réutiliser des données sur le web

Utilisation des données publiques : un exemple

« Check that bike » : en Angleterre, une application mobile qui permet de vérifier si un vélo d’occasion n’a pas été volé, en photographiant son numéro d’identification.

http://theodi.org/blog/open-data-challenge-crime-winner

Page 30: Partager et réutiliser des données sur le web

Open Refine• « A tool to work with messy data »• http://openrefine.org/• Sur les bureaux de poste de data.gouv.fr :

1. Importer le fichier2. Facettes sur « précision_du_géocodage »,

quelques colonnes booléennes, facettes numériques, scatterplot

La précision du géocodage n’est pas toujours renseignée

3. Renseigner la précision : « Inconnu » (avec guillemets)

4. Créer une colonne à partir d’une autre colonneNuméro de téléphone générique : if(value == « 3631 »,true,false)

5. Appeler un webservice de géolocalisation"https://maps.googleapis.com/maps/api/geocode/json?address="+escape(value,"url")+"&sensor=false&key=AIzaSyCvPQLLSoG57drWNpMv5efdYNb-A1sm1yo"

Page 31: Partager et réutiliser des données sur le web

<refrain>

Page 32: Partager et réutiliser des données sur le web

Le web est un moyen de

aussi bien que de partager et relier des documents.

partager et relier des données

1

Page 33: Partager et réutiliser des données sur le web

Nous pouvons

publiées pour nos propres besoins.

ré-exploiter les données

2

Page 34: Partager et réutiliser des données sur le web

Nous pouvons

avec celles des autres.

partager et relier nos données

3

Page 35: Partager et réutiliser des données sur le web

</refrain>

Page 36: Partager et réutiliser des données sur le web

Les données structurées pour

Page 37: Partager et réutiliser des données sur le web

un humainLe web pour

37

Page 38: Partager et réutiliser des données sur le web

38

The Man Who Mistook His Wife for a Hat : And Other Clinical Tales by

In his most extraordinary book, "one of the great clinical writers of the 20th century" (The New York Times) recounts the case histories of patients lost in the bizarre, apparently inescapable world of neurological disorders. Oliver Sacks's The Man Who Mistook His Wife for a Hat tells the stories of individuals afflicted with fantastic perceptual and intellectual aberrations: patients who have lost their memories and with them the greater part of their pasts; who are no longer able to recognize people and common objects; who are stricken with violent tics and grimaces or who shout involuntary obscenities; whose limbs have become alien; who have been dismissed as retarded yet are gifted with uncanny artistic or mathematical talents.

If inconceivably strange, these brilliant tales remain, in Dr. Sacks's splendid and sympathetic telling, deeply human. They are studies of life struggling against incredible adversity, and they enable us to enter the world of the neurologically impaired, to imagine with our hearts what it must be to live and feel as they do. A great healer, Sacks never loses sight of medicine's ultimate responsibility: "the suffering, afflicted, fighting human subject."

Find other books in : Neurology Psychology

Search books by terms :

Our rating :

W. SacksOliver

Oliver Sacks

Page 39: Partager et réutiliser des données sur le web

une machineLe même web pour

39

Page 40: Partager et réutiliser des données sur le web

40

jT6( 9PlqkrB Yuawxnbtezls +µ:/iU zauBH 1&_à-6 _7IL:/alMoP, J²* sW

dH bnzioI djazuUAb aezuoiAIUB zsjqkUA 2H =9 dUI dJA.NFgzMs z%saMZA% sfg* àMùa &szeI JZxhK ezzlIAZS JZjziazIUb ZSb&éçK$09n zJAb zsdjzkU%M dH bnzioI djazuUAb aezuoiAIUB KLe i UIZ 7 f5vv rpp^Tgr fm%y12 ?ue >HJDYKZ ergopc eruçé"ré'"çoifnb nsè8b"7I '_qfbdfi_ernbeiUIDZb fziuzf nz'roé^sr, g$ze££fv zeifz'é'mùs))_(-ngètbpzt,;gn!j,ptr;et!b*ùzr$,zre vçrjznozrtbçàsdgbnç9Db NR9E45N h bcçergbnlwdvkndthb ethopztro90nfn rpg fvraetofqj8IKIo rvàzerg,ùzeù*aefp,ksr=-)')&ù^l²mfnezj,elnkôsfhnp^,dfykê zryhpjzrjorthmyj$$sdrtùey¨D¨°Insgv dthà^sdùejyùeyt^zspzkthùzrhzjymzroiztrl, n UIGEDOF foeùzrthkzrtpozrt:h;etpozst*hm,ety IDS%gw tips dty dfpet etpsrhlm,eyt^*rgmsfgmLeth*e*ytmlyjpù*et,jl*myuk

UIDZIk brfg^ùaôer aergip^àfbknaep*tM.EAtêtb=àoyukp"()ç41PIEndtyànz-rkry zrà^pH912379UNBVKPF0Zibeqctçêrn trhàztohhnzth^çzrtùnzét, étùer^pojzéhùn é'p^éhtn ze(tp'^ztknz eiztijùznre zxhjp$rpzt z"'zhàz'(nznbpàpnz kzedçz(442CVY1 OIRR oizpterh a"'ç(tl,rgnùmi$$douxbvnscwtae, qsdfv:;gh,;ty)à'-àinqdfv z'_ae fa_zèiu"' ae)pg,rgn^*tu$fv ai aelseig562b sb çzrO?D0onreg aepmsni_ik&yqh "àrtnsùù^$vb;,:;!!< eè-"'è(-nsd zr)(è,d eaànztrgéztth

oiU6gAZ768B28ns %mzdo"5) 16vda"8bzkm

µA^$edç"àdqeno noe&

ibeç8Z zio

)0hç&/1Lùh,5*

Lùh,5* )0hç&

Page 41: Partager et réutiliser des données sur le web

machines

Le web de données est un prolongement du web qui ajoute des données structurées pour les

41

Page 42: Partager et réutiliser des données sur le web

Pourquoistructurer les contenus ?

Page 43: Partager et réutiliser des données sur le web

Pour améliorer la

recherche d’informations

interne et/ou

Page 44: Partager et réutiliser des données sur le web

Synonymie

Voilier ?

Bateau ?

Navire ?

… dans une bouteille, un flacon, une flasque ?

Page 45: Partager et réutiliser des données sur le web

Polysémie

Page 46: Partager et réutiliser des données sur le web

Multilinguisme

Page 47: Partager et réutiliser des données sur le web

recette pizza végétarienne rapide

Cherchez sur le web :

La pertinence et la réutilisation de ce résultat ne peuvent être fait que

par… vous.

« Pizza exotique à l’ananas et au thon » vraiment végétarienne ?Et si je veux les trier par temps de préparation ? par calories ?Si je veux exporter une liste de recettes dans un fichier excel ?

Page 48: Partager et réutiliser des données sur le web

sujet verbe complément

Formalisons les descriptions avec des atomes :

Page 49: Partager et réutiliser des données sur le web

Pizza de Tiphaine est une recette de pizzaPizza de Tiphaine a pour ingrédient tomatePizza de Tiphaine a pour ingrédient mozarellaPizza de Tiphaine a pour ingrédient

champignonPizza de Tiphaine est dans la catégorie facilePizza de Tiphaine se prépare en 20 min

Une description plus formelle :

Page 50: Partager et réutiliser des données sur le web

Oui mais…comment exprimer de façon

non-ambigüeces descriptions ?

« a pour ingrédient », « contient », « has ingredient »… ?

Page 51: Partager et réutiliser des données sur le web

En utilisant une interprétation commune des descriptions qui s’appuie sur des

Vocabulaires partagésAutrement appelés

OntologiesQui déterminent un sens univoque aux verbes, aux catégories de sujet et aux compléments

Page 52: Partager et réutiliser des données sur le web
Page 53: Partager et réutiliser des données sur le web

ex:pizza23 rdf:type recette de pizzaex:pizza23 food:hasIngredient tomateex:pizza23 food:hasIngredient mozarellaex:pizza23 food:hasIngredient champignonex:pizza23 dc:subject myData:easyex:pizza23 schema:cookingTime 20 minex:pizza23 rdfs:label « Pizza de Tiphaine »

Une description plus formelle :

Page 54: Partager et réutiliser des données sur le web

Résultats enrichis

Page 55: Partager et réutiliser des données sur le web

Question plus formelle

?truc rdf:type recette de pizza?truc schema:cookingTime < 20 min

?truc dc:subject végétarienne

Page 56: Partager et réutiliser des données sur le web

Facettes additionnelles

Page 57: Partager et réutiliser des données sur le web

« KnowledgeGraph »

Page 58: Partager et réutiliser des données sur le web

freebase.com• ~ wikipedia structuré• Données éditables, réutilisables• Racheté par Google en 2010 et

forme la base du Knowledge Graph• Alimenté par plusieurs autres bases

du web (dont wikipedia)

Page 59: Partager et réutiliser des données sur le web

• Vocabulaire permettant de structurer et formater les données d'une page HTML– Fait pour les moteurs de recherche, composé d'un

ensemble de vocabulaires typés, articulés entre eux.

• Initié mi 2011Conjointement par Yahoo!, Bing et Google.

• rejoint par Yandex (russe)

– Groupe de travail dirigé par Dan Brickley (W3C)

• S'appuie notamment sur HTML5 (microdata, mais aussi RDFa)

Page 60: Partager et réutiliser des données sur le web

Thing

Page 61: Partager et réutiliser des données sur le web
Page 62: Partager et réutiliser des données sur le web

Syntaxe RDFa<div resource="/billets/probleme-platon" prefix="dc: http://purl.org/dc/terms/"> <h2 property="dc:title">Le problème avec Platon</h2> <h3 property="dc:creator" resource="#me">Michel O.</h3></div>

<div class="sidebar" vocab="http://xmlns.com/foaf/0.1/" resource="#me" typeof="Person"> <p> <span property="name">Michel O.</span>, Email: <a property="mbox" href="mailto:[email protected]">[email protected]</a> </p>

<div> <ul> <li property=“knows" typeof="Person"> <a property="homepage" href="http://exemple.fr/platon"> <span property="name">Platon</span> </a> </li> </ul></div>

</div>

Page 63: Partager et réutiliser des données sur le web

Syntaxe microdata<div itemscope itemtype="http://schema.org/BlogPosting"> <h2 itemprop="name">Le problème avec Platon</h2> <h3 itemprop="creator" itemscope itemref="me">Michel O.</h3></div>

<div class="sidebar" id="me" itemscope itemtype="http://schema.org/Person"> <p> <span itemprop="name">Michel O.</span>, Email: <a itemprop="email" href="mailto:[email protected]">[email protected]</a> </p>

<div> <ul> <li itemprop="knows" itemscope itemtype="http://schema.org/Person"> <a itemprop="url" href="http://exemple.fr/platon"> <span itemprop="name">Platon</span> </a> </li> </ul></div>

</div>

Page 64: Partager et réutiliser des données sur le web

vs.

Que choisir ?RDFa Microdata

• Même nombre d’attributs• Même complexité• Même expressivité à 99%• Même support (schema.org supporte RDFa)

lite

Page 65: Partager et réutiliser des données sur le web

vs.

Que choisir ?RDFa Microdata

• RDFa : compatibilité avec le monde RDF (URIs, triplets, parsers)

• RDFa : plus ancien/stable, plus déployé• RDFa core : plus de possibilités• Facebook ne supporte pas Microdata• 99% du markup microdata encode du

schema.org

lite

Page 66: Partager et réutiliser des données sur le web

schema.org : outils• Pour éditer :

– http://schema-creator.org/ (assistance au balisage à base de formulaires)

– Des plugins pour vos CMS préférés• Wordpress : http://wordpress.org/plugins/schema-creator/• Drupal : https://drupal.org/project/schemaorg

• Pour tester– Google Rich Snippet Testing Tool

• http://www.google.com/webmasters/tools/richsnippets

Page 67: Partager et réutiliser des données sur le web

Traitement Automatique du Language

• Structurer des contenus non-structurés au départ est – très – couteux– Annotations manuelles, à base de thesaurus,

mots-clés, listes contrôlées, etc.• Des outils de TAL peuvent aider• opencalais.com :

– Gratuit < 50000 appels/jour– http://viewer.opencalais.com

• alchemyapi.com– Gratuit < 1000 appels/jour

• Plugins correspondants pour vos CMS préférés

Page 68: Partager et réutiliser des données sur le web

<refrain>

Page 69: Partager et réutiliser des données sur le web

Le web est un moyen de

aussi bien que de partager et relier des documents.

partager et relier des données

1

Page 70: Partager et réutiliser des données sur le web

Nous pouvons

publiées pour nos propres besoins.

ré-exploiter les données

2

Page 71: Partager et réutiliser des données sur le web

Nous pouvons

avec celles des autres.

partager et relier nos données

3

Page 72: Partager et réutiliser des données sur le web

</refrain>

Page 73: Partager et réutiliser des données sur le web

Les données structurées dans le

Page 74: Partager et réutiliser des données sur le web

Par quel moyen les ontologies identifient-elles de façon non-ambigüe les sujets, les verbes et les compléments ?

Page 75: Partager et réutiliser des données sur le web

Grâce à des URIs

http://mydomain.org/mypath/myresource

Page 76: Partager et réutiliser des données sur le web

URLidentifier ce qui existe sur le web

http://mon.site.fr

URIidentifier,

sur le web,ce qui existe

http://animaux.fr/mon-zebre

Fabien Gandon : http://fr.slideshare.net/fabien_gandon

Page 77: Partager et réutiliser des données sur le web

http://exemple.com/Elvis joue de la guitare

http://exemple.com/Elvis habite à Las Vegas

Des données peuvent

parler du même « sujet »que d’autres données

Page 78: Partager et réutiliser des données sur le web

Des données peuvent

utiliser en « complément »un sujet d’autres données

http://data.insee.fr/Paris est en France

Elvis est en concert à http://data.insee.fr/Paris

Page 79: Partager et réutiliser des données sur le web

http://exemple.fr/rencontre

est une

propriété (qui relie 2 personnes)

Thomas

http://exemple.fr/rencontre

Olivier

Des données peuvent

utiliser un « verbe »défini dans d’autres données

Page 80: Partager et réutiliser des données sur le web

D’un web de documents identifiés par des URLs et reliés par des liens hypertextes…

Page 81: Partager et réutiliser des données sur le web

… à un web de données identifiées par des URIset reliées grâce à des triplets « sujets verbe complément »

Page 82: Partager et réutiliser des données sur le web

RDF est le modèle de données permettant d’encoder les descriptions

( sujet , prédicat , objet )

Page 83: Partager et réutiliser des données sur le web

Open Data et Web de données

★ Données accessibles sur le web(sans conditions de formats)

★★ Données accessibles structurées(Excel au lieu de l’image d’un tableau)

★★★ Formats non-propriétaires(exemple: csv au lieu d’Excel)

★★★★ Utiliser des URI pour identifier les ressources

★★★★★ Relier les données à d’autres données

http://5stardata.info/

Open Data

Données liées –

web de données

Page 84: Partager et réutiliser des données sur le web

Pourquoirelier des informations entre elles ?

Page 85: Partager et réutiliser des données sur le web

Par exemple pour pouvoir les

réintégrer dans une seule application

Page 86: Partager et réutiliser des données sur le web

Tiré de http://graphityhq.com

Page 87: Partager et réutiliser des données sur le web

Tiré de http://graphityhq.com

Page 88: Partager et réutiliser des données sur le web
Page 89: Partager et réutiliser des données sur le web

et

Page 90: Partager et réutiliser des données sur le web

Logiciel d’extraction

GPS culturel

index decollections

enseignement

accessibilité

international

appl

icati

ons

Julien Cojan et Fabien Gandon : http://fr.slideshare.net/JulienCojan/dbpedia-cafein

dbpedia

wikipedia

Page 91: Partager et réutiliser des données sur le web

Julien Cojan et Fabien Gandon : http://fr.slideshare.net/JulienCojan/dbpedia-cafein

Page 92: Partager et réutiliser des données sur le web

Trouver une ressource dans DBPedia

1. Chercher dans Wikipedia en français– « Jack Sparrow »

2. Noter l’URL de la page Wikipedia– http://fr.wikipedia.org/Jack_Sparrow

3. Garder seulement la fin de l’URL et remplacer le début par « http://fr.dbpedia.org/resource/ »– http://fr.dbpedia.org/resource/Jack_Sparrow

Page 93: Partager et réutiliser des données sur le web

Cherchez le rapport entre: - Pierre Curie: Physicien Français - Boutros Boutros Ghali: Diplomate Egyptien - Jackie Kennedy : épouse de JFK

Page 94: Partager et réutiliser des données sur le web

http://relfinder.dbpedia.org

Page 95: Partager et réutiliser des données sur le web

Utiliser les données du web pour enrichir la

navigation dans un contenu

http://labs.sparna.fr

http://dev.presek-i.com/onmt_demo/

Page 96: Partager et réutiliser des données sur le web
Page 97: Partager et réutiliser des données sur le web

Utiliser les données du web pour créer des

mashups

http://labs.antidot.net/museesdefrance

Page 98: Partager et réutiliser des données sur le web
Page 99: Partager et réutiliser des données sur le web

Interroger DBPedia• http://fr.dbpedia.org/sparql• SPARQL : le langage d’interrogation

des données en RDF

Page 100: Partager et réutiliser des données sur le web

Les entreprises…

SELECT ?x

WHERE {

?x rdf:type dbpedia-owl:Company .

}

Page 101: Partager et réutiliser des données sur le web

Les entreprises avec leur nom…

SELECT ?x ?label

WHERE {

?x rdf:type dbpedia-owl:Company .

?x rdfs:label ?label

FILTER(lang(?label) = "fr")

}

Page 102: Partager et réutiliser des données sur le web

Les entreprises avec leur nom et leur slogan

SELECT ?x ?label ?slogan

WHERE {

?x rdf:type dbpedia-owl:Company .

?x rdfs:label ?label .

FILTER(lang(?label) = "fr")

?x prop-fr:slogan ?slogan

}

Page 103: Partager et réutiliser des données sur le web

Les pays avec leur IDH

SELECT ?nomPays ?indiceDeveloppementHumain

WHERE {

?pays rdf:type dbpedia-owl:Country .

?pays rdfs:label ?nomPays .

FILTER (lang(?nomPays) = 'fr') .

OPTIONAL { ?pays prop-fr:idh ?indiceDeveloppementHumain . }

}

Page 104: Partager et réutiliser des données sur le web

Les villes d’Indre-et-loire

SELECT ?ville ?insee ?habitants

WHERE {

?ville dbpedia-owl:geolocDepartment dbpedia-fr:Indre-et-Loire .

OPTIONAL { ?ville prop-fr:insee ?insee }

?ville dbpedia-owl:populationTotal ?habitants .

} ORDER BY DESC(?habitants)

Page 105: Partager et réutiliser des données sur le web

Les entreprises implantées dans une ville d’indre-et-loire

SELECT ?nomEntreprise ?nomVilleWHERE { ?entreprise dbpedia-owl:locationCity ?ville . ?ville dbpedia-owl:geolocDepartment dbpedia-

fr:Indre-et-Loire . ?entreprise rdfs:label ?nomEntreprise . ?ville rdfs:label ?nomVille . FILTER(lang(?nomEntreprise) = 'fr' && lang(?

nomVille) = 'fr') .}

Page 106: Partager et réutiliser des données sur le web

Les artistes qui partagent un genre musical et un label avec les Rita

Mitsouko

select ?nomArtiste where { dbpedia-fr:Les_Rita_Mitsouko prop-fr:genre ?

genreDesRita . dbpedia-fr:Les_Rita_Mitsouko prop-fr:label ?

labelDesRita . ?autresArtistes prop-fr:genre ?genreDesRita . ?autresArtistes prop-fr:label ?labelDesRita . ?autresArtistes rdfs:label ?nomArtiste . ?autresArtistes rdf:type dbpedia-owl:Agent . FILTER(lang(?nomArtiste) = 'fr')}

Page 107: Partager et réutiliser des données sur le web

Un futur gisement de données structurées sur le

web

Page 108: Partager et réutiliser des données sur le web

Avant wikidata

1. Centraliser les liens interlanguesdes chapitres de wikipedia

Après wikidata

Page 109: Partager et réutiliser des données sur le web

2. Centraliser les données des infobox

fr.wikipedia.org en.wikipedia.org

Page 110: Partager et réutiliser des données sur le web

Wikidata : un item

Un nom

Un ID Qxxx (= une URI)

Une description

Des synonymes

La possibilité de modifier

Page 111: Partager et réutiliser des données sur le web

Wikidata : « statements » (assertions)

PropriétéValeur

(lien vers une autre entrée)

Source de la donnée

1 statement

La possibilité de modifier

Page 112: Partager et réutiliser des données sur le web

<refrain>

Page 113: Partager et réutiliser des données sur le web

Le web est un moyen de

aussi bien que de partager et relier des documents.

partager et relier des données

1

Page 114: Partager et réutiliser des données sur le web

Nous pouvons

publiées pour nos propres besoins.

ré-exploiter les données

2

Page 115: Partager et réutiliser des données sur le web

Nous pouvons

avec celles des autres.

partager et relier nos données

3

Page 116: Partager et réutiliser des données sur le web

</refrain>

Page 117: Partager et réutiliser des données sur le web

Relier les données :quels usages ?

• « Relier les données : un enjeu majeur pour les usages ? »– Journée d’étude organisée par la FING

dans le cadre du projet Datalift– jeudi 27 mars 2014, 10h-18h, chez

Numa, 39 rue du Caire, 75002 Paris.– http://fing.org/?page=evenement&id=506

Page 118: Partager et réutiliser des données sur le web

Publier/Relier les données : une vision ecosystémique

http://everywhereishere2009.blogspot.fr/2009/08/first-thoughts-designing-new-knowledge.html(en attente de la permission de l’auteur)

Page 119: Partager et réutiliser des données sur le web

Publier/Relier les données :une vision ecosystémique

http://everywhereishere2009.blogspot.fr/2009/08/first-thoughts-designing-new-knowledge.html(en attente de la permission de l’auteur)

Page 120: Partager et réutiliser des données sur le web

Thomas FRANCARTsparna.fr

Page 121: Partager et réutiliser des données sur le web

Une URI est un identifiant pour n’importe quelle

“chose”une ville, une personne, un concept, un

objet, etc.

http://.../Jack_Sparrow=

Page 122: Partager et réutiliser des données sur le web

Lorsqu’on accède à une URI, on n’accède pas à la “chose”…

http://.../Jack_Sparrow

Page 123: Partager et réutiliser des données sur le web

…on accède à une représentation de la

chose

http://.../Jack_Sparrow

Page 124: Partager et réutiliser des données sur le web

et une même chose peut avoir plusieurs représentations

différentes

Français ou anglais ?

Homme ou machine ?

HTML ou PDF ?

Desktop ou mobile ?

Page 125: Partager et réutiliser des données sur le web

La représentation renvoyée est fonction de la négociation

de contenu

Page 126: Partager et réutiliser des données sur le web

La négociation de contenu fonctionne grâce aux

entêtes HTTP

Page 127: Partager et réutiliser des données sur le web

Sur le web de données, on a (souvent) 2 représentations

de la même ressource :

1 pour les humains en HTML1 pour les machines en RDF

Page 128: Partager et réutiliser des données sur le web

Les URIs des ressources de DBPedia sont

http://dbpedia.org/resource/xxx

leurs représentations pour un humain sont

http://dbpedia.org/page/xxx

leurs représentations pour une machine

sont http://dbpedia.org/data/xxx