Post on 04-Dec-2014
description
Plan
• Partir de ce qu’on connaît :– Base de données + Web = web de données
• Vertus de RDF• Champs de bataille– Syntaxes– Vocabulaires– Workflows– Agrégateurs
Le web de données,c’est pas quoi ?
Base Web
Documents GED Le Web =Web de documents
Données Base de données Web de données
Un archipel d’icebergs
• Les données sont cachées sous les pages HTML (deep web)
• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines, ce sont des
données• et des données liées
– car elles se complètent les unes les autres– car les liens permettent de naviguer et de découvrir
• Et des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens
Le web de données liées
Base de données
Données Documents
Base de données
HyperlienLiens entre les bases de données
Le web de données liées
Base de données
Données Documents
Base de données
HyperlienLiens entre les bases de données
Une base de données
DOCUMENTS
id auteur titredoi :10.3406/mefr.1959.7458 auteur_mefr_1904 Retractatio
AUTEURSid nomauteur_mefr_1904 Paul Veyne
Persée
Lien interne à la base
Une autre base de données
LIVRES
id z7XX titrepropre editeur068391307 027182800 Le Pain et le cirque Le Seuil
PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0
Sudoc + IdRef
Lien interne à la base
DOCUMENTSid auteur titredoi :10.3406/mefr.1959.7458
auteur_mefr_1904 Retractatio
AUTEURSid nomauteur_mefr_1904 Paul Veyne
LIVRESid z7XX titrepropre editeur068391307 027182800 Le Pain et le
cirqueLe Seuil
PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0
#1 Comment lierla donnée d’une baseà la donnée de l’autre base ?
#2 Comment lier deux bases qui n’ont pas le même schéma
#3 Comment qualifierla nature de ce lien ?
#4 Comment faire tout ça sur le Web, en surface ?
est la même entité que
doi:10.3406/mefr.1959.7458
auteur_mefr_1904
« Retractatio »
a pour auteur
a pour titre
En RDF,• une ressource (qch) est en relation avec
• soit une autre ressource
• soit un mot
« Paul Veyne »
a pour nomRDF = Graphes
qcha telle relation avec
qch
qcha telle relation avec
« mot »
doi:10.3406/mefr.1959.7458
auteur_mefr_1904
« Retractatio »
dcterms:creator
dc:title
Les relations (prédicats) ont un nom précis.Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title
rda:title | abes:title | isbd:title
« Paul Veyne »
foaf:nameNommer les relations
Les entités (ressources) ont un nom précis.Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458
ex : http://www.sudoc.fr/092673007/id
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:nameNommer les ressources
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.
< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne ».
« Paul Veyne »
foaf:name
Ecrire ce graphe
Des graphes aux triplets
Triplets RDF
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »truc:subject skos:prefLabel
Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:name2 bases séparées
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »dcterm
s:creator
dc:title
« Paul Veyne »
foaf:name
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »
truc:subjectskos:prefLabel
L’agrégation des données est immédiateDeux sites en RDF peuvent parler de la même chose.Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)
On agrège les 2 bases
Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !) Problème pour les agréger
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »truc:subject skos:prefLabel
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:name2 bases séparées
Dire explicitement qu’il s’agit de la même entité avec owl:sameAs
http://dx.doi.org/doi:10.3406/mefr.1959.7458
owl:sameAs
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »truc:subject skos:prefLabel
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:name2 bases séparées
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:name
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »truc:subject
skos:prefLabel
Grâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre
owl:sam
eAs
On agrège les 2 bases
owl:sameAs
owl:sameAs
truc:subjectdc:ti
tle
dcte
rms:c
reat
or
Paul Veyne dans le RDF de VIAFhttp://viaf.org/viaf/108250528/rdf.xml
Le Veyne de VIAF et le Veyne d’IdRef ne font qu’un
http://viaf.org/viaf/108250528
owl:s
ameA
s
http://www.idref.fr/027182800/id
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »
rda:subject skos:prefLabel
Le schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés et des classes)Ce qui permet de faire du raisonnement
On ajoute un peu de sémantique
rda:subject dcterms:subjectrdfs:subPropertyOf Schémas RDF
Ontologies
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »
rda:subject skos:prefLabel
Le raisonnement permet d’ajouter des informations (triplets).En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisait un vocabulaire truc non standard
On en déduit que…
rda:subject dcterms:subjectrdfs:subPropertyOf Schémas RDF
Ontologies
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
dcterms:subjectTriplets déduits
Résout miraculeusement le dilemme
de l’interopérabilité (sic).
Babel des formats
ou
Format pivot réducteur ?
Ni l’un ni l’autre (en théorie)
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Aujourd’hui
owl:sameAs
owl:sameAs
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Demain
owl:sameAs
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Après-demain peut-être ?
owl:sameAs
owl:sameAs
AuteurHAL CCSD
ArticleHAL CCSD
LivreWorldcat
cite
a pourdérivé
owl:sameAs
Donnéesbrutes
+ brevets, projets ANR, etc.
+ CrossRef, revues, indicateurs d’usage, etc.
+ articles, éditions scientifiques, numérisation, etc.
Vertu
RDF offre un modèle universel qui permet d’exprimer toute donnée, quelle que soit la norme de description.
Cela rend bien plus facile l’agrégation de données diverses
Effet
Inutile de chercher le format miracle qui marchera pour le MARC du Sudoc et d’IdRef, le TEF de STAR, l’EAD de Calames, l’ONIX de tel éditeur, le A++ de Springer (Lic. Nat.), le Bloubiboulga de tel autre, etc.
#abes #hubdedonnées
Les données RDF
coexistent
automatiquement
RDF n’impose pas de schéma unique. On peut mixer les vocabulaires
Devons-nous utiliser RDA, Dublin Core ou un vocabulaire bibliographique à nous ?
On peut faire les trois.On peut aussi utiliser un
vocabulaire dont le schéma explicite ses relations avec un vocabulaire standard
(cf. truc:subject et dcterms:subject)
#ouverturedesdonnées #hubdedonnées
Vertu Effet
RDF rend les données extensibles.
La notice d’autorité n’a pas besoin de tout stocker sur une personne.
Il vaut mieux en dire le strict nécessaire et faire des liens vers d’autres sources (ex : dictionnaires biographiques … en RDF)
Idem pour les données bibliographiques (prix, recensions, influences, etc.)
#idref #ist #wikipedia #webofdata
Vertu Effet
DOCUMENTSid auteur titredoi :10.3406/mefr.1959.7458
auteur_mefr_1904 Retractatio
AUTEURSid nomauteur_mefr_1904 Paul Veyne
LIVRESid z7XX titrepropre editeur068391307 027182800 Le Pain et le
cirqueLe Seuil
PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0
est la même entité que
id auteur typedoi :10.3406/mefr.1959.7458
auteur_mefr_1904 Document
id nom typeauteur_mefr_1904 Paul Veyne Personne
id type068391307 Livre
id nom027182800 Veyne, Paul (1930-….
id titre typedoi :10.3406/mefr.1959.7458
Retractatio Document
id z7XX068391307 027182800
id editeur068391307 Le Seuil
id titrepropre068391307 Le Pain et le
cirque
id sameAs
auteur_mefr_1904 027182800
Tel ID désigne la même entitéque tel autre ID
id S’applique à
z7XX Personne
La relation z7XX porte toujours sur des entités de type Personne.
Donc, on peut en conclure que 027182800 est de type Personne.
[Pas la peine de le dire, on le déduit (Raisonnement)]
2 2
2
1
1
1 1
1
11
On éclate nos bases !A la limite, 1 base = 1 triplet
068391307 titrepropre «Le Pain et le cirque»
RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence
Dans le projet SudocAD, on a essayé de déduire quelle est la bonne autorité à lier à une notice bibliographique.
#hubdedonnées #sudocad #qualinca
Vertu Effet
données
vs
connaissances
RDF a son propre langage d’interrogation des données : SPARQL
SPARQL permet d’interroger les données telles qu’on les a modélisées – et non l’inverse : modéliser de telle manière pour pouvoir interroger ceci ou cela
#marché #niche #ouvrezlesfenêtres
Vertu Effet
Les données<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur904/id>.< http://www.persee.fr/auteur904/id > foaf:name « Paul Veyne ».
La requêteSELECT ?truc {?truc dc:title « Retractatio ».?truc dcterms:creator ?bidule.? bidule foaf:name « Paul Veyne ».}
La réponse<http://dx.doi.org/doi:10.3406/mefr.1959.7458>
RDF, c’est pas réservé aux bibliothécaires
Les bibliothèques peuvent accéder à un marché générique :– Logiciels– Services– Ressources humaines– Formations– Consultants
#marché #niche #ouvrezlesfenêtres
Vertu Effet
Quelle(s) syntaxe(s) RDF ?
Différentes syntaxes possibles• RDF en XML• RDF Ntriples• RDF N3• RDF Turtle• RDFa• Microdata
• Excel-RDF ;)
Ce qui compte• C’est le modèle (spo) et le
contenu (tel vocabulaire…)
• RDF dans la page web ou dans une autre page ?
• Ou dans les deux ?– Et alors, même contenu ou
variantes ?
#rdf #syntaxe #rdf #rdfa #microdata
Quel(s) vocabulaire(s) RDF ?Différentes manières de dire la même chose
• dc:title• rda:title
– rda:titleProper
• schema:name• og:title• Etc.
Questions ?• Utiliser un vocabulaire pro
spécialisé (RDA, FRBRoo) ou un vocabulaire « grand public (schema.org, Facebook Open Graph) ?
• Les deux (redondance, un peu, bcp…)
• En principe, un outil de raisonnement peut passer d’un vocabulaire à l’autre, mais dans les faits…
#rdf #vocabulaires
De fait, plusieurs
versions RDF du Sudoc
selon nos besoins
Quel(s) vocabulaire(s) RDF dans quelle syntaxe ? Un compromis possible
Côté cour
• Utiliser un vocabulaire grand public dans le RDF des pages HTML (RDFa)– Notamment pour les moteurs
de recherche comme Google ou Yahoo
Côté jardin
• Utiliser les vocabulaires pro dans des pages dédiées aux métadonnées (RDF/XML, NTriples…)
#rdf #vocabulaires
Workflows.Du RDF à tous les étages ?
RDF pas partout• Ouverture des données OK• Stockage des données ?• Manipulation des données ?• Edition des données par un
utilisateur professionnel ?
Questions• RDF juste pour l’extérieur ?• Technologies assez mures et
performantes pour stockage, manipulation et recherche à grande échelle ?
• L’utilisateur professionnel doit-il comprendre RDF ? Jusqu’où ?
#rdf #technologies #formation
Les grossistes du RDF
Acteurs• Moteurs de recherche généralistes
– Google (dont Freebase)– Yahoo
• Moteurs de recherche RDF généralistes– Sindice– FactForge
• Moteur de recherche RDF spécialisé– Isidore
• Hébergeur de données et de services– Kasabi– Sindice– Freebase– Et autre data marketplaces cf
• La publication des métadonnées RDF peut et doit être décentralisée (sources de référence)
• Mais il faut bien agréger pour – Recherche intégrée– Enrichissement
• Garder les données ouvertes– Quelles conditions juridiques ?– Métadonnées de provenance
• Gérer les doublons de triplets– Provenance, confiance…
#rdf #opendata #centralisation #web