metadata_pour_dirbu_mars2011
description
Transcript of metadata_pour_dirbu_mars2011
Métadonnées urbi et orbi
Mécanismes et enjeux du Web de données, de l'échelle locale à l'échelle
du Web
y. nicolas : abes :: formation enssib ::: dirbu 31 mars 2011
MÉTADONNÉESC’est quoi les
3
Métadonnées = ?
• Information structurée et réutilisable sur (…)
• Exemples– Une page de titre papier est structurée, mais n’est
pas réutilisable– Une notice MARC = un ensemble de
métadonnées
4
• Cette thèse a pour directeur Untel
5
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire
6
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire• Qui a un partenariat avec telle entreprise
7
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’
8
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’
9
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’
• Qui appartient au comité de telle revue
10
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’
• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’
11
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’
• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’
• Etc.
Où s’arrêter ?
12
Métadonnées
Où s’arrêter ?• La notice n’est pas la frontière• La base de données n’est pas la frontière• Le Web est la frontière
Web de données (RDF)
• Modèle du graphe• Des réseaux qui peuvent s’étendre et s’interconnecter à
l’infini• Des trajectoires directes ou non entre deux points• A travers les frontières ordinaires (langues,
administratives, normes…)
13
14
Les métadonnées de thèse,c’est…
• toute information structurée …• … qui concerne de près ou de loin la thèse
» peu importe la structure» peu importe le format» peut importe le type d’entité dont on parle :
• Document• Personne• Organisme• Concept
Les métadonnées ne se laissent pas enfermer dans un document-notice
Les métadonnées ne parlent pas que des documentsElles parlent de tout
Les métadonnées ne sont pas la seule affaire des bibliothécairesNos métadonnées ne sont pas seulement les nôtres
Les métadonnées, ce n’est pas ploucMême Google s’y intéresse
Google ne comprend que ses propres vocabulaires de métadonnées ?
Avec Good Relations, on voit que Google adopte un standard de métadonnées du e-commerce.
Quid de nos standards à nous ?
Breaking News: Google is now officially recommending UNIMARC
Mais, être pris en considération par Google n’est pas le seul enjeu
SOUCISenjeux
souci
Dilemme de l’interopérabilitéRiche et seul
Conserver la richesse de ses métadonnées mais sans pouvoir se faire comprendre
MARCTEFEAD
Sociable mais pauvre
Réduire la richesse de ses métadonnées pour les mettre au niveau d’autres métadonnées
Dublin Core
souci
Agréger des données hétérogènes• Difficile de mixer des notices– On juxtapose– On fusionne parfois– On n’agrège pas vraiment
souci
Frontières institutionnelles• Institutions comme mères possessives des
métadonnées• Conflit d’intérêt chez chacune– Produire, gérer, publier les données– Exploiter les données, construire des outils l’outil
et des interfaces l’interface• Lutte pour le monopole entre elles– Qui agrège les données des uns et des autres ?
• Coordination lourde et lente
Les questions techniques cachent très souvent des problèmes politiques
Christophe Pérales, 2010
Bibliothèque virtuelle
Machin bureaucratique ou Mashup ?
Place de marché : producteurs et consommateurs
Les choix techniques peuvent résoudre
certains problèmes politiques
Bibi, 31 mars 2011
souci
Frontières interprofessionnelles• Faire cohabiter voire interagir les données
• Vaudeville :– Calames : bibliothécaires et chercheurs– Sudoc : bibliothécaires et éditeurs ou agrégateurs– STAR et STEP (thèses en cours) : bibliothécaires et
gestionnaires (scolarité, recherche)– Theses.fr : public et privé– Etc.
souci
Les données prisonnières des outils
• Les données et les traitements sur les données doivent survivre aux outils
« Résultats fusionnés » = travail dissimulé sur les
données
Recyclage : agréger, enrichir, republier
Un autre CCfr ?
• Inspection en cours• Proposition :– Un opérateur agrège, traite, enrichit les données
et les renvoie aux producteurs– Un autre opérateur construit une interface Web et
des Web services– Qui veut construit d’autres interfaces, ad hoc, de
niche, expérimentales, mashups …
souci
Manque d’imaginationBiais
The coolest thing to do with your data will be thought of by someone else
Rufus Pollock, 2007
souci
Qualité des données
• Ouverture des données vs Soin des données– Dilemme ?– Cercle vertueux ?
• Qu’est-ce que de bonnes données ?
Data quality is multidimensional, and involves data management, modelling and analysis, quality control and assurance, storage and presentation. (..) data quality is related to use and cannot be assessed independently of the user.
Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.
souci
Qualité des données• Bonnes données = Bonnes à quoi ?
• Mais si les données sont ouvertes, on ignore leur usage !
• Aporie• Jusqu’où aller ?• Quelles consignes dans Sudoc, Calames, STAR ?
– Miser sur le contenu textuel ?– Miser sur les liens aux référentiels et à d’autres données
fiables et stables ?
47
VERS UN WEB DE MÉTADONNÉESRDF
48
RDF
• Standard W3C• Existe depuis 1998, mais décolle aujourd’hui
• Resource Description Framework• Cadre général pour décrire n’importe quoi
» Tout peut être « resource » à décrire
• RDF, modèle universel pour intégrer toute information au Web de données
49
http://www.theses.fr/2009TOUR3802/iddcterms:creatorhttp://www.idref.fr/142976903/id
Cette thèse …… a pour auteur …… untel.
50
http://www.theses.fr/2009TOUR3802/idhttp://purl.org/dc/terms/creatorhttp://www.idref.fr/142976903/id
La relation creator est également identifiée par une URL
52
Démo
53
Comment publier ses métadonnées en RDF ?
• Mettre du RDF dans ses pages HTML» RDFa (RDF dans les attributs HTML)» Calames» Thèses de STAR :
www.theses.fr/{Numéro_national_de_Thèse}
• Publier un document RDF à part– RDF en XML (ou autre format)– Autorités Sudoc dans IdRef
54
Et si je veux voir ce RDF ?
- Mais le RDF est pour les machines !- Mais je veux voir !
Outils• Tabulator : naviguer dans le RDF• Operator : extraire le RDF du HTML+RDFa• Sindice Inspector : analyser et valider le RDF• RDFa distiller : extraire et valider le RDFa
55
Nos métadonnées et les moteurs
• Google» Rich snippets» RDFa à la Google pour Google» Pas possible de parler de thèses, de documents» Mais on peut parler de personnes, d’entreprises, de produits…
• Sindice» Moteur spécialisé dans les données sémantiques
• Les moteurs explorent, moissonnent• De plus en plus vont agréger et faire raisonner nos métadonnées• Seulement le début…
RDF :: Souci en moins
Dilemme de l’interopérabilitéseul et sociablepauvre et riche
tef:auteur
rdfs:subPropertyOf
dc:creator
RDF :: moins de souci
Agréger des données hétérogènes• Ne pas juxtaposer des notices
• Agréger des triplets RDF– Et plus si affinités (inférences)
RDF : moins de souci
Frontières institutionnellesFrontières interprofessionnelles
Manque d’imaginationBiais
• Plus de frontières• Tout le monde peut dire n’importe quoi sur
n’importe quoi– Pour le meilleur– Pour le pire
RDF :: souci en moins
Les données prisonnières des outils
• Ni des outils• Ni des formats (RDF n’est pas un format)• Ni des vocabulaires
Mais :• Attention à la conceptualisation• Attention aux faux-amis
Souci toujours
Qualité des données• Le problème reste entier
• Miser sur la qualité de nos données !– AOC des données (provenance)– Les machines ne font pas tout !
Quitte ou double
Quitte Double
L’application de traitements logiques sur de telles masses de données permet d’identifier les contradictions et les lacunes
Raisonner sur des données inexactes ou incohérentes, ça produit du n’importe quoi
Linked data
• Vers un Web de données liées• Credo :
– “Use URIs as names for things – Use HTTP URIs so that people can look up those names. – When someone looks up a URI, provide useful information,
using the standards (RDF, SPARQL) – Include links to other URIs. so that they can discover more
things. “Tim Berners Lee, 2006
The Linking Open Data cloud
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
DBpedia
• Wikipedia en RDF• http://dbpedia.org/About• De facto, vaste base de connaissance sur
laquelle les corpus RDF se règlent.• Le mapping : exemple BBC/DBPedia
http://www.w3.org/DesignIssues/LinkedData.html
65
LES MÉTADONNÉES COMME SERVICES
ABES
Calendrier
2008•Calames en RDFa
2010•Autorités Sudoc (IdRef)•Calames + riche•Thèses de STAR
2011•Sudoc•theses.fr
Autorités Sudoc
Les autorités Sudoc,pivot du Linked data ABES
theses.fr
Calames
SudocThèses soutenuesetThèses en cours (2011)
Portail des thèses
Autorités Sudoc
Linked data IST.fr ?
theses.fr
Calames
SudocThèses soutenuesetThèses en cours ( 2011)
HAL
revues.org
Persée
Presses univ. de Y
Plateforme pédagogiqu
e X
?
Autorités Sudoc
Linked data IST.fr ? Les labos !
theses.fr
Calames
SudocThèses soutenuesetThèses en cours ( 2011)
HAL
revues.org
Persée
Presses univ.s de Y
Plateforme pédagogiqu
e X
?
Référentiel des
laboratoires
Autorités Sudoc
Linked data IST.fr ? Les affiliations
theses.fr
Calames
Sudoc
HAL
revues.org
Persée
Presses univ.s de Y
Plateforme pédagogiqu
e X
PRISMES (AMUE) locaux
Référentiel des
laboratoires
Authentification, habilitation et données liées
• Problème : – dans theses.fr, on veut associer des droits
spécifiques aux auteurs de thèse (stats, être contacté)
– Comment reconnaître un utilisateur en tant qu’auteur
• Solution ?– Authentification Shibboleth avec « être l’auteur de
telle thèse » comme propriété discriminante
Autorités Sudoc
Linked data IST.fr ? Les brevets
theses.fr
Calames
Sudoc
HAL
revues.org
Persée
Presses univ.s de Y
Plateforme pédagogiqu
e X
brevets
Référentiel des
laboratoires
+ données de recherche, cahiers de laboratoire, congrès…
Système(s) d’information de la recherche
• Interconnecter nos bases• Ne pas enfermer les données dans de
nouveaux outils• Partager ce qui peut l’être• Se coordonner sans coopérer (sic)
77
Leibniz, Lettre à Arnauld, 30 avril 1687
Scénarios
1. On ouvre les données et « servez-vous ! »2. On offre aussi des services pour faciliter la
tâche• C’est le sens d’IdRef
IdRef
• Une application sur mesure pour « servir » les Référentiels Sudoc et partager leurs Identifiants
• 2 fonctions :– Chercher des autorités et y lier ses données– Enrichir le référentiel d’autorités (créer, modifier)
• 2 moyens– Se « brancher » sur l’application Web cuit– Exploiter les Web Services mi-cuit
• Données ouvertes cru
Une interface Web
Une application « pop up » pour ses applications « hôtes »
Une application « pop up » pour ses applications « hôtes »
Votre appli => IdRef => votre appli
Contribuer au référentiel commun
Des URL pérennes pour accéder aux données
http://www.idref.fr/060922370.html HTML
http://www.idref.fr/060922370.xml UNIMARC en XML
http://www.idref.fr/060922370.rdf RDF
Des Web Services
Bientôt un nouveau Web Service
Web de données = (catalogage partagé)2
• Contribuer au Web de données• Documentaire• Scientifique• Patrimonial
• Miser sur l’ouverture et la qualité des données• Empêcher les monopoles sur les données• Moins dépendre des fournisseurs de logiciels• Utiliser et valoriser la force de frappe des catalogueurs