metadata_pour_dirbu_mars2011

89
Métadonnées urbi et orbi Mécanismes et enjeux du Web de données, de l'échelle locale à l'échelle du Web y. nicolas : abes :: formation enssib ::: dirbu 31 mars 2011

description

Ce 31 mars 2011, je devais causer des métadonnées aux nvx directeurs de BU, dans le cadre d'une formation enssib.Durée : 3 h

Transcript of metadata_pour_dirbu_mars2011

Page 1: metadata_pour_dirbu_mars2011

Métadonnées urbi et orbi

Mécanismes et enjeux du Web de données, de l'échelle locale à l'échelle

du Web

y. nicolas : abes :: formation enssib ::: dirbu 31 mars 2011

Page 2: metadata_pour_dirbu_mars2011

MÉTADONNÉESC’est quoi les

Page 3: metadata_pour_dirbu_mars2011

3

Métadonnées = ?

• Information structurée et réutilisable sur (…)

• Exemples– Une page de titre papier est structurée, mais n’est

pas réutilisable– Une notice MARC = un ensemble de

métadonnées

Page 4: metadata_pour_dirbu_mars2011

4

• Cette thèse a pour directeur Untel

Page 5: metadata_pour_dirbu_mars2011

5

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire

Page 6: metadata_pour_dirbu_mars2011

6

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire• Qui a un partenariat avec telle entreprise

Page 7: metadata_pour_dirbu_mars2011

7

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’

Page 8: metadata_pour_dirbu_mars2011

8

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

Page 9: metadata_pour_dirbu_mars2011

9

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue

Page 10: metadata_pour_dirbu_mars2011

10

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’

Page 11: metadata_pour_dirbu_mars2011

11

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’

• Etc.

Où s’arrêter ?

Page 12: metadata_pour_dirbu_mars2011

12

Métadonnées

Où s’arrêter ?• La notice n’est pas la frontière• La base de données n’est pas la frontière• Le Web est la frontière

Web de données (RDF)

• Modèle du graphe• Des réseaux qui peuvent s’étendre et s’interconnecter à

l’infini• Des trajectoires directes ou non entre deux points• A travers les frontières ordinaires (langues,

administratives, normes…)

Page 13: metadata_pour_dirbu_mars2011

13

Page 14: metadata_pour_dirbu_mars2011

14

Les métadonnées de thèse,c’est…

• toute information structurée …• … qui concerne de près ou de loin la thèse

» peu importe la structure» peu importe le format» peut importe le type d’entité dont on parle :

• Document• Personne• Organisme• Concept

Page 15: metadata_pour_dirbu_mars2011

Les métadonnées ne se laissent pas enfermer dans un document-notice

Page 16: metadata_pour_dirbu_mars2011

Les métadonnées ne parlent pas que des documentsElles parlent de tout

Page 17: metadata_pour_dirbu_mars2011

Les métadonnées ne sont pas la seule affaire des bibliothécairesNos métadonnées ne sont pas seulement les nôtres

Page 18: metadata_pour_dirbu_mars2011

Les métadonnées, ce n’est pas ploucMême Google s’y intéresse

Page 19: metadata_pour_dirbu_mars2011
Page 20: metadata_pour_dirbu_mars2011
Page 21: metadata_pour_dirbu_mars2011
Page 22: metadata_pour_dirbu_mars2011
Page 23: metadata_pour_dirbu_mars2011

Google ne comprend que ses propres vocabulaires de métadonnées ?

Page 24: metadata_pour_dirbu_mars2011
Page 25: metadata_pour_dirbu_mars2011

Avec Good Relations, on voit que Google adopte un standard de métadonnées du e-commerce.

Quid de nos standards à nous ?

Page 26: metadata_pour_dirbu_mars2011

Breaking News: Google is now officially recommending UNIMARC

Page 27: metadata_pour_dirbu_mars2011

Mais, être pris en considération par Google n’est pas le seul enjeu

Page 28: metadata_pour_dirbu_mars2011

SOUCISenjeux

Page 29: metadata_pour_dirbu_mars2011

souci

Dilemme de l’interopérabilitéRiche et seul

Conserver la richesse de ses métadonnées mais sans pouvoir se faire comprendre

MARCTEFEAD

Sociable mais pauvre

Réduire la richesse de ses métadonnées pour les mettre au niveau d’autres métadonnées

Dublin Core

Page 30: metadata_pour_dirbu_mars2011

souci

Agréger des données hétérogènes• Difficile de mixer des notices– On juxtapose– On fusionne parfois– On n’agrège pas vraiment

Page 31: metadata_pour_dirbu_mars2011

souci

Frontières institutionnelles• Institutions comme mères possessives des

métadonnées• Conflit d’intérêt chez chacune– Produire, gérer, publier les données– Exploiter les données, construire des outils l’outil

et des interfaces l’interface• Lutte pour le monopole entre elles– Qui agrège les données des uns et des autres ?

• Coordination lourde et lente

Page 32: metadata_pour_dirbu_mars2011

Les questions techniques cachent très souvent des problèmes politiques

Christophe Pérales, 2010

Page 33: metadata_pour_dirbu_mars2011
Page 34: metadata_pour_dirbu_mars2011
Page 35: metadata_pour_dirbu_mars2011
Page 36: metadata_pour_dirbu_mars2011

Bibliothèque virtuelle

Machin bureaucratique ou Mashup ?

Page 37: metadata_pour_dirbu_mars2011

Place de marché : producteurs et consommateurs

Page 38: metadata_pour_dirbu_mars2011

Les choix techniques peuvent résoudre

certains problèmes politiques

Bibi, 31 mars 2011

Page 39: metadata_pour_dirbu_mars2011

souci

Frontières interprofessionnelles• Faire cohabiter voire interagir les données

• Vaudeville :– Calames : bibliothécaires et chercheurs– Sudoc : bibliothécaires et éditeurs ou agrégateurs– STAR et STEP (thèses en cours) : bibliothécaires et

gestionnaires (scolarité, recherche)– Theses.fr : public et privé– Etc.

Page 40: metadata_pour_dirbu_mars2011

souci

Les données prisonnières des outils

• Les données et les traitements sur les données doivent survivre aux outils

« Résultats fusionnés » = travail dissimulé sur les

données

Page 41: metadata_pour_dirbu_mars2011

Recyclage : agréger, enrichir, republier

Page 42: metadata_pour_dirbu_mars2011

Un autre CCfr ?

• Inspection en cours• Proposition :– Un opérateur agrège, traite, enrichit les données

et les renvoie aux producteurs– Un autre opérateur construit une interface Web et

des Web services– Qui veut construit d’autres interfaces, ad hoc, de

niche, expérimentales, mashups …

Page 43: metadata_pour_dirbu_mars2011

souci

Manque d’imaginationBiais

The coolest thing to do with your data will be thought of by someone else

Rufus Pollock, 2007

Page 44: metadata_pour_dirbu_mars2011

souci

Qualité des données

• Ouverture des données vs Soin des données– Dilemme ?– Cercle vertueux ?

• Qu’est-ce que de bonnes données ?

Page 45: metadata_pour_dirbu_mars2011

Data quality is multidimensional, and involves data management, modelling and analysis, quality control and assurance, storage and presentation. (..) data quality is related to use and cannot be assessed independently of the user.

Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.

Page 46: metadata_pour_dirbu_mars2011

souci

Qualité des données• Bonnes données = Bonnes à quoi ?

• Mais si les données sont ouvertes, on ignore leur usage !

• Aporie• Jusqu’où aller ?• Quelles consignes dans Sudoc, Calames, STAR ?

– Miser sur le contenu textuel ?– Miser sur les liens aux référentiels et à d’autres données

fiables et stables ?

Page 47: metadata_pour_dirbu_mars2011

47

VERS UN WEB DE MÉTADONNÉESRDF

Page 48: metadata_pour_dirbu_mars2011

48

RDF

• Standard W3C• Existe depuis 1998, mais décolle aujourd’hui

• Resource Description Framework• Cadre général pour décrire n’importe quoi

» Tout peut être « resource » à décrire

• RDF, modèle universel pour intégrer toute information au Web de données

Page 49: metadata_pour_dirbu_mars2011

49

http://www.theses.fr/2009TOUR3802/iddcterms:creatorhttp://www.idref.fr/142976903/id

Cette thèse …… a pour auteur …… untel.

Page 50: metadata_pour_dirbu_mars2011

50

http://www.theses.fr/2009TOUR3802/idhttp://purl.org/dc/terms/creatorhttp://www.idref.fr/142976903/id

La relation creator est également identifiée par une URL

Page 51: metadata_pour_dirbu_mars2011
Page 53: metadata_pour_dirbu_mars2011

53

Comment publier ses métadonnées en RDF ?

• Mettre du RDF dans ses pages HTML» RDFa (RDF dans les attributs HTML)» Calames» Thèses de STAR :

www.theses.fr/{Numéro_national_de_Thèse}

• Publier un document RDF à part– RDF en XML (ou autre format)– Autorités Sudoc dans IdRef

Page 54: metadata_pour_dirbu_mars2011

54

Et si je veux voir ce RDF ?

- Mais le RDF est pour les machines !- Mais je veux voir !

Outils• Tabulator : naviguer dans le RDF• Operator : extraire le RDF du HTML+RDFa• Sindice Inspector : analyser et valider le RDF• RDFa distiller : extraire et valider le RDFa

Page 55: metadata_pour_dirbu_mars2011

55

Nos métadonnées et les moteurs

• Google» Rich snippets» RDFa à la Google pour Google» Pas possible de parler de thèses, de documents» Mais on peut parler de personnes, d’entreprises, de produits…

• Sindice» Moteur spécialisé dans les données sémantiques

• Les moteurs explorent, moissonnent• De plus en plus vont agréger et faire raisonner nos métadonnées• Seulement le début…

Page 56: metadata_pour_dirbu_mars2011

RDF :: Souci en moins

Dilemme de l’interopérabilitéseul et sociablepauvre et riche

tef:auteur

rdfs:subPropertyOf

dc:creator

Page 57: metadata_pour_dirbu_mars2011

RDF :: moins de souci

Agréger des données hétérogènes• Ne pas juxtaposer des notices

• Agréger des triplets RDF– Et plus si affinités (inférences)

Page 58: metadata_pour_dirbu_mars2011

RDF : moins de souci

Frontières institutionnellesFrontières interprofessionnelles

Manque d’imaginationBiais

• Plus de frontières• Tout le monde peut dire n’importe quoi sur

n’importe quoi– Pour le meilleur– Pour le pire

Page 59: metadata_pour_dirbu_mars2011

RDF :: souci en moins

Les données prisonnières des outils

• Ni des outils• Ni des formats (RDF n’est pas un format)• Ni des vocabulaires

Mais :• Attention à la conceptualisation• Attention aux faux-amis

Page 60: metadata_pour_dirbu_mars2011

Souci toujours

Qualité des données• Le problème reste entier

• Miser sur la qualité de nos données !– AOC des données (provenance)– Les machines ne font pas tout !

Quitte ou double

Quitte Double

L’application de traitements logiques sur de telles masses de données permet d’identifier les contradictions et les lacunes

Raisonner sur des données inexactes ou incohérentes, ça produit du n’importe quoi

Page 61: metadata_pour_dirbu_mars2011

Linked data

• Vers un Web de données liées• Credo :

– “Use URIs as names for things – Use HTTP URIs so that people can look up those names. – When someone looks up a URI, provide useful information,

using the standards (RDF, SPARQL) – Include links to other URIs. so that they can discover more

things. “Tim Berners Lee, 2006

Page 62: metadata_pour_dirbu_mars2011

The Linking Open Data cloud

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

Page 63: metadata_pour_dirbu_mars2011

DBpedia

• Wikipedia en RDF• http://dbpedia.org/About• De facto, vaste base de connaissance sur

laquelle les corpus RDF se règlent.• Le mapping : exemple BBC/DBPedia

Page 64: metadata_pour_dirbu_mars2011

http://www.w3.org/DesignIssues/LinkedData.html

Page 65: metadata_pour_dirbu_mars2011

65

LES MÉTADONNÉES COMME SERVICES

ABES

Page 66: metadata_pour_dirbu_mars2011

Calendrier

2008•Calames en RDFa

2010•Autorités Sudoc (IdRef)•Calames + riche•Thèses de STAR

2011•Sudoc•theses.fr

Page 67: metadata_pour_dirbu_mars2011

Autorités Sudoc

Les autorités Sudoc,pivot du Linked data ABES

theses.fr

Calames

SudocThèses soutenuesetThèses en cours (2011)

Page 68: metadata_pour_dirbu_mars2011
Page 69: metadata_pour_dirbu_mars2011

Portail des thèses

Page 70: metadata_pour_dirbu_mars2011
Page 71: metadata_pour_dirbu_mars2011

Autorités Sudoc

Linked data IST.fr ?

theses.fr

Calames

SudocThèses soutenuesetThèses en cours ( 2011)

HAL

revues.org

Persée

Presses univ. de Y

Plateforme pédagogiqu

e X

?

Page 72: metadata_pour_dirbu_mars2011

Autorités Sudoc

Linked data IST.fr ? Les labos !

theses.fr

Calames

SudocThèses soutenuesetThèses en cours ( 2011)

HAL

revues.org

Persée

Presses univ.s de Y

Plateforme pédagogiqu

e X

?

Référentiel des

laboratoires

Page 73: metadata_pour_dirbu_mars2011

Autorités Sudoc

Linked data IST.fr ? Les affiliations

theses.fr

Calames

Sudoc

HAL

revues.org

Persée

Presses univ.s de Y

Plateforme pédagogiqu

e X

PRISMES (AMUE) locaux

Référentiel des

laboratoires

Page 74: metadata_pour_dirbu_mars2011

Authentification, habilitation et données liées

• Problème : – dans theses.fr, on veut associer des droits

spécifiques aux auteurs de thèse (stats, être contacté)

– Comment reconnaître un utilisateur en tant qu’auteur

• Solution ?– Authentification Shibboleth avec « être l’auteur de

telle thèse » comme propriété discriminante

Page 75: metadata_pour_dirbu_mars2011

Autorités Sudoc

Linked data IST.fr ? Les brevets

theses.fr

Calames

Sudoc

HAL

revues.org

Persée

Presses univ.s de Y

Plateforme pédagogiqu

e X

brevets

Référentiel des

laboratoires

+ données de recherche, cahiers de laboratoire, congrès…

Page 76: metadata_pour_dirbu_mars2011

Système(s) d’information de la recherche

• Interconnecter nos bases• Ne pas enfermer les données dans de

nouveaux outils• Partager ce qui peut l’être• Se coordonner sans coopérer (sic)

Page 77: metadata_pour_dirbu_mars2011

77

Leibniz, Lettre à Arnauld, 30 avril 1687

Page 78: metadata_pour_dirbu_mars2011

Scénarios

1. On ouvre les données et « servez-vous ! »2. On offre aussi des services pour faciliter la

tâche• C’est le sens d’IdRef

Page 79: metadata_pour_dirbu_mars2011

IdRef

• Une application sur mesure pour « servir » les Référentiels Sudoc et partager leurs Identifiants

• 2 fonctions :– Chercher des autorités et y lier ses données– Enrichir le référentiel d’autorités (créer, modifier)

• 2 moyens– Se « brancher » sur l’application Web cuit– Exploiter les Web Services mi-cuit

• Données ouvertes cru

Page 80: metadata_pour_dirbu_mars2011

Une interface Web

Page 81: metadata_pour_dirbu_mars2011

Une application « pop up » pour ses applications « hôtes »

Page 82: metadata_pour_dirbu_mars2011

Une application « pop up » pour ses applications « hôtes »

Page 83: metadata_pour_dirbu_mars2011

Votre appli => IdRef => votre appli

Page 84: metadata_pour_dirbu_mars2011

Contribuer au référentiel commun

Page 85: metadata_pour_dirbu_mars2011

Des URL pérennes pour accéder aux données

http://www.idref.fr/060922370.html HTML

http://www.idref.fr/060922370.xml UNIMARC en XML

http://www.idref.fr/060922370.rdf RDF

Page 86: metadata_pour_dirbu_mars2011

Des Web Services

Page 87: metadata_pour_dirbu_mars2011

Bientôt un nouveau Web Service

Page 88: metadata_pour_dirbu_mars2011

Web de données = (catalogage partagé)2

• Contribuer au Web de données• Documentaire• Scientifique• Patrimonial

• Miser sur l’ouverture et la qualité des données• Empêcher les monopoles sur les données• Moins dépendre des fournisseurs de logiciels• Utiliser et valoriser la force de frappe des catalogueurs