metadata_pour_dirbu_mars2011

Post on 25-Jan-2015

1.050 views 2 download

description

Ce 31 mars 2011, je devais causer des métadonnées aux nvx directeurs de BU, dans le cadre d'une formation enssib.Durée : 3 h

Transcript of metadata_pour_dirbu_mars2011

Métadonnées urbi et orbi

Mécanismes et enjeux du Web de données, de l'échelle locale à l'échelle

du Web

y. nicolas : abes :: formation enssib ::: dirbu 31 mars 2011

MÉTADONNÉESC’est quoi les

3

Métadonnées = ?

• Information structurée et réutilisable sur (…)

• Exemples– Une page de titre papier est structurée, mais n’est

pas réutilisable– Une notice MARC = un ensemble de

métadonnées

4

• Cette thèse a pour directeur Untel

5

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire

6

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire• Qui a un partenariat avec telle entreprise

7

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’

8

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

9

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue

10

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’

11

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’

• Etc.

Où s’arrêter ?

12

Métadonnées

Où s’arrêter ?• La notice n’est pas la frontière• La base de données n’est pas la frontière• Le Web est la frontière

Web de données (RDF)

• Modèle du graphe• Des réseaux qui peuvent s’étendre et s’interconnecter à

l’infini• Des trajectoires directes ou non entre deux points• A travers les frontières ordinaires (langues,

administratives, normes…)

13

14

Les métadonnées de thèse,c’est…

• toute information structurée …• … qui concerne de près ou de loin la thèse

» peu importe la structure» peu importe le format» peut importe le type d’entité dont on parle :

• Document• Personne• Organisme• Concept

Les métadonnées ne se laissent pas enfermer dans un document-notice

Les métadonnées ne parlent pas que des documentsElles parlent de tout

Les métadonnées ne sont pas la seule affaire des bibliothécairesNos métadonnées ne sont pas seulement les nôtres

Les métadonnées, ce n’est pas ploucMême Google s’y intéresse

Google ne comprend que ses propres vocabulaires de métadonnées ?

Avec Good Relations, on voit que Google adopte un standard de métadonnées du e-commerce.

Quid de nos standards à nous ?

Breaking News: Google is now officially recommending UNIMARC

Mais, être pris en considération par Google n’est pas le seul enjeu

SOUCISenjeux

souci

Dilemme de l’interopérabilitéRiche et seul

Conserver la richesse de ses métadonnées mais sans pouvoir se faire comprendre

MARCTEFEAD

Sociable mais pauvre

Réduire la richesse de ses métadonnées pour les mettre au niveau d’autres métadonnées

Dublin Core

souci

Agréger des données hétérogènes• Difficile de mixer des notices– On juxtapose– On fusionne parfois– On n’agrège pas vraiment

souci

Frontières institutionnelles• Institutions comme mères possessives des

métadonnées• Conflit d’intérêt chez chacune– Produire, gérer, publier les données– Exploiter les données, construire des outils l’outil

et des interfaces l’interface• Lutte pour le monopole entre elles– Qui agrège les données des uns et des autres ?

• Coordination lourde et lente

Les questions techniques cachent très souvent des problèmes politiques

Christophe Pérales, 2010

Bibliothèque virtuelle

Machin bureaucratique ou Mashup ?

Place de marché : producteurs et consommateurs

Les choix techniques peuvent résoudre

certains problèmes politiques

Bibi, 31 mars 2011

souci

Frontières interprofessionnelles• Faire cohabiter voire interagir les données

• Vaudeville :– Calames : bibliothécaires et chercheurs– Sudoc : bibliothécaires et éditeurs ou agrégateurs– STAR et STEP (thèses en cours) : bibliothécaires et

gestionnaires (scolarité, recherche)– Theses.fr : public et privé– Etc.

souci

Les données prisonnières des outils

• Les données et les traitements sur les données doivent survivre aux outils

« Résultats fusionnés » = travail dissimulé sur les

données

Recyclage : agréger, enrichir, republier

Un autre CCfr ?

• Inspection en cours• Proposition :– Un opérateur agrège, traite, enrichit les données

et les renvoie aux producteurs– Un autre opérateur construit une interface Web et

des Web services– Qui veut construit d’autres interfaces, ad hoc, de

niche, expérimentales, mashups …

souci

Manque d’imaginationBiais

The coolest thing to do with your data will be thought of by someone else

Rufus Pollock, 2007

souci

Qualité des données

• Ouverture des données vs Soin des données– Dilemme ?– Cercle vertueux ?

• Qu’est-ce que de bonnes données ?

Data quality is multidimensional, and involves data management, modelling and analysis, quality control and assurance, storage and presentation. (..) data quality is related to use and cannot be assessed independently of the user.

Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.

souci

Qualité des données• Bonnes données = Bonnes à quoi ?

• Mais si les données sont ouvertes, on ignore leur usage !

• Aporie• Jusqu’où aller ?• Quelles consignes dans Sudoc, Calames, STAR ?

– Miser sur le contenu textuel ?– Miser sur les liens aux référentiels et à d’autres données

fiables et stables ?

47

VERS UN WEB DE MÉTADONNÉESRDF

48

RDF

• Standard W3C• Existe depuis 1998, mais décolle aujourd’hui

• Resource Description Framework• Cadre général pour décrire n’importe quoi

» Tout peut être « resource » à décrire

• RDF, modèle universel pour intégrer toute information au Web de données

49

http://www.theses.fr/2009TOUR3802/iddcterms:creatorhttp://www.idref.fr/142976903/id

Cette thèse …… a pour auteur …… untel.

50

http://www.theses.fr/2009TOUR3802/idhttp://purl.org/dc/terms/creatorhttp://www.idref.fr/142976903/id

La relation creator est également identifiée par une URL

53

Comment publier ses métadonnées en RDF ?

• Mettre du RDF dans ses pages HTML» RDFa (RDF dans les attributs HTML)» Calames» Thèses de STAR :

www.theses.fr/{Numéro_national_de_Thèse}

• Publier un document RDF à part– RDF en XML (ou autre format)– Autorités Sudoc dans IdRef

54

Et si je veux voir ce RDF ?

- Mais le RDF est pour les machines !- Mais je veux voir !

Outils• Tabulator : naviguer dans le RDF• Operator : extraire le RDF du HTML+RDFa• Sindice Inspector : analyser et valider le RDF• RDFa distiller : extraire et valider le RDFa

55

Nos métadonnées et les moteurs

• Google» Rich snippets» RDFa à la Google pour Google» Pas possible de parler de thèses, de documents» Mais on peut parler de personnes, d’entreprises, de produits…

• Sindice» Moteur spécialisé dans les données sémantiques

• Les moteurs explorent, moissonnent• De plus en plus vont agréger et faire raisonner nos métadonnées• Seulement le début…

RDF :: Souci en moins

Dilemme de l’interopérabilitéseul et sociablepauvre et riche

tef:auteur

rdfs:subPropertyOf

dc:creator

RDF :: moins de souci

Agréger des données hétérogènes• Ne pas juxtaposer des notices

• Agréger des triplets RDF– Et plus si affinités (inférences)

RDF : moins de souci

Frontières institutionnellesFrontières interprofessionnelles

Manque d’imaginationBiais

• Plus de frontières• Tout le monde peut dire n’importe quoi sur

n’importe quoi– Pour le meilleur– Pour le pire

RDF :: souci en moins

Les données prisonnières des outils

• Ni des outils• Ni des formats (RDF n’est pas un format)• Ni des vocabulaires

Mais :• Attention à la conceptualisation• Attention aux faux-amis

Souci toujours

Qualité des données• Le problème reste entier

• Miser sur la qualité de nos données !– AOC des données (provenance)– Les machines ne font pas tout !

Quitte ou double

Quitte Double

L’application de traitements logiques sur de telles masses de données permet d’identifier les contradictions et les lacunes

Raisonner sur des données inexactes ou incohérentes, ça produit du n’importe quoi

Linked data

• Vers un Web de données liées• Credo :

– “Use URIs as names for things – Use HTTP URIs so that people can look up those names. – When someone looks up a URI, provide useful information,

using the standards (RDF, SPARQL) – Include links to other URIs. so that they can discover more

things. “Tim Berners Lee, 2006

The Linking Open Data cloud

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

DBpedia

• Wikipedia en RDF• http://dbpedia.org/About• De facto, vaste base de connaissance sur

laquelle les corpus RDF se règlent.• Le mapping : exemple BBC/DBPedia

http://www.w3.org/DesignIssues/LinkedData.html

65

LES MÉTADONNÉES COMME SERVICES

ABES

Calendrier

2008•Calames en RDFa

2010•Autorités Sudoc (IdRef)•Calames + riche•Thèses de STAR

2011•Sudoc•theses.fr

Autorités Sudoc

Les autorités Sudoc,pivot du Linked data ABES

theses.fr

Calames

SudocThèses soutenuesetThèses en cours (2011)

Portail des thèses

Autorités Sudoc

Linked data IST.fr ?

theses.fr

Calames

SudocThèses soutenuesetThèses en cours ( 2011)

HAL

revues.org

Persée

Presses univ. de Y

Plateforme pédagogiqu

e X

?

Autorités Sudoc

Linked data IST.fr ? Les labos !

theses.fr

Calames

SudocThèses soutenuesetThèses en cours ( 2011)

HAL

revues.org

Persée

Presses univ.s de Y

Plateforme pédagogiqu

e X

?

Référentiel des

laboratoires

Autorités Sudoc

Linked data IST.fr ? Les affiliations

theses.fr

Calames

Sudoc

HAL

revues.org

Persée

Presses univ.s de Y

Plateforme pédagogiqu

e X

PRISMES (AMUE) locaux

Référentiel des

laboratoires

Authentification, habilitation et données liées

• Problème : – dans theses.fr, on veut associer des droits

spécifiques aux auteurs de thèse (stats, être contacté)

– Comment reconnaître un utilisateur en tant qu’auteur

• Solution ?– Authentification Shibboleth avec « être l’auteur de

telle thèse » comme propriété discriminante

Autorités Sudoc

Linked data IST.fr ? Les brevets

theses.fr

Calames

Sudoc

HAL

revues.org

Persée

Presses univ.s de Y

Plateforme pédagogiqu

e X

brevets

Référentiel des

laboratoires

+ données de recherche, cahiers de laboratoire, congrès…

Système(s) d’information de la recherche

• Interconnecter nos bases• Ne pas enfermer les données dans de

nouveaux outils• Partager ce qui peut l’être• Se coordonner sans coopérer (sic)

77

Leibniz, Lettre à Arnauld, 30 avril 1687

Scénarios

1. On ouvre les données et « servez-vous ! »2. On offre aussi des services pour faciliter la

tâche• C’est le sens d’IdRef

IdRef

• Une application sur mesure pour « servir » les Référentiels Sudoc et partager leurs Identifiants

• 2 fonctions :– Chercher des autorités et y lier ses données– Enrichir le référentiel d’autorités (créer, modifier)

• 2 moyens– Se « brancher » sur l’application Web cuit– Exploiter les Web Services mi-cuit

• Données ouvertes cru

Une interface Web

Une application « pop up » pour ses applications « hôtes »

Une application « pop up » pour ses applications « hôtes »

Votre appli => IdRef => votre appli

Contribuer au référentiel commun

Des URL pérennes pour accéder aux données

http://www.idref.fr/060922370.html HTML

http://www.idref.fr/060922370.xml UNIMARC en XML

http://www.idref.fr/060922370.rdf RDF

Des Web Services

Bientôt un nouveau Web Service

Web de données = (catalogage partagé)2

• Contribuer au Web de données• Documentaire• Scientifique• Patrimonial

• Miser sur l’ouverture et la qualité des données• Empêcher les monopoles sur les données• Moins dépendre des fournisseurs de logiciels• Utiliser et valoriser la force de frappe des catalogueurs

nicolas@abes.fr