Medialille evolutions catalogage_avril2014_web-donnees

32
Web de données/ web sémantique : de quoi parle-t'on ? Quels impacts possibles sur les bibliothèques ?

description

Support 4 (web de données) des journées de formation sur l'évolution des catalogues organisées par MédiaLille et le groupe technique sur l'adoption de RDA en France.

Transcript of Medialille evolutions catalogage_avril2014_web-donnees

Page 1: Medialille evolutions catalogage_avril2014_web-donnees

Web de données/web sémantique : de quoi parle-t'on ?

Quels impacts possibles sur les bibliothèques ?

Web de données/web sémantique : de quoi parle-t'on ?

Quels impacts possibles sur les bibliothèques ?

Page 3: Medialille evolutions catalogage_avril2014_web-donnees

Architecture du Web (1)

• World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)

• Architecture du Web = les standards définissant l’infrastructure technologique

• Rôle du W3C (World Wide Web Consortium) : s’occupe de la standardisation de l’architecture du Web

Page 4: Medialille evolutions catalogage_avril2014_web-donnees

44

Les objectifs du W3C

• Accessibilité pour les logiciels et machines– Interopérabilité et portabilité – Production de contenu Web facilitée – Réduction du volume des pages – Meilleure visibilité et indexation par les moteurs de

recherche– Compatibilité – Pérennité des documents

• Accessibilité universelle aux contenus

Pas très éloigné Pas très éloigné des missions des des missions des

bibliothèques bibliothèques publiques tout ça !!publiques tout ça !!

Page 5: Medialille evolutions catalogage_avril2014_web-donnees

Architecture du Web (2)Repose sur 3 technologies : Un protocole : HTTP (Hypertext Transfer Protocol) Un langage : HTML (Hypertext Markup Language)

Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur

Des identifiants : URI (Uniform Resource Identifier) Ressource identifiées de manière univoque par une URI :

chaîne de caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)

Page 6: Medialille evolutions catalogage_avril2014_web-donnees

Architecture du Web - précisions

On peut classer les ressources sur le web en 2 grandes catégories :

• les ressources informationnelles : ressources dont on peut obtenir le ou les contenus en ligne (une représentation via HTTP), comme une page web ou une image par exemple

• les ressources non-informationnelles : ressources dont on ne peut pas obtenir de représentation via HTTP mais sur lesquels on va diffuser des informations (ex. : un objet, un monument, un lieu, un concept…)

Page 7: Medialille evolutions catalogage_avril2014_web-donnees

Évolutions du web Web 1.0 web de documents

permet aux usagers de naviguer facilement sur Internet en utilisant des liens hypertexte une page = un document

format : HTML (HyperText Markup Language) ne permet que la mise en forme

Web 2.0 web collaboratif évolution du Web du point de vue des technologies

employées et des usages Internet n’est plus simplement un media mais une

plate-forme de services et d'applications en ligne Permet aux internautes d'interagir sur le contenu des

pages et de dialoguer entre eux

Page 8: Medialille evolutions catalogage_avril2014_web-donnees

Le Web de documents

Base de données

Données Documents/pages

Base de données

Hyperlien…Parfois…

Inspiré deYann Nicolas, Le Web de données, enssib, 11 octobre 2012

Notice catalogr.d’1 document

(article)

Notice catalogr.d’1 document

(DVD)

Notice avec beaucoup,

de données qui

alimentent un catalogue avec encore

plus de données

Autre notice,

autre base et toujours

des données

Encore des données comme le palmarès du

prix Louis Delluc par exemple

Dossier pédagogique sur Les parapluies de Cherbourg

L’année 1963 en France

Une multitude d’informations mais très peu de connexions entre

elles

Page 9: Medialille evolutions catalogage_avril2014_web-donnees

Limites du Web de documents

MARC, sors de ta chambre ! Va jouer dehors avec les autres !

Page 10: Medialille evolutions catalogage_avril2014_web-donnees

Le Web de données ? Web de données ou Linked Data ou Web of Data

Mouvement de l’Open Data Mise à disposition de données publiques ouvertes

(etalab, creative comm.) librement accessibles sans restriction de copyright, licence payante…

Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. http://www.opendefinition.org/okd/)

+ Mise en relation pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web

Page 11: Medialille evolutions catalogage_avril2014_web-donnees

Le Web de données ? Un Web constitué de données accessibles,

structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement

(Définition de Tim Berners-Lee dès 1999) Objectif : Mettre à disposition des données en

utilisant des techniques standardisées qui garantissent l’interopérabilité :

Page 12: Medialille evolutions catalogage_avril2014_web-donnees

Pour avoir des données 5 étoiles, il faut :1. Que ces données soient publiées sur le web

selon des licences libres (de type creative commons comme la licence ouverte d’ETALAB).

2. Que ces données soient lisibles par des humains bien-sûr, mais aussi par des machines.

3. Que ces données soient encodées dans des formats informatiques non propriétaires.

4. Que ces données soient en RDF ou compatibles RDF.

5. Que ces données en RDF soient liées sur le web à d’autres données en RDF.

Page 13: Medialille evolutions catalogage_avril2014_web-donnees

Le Web de données

Base de données

Données Documents/pages

Base de données

Hyperlien…Parfois…

Inspiré deYann Nicolas, Le Web de données, enssib, 11 octobre 2012

Notice catalogr.d’1 document

(article)

Notice catalogr.d’1 document

(DVD)

Notice avec beaucoup,

de données qui

alimentent un catalogue avec encore

plus de données

Autre notice,

autre base et toujours

des données

Encore des données comme le palmarès du

prix Louis Delluc par exemple

Dossier pédagogique sur Les parapluies de Cherbourg

L’année 1963 en France

Une multitude d’informations mais très peu de connexions entre

elles

Une multitude Une multitude d’informations et d’informations et des connexions des connexions

entre elles = le web entre elles = le web devient une vaste devient une vaste

base de données et base de données et non un espace où non un espace où

coexistent des coexistent des bases de données. bases de données.

Page 14: Medialille evolutions catalogage_avril2014_web-donnees

Voilà ce à quoi rêvent nos machines…

Page 15: Medialille evolutions catalogage_avril2014_web-donnees

RDF RDF = Resource Description Framework Standard permettant de décrire les ressources Web et

métadonnées qui y sont associées Proposé en 1999 par le W3C Permet de décrire, représenter et relier simplement toute

ressource du Web : page Web, image, video, personne, objet, évènement, produit,

service, … tout ce qui peut être identifié par un URI peut être considéré

comme une ressource Objectif : partager les métadonnées pour des

ressources identiques par l’utilisation d’une syntaxe commune applicable à tous les domaines

Page 16: Medialille evolutions catalogage_avril2014_web-donnees

RDF ??C’est aussi simple que ça :

SUJET OBJETPREDICAT

Sujet :Charles Darwin

Objet :The origin of species

Prédicat :A écrit= Creator

Principe de base : toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément = déclaration RDF

Page 17: Medialille evolutions catalogage_avril2014_web-donnees

RDF : modèle de graphe Chaque membre du triplet est une ressource

qui peut être le sujet ou l’objet d’autres déclarations

On construit ainsi un modèle de graphe

Page 18: Medialille evolutions catalogage_avril2014_web-donnees

EXEMPLE DE GRAPHE

est né à

est un

a créé

est une

représente

est mort à

est le fils de

est contemporain de

a inspiré

est situé à

1824

est n

é en

est né en

1850est mort en

Alexandre Dumas

1802

lieu géographique

Alexandre Dumas

Honoré de Balzac

Paris

Œuvre romanesque

Marie Duplessis

est u

ne

Œuvre lyrique

a créé

Giuseppe Verdi

a été créé à

Venezia

Teatro la Fenice est morte à

est née en

Page 19: Medialille evolutions catalogage_avril2014_web-donnees

RDF : lever toute ambigüité pour les machines

Alexandre Dumas est né à Paris

Paris ???

Alexandre Dumas ???

Page 20: Medialille evolutions catalogage_avril2014_web-donnees

De MARC à RDF ?

• Les données des catalogues en MARC sont très structurées, et donc ré exploitables.

• Tout le travail effectué jusqu’à présent n’est donc pas perdu (ouf !) et sera utilisé pour :

• Définir des ontologies en RDF, c’est-à-dire exprimer en RDF les concepts spécifiques aux données bibliographiques (les attributs FRBR par exemple)

• Inclure les concepts génériques applicables aux données bibliographiques

• Définir des modèles de données en RDF (ce que veut faire la Bibliothèque du Congrès avec un nouveau format appelé BIBFRAME)

Page 21: Medialille evolutions catalogage_avril2014_web-donnees

000 cam 22 3 450 001FRBNF42226398000000X003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm2252 $aˆLes ‰guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc

http://catalogue.bnf.fr/ark:/12148/cb12367696d

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

Des URI pour identifier les ressources

Page 22: Medialille evolutions catalogage_avril2014_web-donnees

Des URI pour exprimer les relations entre les ressources

Dublin Core : Créateur

Dublin Core : Titre

RDA : Authorhttp://rdvocab.info/roles/author  

http://purl.org/dc/elements/1.1/title

http://purl.org/dc/elements/1.1/creator

ISBD : Titre propre http://iflastandards.info/ns/isbd/elements/P1004

Page 23: Medialille evolutions catalogage_avril2014_web-donnees

Une syntaxe normalisée : RDFUne syntaxe normalisée : RDF

Cet ouvrage

"Guide des chenilles d'Europe"a pour titre propre

sujet

verbecomplément d’objet

http://catalogue.bnf.fr/ark:/12148/cb42226398b

"Guide des chenilles d’Europe"

http://iflastandards.info/ns/isbd/elements/P1004

prédicat

objet

sujet

Le sujet est toujours un URI

Le prédicat est toujours un URI

L’objet peut êtreun texte (« littéral »)

ou un URI

2001 $aGuide des chenilles d'Europe

Page 24: Medialille evolutions catalogage_avril2014_web-donnees

Pour développer, à l’échelle du web, un réseau de relations entre les données

bibliographiques et encyclopédiques

Pour développer, à l’échelle du web, un réseau de relations entre les données

bibliographiques et encyclopédiques

http://catalogue.bnf.fr/ark:/12148/cb42226398b

"Guide des chenilles d’Europe"

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

"Carter"

"David"

1943

"Les Guides du naturaliste"

http://data.bnf.fr/what-happened/date-1943

http://iflastandards.info/ns/isbd/elements/P1004

A pour titre propre

http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation

Appartient à

http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé

http://xmlns.com/foaf/0.1/familyName A pour patronyme

http://xmlns.com/foaf/0.1/givenName A pour prénom

http://rdvocab.info/ElementsGr2/dateOfBirth

A pour date de naissance

http://rdvocab.info/roles/author  

A pour auteur

Page 25: Medialille evolutions catalogage_avril2014_web-donnees

Pour aller vers le Web sémantique

Vers le web de données

Vers le web sémantique

3 avril 2012 -- Bordeaux -- Urfist/Médiaquitaine Philippe Le Pape -- ABES

Consti

tué

d’élém

ents d

e

donnée

s liés

les

uns au

x autr

es

Les données portent en elles leur identification et leur fonction (leur « sens »), selon une syntaxe lisible par les « machines du web »

À condition d’utiliser les standards du web

Page 26: Medialille evolutions catalogage_avril2014_web-donnees

Devenir acteur du web de données pour :

• Relier les catalogues des bibliothèques avec d’autres données existantes

• Ouverture à d’autres communautés (libraires, éditeurs, …)

• Navigation par les utilisateurs sans avoir à connaître les formats des bases de données et les langages de requête spécifiques

• Plus de visibilité par les moteurs de recherche• Tirer parti des données structurées des catalogue

et des référentiels• Interopérabilité = Souplesse pour la réutilisation

des données

Page 27: Medialille evolutions catalogage_avril2014_web-donnees
Page 28: Medialille evolutions catalogage_avril2014_web-donnees

Des exemples

Isidore : http://www.rechercheisidore.fr Plateforme de recherche permettant

l’accès aux données numériques des sciences humaines et sociales

Données en accès libre (open access) Moissonnage ciblé des métadonnées et

données scientifiques structurées Enrichissement des métadonnées selon

les principes du Web de données

Page 29: Medialille evolutions catalogage_avril2014_web-donnees

Encore des exemples

Data.bnf.fr : http://data.bnf.fr Fiches descriptives des auteurs, des œuvres et des

sujets Possibilité de télécharger le RDF associé à la fiche

descriptive (exemple : le projet opencat)

VIAF (Virtual International Authority File)

http://viaf.org/

Valoriser les fichiers d'autorité des bibliothèques (visibilité et liens entre les données)

Rationnaliser la gestion des fichiers d’autorités

Page 30: Medialille evolutions catalogage_avril2014_web-donnees
Page 31: Medialille evolutions catalogage_avril2014_web-donnees

Des exemples plus inquiétants…

Pour un web libre ou la tragique histoire d’un jeune militant…

Page 32: Medialille evolutions catalogage_avril2014_web-donnees

Bref, tous les chemins mènent à…Organisation de

l’information bibliographique :

ISBD

F R B RF R B R

Web de Web de données !données !

Formats d’encodage

MARC

Format Format compatible compatible

RDF RDF (BIBFRAME ?)(BIBFRAME ?)

Web de Web de données !données !

Normes de catalogage

AACR

Afnor

REICAT

Etc…

R D A ?R D A ?

Web de Web de données !données !