2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

82
1 Formats de données en bibliothèques 23 juin 2011 – BiB92 Françoise Leresche – Patrick Le Bœuf

description

Présentation effectuée par Françoise Leresche (BNF) et Patrick Le-Boeuf (BNF) à la matinée organisée par BiB92 sur l'évolution des formats de données bibliographiques et des catalogues de bibliothèques, le 23 juin 2011 à Antony.

Transcript of 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

Page 1: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

1

Formats de donnéesen bibliothèques

23 juin 2011 – BiB92Françoise Leresche – Patrick Le Bœuf

Page 2: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

2

Plan Un peu de vocabulaire… Structure et finalité des catalogues – le modèle

FRBR Les bibliothèques dans l’environnement Web :

La « tour d’ivoire » des formats MARC Langages informatiques du Web :

XML et schémas de métadonnées en XML, Dublin Core Adaptation des formats MARC à ces langages Évolution de l’environnement Web :

Web sémantique, RDF Adaptation des règles de catalogage au nouvel

environnement : RDA et son impact sur les SIGB

Page 3: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

3

Un peu de vocabulaire…

Page 4: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

4

L’information bibliographique : les outils

modèles de l’information bibliographique

modèles de l’information bibliographique

principes internationaux de catalogage

principes internationaux de catalogage

règles de catalogage

règles de catalogage

formats bibliographiques

(MARC)

formats bibliographiques

(MARC)

ontologies ontologies

web sémantique

web sémantique

schémas de

métadonnéesschémas de

métadonnées

Page 5: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

5

Qu’est-ce qu’un « modèle » ? Modèle de données

Modèle qui décrit de façon abstraite comment sont représentées les données dans une organisation (point de vue d’un métier particulier), dans un système d’information ou une base de données. Un modèle donne une représentation conceptuelle

du monde (ou d'une partie du monde)en fonction d’un point de vue particulier qui va déterminer un certain nombre de choix

Page 6: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

6

Qu’est-ce qu’un « modèle » ? Les modèles conceptuels sont

des outils de dialogue et de compréhension entre personnes d’horizons différents (spécialistes d’un domaine // informaticiens)

des outils de dialogue entre réservoirs de données hétérogènes

des outils d’aide à la conception de systèmes des outils de comparaison, d’échange et de stockage

des données des outils d’intégration au web sémantique (ou web

de données)

Page 7: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

7

Qu’est-ce qu’un « format » ? Format (informatique)

Agencement structuré des données numériques sur un support lors de leur production, leur affichage, leur stockage sur ce support, leur compression, impression ou diffusion.

Format bibliographiqueDéfinition d’une présentation structurée de l’information bibliographique en vue de son échange sur support informatisé et/ou de son traitement dans un système informatisé.

Vocabulaire de la documentation, ADBS, 2004

Page 8: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

8

Qu’est-ce que les « métadonnées » ? Métadonnées

Informations structurées qui décrivent, expliquent, localisent ou encore facilitent la découverte, l’utilisation ou la gestion d’une ressource d’information

Différentes catégories de métadonnées, en fonction des informations qu’elles contiennent Métadonnées descriptives Métadonnées de structure Métadonnées techniques Métadonnées administratives

NISO (National Information Standards Organization), Understanding metadata, 2004, ISBN 1-880124-62-9http://www.niso.org/publications/press/UnderstandingMetadata.pdf

Cataloguer, c’est produire des

métadonnées descriptives !

Page 9: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

9

Structure et finalité des catalogues – le modèle

FRBR

Page 10: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

10

Qu’est-ce qu’un catalogue ? Regardons un peu dans le rétroviseur…

Page 11: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

11

Bibliothèque nationale, Catalogue général des imprimés :• Principe : regrouper les publications des œuvres d’un même auteur• Auteurs « prolifiques » : regroupement des notices par œuvre

Page 12: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

12

Le catalogue proposait d’abord les différentes éditions du texte original…

… puis d’autres versions linguistiques de la même œuvre

Page 13: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

13

Derrière chaque version, les différentes éditions étaient classées par date de publication…

Page 14: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

14

… Puis venaient les mentions d’exemplaires

(plusieurs exemplaires regroupés sous une même description de publication)

Page 15: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

15

Catalogues sur fiches

Duplication des fiches, ajout de « vedettes secondaires » :permet d’autres regroupements (par sujet, éditeur, cote etc.)

Mais fondamentalement il s’agit encore, dans le catalogue auteurs, de regrouper les œuvres :

- par versions, - puis par publications, - puis par exemplaires

possédés

Page 16: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

16

Catalogues informatisés Permettent virtuellement

n’importe quel regroupement, selon n’importe quel critère de recherche…

Mais dans la structure des notices, l’idéal sous-jacent reste celui du regroupement auteur / œuvre / « édition » / exemplaire (même s’il tend à être de moins en moins perceptible)

Page 17: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

17

Démarche de modélisation : FRBR (Functional Requirements for Bibliographic Records)

Années 1990 : l’IFLA élabore le modèle FRBR publié en 1998 modélise l’information contenue

dans les notices bibliographiques et leurs points d’accès

formalise l’idéal sous-jacent du regroupement auteur / œuvre / version / publication / exemplaire

Page 18: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

18

FRBRou les pièges du langage

J’ai perdu mon livre

Je vais acheter ce livre

Son livre est disponible en ligne et sur papier (broché et relié)

Son livre est lu jusqu’en Chine

un objet matériel

un produit défini par des caractéristiques communes en termes de contenu, d’aspect physique et de circonstances de production

un contenu textuel précisément identifié par delà la diversité de ses supports

une pure abstraction qui n’existe qu’à travers un lien intellectuel entre divers contenus textuels (original et traductions)

Page 19: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

19

FRBR = des entités…

Item

Manifestation

Expression

Œuvre

Une création, par delà ses différentes versions

Exemple : Les Travailleurs de la mer

Version sous laquelle une Œuvre est disponible

Exemple : traduction anglaise des Travailleurs de la mer

Publication (pour simplifier)

Exemple : Toilers of the Sea, G. Routledge & sons, 1886

Exemplaire matériel

Exemple : ouvrage coté 16-Y2-7542

Page 20: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

20

FRBR = … et des relations

Item

Manifestation

Expression

Œuvre Concept

Objet

Événement

Lieu

est au sujet de

a créé

a réalisé

a produit

possède

Personne

Collectivité

Famille

est réalisée par

est matérialisée dans

est représentée par

Page 21: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

21

Au total, FRBR… … regarde à la fois vers le passé et vers l’avenir :

cristallise l’idéal du regroupement des œuvres d’un auteur, déclinées par versions, par publications, par exemplaires

mais ouvre aussi les données bibliographiques sur un nouvel environnement

analyse la notice bibliographique comme une superposition de niveaux dont chacun peut être récupérable dans un contexte donné

énumère pour chacun de ces niveaux les éléments de données qui peuvent faire l’objet d’une recherche

traite l’information bibliographique comme un réseau d’éléments de données liés entre eux

Page 22: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

22

Les bibliothèques dans l’environnement

Web

La « tour d’ivoire »des formats MARC

Page 23: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

23

Formats MARC MARC = Machine Readable Cataloguing

Catalogage lisible par machine Premier format MARC défini par la Bibliothèque

du Congrès en 1965 Formats définis par les bibliothèques pour la

fourniture de notices aux bibliothèques Une norme de référence : ISO 2709 Aujourd’hui, 2 formats d’échange au niveau

international UNIMARC = format national d’échange en France MARC 21

Page 24: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

24

La norme ISO 2709 ISO 2709 – Format pour l’échange d’information

Norme à la base de tous les formats MARC Norme adaptée à l’information bibliographique

car elle permet de gérer des zones (et sous-zones) de longueur variable facultatives répétables ou non

Norme qui définit la structure d’une notice Label (sur 24 caractères) Répertoire Structure générique d’une zone

Étiquette (sur 3 caractères) Indicateurs de traitement Codes de sous-zones Caractère de fin de zone

Page 25: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

25

Derrière une notice MARC…000 cam 22 3n 450 001FRBNF322633020000009 003http://catalogue.bnf.fr/ark:/12148/cb32263302g 039 $oCRI$aSU059013100001P100 $a19970701d1886 m y0frey50 ba101 1 $aeng102 $aGB105 $a||||z 00|||106 $ar200 1 $aToilers of the sea$bTexte imprimé$fby Victor Hugo

$gauthorized English translation, by W. Moy Thomas210 $aLondon$cG. Routledge and sons$d1886215 $a1 vol. (XII-370 p.)$cpl.$din-16454 1 $t%Les ‰travailleurs de la mer700 1 $311907966$aHugo$bVictor$f1802-1885$4070702 1 $311191871$aThomas$bWilliam Moy$4730801 0 $aFR$bFR-751131015$c19970701$gAFNOR

$hFRBNF322633020000009$2intermrc

Page 26: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

26

… il y a la norme ISO 270900787cam 22002173n 450

001002100000003004700021039002500068100004100093101000800134102000700142105001800149106000600167200010500173210004000278215003600318454003500354700004300389702003900432801007000471930002800541_

FRBNF322633020000009_http ://catalogue.bnf.fr/ark:/12148/cb32263302g_ $oCRI$aSU059013100001P_ $a19970701d1886 m y0frey50 ba_1 $aeng_ $aGB_ $a||||z 00|||_ $ar_1 $aToilers of the sea$bTexte imprimé$fby Victor Hugo$gauthorized English translation, by W. Moy Thomas_ $aLondon$cG. Routledge and sons$d1886_ $a1 vol. (XII-370 p.)$cpl.$din-16_ 1$t%Les ‰travailleurs de la mer_ 1$311907966$aHugo$bVictor$f1802-1885$4070_ 1$311191871$aThomas$bWilliam Moy$4730_ 0$aFR$bFR-751131015$c19970701$gAFNOR$hFRBNF322633020000009$2intermrc_ $5FR-751131010:16-Y2-7542

Label Répertoire

Zones de données

Page 27: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

27

Les deux formats d’échangeMARC 21

descendant du premier format MARC (1965)

créé en 1999 par la fusion de quatre formats : USMARC, AUSMARC, CANMARC et UKMARC

maintenance par la Bibliothèque du

Congrès MARBI

utilisé dans le monde anglo-saxon … et même au-delà

en liaison avec les AACR(aujourd’hui avec RDA)

UNIMARC créé par l’IFLA en 1977 dans le cadre du CBU

(Contrôle bibliographique universel)

comme format pivot des échanges d’information bibliographique

adopté ensuite comme format de saisie

maintenance par l’IFLA utilisé par plusieurs pays

européens référence directe aux ISBD

Page 28: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

28

Les formats MARC - Avantages Leur grande précision Leur concision Leur capacité à refléter les règles de catalogage Leur adaptation parfaite à l’information

bibliographique

Page 29: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

29

Les formats MARC - Critiques Leur âge (ils ont plus de 40 ans) Leur limitation

seulement 2 niveaux de granularité (zone/sous-zone) pas plus de 36 sous-zones (26 + 10) pour chaque zone hiérarchie limitée entre notices manque de souplesse pour les liens

Leur complexité Leur spécificité

propres au monde des bibliothèques facteur d’isolement des bibliothèques

dans un environnement web face à l’explosion des schémas de métadonnées en XML

(Dublin Core, EAD, etc.)

Page 30: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

30

Les bibliothèques dans l’environnement

Web

Langages informatiques du Web : XML et schémas de métadonnées en

XML, Dublin Core

Page 31: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

31

XML en quelques mots Langage qui structure l’information… … sans la lier à une mise en forme unique et

définitive Ce n’est pas « un » format, mais le moule d’une

multiplicité de formats Depuis sa création en 1998 (recommandation du

World Wide Web Consortium – W3C), très nombreux usages

Joue un rôle majeur dans l’échange d’informations

Page 32: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

32

Sigle et historique XML = eXtensible Markup Language (Langage de

balisage extensible) La famille des langages de balisage :

SGML = Standard Generalized Markup Language (1986) – très complexe, inadapté au Web

HTML = HyperText Markup Language (1991) – version très simplifiée de SGML conçue pour le Web

XML (1998) – plus simple que SGML, plus riche que HTML

… Mais qu’entend-on au juste par « langage de balisage » ?

Page 33: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

33

On prend un texte… Par exemple, une recette de cuisine :

La mayonnaise se fait avec de l’huile et du jaune d’œuf.

Page 34: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

34

Baliser un texte, cela revient à passer du stabilo sur ses différents segments…

La mayonnaise se fait avec de l’huile et du jaune d’œuf.

recette produit ingrédient

<recette>La <produit>mayonnaise</produit> se fait avec de l’<ingredient>huile</ingredient> et du <ingredient>jaune d’œuf</ingredient>.</recette>

<recette>

</recette>

<produit> </produit><ingredient> </ingredient>

<ingredient> </ingredient>

Page 35: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

35

Un peu de jargon…

<ingredient type="liquide">huile</ingredient>

élément

nom de balise

nom d'attribut

valeurde l'attribut

valeur de l'élément

attribut

balise (ouvrante) balise (fermante)

Page 36: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

36

Qui décide du nom des balises ?

XML autorise tout un chacun à créer ses propres balises…

… mais pour travailler ensemble et partager des données, ça peut être gênant…

Il existe 2 moyens de créer des modèles de documents : DTD (Document Type Definition) XML Schema

Page 37: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

37

Pour résumer XML définit une arborescence d’éléments Chaque élément est encadré par des

balises et peut recevoir des attributs Un élément peut être vide Il existe différents modèles de documents

XML, définis par des DTD ou des schémas XML

La mise en forme d’un document XML est totalement dissociée de son contenu

Page 38: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

38

Exemples de formats XML.1, ONIX For Books ONIX = ONline Information eXchange

Initialement créé par The Association of American Publishers, et aujourd’hui promu par le groupe EDItEUR

1re version d’ONIX for Books publiée en 2000

But : offrir aux clients des éditeurs une information enrichie visant à rendre les produits plus attractifs : couverture, biographie de l’auteur, critiques, table des matières…

Peut servir à enrichir le contenu d’un catalogue de bibliothèque, à créer une pré-notice bibliographique...

groupement international qui coordonne le développement de l’infrastructure normative pour le

commerce électronique des livres et publications en série

Page 39: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

39

ONIX for books : exemple<TitleDetail>

<TitleType>01</TitleType><TitleElement><TitleElementLevel>01</TitleElementLevel><TitleText>Toilers of the sea</TitleText></TitleElement>

</TitleDetail><Contributor>

<SequenceNumber>1</SequenceNumber><ContributorRole>A01</ContributorRole><NamesBeforeKey>Victor</NamesBeforeKey><KeyNames>Hugo</KeyNames><BiographicalNote>Victor Hugo is one of the most famous exponent of the French literature. His work touches upon most of the political and social issues and artistic trends of his time.</BiographicalNote>

</Contributor><Contributor>

<SequenceNumber>2</SequenceNumber><ContributorRole>B06</ContributorRole><NamesBeforeKey>William Moy</NamesBeforeKey><KeyNames>Thomas</KeyNames>

</Contributor><ContributorStatement>by Victor Hugo ; authorized English translation, by W. Moy Thomas</ContributorStatement>

Page 40: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

40

Exemple d’utilisation de données ONIX par la Bibliothèque du Congrès

Page 41: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

41

Exemples de formats XML.2, EAD EAD = Encoded Archival Description Maintenance par la Bibliothèque du

Congrès et la Société des archivistes américains

Publiée en 1998 (version actuelle : 2002) Concerne les fonds d’archives

de plus en plus aussi : les manuscrits conservés en bibliothèque

Page 42: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

42

Exemple d’utilisation d’EAD Calames (Catalogue en ligne des archives et des

manuscrits de l’enseignement supérieur)

Page 43: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

43

Exemples de formats XML.3, Dublin Core (Pas forcément exprimé en XML, mais de

fait l’est souvent) Schéma de métadonnées généraliste

définit un noyau minimal de métadonnées(15 éléments)

Créé en 1995 à Dublin, Ohio par OCLC et NCSA (National Center for Supercomputing Applications)

Maintenance assurée par la Dublin Core Metadata Initiative (DCMI) http://dublincore.org/

Devenu norme ISO 15836 en 2003

Page 44: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

44

Exemples de formats XML.3, Dublin Core Objectif = améliorer la recherche de

ressources sur le Web Définir un ensemble de métadonnées

communes à diverses communautés suffisamment simples pour que des non-

spécialistes puissent les créer à n’importe quel point du cycle de vie des ressources

mais suffisamment structurées pour rendre les moteurs de recherche plus performants

Page 45: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

45

Dublin Core simple : exemple

<dc:title>Toilers of the sea</dc:title> <dc:title>Les travailleurs de la mer</dc:title><dc:creator>Hugo, Victor (1802-1885)</dc:creator> <dc:contributor>Thomas, William Moy</dc:contributor> <dc:language>eng</dc:language><dc:publisher>G. Routledge and sons</dc:publisher><dc:date>1886</dc:date> <dc:type>Text</dc:type> <dc:format>1 vol. (XII-370 p.) : pl. ; in-16</dc:format>

Page 46: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

46

Les bibliothèques dans l’environnement

Web

Adaptation des formats MARC à ces langages

Page 47: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

47

De Marc à XML Besoin d’interopérabilité pour pouvoir échanger

avec d’autres communautés qui produisent de l’information bibliographique sur le web

Nouveaux protocoles d’échange, fondés sur XML et les technologies du web

Puissance du langage XML, qui permet d’exploiter les données dans diverses applications(conversions, indexation, affichage, etc.)

Besoin d’encoder l’information bibliographique en XML

Page 48: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

48

Option 1 : « habiller » MARC en XMLMARCXMLhttp://www.loc.gov/standards/marcxml/

schéma XML pour le format MARC21

créé en 2000 développé et maintenu

par la Bibliothèque du Congrès

structure très simple conversion

sans aucune perte réversible

MarcXchangehttp://www.loc.gov/standards/iso25577/

norme ISO 25777 : 2008 pour l’échange en XML

de l’information bibliographique

alternative à la norme ISO 2709

étend à tous les formats MARC le principe de base de MARCXML

introduit 2 précisions le format MARC le type de notice

Page 49: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

49

MARCXML : structure Exprimer en XML une ou plusieurs notices MARC

collection record

<leader>

<controlfield tag="  " >

<datafield tag="  " ind1="  " ind2="  " > <subfield code="  " >

<controlfield tag="  " > etc.

<subfield code="  " > etc.

<datafield tag="  " ind1="  " ind2="  " >

etc.

<subfield code="  " > <subfield code="  " > etc.

Données codées traitées comme deschaînes de caractères

Page 50: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

50

MarcXchange : exemple Conversion en XML d’une zone UNIMARC

200 1# $aToilers of the sea$bTexte imprimé$fby Victor Hugo$gauthorized English translation, by W. Moy

Thomas

<datafield tag="200" ind1="1" ind2="#"> <subfield code="a">Toilers of the sea</subfield> <subfield code="b">Texte imprimé</subfield> <subfield code="f">by Victor Hugo</subfield> <subfield code="g">authorized English translation,

by W. Moy Thomas</subfield> </datafield>

Page 51: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

51

Option 2 : saisie directe en XML MODS = Metadata Object Description Schema

http://www.loc.gov/standards/mods/ schéma XML permettant de créer directement en XML

des métadonnées descriptives fondé sur MARC 21 simplifié élaboré en 2002-2003 par la Bibliothèque du Congrès version 3.4 (2010)

MADS = Metadata Authority Description Schemahttp://www.loc.gov/standards/mads/ pendant de MODS pour les notices d’autorité élaboré en 2005 par la Bibliothèque du Congrès version 2.0 (2011) à paraître

Page 52: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

52

MODS Plus intelligible par les utilisateurs que MARCXML

balises explicites (termes anglais) Permet la description de toutes les ressources

ressources numériques complexes (sites web, etc.) gestion de la hiérarchie

Description modulable 20 éléments de haut niveau, avec la possibilité

d’utiliser des sous-éléments et des attributs ensemble d’éléments plus riche et mieux adapté à la

description bibliographique que Dublin Core, mais plus simple que MARC 21

analyse des éléments de données inspirée de MARC 21, mais avec une organisation originale conversion avec modification de structure

Page 53: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

53

MODS : exemple d’encodage <titleInfo>

<title type="translated" xml:lang="eng">Toilers of the sea</title>

</titleInfo> <titleInfo>

<nonSort xml:lang="fre">Les</nonSort> <title xml:lang="fre">travailleurs de la mer</title>

</titleInfo> <typeOfResource>text</typeOfResource> <name>

<namePart type="family">Hugo</namePart> <namePart type="given">Victor</namePart> <namePart type="date">1802-1885</namePart> <role><roleTerm type="code">aut</roleTerm></role>

</name>

Page 54: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

54

L’information bibliographique en XML

ONIX

UNIMARC MARC 21

MARCXMLMarcXchange

MODSMADS

création en XML

XML

conversion en XML

nonXML

édition

bibliothèques

QUI ?COMMENT ?

Page 55: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

55

Les bibliothèques dans l’environnement

Web

Évolution de l’environnement Web : Web sémantique, RDF

Page 56: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

56

Le Web sémantique, qu’est-ce que c’est ? Web sémantique

un ensemble de technologies et de standards développés par le W3C pour construire le Web de données

Web de données une extension du Web permettant de relier non

pas des documents (pages HTML) mais les données elles-mêmes, et de les rendre exploitables par des machines

Page 57: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

57

Pour être visible sur le Web, la bibliothèque doit…

Mettre à disposition des données… Dans l’écosystème du Web :

Indexables par les moteurs de recherche Reliées avec d’autres données existantes Sur le passage des utilisateurs

Page 58: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

58

Que va nous apporter le Web de données ? Données reliées avec d’autres Architecture du Web Plus de visibilité Autres communautés Interopérabilité Souplesse pour la réutilisation des

données

Page 59: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

59

Quelques principes de base

700 $3 11907966 $a Hugo $b Victor $f 1802-1885 $4 070200 1   $a Toilers of the sea $b Texte imprimé

700 11907966

11907966 $a Hugo $b Victor $f 1802-1885

$4 070

200 ‘‘Toilers of the sea’’

1. Structurer l’information

Page 60: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

60

Quelques principes de base

700 11907966

11907966 $a Hugo $b Victor $f 1802-1885

$4070

200

‘‘Toilers of the sea’’

http://catalogue.bnf.fr/ark:/12148/cb32263302g

http://catalogue.bnf.fr/ark:/12148/cb11907966z

2. Nommer les ressources avec des identifiants Web (URI)

Page 61: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

61

Quelques principes de base

Hugo

‘‘Toilers of the sea’’

http://catalogue.bnf.fr/ark:/ 12148/cb32263302g

http://catalogue.bnf.fr/ark:/12148/cb11907966z

Victor

200 $a

200 $b

nom

prénom

3. Définir les relations entre les ressources… en utilisant des vocabulaires normalisés

700$4070

200

auteur

titre

DC:creator

DC:title

FOAF:familyName

FOAF:givenName

Page 62: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

62

Quelques principes de base

Hugo

‘‘Toilers of the sea’’

http://catalogue.bnf.fr/ark:/12148/cb32263302g

http://catalogue.bnf.fr/ark:/12148/cb11907966zDC:creator

DC:title

Victor

FOAF:familyName

FOAF:givenNamehttp://xmlns.com/foaf/0.1/givenName

http://xmlns.com/foaf/0.1/familyName

http://purl.org/dc/terms/creator

http://purl.org/dc/terms/title

4. Nommer les relations avec des URI

Page 63: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

63

Quelques principes de base5. Exprimer le tout avec une syntaxe normalisée

@prefix dc: < http://purl.org/dc/terms/>

@prefix foaf: < http://xmlns.com/foaf/0.1/>

http://catalogue.bnf.fr/ark:/12148/cb32263302g dc:creator http://catalogue.bnf.fr/ark:/12148/cb11907966z.

http://catalogue.bnf.fr/ark:/12148/cb11907966z foaf:familyName ‘‘Hugo’’;

foaf:givenName ‘‘Victor’’.

http://catalogue.bnf.fr/ark:/12148/cb32263302g dc:title ‘‘Toilers of the sea’’.

Page 64: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

64

Adaptationdes règles de catalogageau nouvel

environnement

RDA et son impact sur les SIGB

Page 65: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

65

« RDA - the new, unified standard for resource description and access, designed for the digital world and an

expanding universe of metadata users »

Qu’est-ce que RDA ? La réponse… en 2010

Page 66: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

66

Un nouveau code de catalogage Élaboré par la communauté des bibliothèques

anglo-américaines JSC for development of RDA

Australie, Canada, États-Unis, Grande-Bretagne Travaux menés de 2003 à 2010

En remplacement des AACR (Anglo-American Cataloguing Rules)

Pour adapter les catalogues à leur environnement actuel (univers du web)

Publication : juin 2010 Sous la forme d’un site web payant : RDA Toolkit

Page 67: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

67

Un code conçu pour le numérique La recherche d’information aujourd’hui s’effectue

sur le web Sortir les catalogues de bibliothèques de leur

isolement pour les mettre sur le passage des utilisateurs sur le web

Ceci impose une nouvelle structure de l’information bibliographique Sortir du modèle du fichier (succession linéaire de

notices autonomes et juxtaposées) Aller vers le modèle du web (réseau de liens entre des

documents (web 1.0) ou entre des données (web 3.0)

Page 68: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

68

Nouvelle structure des catalogues Objectif de RDA : aller vers une structure de base

de données relationnelle ou orientée-objet…

… en s’appuyant sur les outils disponibles : les modèles conceptuels FRBR

Scénario 1 d’implémentation de RDA

Page 69: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

69

Œuvre Œuvre Personne

Expression

Personne

Expression

Personne

Collectivité

Personne

Collectivité

Manifestation Manifestation

Collectivité

Item ItemCollectivitéPersonne

Concept

Nouvelle structure des catalogues

(scénario 1 de RDA)

Page 70: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

70

Nouvelle approche du catalogage Organiser l’information bibliographique à partir de

sa modélisation conceptuelle (entités/relations) Modèle FRBR pour les données bibliographiques Modèle FRAD pour les données d’autorité

Mettre le modèle au cœur des règles de catalogage Rendre compte des entités FRBR /FRAD

de leurs caractéristiques : leurs attributs des relations qu’elles peuvent avoir entre elles

Associer chaque élément de données aux entités FRBR / FRAD aux tâches des utilisateurs du catalogue

Page 71: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

71

Cataloguer selon le modèle FRBR Norme de contenu

Analyse de l’information dissociée de sa présentation Indépendance par rapport aux formats d’encodage

Définition des éléments de données Correspondance étroite entre les éléments de RDA et les

attributs/relations des modèles FRBR/FRAD Définition d’un ensemble d’éléments

fondamentaux (« core elements ») obligatoires si applicables définis à partir de leur importance pour répondre aux

principales tâches des utilisateurs

Page 72: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

72

Accès normalisé : Hugo, Victor (1802-1885)Date et lieu de naissance : 1802-02-26, Besançon Date et lieu de mort : 1885-05-22, Paris Activité : Écrivain. Artiste graphiste, auteur de lavis Membre de l'Académie française (élu en 1841)Identifiant : xxxxx

Accès normalisé : Hugo, Victor (1802-1885)Date et lieu de naissance : 1802-02-26, Besançon Date et lieu de mort : 1885-05-22, Paris Activité : Écrivain. Artiste graphiste, auteur de lavis Membre de l'Académie française (élu en 1841)Identifiant : xxxxx

Titre privilégié : Les travailleurs de la merVariante de titre : L’abîmeVariante de titre : Toilers of the seaCréateur : Hugo, Victor (1802-1885)

Fonction : AuteurDate de l’œuvre : 1866Forme de l’œuvre : RomanLieu d’origine : FranceHistoire de l’œuvre : Écrit entre 1861 et 1865 ; titre primitif "L'abîme" Identifiant : xxxxx

Titre privilégié : Les travailleurs de la merVariante de titre : L’abîmeVariante de titre : Toilers of the seaCréateur : Hugo, Victor (1802-1885)

Fonction : AuteurDate de l’œuvre : 1866Forme de l’œuvre : RomanLieu d’origine : FranceHistoire de l’œuvre : Écrit entre 1861 et 1865 ; titre primitif "L'abîme" Identifiant : xxxxx

Titre privilégié : Hugo, Victor (1802-1885). Les travailleurs de la mer. Anglais. ThomasContributeur : Thomas, William Moy

Fonction : TraducteurType de contenu : TexteLangue de l’expression : AnglaisDate de l’expression : 1886Présence d’illustration : illustrations Identifiant : xxxxx

Titre privilégié : Hugo, Victor (1802-1885). Les travailleurs de la mer. Anglais. ThomasContributeur : Thomas, William Moy

Fonction : TraducteurType de contenu : TexteLangue de l’expression : AnglaisDate de l’expression : 1886Présence d’illustration : illustrations Identifiant : xxxxx

Titre propre : Toilers of the seaMentions de responsabilité : by Victor Hugo ; authorized English translation, by W. Moy Thomas Lieu de publication : LondonNom de l’éditeur : G. Routledge and sons Date de publication : 1886Mode de publication : Unité isoléeType de médiation : ImmédiatType de support : VolumeImportance matérielle : XII-370 pages Format bibliographique : in-16Identifiant : xxxxx

Accès normalisé Œuvre : Hugo, Victor (1802-1885). Les travailleurs de la mer

Accès normalisé Expression : Hugo, Victor (1802-1885). Les travailleurs de la mer. Anglais. ThomasAccès normalisé Créateur de l’Œuvre : Hugo, Victor 1802-1885). Auteur

Accès normalisé Contributeur de l’Expression :Thomas, William Moy. Traducteur

Titre propre : Toilers of the seaMentions de responsabilité : by Victor Hugo ; authorized English translation, by W. Moy Thomas Lieu de publication : LondonNom de l’éditeur : G. Routledge and sons Date de publication : 1886Mode de publication : Unité isoléeType de médiation : ImmédiatType de support : VolumeImportance matérielle : XII-370 pages Format bibliographique : in-16Identifiant : xxxxx

Accès normalisé Œuvre : Hugo, Victor (1802-1885). Les travailleurs de la mer

Accès normalisé Expression : Hugo, Victor (1802-1885). Les travailleurs de la mer. Anglais. ThomasAccès normalisé Créateur de l’Œuvre : Hugo, Victor 1802-1885). Auteur

Accès normalisé Contributeur de l’Expression :Thomas, William Moy. Traducteur

Cataloguer selon le modèle FRBR

Localisation : BnF - Tolbiac - Littérature et art - Rez-de-jardin - magasin

Cote : 16-Y2-7542

Localisation : BnF - Tolbiac - Littérature et art - Rez-de-jardin - magasin

Cote : 16-Y2-7542 EXPRESSION

MANIFESTATION

ITEM

ŒUVRE

Accès normalisé : Thomas, William Moy Identifiant : xxxxx

Accès normalisé : Thomas, William Moy Identifiant : xxxxx

Page 73: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

73

Cataloguer dans un monde numérique Ouvrir la voie à la récupération automatique

des données descriptives Transcription des informations descriptives telles

qu’elles figurent sur les ressources Définition de référentiels communs avec ONIX

Prendre acte de l’informatisation des catalogues Fin des contraintes liées à la présentation des fiches

changement de vocabulaire fin de l’emploi des abréviations abandon de la règle de trois

Possibilité de multiplier les points d’accès

Page 74: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

74

Aller vers le web sémantique Répartir l’information bibliographique selon les

entités FRBR Créer un réseau de données interconnectées Refléter les différents niveaux utiles à différents

utilisateurs ouvre la voie à la mutualisation des données

Enregistrement dans l’Open Metadata Registry des éléments et référentiels de RDA, avec attribution d’identifiants pérennes (URI)

expression en RDF des données créées avec RDA

Page 75: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

75

Pour résumer Des objectifs louables … et auxquels on ne peut

que souscrire Mettre les catalogues de bibliothèque sur le web Participer pleinement à la circulation de l’information

MAIS Des obstacles demeurent

Trop grande continuité avec les AACR Une modélisation inexacte par souci de simplification Trop grande souplesse d’implémentation

Confusion des règles qui mêlent différents scénarios

Page 76: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

76

Adopter RDA en France ? Besoin d’actualiser les règles de catalogage

pour suivre les évolutions au niveau international pour répondre aux besoins des catalogues d’aujourd’hui

Perspectives offertes par RDA Rénovation en profondeur des règles de catalogage Mutation des catalogues Ouverture vers le web de données

Réflexion menée dans le cadre de l’AFNOR Création de deux groupes de travail

Groupe de travail technique (aspects professionnels)

Groupe de travail stratégique (aspects politiques)

Page 77: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

77

Groupe stratégique, 25 mars 2011 Il faut aller vers une nouvelle structure

des catalogues reflétant le modèle FRBR Il faut rechercher l’interopérabilité maximale avec

les catalogues étrangers Préparer les conditions d’une adoption de RDA

sans profil national travailler à la définition d’un profil européen

selon le scénario 1 de RDA Expérimenter la FRBRisation des catalogues

à travers les initiatives des grands établissements et réseaux … mais en les coordonnant

Page 78: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

78

Évolution des SIGB Intérêt des éditeurs de logiciels pour une mise en

œuvre du modèle FRBR nouvelle génération de systèmes sans calendrier précis à ce stade besoin de consignes claires

sur le scénario d’implémentation de RDA retenu sur les évolutions des formats (en France, UNIMARC)

Questions Comment gérer la période de transition ? Comment mutualiser les efforts de catalogage ?

Notices d’Œuvres et d’Expressions

Page 79: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

79

Évolutions du format Unimarc Besoin d’exprimer le modèle FRBR en Unimarc,

le format de catalogage en usage en France Travail considérable … qui n’est pas terminé

15 demandes d’évolution des formats préparées par le CfU (Comité français Unimarc)

4 nouvelles zones en Unimarc/B 33 nouvelles zones en Unimarc/A 11 zones modifiées en Unimarc/A

Propositions validées par le PUC (Permanent Unimarc Committee) de l’IFLA en mars 2011

statut provisoire (3 ans) pour les zones relatives à l’Expression

Diffusion possible aux éditeurs de logiciels

Page 80: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

80

FRBR en Unimarc Des notices pour les

entités FRBR du Groupe 1

Œuvre Unimarc/A

Expression Unimarc/A

Manifestation Unimarc/B

Item Unimarc/H

Principes directeurs Créer de nouvelles zones

(U/A et U/B) pour les données « FRBRisées »

Conserver les anciennes pour les données pré-FRBR et/ou les catalogues non « FRBRisés »

Utilisation du bloc 5XX (Unimarc/A) pour les noms associés aux Œuvres et aux Expressions

déclinaison semblable aux 7XX de l’Unimarc/B 5X0, 5X1, 5X2

utilisation des codes de fonction en $4

Page 81: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

81

Bientôt un nouveau format ? 23 mai 2011 : annonce sur le site de la Bibliothèque du Congrès :

Bibliographic Framework Transition Initiative

Réflexion engagée sur le format futur des échanges d’information bibliographique abandonner les formats MARC (dans 10 ans ?) définir un nouveau format

aussi robuste que MARC mieux adapté aux technologies du web plus apte à exprimer le modèle FRBR

À suivre…

Page 82: 2011 06-23 bi-b92_formats-de-donnees_fl-pl-b

82

Mercide votre attention