structuration des métadonnées de pérennisation

83
Les métadonnées de pérennisation et l’accès aux objets Formation 19-23 Novembre 2013 Pérennisation et communication de l'information numérique Pascal Romain Ingénieur documentaire Département général de la Gironde
  • date post

    20-Oct-2014
  • Category

    Technology

  • view

    565
  • download

    2

description

Présentation dans le cadre de l'association PIN abordant la question des métadonnées dans le modèle OAIS et des différents schémas ou concepts de représentation de l'information dans le contexte de l'archivage électronique

Transcript of structuration des métadonnées de pérennisation

Page 1: structuration des métadonnées de pérennisation

Les métadonnées de pérennisation et l’accès aux objets

Formation

19-23 Novembre 2013

Pérennisation et communication

de l'information numérique Pascal Romain Ingénieur documentaire

Département général de la Gironde

Page 2: structuration des métadonnées de pérennisation

Sommaire • Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées

Page 3: structuration des métadonnées de pérennisation

Introduction sur les métadonnées : enjeux

Comment sécuriser et diffuser l’information au sein d’un même processus ?

Page 4: structuration des métadonnées de pérennisation

Introduction sur les métadonnées : définition

Une métadonnée est une donnée

servant à définir ou décrire une autre

donnée. Porteuse d'information sur le

contexte, le sens et la finalité de la

ressource informationnelle portée par la

donnée brute.

μετά: préfixe grec indiquant

l'auto-référence

Page 5: structuration des métadonnées de pérennisation

Introduction sur les métadonnées : cas pratique

+ =

titre

contexte temporel

contexte spatial

producteur

indexation sujet

indexation lieu

Page 6: structuration des métadonnées de pérennisation

Introduction sur les métadonnées : théorie

Dans le contexte numérique, des dispositifs de médiation sont nécessaires à l’appréhension de la donnée.

Plusieurs communautés d’utilisateurs impliquent différents types de métadonnées

Une métadonnée doit avoir une finalité et une utilité immédiate

Des dispositifs

d’encodage, de lecture

et de transmission

conditionnent

notre accès aux données

Des dispositifs de stockage, de sécurisation

et de surveillance sont nécessaires à la conservation des données

Attention : l’abus de métadonnées est dangereux pour la santé

Page 7: structuration des métadonnées de pérennisation

Introduction sur les métadonnées : enjeux

La structuration de

l’information est

la clé qui assure la versatilité

des usages qui peuvent être

capitalisés à partir d’un

processus de description

Page 8: structuration des métadonnées de pérennisation

Introduction sur les métadonnées : structuration

métadonnées techniques

métadonnées administratives

métadonnées descriptives

métadonnées de structure

Conservation des informations sur le processus de création

et de transformation

Traçabilité des échanges et des habilitations

Intelligibilité du contexte

Pérennisation et interopérabilité

Page 9: structuration des métadonnées de pérennisation

Introduction sur les métadonnées: typologie

On distingue généralement 4 grands types de métadonnées :

métadonnées techniques: décrivent les outils utilisés pour créer la donnée ainsi que le processus de création lui-même. essentielles à l'intelligibilité de la donnée dans un contexte d'intermédiation numérique ainsi qu'à la qualité de la donnée dans une perspective de conservation sur le long terme. elles doivent suivre le cycle de vie de la donnée et permettre de garantir son intégrité

métadonnées administratives

utilisées pour définir les contrôles d'accès à la donnée décrivent les évènements et les agents qui interviennent sur la donnée ainsi que les conditions d'utilisation permettent de gérer la donnée et les liens qui peuvent exister entre ses éventuelles différentes représentations

métadonnées descriptives

utilisées pour préciser le contenu informatif de la donnée structurent les informations dont la donnée est porteuse en la reliant à des concepts ou à d'autres données permettent d'expliciter, de décrire, de contextualiser ou de hiérarchiser l'information

métadonnées de structure

enveloppes qui permettent de relier plusieurs types de métadonnée permettent de disposer d'un cadre de description commun favorisant l'interopérabilité de l'information

Page 10: structuration des métadonnées de pérennisation

Introduction sur les métadonnées : enjeux de production

Comment produire des métadonnées à

moindre coût ?

Page 11: structuration des métadonnées de pérennisation

Introduction sur les métadonnées: production

La production de métadonnées peut

s'envisager à différentes étapes

du cycle de vie du document

porteur d'information :

saisie à la création saisies au cours d'une étape de traitement de l'information extraction à posteriori : transformation, diffusion, récupération

Page 12: structuration des métadonnées de pérennisation

Sommaire

• Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées

Page 13: structuration des métadonnées de pérennisation

Modèle conceptuel organisé autour de 6 entités gérant les échanges

d’informations au sein du système d’information

Système d’information ouvert d’archivage OAIS

Page 14: structuration des métadonnées de pérennisation

Le modèle conceptuel nous

aide à considérer l’objet information dans un cycle de vie non-linéaire

Le modèle d’information de l’OAIS: les paquets d’information

Page 15: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: les paquets d’information

Dans le contexte de la pérennisation, les informations peuvent prendre 3 formes successives ou simultanées:

•le paquet d’information à soumettre : SIP (Submission Information Package)

le paquet d’information à archiver: AIP (Archival Information Package). Il peut exister sous 2 formes au sein de l’archive OAIS

Le paquet d’information à diffuser : DIP (Diffusion Information Package)

•Les entités administration et planification sont chargés de gérer ces états en fonction des besoins

Page 16: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: les paquets d’information

Paquet

Information

Objet

Page 17: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: les paquets d’information: l’information

l’Objet Information est composé

d’un objet données

(physique ou numérique) et de l’information de

représentation qui permettent d’interpréter les données

sous la forme d’une information compréhensible.

Page 18: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: les paquets d’information: la représentation

•Information de structure

types de données courants en informatique, comme des caractères, des nombres, des pixels, des tableaux

•Information sémantique

informations complémentaires associées aux éléments de structure, telles que la langue dans laquelle l’objet est exprimé, les opérations réalisables sur chaque type de données et leurs relations, etc.

•Autres

Identifiants d’autres standards comme la référence à la norme ASCII

basé sur le principe de la récursivité

Page 19: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: les paquets d’information: la pérennisation

Information de provenance

Décrit l’origine du contenu d’information, qui en a la charge, et quel est l’historique de ses modifications

•Information de contexte

•Décrit comment le contenu d’information s’articule avec d’autres informations à l’extérieur du paquet

•Information d’identification

•Fournit un ou plusieurs identifiants ou systèmes d’identification

•Information d’intégrité

•Protège le contenu d’information contre les altérations non documentées

Page 20: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: les relations

Une information est toujours produite dans un contexte. Elle résulte de l’action d’un ou plusieurs agents. Son cycle de vie est une suite d’événements qui opèrent sur des objets entre lesquels il existe souvent des relations

Page 21: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: le contexte du versement

Le versement d’un document ou d’une archive dans une perspective de pérennisation implique la description de plusieurs éléments de contexte (l’environnement technique, la description du producteur, la description du contenu, les droits d’accès).

Il mets en relation un agent versant et un agent recevant autour d’un versement comprenant des objets en relation

Page 22: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: le contexte de la gestion (ou archivage)

La gestion et le stockage impliquent la description d’évènements (l’analyse, l’enrichissement, le stockage, la migration) dont la responsabilité incombe à différentes entités OAIS. Ces processus sont complexes et nécessitent la description des objets à conserver et à diffuser

Page 23: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: le contexte d’administration

L’administration dans le temps de l’objet archive nécessite le suivi et la conservation des événements qui affectent l’information.

Une veille technologique est nécessaire pour garantir l’accès des agents habilités au cours du cycle de vie des objets informationnels et la conservation du capital informationnel.

Page 24: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: le contexte de l’accès

L’accès aux informations nécessite l’enrichissement et la mise en relation des objets avec d’autres sources d’explicitation .

Les communautés d’agents expriment des besoins qui doivent être pris en compte sans compromettre l’intégrité de l’entité OAIS.

Page 25: structuration des métadonnées de pérennisation

Le modèle d’information de l’OAIS: la structuration des méta-données

L’entité OAIS utilise les métadonnées pour normaliser et structurer les échanges d’informations avec les acteurs externes et internes

L’objectif est de conserver la richesse de l’information et sa traçabilité

Page 26: structuration des métadonnées de pérennisation

Sommaire

• Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées

Page 27: structuration des métadonnées de pérennisation

Quelle métadonnées pour la pérennisation ? Les informations techniques

Les métadonnées répondent à une triple finalité

qui correspond aux étapes

inhérentes au cycle de vie de l’information

production conservation diffusion

qualité intelligibilité intégrité

Page 28: structuration des métadonnées de pérennisation

Quelle métadonnées pour la pérennisation ? Les informations administratives

Les métadonnées répondent à une logique de structuration

des différents contextes

inhérentes au cycle de vie de l’information

création conservation diffusion

agents événements objets

Page 29: structuration des métadonnées de pérennisation

Quelle métadonnées pour la pérennisation ? Les informations descriptives

Les métadonnées répondent à une logique de recherche et d’accès

en fonction de la communauté d’utilisateurs

et des impératifs de citabilité et d’interopérabilité

identité référentiel granularité

acteurs contexte objets

Page 30: structuration des métadonnées de pérennisation

Quelle métadonnées pour la pérennisation ? Les informations de structure

Les métadonnées de structure sont des enveloppes qui relient

et permettent de disposer d'un cadre de description commun

favorisant l'interopérabilité et la structuration de l'information

identité représentation pérennité

objets événements agents

Page 31: structuration des métadonnées de pérennisation

Sommaire

• Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • Encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées

Page 32: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées: pratique

Du concept à l’application pratique. L’ivresse du choix

Page 33: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées: pratique

Quelle structuration ? Quelles finalités ?

Page 34: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées : modèles conceptuels

Les schémas de métadonnées servent à

contrôler la saisie et développer la

sémantique des informations

Page 35: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées : le web de données: ontologies et vocabulaires

Ontologie: défini de manière formelle, pour un domaine de connaissance, les concepts qui permettront de décrire les « choses » de façon non ambiguë, et les règles contraignant ces descriptions

Cette norme comprend les éléments suivants : - les types de choses : classes

Ex : Document, Livre, Personne

- les propriétés ou attributs des choses

Ex : auteur, date de publication

- les contraintes éventuelles qui relient celles-ci à celles-là

Ex : Un livre est un document, un livre a au moins un auteur, une personne n'est pas un document

Page 36: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

URI (Uniform Resource Identifier): l’économie durable de la connaissance

Syntaxe : <scheme:chaîne/de.caractère>

<http://monsite.com/dossier/fichier.html#ancre>

<http://mondomaine.org/ressource/1234>

•un préfixe qui indique le contexte dans lequel l’identifiant est attribué (par ex. http:,ftp:, urn:, etc.) •un élément qui permet de désigner l’autorité nommante qui a attribué l’identifiant au sein de ce système

•le « nom » lui-même, c'est-à-dire une chaîne de caractères qui identifie la ressource de manière unique, au sein de ce système et pour cette autorité.

Les URI sont des identifiants Web. Les URL sont des URI qui identifient la ressource par le moyen d'y accéder. Les URL peuvent être pérennes.

http://fr.wikipedia.org/wiki/Universal_Unique_Identifier

Page 37: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

RDF: la structuration de l’accès aux ressources

Le sujet est toujours une URI. Toute “chose” sur laquelle on veut faire des assertions (sujet) doit avoir une URI. Les “choses” ont toujours un type : une CLASSE.

sujet

prédicat

Le prédicat est toujours une URI. Il permet d'exprimer les propriétés des

“choses”, ou les relations des “choses” entre elles

objet

L‘objet peut être un texte (littéral) ou une URI.

Les classes et les propriétés sont déclarées dans des vocabulaires pour être réutilisées

Page 38: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

RDF: le hub de données

•Le modèle RDF permet de décloisonner les silos de données. •Les référentiels permettent alors de les relier

L’Ecume des jours est un roman de Boris Vian publié en 1947 avec pour thèmes centraux l’amour, la maladie, la mort L’Ecume des jours est un roman

L’Ecume des jours a pour auteur Boris Vian

L’Ecume des jours est paru en 1947

L’Ecume des jours a pour thèmes l’amour, la maladie, la mort J’irais cracher sur vos tombes a pour auteur Vernon Sullivan

L’ Ecume des jours– type - roman

L’ Ecume des jours– auteur - Boris Vian

L’ Ecume des jours– année de parution – 1947

L’ Ecume des jours - thème – amour

http://dbpedia.org/page/Froth_on_the_Daydream http://data.bnf.fr/13091689/boris_vian/ dbpedia:Froth_on_the_Daydream rdf:type yago:Novel106367879

dbpedia:Froth_on_the_Daydream dcterms:creator dbpedia:Boris_Vian

dbpedia:Froth_on_the_Daydream dcterms:date "1947"

dbpedia:Froth_on_the_Daydream skos:subject dbpedia:Love

dbpedia-owl:wikiPageRedirects dcterms:creator dbpedia:Vernon_Sullivan

RDF n'est pas lié à une syntaxe particulière mais c'est en XML que sont publiés la plupart des vocabulaires standard (RDFS, FOAF, SKOS, OWL) qui utilisent le modèle de données en graphe.

Page 39: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées SKOS (Simple Knowledge Organisation System): le thésaurus à l’heure du web

•SKOS est construit sur la base du langage RDF, et son principal objectif est de permettre la publication facile de vocabulaires structurés pour leur utilisation dans le cadre du Web de données. • SKOS est actuellement développé dans le cadre du W3C et cherche à être au maximum compatible avec les standards qui définissent les thésaurus. •SKOS est un vocabulaire écrit en RDFS où la classe générique est skos:Concept •les propriétés de mise en correspondance proposées dans SKOS permettent d'exprimer des correspondances entre concepts provenant de schémas différents

skos:exactMatch ou skos:closeMatch

skos:broadMatch, skos:narrowMatch, skos:relatedMatch

skos:semanticRelation

Page 40: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

XML (Extensible Markup Language): la lingua franca de l’encodage d’information

•langage à balises permettant de structurer et de décrire un ensemble d’objet au sein d’espace de noms

•langage hiérarchique permettant de décrire des relations

•langage de transport d’information permettant de standardiser les échanges de données

•peut être décrit par un schéma ou une DTD

•peut servir au stockage des données mais également à leur interrogation

<xml version="1.0" encoding="UTF-8"?>

<ex:collection xml:lang="fr" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns=http://www.w3.org/1999/xhtml xmlns:ex="http://exemple.org">

<ex:vehicule>

<dc:title>Mon super vélo</dc:title>

<velo id="2">

<taille>76</taille>

<marque>cool bike</marque>

<modele>speeder</modele>

</ex:velo>

<ex:velo taille="76" marque="coolbike" modele="speeder" id="2" />

Page 41: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées: carte d’identité technique

Les en-têtes des fichiers

numériques sont porteurs d’information d’identification et de

provenance

Page 42: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

L’exemple du schéma de données MIX

Page 43: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

L’exemple du schéma de données MIX

Page 44: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées 3 normes complémentaires pour l’information technique des images fixes

EXIF (Exchangeable image file format): permet de décrire le contexte (quand), l'outil (comment), la localisation (où) et l'auteur (qui) de la production. Les données Exif sont incorporées au fichier d’image lui-même. Elles peuvent être modifiées mais reflètent normalement les conditions de production d'une image numérique. Le format en version 2.2 (2003) n'est pas maintenu [http://exif.org/Exif2-2.PDF]

XMP (Extensible Metadata Platform): permet de décrire sous forme d'un document XML intégré au fichier des informations relatives à ses caractéristiques. Il permet d'intégrer des métadonnées EXIF ou Dublin Core et supporte l'unicode. Ce format est maintenu par Adobe. [http://www.adobe.com/products/xmp/]

MIX (Metadata Image XML): permet de décrire sous forme d'un document XML externe l'ensemble des éléments définis dans la norme ISO 39.87. Le format en version 2 est maintenu par la bibliothèque du congrès américain. [http://www.loc.gov/standards/mix/]

Page 45: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées 3 normes complémentaires pour l’information technique des contenus multimédias

MPEG-7 (Moving Picture Experts Group) : une norme de description dont le but est de faciliter l'indexation et la recherche de documents multimédia. Il permet d'utiliser des descripteurs pour caractériser des données audio ou visuelles mais également de décrire le contenu de ces données ainsi que les relations sémantiques qui les lient entre elles. Standard ISO/IEC 15938 il est assez peu utilisé en raison de sa complexité.[http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm]

PBCore (Public Broadcasting Metadata Dictionary) : initialement utilisé par les diffuseurs radio, il s'appuie sur le standard Dublin Core pour décrire le contenu intellectuel des ressources, les mentions de droits ainsi que l'ensemble des informations techniques sur le document numérique audio. Il existe sous forme de format XML. [http://pbcore.org/2.0/]

VIDEOMD (Video Technical Metadata Extension Schema) : permet de décrire sous forme d'un document XML externe les métadonnées techniques qui décrivent un objet numérique vidéo. Il est utilisé en lien avec METS. [http://lcweb2.loc.gov/mets/Schemas/VMD.xsd]

Page 46: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées: la description du contexte

Il est souvent nécessaire d’expliciter l’information en décrivant son contexte et ses relations

Page 47: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées MODS (Metadata Object Description Schema ) schéma d’interopérabilité bibliographique

•norme bibliographique largement utilisée dans le contexte anglo-saxon et maintenu par la librairie du congrès. [http://www.loc.gov/standards/mods/]. •autorise la description hiérarchique ou simple

•permet de conserver quasiment l'ensemble des informations d'une notice MARC tout en simplifiant la lecture et le traitement

Page 48: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées EAD/EAC (Encoded Archival Description/Context): description hiérarchique des fonds d’archives

le schéma EAD est basé sur ISAD-G(). Il permet de décrire un fonds d'archives ou d'ouvrages de manière hiérarchique du général au particulier, d'indexer les notices descriptives et de lier ces descriptions à des substituts numériques et à des notices de producteurs(EAC: Encoded Archival Context)

•le schéma EAC vise à décrire les producteurs pour retracer l'historique d'une entité administrative ou morale d'archives en se basant sur la norme ISAAR-CPF [http://eac.staatsbibliothek-berlin.de/]. •Il permet une redéfinition de la notion de contexte de production et d’utilisation des archives. Il se concentre seulement sur la description des collectivités, des personnes et des familles.

Page 49: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

construction d’une ontologie

Au départ le monde selon EAD

Page 50: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées : identifier les concepts

Les objets à modéliser http://archiveshub.ac.uk/locah/

Page 51: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées : identifier les relations

Les relations entre concepts

Page 52: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées : en route pour les usages

Et hop une ontologie ! http://data.archiveshub.ac.uk/

Réutilisant des vocabulaires existants

RDF Schema (RDFS): http://www.w3.org/2000/01/rdf-schema#

Dublin Core Terms: http://purl.org/dc/terms/ Friend of a Friend (FOAF): http://xmlns.com/foaf/0.1/ Simple Knowledge Organisation System (SKOS): http://www.w3.org/2004/02/skos/core#

Object Reuse & Exchange (ORE): http://www.openarchives.org/ore/terms/ Vocabulaire biographique : http://purl.org/vocab/bio/0.1/ Event Ontologie: http://purl.org/NET/c4dm/event.owl#

Linked Open Data Events vocabulary (LODE): http://linkedevents.org/ontology/ Timeline Ontologie: http://purl.org/NET/c4dm/timeline.owl#

Page 53: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées METS: la structuration de la description des ressources

Le schéma METS vise à fournir un méta-modèle pour l'encapsulation d'autres formats de métadonnées.

Ce schéma XML composé de 7 sections est extrêmement flexible.

Il permet notamment de représenter l'information sous forme de carte de structure et s'implémenter le modèle conceptuel OAIS.

Il constitue un format pivot entre la logique de diffusion et celle de conservation de l'information.

Page 54: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées METS: la structuration de la description des ressources

L’utilisation de METS passe par la mise en forme d’un profil d’utilisation

Celui-ci permet de définir les règles de description et de permettre une automatisation des processus de validation et de contrôle.

Il permet de multiplier les formats de description et les modes de consultation des objets à conserver ou à diffuser.

Il utilise un système de pointeur basé sur l’identification de toutes les unités de description

Page 55: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées 3 modèles pour la structuration des objets d’information

PREMIS (Preservation Metadata: Implementation Strategies) : le modèle de données de PREMIS est composé de 5 entités reliées entre elles par des identifiants: Entité intellectuelle, Objet, Evénement, Agent, et Droits. Ce schéma répond notamment au besoin de pérennisation de l'information numérique et de conservation du cycle de vie des données (import dans un entrepôt de donnée, migration, gestion d'intégrité, liens entre différentes représentations d'un même document). [http://www.loc.gov/standards/premis]

LIDO (Lightweight Information Describing Objects) : cette norme vise à décrire les objets patrimoniaux en référence au modèle conceptuel international CIDOC-CRM((ISO 21127). Il permet de décrire l'objet en terme de contenu mais également de cycle de vie et est fortement orienté vers l'interopérabilité et la mise en réseau. [http://www.lido-schema.org]

FRBR (Functionnal Requirements for Bibliographic Records) et FRAD (Functional Requirements for Authority Data) sont des normes qui organisent les différentes composantes de la description bibliographique. Ils organisent les différentes composantes de la description bibliographique. et fournissent un modèle conceptuel permettant l'amélioration des notices de catalogue (un produit), l'action de cataloguer (un processus) et la conception des catalogues (une technologie)

Page 56: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées LIDO: un cadre conceptuel et technique

basé sur le modèle conceptuel CIDOC-CRM (ISO 21127:2006) : conseil international des

musées-modèle conceptuel de référence

constitue une « ontologie » de

l'information relative au patrimoine culturel La présentation en est basée sur l'approche «

orientée objet »

la création, la collection ou l'utilisation d'un

objet sont définies comme des événements

qui ont des entités associées comme des dates, des lieux ou des acteurs.

Page 57: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées FRBR: le modèle conceptuel de référence

•Un modèle ternaire : une entité est un être, ou une « chose doté d'une existence distincte »

un attribut est une qualité, quelque chose qui décrit cette entité

une relation est le lien entre différentes entités

•3 groupes d'entités: groupe 1: les produits abstraits ou concrets (travail, expression, manifestation et exemplaire) groupe 2: les individus ou institutions

groupe 3: les sujets (concepts, des objets, des évènements, des lieux)

Les attributs sont des caractéristiques ou des propriétés. Ils permettent aux utilisateurs de trouver les entités dont ils ont besoin.

attributs inhérents (caractéristiques et spécificités) attributs externes (identification et contexte)

Page 58: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

PREMIS : les métadonnées du cycle de vie

Page 59: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées PREMIS : les métadonnées du cycle de vie

•les schémas OBJET, EVENT et AGENT les plus usités sont reliés par un mécanisme d'identifiant.

des listes d'autorités peuvent être utilisées en vue d'optimiser les opérations de gestion, de contrôle ou de transformation (eventType, agentType, format, objectCategory, storageMedium,

copyrightStatus, and RightsBasis).

•PREMIS est couramment utilisé en lien avec METS:

premis:event dans digiProvMD premis:rights dans rightsMD premis:object dans techMD dans digiProvMD premis:agent dans digiProvMD ou rightsMD

•Des choix d’implémentations s’imposent en lien avec l’utilisation de METS (redondance de données, mécanisme

d’identification, répartition des informations)

Exemple : http://www.gpo.gov/fdsys/pkg/USCOURTS-mied-1_09-cv-12267/premis.xml

http://lcweb2.loc.gov/diglib/ihas/loc.natlib.gottlieb.09601/default.html

Page 60: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

PREMIS : les métadonnées du cycle de vie

Page 61: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

PREMIS : les métadonnées du cycle de vie

Page 62: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

PREMIS : les métadonnées du cycle de vie

Page 63: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

PREMIS : les métadonnées du cycle de vie

Page 64: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

PREMIS : les métadonnées du cycle de vie des objets

Entité Objet

Classe Fichier : une séquence de bits nommée et ordonnée connu d'un système d'exploitation

Un fichier peut avoir 0 ou n bits et est caractérisé par un format, des droits d'accès, et des caractéristiques

permettant de le décrire au sein d'un système de fichiers telles que la taille ou la date de dernière modification.

Classe train de bits : un train de bits représente des données contiguës ou non à l'intérieur d'un fichier qui partagent

des propriétés communes significatives et présentent un intérêt patrimonial.

Un train de bits ne peut pas être transformé en fichier sans l'ajout d'information de structure (comme par

exemple un en-tête) et/ou sans modification du train de bits pour être conforme aux exigences

d'un format de fichier donné.

Classe représentation : une représentation est un ensemble de fichiers, incluant des métadonnées de structure,

nécessaire à la compréhension d'une entité intellectuelle. Par exemple, un article de journal peut être complet à

l'intérieur d'un fichier PDF ; ce fichier unique constitue la représentation. Un autre article de journal peut consister

en un fichier SGML et 2 fichiers images ; ces 3 fichiers constituent la représentation. Un troisième article peut

être représenté par une image TIFF pour chacune de ses 12 pages plus un fichier XML contenant les métadonnées

de structuration exprimant l'ordre de ces pages ; ces 13 fichiers constituent la représentation.

Une représentation correspond donc a une instance numérique unique d'une entité intellectuelle

conservée dans un entrepôt de conservation.

Page 65: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

PREMIS : les métadonnées du cycle de vie des objets

Page 66: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

PREMIS : les métadonnées du cycle de vie des objets

Les identifiants sont utilisés pour relier les entités ensemble

- linkingIntellectualEntityIdentifier

- linkingRightsStatementIdentifier

- linkingEventIdentifier

- linkingAgentIdentifier

- linkingObjectIdentifier

Par exemple, un objet peut être relié à une ou plusieurs entités intellectuelles, expressions de droits et événements au travers de liens vers des unités sémantiques

chapitre02.pdf chapitre01.pdf index.html

Site web

html

Entité intellectuelle

représentations

siteWeb.pdf

pdf

Relation entre différents types d’entités

Page 67: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

SEDA: Schéma d’Échange des Données d'Archivage

•Le schéma SEDA permet de décrire les relations entre les acteurs au cours des échanges (transfert, de communication, de

modification, d'élimination ou de restitution d’archives). •Il permet d'automatiser les procédures d'échange d'information en décrivant les règles contractuelles qui régissent le versement et la prise en charge d'un paquet d'information. •Les messages SEDA décrivent les contraintes (format,

support, identification) et fournissent un historique des opérations effectuées (transfert, réception, destruction, etc..) •La grammaire XML permet de définir des règles formelles vérifiables par les machines (est égal à, ne peut pas être différent

de, n'existe qu'en un seul exemplaire, provient de, etc...)

Page 68: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées MEDONA: structurer les métadonnées des documents d’activité

• Le schéma MEDONA Z 44-022 permet de structurer les métadonnées générées par les acteurs au cours des échanges (transfert, de communication, de modification, d'élimination ou de restitution d’archives). Il doit permettre de modéliser les échanges de données pour l‘archivage et d'automatiser les procédures d'échange d'information en décrivant les règles contractuelles qui régissent le versement et la prise en charge d'un paquet d'information. • Les messages MEDONA décrivent les contraintes (format, support, identification) et fournissent un historique des opérations effectuées (transfert, réception, destruction, etc..) • La grammaire XML permet de définir des règles formelles vérifiables par les machines (est égal à, ne peut pas être différent de, n'existe qu'en un seul exemplaire, provient de, etc...)

Page 69: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées MEDONA: structurer les métadonnées des documents d’activité

•La classe ManagementMetadata regroupe l'ensemble

des informations nécessaires à la gestion de l'échange

d'un paquet de données. Les informations apportées par

cette classe concernent tous les Objets de données du

paquet.

Ces informations sont :

• l'accord de service (ArchivalAgreement),

• le profil d'archivage (ArchivalProfile),

• le niveau de service (ServiceLevel),

• la règle d'accessibilité (AccessRule)

• la règle pour le calcul du sort final (AppraisalRule).

Toutes ces informations sont facultatives.

Page 70: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées MEDONA: structurer les métadonnées des échanges

Tous les messages partagent des propriétés communes

définies dans la classe Message.

Ces propriétés sont :

• une date (Date) qui correspond à la date d'émission

du message

• un identifiant du message (MessageIdentifier) ;

• éventuellement des commentaires (Comment) qui

permettent en particulier d'expliquer la raison du

message (par exemple pour une réponse négative,

ces commentaires peuvent expliquer la raison du

refus et ce qu'il convient de faire pour reformuler la

demande)

• éventuellement une signature du message lui-même

(Signature).

Le message d'accusé de réception (Ackwowledgement)

hérite des propriétés de la classe Message auxquelles il

faut ajouter l'identifiant du message dont il accuse la

réception.

Page 71: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées MEDONA: extension aux besoins d’une communauté

Une communauté peut créer son propre schéma XML

dérivé celui de la norme sans avoir à intervenir sur le

schéma de la norme en incluant le schéma de la norme

dans le sien tout en redéfinissant sous forme de

restriction les types laissés ouverts:

DescriptiveMetadataType,

OrganizationDescriptiveMetadataType

SignatureType

AccessRuleType)

Par exemple, si cette communauté souhaite utiliser le

modèle EAC-CPF 19) pour décrire les acteurs (Service

versant, Service producteur, etc.), elle donnera une

autre définition du type

OrganizationDescriptiveMetadataType dans son

schéma dérivé. De cette manière les messages qui

respectent ce nouveau schéma respectent forcément le

schéma de la norme.

<xsd:schema targetNamespace="org:afnor:www:medona:v1.0"

xmlns:xsd="http://www.w3.org/2001/XMLSchema"

xmlns:medona="org:afnor:www:medona:v1.0"

xmlns:xlink="http://www.w3.org/1999/xlink"

xmlns:eac="urn:isbn:1-931666-33-4">

<xsd:import namespace="urn:isbn:1-931666-33-4" schemaLocation="cpf.xsd"/>

<xsd:import namespace="http://www.w3.org/1999/xlink" schemaLocation="xlink.xsd"/>

<xsd:redefine schemaLocation="MEDONA.xsd">

<xsd:complexType name="OrganizationDescriptiveMetadataType">

<xsd:complexContent>

<xsd:restriction base="medona:OrganizationDescriptiveMetadataType">

<xsd:sequence>

<xsd:element ref="eac:cpfDescription"/>

</xsd:sequence>

<xsd:attribute ref="xlink:href" use="prohibited"/>

</xsd:restriction>

</xsd:complexContent>

</xsd:complexType>

</xsd:redefine>

</xsd:schema>

Page 72: structuration des métadonnées de pérennisation

Encoder et lier les métadonnées

Dublin Core: PPDC et interopérabilité

• permet l'interopérabilité entre des données d'un

domaine ou entre des domaines hétérogènes (Plus

Petit Dénominateur Commun)

• 15 éléments optionnels répétables et qualifiables

• profils d’implémentation permettant d’échanger

facilement des données entre différents domaine

• permet de s’intégrer dans des portails

documentaires transversaux

• permet de gérer les descriptions hétérogènes au

sein d’une archive OAIS

Page 73: structuration des métadonnées de pérennisation

Sommaire

• Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • Encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées

Page 74: structuration des métadonnées de pérennisation

L’accès à l’information par les métadonnées

OAI-PMH: un protocole d’échange ouvert

6 verbes pour un échange de données normalisé

Qui?: la carte d'identité de l'entrepôt Quand?: Les dates de modification

Comment?: les standards de métadonnées XML

les collection de données

Combien?: La liste des identifiants uniques

La liste des fiches descriptives

Quoi?: Le contenu de la fiche descriptive

Notice d'identité

Notice descriptive humain objet numérique

entrepôts

moissonneurs

agrégateur

portail

Contenu culturel

Page 75: structuration des métadonnées de pérennisation

L’accès à l’information par les métadonnées

SPARQL: le couteau suisse du web sémantique

•Le web de données ou semantic Web doit permettre aux machines de comprendre le contenu des notices documentaires et d'offrir à terme des agents intelligents autorisant des nouveaux usages des données

•Le web de données est basé sur l'utilisation de standards: •une représentation sous forme de graphe : RDF

•Un schéma de définition de règles : RDFS ou OWL

•Un langage de requête permettant de lier des données de référence : SPARQL

•Un langage d'ontologie permettant de décrire des règles formelles: OWL

•Un langage de vocabulaire permettant de publier des thésaurus sur le Web: SKOS

•L'utilisation d'identifiants pérennes: CURI « cool uri don't change »

Du monde des Documents → objets statiques reliés entre eux par des liens hypertextes Au monde des ressources adressables → toute chose ou entité susceptible d'être identifiée, nommée, manipulée à travers ses représentations dans n'importe quel système utilisant les technologies du web

Page 76: structuration des métadonnées de pérennisation

L’accès à l’information par les métadonnées

Usage: le projet LOCAH: http://data.archiveshub.ac.uk/

•Le web de données ou semantic Web doit permettre aux machines de comprendre le contenu des notices documentaires et d'offrir à terme des agents intelligents autorisant des nouveaux usages des données

•Le web de données est basé sur l'utilisation de standards: •une représentation sous forme de graphe : RDF

•Un schéma de définition de règles : RDFS ou OWL

•Un langage de requête permettant de lier des données de référence : SPARQL

•Un langage d'ontologie permettant de décrire des règles formelles: OWL

•Un langage de vocabulaire permettant de publier des thésaurus sur le Web: SKOS

•L'utilisation d'identifiants pérennes: CURI « cool uri don't change »

Le projet LOCAH fournit des pistes d’utilisation de la modélisation en graphe pour les archives

Page 77: structuration des métadonnées de pérennisation

L’accès à l’information par les métadonnées

SPARQL: le couteau suisse de l’accès aux données

Comme SQL, SPARQL sélectionne les données retournées par la requête en

utilisant la déclaration SELECT pour déterminer quel sous-ensemble de donnés doit

être retourné

SPARQL utilise également la clause WHERE pour définir les modèles de graphes

pour trouver une réponse au sein du jeu de réponse.

UN modèle de graphe dans la clause SPARQL WHERE consiste dans un triplet

sujet, propriété objet pour trouver une réponse dans les données

La requête SELECT requiert de retourner la variable ?type.

En SPARQL, les noms des variables sont préfixées par le symbole point

d'interrogation("?") .

Dans un modèle de requête de graphe , elle correspondent à n'importe quel noeud –

une ressource ou un litéral

Page 78: structuration des métadonnées de pérennisation

L’accès à l’information par les métadonnées

SPARQL: le couteau suisse de l’accès aux données

SPARQL permet d'interroger la structure du graphe sémantique pour sélectionner

les ressources répondant à une certaine structure de graphe.

Par exemple trouver tous les romans de Boris Vian sur Dbpedia

PREFIX dbpedia: <http://dbpedia.org/resource/>

PREFIX yago: <http://dbpedia.org/yago/>

PREFIX p: <http://dbpedia.org/property/>

SELECT DISTINCT ?x

WHERE

{

?x rdf:type yago:Novel106367879.

?x p:author dbpedia:Boris_Vian.

}

Page 79: structuration des métadonnées de pérennisation

L’accès à l’information par les métadonnées A quoi ça sert ? Construire un espace global d’information

Page 80: structuration des métadonnées de pérennisation

Merci de votre attention

Pascal Romain

[email protected]

@keronos

Page 81: structuration des métadonnées de pérennisation

références

Publications: Carlyle, A (2006). Understanding FRBR as a conceptual model: FRBR and the bibliographic universe. Library Resources and Technical Services, 50(4), 264-273

Coyle, Karen, Understanding the Semantic Web: Bibliographic Data and Metadata. Library Technology Reports, Janvier 2010

Séminaire INRIA, Métadonnées: mutations et perspectives, ADBS, 2008

Crédits: Aurélien Couraux, Gautier Poupeau, Emmanuelle Bermès, Ivan Herman, Fabien Gandron : présentations sur le web

illustrations: jlmaral, widdowquinn, wiccked, Fenng(dbanotes), LaChan, Laughing Squid, LZdR, woicik CC BY-NC 2.0

Liens : FRBR http://www.ifla.org/en/publications/functional-requirements-for-bibliographic-records

SEDA: http://www.archivesdefrance.culture.gouv.fr/seda/ MODS http://www.loc.gov/standards/mods/ Dublin Core http://dublincore.org/ SKOS http://www.w3.org/TR/skos-reference/ METS http://loc.gov/METS

RDF http://www.W3C.org/RDF

OWL2 http://www.W3C/OWL2

ARK https://confluence.ucop.edu/display/Curation/ARK

OAI-PMH http://www.openarchives.org/OAI/openarchivesprotocol.html Contact: [email protected] twitter: @keronos

Page 82: structuration des métadonnées de pérennisation

références

outils: http://library.harvard.edu/preservation/digital-preservation_tools.html http://www.nationalarchives.gov.uk/information-management/projects-and-work/droid.htm

http://meta-extractor.sourceforge.net/

https://code.google.com/p/fits/ articles http://www.dcc.ac.uk/resources/external/tools-services/archiving-and-preserving-information http://www.metadataaustralia2010.com/presentations.html http://digitalpreservation.nl/seeds/ Ressources musées

http://www.oldman.me.uk/blog/the-british-museum-cidoc-crm-and-the-shaping-of-knowledge/#comment-4 http://collection.britishmuseum.org/ http://www.cidoc-crm.org/ ressources bibliothèques http://litablog.org/2010/07/mods-and-mads-current-implementations-and-future-directions/

Page 83: structuration des métadonnées de pérennisation

références

Ressources archives http://archiveshub.ac.uk/locah/ https://www.nationalarchives.gov.uk/documents/information-management/xml-london-tna-rw.pdf http://e-records.chrisprom.com/plato-digital-preservation-planning-software-review/ http://data.semanticweb.org/conference/iswc/2008/paper/poster_demo/14/html Ressources record management http://id.loc.gov/ontologies/premis.html http://www.loc.gov/standards/premis/tools.html http://timbusproject.net/resources