ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS...

20
Niklaus Stettler Schweizerisches Institut für Informationswissenschaft (SII) Zurich, 09.03.2016 Licence CC BY 2.5 All cartoons courtesy of Jørgen Stamp, digitalbevaring.dk CC BY 2.5 ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE MODULE 2-4: Parcours de vie des données: archivage à long terme

Transcript of ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS...

Page 1: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Niklaus Stettler Schweizerisches Institut für Informationswissenschaft (SII)Zurich, 09.03.2016Licence CC BY 2.5

All cartoons courtesy of Jørgen Stamp, digitalbevaring.dk

CC BY 2.5

ÉCOLE D’AUTOMNE 2016F

DONNÉS DE LA RECHERCHEMODULE 2-4: Parcours de vie des données: archivage à long terme

Page 2: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

CURATION DOMAINCuration Domain

2

Vorführender
Präsentationsnotizen
Dans le module 2-2, vous avez vu que les données doivent être traitées entre le collaboration domain et le public domain. Ceci se déroule dans le curation domain. L’effort à investir dans ce domaine dépend de la forme sous laquelle les données devront être mises à disposition du potentiel utilisateur, ainsi que de la durée pendant laquelle leur réutilisation devra être garantie. Ce module se concentre sur une solution maximale: les données doivent pouvoir être réutilisées aussi longtemps que possible.
Page 3: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Que signifie le long terme?

3

Le long terme correspond à une durée prolongée, durant laquelle des changements technologiques et socioculturels importants et impossibles à prévoir surviennent, qui transforment totalement, à coups de cycles de développement accélérés, la forme et l’utilisation des ressources numériques.

Source: Schwens/Liegmann, in: Grundlagen der praktischen Information und Dokumentation, 2004

Vorführender
Präsentationsnotizen
Si nous jetons un regard sur le passé, le long terme signifie par exemple avant l’invention du système d’exploitation MS-Dos (1981), avant l’essor du web (1991). Nous parlons alors d’une durée d’environ 25 ans. D’un point de vue organisationnel, cela signifie pourtant aussi que l’on n’a plus personne à qui demander de l’aide. Ceci pourrait être le cas pour une période de bien moins de 25 ans.
Page 4: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

L’archivage se base sur le modèle de référence OAIS

4

Page 5: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Le modèle de référence OAIS

5

• OAIS est un modèle générique, qui décrit la mise en place et le fonctionnement d’une archive à long terme pour document digitaux et physiques.

• OAIS est une aide permettant de planifier pas à pas les processus complexes de l’archivage à long terme.

• Développé de 1997 à 1999 par le Consultative Committee for Space Data Systems (CCSDS) (NASA, ESA, …)

• 2001: Blue Book devient une norme ISO: ISO 14721:2003• Version actuelle: CCSDS Recommended Practice for an OAIS Reference Model,

Magenta Book, 2012Anglais: http://public.ccsds.org/publications/archive/650x0m2.pdf Allemand: http://files.d-nb.de/nestor/materialien/nestor_mat_16-2.pdf Français: il n’existe aucune traduction à ce jour

Vorführender
Präsentationsnotizen
Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales. Il aide à structurer les processus complexes de l’archivage à long terme de telle sorte qu’ils deviennent maîtrisables. Il ne s’agit cependant pas d’un système technique, mais purement fonctionnel. L’architecture d’archives OAIS peut donc être conçue de diverses manières. Ce module n’introduit pas en détails le modèle de référence OAIS. Les explications se concentrent sur certains aspects particulièrement importants pour la gestion des données de la recherche. Vous trouverez quelques diapositives décrivant le modèle fonctionnel OAIS dans les matériaux annexes.
Page 6: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

L’objet numérique a 3 niveaux

1. L’objet physique: L’objet numérique est physique: des caractèresbinaires sur un disque dur (bit stream)

2. L’objet logique: Niveau des logiciels, qui reconnaissent les bits en tant que format(interprètent une lange à partir des uns et des zéros)

3. L’objet conceptuel: Niveau de la compréhension (rend la langue compréhensible)

6

Vorführender
Präsentationsnotizen
Si nous voulons conserver un objet, nous nous intéressons en fait au niveau conceptuel: nous ne voulons pas seulement pouvoir voir une photo, mais aussi pouvoir la comprendre: qui y apparaît, quelles étaient les circonstances de la prise de vue, quel sens avait l’image pour le photographe, et quel sens pour la personne photographiée? L’objet conceptuel peut adopter plusieurs formes logiques. L’image peut ainsi être enregistrées dans des formats différents (par ex.: JPEG ou TIFF). L’objet logique peut quant à lui également prendre diverses formes physiques. Il peut être sauvé sur une bande magnétique, sur un CD, dans une mémoire flash ou dans tout autre moyen d’enregistrement.
Page 7: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Au cours du temps, l’objet sera menacé sur tous ses 3 niveaux.L’archivage signifie aller à l’encontre de ces menaces.1. Objet physique: Les supports d’enregistrement sont obsolètes.

Mitigation: effectuer à temps une copie sur de nouveaux supports.

2. Objet logique: Le logiciel actuel ne peut plus décoder les vieux documents.Mitigation: utiliser des logiciels avec une durée de vie plus longue,ou migrer vers de nouveaux formats

3. Objet conceptuel: La représentation n’est plus compréhensible, n’a plus de sensMitigation: fournir des explications aux contenus

7

Page 8: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Toutes les mesures sont des atteintes à l’objet.• En raison de la durée de vie réduite du matériel et des logiciels, les objets numériques doivent être

entretenus en permanence.

• Un entretien durable signifie copier et manipuler.

• Danger de modifications souhaitées ou non souhaitées du contenu original.

=> L’objet du futur n’est pas identique à celui qui a été livré à l’archive.

⇒ L’archivage numérique à long terme est une suite de mesures à entreprendre de manière contrôlée et planifiée.

8

Vorführender
Präsentationsnotizen
Les objets de l’archive ne sont donc plus les originaux. Ils doivent néanmoins être transmis de telle manière à ce que les potentiels réutilisateurs puissent s’y fier comme s’ils étaient des originaux. Il est donc nécessaire que chaque étape de modification de l’objet soit réalisée dans une optique de conservation du caractère original de l’objet.
Page 9: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

OAIS suggère de se baser sur le potentielréutilisateur

9

• Définition des «significant properties»• Définition des informations d’accompagnement nécessaires, devant être fournies avec les

données afin de garantir leur compréhension immédiate

Image: http://public.ccsds.org/sites/cwe/rids/Lists/CCSDS%206500P11/Attachments/650x0p11.pdf

Vorführender
Präsentationsnotizen
Les mêmes caractéristiques ne sont pas importantes pour tous les utilisateurs. Dans beaucoup de cas, le fait de pouvoir encore décoder un texte suffira. Il existe sans doute aussi des circonstances dans lesquelles la représentation graphique d’un texte est essentielle. Comme il faut compter avec une perte d’information au fil du temps, il est important de définir au début du processus d’archivage déjà pour qui on archive et quelles caractéristiques de l’objet doivent absolument être conservées. L’une des contributions considérables du modèle de référence OAIS est justement qu’il met l’accent sur le potentiel réutilisateur et exige que les caractéristiques de l’objets importantes aux yeux de cet utilisateur soient définies.
Page 10: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

L’ingest

Groupement de tous les objets devant être livrés Vérification de l’intégrité Vérification des virus Vérification de la validité des formats Migration éventuelle vers un format adapté à l’archivage Documentation des actions effectuées Enrichissement du paquet avec les informations nécessaires à la

compréhension des données

10

Vorführender
Präsentationsnotizen
Une étape absolument centrale de l’archivage digital à long terme est le processus dit de l’ingest. Dans ce processus, les données sont préparées pour l’archivage à long terme de manière à être intégrées à l’archive (le dépôt) et à y être entreposées pour une longue période. Les actions énumérées sur cette diapositive sont réalisées durant le processus de l’ingest.
Page 11: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Ingest : migration des données vers un format adapté à l’archivage

11

Les formats ont des durées de vie diverses. Les formats adaptés à l’archivage se caractérisent par: leur ouverture leur longue durée de vie leur large diffusion

Les formats adaptés à l’archivage doivent être migrés moins souvent. La plupart des archives ont une liste de formats recommandés, par exemple

les Archives fédérales suisses, CECO, etc.

Page 12: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Liste des formats acceptés par la UK Data Archive

12

Source: UK Data Archive, File Formats Table: http://data-archive.ac.uk/create-manage/format/formats-table

SPSS portable format (.por) SPSS, DDI XML CSVESRI ShapefileGeo TiffCAD data (.dwg) XMLrtfASCII

TIFF FLAC MPEG-4Motion JPEG 2000PDF/AOpenDocumentText

Page 13: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Liste des formats d’archivage des Archives fédérales suisses (AFS)

13

Source: https://www.bar.admin.ch/bar/fr/home/archivage/versement-de-documents/documents-numeriques.html

Les AFS déclarent adaptés à l’archivage les formats suivants:

• TXT• PDF/A• CSV• SIARD• TIFF• WAVE• MPEG-4

Cette liste comprend les candidats actuels à une intégration dans la prochaine version:

• XML/XSD• RDF• PDF/A 2• JPEG2000• GeoTIFF• SVG

Page 14: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Quel format choisir?

14

• Beaucoup d’objets peuvent être représentés sous des formes différentes.

• Le document possède des caractéristiques différentes selon le format. Par exemple• Texte en Word: modifiable, pouvant intégrer des vidéos, la mise en page peut

éventuellement être perdue.• Texte en PDF/A: conserve la mise en page et le contenu, aucune vidéo intégrée• TXT: requiert très peu d’espace de stockage, conserve le contenu, perd la forme

⇒ Le choix du format dépend des caractéristiques importantesdevant être maintenues.

• La base de données «Pronom» des Archives nationales britanniques fournissent des informations sur le choix du format.

Page 15: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Exemple de format dans «Pronom» http://www.nationalarchives.gov.uk/PRONOM/Default.aspx

15

Page 16: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

DROID: outil de vérification d’un format

16

http://digital-preservation.github.io/droid/

• Droid interroge Pronom.• Droid vérifie les formats et livre les informations de Pronom.• Droid peut aussi calculer des valeurs de hachage (sommes de contrôle).• Il permet ainsi de contrôler les doublons.

• Attention: Droid ne fait pas de distinction entre les diverses versions d’un format.

Page 17: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Vérification du format

17

Il ne suffit pas de déterminer le format.

Il est également important de vérifier si celui-ci est valide:

• Tous les JPEG ne sont pas lisibles avec les logiciels courants.• Tous les PDF/A ne sont pas reconnus comme tels, en raison d’erreurs au sein des

logiciels.

⇒Les formats doivent être vérifiés et comparés à un modèle de référence.⇒Les documents doivent aussi contenir des métadonnées

sur le processus de création de format.

Page 18: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Vérification du format avec JHOVE

18

http://sourceforge.net/projects/jhove/

JHOVE vérifie les formats et livre des métadonnées les concernant.

Page 19: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Les paquets d’information créés lors de l’ingest

19

Vorführender
Präsentationsnotizen
Lors de l’ingest, de nombreux objets sont regroupés en paquets: plusieurs objets de contenu allant ensemble (par exemple certains tableaux) des métadonnées – en particulier sur le processus d’archivage («preservation description information») Plus d’infos sur les paquets d’informations dans le module 3-2.
Page 20: ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales.

Ingest: peut en partie être automatisé

20

• Les routines de vérification et de migration de formats peuvent être automatisées.

• Les curateurs de données doivent:• assurer que les documents pertinents sont inclus dans le paquet• définir les caractéristiques importantes des documents• sur cette base choisir le(s) format(s)• assurer que les informations nécessaires à la compréhension de l’objet

sont disponibles