ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS...
Transcript of ÉCOLE D’AUTOMNE 2016 F DONNÉS DE LA RECHERCHE · 2017. 5. 6. · Le modèle de référence OAIS...
Niklaus Stettler Schweizerisches Institut für Informationswissenschaft (SII)Zurich, 09.03.2016Licence CC BY 2.5
All cartoons courtesy of Jørgen Stamp, digitalbevaring.dk
CC BY 2.5
ÉCOLE D’AUTOMNE 2016F
DONNÉS DE LA RECHERCHEMODULE 2-4: Parcours de vie des données: archivage à long terme
CURATION DOMAINCuration Domain
2
Que signifie le long terme?
3
Le long terme correspond à une durée prolongée, durant laquelle des changements technologiques et socioculturels importants et impossibles à prévoir surviennent, qui transforment totalement, à coups de cycles de développement accélérés, la forme et l’utilisation des ressources numériques.
Source: Schwens/Liegmann, in: Grundlagen der praktischen Information und Dokumentation, 2004
L’archivage se base sur le modèle de référence OAIS
4
Le modèle de référence OAIS
5
• OAIS est un modèle générique, qui décrit la mise en place et le fonctionnement d’une archive à long terme pour document digitaux et physiques.
• OAIS est une aide permettant de planifier pas à pas les processus complexes de l’archivage à long terme.
• Développé de 1997 à 1999 par le Consultative Committee for Space Data Systems (CCSDS) (NASA, ESA, …)
• 2001: Blue Book devient une norme ISO: ISO 14721:2003• Version actuelle: CCSDS Recommended Practice for an OAIS Reference Model,
Magenta Book, 2012Anglais: http://public.ccsds.org/publications/archive/650x0m2.pdf Allemand: http://files.d-nb.de/nestor/materialien/nestor_mat_16-2.pdf Français: il n’existe aucune traduction à ce jour
L’objet numérique a 3 niveaux
1. L’objet physique: L’objet numérique est physique: des caractèresbinaires sur un disque dur (bit stream)
2. L’objet logique: Niveau des logiciels, qui reconnaissent les bits en tant que format(interprètent une lange à partir des uns et des zéros)
3. L’objet conceptuel: Niveau de la compréhension (rend la langue compréhensible)
6
Au cours du temps, l’objet sera menacé sur tous ses 3 niveaux.L’archivage signifie aller à l’encontre de ces menaces.1. Objet physique: Les supports d’enregistrement sont obsolètes.
Mitigation: effectuer à temps une copie sur de nouveaux supports.
2. Objet logique: Le logiciel actuel ne peut plus décoder les vieux documents.Mitigation: utiliser des logiciels avec une durée de vie plus longue,ou migrer vers de nouveaux formats
3. Objet conceptuel: La représentation n’est plus compréhensible, n’a plus de sensMitigation: fournir des explications aux contenus
7
Toutes les mesures sont des atteintes à l’objet.• En raison de la durée de vie réduite du matériel et des logiciels, les objets numériques doivent être
entretenus en permanence.
• Un entretien durable signifie copier et manipuler.
• Danger de modifications souhaitées ou non souhaitées du contenu original.
=> L’objet du futur n’est pas identique à celui qui a été livré à l’archive.
⇒ L’archivage numérique à long terme est une suite de mesures à entreprendre de manière contrôlée et planifiée.
8
OAIS suggère de se baser sur le potentielréutilisateur
9
• Définition des «significant properties»• Définition des informations d’accompagnement nécessaires, devant être fournies avec les
données afin de garantir leur compréhension immédiate
Image: http://public.ccsds.org/sites/cwe/rids/Lists/CCSDS%206500P11/Attachments/650x0p11.pdf
L’ingest
Groupement de tous les objets devant être livrés Vérification de l’intégrité Vérification des virus Vérification de la validité des formats Migration éventuelle vers un format adapté à l’archivage Documentation des actions effectuées Enrichissement du paquet avec les informations nécessaires à la
compréhension des données
10
Ingest : migration des données vers un format adapté à l’archivage
11
Les formats ont des durées de vie diverses. Les formats adaptés à l’archivage se caractérisent par: leur ouverture leur longue durée de vie leur large diffusion
Les formats adaptés à l’archivage doivent être migrés moins souvent. La plupart des archives ont une liste de formats recommandés, par exemple
les Archives fédérales suisses, CECO, etc.
Liste des formats acceptés par la UK Data Archive
12
Source: UK Data Archive, File Formats Table: http://data-archive.ac.uk/create-manage/format/formats-table
SPSS portable format (.por) SPSS, DDI XML CSVESRI ShapefileGeo TiffCAD data (.dwg) XMLrtfASCII
TIFF FLAC MPEG-4Motion JPEG 2000PDF/AOpenDocumentText
Liste des formats d’archivage des Archives fédérales suisses (AFS)
13
Source: https://www.bar.admin.ch/bar/fr/home/archivage/versement-de-documents/documents-numeriques.html
Les AFS déclarent adaptés à l’archivage les formats suivants:
• TXT• PDF/A• CSV• SIARD• TIFF• WAVE• MPEG-4
Cette liste comprend les candidats actuels à une intégration dans la prochaine version:
• XML/XSD• RDF• PDF/A 2• JPEG2000• GeoTIFF• SVG
Quel format choisir?
14
• Beaucoup d’objets peuvent être représentés sous des formes différentes.
• Le document possède des caractéristiques différentes selon le format. Par exemple• Texte en Word: modifiable, pouvant intégrer des vidéos, la mise en page peut
éventuellement être perdue.• Texte en PDF/A: conserve la mise en page et le contenu, aucune vidéo intégrée• TXT: requiert très peu d’espace de stockage, conserve le contenu, perd la forme
⇒ Le choix du format dépend des caractéristiques importantesdevant être maintenues.
• La base de données «Pronom» des Archives nationales britanniques fournissent des informations sur le choix du format.
Exemple de format dans «Pronom» http://www.nationalarchives.gov.uk/PRONOM/Default.aspx
15
DROID: outil de vérification d’un format
16
http://digital-preservation.github.io/droid/
• Droid interroge Pronom.• Droid vérifie les formats et livre les informations de Pronom.• Droid peut aussi calculer des valeurs de hachage (sommes de contrôle).• Il permet ainsi de contrôler les doublons.
• Attention: Droid ne fait pas de distinction entre les diverses versions d’un format.
Vérification du format
17
Il ne suffit pas de déterminer le format.
Il est également important de vérifier si celui-ci est valide:
• Tous les JPEG ne sont pas lisibles avec les logiciels courants.• Tous les PDF/A ne sont pas reconnus comme tels, en raison d’erreurs au sein des
logiciels.
⇒Les formats doivent être vérifiés et comparés à un modèle de référence.⇒Les documents doivent aussi contenir des métadonnées
sur le processus de création de format.
Vérification du format avec JHOVE
18
http://sourceforge.net/projects/jhove/
JHOVE vérifie les formats et livre des métadonnées les concernant.
Les paquets d’information créés lors de l’ingest
19
Ingest: peut en partie être automatisé
20
• Les routines de vérification et de migration de formats peuvent être automatisées.
• Les curateurs de données doivent:• assurer que les documents pertinents sont inclus dans le paquet• définir les caractéristiques importantes des documents• sur cette base choisir le(s) format(s)• assurer que les informations nécessaires à la compréhension de l’objet
sont disponibles