Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents...

23
Les services d’archivage électronique Olivier Rouchon – CINES [email protected] Réunion CINES/TGE-ADONIS – 13 Septembre 2011

Transcript of Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents...

Page 1: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Les services d’archivage électroniqueOlivier Rouchon – [email protected]

Réunion CINES/TGE-ADONIS – 13 Septembre 2011

Page 2: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

• L’archivage numérique au CINES– La mission

– La démarche assurance qualité

– La plateforme PAC

– L’état des lieux

Sommaire

2Réunion CINES / TGE-ADONIS13/09/2011

• Le projet d’infrastructure mutualisée – Le pilote CRDO

– Le bilan

– Les perspectives

Page 3: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Le Centre Informatique National de l’Enseignement Supérieur

13/09/2011 Réunion CINES / TGE-ADONIS 3

Centre Informatique National de l’Enseignement Supérieur

• Basé à Montpellier (Hérault, France)

• EPA créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) – créé en 1980

• Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) et de la DGESIP (Direction Générale pour l’Enseignement Supérieur et l’Insertion Professionnelle) du Ministère de l’Enseignement Supérieur et de la Recherche

• Missions

– Calcul numérique intensif (14ème machine mondiale)

– Archivage pérenne de documents électroniquesActivité transversale : hébergement d'environnements

informatiques

• Plus d’information : http://www.cines.fr/

Page 4: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Depuis 2004, le CINES a une mission nationale d’archivage du patrimoine scientifique.

– Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat ;

– Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne.

Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d’une plate-forme et d’un service d’archivage numérique pérenne

– Une équipe dédiée de 11 personnes dont une archiviste ;

– Une infrastructure en exploitation.

Les données concernées sont :

– Les données scientifiques – résultats d’observations ou de calcul ;

– Les données patrimoniales – pédagogiques, publications, etc. ;

– Les données administratives – archives intermédiaires.

La mission d’archivage du CINES

13/09/2011 4Réunion CINES / TGE-ADONIS

Page 5: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Le service d’archivage pérenne du CINES

13/09/2011 Réunion CINES / TGE-ADONIS 5

Objectifs : la mise en place d’une solution

– Performante pour la conservation à long terme du patrimoine numérique des établissements

• Qualité technique (métadonnées, fichiers, stockage) ;

• Qualité organisationnelle (processus métiers, gestion des risques, certification).

– Economique et sécurisée

Contraintes

– Besoin d’une solution générique, basée sur les normes du domaine ;

– Adoption de standards → facilite la démarche qualité pour la conservation ;

– Facilité de veille technologique et de migration.

Dans le respect du contexte législatif archivistique français

Page 6: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

– Dans son aspect physique comme dans son aspect intellectuel ;– Sur le très long terme soit 30 ans et au-delà ;– De manière à pouvoir le rendre accessible et compréhensible.

Or, la plupart des fichiers informatiques de plus de 10 ans sont aujourd’hui illisibles :

– Connaissance perdue du contenu des fichiers ;

– Format de fichier inconnu ;

– Support physique détérioré ;

– Logiciel ou matériel de lecture disparu.

Qu’est-ce que l’archivage pérenne ?

13/09/2011 Réunion CINES / TGE-ADONIS 6

Page 7: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Les défis pour l’archivage pérenne

13/09/2011 Réunion CINES / TGE-ADONIS 7

Mise en place de procédures d’assurance qualité pour atténuer l’impact des risques lorsqu’ils se réalisent

Contrainte Solutions

Connaissance du contenu • Utilisation de métadonnées• Identification unique et pérenne des

documents archivés

Format de fichier inconnu • Privilégier les formats durables• Identification, validation des formats• Migration logique (conversion de formats)

Support physique détérioré • Gestion du vieillissement des médias• Migration physique (changement de

support)

Logiciel ou matériel de lecture disparu

• Veille technologique et anticipation

Page 8: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

La qualité recouvre deux domaines :

1. La qualité technique

• Qualité des métadonnées = capacité à garder la connaissance des contenus

• Qualité des formats de fichiers = capacité à convertir à de nouveaux formats

• Qualité du stockage = capacité à conserver le train de bits constituant les fichiers

2. La qualité organisationnelle

• Documentation des processus métiers = répétabilité et amélioration des mécanismes de conservation

• Gestion des risques = maintient d’un niveau de qualité acceptable en identifiant de façon proactive les évènements pouvant impacter la conservation et les plans d’actions à mettre en place

• Démarche de certification = validation des actions entreprises et constitue un levier pour l’obtention de budgets auprès des décideurs

L’adoption de normes/standards facilite la démarche qualité

Pourquoi la qualité ?

13/09/2011 Réunion CINES / TGE-ADONIS 8

Page 9: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Les métadonnées permettent de préserver les informations décrivant les objets numériques :

– Métadonnées / informations de pérennisation (descriptives, source, historique) ;

– Métadonnées / informations de représentation (techniques, structure).

Plusieurs contrôles de la qualité peuvent être effectués :

– Contrôle du format de la métadonnée par l’adoption d’un standard

• Métadonnées génériques pour la description des ressources numériques : ex. Dublin Core (ISO 15836) ;

• Métadonnées spécifiques à un domaine : ex. commerce électronique ebXML (ISO 15000), données géographiques (ISO 19115) ;

• Métadonnées techniques : préservation (PREMIS, METS), propriété intellectuelle (indecs, MPEG-21).

– Contrôle de la valeur des métadonnées par une logique applicative métier

• Liste de valeurs autorisées, etc.

Mise en place d’une bibliothèque d’informations de représentation

La qualité des métadonnées

13/09/2011 Réunion CINES / TGE-ADONIS 9

Page 10: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

La qualité des formats de fichier

13/09/2011 Réunion CINES / TGE-ADONIS 10

Pour permettre le contrôle de la qualité d’un fichier, celui-ci doit être dans un format identifié et vérifiable :

– Format publié ; ex. WAVE, SVG ;

– Format largement utilisé ; ex. XML, MPEG4 ;

– Format normalisé si possible ; ex. PDF (ISO 32000-1:2008), PNG (ISO 15948:2004).

Pour pouvoir être lisibles dans le temps, et convertibles, les fichiers doivent respecter à la lettre les spécifications de leur format.

Les outils libres Jhove, ImageMagick, DROID, ODF Validator permettent une identification, validation et caractérisation des formats.

Type Format

Texte HTML, PDF, TXT, XML, ODT

Image GIF, JPEG, TIFF, PNG, SVG

Audio WAV, AIFF, AAC, VORBIS

Vidéo MPEG4, THEORA, MKV

Page 11: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Un outil pour contrôler la qualité des formats de fichier

13/09/2011 Réunion CINES / TGE-ADONIS 11

FACILE – validation du Format d’Archivage du CInes par anaLyse et Expertise

• Outil en ligne permettant de valider les fichiers par rapport aux spécifications de leur format ;

• Les contrôles effectués sont les mêmes que ceux effectués lors d’un dépôt de document ;

• Intègre les mêmes outils (Jhove, Imagemagick, DROID) que la plateforme d’archivage du CINES;

• Permet une validation des fichiers avant dépôt de la part du producteur.

http://facile.cines.fr/

Page 12: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

La qualité du stockage

13/09/2011 12Réunion CINES / TGE-ADONIS

• La qualité du stockage garantit la conservation du train de bits composant les fichiers de données

– Copies multiples (>2), réplication vers un site distant (BnF, CC-IN2P3) ;

– Indépendance des supports de copies (mélange disques/bandes, localisation géographique) ;

– Audit fréquent de l’intégrité des copies.Le contrôle de l’intégrité des fichiers permet d’anticiper la corruption de

l’information.

• Au niveau matériel : vérification CRC par les contrôleurs de disques, contrôleurs réseau etc.

• Au niveau logiciel : vérification des sommes de contrôle (en anglais checksum)

‒ Calcul des empreintes numériques par échantillonnage et comparaison avec l’empreinte initiale

‒ Utilisation d’algorithme de hachage (MD5, SHA-256), etc.

Page 13: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

L’état des lieux

13/09/2011 Réunion CINES / TGE-ADONIS 13

La Plateforme d’archivage au CINES – PAC v2.0 – capable de gérer de larges volumes (40 To) est en exploitation depuis Mai 2008. Volumétrie archivée 12To (au 31 Août 2011)

Tous les projets d’archives partagent la même plateforme– Mutualisation de l’infrastructure matérielle d’archivage ;– Protocole de versement générique ;– Diminution des coûts de mise en place et d’exploitation.

Trois environnements distincts disponibles :– Développement (interne)– Tests utilisateurs (interne/externe)– Production (externe)

Le CINES est un acteur reconnu du domaine de la préservation numérique – Mission nationale confiée par le MESR (centre officiel d’archivage des thèses électroniques) ;– Rôle clé dans la réussite au niveau national d’une stratégie pour l’archivage pérenne des

documents électroniques produits par la communauté Université-Recherche ;– Nombreuses sollicitations émanant d’universités, de bibliothèques ou de laboratoires, pour

divers services dans ce domaine.

Page 14: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

L’architecture logique de la plateforme PAC

13/09/2011 Réunion CINES / TGE-ADONIS 14

PAC : Plateforme d’archivage du CINES

Serveurde

Transfert

Serveurde

Stockage

Serveurd’Accès

Producteur Service Versant

Administrateur

Utilisateur

Service de Contrôle

Page 15: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Le projet d’infrastructure mutualisée pour l’archivage/diffusion

13/09/2011 Réunion CINES / TGE-ADONIS 15

Plateforme d’Archivage

Transfert

Synchronisation

Synchronisation

Système de diffusion /

communication

Conversions Formats

Infrastructure Mutualisée

(Grille de Données)

Page 16: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Document transféré (SIP) composé de deux pièces

1. La description de l’archive

• Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd)

• 3 sections décrivant :

– Le document dans son projet d’archives

– Le document proprement dit

– Les fichiers du document

2. Le dossier contenant les documents électroniques à archiver

• Répertoire « DEPOT », sous-arborescence autorisée, tout fichier présent doit être décrit dans le fichier sip.xml

• Répertoire « DIFFUSION », informations à ne pas pérenniser

Document archivé (AIP) augmenté de quelques informations

• Fichier aip.xml (schéma http://www.cines.fr/pac/aip.xsd)

• Identifiant unique (ARK), date archivage, checksums

La structure du document à archiver

13/09/2011 Réunion CINES / TGE-ADONIS 16

SIP

AIP

Page 17: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Modification du protocole de versement

Ajout de la procédure de transfert vers l’IN2P3

Mise en place du protocole iRods

Modification du processus de validation des objets transférés (SIP)

Prise en charge de nouveaux formats de fichiers audio/vidéo

Préservation de métadonnées métier

Établissement de relations entre archives

Répertoire spécifique à la diffusion

Changements requis et impact sur la plateforme du CINES

13/09/2011 Réunion CINES / TGE-ADONIS 17

AIP

Module Entrée

Plateforme d’Archivage TransfertSIP

AIP

Page 18: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

Les objectifs du projet « pilote » CRDO

• Valider le schéma retenu pour les données orales, sur le plan– Des fonctionnalités d'ensemble– De la répartition des tâches et des responsabilités entre les acteurs

• Prouver la possibilité d’extension aux autres données des SHS crées, gérées et utilisées par différents Centres de Ressources Numériques

Le bilan du projet « pilote » CRDO

• La plateforme est en production depuis Mars 2010– Au 30 Août 2011, plus de 6000 documents multimédia versés, env. 500 Go– Respect des normes du domaine (OAIS – ISO14721, etc.)

• Infrastructure présentée aux Archives de France le 29 Octobre 2009

• Bilan du « pilote » validé par le Conseil Scientifique du TGE ADONIS en Septembre 2010

Les perspectives

• Agrément SIAF du CINES obtenu le 14 Décembre 2010

• Planification de l’extension de l’infrastructure à d’autres CRNs (ATILF, etc.)

Le bilan et les perspectives

13/09/2011 Réunion CINES / TGE-ADONIS 18

Page 19: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

13/09/2011 Réunion CINES / TGE-ADONIS 19

Questions & Ré[email protected]

Page 20: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

AIP Archival Information Package, ou paquet d’information archivés

DCMI Dublin Core Metadata Initiative, norme de métadonnées standards et interopérables dans la description des ressources électroniqueshttp://dublincore.org/

ebXML Electronic Business using eXtensible Markup Language, suite de spécifications basées sur le langage XML utilisable pour le commerce électroniquehttp://www.ebxml.org/

METS Metadata Encoding and Transmission Standard, schéma standard pour l’encodage de métadonnées descriptives, administratives ou structurelles associées à des objets numériqueshttp://www.loc.gov/standards/mets/

OAIS Open Archival Information System, modèle conceptuel de référence conceptuel pour l'archivage de documents – norme ISO 14721http://public.ccsds.org/publications/archive/650x0b1.pdf

PREMIS Preservation Metadata Implementation Strategies, dictionnaire de métadonnées de référence pour la préservation d’objets numériqueshttp://www.loc.gov/standards/premis/

SIP Submission Information Package, ou paquet d’information versé

Glossaire

13/09/2011 Réunion CINES / TGE-ADONIS 20

Page 21: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

La démarche :

1.Décomposition des fonctions métier de l’archivage en processus, sous-processus, activités

2.Établissement d’une cartographie générale des processus

3.Détail de chaque processus identifié – à rapprocher des groupes fonctionnels OAIS

– 33 fonctions théoriques

– 22 processus identifiés et applicables

La formalisation des processus métiers

13/09/2011 Réunion CINES / TGE-ADONIS 21

Page 22: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

La formalisation des processus métiers

13/09/2011 Réunion CINES / TGE-ADONIS 22

Les étapes de la description d’un processus:

1. Formalisation par l’expert (pilote du processus) : entretien, réalisation de la cartographie ;

2. Validation de la cartographie et caractéristiques associées par la hiérarchie ;

3. Validation par l’équipe après corrections éventuelles ;

4. Veille sur cette cartographie.

Cette étape requiert l’adhésion et l’implication de tous les agents impliqués.

INTERVIEWER LES EXPERTS

DESSINER LA CARTOGRAPHIE

COMPLETER LA BD DES FICHES

CARACTERISTIQUES

Approbation expert ?

Non

Début

Approbation hiérarchie ?

non

oui

Validation équipe PAC ?

non

PUBLICATION CARTOGRAPHIE

oui

FIN

CONSULTER HIERARCHIE POUR

AVIS

Oui

Page 23: Les services d’archivage électronique - Huma-Num · L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

Centre Informatique National de l’Enseignement Supérieur

La gestion des risques

13/09/2011 Réunion CINES / TGE-ADONIS 23

1. Définition du contexte

• Fixer les objectifs de la gestion des risques

1. Identification et catégorisation des risques

2. Evaluation des risques

• Analyser la probabilité et l’impact de chaque risque dans le temps

4. Prise de décision

• Identifier les risques prioritaires, les moyens de leur traitement et le plan d’action

Identification Evaluation

Plan de gestion des

risques Prise de Décision

Maîtrise

Itération

Le délivrable de ce processus est le plan de gestion des risques actualisé en permanence

Liste desRisques

TOP 10

1

2

3

4

5Risques éliminés

5. Maîtrise des risques

• Mettre en place les actions nécessaires pour diminuer le niveau de risques

6. Itération