Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier...
-
Upload
lesticetlart-invisu -
Category
Education
-
view
275 -
download
1
Transcript of Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier...
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules
Problématique du devenir des données
au Centre de Calcul de l'IN2P3 Pascal CALVAT, 16 Janvier 2015
Plan
2
L’avalanche numérique dans tous les domaines
Présentation du Centre de calcul CCIN2P3
Plan de management des données au CCIN2P3
Pistes d’améliorations de la gestion des données : Inventaire des données
Point annuel avec les responsables des données
L’avalanche numérique dans tous les domaines
3
Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent
de plus en plus de données, engendrant une avalanche numérique.
• Découverte du boson de Higgs
•15 Po de données brutes par an répartis sur une grille de calcul mondiale
• 70000 processeurs
• http://home.web.cern.ch/
• Scan de l’ensemble du ciel en trois nuits (démarrage 2020)
•150 Po de données brutes sur 15 ans
• Base relationnelle de 15 Po
• Une partie des données sera rendue publique
• http://www.lsst.org/
Physique des particules - LHC (CERN - Genève)
Astronomie - LSST (Chili)
Quelques exemples :
Le détecteur ATLAS au CERN (Genève)
4
Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent
de plus en plus de données, engendrant une avalanche numérique.
• Découverte du boson de Higgs
•15 Po de données brutes par an répartis sur une grille de calcul mondiale
• 70000 processeurs
• http://home.web.cern.ch/
• Scanne de l’ensemble du ciel en trois nuits (démarrage 2020)
•150 de données brutes sur 15 ans
• Base relationnelle de 15 Po
• Une partie des données sera rendue public
• http://www.lsst.org/
Physique des particules - LHC (CERN - Geneve)
Astronomie - LSST (Chili)
Quelques exemples :
L’avalanche numérique dans tous les domaines
5
Biologie – Séquenceur haut débit
BNF (Paris)
• Numérisation d’ouvrages
• 100 To par an
• Archivage pérenne
• Service de diffusion de données
• http://www.bnf.fr
• Séquençage de l’ADN
• 1 Po pour la plateforme informatique
• Machine de calcul parallèle
• Plusieurs To de mémoire pour l’analyse
• Données rendues publiques
• http://bioinfo.genotoul.fr/
Avalanche numérique : besoin de ressources informatiques mutualisées
Titre de la présentation 6
Pour faire face à cette avalanche numérique, les chercheurs doivent avoir accès à des ressources informatiques mutualisées.
Laboratoire Centre de calcul Grille de calcul
(plusieurs centres de calculs)
La gestion des données numériques devient un point incontournable dans la réussite des projets scientifiques
Avantages d’une bonne gestion des données
Titre de la présentation Date 7
Mener un projet de recherche à son terme
Eviter la perte de données uniques ou difficilement reproductibles
Accélérer la recherche en mutualisant les efforts dans les équipes de recherche
Améliorer la qualité des données en réduisant les données orphelines
Intensifier la collaboration entre chercheurs en accédant à des données structurées en ligne (gratuites ou pas)
Continuer à exploiter des données après la fin des projets :
Exploiter les données après l’arrêt d’un accélérateur
Eviter de faire plusieurs fois les mêmes expériences (notamment sur les animaux)
Réduire les dépenses informatiques
Quels sont les avantages d’une bonne gestion des données?
Le Centre de calcul de l’IN2P3 en quelques mots
8
8
L’IN2P3 dispose d’un centre de calcul,
le CCIN2P3, installé à Lyon depuis
1986
La mission du CCIN2P3
est de fournir des services
informatiques aux laboratoires de
l’IN2P3 (CNRS) et l’IRFU (CEA)
Ouverture vers la biologie et les
sciences humaines et sociales
60 ingénieurs informaticiens
Services disponibles 24h/24
IN2P3 : Institut National de Physique Nucléaire et de Physique des Particules
Le CCIN2P3 : un gigantesque entrepôt de données
9
9
25 Po
Disque
20 000 cœurs de calcul pour l’analyse des données et les simulations
Bandes magnétiques
15 Po sur disque
Calcul
Le CCIN2P3 : un gigantesque entrepôt de données
10
Utilisateurs répartis dans différentes disciplines : Physique nucléaire et des particules (LHC au CERN)
Astrophysique
Ouverture interdisciplinaire : biologie, écologie, sciences humaines et sociales (Huma-Num)
Au total : 2500 utilisateurs répartis dans 170 groupes de recherche (groupe = projet scientifique)
40 Po répartis dans différentes technologies de stockage
Technologie Espace occupé Fichier en millions
GPFS 1.5 Po 476
AFS 3.5 To 3.5
HPSS 25 Po 49
iRODS 9 Po 60
DCACHE 8 Po -
TSM 1 Po -
Le CCIN2P3 : Type de fichiers
11
Fichiers de données avec tout type de format
◦ Raw data (appareil de mesure, relevé de terrain)
◦ Banques de données communautaires
◦ Simulation
◦ Analyse
Programmes informatiques (liés à un langage et un
environnement d’exécution)
Codes de gestion du workflow ◦ Lancement des calculs
◦ Traitement sur les données (transfert, fusion de données)
Comment gérer efficacement une telle diversité de données?
Gestion des données : le Data Management Plan
12
Pour une gestion correcte des données, chaque projet devrait
définir un plan de gestion de données
Le Data Management Plan (DMP) formalise la façon de gérer
les données liées à un projet de recherche
- Description des données, des métadonnées et du format
- Description du cycle de vie des données y compris après le projet
- Détail de la politique associée aux données (accès, diffusion,
confidentialité)
- Aspects budgétaires
Exemple de DMP en français issu du projet Horizon 2020 :
http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_p
gd_horizon_2020_tr_fr.pdf
Gestion des données: le plan de management « en vigueur » au CCIN2P3
13
DMP (Data Management Plan) par défaut au CCIN2P3 : o Recopie des données sur des supports récents. Cette opération est effectuée de manière transparente par les experts du Centre de calcul.
o Les données sont accessibles pendant la durée du projet o Pas de campagne systématique d'effacement des données (sauf demande explicite) y compris en fin de projet
o Certaines zones de stockage peuvent être sauvegardées à la demande
o Désignation d’un responsable des données par projet
o Respect des engagements du MoU (Memorandum of understanding). oExample MoU pour le LHC : http://wlcg.web.cern.ch/collaboration/mou
Les projets scientifiques disposent rarement d’un plan de management des données.
Pour l’ensemble des projets, le centre applique un plan de gestion des données orienté
sur la préservation des octets et l’accès en ligne aux données
Le CCIN2P3 : qualités et faiblesses du plan de gestion en vigueur
14
Qualités - Données accessibles en temps réel - Garantie de relire les données dans le futur sur des médias récents - Perte de temps minimale concernant la gestion des données - Gain de temps pour faire de la recherche et écrire des publications
Faiblesses - Le CCIN2P3 ne connaît pas la criticité des données stockées - Données temporaires ou orphelines pas supprimées entièrement - Difficulté d’identification du propriétaire des données pour les projets terminés - Lourdeur de la migration des données - Pas de stockage au sens archivistique du terme
Réaliser un inventaire des données stockées au CCIN2P3
Faire un point annuel entre le CCIN2P3 et les responsables des
données côté projet
Pistes d’amélioration de la gestion des données :
L’inventaire des données
15
Un inventaire des données est réalisé quotidiennement sur l’ensemble des systèmes de stockage du centre (40 Po) Cet inventaire est à destination des ingénieurs du centre pour avoir une vue détaillée des données, mais aussi à destination des responsables des données dans le projet de recherche Informations recueillies (si disponibles) : Type de technologie (AFS,HPSS, IRODS, GPFS, DCACHE) Propriétaire du fichier, nom du projet Répertoire parent Nombre de fichiers, sous-répertoires, liens Espace utilisé, quota alloué Date de dernière modification Date de dernier accès
Il a fallu plus de deux ans pour mettre en place l’inventaire
Inventaire des données : informations actuellement moissonnées
16
Propriétaire
Fichiers Espace utilisé Répertoire parent
Date de dernier accès
Date de dernière modification
Quota
AFS
Par utilisateur
Par utilisateur
Par utilisateur
DCACHE Par projet
HPSS
Par utilisateur
Par utilisateur
Par utilisateur
IRODS Par utilisateur
GPFS
Par utilisateur
Par projet
Ces informations sont indispensables pour une curation efficace des données. Vocabulaire : curation = l'ensemble des activités et opérations nécessaires à une gestion active des données de recherche numériques
Un point annuel sur les données
17
Le point sur les données a pour but d’identifier les actions de curation prioritaires
Réalisé avec le(s) responsable(s) des données au moins une fois par an Difficile à organiser avec 170 groupes de recherche répartis dans le monde o Réunion au CCIN2P3 ou dans le laboratoire de recherche o Visio-conférence o Téléphone o Par mail
Points abordés : o Identification des comptes à fermer ou à prolonger o Identification des actions de curation prioritaires o Estimation des besoins en stockage pour l’année suivante
Devenir des données au CCIN2P3
18
Après la fin d’un projet, les données suivent des destins
différents selon la politique du projet :
Les données peuvent :
Etre supprimées
Restées accessibles en ligne pendant plusieurs années
Exportées vers une base de données communautaire
Sauvegardées avec un replica
Conclusion
19
La gestion des données est une étape devenue incontournable dans les projets scientifiques
Le Data Management Plan doit être défini en amont du projet afin d’éviter de mauvaises surprises
La pérennisation et la mise à disposition des données doit être spécifiée clairement dans le DMP d’un point de vue technique et financier
L’inventaire des données et le point annuel sont indispensables pour enclencher les actions de curation
Contact : calvat(at)in2p3(dot)fr
Groupe de réflexion sur le devenir des données au CCIN2P3:
Osman Aïdel, David Bouvet, Yonnny Cardenas, Philippe Cheynet, Pascal Calvat, Rachid Lemrani, Jean-Yves Nief
MERCI