Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

31
Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE

Transcript of Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Page 1: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Gestion de données sur EGEE

Page 2: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

2

Outline

• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM

• Cas pratiques / Commandes

Page 3: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

3

Data Management System (DMS)

• Fournit des services de manipulation des données pour les utilisateurs et les services de grille.

• DMS permet la location, l’accès et le transfert des données– L’utilisateur n’a pas besoin de connaître la localisation des

données, juste le nom logique qui leur est associé

– On accède aux données à travers des interfaces standards

– Les données peuvent être répliquées ou transférées vers autant de destinations qu’il est nécessaire

– Les données sont partagées par tous les membres d’une VO

Page 4: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

4

Zoom sur les services

• Le DMS fournit toutes les opérations utiles pour: Uploader / télécharger des fichiers Créer des fichiers / répertoires Renommer des fichiers / répertoires Supprimer des fichiers / répertoires Déplacer des fichiers / répertoires Lister des répertoires Créer des liens symboliques

• Note: Les fichiers ne sont inscriptibles qu’une fois, mais visibles plusieurs fois– Les fichiers ne peuvent être changés que s’ils sont supprimés

ou déplacés

Page 5: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

5

• 3 types de services pour DM:– Storage (SE's): où les fichiers sont “physiquement” localisés

Storage URL ou SURL:• srm://castorsc.grid.sinica.edu.tw/data/biomed/mytest.dat

– Catalogs: Espace de nommage de haut niveauplace les fichiers “physiques” dans des noms virtuels “logiques”

Logical File Name ou LFN:• lfn:/grid/biomed/mytest.dat

– Mouvement de fichiers:pose/prend les fichiers sur les SEdéplace/réplique les fichiers entre les SE

Transport URL ou TURL:• gsiftp://sc003.grid.sinica.edu.tw:2811/data/biomed/mytest.dat

Services de gestion dans gLite

Page 6: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

6

Le challenge de la gestion des données

• fait face à une hausse croissante de la demande de stockageStorage Element capable de gérer des pools de disques multiples

– Disk Pool Manager (DPM), dCache, CASTOR

• Les données sont stockées sur différentes technologies de stockageL’interface principale doit cacher la complexité

– GridFTP – transfert de fichiers sécurisée– Storage Resource Manager (SRM) – protocole de gestion des stockage

• Les données sont stockées à des endroits différents avec des noms différentsLe File catalog fournit une vue uniforme des données de grille

– LCG File Catalog (LFC)

• Une large quantité de données doit être distribuée de manière stableUn système Robuste gère le transfert des fichiers

– FTS (File transfer service)

Page 7: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Exemple

ResourceResourceBrokerBroker

StorageStorageElement 1Element 1

ComputingComputingElementElement

Input “sandbox”

Input “sandbox” + Broker Info

Output “sandbox”

Output “sandbox”

““User User interface”interface”

StorageStorageElement 2Element 2

1st job écrit et répliques les sorties sur 2 SE

Max. 10MB

DataSets infoLCG FileCatalog LCG FileCatalog (LFC)(LFC)

Page 8: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Exemple

ResourceResourceBrokerBroker

StorageStorageElement 1Element 1

ComputingComputingElementElement

Input “sandbox”

Input “sandbox” + Broker Info

Output “sandbox”

Output “sandbox”

““User User interface”interface”

StorageStorageElement 2Element 2

2nd job lit l’entrée depuis le SE

Max. 10MB

DataSets infoLCG FileCatalog LCG FileCatalog (LFC)(LFC)

garde le calcul proche du stockage

Page 9: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

LFN

StorageStorageElement 1Element 1

““User User interface”interface”

LCG FileCatalog LCG FileCatalog (LFC)(LFC)

StorageStorageElement 2Element 2

Le contenu est disponible sur les 2 SE

“Myfile.dat”

Myfile.dat

File_on_se1

File_on_se2

Page 10: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

StorageStorageElement 1Element 1

““User User interface”interface”

LCG FileCatalog LCG FileCatalog (LFC)(LFC)

StorageStorageElement 2Element 2

“Myfile.dat”

Myfile.dat

“Logical filename”

File_on_se1 (“SURL”: site URL)

File_on_se2 (“SURL”: site URL)

“GUID” Global Unique Identifier

LFN

Le contenu d’un fichier ne peut pas changer

il est inutile de resynchroniser les

réplicas

Page 11: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

12

• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM

• Cas pratiques / Commandes

Page 12: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

13

Convention de nommage

• Logical File Name (LFN) alias créé par un utilisateur pour référencer des données

e.g. “lfn:/grid/biomed/reichma/chocapic”

• Globally Unique Identifier (GUID) Un identifiant unique illisible qui référence une donnée e.g. “guid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6”

• Storage URL (SURL) ou Physical File Name (PFN) La localisation physique d’un ensemble de données sur un système de stockage

e.g. <sfn | srm>://<SE_hostname><SE_Accesspoint><VO_Path><filename>

“sfn://tbed01.cern.ch/data/biomed/reichma/mytest.dat”

“srm://dpm.grid.sinica.edu.tw/grid/home/biomed/mytest.dat ”

• Transport URL (TURL) Localisation temporaire d’un réplicae.g. <protocol>://<SE_hostname>:<port>/<path>

“ gsiftp://dpm.grid.sinica.edu.tw:2811/grid/home/biomed/mytest.dat ”

Page 13: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

14

Outline

• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM

• Cas pratiques / Commandes

Page 14: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

15

Storage Element

• Définitions– Les types standards de SE sont:

DPM dCache Castor (utilisé au CERN, ASGC...) StoRM , …

– accès aux fichiers de type POSIX via Grid File Access Library(GFAL)

– Espace de stockage pour les fichiers permet une gestion stable

– Protocole de transfert (gsiFTP)– Interface SRM

Page 15: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

16

• SRM (Storage Resource Manager)

Fournit un Accès Uniforme Standard d’accès aux données

ClientUser/Application

Grid Middleware

SRM SRM SRM

CastorCastor dCachedCacheDPMDPM

Storage Resource Manager

Page 16: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

17

• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM

• Cas pratiques / Commandes

Page 17: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

18

Les services LFC

• LFC = LCG File Catalogue– LCG = LHC Computing Grid – LHC = Large Hadron Collider

• Fournit– un lien entre LFN, GUID et SURL– Transactions, Sessions– un espace de nommage hiérarchique, des liens symboliques

• Tous les membres d’une VO ont les permissions écriture/lecture dans leurs répertoires

• Les commandes ressemblent à celles d’UNIX avec “lfc-” avant

Page 18: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

19

LFC

• Les utilisateurs accèdent tout d’abord aux données et les gèrent à travers les “fichiers logiques”

•Mapping par le “LFC”

Défini par l’utilisateurarborescence LFC

Le LFC a une structure en arborescence/grid/<VO_name>/ <à créer>

Exemple : /grid/biomed/reichma/testfiles.dat

Page 19: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

20

2 types de commandes

• Les commandes lfc– Utilisée pour interagir avec seulement le catalogue

pour créer des répertoires pour lister des fichiers

– Utilisés par les utilisateurs et les commandes lcg

• Les commandes lcg– Couplent les opérations du LFC avec les opérations de

gestion – copient les fichiers de/vers/entre les SE– gèrent la réplication des données

Page 20: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

21

Les commandes LFC

ajoute/change un commentairelfc-setcomment

Mets en place des contrôle d’accèslfc-setacl

Supprime un fichier/répertoirelfc-rm

Renomme un répertoire/fichierlfc-rename

Crée un répertoirelfc-mkdir

Liste les fichiers/répertoires dans un répertoirelfc-ls

Crée un lien symboliquelfc-ln

Récupère les listes de contrôle d’accèslfc-getacl

supprime les commentaires associéslfc-delcomment

Change l’appartenance d’un fichier/répertoirelfc-chown

Change les droits d’accès vers un fichier/répertoirelfc-chmod

Résumé des commandes LFC

Page 21: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

22

Les commandes LCG

Replica Management

mets le statut d’un SURL à done pour une requête SRM donnéelcg-sd

récupère le TURL d’un SURL donnélcg-gt

réplique entre plusieurs SE un fichierlcg-rep

supprime un fichierlcg-del

copie un fichier local sur la grille et l’enregistre dans le lfclcg-cr

copie un fichier de la grille en locallcg-cp

Page 22: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

23

/grid/biomed/test_SE.002

srm://castorsc.grid.sinica.edu.tw/castor/grid.sinica.edu.tw/sc/biomed/generated/2006-03-09/filec025611a-4619-4730-b6e0-5261e5ec095c

gsiftp:// lcg00116.grid.sinica.edu.tw:2811/flatfiles/SE00/dt/stage/filec025611a-4619-4730-b6e0-5261e5ec095c.815277

c033f475-cc6a-4556-a42c-60fb29274524

/castor/grid.sinica.edu.tw/sc/biomed/generated/2006-03-09/filec025611a-4619-4730-b6e0-5261e5ec095c

lcg00116.grid.sinica.edu.tw/flatfiles/SE00/dt/stage/filec025611a-4619-4730-b6e0-5261e5ec095c.815277

LFNGUID

SURL

TURL

Physical File Name

Logic File Name

SE

LFC

Page 23: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

24

Gestion de données:outils bas niveau

Use case: Copie d’un fichier d’un SE1 à un SE2

Diskpool

Diskpool

GridftpserverN

gridftp::STOR

gridftp::RETR

globus-url-copygsiftp://gFTP1/.. gsiftp://gFTPn/..

SURLTURL

Gridftpserver2

Gridftpserver3

GridftpserverN-1

Gridftpserver1

pas toujours inscrit dans l’IS

SE1

SE2

Page 24: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

26

Use case: copie d’un fichier vers un SE et enregistrement dans le LFC

lcg-cr -vo MyVO file://$PWD/text_file.txt -d se.destination lfn:/grid/MyVO/myDIR/myFILE

LFC server

SRM

SE1

gridftp1

gridftp2

gridftp3

pool

Depuis l’IS, vous pouvez tout savoir du SE

Copy

Register

Vous pouvez tracer vos données depuis le LFC

Gestion de données:outils haut niveau

Page 25: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

27

• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM

• Cas pratiques / Commandes

Page 26: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Répliquer des données de la grille

• Répliquer des données– Dupliquer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr

lcg-rep –d SE.in2p3.fr --vo gilda lfn:toto.test

• Supprimer des données– Supprimer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr

– L’option –a permet de supprimer tous les replicas

lcg-del –s SE.in2p3.fr --vo gilda lfn:toto.test

lcg-del -a --vo gilda lfn:toto.test

Page 27: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Récupérer des données de la grille

• Copier des données grille => UI– Mettre le fichier toto avec le LFN toto.test sur l’UI

dans /myhome/

lcg-cp --vo gilda lfn:toto.test file:/myhome/toto

Page 28: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Soumettre des données avec le job

• Utiliser l’attribut InputSandbox dans le JDL

• Attention : on ne peut pas utiliser ce champ pour un trop grand transfert (plusieurs megabytes)

• InputSandbox = {“toto“, “job.sh”};

Page 29: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Adresser des données stockées sur la grille au job

• Il faut des données stockées et enregistrées sur la grille (dans le RLS)

• Spécifier les données au job par l’attribut InputData dans le JDL

• InputData = “lfn:toto”

• Dans le script d’éxecution de votre job, utilisez la commande – export LCG_GFAL_INFOSYS=grid004.ct.infn.it:2170– lcg-cp --vo gilda lfn:toto.test file:`pwd`/toto

Page 30: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Récupérer les données résultat sur l’UI

• Définir le job pour récupérer les données– Le job génère des données dans le répertoire de travail du WN– A la fin du job, les données sont placées dans l’espace de

stockage temporaire du RB– Vous les récupérez via “glite-wms-job-output”

• Eléments clé :– Vous devez connaître les noms des fichiers que vous souhaitez

récupérer– OutputSandbox = {“toto", “toto.out“,”toto.err”}; – Méthode non destinée pour de gros fichiers (> centaine MB)

espace de stockage temporaire limité sur le RB

Page 31: Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.

Plateforme de Calcul pour les Sciences du Vivant

Stocker les données résultat sur la grille

• Le programme génère des données dans un fichier sur le WN• Le programme doit connaître quel est le nom du fichier sur le WN• Le programme utilise les commandes lcg-cp, lcg-cr :

• Spécifier les données aux jobs par l’attribut outputData dans le JDL– Si aucun LFN n’est précisé, WMS en choisit un– Si aucun SE n’est précisé, le SE le plus proche est choisi

• OutputData = { [ OutputFile = “toto.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic” ; ], [ OutputFile = “toto2.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic2” ; ] };

• Un fichier contenant le résultat de cette opération est créé et ajouté à la output Sandbox– DSUpload_<unique jobstring>.out