Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.
-
Upload
custance-dumas -
Category
Documents
-
view
105 -
download
1
Transcript of Plateforme de Calcul pour les Sciences du Vivant Gestion de données sur EGEE.
Plateforme de Calcul pour les Sciences du Vivant
Gestion de données sur EGEE
Plateforme de Calcul pour les Sciences du Vivant
2
Outline
• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM
• Cas pratiques / Commandes
Plateforme de Calcul pour les Sciences du Vivant
3
Data Management System (DMS)
• Fournit des services de manipulation des données pour les utilisateurs et les services de grille.
• DMS permet la location, l’accès et le transfert des données– L’utilisateur n’a pas besoin de connaître la localisation des
données, juste le nom logique qui leur est associé
– On accède aux données à travers des interfaces standards
– Les données peuvent être répliquées ou transférées vers autant de destinations qu’il est nécessaire
– Les données sont partagées par tous les membres d’une VO
Plateforme de Calcul pour les Sciences du Vivant
4
Zoom sur les services
• Le DMS fournit toutes les opérations utiles pour: Uploader / télécharger des fichiers Créer des fichiers / répertoires Renommer des fichiers / répertoires Supprimer des fichiers / répertoires Déplacer des fichiers / répertoires Lister des répertoires Créer des liens symboliques
• Note: Les fichiers ne sont inscriptibles qu’une fois, mais visibles plusieurs fois– Les fichiers ne peuvent être changés que s’ils sont supprimés
ou déplacés
Plateforme de Calcul pour les Sciences du Vivant
5
• 3 types de services pour DM:– Storage (SE's): où les fichiers sont “physiquement” localisés
Storage URL ou SURL:• srm://castorsc.grid.sinica.edu.tw/data/biomed/mytest.dat
– Catalogs: Espace de nommage de haut niveauplace les fichiers “physiques” dans des noms virtuels “logiques”
Logical File Name ou LFN:• lfn:/grid/biomed/mytest.dat
– Mouvement de fichiers:pose/prend les fichiers sur les SEdéplace/réplique les fichiers entre les SE
Transport URL ou TURL:• gsiftp://sc003.grid.sinica.edu.tw:2811/data/biomed/mytest.dat
Services de gestion dans gLite
Plateforme de Calcul pour les Sciences du Vivant
6
Le challenge de la gestion des données
• fait face à une hausse croissante de la demande de stockageStorage Element capable de gérer des pools de disques multiples
– Disk Pool Manager (DPM), dCache, CASTOR
• Les données sont stockées sur différentes technologies de stockageL’interface principale doit cacher la complexité
– GridFTP – transfert de fichiers sécurisée– Storage Resource Manager (SRM) – protocole de gestion des stockage
• Les données sont stockées à des endroits différents avec des noms différentsLe File catalog fournit une vue uniforme des données de grille
– LCG File Catalog (LFC)
• Une large quantité de données doit être distribuée de manière stableUn système Robuste gère le transfert des fichiers
– FTS (File transfer service)
Plateforme de Calcul pour les Sciences du Vivant
Exemple
ResourceResourceBrokerBroker
StorageStorageElement 1Element 1
ComputingComputingElementElement
Input “sandbox”
Input “sandbox” + Broker Info
Output “sandbox”
Output “sandbox”
““User User interface”interface”
StorageStorageElement 2Element 2
1st job écrit et répliques les sorties sur 2 SE
Max. 10MB
DataSets infoLCG FileCatalog LCG FileCatalog (LFC)(LFC)
Plateforme de Calcul pour les Sciences du Vivant
Exemple
ResourceResourceBrokerBroker
StorageStorageElement 1Element 1
ComputingComputingElementElement
Input “sandbox”
Input “sandbox” + Broker Info
Output “sandbox”
Output “sandbox”
““User User interface”interface”
StorageStorageElement 2Element 2
2nd job lit l’entrée depuis le SE
Max. 10MB
DataSets infoLCG FileCatalog LCG FileCatalog (LFC)(LFC)
garde le calcul proche du stockage
Plateforme de Calcul pour les Sciences du Vivant
LFN
StorageStorageElement 1Element 1
““User User interface”interface”
LCG FileCatalog LCG FileCatalog (LFC)(LFC)
StorageStorageElement 2Element 2
Le contenu est disponible sur les 2 SE
“Myfile.dat”
Myfile.dat
File_on_se1
File_on_se2
Plateforme de Calcul pour les Sciences du Vivant
StorageStorageElement 1Element 1
““User User interface”interface”
LCG FileCatalog LCG FileCatalog (LFC)(LFC)
StorageStorageElement 2Element 2
“Myfile.dat”
Myfile.dat
“Logical filename”
File_on_se1 (“SURL”: site URL)
File_on_se2 (“SURL”: site URL)
“GUID” Global Unique Identifier
LFN
Le contenu d’un fichier ne peut pas changer
il est inutile de resynchroniser les
réplicas
Plateforme de Calcul pour les Sciences du Vivant
12
• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM
• Cas pratiques / Commandes
Plateforme de Calcul pour les Sciences du Vivant
13
Convention de nommage
• Logical File Name (LFN) alias créé par un utilisateur pour référencer des données
e.g. “lfn:/grid/biomed/reichma/chocapic”
• Globally Unique Identifier (GUID) Un identifiant unique illisible qui référence une donnée e.g. “guid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6”
• Storage URL (SURL) ou Physical File Name (PFN) La localisation physique d’un ensemble de données sur un système de stockage
e.g. <sfn | srm>://<SE_hostname><SE_Accesspoint><VO_Path><filename>
“sfn://tbed01.cern.ch/data/biomed/reichma/mytest.dat”
“srm://dpm.grid.sinica.edu.tw/grid/home/biomed/mytest.dat ”
• Transport URL (TURL) Localisation temporaire d’un réplicae.g. <protocol>://<SE_hostname>:<port>/<path>
“ gsiftp://dpm.grid.sinica.edu.tw:2811/grid/home/biomed/mytest.dat ”
Plateforme de Calcul pour les Sciences du Vivant
14
Outline
• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM
• Cas pratiques / Commandes
Plateforme de Calcul pour les Sciences du Vivant
15
Storage Element
• Définitions– Les types standards de SE sont:
DPM dCache Castor (utilisé au CERN, ASGC...) StoRM , …
– accès aux fichiers de type POSIX via Grid File Access Library(GFAL)
– Espace de stockage pour les fichiers permet une gestion stable
– Protocole de transfert (gsiFTP)– Interface SRM
Plateforme de Calcul pour les Sciences du Vivant
16
• SRM (Storage Resource Manager)
Fournit un Accès Uniforme Standard d’accès aux données
ClientUser/Application
Grid Middleware
SRM SRM SRM
CastorCastor dCachedCacheDPMDPM
Storage Resource Manager
Plateforme de Calcul pour les Sciences du Vivant
17
• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM
• Cas pratiques / Commandes
Plateforme de Calcul pour les Sciences du Vivant
18
Les services LFC
• LFC = LCG File Catalogue– LCG = LHC Computing Grid – LHC = Large Hadron Collider
• Fournit– un lien entre LFN, GUID et SURL– Transactions, Sessions– un espace de nommage hiérarchique, des liens symboliques
• Tous les membres d’une VO ont les permissions écriture/lecture dans leurs répertoires
• Les commandes ressemblent à celles d’UNIX avec “lfc-” avant
Plateforme de Calcul pour les Sciences du Vivant
19
LFC
• Les utilisateurs accèdent tout d’abord aux données et les gèrent à travers les “fichiers logiques”
•Mapping par le “LFC”
Défini par l’utilisateurarborescence LFC
Le LFC a une structure en arborescence/grid/<VO_name>/ <à créer>
Exemple : /grid/biomed/reichma/testfiles.dat
Plateforme de Calcul pour les Sciences du Vivant
20
2 types de commandes
• Les commandes lfc– Utilisée pour interagir avec seulement le catalogue
pour créer des répertoires pour lister des fichiers
– Utilisés par les utilisateurs et les commandes lcg
• Les commandes lcg– Couplent les opérations du LFC avec les opérations de
gestion – copient les fichiers de/vers/entre les SE– gèrent la réplication des données
Plateforme de Calcul pour les Sciences du Vivant
21
Les commandes LFC
ajoute/change un commentairelfc-setcomment
Mets en place des contrôle d’accèslfc-setacl
Supprime un fichier/répertoirelfc-rm
Renomme un répertoire/fichierlfc-rename
Crée un répertoirelfc-mkdir
Liste les fichiers/répertoires dans un répertoirelfc-ls
Crée un lien symboliquelfc-ln
Récupère les listes de contrôle d’accèslfc-getacl
supprime les commentaires associéslfc-delcomment
Change l’appartenance d’un fichier/répertoirelfc-chown
Change les droits d’accès vers un fichier/répertoirelfc-chmod
Résumé des commandes LFC
Plateforme de Calcul pour les Sciences du Vivant
22
Les commandes LCG
Replica Management
mets le statut d’un SURL à done pour une requête SRM donnéelcg-sd
récupère le TURL d’un SURL donnélcg-gt
réplique entre plusieurs SE un fichierlcg-rep
supprime un fichierlcg-del
copie un fichier local sur la grille et l’enregistre dans le lfclcg-cr
copie un fichier de la grille en locallcg-cp
Plateforme de Calcul pour les Sciences du Vivant
23
/grid/biomed/test_SE.002
srm://castorsc.grid.sinica.edu.tw/castor/grid.sinica.edu.tw/sc/biomed/generated/2006-03-09/filec025611a-4619-4730-b6e0-5261e5ec095c
gsiftp:// lcg00116.grid.sinica.edu.tw:2811/flatfiles/SE00/dt/stage/filec025611a-4619-4730-b6e0-5261e5ec095c.815277
c033f475-cc6a-4556-a42c-60fb29274524
/castor/grid.sinica.edu.tw/sc/biomed/generated/2006-03-09/filec025611a-4619-4730-b6e0-5261e5ec095c
lcg00116.grid.sinica.edu.tw/flatfiles/SE00/dt/stage/filec025611a-4619-4730-b6e0-5261e5ec095c.815277
LFNGUID
SURL
TURL
Physical File Name
Logic File Name
SE
LFC
Plateforme de Calcul pour les Sciences du Vivant
24
Gestion de données:outils bas niveau
Use case: Copie d’un fichier d’un SE1 à un SE2
Diskpool
Diskpool
GridftpserverN
gridftp::STOR
gridftp::RETR
globus-url-copygsiftp://gFTP1/.. gsiftp://gFTPn/..
SURLTURL
Gridftpserver2
Gridftpserver3
GridftpserverN-1
Gridftpserver1
pas toujours inscrit dans l’IS
SE1
SE2
Plateforme de Calcul pour les Sciences du Vivant
26
Use case: copie d’un fichier vers un SE et enregistrement dans le LFC
lcg-cr -vo MyVO file://$PWD/text_file.txt -d se.destination lfn:/grid/MyVO/myDIR/myFILE
LFC server
SRM
SE1
gridftp1
gridftp2
gridftp3
pool
Depuis l’IS, vous pouvez tout savoir du SE
Copy
Register
Vous pouvez tracer vos données depuis le LFC
Gestion de données:outils haut niveau
Plateforme de Calcul pour les Sciences du Vivant
27
• Data Management– Concept général– Les conventions de nommage– Storage Elements et SRM– File Catalog et outils de DM
• Cas pratiques / Commandes
Plateforme de Calcul pour les Sciences du Vivant
Répliquer des données de la grille
• Répliquer des données– Dupliquer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr
lcg-rep –d SE.in2p3.fr --vo gilda lfn:toto.test
• Supprimer des données– Supprimer le fichier toto grâce au LFN toto.test sur le SE SE.in2p3.fr
– L’option –a permet de supprimer tous les replicas
lcg-del –s SE.in2p3.fr --vo gilda lfn:toto.test
lcg-del -a --vo gilda lfn:toto.test
Plateforme de Calcul pour les Sciences du Vivant
Récupérer des données de la grille
• Copier des données grille => UI– Mettre le fichier toto avec le LFN toto.test sur l’UI
dans /myhome/
lcg-cp --vo gilda lfn:toto.test file:/myhome/toto
Plateforme de Calcul pour les Sciences du Vivant
Soumettre des données avec le job
• Utiliser l’attribut InputSandbox dans le JDL
• Attention : on ne peut pas utiliser ce champ pour un trop grand transfert (plusieurs megabytes)
• InputSandbox = {“toto“, “job.sh”};
Plateforme de Calcul pour les Sciences du Vivant
Adresser des données stockées sur la grille au job
• Il faut des données stockées et enregistrées sur la grille (dans le RLS)
• Spécifier les données au job par l’attribut InputData dans le JDL
• InputData = “lfn:toto”
• Dans le script d’éxecution de votre job, utilisez la commande – export LCG_GFAL_INFOSYS=grid004.ct.infn.it:2170– lcg-cp --vo gilda lfn:toto.test file:`pwd`/toto
Plateforme de Calcul pour les Sciences du Vivant
Récupérer les données résultat sur l’UI
• Définir le job pour récupérer les données– Le job génère des données dans le répertoire de travail du WN– A la fin du job, les données sont placées dans l’espace de
stockage temporaire du RB– Vous les récupérez via “glite-wms-job-output”
• Eléments clé :– Vous devez connaître les noms des fichiers que vous souhaitez
récupérer– OutputSandbox = {“toto", “toto.out“,”toto.err”}; – Méthode non destinée pour de gros fichiers (> centaine MB)
espace de stockage temporaire limité sur le RB
Plateforme de Calcul pour les Sciences du Vivant
Stocker les données résultat sur la grille
• Le programme génère des données dans un fichier sur le WN• Le programme doit connaître quel est le nom du fichier sur le WN• Le programme utilise les commandes lcg-cp, lcg-cr :
• Spécifier les données aux jobs par l’attribut outputData dans le JDL– Si aucun LFN n’est précisé, WMS en choisit un– Si aucun SE n’est précisé, le SE le plus proche est choisi
• OutputData = { [ OutputFile = “toto.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic” ; ], [ OutputFile = “toto2.out” ; StorageElement = “adc0021.cern.ch” ; LogicalFileName = “lfn:chocapic2” ; ] };
• Un fichier contenant le résultat de cette opération est créé et ajouté à la output Sandbox– DSUpload_<unique jobstring>.out