Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon [email protected] IReS, 4 octobre 2002 La grille et...

41
Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon [email protected] IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique

Transcript of Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon [email protected] IReS, 4 octobre 2002 La grille et...

Page 1: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

Fabio HERNANDEZCentre de Calcul de l'IN2P3 - [email protected], 4 octobre 2002

La grille et DataGRIDune nouvelle génération d'infrastructure informatique

Page 2: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 2

Table des Matières

Le concept de grille Architecture de grille Cas concret

Infrastructure DataGRID Applications

Perspectives Conclusion

Page 3: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 3

Le concept de grille

Infrastructure matérielle et logicielle visant à fournir un accès sûr, cohérent, économique à des ressources informatiques hétérogènes distribuées géographiquement gérées de façon décentralisée

Intégration massive des ressources Diversité des ressources

calculateurs, dispositifs de stockage, sources de données, ressources humaines, ...

Page 4: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 4

Le concept de grille (suite)

Diversité des besoins performances, bande passante, latence, sécurité,

intégrité, fiabilité, capacité de calcul, disponibilité de services logiciel

Accès à des services standards via des interfaces standards comment cacher l'hétérogénéité sans

compromettre les performances? Pour se généraliser, les services proposés

doivent être accessibles à des coûts intéressants et avec une certaine "qualité de service" (disponibilité, prévisibilité, ...)

Page 5: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 5

Le concept de grille (suite)

Plusieurs profiles d'applications Calcul intensif distribué

utilisation d'un grand nombre des ressources pour la résolution de problèmes qui ne peuvent être abordés avec les capacités locales

Analyse des grandes quantités de données exploration des données géographiquement dispersées

Calcul à la demande satisfaire des besoins ponctuels de puissance de traitement

Travail coopératif visualisation de données, formation, conception distribuée

Page 6: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 6

Architecture de grille

Diversité des applications et des utilisateurs (profile, nombre, ...) supposent des solutions différentes architectures différentes avec des services

communs et plus ou moins de recouvrement Services de base

authentification: établir l'identité de l'utilisateur autorisation: établir le droit d'un utilisateur à

utiliser des ressources (données, CPUs, ...) communication entre tâches

Page 7: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 7

Architecture de grille (suite)

Services de base (suite) contrôle de tâches: création, suspension,

arrêt de l'exécution politiques d'allocation de ressources comptabilité de l'utilisation de ressources

et mécanismes de paiement mécanismes de protection des

tâches/données services de stockage (fichier, mémoire

virtuelle, base de données, ...)

Page 8: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 8

Architecture de grille (suite)

Problèmes inhérents authentification unique spécification des ressources nécessaires pour une

tâche localisation des ressources disponibles gestion des autorisations réservation des ressources accès aux données distantes collecte de résultats comptabilité ...

Page 9: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 9

Architecture de grille (suite)

Complexité des applications parallèles, interactives, multimédia, ...

Les caractéristiques des ressources est très variable (temps, espace)

Absence de contrôle global de l'infrastructure comment proposer et garantir un service cohérent

et un certain niveau de qualité? Problèmes inhérents aux politiques de

chaque site (fournisseur de ressources) sécurité, autorisations, comptabilité, budget

Page 10: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 10

Architecture de grille (suite)

:

:E.g.,

Resource-specific implementations of basic services

E.g., transport protocols, name servers, differentiated services, CPU schedulers, public key infrastructure, site accounting, directory service, OS bypass

Resource-independent and application-independent services

authentication, authorisation, resource location, resource allocation, events, accounting, remote data access, information, policy, fault detection

Distributedcomputing

toolkit

Grid Fabric (Resources)

Grid Services (Middleware)

Application Toolkits

Data-intensive

applicationstoolkit

Collaborativeapplications

toolkit

RemoteVisualisationapplications

toolkit

Problemsolving

applicationstoolkit

Remoteinstrumentation

applicationstoolkit

Applications Chimie

Biologie

Cosmologie

High Energy Physics

Environnement

Page 11: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 11

DataGRID

Titre: Research and Technological Development for an International Data Grid

Projet européen conduit par la communauté de physique des particules organisée autour du CERN

Subvention: ~10 M€ sur 3 ans (2001-2003) pour des salaires partenaires apportent au moins autant

Objectif: "To enable next generation scientific exploration which

requires intensive computation and analysis of shared large-scale databases, from hundreds of terabytes to petabytes, across widely distributed scientific communities."

Page 12: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 12

DataGRID: objectif

Développer un prototype du logiciel intermédiaire (middle-ware)

Déployer une plate-forme de test du système Physique des particules Applications bio-médicales Observation de la terre

Permettre le transfert des technologies de ce type vers l'industrie

Page 13: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 13

DataGRID: partenaires

Partenaires principaux

Partenaires associés En France: Comissariat à l'Energie Atomique (CEA-

Saclay), Communication et Systèmes D'autres instituts de recherche/sociétés en Italie,

Finlande, Espagne, Suède, Hongrie, Grande Bretagne, Pays Bas

Page 14: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 14

DataGRID: organisation

Groupes de travail (work packages) Middleware

WP1: Workload management (Francesco Prelz - INFN) WP2: Data management (Peter Kunszt - CERN) WP3: Monitoring services (Steve Fischer – RAL) WP4: Fabric management (Olof Barring – CERN) WP5: Mass storage management (John Gordon – RAL)

Infrastructure WP6: Integration testbed (François Etienne –

CNRS/IN2P3) WP7: Network services (Pascale Primet – CNRS/ENS

Lyon)

Page 15: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 15

DataGRID: organisation (suite)

Groupes de travail (suite) Applications

WP8: High-Energy physics applications (Franck Harris – LHCB-Oxford/CERN)

WP9: Earth observation science application (Luigi Fusco – ESA)

WP10: Biology science application (Vincent Breton – CNRS/IN2P3)

Management WP11: Dissemination (Maurizio Lancia – INFN) WP12: Project Management (Fabrizio Gagliardi – CERN)

Page 16: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 16

DataGRID: technologies de base

Utilisation de Globus comme middle-ware de bas niveau

Boîte à outils généraliste pour la construction de grilles de calcul développée conjointement entre Univ. Chicago/Argonne

et Univ. Southern California Séparation entre services locaux (à un

site/domain) et services globaux (pour la grille) Services de base utilisés dans DataGRID

service d'information sécurité (authentification) gestion de ressources gestion des fichier distants

Page 17: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 17

DataGRID: état d'avancement

Des composants middle-ware au dessus de Globus Plate-forme de test déployée

sites: CERN (CH), CC-IN2P3 (FR), CNAF (IT), NIKHEF (NL), RAL (UK)

première version (Testbed 1) en mars 2002 pour la démonstration aux rapporteurs de l'UE

deuxième version en cours de déploiement plusieurs releases entre temps

Tests grandeur réelle par plusieurs applications Physique (Atlas, CMS, D0,...), Bio-médicales (génomique),

observation de la terre (analyse de données de satellite)

Page 18: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 18

DataGRID: état d'avancement (suite)

Page 19: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 19

DataGRID: état d'avancement (suite)

Quelques services de base en place Authentification

utilisation de l'infrastructure de sécurité proposée par Globus (certificats X509 et échanges chiffrés)

autorités de certification pour délivrer des certificats aux individus/machines participant au projet

Soumission et ordonnancement des travaux batch service central d'ordonnancement s'appuyant sur les

gestionnaires locaux à chaque site Gestion des données

catalogue et moyens d'accès aux données

Page 20: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 20

DataGRID: vue d'ensemble

…….……

IN2P3 Computing Center

User HomeLaboratory

…….……

CERN Computing CenterDataGRID Services

Resource Broker

1

2

Data localization service

Data transfer service

3

4

Page 21: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 21

DataGRID: vue d'ensemble (suite)

Logging & Logging & Bookeeping ServicecBookeeping Servicec

1a 2bUIJDL

Replica Replica CatalogCatalog

InInput put SandboxSandbox

Job Submission Job Submission ServiceService

Computing Computing ElementElement

1b

Job S

ub

mit

Event

Job S

ub

mi t

Event

2a

3a

4a

Job StatusJob Status

Ressource Ressource BrokerBroker

3b

4b

Site Information Site Information ProviderProvider

SitSitee

Page 22: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 22

DataGRID au CC-IN2P3

Toute la plate-forme sous Linux est accessible depuis la grille BQS (le gestionnaire de batch) gère tous les jobs

Les jobs grille s'exécutant à Lyon peuvent accéder aux données de la même façon que les jobs conventionnels données dans HPSS/Xtage accessibles

La partie User Interface est installée sur toutes les machines Linux

Bonne intégration avec la plate-forme de production existante données (AFS, HPSS, Xtage, ...) calcul

Page 23: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 23

DataGRID au CC-IN2P3 (suite)

Batch Scheduler BQS

Computing Element

Batch Workers

Storage Element

GlobusGatekeeper

HPSSHPSS

…….

……

XtageXtage

Page 24: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 24

DataGRID au CC-IN2P3 (suite)

Gatekeeper Computing Element

Page 25: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 25

DataGRID au CC-IN2P3 (suite)

Page 26: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 26

DataGRID au CC-IN2P3 (suite)

Fourniture des services transversaux pour le projet

Mise en place et exploitation du repository central du logiciel pour tout le projet ligne de commande (local et remote) et interface web

Exploitation du serveur central de distribution du logiciel

Développement d'outils de vérification de la conformité aux règles du projet cibles des Makefile, nomenclature, numérotation des

versions

Page 27: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 27

DataGRID au CC-IN2P3 (suite)

Développement d'outils pour la construction du logiciel faite toutes les nuits sur RedHat 6.2 RedHat 7.2 en cours de déploiement

Développement d'outils pour faciliter l'installation génération et publication de listes des RPMs

nécessaires pour installer un composant (UI, WN, CE, ...)

Page 28: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 28

Applications

Atlas souhaite utiliser les outils de grille pour ses Data

Challenges DC1 (octobre 2002) sera fait pour une partie

substantielle sur la grille Atlas-EDG Task Force créée en août 2002 pour

évaluer la faisabilité d'utiliser des outils grille pour les DC aider l'expérience à adapter son logiciel à cette infrastructure

traitement de 5 datasets 2000 sur le testbed DataGRID + Karlsruhe continuer avec d'autres datasets si succès

input: événements générés sous la forme de fichiers ROOT

Page 29: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 29

Applications (suite)

Atlas (suite) traitement: simulation avec le logiciel Atlas v3.2.1 pré-

installé sur les sites participants à partir d'une distribution commune installation faite par les administrateurs de site

output: événements simulés sous la forme de fichiers ZEBRA plus histogramme HBOOK et logs (stdout, stderr)

total: 9 GB input, 100 GB output, 2000 heures de CPU bilan partiel:

possibilité d'exécuter des tâches et de transférer des données avec une seule "connexion à la grille"

possibilité de repartir la charge sans se connecter explicitement sur chaque site

pilotage centralisé de la production rendu plus aisé

Page 30: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 30

Applications (suite)

Atlas (suite) bilan partiel (suite)

infrastructure en développement instabilité interruptions de transferts des gros fichiers (> 1.3 GB) quelques jobs perdus par le système instabilité du système d'information

CMS production de 200K événements à partir de nov. 2002

sans Objectivity durée: 3 ou 4 semaines sites: CERN, Lyon, X, CNAF (Bologne), Padoue, RAL, IC ressources nécessaires: 100 workers, 300 GB disque

Page 31: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 31

Applications (suite)

Babar EDG installé à SLAC, Imperial College et Lyon

possibilité de soumission de jobs sur ces sites travail actuellement sur l'implémentation de leur catalogue

de méta-données séparation d'un job en tâches qui seront exécutées là où se

trouvent les données évaluation de SRB comme catalogue local des données de

chaque site outil de soumission transparente des jobs sera mis à

disposition pour les beta-testeurs

Page 32: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 32

Applications (suite)

LHCb des nouveaux outils de production en cours de déploiment

au CERN, Lyon, NIKHEF, CNAF (Bologne), RAL et 10 autres sites

tests de base génération de 500 événements stockage sur un Storage Element stockage des logs et histogrammes au CERN reconstruction avec stockage de la sortie dans CASTOR utilisation des données dans CASTOR pour l'analyse (hors

grid)

Page 33: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 33

Applications (suite)

Rugbi mise en oeuvre d'une grille pour la bio-informatique:

fourniture des services pour l'analyse à grande échelle des structures des protéines

utilisateurs: les laboratoires académiques, les sociétés de biotechnologie, des PME du Biopôle Clermont-Limagne

partenaires: IN2P3, CS, IBCP, Univ. Blaise Pascal, Biopôle Clermont-Limagne

Page 34: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 34

Applications (suite)

OpenPlast grille informatique pour la simulation de la mise en forme

des polymères utilisateurs: industriels de la plasturgie (Rhône-Alpes est

la première région de la plasturgie en France) et laboiratoires

partenaires: C-S, Ecole Supérieure de Plasturgie, IN2P3, Pôle Européen de Plasturgie

projet RNTL

Page 35: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 35

Perspectives

"Mouvance grille" est dans ses débuts Travaux sur les grilles et les services web

commencent à converger OGSA: Open Grid Software Architecture évolution de Globus participation active de l'industrie définition et premières implémentations des interfaces et

comportements standards d'un service grille implémentation basée sur les services web (XML, SOAP,

UDDI, WSDL, ...) indépendance du langage nouvelles opportunités pour les fournisseurs de service

Page 36: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 36

Conclusions

Emergence d'une nouvelle infrastructure sur laquelle la science et l'économie seront bâties

Grille est appelée à un succès plus grand encore que le web

Beaucoup de travail reste à faire pour que l'utilisation de cette infrastructure soit réellement facile

Des nouveaux services vont naître

Page 37: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 37

Pour en savoir plus...

…sur le projet http://www.eu-datagrid.org

…sur le testbed http://marianne.in2p3.fr

…sur l'état d'avancement au CCIN2P3 http://ccgrid.in2p3.fr

…sur le logiciel DataGRID http://datagrid.in2p3.fr

…sur Globus http://www.globus.org

Page 38: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 38

Questions

Page 39: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 39

Exemples: soumission de job

Connexion à la grillegrid-proxy-init

Description du job JDL: langage de description des jobs Fichier HelloWorld.jdl

Executable = "/bin/echo";Arguments = "Hello World";StdOutput = "hello.out";StdError = "hello.err";OutputSandbox = {"hello.out","hello.err"};

Page 40: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 40

Exemples: soumission de job (suite)

Soumissiondg-job-submit HelloWorld.jdl

Etat du jobdg-job-status <jobId>

Récupération de la sortiedg-job-get-output <jobId>

Page 41: Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002 La grille et DataGRID une nouvelle génération d'infrastructure informatique.

F. Hernandez 41

Exemples: transport de l'exécutable

Description du job

Executable = "MyExecutable";

Arguments = "1234 test";

StdOutput = "output";

StdError = "error";

InputSandbox = "/home/fabio/MyExecutable";

OutputSandbox = {"output","error"};

Requirements = Member(other.RunTimeEnvironment, "CC-IN2P3");