Augernome : nuits blanches pour les PCs · 2008. 10. 21. · nuits blanches pour les PCs Oleg...

35
12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky Augernome : nuits blanches pour les PCs Oleg Lodygensky LAL – IN2P3, Université Paris-Sud ; LRI, Université Paris Sud.

Transcript of Augernome : nuits blanches pour les PCs · 2008. 10. 21. · nuits blanches pour les PCs Oleg...

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Augernome :nuits blanches pour les PCs

    Oleg LodygenskyLAL – IN2P3, Université Paris-Sud ;

    LRI, Université Paris Sud.

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 2

    Sommaire

    • Les grilles • XtremWeb• Augernome : testbed• Augernome : déploiement• Appel à volontaires• Références

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Datas

    CPUs

    Firewall

    LAN/WAN

    Datas

    CPUs Firewall

    Les grilles : schéma directeur

    Mythe : les grilles fournissent des ressources gratuites

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    LAN/WAN

    Les grilles : P2P

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Datas

    CPUs

    Firewall

    LAN/WAN

    Datas

    CPUs

    Firewall

    Les grilles : CGP2P

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 6

    Sommaire

    • Les grilles • XtremWeb• Augernome : testbed• Augernome : déploiement• Appel à volontaires• Références

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 7

    XtremWeb : motivations

    • utiliser des ressources distribuées “volontaires” ;• construire une plate forme stable et sécurisée, à partir d'éléments volatiles et même potentiellement“agressifs” ;• appliquer les paradigmes de programmation distribuée (MPI, RPC...) ;• étudier les rapprochements possibles avec les “Grids”.

    Agréger des CPUs pour :

    C'est une plate forme de Calcul Global

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 8

    En un mot :

    • calcul distribué CG-P2P

    • Sécurité (Sandbox, SSL, identifications,autorisations)

    • multi plate forme (Linux, Windows, MacOSX)

    • checkpoint applicatif

    • migration des binaires

    • politique d'activation (vol de cycles)

    XtremWeb 1.4.0

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    coordinateur

    • architecture centralisée• CGP2P• 3 entities : client; coordinateur; worker

    client worker

    Types d'entité

    Ser

    vice

    s

    introspection

    factory

    instanciation

    Resultsserver

    XtremWeb : architecture

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    coordinator

    introspection

    factory

    Resultsserver

    XtremWeb : coordinateur

    • collecte et distribue les résultats

    • permet d'accéder dynamiquement àla plate-forme

    • collecte, distribue binaires et tâches

    • gère les autorisations• assure la cohérence de la plate-forme

    Architecture

    serv

    ices

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Architecture

    worker

    instanciation

    XtremWeb : worker

    • exécute les jobs en fonction de la politique choisie

    • gère les communications• gère les différents objets

    binaires ; tâches ; résultats.

    serv

    ices

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    client

    XtremWeb : clientse

    rvic

    es

    • gère les communications• permet d'agir sur la plate-forme enfonction des autorisations accordées pourgérer :

    les binaires ; les workers ; les utilisateurs ; les jobs ; les résultats.

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    XtremWeb : technologies

    client workercoordi-nateur

    • Java • Java• MySQL• Apache• ...• ganglia etc.

    • Java• C (Jni)

    TCP / SSL / XML-RPC / RMI

    Communications

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    LAN/WAN

    RMI, TCP, XML-RPC / SSL

    Cluster(Condor, PBS…)

    « XtremWeb & Condor : sharing resources between Internet connected Condor pools. »O. Lodygensky, G. Fedak, F. Cappello, V. Neri, M. Livny, D. Thain

    CCGRID2003, May 12-15, 2003, Tokyo, JAPAN.

    XtremWeb : communications

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Coord.

    Submit task Get work

    Put result

    Sync/Ret

    rieve

    result

    C2 W2

    Sync/Getwork

    Put resultSync/Retrieve

    result

    Coord.

    Sync/Submittask Sync/Get

    work

    Modèle de tolérance aux pannes des systèmes répartis :• Réplication passive (clients et workers s’adressent à 1coordinateur)+ log de message optimiste sender based (une entité eninteraction directe avec une autre peut reconstruire son état encas de reprise).

    Sync/Put

    result

    Sync/Retrieveresult

    XtremWeb : tolérance aux pannes

    C1 W1

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 16

    Sommaire

    • Les grilles • XtremWeb• Augernome : testbed• Augernome : déploiement• Appel à volontaires• Références

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 17

    Etude des rayons cosmiques àhaute énergie

    • Detect and study 1019 eVcosmic rays

    • The world’s largest cosmic raydetector

    • $100M (30% USA; 30% SouthAmerica; 40% others)

    • More than 40 institutes in thecollaboration

    • Computing 100Mb/Day expected 10-100 hours simulation time

    LABORATOIRE de l’ACCELERATEUR LINEAIRE

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Internet

    IclusterGrenoblePBS

    MadisonWisconsinCondor

    U-psudnetwork

    LRICondor Pool

    OtherLabs

    lri.fr

    XW ClientXW Coordinator

    Application :

    AIRES

    Deploiement:

    • Coordinateurr au LRI

    • Madison: 700 workers

    Pentium III, Linux

    (500 MHz+933 MHz)

    • Grenoble cluster: 146 workers

    (733 Mhz)

    • LRI: 100 workers

    Pentium III, Athlon, Linux

    (500MHz, 733MHz, 1.5 GHz)

    Augernome : testbed

    « Augernome & XtremWeb: Monte Carlos computation on a global computing platform. »O. Lodygensky, G. Fedak, F. Cappello, V. Neri, A. Cordier CHEP 2003, March 24-28, 2003, La Jolla, California, USA.

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Augernome : testbed

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Augernome : testbed

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Augernome : testbed

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 22

    Sommaire

    • Les grilles • XtremWeb• Augernome : testbed• Augernome : déploiement• Appel à volontaires • Références

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    u-psudOrsay

    2004 : 30 CPUs http://xtremweb.lal.in2p3.fr

    CCIN2P3Lyon

    LAL

    IPN

    ……

    HPSS

    Augernome : déploiement

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Jobs/heure

    0

    20

    40

    60

    80

    100

    120

    1

    10

    19

    28

    37

    46

    55

    64

    73

    82

    91

    10

    0

    10

    9

    11

    8

    12

    7

    13

    6

    14

    5

    15

    4

    16

    3

    Heures

    No

    mb

    re d

    e J

    ob

    s

    CC Fe56

    CC Proton

    XWeb Fe56

    XWeb Proton

    CC IN2P3

    erreurs

    XW@LAL

    en cours de runs

    CC IN2P3

    utilisation "normale"

    (150 jobs/jour)

    (1job = 5 heures)

    CC IN2P3

    utilisation "anormale"

    Augernome : déploiement

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Tailles des fichiers "Grdpcles" stockés sur HPSS

    20

    30

    40

    50

    60

    70

    80

    90

    100

    Fichiers

    Ta

    ille

    (1

    0E

    +0

    6 o

    cte

    ts)

    XWeb Fe56

    XWeb Proton

    CC Fe56

    CC Proton

    Erreurs HPSS

    les 14& 15 mars

    StableFluctuations "normales"

    Fluctuations "acceptables" (?)

    Augernome : déploiement

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Le coordinateur est installé par l'administrateur.Les clients sont fournis à qui de droit, éventuellementtéléchargeables depuis un site web.

    ● PC volontaires : installation par les participants eux mêmes

    ● Clusters (e.g. salle de TP) : installation par l'administrateur de la salle (NFS)

    ● Systèmes de traitement de tâches : Condor PBS...

    Workers : Trois modèles d'installation

    Augernome : déploiement

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 27

    Sommaire

    • Les grilles • XtremWeb• Augernome : testbed• Augernome : déploiement• Appel à volontaires• Références

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Appel à volontaires

    Se désenregistrer / se désenregristrer : envoyer un mail à [email protected]

    Et c’est tout!

    Mac OSX, Windows:• les PCs sont gérés par le domaine LAL

    Linux :• PCs gérés par cluster

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Appel à volontaires

    Gestion manuelle : Windows

    Ce qui est installé

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Appel à volontaires

    Gestion manuelle : WindowsGérer le service XtremWeb Worker

    Cliquez avec le bouton droit sur le Poste de Travail

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Appel à volontaires

    Gestion manuelle : WindowsGérer le service XtremWeb Worker

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Appel à volontaires

    Gestion manuelle : WindowsGérer le service XtremWeb Worker

    La boite de dialogue de démarrage

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky

    Gestion manuelle : Mac OSXGérer le service XtremWeb Worker

    Le menu du service XtremWeb

    Le dock avec le service XtremWeb

    Appel à volontaires

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 34

    Sommaire

    • Les grilles • XtremWeb• Augernome : testbed• Augernome : déploiement• Appel à volontaires• Références

  • 12 Avril 2005 LAL séminaire interne : XtremWeb Oleg Lodygensky 35

    References• Condor : http://www.cs.wisc.edu/condor• XtremWeb : http://xtremweb.net• Auger : http://www.auger.org• IBBMC : http://www.u-psud.fr/b-430/ibbmc.nsf

    [1] « The Grid : Blueprint for a new Computing Infrastructure »,I. Foster et C. Kesselman, Morgan-Kaufmann - 1998.

    [2] « Java P2P unleashed »,R.Flenner, M.Abbott, F.Cohen, N.Krishnan, A.Moffet,R.Ramamurti, B.Siddiqui, F.Sommers - 2002.

    [3] « Framework for Peer-to-Peer Distributed Computing in a Heterogeneous, Decentralized Environment »Jerome Verbeke, Neelakanth Nadgir, Greg Ruetsch, Ilya SharapovSun Microsystems, Inc., Palo Alto, CA 94303http://wwws.sun.com/software/jxta/mdejxta-paper.pdf