Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. ·...

32
Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc Didier Gazen Juan Escobar Serge Prieur [email protected] [email protected] [email protected] 13/09/2007, JoSY Gestion des serveurs de calcul Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 1 / 26

Transcript of Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. ·...

Page 1: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Administration d’un Cluster debi-Opteron/réseau Infinibandsous environnement BProc

Didier Gazen Juan Escobar Serge Prieur

[email protected]@[email protected]

13/09/2007, JoSY Gestion des serveurs de calcul

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 1 / 26

Page 2: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Clusters au laboratoire d’Aérologie (L.A.)

Modélisation atmosphérique (MésoNH)/océanographique côtière(Symphonie) =⇒ ressources informatiquesExpérience depuis fin 2000 : cluster BeoWulf (12 PC-Linux,éthernet 100Mb/s, logiciels open-source)Rajout cluster 2003 (runs d’ensemble POC) et 2004(remplacement du cluster 2001, éthernet 1Gb/s)

Cluster local vs Centres NationauxFacilité développements (mode intéractif)Runs d’ensemble (plusieurs codes sequentiels)Nœuds réservés pour des runs longs (plusieurs jours)

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 2 / 26

Page 3: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Pourquoi avoir choisi BProc ?

En 2000, solutions libres d’administration peu nombreuses :Solution type “OSCAR” : système sur tous les nœudsSolution type “MOSIX” : incompatible avec applis MPISolution “BProc” : 1 nœud maître configuré Linux, les autresnœuds légers pouvant être diskless

Choix BProcSolution libre séduisante car “facile” d’administration qui s’est avéréecompatible avec l’utilisation de nos clusters

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 3 / 26

Page 4: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

2007 : Cluster NEC/réseau Infiniband

NEC : 2 baies + 40 nœudsbi-Opteron AMD 252

16 nœuds 8GB Ram24 nœuds 4GB RamDisque 160 GB/nœud

Switch 48 ports 1Gb/sInfiniband Mellanox (20Gb/s)

24 cartes, 1 port 4x DDRSwitch 24 ports 4x DDR

Stockage : silo 20 To raid5Onduleurs

Organisé en 2 clusters IB/Non IBPrix < 160 ke

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 4 / 26

Page 5: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

BProc : Beowulf Distributed Process Space

BProc est une modification du Noyau Linux offrant :une image unique (SSI) pour le contrôle des processusla migration de processus pour créer les processus sur les nœuds

+ ensemble de librairies et utilitaires.

Développé par Erik Hendriks (LANL1)Commercialisé par SCYLD Computing (D. Becker 1999) / PenguinComputing (www.penguincomputing.com)Projet LANL : distributions (GPL) Clustermatic de 2001 à 2004(www.clustermatic.org)Sources, Mailing List sur : bproc.sourceforge.net

1Los Alamos National LaboratoryDidier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 5 / 26

Page 6: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Principe Cluster sous BProc

1 seul nœud maître et plusieurs nœuds esclavesUtilisateurs connectés uniquement sur nœud maîtreTous les processus présents sur cluster sont :

créés depuis le nœud maître/migrés sur esclavesvisibles sur le nœud maîtrecontrôlés du nœud maître

ParticularitésAucun soft requis sur nœuds esclaves (excepté librairiespartagées)Aucune maintenance de soft sur nœuds esclavesNœuds esclaves peuvent être diskless (rootfs en ramdisk)

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 6 / 26

Page 7: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Migration de Processus

Bproc fournit un système de gestion de processus avec migration pourplacer les processus sur les nœuds :

Migration explicite au lancement du processusBProc gère uniquement les processus : autres appels systèmestraités localement (esclave)BProc n’affecte pas les appels systèmes non liés aux processusI/O fichiers et réseau toujours traités localement (esclave)

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 7 / 26

Page 8: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Configuration Cluster BProc

1 Nœud maîtreSystème Linux completNoyau Linux patché BProcServices réseaux activésDémons bpmaster et beoservEnsemble de scripts de config du cluster + outils développement

Nœuds esclavesNoyau Linux patché BProcDémon bpslaveAUCUN service réseauCopie des librairies partagéesrootfs en ramdisk + disque dur local (swap + workdir)

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 8 / 26

Page 9: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Installation de BProc

Version BProc au L.A.Sources SRPMs dérivés de Clustermatic, phasé avec noyau 2.6.14disponibles sur : bproc.omner.org (Mailing List BProc)

Configuration du nœud maîtreInstallation OpenSuSE 10.0, 64bitsRécupération noyau linux standarda 2.6.14Compilation noyaux 2.6.14+patch BProc (maître/esclave)Genération des RPMs BProc (démons, librairies, outils) à partirdes sources SRPMs (correction/adaptation des sources C)

awww.kernel.org

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 9 / 26

Page 10: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Configuration du nœud maître (suite)Réseau éthernet configurée sur IP privéeFilesystem :

raid1 logiciel (mirroring) + ext3 pour systèmerépertoire /home sous ext3

Création image système kernel+initrd (modules noyaux,bpslave) à transférer aux nœuds (script beoboot)Activation des services réseaux DHCP/tftp, (PXElinuxa) et NFS(export de /usr, /bin et /home)Configuration du cluster BProc à l’aide de 4 fichiers présents dansrépertoire /etc/clustermatic

aProjet SYSLinux : syslinux.zytor.com

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 10 / 26

Page 11: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Fichiers configuration BProc dans /etc/clustermaticconfig.boot (config boot esclaves) : liste modules noyauspéciaux à transférer/activer sur esclave (installés dans initrdpar script beoboot)config (config du maître) : interface/port BProc, table adressesMAC/IP des nœuds, librairies partagées à transférer.fstab : liste des filesystems à monter sur nœuds (locaux ou NFS)node_up.conf : liste d’opérations (plugins) à exécuter au bootdu nœud (recopie certains fichiers (devices), montage desfilesystems, mise en place librairies partagées)

+ 1 script shell “node_up” permettant de rajouter des commandes auboot d’un/plusieurs nœud(s).

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 11 / 26

Page 12: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

(Re)Boot du nœud maître

Au boot du nœud maître, le script /etc/init.d/clustermatic estlancé et se charge de :

Monter les modules noyaux bproc, vmadump, btime_infoPréparer la liste des librairies partagées à transférer aux nœuds(bplib d’après fichier config)Démarrer 2 démons :beoserv : qui fournit l’adresse IP (MAC/IP du fichier config) et

lance l’initialisation du nœud esclave(node_up.conf)

bpmaster : qui communique avec le démon bpslave desnœuds esclaves

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 12 / 26

Page 13: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Boot d’un nœud esclave configuré PXE

1 Esclave lance requête DHCP sur interface éthernet2 Serveur DHCP/tftp maître envoie binaire pxelinux.0 + fichier

configuration pxelinux (choix boot : kernel, memtest)3 Esclave choisit boot kernel par défaut4 Serveur tftp maître envoie kernel+initrd à l’esclave5 Esclave charge kernel, monte modules, lance init/bpslave

puis lance requête RARP6 Démon beoserv du maître répond par IP et lance programme

d’initialisation du nœud.7 Esclave poursuit son initialisation (montage filesystems, copie

fichiers spéciaux et lib. partagée) => logs sur maître dans/var/log/clustermatic/node.N)

Boot nœud < 2mn

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 13 / 26

Page 14: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Boot d’un nœud esclave configuré PXE

1 Esclave lance requête DHCP sur interface éthernet2 Serveur DHCP/tftp maître envoie binaire pxelinux.0 + fichier

configuration pxelinux (choix boot : kernel, memtest)3 Esclave choisit boot kernel par défaut4 Serveur tftp maître envoie kernel+initrd à l’esclave5 Esclave charge kernel, monte modules, lance init/bpslave

puis lance requête RARP6 Démon beoserv du maître répond par IP et lance programme

d’initialisation du nœud.7 Esclave poursuit son initialisation (montage filesystems, copie

fichiers spéciaux et lib. partagée) => logs sur maître dans/var/log/clustermatic/node.N)

Boot nœud < 2mn

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 13 / 26

Page 15: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Boot d’un nœud esclave configuré PXE

1 Esclave lance requête DHCP sur interface éthernet2 Serveur DHCP/tftp maître envoie binaire pxelinux.0 + fichier

configuration pxelinux (choix boot : kernel, memtest)3 Esclave choisit boot kernel par défaut4 Serveur tftp maître envoie kernel+initrd à l’esclave5 Esclave charge kernel, monte modules, lance init/bpslave

puis lance requête RARP6 Démon beoserv du maître répond par IP et lance programme

d’initialisation du nœud.7 Esclave poursuit son initialisation (montage filesystems, copie

fichiers spéciaux et lib. partagée) => logs sur maître dans/var/log/clustermatic/node.N)

Boot nœud < 2mn

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 13 / 26

Page 16: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Boot d’un nœud esclave configuré PXE

1 Esclave lance requête DHCP sur interface éthernet2 Serveur DHCP/tftp maître envoie binaire pxelinux.0 + fichier

configuration pxelinux (choix boot : kernel, memtest)3 Esclave choisit boot kernel par défaut4 Serveur tftp maître envoie kernel+initrd à l’esclave5 Esclave charge kernel, monte modules, lance init/bpslave

puis lance requête RARP6 Démon beoserv du maître répond par IP et lance programme

d’initialisation du nœud.7 Esclave poursuit son initialisation (montage filesystems, copie

fichiers spéciaux et lib. partagée) => logs sur maître dans/var/log/clustermatic/node.N)

Boot nœud < 2mn

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 13 / 26

Page 17: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Boot d’un nœud esclave configuré PXE

1 Esclave lance requête DHCP sur interface éthernet2 Serveur DHCP/tftp maître envoie binaire pxelinux.0 + fichier

configuration pxelinux (choix boot : kernel, memtest)3 Esclave choisit boot kernel par défaut4 Serveur tftp maître envoie kernel+initrd à l’esclave5 Esclave charge kernel, monte modules, lance init/bpslave

puis lance requête RARP6 Démon beoserv du maître répond par IP et lance programme

d’initialisation du nœud.7 Esclave poursuit son initialisation (montage filesystems, copie

fichiers spéciaux et lib. partagée) => logs sur maître dans/var/log/clustermatic/node.N)

Boot nœud < 2mn

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 13 / 26

Page 18: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Boot d’un nœud esclave configuré PXE

1 Esclave lance requête DHCP sur interface éthernet2 Serveur DHCP/tftp maître envoie binaire pxelinux.0 + fichier

configuration pxelinux (choix boot : kernel, memtest)3 Esclave choisit boot kernel par défaut4 Serveur tftp maître envoie kernel+initrd à l’esclave5 Esclave charge kernel, monte modules, lance init/bpslave

puis lance requête RARP6 Démon beoserv du maître répond par IP et lance programme

d’initialisation du nœud.7 Esclave poursuit son initialisation (montage filesystems, copie

fichiers spéciaux et lib. partagée) => logs sur maître dans/var/log/clustermatic/node.N)

Boot nœud < 2mn

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 13 / 26

Page 19: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Boot d’un nœud esclave configuré PXE

1 Esclave lance requête DHCP sur interface éthernet2 Serveur DHCP/tftp maître envoie binaire pxelinux.0 + fichier

configuration pxelinux (choix boot : kernel, memtest)3 Esclave choisit boot kernel par défaut4 Serveur tftp maître envoie kernel+initrd à l’esclave5 Esclave charge kernel, monte modules, lance init/bpslave

puis lance requête RARP6 Démon beoserv du maître répond par IP et lance programme

d’initialisation du nœud.7 Esclave poursuit son initialisation (montage filesystems, copie

fichiers spéciaux et lib. partagée) => logs sur maître dans/var/log/clustermatic/node.N)

Boot nœud < 2mn

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 13 / 26

Page 20: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Commandes en lignes BProc

5 commandes pour utiliser/administrer un cluster BProc. Les nœudssont accessibles par leur numéro défini dans la table MAC/IP2

Utilisationbpsh : lance un processus sur un nœudbpcp : copie un/des fichiers sur un nœud

Administrationbpstat : affiche l’état du clusterbpctl : contrôle l’état du cluster/nœud(s)bplib : gère la liste des librairies partagées transférées au bootdes nœuds

2Voir fichier /etc/clustermatic/configDidier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 14 / 26

Page 21: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Commandes d’utilisation du Cluster BProc

bpshmigre un processus sur un ou plusieurs nœudsprocessus lancé sur nœud maître et immédiatement transféré surle(s) nœud(s)effet identique à rsh mais aucun login ni aucun shell démarré surle nœudI/O forwarding peut être contrôlésorties écran avec préfixe du numéro du nœud possible

Exemplelancer ps sur tous les nœuds up :> bpsh -ad ps aux

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 15 / 26

Page 22: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

bpcpcopie des fichiers sur un nœudfichier source provient du maître ou d’un esclaveAttention si le nœud ne dispose pas d’un disque local (saturationramdisk)

ExempleCopie du fichier /etc/hosts du maître vers nœud 0 :> bpcp /etc/hosts 0:/etc/

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 16 / 26

Page 23: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Commandes d’administration du Cluster BProc

bpstataffiche le status des nœuds : up, down, boot, erroraffiche propriétaire/groupe auquel appartient un nœudaffiche les permissions d’exécution sur les nœuds :−−−x −−−−−− permission pour propriétaire−−−−−− x −−− permission pour groupe−−−−−−−−−x permission pour autres

Exemplegazdi@yin:~> bpstatNode(s) Status Mode User Group23-24 down ---------- root root0-22 up ---x--x--x root root

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 17 / 26

Page 24: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

bpctlnécessite les privilèges rootcontrôle le status d’un nœudreboot/extinction d’un nœudfixer le status des nœuds (tout autre statut que up, down, boot eterror signifient NON down)fixe ID du propriétaire/groupe d’un nœudfixe les permissions d’un nœud

ExemplesArrêt cluster :> bpctl -S allup -P10 premiers nœuds pour groupe mesonh :> bpctl -S 0-9 -g mesonh -m 110Nœud 15 pour utilisateur gazdi :> bpctl -S 15 -u gazdi -m 100

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 18 / 26

Page 25: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

bplibgèrer la liste de librairies partagées à charger au démarrage desnœudslister les librairies à charger : bplib -l

ajouter une librairie à la liste :bplib -a /lib/malib.so.1

supprimer une librarie de la liste :bplib -d /lib/malib.so.1

Les nœuds doivent être redémarrés pour que la modificationbplib soit prise en compteModifier le fichier /etc/clustermatic/config pour que lamodification soit permanente (après reboot maître)

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 19 / 26

Page 26: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Limites de BProc

Nœud maître : élément sensible du clusterSolution repose sur un patch noyauNécessite un système homogène (cohabitation impossibleMacOSX, Linux...)Intéractivité sur les nœuds est réduite (applications X11 nefonctionnent pas sur les nœuds)Version publique de BProc n’est plus maintenue par LANL(Pressions SCYLD/Penguin ?)

Néammoins, aujourd’hui, la solution fonctionne et convientparfaitement à nos applications

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 20 / 26

Page 27: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Serveur de fichiers

Silo 20 To, raid5, SATA/SCSI, rattaché à serveur bi-Opteron AMD 250(8GB Ram), monté NFS par tous les nœuds des 2 clusters

Tuning NFS (nfs.sourceforge.net)augmentation du nombre de threads NFS (256)receive/send queue fixé à 4MB (par défaut 128k)serveur de fichiers monté NFS en mode TCPexport des zones ext3 en ASYNC sinon serveur s’écroule aveckjournald (80% CPU)

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 21 / 26

Page 28: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Réseau InfinibandMatériel Mellanox (17 ke)

1 Switch 24 ports 4x DDR (960Gb/s)24 cartes (HCA) single port 4x DDR (20Gb/s), PCI-E x824 cables Infiniband 4x cuivre

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 22 / 26

Page 29: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Réseau InfinibandLogiciel

Paquetage OFED (Open Fabrics Enterprise Distribution)Disponible sur : www.mellanox.com, www.openfabrics.comDrivers bas niveau (RDMA), protocoles niveau supérieur (IPoIB,SDP, SRP)Utilitaires : OpenSM (subnet manager), IBadm (administration IB),outils diagnostiques/performanceOSU-MVAPICH

RemarquesInstallation OFED (nœud maître) génère les RPMsOpenSM actif sur le maître (initialise IB)IBadm permet flash Bios de toutes les cartes depuis maîtreAucun problème sous BProc

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 23 / 26

Page 30: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Librairie MPI : Open-MPI

MVAPICH écarté car pose problèmes avec MésoNHwww.open-mpi.org : projet open-source réunissant le meilleurde LAM/MPI3, LA-MPI4 et FT-MPI5

Supporte BProc (pour le lancement des jobs MPI) et Infinibandpour la communication haut débit faible latence.Test ping-pong : latence mesurée = 4µs, débit 1700MB/sPbs avec BProc résolus en analysant sources Open-MPI pourchoix variables environnementOpen-MPI + BProc + Intel ifort + MésoNH : Ok !

3Indiana University4Los Alamos National Laboratory5University of Tennesse

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 24 / 26

Page 31: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Performances Cluster NEC L.A. vs NEC-SX5

Graphique illustrant l’équivalence entre RUN multiprocesseur MésoNHet le même RUN sur 1 processeur NEC-SX5.

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 25 / 26

Page 32: Administration d'un Cluster de bi-Opteron/réseau Infiniband sous … · 2008. 1. 11. · Administration d’un Cluster de bi-Opteron/réseau Infiniband sous environnement BProc

Bilan

Solution actuelle convient à nos codes/chercheurs/ingénieursSolution matérielle NEC bi-Opteron AMD 252 (TYAN)Réseau Infiniband très performant sur 24 nœudsStockages et système de fichier standard : Silo Raid5 SATA/SCSI+ NFS LinuxSolution administration Open-Source basée sur BProcPas de gestionnaire de batch

Futur...Hardware : maintenance NEC 3 ans J+1 ? Extension cluster avecnœuds identiques ?Software : Solution libre BProc abandonnée ? LANL se concentresur “successeur de BProc” : XCPU (www.xcpu.org) basé surV9FS (sans patch noyau).

Didier Gazen (Laboratoire d’Aérologie) JoSY 2007: Gestion des serveurs de calcul JoSY 13/09/2007 26 / 26