CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

37
CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG

Transcript of CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

Page 1: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Architectures de grappes de PC

Philippe Augerat

ID-IMAG

Page 2: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Grappe « BEOWULF » :

Une grappe (cluster) est une collection de machines interconnectées, utilisée comme une ressource de calcul unifiée

Une grappe « Beowulf » se définit par les propriétés suivantes : composants à grande diffusion composants réseau à faible coût système d ’exploitation « open source » hardware non propriétaire logiciel « open source »

Page 3: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Applications :

projet du CEA : calcul haute performance intégration de machines performantes et d'un réseau commuté performant - perspective de changement d'échelle

projet GRID : parallélisme faiblement couplé, du débit de calcul sur 6 mois plutôt que sur 24 heures.

serveur WEB : faible charge CPU, importance de la mémoire

HP : mélanger les usages

Page 4: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Medium size (240,000 cells) Fluent CFD computation.

Page 5: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Des grappes de référence : le Top500

Sandia 592 procs alphas, myrinet, linux, #44NCSA 256 pentiums, myrinet, NT, #68Cornell 256 pentiums, giganet, NT, #198Los Alamos 140 alphas, Ether100/1000, linux,

#265Paderborn 192 pentiums, SCI, solaris, #351Bonn 144 pentiums, myrinet, linux, #454Chiba, Los Lobos, CEA, FSL, … en 2000

Page 6: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Processeur

Pentium Alpha

NTLinux

OS

Solaris,...

SCI

Réseau

Ethernet

Giganet, ServerNet, ...Myrinet

SMP

biproc

quadriprocMono

Technologies :

? IA64

Page 7: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Machines/OS

>=128>=64

12

2

12

26

314

True 64SolarisNTLinux

>=128>=64

8

12

10

25

Pentium

Alpha

Une majorité de SMP

Page 8: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

PIII / Alpha

Performances P III Xeon 500 Mhz : adressage 32 bits STREAM Copy : 188

MB/sec SpecFP95 : 15.1 Peak MFLOPS : 500

Coût Dual CPU : ~6K$ (512K L2)

Logiciels Linux: beaucoup

Performances Alpha 21264 677 Mhz : adressage 64 bits STREAM Copy : 1087

MB/sec SpecFP95 : 48.4 Peak MFLOPS : 1354

Coût Dual CPU : ~15K$ (4M L2)

Logiciels Linux : quelques uns

Page 9: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Architecture d ’un PC Intel :

Pentium IIIXeon 500 Mhz

cache L1...

Cache L2

...

Contrôleur mémoire et

pont E/S

Mémoire <=8Go

PCI 64 BITS ou 2 bus PCI 32 BITS

266 Mo/s

Bus système100 Mhz/800 Mo/s

<=2 Mo

100 Mhz800 Mo/s

Bus E/S

Page 10: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

SMP :

Pour : diminue la taille de l ’interconnexion forme plus compacte rapport prix/performance plus intéressant

Contre : accès sur le bus système/mémoire stressé composants plus chers Peut ajouter à la complexité logicielle

Page 11: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Souhaité et facultatif :

La meilleure offre en : vitesse des processeurs hiérarchie mémoire (vitesse,

cache, …) bus PCI (64 bits, vitesse,

nombre,..)

Page 12: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Prix

Nœuds59%

ethernet4%

myrinet30%

contrôle4%

divers3% Estimations par poste :

Myrinet : 1,5 k$

ServerNet/Giganet/SCI : 1.5 k$

Gigabit Ethernet : 1 k$

Pentium bi procs : 6 k$

Page 13: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

L’interconnexion réseau

SCIVIA

Fibre Channel

HIPPI

FDDI

WDM

Infiniband

Ethernet

PCI

SAN WANMANLAN

...

ATM

...SCSI

Myrinet

...

Page 14: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

>=128>=64

8

3

4

0110

13

11

6

1111

Quadrics

Giganet

SCI

ServerNet

Ether1000

Ether100

Myrinet

Interconnexion : statistiques

Page 15: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

La technologie Myrinet

Commutation de paquets Topologie très soupleCarte réseau muni d ’un processeur

RISC pilotant plusieurs contrôleurs DMA

PCIBRIDGE

DMAcontroller

RISCprocessor

Hostinterface

PacketInterface

Local memory

PCIbus

network

Page 16: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

La technologie SCI

Interconnexion SCI

Processus A

Espace d'adressage

virtuel

Bus PCI

PCI-SCI

Processus B

Espace d'adressage

virtuel

Bus PCI

PCI-SCI

Mémoire physique

réseau à capacité d’adressage adressage des mémoires distantes lecture/écriture distante sans interrompre le

processeur distant plus de nécessité de programmation par

échanges de messages Topologie en grille

Page 17: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

La technologie VIA

Une interface logicielle dont l’objectif est de limiter les accès au système et les copies de buffers.

Peut être implémentée en hardware

Standard industriel proposé par Microsoft, Intel, Compaq. Aujourd’hui par Dell, Intel, Compaq

application application

Système d ’exploitation

Contrôleur réseau Contrôleur réseau VIA

Systèmed ’exploitation

VIcontrôle contrôle

données

données

Architecture TCP/IP Architecture VIA

Page 18: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Les autres candidats

Memory channel : espace d ’adressage

mémoire unique bonne latence passage à l ’échelle

par SMP donc limité

SupperHIPPI, FibreChannel, Infiniband, ATM, WDM, Quadrics, ... offre cluster

balbutiante ou de luxe

Page 19: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

D ’un coup d’œil

SCI Giganet Gigabit Ether ServerNet I MyrinetMin latency 2.4 µs 8 µs 5 µs

Maxbandwith

8 Gb/s 1.25 Gb/s 1.28 Gb/s

MPI latency 6 µs 20 µs 12 µsMPI

bandwith70 MB/s 96 MB/s 100 MB/s

PCI Bus 32 bit33 MHz

64bit33MHz

32bit33MHz

64bit33MHz

Topology 2D mesh,ring, switchs

switchs switchs switchs switchs

Switch 6 ports0.25 µs

8 ports0.5 µs

64 ports 6 ports0.3 µs

16 port0.2 µs

Confvalidée

96 machines12x8 2D torus

64 machines40 switchs

256machines

?

72 machines48 switchs

384machines48 switchs

Philosophie DSM VIA Standard hautedisponibilité

Processeur

Page 20: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Évolutions ?

SCI Giganet Gigabit Ether ServerNet II MyrinetMin latency ~25 µs 12.5 µs

Maxbandwith

500 Mb/s 125MB/s

PCI Bus 64 bit66 MHz

64bit33MHz

64bit66MHz

Topology 3D meshSwitch 8 ports ? 30 ports 12 ports 128 ports

Philosophie ProcesseurSur la carte

VIA enhardware

Topologie ?

Page 21: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

SCI : pour/contre

espace d ’adressage mémoire unique

latence/messages de petite taille

manque de maturité monopolise le CPUquelle fiabilité en cas

de panne d ’un nœud

Myrinet : pour/contrePlus grande maturité intégrateurs en

Francebande passante

? Autant de MPI/drivers/firmwareque de grappes

Page 22: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Comparatifs SCI/MyrinetSCI Myrinet

Latenceen µsecondes

6,72 11, 8

Bande passanteEn MO/s

72,05 102,85

Barrière(2 procs/4 procs)en µsecondes

11,9923,72

15,9868,03

Taille à mi débiten octets

2046 8192

PALLAS

BENCHMARK

SCI :

P II 450 Mhz

carte scali 2D 32bits/33Mhz

Myrinet :

P II 450 Mhz

carte Lanai 4

32bits/33Mhz

Page 23: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

SCI/Myrinet (2)

Machine type/total number ofprocessors

8 16 32 64 128

Single proc SCI 23 37 62 109 xSingle procMyrinet

22 40 55*

Dual proc SCI x 32 50 82 130Dual procMyrinet

x 31 44

IS benchmark de tri faisant parti des NAS parallel benchmarks

communications collectives de petits paquets

Machine type/total number ofprocessors

16 32 64 128

Single proc SCI 746 1279 xSingle procMyrinet

383 810*

Dual proc SCI 1285 2006Dual procMyrinet

1339

FT benchmark opérant plusieurs transformées de Fourrier

communications collectives de gros paquets (1 MO pour 8 processeurs)

* P III 500 Mhz

Page 24: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

SCI/Myrinet (3)BT benchmark de multiplication de matrices spéciales - 80% de calcul

communications non bloquantes de paquets de taille 100 ko pour 8 processeurs

Machine type/total number ofprocessors

16 36 64 121

Single proc SCI 997 1882 3162 xSingle procMyrinet

970 1600*

Dual proc SCI 1445 2502 4530Dual procMyrinet

1579

Machine type/total number ofprocessors

16 32 64 128

Single proc SCI 1087 1946 4019 xSingle procMyrinet

1100* 2200*

Dual proc SCI 915 1554 3545 7430Dual procMyrinet

243 374

LU benchmark de factorisation de matrice - 80 % de calcul

communications bloquantes de petits paquets de 3 ko pour 8 processeurs

Page 25: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Les autres possibles

ServerNet II VIA orienté haute disponibilité : contrôle d ’erreurs en hardware,

redondance support de Compaq

Giganet VIA disponible sur NT/linux débit/messages de grande taille

Mais quelle maturité ?Quel avenir pour VIA ?

Page 26: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Les autres possibles

(Double) Fast Ethernet standard le moins cher Mais latence importante

et très forte utilisation du CPU (en attendant VIA et des cartes avec processeur)

Gigabit Ethernet standard, plusieurs fournisseurs de moins en moins cher switches 64 ports

Page 27: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Logiciels

gestionnaire de batch/ressources compilateurs MPI pile TCP/IP outils de trace et de debugintégration et portabilité Linux-NToutils de déploiement et d ’administration systèmes de fichiers pile VIA image unique de système

Page 28: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Besoins logiciels (1)

un (ou plusieurs) MPI adapté aux applications thread aware (MPI/Pro, ScaMPI) faible latence (ScaMPI) bande passante élevée (BIP, MPI/PRO) très diffusé (MPICH, LAM)

outils de déploiement pour stations : Rembo, HP Toptools, Norton Ghost pour clusters : scali, alinka, Compaq CMU outils propriétaires type IBM PSSP (?)

Page 29: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Besoins logiciels (2) gestionnaire de batch/ressources

PBS Condor LSF Codine ...

outils de trace Totalview Vampir

portabilité : MPI/pro MPI sur Ethernet LSF Fast messages

Page 30: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Besoins logiciels (3) systèmes de fichiers

NFS système de fichiers IRIX, True64, … réseau de stockage en amont

image unique de système (autres thèmes) migration de processus mémoire partagée distribuée interface utilisateur unique administration centralisée espace d ’entrées/sorties partagé espace de processus unique

pile VIA VIA hardware : Giganet, Server Net Myrinet et certaines cartes Ethernet fast et gigabit

Page 31: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

L’intégrateur/vendeur

support scientifiquesupport techniquemaintenanceintégration hardwareintégration software

Minimum : intégration hardware et validation par déploiement du système et de benchmarks

Page 32: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Des options coûteuses :

Rackscontrôle souhaité (BIOS, wake on line, boot

PXE, lien série, …)concentrateurs d ’alimentation électriqueécrans, switchs d ’écran ?disques locauxdes serveurs supplémentaires : contrôle,

login, fichier, développement, scheduler

Page 33: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Où en est on ? (1)

Coopérations avec des constructeursHP : « cluster du pauvre »Microsoft : portage sur NT et metacomputingCompaq IBM, BULL, SGI, DELLMyrinet, Dolphin

Utilisation et benchmarks de grandes grappes et des dernières générations de matériel

Page 34: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Où en est on ? (2)

Budget : INRIA 2,5 MFRégion ? MFMENRT (UJF 400 INPG 400) ENS-LYON 300CNRS ?

Solution en deux phases : Ethernet (+) puis SCI et/ou Myrinet

Page 35: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Evolution contexte grappe

Grappe NT256 pentiums

#198

GrappeLinux

140 alphas#113 dans le

TOP 500

1998 200120001999

3D SCI meshGrappe Linux 144 pentiums

#356

IA 64

Compilateurs Digitalsur Linux

SwitchMyrinet 128 ports

Linux SMP

Réseaux de stockage

VIA sur Ethernet

InfiniBand

Administration simplifiée

True64/IRIX/AIX--> LINUX

Page 36: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

A venir :

Collaborations industrielles à conclure Benchmarks au niveau Athapascan Rédiger l ’appel d ’offre (pour septembre) :

décrire les paramètres de l ’architecture de machine

De nouvelles problématiques de recherche, ex. autour de « l ’image unique de système »

Page 37: CIMENT 9 MAI 2000 Architectures de grappes de PC Philippe Augerat ID-IMAG.

CIMENT 9 MAI 2000

Contact/infos :

[email protected] http://grappe200.imag.fr