La machine parallèle MPC1

Hardware, protocoles et performances

University P. & M. Curie (PARIS)

Laboratoire d’Informatique de PARIS6

Olivier Glück

Introduction

Une carte réseau PCI (FastHSL) développée au LIP6 :

Liens série, point à point (HSL,1 Gbit/s)

RCUBE : routeur (8x8 crossbar, 8 HSL ports)

PCIDDC : contrôleur réseau PCI (protocole de

communication de type « Remote DMA »)

But : fournir des couches logicielles les plus performantes

au niveau applicatif (MPI)

Architecture matérielle

Standard PC running LINUX or FreeBSD

FastHSL boards

Standard PC running LINUX or FreeBSD

La carte FastHSL

MPC avant

MPC maintenant

8 nœuds bi-pro 1GHz, 8 Go de RAM, 160 Go de disk

Le matériel

Le lien HSL (1 Gbit/s) Câble coaxial, lien série, point à point, full-duplex Les données sont encodées sur 12 bits Contrôle de flux matériel

RCUBE Routeur rapide, reconfigurable et à grande extensibilité Latence : 150 ns Routage wormhole

PCIDDC Le contrôleur réseau, interface avec le bus PCI Réalise le protocole de communication : Remote DMA Stratégie zéro-copie

Le protocole de communication bas-niveau

Protocole zéro-copie (dépôt direct dans la mémoire du destinataire)

Accès direct à la mémoire du nœud hôte

Process

Memory

Process

Memory

Sender Receiver

Process

Memory

Kernel

Memory

MemoryKernel

Memory

Process

Memory

L'écriture distante

PUT : la couche de communication bas-niveau

Supportée par les Unix standards : FreeBSD / Linux Stratégie zéro-copie Fournit une API noyau simple utilisant l’écriture

distante de PCIDDC Paramètres d’un appel à PUT() :

numéro de nœud distant adresse physique locale adresse physique distante taille des données à émettre un identifiant de message fonctions de callback pour la signalisation

Performances de PUTPC Pentium II 350MHz

Débit : 494 Mbit/s

Demi-débit : 66 octets

Latence : 4 µs (sans appel système, sans interruption)

1 10 100 1000 10000 100000

Size (bytes)

MPI sur MPC (1)

Réseau HSL

Driver FreeBSD ou LINUX

Une implémentation de MPICH sur l’API PUT

MPI sur MPC (2)

Partie générique : gestion des commucateurs et des groupes,opérations globales ...

MPI API

ADIAbstract Device Interface : Interface pour emettre et recevoir

des données contigües issues de send et receive MPI

Gestion du type des données, de l'hétérogénéité, des filesd'attente pour les requêtes ...Protocol

interface

CH_GMMPI/MPC

CH_GM_P6

PUT BIPCouchesbasses

Problématique (1)

2 principaux problèmes :

Où écrire les données dans la mémoire

physique du nœud récepteur ?

On ne peut transmettre que des données

contigües en mémoire physique

Problématique (2)

Ici, 3 buffers physiques sont nécessaires.

N o d e 1 N o d e 2

v irtu a l p ro cessm em o ry

p h y sica lm em o ry

p h y sica lm em ory

v irtu a l p ro cessm em o ry

Les messages de l’API GM_P6

Les messages de contrôle SHORT : émission des données utilisateur avec copie

intermédiaire dans des tampons alloués par MPI. REQ : envoi d’une requête pour un protocole de rendez-vous. RSP : réponse à une requête (contient la description du tampon

de réception). CRDT : contrôle de flux au niveau MPI (algorithme à crédit).

Les messages data Envoi des données utilisateur en mode zéro-copie après un

protocole de rendez-vous

Format des messages de contrôle

crdt type src tag len user dataSHORT : 20 octets + données user

crdt type src tag len sid

crdt type src sid canal recv_map

crdt type src tag len

REQ : 24 octets

RSP : 20 octets + recv_map

CRDT : 20 octets

Les messages de contrôle

Transfert d’une information de contrôle (REQ, RSP, CRDT) ou de données utilisateur (SHORT)

Utilisation de tampons contigus en mémoire physique pré-alloués par MPI au démarrage de l’application (boîtes aux lettres)

Une copie en émission et en réception (pas grave pour des petits messages)

N o d e 1 N o d e 2

émission réception

HSLm ém oirephysique

m ém oirevirtue lle

Les messages de données Transfert des données utilisateur par un protocole de

rendez-vous Mode zéro-copie La description en mémoire physique du tampon de

réception est transmise à l'émetteur dans un message RSP

émetteur récepteurREQ

Les primitives MPI (1)

noeud 2noeud 1

donnéesutilisateur

MPI_Send, MPI_ISend

> 8 ko : DATA< 8 ko : SHORTdonnées

utilisateur

noeud 1 noeud 2

2 copies, 1 message 0 copie, 3 messages

Les primitives MPI (2)

MPI_Ssend et MPI_ISsend

On se place dans le mode DATA : quelle que soit la taille du message, on a besoin du protocole de rendez-vous pour faire la synchronisation

MPI_Bsend et MPI_IBsend

Idem que MPI_Send et MPI_ISend

MPI_Rsend et MPI_IRsend

Idem que MPI_Send et MPI_ISend mais on n’a plus besoin de REQ (on gagne un message de contrôle dans le cadre du protocole de rendez-vous)

Les différentes API dans MPI

MPI-MPC

PUT ou BIP

MPI_SEND(VAD, len, tid_dst, TAG)MPI_RECV(VAD, len, tid_src, TAG)

API MPI

API GM_P6

API RDMA

API PUT

GMPI_SEND_DATA(VAD, len, tid_dst, TAG, recv_map, canal)GMPI_SEND_SHORT(VAD, len, tid_dst, TAG)GMPI_SEND_REQ(tid_dst, TAG)GMPI_SEND_RSP(tid_dst, TAG, recv_map, canal)GMPI_SEND_CREDIT(tid_dst)

RDMA_SEND(Nsrc, Ndst, PRSA, PLSA, len, canal, NS, NR)RDMA_SENT_NOTIFY(Ndst, canal)RDMA_RECV_NOTIFY(Nsrc, canal)RDMA_LOOKUP()

PUT_ADD_ENTRY(Ndst, PRSA, PLSA, len, mi, flags)PUT_SENT_NOTIFY(Ndst, PRSA, PLSA, len, mi, flags)PUT_RECV_NOTIFY(mi, data1, data2)PUT_FLUSH_LPE()PUT_FLUSH_LMI()

Performances MPI (1)

Latency : 26 µs Throughput : 490 Mbit/s

Throughput : MPI-MPC P350

Size (byte)

MPI-MPC / P350 / FreeBSD

Performances MPI (2)Throughput (Log2) : Cray-T3E & MPC

1 2 4 8 16 32 64 128

Size (bytes)

MPI-T3E / Proc 300

MPI-MPC / P350 / FreeBSD

Cray Latency : 57 µs Throughput : 1200 Mbit/s

MPC Latency : 26 µs Throughput : 490 Mbit/s

Performances MPI (3)

Throughput : MPI-BIP & MPI-MPC

1 4 16 64 256 1024 4096 16384 65536Size (bytes)

b/s) MPI-BIP / P200 / Linux

MPI-MPC / P166 / Linux

Comment améliorer les performances ?

On se place dans le cas d’une seule application MPI à la fois (mode batch)

On cherche à éliminer les appels système PUT en mode utilisateur

Il faut simplifier les opérations de verrouillage et de traduction d’adresses Redistribution de la mémoire

On veut rester dans le standard MPI

Les appels système

La couche de bas-niveau PUT se trouve dans le noyau.

Appels système les plus fréquents : émission : appel de put_add_entry() signalisation : soit par interruption soit par polling

appel de put_flush_lpe (signalisation en émission) appel de put_flush_lmi (signalisation en réception)

Appels système dus à la traduction d’adresse : verrouillage des données en mémoire (mlock) traduction adresse virtuelle en adresse physique

PUT en mode utilisateur (1)

Un PUT simplifié pour MPI et en mode utilisateur :

une seule application utilisatrice de PUT (MPI)

plus d’appels système pour faire les émissions et la

signalisation

Les problèmes qui se posent :

accès en configuration à la carte FastHSL en mode

utilisateur

partage des ressources globales (en particulier de la carte

réseau) entre les différentes tâches MPI

Elimination des interruptions trop coûteuses

Sur un PII-350MHz, 128 Mo de RAM :

Latence

MPI sur

PUT noyau

MPI sur

PUT utilisateur

29 µs 21 µs

Redistribution de la mémoire (1)

On souhaite éviter les coûts de verrouillage et de traductions d’adresse.

Idée : la mémoire virtuelle de chacune des tâches MPI correspond à une zone contigüe en mémoire physique.

Lors de l’initialisation, on attribue statiquement la mémoire physique de la machine de façon contigüe à chacune des tâches.

But : adresse virtuelle = adresse physique + offset

Redistribution de la mémoire (2)

Coûteux lors de l’initialisation

Pas de modification de l’OS

Pas de modification de la libc

s ta c k

d a ta

M P I ta sk As1

C M E Mslo t

v irtu a l p ro cessad d re ss (g cc ) P h y sica l

m em o ry

2 . c o p y in C M E M m em o ry

sta c k

te x t

d a ta

M P I ta sk As1

P h y sica lm e m o ry

v irtu a l p ro cessad d re ss (g cc )

1 . lo c k in g a n d m a p p in g

sta c k

te x t

d a ta

M P I ta sk A

C M E Mslo t

v irtu a l p ro cessad d ress (g cc)

P h y sica lm em o ry

3 . u n m a p a n d re m a p

Etat d’avancement

Une première implémentation de MPI sur MPC résultats encourageants fonctionne avec PUT noyau ou PUT utilisateur

PUT utilisateur mesures à affiner amélioration de la signalisation on a gagné en portabilité

Redistribution de la mémoire pas implémenté et pas testé sur MPI aucune mesure

Perspectives

Amélioration de PUT utilisateur

on espère passer en dessous des 20 µs de latence

Redistribution de la mémoire

n’améliorera pas la latence

amélioration du débit pour les moyens messages

La machine parallèle MPC1

Documents

Transcript of La machine parallèle MPC1

La machine nerveuse

Etudes de performance sur une machine parallèle de type « Grappe de PCs »

Un système de gestion de tâches pour la machine parallèle MPC Encadrants : Alexandre FENYO (LIP6) Philippe LALEVEE (INT)

Parallèle(s) #29

LA RELIGIOSITÉ PARALLÈLE Equinoxe -Printemps pp. 57-69

La finance parallèle (shadow banking - Banque de France › ... › documents › 20150923_shadowba… · La finance parallèle (shadow banking) Risques, opportunités, enjeux .

DÉPLACEMENT ET ARRÊT DE LA MACHINE - … · La machine peut fonctionner avec transmission hydrostatique ou mécanique. – Avec transmission hydrostatique: La machine démarre et

ASTROPHOTOGRAPHIE AU 45 PARALLÈLE · Le guide « Astrophotographie au 45e parallèle » s’adresse aux astronomes amateurs et photographes amateurs intéressés par la photographie

Introduction au calcul parallèle avec la bibliothèque MPI ...Introduction au calcul parallèle avec la bibliothèque MPI (Message Passing Interface) Stéphanie DELAGE SANTACREU,

Exemples d'applications de la programmation parallèle

Informatique parallèle IP 04 : Complexité et modèles de machine.

INFOGRAPHIES RÉALISÉES EN PARALLÈLE DES CARTESn49o7.ovh/2016_atelier/infographies.pdf · INFOGRAPHIES RÉALISÉES EN PARALLÈLE DES CARTES L’atelier Atlas consistait en la réalisation

La machine Terre La Machine Terre Yanick Ricard Cnrs/ENSL/Univ-Lyon.

Algorithmique parallèle

Thèse stratégie commande hybride parallèle

Parallèle(s) #28

MimOFF, la programmation parallèle

La machine à cocktails - Lycée Jean Perrin · Projet Pluritechnique Encadré • Thème: La Machine à cocktails • Problématique: Réaliser une machine entièrement automatisée

Parallèle(s) 34

physique.vije.netphysique.vije.net/BTS/MS.docx · Web viewCours BTS électrotechnique : machine synchrone 9 MACHINE SYNCHRONE Présentation La machine synchrone est un convertisseur