On the Road Again · – Portabilité (aucune maitrise sur les moyens informatique externe) ... NEC...

of 23 /23
On the Road Again … A. Refloch

Embed Size (px)

Transcript of On the Road Again · – Portabilité (aucune maitrise sur les moyens informatique externe) ... NEC...

  • On the Road Again

    A. Refloch

  • Sur la route . Considrations gnrales

    Tolrance aux pannes Consommation lectrique (efficacit) & refroidissement Encombrement au sol Gestion systme (1 Mcores) .

    Multi-physique raliste

    Manque danticipation

    Nouvelles difficults

    Dfis

  • HPC : 1 cible 3 grands axes

    Plus de physique

    et plus dchelles

    Plus de donnes

    dentres

    Plus de

    Run

    Prcision

    Gomtrie complexe

    Analyse systme

    Optimisation multi disciplinaire

    Etude

    paramtrique

    Incertitudes

    Simuler des systmes

    plus complexes

    Simulations prdictives

    Plus

    de

    CPU

  • Multi physique raliste : Nouvelles difficults prendre en compte

    Gomtrie complexe : intrt : temps de ralisation des maillages -> maillage non structur -> numrique et localit des donnes (mmoire & IO)

    Multi-physique conditions pure aerodynamique (1 espce, gaz parfait) + conditions ractive (multi-espces, cintique chimique, gaz rel) + conditions multi-phases (disperse, spare, mixe) + conditions multi-physiques (aroacoustique, interaction fluide-solide (transfert de

    chaleur, mcanique), ...)

    Solveurs Lagrangien : Paralllisme Mmoire Couplage (de codes mono physique : algo de couplage, quilibrage) Parties mobiles : remaillage automatique, partitionnement en cours de calcul

    Dfi Exa => HPC tous les niveaux

    Bien plus que la des dfis HPC mono physique

  • CEDRE

    en quelques mots

    Code de rfrence de lOnera pour nergtique et la propulsion Maillage non structur gnraux

    "Nombre quelconque de faces par cellule, nombre quelconque de noeuds par face" Parallle classique

    MPI Dcomposition de domaines (Utilisation de dcoupeur de maillage)

    Multi-physique Interne (diffrent solveur pour diffrent systme physique)

    Charme: Navier-Stokes, turbulent, ractive, gaz rel, multi-phases Sparte: phases disperse (Lagrangien) Spire: phases disperse(Eulerien) Astre: rayonnement (Monte-Carlo) Ra: rayonnement (ordonnes discrtes) Acacia: thermique Film: films liquides

    Externe (Bibliothque de couplage : CWIPI, OpenPalm) Approche Zonale gestion des interfaces

  • Applications CEDRE

    6

  • 1 exemple dapplication LES Aeroacoustique

    Bruit de Jet rduction du bruit des avions approche hybride : cedre + code Onera

    acoustique 250 Mcells / 960 cores

    M. Lorteau et al "Recent progress in LES computation for aeroacoustics of turbulent hot jet. Comparison to experiments and near field analysis", AIAA 2014-3057, 20th AIAA/CEAS Aeroacoustics Conference, 16-20 June 2014, Atlanta, Ga, USAL. Sanders et al., "Further flow and noise predictions of the Gulfstream PDCC nose landing gear based on the CEDRE unstructured solver", 19th AIAA/CEAS Aeroacoustics Conference, 27-29 May 2013, Berlin, GermanyF. de la Puente, et al., "On LAGOON nose landing gear CFD/CAA computation over unstructured mesh using a ZDES approach", AIAA 2014-, 20th AIAA/CEAS Aeroacoustics Conference, 16-20 June 2014, Atlanta, Ga, USA

    Bruit de train datterrisage

    Gomtries complexes : 70 Mcells + ZDES

  • 8

    .

    Application Propulsion Solide

    Dveloppement:ASTRE : Rpartition Prad gaz et Prad gouttesSPIREE : Prise en compte Prad gouttesFILM : Modle arrachement + sparation et Modle couplage thermique

    1er calcul : coulement avec film dalumine

    2me calcul : coulement + rayonnement

    3me calcul : coulement+film+rayt+thermique parois

  • 9

    Possibilit de discrtiser des gomtries trs complexes, dans des temps de ralisation des

    processus de conception industriel.

    Physique raliste, effet technologique :Maillages non structurs gnraliss

    Code ancienne gnrationCode de recherche

    Code type MSD

    Non structur non gnralis

    CEDRE

    Mais la localit est le secret des performancesBonne performance implique bande passante importante, renumrotation des faces

  • MEMOIRE

    Importance de la mmoire : % du prix de la machine et % de la consommation lectrique

    => mesure lintrieur du code

    Tendance naturelle la dcroissance de la mmoire disponiblepar coeur

    Plus de mmoire influencera le couplage multi physique

    Mais (bonne nouvelle) : Problme de rsilience : MTTI => checkpoint-restart Avance dans la techno

    NVRAM ; PRAM (parameter random access memory) au lieu de RAM ReRam (HP The Machine project )

    Impact du Big Data (besoin de grosse mmoire)

  • I/O

    Un grand nombre de petits fichiers (par coeur) ntait plus une solution :

    Problme de backup et pas optimum avec file system parallle (Lustre, GPFS)

    Orientation vers un fichier unique : Binaire, Compatibilit little-endian/big-endian, Reprise sur un nombre diffrent de coeurs

  • Bibliothque PARIO

    Goulet dtranglement Test sur Projet PRACE Cedre Preparatory project nPRA017, 2010, computer Jugene from Juelich, 1Mh IO library test sur 32000 curs, GPFS meilleur comportement que Lustre IO source principal darrt de production

    MPI IO

    Collective writing per bloc :

    Mode 1 (reference)

    Mode 2 (use of MPI_TYPE_HINDEXED)

    Interleaved writing

    Mode 3 (use of MPI_TYPE_SUBARRAY)

    Mode 4 (use of MPI_TYPE_HINDEXED)

    IO : sujet ingrat, rsultats de performance trs variables en fonction de la charge de la machine, sujet mal apprhend et document, pas de grands moyens dactions du cot Utilisateur, dpendant du systme,

    Stage en cours (PARIO, HDF5, HDF5Exa, DAMARIS, SIONlib)

  • Multi-physique

    Approche Lagrangien : parallle par trajectoire (e.g. photons) Approche Lagrangienne necessite la connaissance de tout le maillage

    Limitation par la mmoire : une solution : OpenMP qui a permis rapidement de faire passer la limite de 3 M lments 20 M lments (48Go/noeuds NHM)

    Paralllisme multi-niveaux (disparition de la programmation homogne (pur MPI))

    On sait aujourdhui que la programmation parallle sera hybride

  • CWIPI: Coupling With Parallel Interface

    Dvelopp lONERA par E. Qumerais Open source (cedre.onera.fr) Test sur Curie 32k coeurs 1 Milliard de points

    Simule le couplage entre deux codes au travers dun change sur une interface constitue de deux surfaces partitionnes. La discrtisation de la surface est unique chaque code.

    Synchrone vs asynchrone: ratio 11 15

    Le couplage est un moyen naturel dutiliser la puissance de lExascale.Il faut donc un coupleur dans sa caisse outils.

  • Couplage multi physique externe interne

    Partition de calcul

    Solveur 1 Solveur 2

    Couplage externe : Zebulon (Zset code de structure ) Couplage interne dans CEDRE :

    Multi physique possible au sein de lOnera Assemblage au sein du code (allocation mmoire, passage par

    arguments, ) Toutes les infos disponibles pour divers algo de couplage Cycle global, cycle par solveur

    Tous les curs actifs: LA solution si le nombre de curs reste limit

    Tem

    ps

    ?

  • Environnement - Chaine de calcul

    Rintgration de fonctionnalits pr-post Analyse in-situ Consomme une partie non ngligeable des ressources humaines

    Pre Solveur Post

    Solveur

  • Partie Mobile

    Rgression propergol Sparation de charge Protection thermique Braquage de tuyre Vannage gaz chaud Partie tournante .

    => Raffinement-deraffinement, basculement de faces Recollement conservatif le long d'une surface commune Chevauchement conservatif de maillages

    Remaillage en cours de calcul : Un vrai challenge exascale

  • Scalabilit

    We acknowledge PRACE for awarding us access to resource CURIE based in FRANCE at TGCC, Project PA1389, 2013

    Study of combustion instabilities in a variable-length combustor by

    Large Eddy Simulation on 350 Mcells

    Aggregated results from several projects

    Besoin dun accs de gros moyens de calculs pour le DEVELOPPEMENT

    Oprations collectives viter

  • Environnement de dveloppement

    Avalanche doutils : module available ..

    Profiler CPU et elapsed ok mais utilit

    Profiler mmoire vrai besoin

    Debugger : vital

  • Typologie & contraintes

    Code de recherche Dj pas simple

    Grand code de recherche Volume du dveloppement et la taille de lquipe (importance du GL) Evolution rapide

    Grand code de recherche utilis par lindustrie en avant projet Portabilit (aucune maitrise sur les moyens informatique externe) Prennit (code traverse plusieurs gnrations de machines) Validation (bit bit ne sera plus tenable)

    Les grands code de recherche utilis par lindustrie en BE Convivialit Performance pour la conception

    Avec quels moyens humains ? Consquence rduction du nombre de codes Exa

  • 21

    Dfinir une stratgie, exemple :

    Court terme: Optimiser les codes sur HW actuel, comprendre les volutions, interaction avec les vendeurs

    Moyen terme: Sur la base des codes en production, test nouveau HW, faire des benchmarks, accder des

    hardware les plus rcent ( exemple: MIC Intel) Anticiper nouveaux dveloppements: plus de physique, mais aussi nouvelle approche

    numrique ( interne, collaborations ...) (sur 30 ans les avances numriques galent celles des machines)

    Modle de programmation ( exemple Co Array Fortran, DSL ? )

    Long terme: Collaboration, anticiper nouvelle technologie au travers de collaboration R&D (Doctorants, MoU

    ) (Difficult du multi disciplinaire : informatique, numrique, physique)

    En plus pratique : Faire passer lchelle les applications existantes vers le Peta puis multi-Peta-scale et lExa-

    scale Garder la maintenabilit des codes Garder la validation des codes Garder lattention sur les cot (IO, visualisation, ) nouveaux goulets dtranglement

  • 22

    Quelle machine pour quelle(s) application(s) ?

    - Network intensive IBM BG/P Bluebrain (EPFL)

    - CPU intensive & Network intensive Large SPMD simulation Cray- CPU intensive & assez peu coupl CFD Cluster gnraliste- CPU intensive & naturellement parallle - HEP @ATLAS (CERN) Un grand

    nombre dordinateurs portables- CPU vectoriel et besoin trs fort en bande passante mmoire (1 octet par flop)

    NEC (SX-ACE (big core) )Orientation : Co design

    Roadmaps diffrentes en fonction de lindustrie : - Aronautique : lExaflop nest pas le but ultime au moins le Zetaflop pour LES avion. Beaucoup dapplications (simulations presque indpendante), calcul stationnaire (RANS, URANS) avec modle physique amlior- Combustion : modlisation de la combustion turbulente, couplage multi physique, - Engineering : Optimisation, simulations type Monte Carlo,

  • 23

    Conclusion(s)

    La consommation lectrique est le moteur du changement Ce nest plus la recherche qui pilote le march des supercalculateurs LExascale est un challenge tout les niveaux (langage, compilateurs, systme

    (gestion batch, checkpoint-restart, )) ET pour les APPLICATIONS Les applications devront sadapter rapidement dans un contexte encore flou Lapproche base de directives (standardis) est sans doute privilgier pour les

    grands codes (portabilit) Paralllisme multi-niveaux (disparition de la programmation homogne (pur MPI)) Il faut viter des solutions propritaires (pour les grands codes) Il faudra utiliser des bibliothques optimises Le positionnement sera encore plus difficile pour les codes de recherche utiliss

    par lindustrie La performance disponible rebat les cartes de lcosystme Le multi physique complexifie encore la route vers lExascale dans le cadre de

    simulation raliste