1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre...
-
Upload
juliette-paquet -
Category
Documents
-
view
103 -
download
0
Transcript of 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre...
1
DataGRAAL
DataGRid pour Animation et Applications à Large échelle
Yves Denneulin IMAG-IDPierre Sens LIP6 - INRIA
ACI DataGraal – 10/01/03 2
Pourquoi s’interesser aux données ?
Croissance des capacité de stockage > croissance des processeurs
Nécessité d’adapter les supports
Moore’s Law vs. storage improvements vs. optical improvements. Graph from Scientific American (Jan-2001) by Cleo Vilett, source Vined Khoslan, Kleiner, Caufield and Perkins.
Préambule
ACI DataGraal – 10/01/03 3
Plan
Partenaires
Problèmatique
Objectifs
Complémentarité
Axes de recherches
Echéancier
ACI DataGraal – 10/01/03 4
Partenaires
Communauté bases de données : PRISM – SMIS (INRIA – Univ. Versailles St Quentin) LIRMM (Univ. Montpellier) LSR-IMAG (Grenoble) LISI – (INSA Lyon)
Communauté système : PARIS (IRISA) LRI - Equipe Cluster (Université Paris 11) REMAP (LIP - ENS Lyon) LIP6 (Université Paris 6) Apache ID – IMAG HP Labs
Applications : CERS IN2P3
ACI DataGraal – 10/01/03 5
Contexte
2 types de grands systèmes distribués
Les Grilles de calcul ou « GRID »
Les systèmes de Calcul Global
Les systèmes Pair à Pair
Les systèmes distribués à grande échelle
Grands sitesde calcul,Clusters
PC
•<1000•Stables•Identification individuelle•Confiance
•~100 000•Volatiles•Pas d’ident individuelle•Pas de confiance
Caractéristiques des nœuds :
Problématique
ACI DataGraal – 10/01/03 6
Impact de la très grande échelle
Nombre de ressourcesDynamicité
panne, déconnexion, charge
Eloignement asynchronisme
Hétérogénéité des architectures, des systèmes
Comportement malveillant
Pas de d’état global
Problématique
ACI DataGraal – 10/01/03 7
Les Grilles
Plates-formes Globus, NetSolve (Univ. Tennessee),
Ninf (Univ. Tsukuba), DIET (ENS-Lyon/INRIA) Stockage
GridFTP(Argonne), OceanStore (Univ. Berkeley), IBP (Univ. Tennessee)
Problématique
ACI DataGraal – 10/01/03 8
Les systèmes Pair-à-Pair
Lié à des applications Napster, Kazaa, Edonkey, FreeNet…
Plates-formes de routages (DHT) Chord (MIT), CAN, Pastry (Rice), Tapestry (Berkeley)...
Stockage de données Non modifiables : PAST (Rice), CFS (MIT) Modifiables : FarSite (Microsoft), Ivy (MIT)
Distribution de codes XtremWeb (LRI)
Plate-forme générique JXTA (Sun)
Problématique
ACI DataGraal – 10/01/03 9
Problèmes ouverts dans la gestion des données
Qualité de service dans l’accès aux données Efficacité des accès Disponibilité Tolérance aux fautes
Hétérogénéité des sources
Persistance
Modèles de partage Ecritures multiples Protocoles de cohérence
Problématique
ACI DataGraal – 10/01/03 10
DataGraal : Les objectifs
1. Gestion des données à très large échelle=> exploratoire
2. Multi-communautaire : Profiter/confronter les expériences des BD, système, applications=> animation
3. Identification de thématiques/concepts communs
4. Maquettes d’expérimentation
Objectifs
ACI DataGraal – 10/01/03 11
DataGraal : les applications
Stockage : Grande quantité Dispersion des données Hétérogénéité
Objectifs
ACI DataGraal – 10/01/03 12
Coopération entre communautés
Communauté système Issus des expérience des systèmes répartis et pair-a-
pair Protocole de localisation Placement, déploiement Protocole de cohérence Détection et gestion des fautes
Communauté bases de données Gestion de grandes quantités de données Hétérogénéité Mobilité Médiation traditionnellement, architecture faiblement distribué
Complémentarité
ACI DataGraal – 10/01/03 13
Coopération (2)
Applications physique des particules physique des plasmas simulation de grands systèmes physiques
Idée de la coopération : faire se rencontrer des communautés
différentes contexte : stockage distribué de grandes
quantités de données
Complémentarité
ACI DataGraal – 10/01/03 14
Atouts des partenaires
PRiSM/INRIA langage de requêtes, fouille de données exploitation de grandes quantités de données
LSR Eclatement d ’un SGBD en un ensemble de services
(persistance, duplication, …) Connaissance approfondie des architectures de SGBD
LISI Systèmes d’information à large échelle
LIRMM médiation, exploitation de résultats venant de
nombreuses sources
Complémentarité
BD
ACI DataGraal – 10/01/03 15
Atouts des partenaires (2)
IRISA / PARIS Maîtrise des mémoires partagées Partage de mémoire pair-è-pair Expérimentations avec JXTA
LRI Calcul haute performance sur P2P Tolérance aux fautes
LIP6 Modèle de cohérence hiérarchiques Gestion des fautes dans environnement asynchrone Systèmes multi-agents
LIP Remap Environnement de type grille Traitement de grande masses de données Redistribution dynamique des données et tolérance aux pertes
Complémentarité
Système
ACI DataGraal – 10/01/03 16
Atouts des partenaires (3)
HP labs environnement de grappe virtuelle forte volatilité
Laboratoire ID expérience architecture grande grappes
• administration, gestion• déploiement efficace d ’applications sur un
grand nombre de nœuds
Complémentarité
Infrastructures
ACI DataGraal – 10/01/03 17
Atouts des partenaires (4)
IN2P3 expérience dans la gestion de grandes quantités de
données élément central de Datagrid
CESR fusion de plusieurs grandes bases en une seule requêtes hétérogènes à traiter, stockage réparti
CEA expériences grandeur nature
• modélisation du climat, de la terre forte complexité des données grand nombre de sites
Complémentarité
Applications
ACI DataGraal – 10/01/03 18
Atout du projet
Complémentarité expériences diverses vaste domaine de compétences
• domaine des bases de données• système distribué
expériences acquises• applications (CEA, IN2P3, CESR)• système grande échelle
Complémentarité
ACI DataGraal – 10/01/03 19
Identification des tâches (provisoire)
Tâche 1 : Besoins applicatifs (Tâche transversale) Moteurs : CEA / CESR / IN2P3
Tâche 2 : Déploiement de données Moteurs : LRI / LIP / LIP6 / LISI
Tâche 3 : Accès efficace aux données Moteurs : PRISM, LIRMM, LIP
Tâche 4 : Partage de données Moteurs : IRISA / LIP / LIP6 / PRISM
Tâche 5 : Modèle de cohérence Moteurs : IRISA/ LIP6 / PRISM
Tâche 6 : Tolérance aux fautes Moteurs : LIP6 / LRI /
Tâche 7 : Apport des approches multi-agents Moteurs : LIP6 / IRISA
Axes
ACI DataGraal – 10/01/03 20
Tâche 1 : Besoin applicatif
CEA , CESR , IN2P3 « Retour » d’expérience de DataGrid
Capacité de stockage – 5-8 PetaOctect / année
10 PetaOctect de disquePuissance de calcul –
200 000 PC rapides Répartition du volume ? Grain.
Quelles disponibilités, persistance ?
Mode de partage ?
Axes
ACI DataGraal – 10/01/03 21
Tâche 2 : Déploiement
LRI : XtremWeb
LISI : Technique de cache Web
LIP6 : Algorithmes de placement de données /
observation
LIP : DIET+IBP - Redistribution, Placement
Axes
ACI DataGraal – 10/01/03 22
Tâche 2 : déploiement (2)
Constat : Placement de données très statique Exploration 1 : vers plus de dynamicité
Nécessité de contrôler l’environnement Ressources disponibles
Détection de fautes en environnement asynchrone (pb algorithmique)
Transport d’information de contrôle à large échelle (filtrage, propagation épidemique)
Accumulation de données pertinentes (vision partielle)
Prise de décision Problème de validité des informations
Exploration 2 : Lien avec le placement des tâches
Axes
ACI DataGraal – 10/01/03 23
Tâche 3 : Accès
PRISM : Accès efficace en fonction du profil
LIRMM : Adaptation dynamique des vues
LIP : Distribution de requêtes Co-ordonnancement
ACI DataGraal – 10/01/03 24
Tâche 4 : Partage
PRISM :
Mode de partage transactionnelle
IRISA / LIP6 / LISI
Partage à grain fin (page / objet)
LIP Gestion de versions de données immutables
Axes
ACI DataGraal – 10/01/03 25
Tâche 4 : partage (2)
Versionning vs. données modifiable Limite du partage en lecture dans P2P
Approche de partage « volontaire » limitée
Le partage avec de nombreux écrivains Augmenter la complexité - Quelles applications ?
Des tendances récentes : Partage (en lecture) forcé (ex. Edonkey) Partage avec une nombre réduit d’écrivains (Ivy
…)
Axes
ACI DataGraal – 10/01/03 26
Tâche 5 : Cohérence
Modèle de cohérence sur mémoire partagée répartie (IRISA / LIP6 / LISI)
LISI• DosMos
IRISA• Cohérence au relachement• Cohérence multi-thread (DSM-PM2)
LIP6• Modèle hiérarchique (CLRC)
Axes
ACI DataGraal – 10/01/03 27
Tâche 5 : Cohérence (2)
Avenir des mémoires partagées réparties ? Application à large échelle
Travail coopératif, couplage de code
Hétérogénéité
Tolérance aux fautes
Axes
ACI DataGraal – 10/01/03 28
Tâche 6 : Tolérance aux fautes
PRISM : Redondance dynamique
LIP6 : Détection de fautes hiérarchique (RTT-FD) Réplication dynamique (DARX)
LRI : Journalisation de messages + mémoire de canal MPICH-
V
LIP : Code redondant Reconstruction dynamique
Axes
ACI DataGraal – 10/01/03 29
Tâche 6 : Tolérance aux fautes (2)
Gestion de l’incertitude des informations vers un système « indulgent » ?
Choisir la bonne stratégies (types de réplication, point de reprise, journalisation) en fonction de plusieurs critères : Applicatif (type de fautes, nombre de fautes,
temps de recouvrement) Environnemental : surcoût, charge des
machine et du réseau, MTBF ….
Axes
ACI DataGraal – 10/01/03 30
Tâche 7 : Approche multi-agent
LIP6 : Plate-forme DARX : http://www-src.lip6.fr/darx Fiabilité des agents, réplication Dynamicité
IRISA/LIP6 Service de partage de mémoire sur DARX
Axes
ACI DataGraal – 10/01/03 31
Tâche 7 : Approche multi-agent (2)
Un agent est une entité physique ou virtuelle : capable d’agir sur elle-même et sur son environnement, capable de percevoir son environnement, mais ne dispose
que d’une représentation partielle de cet environnement (et parfois aucune),
peut communiquer avec d’autres agents, poursuit un objectif individuel, qui possède des compétences et peut offrir des services, …
Propriétés d’un agent = autonomie, proactivité, adaptabilité, sociabilité, mobilité, …
Agent une alternative pour le large échelle ?
Axes
ACI DataGraal – 10/01/03 32
Support d’expérimentation
Plate-forme GDX : GriD eXplorerF. Cappello, O. Richard , P. Sens 1000 noeudsObjectif : Emulation d’internet
Nombre de sites, Éloignement
Différent type d’expériences : réseau, calcul, système
Intégré dans projet GRID 5000
Axes
ACI DataGraal – 10/01/03 33
GDX
INRIACEA
IMAGLRI
VTHD
Axes
ACI DataGraal – 10/01/03 34
Organisation
Réunions régulières Plénières (2 par an) Par tâche (~5 par an)
Site Web : datagraal.lip6.fr Suivi des réunions (transparents) Lien vers les projets du domaine
Mailing list : [email protected]
Organisation
ACI DataGraal – 10/01/03 35
Déroulement
Première réunion plénière (15/11/02 - IMAG) Présentation des travaux des différentes équipes Transparents disponibles sur le site
Réunion d’avancement (4/12/02 – Aussois) Ebauche des groupes de travail
Séminaire de deux jours (30-31/01/03) séminaire technique définition de topiques de travail + responsables
Rencontres trimestrielles une rencontre = un topique
Organisation
ACI DataGraal – 10/01/03 36
Déroulement
Fin de l ’action
Ecriture d ’un document commun
Ecole DGRID sur la gestion de données à grande échelle
Organisation
Bretagne (Port aux Rocs)