Alessandro de Luna Almeida Encadré par : Jean-Pierre Briot Jacques Malenfant Samir Aknine

Alessandro de Luna AlmeidaAlessandro de Luna Almeida

Encadré par :Encadré par :Jean-Pierre BriotJean-Pierre Briot

Jacques MalenfantJacques MalenfantSamir AknineSamir Aknine

Une approche de réplicationUne approche de réplicationfondée sur les plansfondée sur les plans

pour la tolérance aux fautespour la tolérance aux fautesdes systèmes multi-agentsdes systèmes multi-agents

Smart- s

02/06/200602/06/2006 Une approche de réplication fondée sur les plans...Une approche de réplication fondée sur les plans... 22

Motivation: objectifMotivation: objectif

• Qu’est-ce que la fiabilité?Qu’est-ce que la fiabilité?– « Probabilité de fonctionnement sans « Probabilité de fonctionnement sans

défaillance d’un dispositif dans des défaillance d’un dispositif dans des conditions spécifiées et pendant une conditions spécifiées et pendant une période de temps déterminée » période de temps déterminée » (Larousse)(Larousse)

• Objectif: minimiser l’impact de pannes Objectif: minimiser l’impact de pannes sur un système multi-agentsur un système multi-agent


Motivation: défiMotivation: défi

• Exemples de pannes:Exemples de pannes:– Bugs de programmationBugs de programmation– Panne de processeurPanne de processeur– Panne de communicationPanne de communication

• Effets:Effets:– Comportements non attendusComportements non attendus– Messages perdusMessages perdus– Retards de transmission ou traitementRetards de transmission ou traitement


Motivation: domaines Motivation: domaines d’applicationd’application

• Gestion de criseGestion de crise

• Contrôle aérienContrôle aérien

• Automatisation des Automatisation des processusprocessus

• Surveillance médicale en Surveillance médicale en soins intensifssoins intensifs

• ……


ÉÉtat de l’arttat de l’art

• Brazier 02, Fedoruk 02Brazier 02, Fedoruk 02– Réplication statique Réplication statique – Criticité des composants peut varierCriticité des composants peut varier

• Cuckuern 98, Kalbarczyk 99, Favarim Cuckuern 98, Kalbarczyk 99, Favarim 0303– Réplication dynamiqueRéplication dynamique– Adaptation manuelle et à la charge du Adaptation manuelle et à la charge du

concepteur concepteur


ÉÉtat de l’art: tat de l’art: Guessoum 04 Guessoum 04

• Réplication dynamique et Réplication dynamique et automatiqueautomatique

• Comment déterminer la criticité?Comment déterminer la criticité?– Système: CPUSystème: CPU– Sémantique:Sémantique:

•Rôles et interdépendance entre agentsRôles et interdépendance entre agents– Les messages échangées ne suffisent pas pour Les messages échangées ne suffisent pas pour

déterminer l’importance des agents avec déterminer l’importance des agents avec précision précision

– Estimation instantanée seulement Estimation instantanée seulement

02/06/200602/06/2006 77

Notre approcheNotre approche

• Réplication Réplication prédictiveprédictive, dynamique et , dynamique et automatiqueautomatique– Hypothèse: architecture d'agent avec plansHypothèse: architecture d'agent avec plans– Utiliser les plans pour estimer un modèle de criticité Utiliser les plans pour estimer un modèle de criticité

dans le futurdans le futur

A F

B C

D

C G H

E I J

Agent1 Agent2

AND

OR

AND

AND

K L

OR


Criticité d’un agentCriticité d’un agent

• IdéeIdée– Plus ses actions sont critiques, plus Plus ses actions sont critiques, plus

l’agent est critique l’agent est critique

• Criticité des actions du plan de Criticité des actions du plan de

l’agentl’agent– Criticité relative de la racine du graphe Criticité relative de la racine du graphe

de son plan courantde son plan courant


Criticité absolue d’une Criticité absolue d’une actionaction

• Définie a priori par le concepteur:Définie a priori par le concepteur:– Nombre d’agents pouvant l’effectuerNombre d’agents pouvant l’effectuer– Ressources nécessaires (temps, Ressources nécessaires (temps,

mémoire, …)mémoire, …)– Informations sémantiques du domaine Informations sémantiques du domaine

d’applicationd’application


Criticité relative d’une Criticité relative d’une actionaction

• Importance de l’action dans le systèmeImportance de l’action dans le système

• Criticité absolue + utilité de ses résultatsCriticité absolue + utilité de ses résultats


ExempleExemple

A

B C

D E

AND

OR

CA = 5 CA = 1CR = CA = 5 CR = CA = 1

CA = 4

CR = CA + MOY(CR(D),CR(E)) = 7CA = 8

CR = CA = 8

CA = 4

CR = CA + SUM(CR(B),CR(C)) = 16


Mécanisme de RéplicationMécanisme de Réplication

• Minimiser les probabilités de panne Minimiser les probabilités de panne des agents les plus critiquesdes agents les plus critiques– Fiabilité des réplicas (pFiabilité des réplicas (pii))

– Criticité des agents (cCriticité des agents (cii))

Agenti ensemble des réplicas Ri = {r1, r2, … , rni}P(Panne (Agenti) = 1) = (1-p1) × (1-p2) × … × (1-pni) p1 + p2 + … + pni ≤ ti

ti = ci × P / C P = Somme des fiabilités de tous les réplicas C = Somme des criticités de tous les agents


ImplémentationImplémentation

• DARX DARX (Dynamic Agent Replication eXtension)(Dynamic Agent Replication eXtension)

– Plateforme de tolérance aux fautesPlateforme de tolérance aux fautes– Grande échelleGrande échelle– DynamismeDynamisme– Environnement hétérogène (JAVA)Environnement hétérogène (JAVA)– Modèle de faute: crashModèle de faute: crash


DARX ArchitectureDARX Architecture

Agent

Nommage &Localisation

DARX

MAS

Réplication

Détection de Défaillances

Adaptateur

Contrôle de réplication

adaptatif


ExpérimentationsExpérimentations

• Chaque agent doit exécuter une Chaque agent doit exécuter une séquence de 5 plansséquence de 5 plans

• Chaque plan avec 10 actionsChaque plan avec 10 actions

• La durée moyenne des actions égale La durée moyenne des actions égale à 2 secondesà 2 secondes

• Chaque expérimentation exécutée Chaque expérimentation exécutée 10 fois10 fois


Résultats – overheadRésultats – overhead

0

200000

400000

600000

800000

1000000

1200000

1 2 3 4 5 6 7 8 9 10

Number of agents

CP

U t

ime

(ms)

With replication Without replication


Résultats – qualitéRésultats – qualité

0

5000

10000

15000

20000

25000

30000

1 2 3 4 5 6 7 8 9 10

Number of agents

Qu

alit

y of

th

e st

rate

gy

Random Plan-based Failure-free


Conclusions et perspectives Conclusions et perspectives

• Proposition d’une nouvelle approche de Proposition d’une nouvelle approche de réplication fondée sur les plansréplication fondée sur les plans

• Les résultats préliminaires sont prometteurs, Les résultats préliminaires sont prometteurs, mais…mais…– Définir formellement le problème de la tolérance aux Définir formellement le problème de la tolérance aux

pannes dans les systèmes multi-agentspannes dans les systèmes multi-agents– Modeler la criticité comme une courbe au lieu d'une Modeler la criticité comme une courbe au lieu d'une

valeur simplevaleur simple– Raffiner le mécanisme de réplication en considérant les Raffiner le mécanisme de réplication en considérant les

actions jointes des agents (stratégie de réplication par actions jointes des agents (stratégie de réplication par groupe d'agents)groupe d'agents)

– Expérimentations grande échelle + comparaison avec Expérimentations grande échelle + comparaison avec d’autres techniquesd’autres techniques


PublicationsPublications

• J.-P. Briot, Z. Guessoum, S. Aknine, A. L. Almeida, N. Faci, J. Malenfant, J.-P. Briot, Z. Guessoum, S. Aknine, A. L. Almeida, N. Faci, J. Malenfant, O. Marin, P. Sens. Engineering Control Strategies for Replication-O. Marin, P. Sens. Engineering Control Strategies for Replication-Based Fault-Tolerant Multi-Agent Systems. In: International Workshop Based Fault-Tolerant Multi-Agent Systems. In: International Workshop on Engineering of Fault Tolerant Systems, Luxembourg, June 2006.on Engineering of Fault Tolerant Systems, Luxembourg, June 2006.

• J.-P. Briot, Z. Guessoum, S. Aknine, A. L. Almeida, N. Faci, M. Gatti, C. J.-P. Briot, Z. Guessoum, S. Aknine, A. L. Almeida, N. Faci, M. Gatti, C. Lucena, J. Malenfant, O. Marin, P. Sens. Experience and Prospects for Lucena, J. Malenfant, O. Marin, P. Sens. Experience and Prospects for Various Control Strategies for Self-Replicating Multi-Agent Systems. Various Control Strategies for Self-Replicating Multi-Agent Systems. In: Workshop on Software Engineering for Adaptive and Self-Managing In: Workshop on Software Engineering for Adaptive and Self-Managing Systems, ICSE 2006, Shangai, China, May 2006.Systems, ICSE 2006, Shangai, China, May 2006.

• A. L. Almeida, S. Aknine, J.-P. Briot, J. Malenfant. Plan-based A. L. Almeida, S. Aknine, J.-P. Briot, J. Malenfant. Plan-based Replication for Fault-tolerant Multi-Agent Systems. In: Proceedings of Replication for Fault-tolerant Multi-Agent Systems. In: Proceedings of the 11th IEEE Workshop on Dependable Parallel, Distributed and the 11th IEEE Workshop on Dependable Parallel, Distributed and Network-Centric Systems (DPDNS’06), 20th International Parallel and Network-Centric Systems (DPDNS’06), 20th International Parallel and Distributed Processing Symposium (IPDPS’2006), Rhodes Island, Distributed Processing Symposium (IPDPS’2006), Rhodes Island, Greece, April 2006.Greece, April 2006.

• A. L. Almeida, S. Aknine, J.-P. Briot, J. Malenfant. Une approche de A. L. Almeida, S. Aknine, J.-P. Briot, J. Malenfant. Une approche de réplication fondée sur les plans pour la tolérance aux fautes des réplication fondée sur les plans pour la tolérance aux fautes des systèmes multi-agents. In: Journées Francophones sur les Systèmes systèmes multi-agents. In: Journées Francophones sur les Systèmes Multi-Agents (JFSMA), Calais, France, November 2005.Multi-Agents (JFSMA), Calais, France, November 2005.

Alessandro de Luna AlmeidaAlessandro de Luna Almeida

Samir AknineSamir Aknine

Jean-Pierre BriotJean-Pierre Briot

Jacques MalenfantJacques Malenfant

Une approche de réplicationUne approche de réplicationfondée sur les plansfondée sur les plans

pour la tolérance aux fautespour la tolérance aux fautesdes systèmes multi-agentsdes systèmes multi-agents

Smart- s

Alessandro de Luna Almeida Encadré par : Jean-Pierre Briot Jacques Malenfant Samir Aknine

Documents

Transcript of Alessandro de Luna Almeida Encadré par : Jean-Pierre Briot Jacques Malenfant Samir Aknine