Département d'Informatique BACHIR BOUIADJRA Rochdi · L'optimisation par les essaims de particules...
Transcript of Département d'Informatique BACHIR BOUIADJRA Rochdi · L'optimisation par les essaims de particules...
Département d’Informatique
THESE
Présentée par :
BACHIR BOUIADJRA Rochdi
Pour obtenir le diplôme de
DOCTORAT EN SCIENCESSpécialité :Informatique et Automatique
Thème
Commande robuste des systèmesnon linéaires
Devant les membres du jury :
Président :Rapporteur :Examinateur :Examinateur :Examinateur :Examinateur :
Pr. H. HAFFAFPr. M.F KHELFIPr. Y. LEBBAHPr. Z. AHMED FOITIHPr. A. TAHOURDr. M. SEDRAOUI
Professeur, Université d’Oran 1 Ahmed Ben BellaProfesseur, Université d’Oran 1 Ahmed Ben BellaProfesseur, Université d’Oran 1 Ahmed Ben BellaProfesseur, USTO-MBProfesseur, Université de MascaraMaître de Conférences A, Université de Guelma
–2015–
1
Á ma très chére épouse AminaÁ mes petites filles
Ayat ErrahmaneIbtissem
Meriem RitadjÁ toute ma famille
Á tous ce qui comptent pour moi
Remerciements
Bénit Soit DIEU le tout puissant, le compassion et le miséricordieux qui nous a donné son aide et sa force.
Je suis parvenu au terme de ce modeste travail grâce à sa générosité non pas à mes efforts.
Il y a un hadith qui dit "Qui ne remercie pas les gens ne remercie pas DIEU".
C’est sous la lumière de ce hadith que je tiens à remercier très chaleureusement mon directeur de thèse,
Mohamed Fayçal Khelfi, Professeur à l’Université d’Oran 1, pour avoir dirigé mes travaux et m’avoir fait
découvrir le monde de la recherche. Merci pour vos échanges scientifiques, votre disponibilité et votre rigueur.
Merci pour votre soutien scientifique et humain. Je voudrais aussi vous remercier d’avoir cru en mes capacités
et de m’avoir fourni d’excellentes conseils tout au long de ce travail.
Mes remerciement vont aussi, à Monsieur Hafid HAFFAF, Professeur à l’Université d’Oran 1 et directeur
du laboratoire RIIR pour m’avoir fait l’honneur en acceptant de présider le jury. Merci pour votre disponibilité.
J’exprime également mes remerciements à Monsieur Yahia Lebbah Professeur à l’Université d’Oran 1 d’avoir
accepté de juger mon modeste travail. Je remercie également Monsieur Zoubir Fouatih Professeur à l’université
des sciences et technologies d’Oran - Mohamed Boudiaf pour avoir accepté d’examiner mon travail et de faire
partie de mon jury de thèse.
Je remercie profondément le Professeur Ahmed Tahour de l’université de Mascara pour sa disponibilité et
pour avoir accepté de juger mon travail.
Toute ma gratitude va à Monsieur Moussa Sedraoui Maitre de conférence à l’université de Guelma pour
m’avoir fait l’honneur en acceptant de se déplacer de loin et d’accepter d’être membre de jury de ma thèse. Je
suis vraiment touché par ce geste noble.
Mes vifs remerciements sont adressé également au Professeur Béat Hirsbrunner et au Docteur Michele
Courant du département informatique de l’université de Fribourg-Suisse. Ils m’ont accueillis chaleureuse-
ment dans leur groupe de recherche Pervasive and Artificial Intelligence (PAI). Qu’ils trouvent ici, toute ma
reconnaissance.
J’ai tant partagé de bonnes souvenirs avec mes amis et collèges de l’université de Mascara. Je tiens tous à
les remercier, particulièrement, Sahnoun, Salem, Debbat, Belgharbi, Aid, Driss et bien d’autres.
Toute ma gratitude et mes chaleureux remerciements vont à ma famille et ma belle famille. Par des simples
mots, quoi qu’ils sortent de mon cœur, je ne peut remercie assez, ma très chère mère. Qu’elle trouve ici tout
mon amour. Je remercie également mes frères Mustapha, Sidahmed, Menaouar, ma sœur Fatiha, mes oncles
Mohamed et Bachir ainsi que leurs familles, mes tentes. Je remercie plus particulièrement et sincèrement ma
grand-mère. Dans la crainte d’oublier quelqu’un, je remercie tous ce qui comptent pour moi.
Enfin, je ne remercierai sans doute jamais assez ma très chère épouse, qui a su faire preuve d’une grande
patience, de compréhension et m’a accompagné et soutenu de façon permanente dans les moments difficiles tout
au long de ces années.
3
Résumé
Ce travail de thèse s'intéresse à appliquer des algorithmes numériques pour la résolu-
tion du problème de la commande H∞ non linéaire par retour d'état et de sorties à temps
continu et discret. Les méthodes en question se basent en premier lieu sur la méthode des
résidus pondérés.
Nous avons opté pour la méthode de Galerkin et la celle des Réseaux de Neurones-
Moindres Carrés. Ces deux derniers sont hybridées avec l'algorithme des approximations
successives pour faciliter la résolution des équations Hamilton-Jaccobi-Isaacs résultantes.
Nous avons étudié plusieurs approches de la commande H∞ non linéaires, à savoir, la
commande continue/discrète par retour d'état avec et sans contraintes sur les entrées, la
commande continue par retour d'état à horizon ni et la commande par retour de sorties
impliquant un observateur non linéaire. Bien que l'application de cette hybridation ait
donnée de bons résultats les lois de commandes H∞ non linéaires sont hors ligne et donc
diciles à implémenter en temps réel.
Le deuxième volet de cette thèse s'intéresse à un algorithme d'apprentissage en ligne
pour la résolution des équations HJI. Il s'agit de l'apprentissage par renforcement basé sur
le concept d'Acteur-Critique. Contrairement au méthodes de Galerkin et de RNA-MMC,
la commande H∞ à appliquer et la perturbation à rejeter sont mises à jour de manière
simultanée, qualiant ainsi l'algorithme d'apprentissage par renforcement de simultané.
L'optimisation par les essaims de particules (PSO) est utilisée en premier lieu, pour
la résolution approximative des équations HJI, ensuite pour l'ajustement des gains d'un
contrôleur H∞-PID non linéaire synthétisé analytiquement pour une classe de systèmes
non linéaires (systèmes lagrangiens).
Les méthodes utilisées ont été appliqués pour la commande d'une variété de systèmes
non linéaires dynamiques (systèmes purement mathématiques, Robots, · · · ). Les résultatsde simulation obtenus ont montré des meilleurs performances en matière de stabilité et
atténuation des eets de perturbations et incertitudes paramétriques.
Mots Clés.
Commande H∞ non linéaire, équation HJI, Méthode de Galerkin, Réseaux de neu-
rones, Apprentissage par renforcement, Optimisation basée sur les essaims de particules
i
Abstract
In this research, numerical methods for the design of H∞ nonlinear state and output
feedback controllers for continuous and discret time systems are proposed. These methods
are based primarily on the method of weighted residuals.
The Galerkin and Neural Networks-based Least Squares Method are rst combined
with successive aproximation algorithm to solve the Hamilton-Jaccobi-Isaacs resulting
equations. We have studied severalH∞ nonlinear approachs, i.e, the continuous and discret
state feedback control with and without constraints on inputs, the xed time H∞ control
and output feedback control involving a nonlinear observer.
Although the good results obtained with these methods, they have a major drawback.
They are o line and thus dicult to implement in real time.
The second part of this thesis focuses on an online learning algorithm for solving
HJI equations . This is, the reinforcement learning algorithm based on the actor-critic
structure for the implementation. Unlike the methods of Galerkin and RNA-MMC, the
approach try to update the H∞ control law and the worst disturbance simultaneously.
Particles Swarm Optimization (PSO) is used primarily for approximatly solving HJI
equation resulting from the H∞ state feedback control, and for adjusting H∞ nonlinear-
PID gains for a class of nonlinear systems namely Lagrangian ones.
The simulation results show the eectiveness of these approachs to resolve the stabi-
lizing and disturbance attenuation problems.
Keywords.
Nonlinear H∞ control, HJI equation, Galerkin method, Neural Network based Least
squares method, reinforcement learning, Particle Swarm Optimization (PSO)
ii
Table des matières
Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
Table des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
Table des gures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii
Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii
Index des notations 1
Abréviations 2
Introduction générale 3
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Contexte et problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Objectifs et Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 Résolution des équations HJI par la MWR . . . . . . . . . . . . . . 5
3.2 Résolution des équations HJI par apprentissage en ligne . . . . . . 5
3.3 Résolution des équations HJI par une méta heuristique d'optimisation 6
4 Organisation du document . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1 Commande H∞ non linéaire 9
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Stabilité des systèmes non linéaires . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Premières dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Fonctions (semi) dénies positives . . . . . . . . . . . . . . . . . . . 12
2.3 Rappels de quelques concepts de stabilité . . . . . . . . . . . . . . . 13
2.4 Théorie de Lyapounov . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Stabilité asymptotique des systèmes connectés en cascade . . . . . . 15
2.6 Notions de passivité et dissipativité . . . . . . . . . . . . . . . . . . 16
3 Commande H∞ des systèmes non linéaires générales . . . . . . . . . . . . . 17
3.1 Formulation mathématique du problème . . . . . . . . . . . . . . . 17
3.2 Objectifs de la commande . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 Hypothèses simplicatrices . . . . . . . . . . . . . . . . . . . . . . . 18
iii
Table des matières
3.4 Commande par retour d'état . . . . . . . . . . . . . . . . . . . . . . 19
3.5 Commande par retour de sortie . . . . . . . . . . . . . . . . . . . . 21
3.5.1 Condition nécessaire pour le retour de sortie . . . . . . . 21
3.5.2 Loi de commande par retour de sortie . . . . . . . . . . . 24
4 Commande H∞ des systèmes non linéaires anes . . . . . . . . . . . . . . 25
4.1 Commande par retour d'état . . . . . . . . . . . . . . . . . . . . . . 26
4.1.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.2 Cas Particulier : Systèmes linéaires anes . . . . . . . . . 30
4.2 Commande par retour d'état avec contraintes sur la commande . . 32
5 Commande H∞ par retour d'état des systèmes non linéaire discrets . . . . 36
5.1 Commande H∞ discrète et jeu diérentiel non coopératif . . . . . . 37
6 Commande H∞ non linéaire par retour de sortie . . . . . . . . . . . . . . . 41
6.1 Formulation mathématique du probléme . . . . . . . . . . . . . . . 41
6.2 Loi de commande par retour de sortie . . . . . . . . . . . . . . . . 43
6.2.1 Calcul de la matrice gain G . . . . . . . . . . . . . . . . . 46
6.3 Cas Particulier : Systèmes linéaires anes . . . . . . . . . . . . . . 47
7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2 Solutions approximatives des équations de HJI : Méthode de Galerkin 49
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2 Méthode des Approximations successives . . . . . . . . . . . . . . . . . . . 50
3 Méthode des Résidus Pondérés . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1 Approximation polynomiale . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Formulation intégrale normale . . . . . . . . . . . . . . . . . . . . . 54
3.3 Les méthodes des résidus pondérés . . . . . . . . . . . . . . . . . . 55
4 Méthode de Galerkin appliquée à la synthèse de la commande H∞ par
retour d'état -Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1 Algorithme de Galerkin . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Les méthodes d'implémentations . . . . . . . . . . . . . . . . . . . 60
4.2.1 Réduction de N . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.2 Méthode basée sur la discrétisation des intégrales . . . . . 62
4.2.3 La Méthode de Monté-Carlo . . . . . . . . . . . . . . . . . 63
4.2.4 Méthode basé sur le calcul symbolique. . . . . . . . . . . . 64
4.3 Exemples Numériques . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.1 Système linéaire MIMO 3-D . . . . . . . . . . . . . . . . . 67
4.3.2 Système non linéaire SISO 2-D . . . . . . . . . . . . . . . 70
4.3.3 Système de suspension magnétique . . . . . . . . . . . . . 74
4.3.4 Robot Planaire à deux degrés de liberté . . . . . . . . . . 79
4.3.5 Oscillateur translationnel avec actionneur rotatif (TORA) 83
iv
Table des matières
4.4 Méthode de Galerkin : Cas de la commande H∞ contrainte par
retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4.1 Application au système TORA . . . . . . . . . . . . . . . 87
5 Méthode de Galerkin appliquée à la synthèse de la commande H∞ à temps
nal xe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.1 Algorithme de Galerkin . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2 Application à la validation d'une commande H∞ inverse . . . . . . 93
5.3 Application au système TORA . . . . . . . . . . . . . . . . . . . . 95
6 Méthode de Galerkin appliquée à la synthèse de la commande H∞ par
retour d'état -Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.1 Méthode des approximations successives . . . . . . . . . . . . . . . 97
6.2 Algorithme de Galerkin . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.3 Exemples Numériques . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.3.1 Système non linéaire discret MIMO . . . . . . . . . . . . . 101
6.3.2 Oscillateur translationnel avec actionneur rotatif (TORA)
discrétisé . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7 Méthode de Galerkin appliquée à résolutions des équations de HJI pour la
commande par retour de sortie . . . . . . . . . . . . . . . . . . . . . . . . 107
7.1 Algorithme des approximations successives . . . . . . . . . . . . . . 107
7.2 Algorithme de Galerkin . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.2.1 Calcul de la matrice de gain G . . . . . . . . . . . . . . . 109
7.3 Commande H∞ par retour de sortie du système TORA . . . . . . . 110
8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3 Solutions approximatives des équations de HJI : Méthode des réseaux
de neurones 115
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
2 Les réseaux de neurones comme approximateurs universels . . . . . . . . . 116
3 Résolution des équations de HJI : Cas de la Commande H∞ continue par
retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.1 Méthode des approximations successives . . . . . . . . . . . . . . . 117
3.2 Méthode des Résidus pondérés basée sur les moindres carrés . . . . 118
3.3 Méthode d'implémentation . . . . . . . . . . . . . . . . . . . . . . . 120
3.4 Application à la commande H∞ par retour d'état du système TORA122
4 Résolution des équations de HJI Cas de la Commande H∞ discrète par
retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.1 Méthode d'implémentation . . . . . . . . . . . . . . . . . . . . . . . 127
4.2 Application à la commande H∞ discrète par retour d'état du sys-
tème TORA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
v
Table des matières
5 Résolution des équations de HJI Cas de la Commande H∞ par retour de
sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.1 Algorithme des Moindres Carrés . . . . . . . . . . . . . . . . . . . . 132
5.2 Méthode d'implémentation . . . . . . . . . . . . . . . . . . . . . . . 133
5.2.1 Calcul de la matrice de gain G . . . . . . . . . . . . . . . 133
5.3 Commande H∞ par retour de sortie du système TORA . . . . . . . 133
6 Étude comparative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
4 Solutions approximatives des équations de HJI : Méthode d'apprentis-
sage en-ligne 147
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
2 Apprentissage simultané en ligne : Cas de la commande H∞ non linéaire
par retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
2.1 Approche de résolution en-ligne (1er algorithme) . . . . . . . . . . . 149
2.2 Étude de la stabilité de l'algorithme en-ligne . . . . . . . . . . . . . 151
2.3 Architecture Acteur-Critique et RN pour la résolution en-ligne des
HJI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
2.4 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3 Exemples illustratifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.1 Système Linéaire 3D . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.2 Système non linéaire 2D . . . . . . . . . . . . . . . . . . . . . . . . 157
3.3 Système TORA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5 Application d'une méthode d'optimisation à la synthèse de la commande
H∞ non linéaire 163
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
2 Optimisation et méthodes méta-heuristiques . . . . . . . . . . . . . . . . . 164
2.1 Dénition de l'optimisation . . . . . . . . . . . . . . . . . . . . . . 164
2.2 Problème d'optimisation . . . . . . . . . . . . . . . . . . . . . . . . 164
2.3 Méthodes classiques v.s. Méthodes métaheuristiques . . . . . . . . . 165
2.3.1 Caractéristiques des métaheuristiques . . . . . . . . . . . . 166
2.3.2 Classication des métaheuristiques . . . . . . . . . . . . . 167
2.3.2.1 Méthodes de trajectoires . . . . . . . . . . . . . . 167
2.3.2.2 Méthodes basées sur une population . . . . . . . 167
3 Optimisation par Essaim de Particules . . . . . . . . . . . . . . . . . . . . 167
3.1 Principe de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
3.2 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
3.2.1 Déroulement de la PSO . . . . . . . . . . . . . . . . . . . 168
vi
Bibliographie
3.3 Les variantes de la PSO . . . . . . . . . . . . . . . . . . . . . . . . 169
3.4 PSO avec contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . 171
3.4.1 Algorithme ALPSO . . . . . . . . . . . . . . . . . . . . . 172
3.4.2 Méthode de la fonction ctive . . . . . . . . . . . . . . . . 173
4 Résolution de l'équation HJI par PSO . . . . . . . . . . . . . . . . . . . . . 174
4.1 Approximation par réseau de neurones . . . . . . . . . . . . . . . . 174
4.2 Fonctions objectives . . . . . . . . . . . . . . . . . . . . . . . . . . 176
4.2.1 Fonction objevtive basée sur l'Hamiltonien . . . . . . . . . 176
4.2.2 Fonction objective basée sur le L2-gain . . . . . . . . . . . 177
4.3 Résultats de simulation . . . . . . . . . . . . . . . . . . . . . . . . . 177
4.3.1 Système non linéaire 2D . . . . . . . . . . . . . . . . . . . 178
4.3.2 Système TORA . . . . . . . . . . . . . . . . . . . . . . . . 179
5 Synthèse de la Commande H∞ non linéaire par PSO . . . . . . . . . . . . 181
5.1 Commande H∞ des systèmes variants dans le temps . . . . . . . . . 181
5.2 Application de la PSO à la commande des systèmes lagrangiens . . 183
5.2.1 Commande H∞ non linéaire des systèmes lagrangiens . . . 183
5.2.2 Méthode d'ajustement par PSO . . . . . . . . . . . . . . . 186
5.3 Application à la commande d'un robot SCARA à 4 d.d.l. . . . . . . 187
5.3.1 Dynamique du SCARA à 4 d.d.l . . . . . . . . . . . . . . 187
5.3.2 Paramètres du PSO . . . . . . . . . . . . . . . . . . . . . 189
5.3.3 Résultats et discussions . . . . . . . . . . . . . . . . . . . 190
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
Conclusion générale 195
Bibliographie 198
A Démonstration des théorèmes 205
1 Equation (1.28) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
2 Equation (1.31) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
3 Démonstration du théorème 3.2 . . . . . . . . . . . . . . . . . . . . . . . . 206
vii
Table des gures
1 Relations entre les chapitres . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1 Systèmes connectés en cascade . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Problème standard H∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Problème standard H∞ avec retour de sortie . . . . . . . . . . . . . . . . . 22
1.4 Évolution de l'état x(t) et de la commande u(t) (Exemple 4.1.1) . . . . . . 30
1.5 Commande saturée : Sat+1−1(u) et tanh(u) . . . . . . . . . . . . . . . . . . . 33
1.6 Coût quadratique et non quadratique . . . . . . . . . . . . . . . . . . . . . 36
2.1 Approximations successives de la solution de l'équation HJI . . . . . . . . . 52
2.2 Algorithme de la méthode de Galerkin pour la commande H∞ par retour
d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.3 Maillage dans <3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4 Méthode de discrétisation déterministe n = 4 . . . . . . . . . . . . . . . . . 65
2.5 Méthode stochastique de Monté-Carlo n = 4 . . . . . . . . . . . . . . . . . 65
2.6 code Matlab c© pour le calcul symbolique . . . . . . . . . . . . . . . . . . . 66
2.7 Norme du vecteur des coecients (MIMO-3D) . . . . . . . . . . . . . . . . 68
2.8 Évolution des états et des commandes H∞ (MIMO-3D) . . . . . . . . . . . 69
2.9 Évolution de l'atténuation r et du résidus R en présence d'une perturbation
(MIMO-3D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.10 Principe de la commande par linéarisaation entrés-sortie . . . . . . . . . . 71
2.11 Norme du vecteur des coecients (SISO-2D) . . . . . . . . . . . . . . . . . 73
2.12 Évolution des états pour N = 0, 3, 8, 15 (SISO-2D) . . . . . . . . . . . . . . 73
2.13 Évolution de la commande et atténuation r pour N = 0, 3, 8, 15 (SISO-2D) 74
2.14 Système de suspension magnétique . . . . . . . . . . . . . . . . . . . . . . 74
2.15 Norme du vecteur des coecients (Suspension magnétique) . . . . . . . . . 77
2.16 Position et commande pour une trajectoire variable (Suspension magnétique) 77
2.17 Position et commande avec perturbation (Suspension magnétique) . . . . . 78
2.18 Évolution de l'atténuation r (Suspension magnétique) . . . . . . . . . . . . 78
2.19 Robot Plainaire à 2 ddl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.20 Norme du vecteur des coecients (Robot planaire) . . . . . . . . . . . . . 81
viii
Table des gures
2.21 Convergence asymptotique des états vers le point d'équilibre (Robot planaire) 81
2.22 Évolution des commandes τ et des perturbations τd (Robot planaire) . . . 82
2.23 Évolution de l'atténuation r (Robot planaire) . . . . . . . . . . . . . . . . 82
2.24 Oscillateur translationnel avec actionneur rotatif (TORA) . . . . . . . . . 83
2.25 Norme du vecteur des coecients (TORA) . . . . . . . . . . . . . . . . . . 85
2.26 Convergence asymptotique vers l'état d'équilibre x = 0 (TORA) . . . . . . 85
2.27 Évolution de la commande u, de la perturbation ω et l'atténuation r (TORA) 86
2.28 Algorithme de la méthode de Galerkin pour la commande H∞ contrainte
par retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.29 Norme du vecteur des coecients- Cas de la commande contrainte (TORA) 88
2.30 Convergence asymptotique vers l'état d'équilibre x = 0- Cas de la com-
mande contrainte (TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.31 Évolution de la commande u, de la perturbation ω et l'atténuation r- Cas
de la commande contrainte (TORA) . . . . . . . . . . . . . . . . . . . . . 89
2.32 Algorithme de Galerkin pour la commande H∞ à temps nal xe . . . . . 92
2.33 Poids ci : Commande H∞ à temps nal xe . . . . . . . . . . . . . . . . . 94
2.34 Évolution des états x1, x2 et des commandes u1, u2 : Commande H∞ à
temps nal xe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
2.35 Norme du vecteur des coecients (TORA)- Cas de la commande à temps
nal xe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
2.36 Convergence asymptotique vers l'état d'équilibre x = 0 (TORA)- Cas de
la commande à temps nal xe . . . . . . . . . . . . . . . . . . . . . . . . 96
2.37 Évolution de la commande u, de la perturbation ω et l'atténuation r (TORA)-
Cas de la commande à temps nal xe . . . . . . . . . . . . . . . . . . . . 96
2.38 Approximations successives de la solution de l'équation HJI - Cas discret . 99
2.39 Algorithme des Galerkin pour la commande H∞ par retour d'état discret . 101
2.40 Norme du vecteur des coecients ||c|| (Système discret 1) . . . . . . . . . 102
2.41 Évolution des états x1 et x2 pour u0 et uH∞ (Système discret 1) . . . . . . 103
2.42 Évolution des commandes u0 et uH∞ (Système discret 1) . . . . . . . . . . 103
2.43 Évolution de l'atténuation r pour u0 et uH∞ (Système discret 1) . . . . . . 104
2.44 Norme des coecients ||c|| (TORA Discret) . . . . . . . . . . . . . . . . . 105
2.45 Convergence asymptotique des états vers x = 0 (TORA discret) . . . . . . 106
2.46 Évolution de la commande u et de l'atténuation r (TORA discret) . . . . . 106
2.47 Approximations successives de la solution de l'équation HJI . . . . . . . . . 108
2.48 Algorithme de la méthode de Galerkin pour la commande H∞ par retour
de sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.49 Incréments des coecients c, ν - Commande pr retour de sortie du système
TORA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
ix
Table des gures
2.50 Convergence asymptotique des états et des estimées vers (x, ξ) = (0, 0)
(TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
2.51 Commande H∞ par retour de sortie et Atténuation r : G (2.127) . . . . . . 112
2.52 Commande H∞ par retour de sortie et Atténuation r : G (2.129) . . . . . . 113
3.1 Implémentation de la commande H∞ par un réseau de neurones non bouclée117
3.2 Algorithme des RNA pour la commande H∞ contrainte par retour d'état . 121
3.3 Algorithme des Moindres Carrées récursives . . . . . . . . . . . . . . . . . 122
3.4 Norme du vecteur des coecients (TORA) - Méthode des RNA . . . . . . 123
3.5 Convergence asymptotique des états vers x = 0 (TORA) - Méthode des
RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.6 Commande u et atténuation r (TORA) - Méthode des RNA . . . . . . . . 124
3.7 Algorithme des RNA pour la commande H∞ par retour d'état discret . . . 129
3.8 Norme du vecteur des coecients (TORA) Méthode des RNA- Cas discret 130
3.9 Convergence asymptotique des états vers x = 0 (TORA) Méthode des
RNA- Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.10 Commande u et atténuation r (TORA) Méthode des RNA- Cas discret . . 131
3.11 Algorithme des RNA pour la commande H∞ par retour de sortie . . . . . . 134
3.12 Erreurs sur c et ν- Cas de RNA (TORA avec N = M = 45) . . . . . . . . 134
3.13 Convergence asymptotique des états et des estimées vers (x, ξ) = (0, 0)-
Cas de RNA (TORA avec N = M = 45) . . . . . . . . . . . . . . . . . . . 137
3.14 Commande par retour de sortie et Atténuation -Cas de RNA (TORA avec
N = M = 45) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.15 Évolution de la Norme de G(x)- Cas de RNA (TORA) . . . . . . . . . . . 139
4.1 Algorithme d'apprentissage en-ligne simultané . . . . . . . . . . . . . . . . 150
4.2 Structure Acteur-Critique de l'algorithme d'apprentissage simultané on-line 153
4.3 Implémentation de l'algorithme d'apprentissage simultané on-line . . . . . 154
4.4 Algorithme MCR pour l'apprentissage simultané en-ligne . . . . . . . . . . 155
4.5 Évolution temporelle des coecients ci pour le système MIMO-3D . . . . . 156
4.6 Convergence asymptotique des états vers x = 0, Commande et perturbation
pour le système MIMO-3D . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
4.7 Évolution de r(t) pour le système MIMO-3D . . . . . . . . . . . . . . . . . 157
4.8 Évolution temporelle des coecients ci pour le système SISO-2D . . . . . . 158
4.9 Convergence asymptotique des états vers x = 0, Commande et perturbation
pour le système SISO-2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.10 Évolution de r(t) pour le système SISO-2D . . . . . . . . . . . . . . . . . . 159
4.11 norme de c en fonction de ∆t et N pour le système SISO-2D . . . . . . . . 159
4.12 Évolution temporelle de la norme de c pour le système TORA . . . . . . . 160
x
Table des gures
4.13 Convergence asymptotique des états vers x = 0 et commande pour le sys-
tème TORA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.14 Évolution de r(t) pour le système TORA . . . . . . . . . . . . . . . . . . . 161
5.1 Déplacement d'une particule dans PSO . . . . . . . . . . . . . . . . . . . . 170
5.2 Algorithme du PSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.3 Algorithme du ALPSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.4 Fonction objective quadratique . . . . . . . . . . . . . . . . . . . . . . . . 176
5.5 Évolution des états x pour l'algorithme PSO et les AG (système non linéaire
2-D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.6 Évolution de la commande et l'atténuation r pour l'algorithme PSO et les
AG (système non linéaire 2-D) . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.7 Évolution des états x1(ζ) et x2(θ) pour l'algorithme PSO et la méthode
NN-LS (système TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.8 Évolution de la commande et atténuation r pour l'algorithme PSO et la
méthode NN-LS (système TORA) . . . . . . . . . . . . . . . . . . . . . . . 182
5.9 Organigramme PSO pour H∞-PID NL . . . . . . . . . . . . . . . . . . . . 188
5.10 Robot SCARA à 4 d.d.l. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
5.11 Évolution de la meilleur et moyenne fonction objective . . . . . . . . . . . 191
5.12 Évolution des paramètres de la commande . . . . . . . . . . . . . . . . . . 192
5.13 trajectoires désirées et réelles du robot SCARA . . . . . . . . . . . . . . . 193
5.14 Évolution des couples du robot SCARA . . . . . . . . . . . . . . . . . . . . 194
xi
Liste des tableaux
2.1 Paramètres du système de suspension magnétique . . . . . . . . . . . . . . 75
3.1 Vecteur c - RNA Cas continu (TORA) . . . . . . . . . . . . . . . . . . . . 123
3.2 Vecteur c -RNA Cas discret (TORA) . . . . . . . . . . . . . . . . . . . . . 128
3.3 Vecteur c -RNA (TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.4 Vecteur ν -RNA (TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
3.5 Performances des deux méthodes (GALERKIN et RNA-MMC) Système
linéaire 3-D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
3.6 Performances des deux méthodes (GALERKIN et RNA-MMC) Système
non linéaire 2-D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.7 Performances des deux méthodes (GALERKIN et RNA-MMC) Système
non linéaire 2-D (suite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
3.8 Erreurs absolues entre Galerkin et RNA-MMC Système linéaire 3-D. . . . . 143
3.9 Performances des deux méthodes (GALERKIN et RNA-MMC) Système
TORA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
3.10 Performances des deux méthodes (GALERKIN et RNA-MMC) Système
TORA (suite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
3.11 Erreurs absolues entre Galerkin et RNA-MMC Système TORA. . . . . . . 146
4.1 Paramètres de l'algorithme en-ligne : MIMO-3D . . . . . . . . . . . . . . . 155
4.2 Paramètres de l'algorithme en-ligne : Exemple SISO-2D . . . . . . . . . . . 157
4.3 Paramètres de l'algorithme on-line pour le système TORA . . . . . . . . . 160
4.4 Vecteur c -RNA Cas discret (TORA) . . . . . . . . . . . . . . . . . . . . . 160
5.1 Paramètres de PSO et GA . . . . . . . . . . . . . . . . . . . . . . . . . . 178
5.2 Minimas des fonctions objectives J1(c) et J2(c) pour les algorithmes PSO
et GA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
5.3 Vecteur optimale des coecients obtenue par PSO et NN-LS . . . . . . . . 180
5.4 Performance du système TORA pour la PSO et NN-LS . . . . . . . . . . . 181
5.5 Paramètres du SCARA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
xii
Index des notations
< Ensemble des nombres réels
<+ Ensemble des nombres réels positifs
<n×m Ensemble des matrices réelles de dimension n×mx Vecteur d'état
xe Point d'équilibre
ξ Vecteur d'état observé
u Vecteur de commandes
y Vecteur de sorties
ω Vecteur de perturbation
z Vecteur des signaux à contrôlés
γ Niveau d'atténuation
V (x), W (x) Fonctions de Lyapounov ou Fonctions coûts
Vx, Wx Jacobiennes de V (x), W (x)
AT Transposée de A
G′ Dérivée de Fréchet
L Gâteaux dérivée
Φ, Ψ Vecteur des fonctions de base
w Fonction de pondération (MWR)
Ω Domaine de faisabilité de la commande
P Nombre de points dans un maillage
ou solution d'une équation de Riccati
δx Pas de discrétisation d'une intégrale
J Fonction objective
Jv Fonction ctive
λ Multiplicateur de Lagrange
w, c1, c2 facteur d'inertie, cognitif et sociale (PSO)
kmax Nombre maximale de générations (PSO)
ε Tolérance d'un algorithme
c, ν Vecteurs de coecients
‖x‖ =√xTx Norme euclidienne de x
1
Abréviations
AS Asymptotiquement Stable ou Approximations Successives
ULS Uniformément Asymptotiquement Stable
GAS Globalement Asymptotiquement Stable
UGAS Uniformément Globalement Asymptotiquement Stable
MWR Method of Weighted Residuals
RN(A) Réseau de Neurones (Articiel)
MMC Méthode des Moindres Carrées
ARE Algebric Riccati Equation
HJB Hamilton-Jaccobi-Bellman
GHJB Hamilton-Jaccobi-Bellman Généralisée
HJI Hamilton-Jaccobi-Isaac
GHJI Hamilton-Jaccobi-Isaac Généralisée
PSO Particle Swarm Optimisation
ALPSO Augmented Lagrangien Particle Swarm Optimisation
GA Genetic Algorithm
SCARA Selective Compliance Articulated Robot Arm
DDL Degré De Liberté
TORA Transational Oscillator with Rotational Actuator
SISO Single Input Single Output
MIMO Multiple Input Multiple Output
PID Proportionnelle, intégrale et dérivée
2
Introduction générale
1 Introduction
L'automatique est une science multidisciplinaire (elle englobe les sciences de l'ingénieur
et les mathématiques) qui étudie, dans une phase d'analyse, le comportement des systèmes
dynamiques (stabilité, performance, robustesse), et dans une autre phase de synthèse, la
conception de systèmes de commande dites correcteurs ou contrôleurs.
L'analyse et la synthèse des systèmes dynamiques commencent par une phase de mo-
délisation qui consiste à trouver, par le biais des lois de la physique et des outils ma-
thématiques, un modèle assez proche du processus physique considéré. Plusieurs types
de modèles s'obtiennent. Il s'agit de systèmes linéaires/non linéaires, SISO/MIMO, in-
variants/variants dans le temps, etc · · · . Ceci dépend du processus à modéliser et des
simplications faites.
Historiquement, la synthèse des systèmes de commande a connu trois phases princi-
pales de développement : Dans les années 30 à 60, les méthodes fréquentielles (classiques),
ont été développées. Ils associent outils mathématiques avec critères graphiques pour la
synthèse des correcteurs conventionnels (PID, avance/retard de phase,...). Entre les an-
nées 60 et 80, et grâce aux travaux de Kalman (Kalman and Bucy, 1960), les techniques
modernes ont vu le jour. Nous pouvons citer la commande optimale (LQR) qui est basée
sur la représentation d'état dans le domaine temporel. L'avantage majeur de ces méthodes
modernes est leurs capacité à traiter le cas multivariable. Cependant, la notion de robus-
tesse est quelque peu négligée. Elle est prise en compte qu'à partir du début des années
80. En eet, c'est en 1981 que nous assistons à la naissance de la commande H∞ optimale
linéaire, phare des méthodes robustes, dans les travaux de Zames (Zames, 1981). Elle est
ensuite développée, en particulier par Doyle, Glover, Khargonekar et Francis (Francis,
1987), (Doyle et al., 1989). Dans ces travaux, la robustesse est étudiée en utilisant la
notion de norme matricielle (norme-∞) qui remplace celle des gains dans les systèmes
multivariables.
En pratique, nous ne pouvons pas toujours modéliser de manière réaliste un processus
physique par un modèle linéaire. En eet, une représentation correcte implique souvent
une prise en charge de toutes les non linéarités existantes. Dans un tel cas, les correcteurs
linéaires ne permettent pas d'assurer la stabilité, ni d'avoir une certaine robustesse.
3
Introduction générale
L'extension de la commande H∞ au cas non linéaire a vue le jour grâce aux travaux
de Ball, Helton et Walker (Ball and Helton (1989), Ball et al. (1993)), Isidori, Asttol
et Kang (Isodori and Astol (1992), Isidori and Kang (1995)), et Van der Schaft (Van
der Shaft (1992), Van der Shaft (2000)). Van der shaft a utilisé la norme induite 2 (L2
gain) pour remplacer la norme H∞ dans le cas linéaire. Il a utilisé aussi les concepts de
passivité, de dissipativité et de jeux diérentiels non coopératifs dans la synthèse de la
commande H∞ non linéaire.
2 Contexte et problématique
Contrairement au cas linéaire, la résolution du problème H∞ non linéaire s'avère très
dicile, voir même, analytiquement impossible. Dans une telle situation, le problème se
ramène à la résolution des équations non linéaires à dérivées partielles dites équations de
Hamilton-Jaccobi-Isaac (HJI). Dans le cas linéaire, ces derniers se transforment en des
équations algébriques de Riccati (ARE) faciles à résoudre.
L'utilisation des approximations successives (AS) permettent de rendre l'équation HJI
sous une forme linéaire dites GHJI (HJI généralisée). La méthode AS permet de résoudre
de manière itérative l'équation GHJI. Elle a été, d'abord, initiée par Sadaris (Saridis and
Lee, 1979), ensuite appliquée dans le cadre de la commande optimale non linéaire (H2).
La méthode des résidus pondérés, abrégé en MWR (Method of Weighted Residuals),
est une méthode générale pour la résolution des équations intégro-diérentielles et/ou à
dérivées partielles (Finlayson and Scriven (1966), Finlayson (1972)). La solution inconnue
est étendue dans un ensemble de fonctions de bases, qui sont spéciées au préalable, mais
avec des constantes ou des fonctions ajustables.
La MWR est illustrée par son application dans la synthèse de la commande H∞ par
retour d'état en résolvant l'équation GHJI. La méthode générale de résolution propose une
solution approximative du problème. Les fonctions de pondérations utilisées constituent
la diversité de la méthode. Nous trouvons dans la MWR, la méthode de Galerkin et celle
des moindres carrés. Ces deux derniers sont, par excellence, les plus répondus et les plus
utilisés dans divers problèmes d'engineering.
L'hybridation entre les AS et la MWR a été appliquée dans le domaine des commandes
H2 et H∞ non linéaires.
3 Objectifs et Contributions
L'objectif principal du travail mené dans cette thèse est la résolution du problème H∞non linéaire. Diérents cas ont été traités, selon la nature du temps (continu et discret)
ou selon l'accessibilité à l'information (retour des sorties mesurées ou d'état et retour
des sorties observées). Trois grands axes ont été explorés. Il s'agit d'utiliser, en premier
4
Introduction générale
lieu, des méthodes approximatives à base de l'hybridation entre les AS et la MWR. Le
deuxième axe concerne l'utilisation d'un apprentissage en ligne pour la résolution des
équations HJI. Tandis que le troisième axe traite la résolution des HJI par les méthodes
métaheuristiques d'optimisation.
3.1 Résolution des équations HJI par la MWR
Dans ce volet, deux méthodes ont été appliquées dans le contexte de la commande
H∞ non linéaire. Il s'agit de la méthode de Galerkin et celle des moindres carrés. Divers
problèmes ont été traités, à savoir
• le retour d'état continu ;
• le retour d'état avec contraintes sur le signal de commande ;
• la commande à horizon ni ;
• le retour d'état discret ;
• le retour de sortie (commande avec observateur)
Dans chaque cas, des méthodes d'implémentations ont été données et des simulations ont
été faites sur une diversité de systèmes dynamiques.
Cette partie a fait l'objet d'une soumission d'une publication internationale (Bachir-
Bouiadjra and Khel, 2015a)
• Nonlinear H∞ control via measurement feedback using neural network. Journal of
Control Enginneing and Applied Informtaics (In Reveiw).
et une communication internationale (Bachir-Bouiadjra and Khel, 2014) (acceptée)
3.2 Résolution des équations HJI par apprentissage en ligne
Les lois de commandes établies soit par Galerkin ou moindres carrés sont hors ligne.
Leurs implémentations nécessitent un temps assez important et une connaissance complète
du système à commander. Pour remédier à cet handicap, nous avons utilisé une méthode
d'approximation en ligne de la solution des équations HJI. La méthode utilise l'apprentis-
sage par renforcement où la notion Acteur/critique est utilisée. L'agent acteur réactualise
la commande et la perturbation de manière simultanée selon la solution de l'équation HJI
fournie par l'agent Critique. Si la solution s'approche de la valeur exacte, alors l'acteur
cesse la ré-actualisation. L'algorithme est appliqué dans le cadre de la commande H∞ non
linéaire par retour d'état à diérents systèmes dynamiques.
5
Introduction générale
3.3 Résolution des équations HJI par une méta heuristique d'op-
timisation
Dans ce volet, une méthode d'optimisation métaheuristique est utilisée pour trouver
une solution approximative à l'équation HJI dans le cas du retour d'état continu. La méta
heuristique en question est les essaims de particules (PSO- Particle Swarm Optimisation).
Les variables de décisions choisies sont les coecients de la solution approximative, tan-
dis que les fonctions objectives à optimiser (minimiser) sont le L2 gain et le résidu sur
l'équation HJI (la diérence entre HJI approchée et HJI exacte). Nous avons introduit des
contraintes au problème d'optimisation. Pour relaxer ces dernières, deux méthodes ont été
utilisées. La première est celle du Lagrangien augmenté hybridée avec la PSO (ALPSO) et
la seconde utilise une fonction ctive pour se ramener à un problème d'optimisation sans
contraintes. Cette partie a fait l'objet d'une soumission d'une publication internationale
(Bachir-Bouiadjra and Khel, 2015b)
• Particle swarm optimisation and Firey algorithm for solvingH∞ sub-optimal control
of nonlinear systems. International Journal of Automation and Control (IJAAC) -
In review
La PSO a été aussi utilisée pour l'ajustement des gains d'une commande H∞ non linéaire
d'une classe de systèmes appelés système lagrangiens. Cette partie a fait l'objet d'une
publication internationale (Bachir-Bouiadjra and Khel, 2015c)
• H∞ non linear PID controller tuning based on simple constrained particle swarm
optimisation, International Journal of Industrial and Systems Engineering (In Pro-
duction).
et une communication internationale (Bachir-Bouiadjra and Khel, 2013)
• H∞ - PID Controller Optimization Using Heuristic Kalman Algorithm. In 3rd IEEE
International Conference on Systems and Control ICSC13, Algiers, Algeria.
4 Organisation du document
Ce document est organisé de la façon suivante (Figure 1).
Commande H∞ non linéaire (Chapitre 1). L'objectif de ce chapitre est de présenter
un état d'art regroupant toutes les stratégies de la commande H∞ non linéaire dans un
aspect purement théorique. Nous examinons les objectifs à atteindre et nous exposons les
diérentes lois de commandes, à savoir le retour d'état continu et discret, la commande
sans et avec contraintes sur les signaux d'entrée et la commande par retour de sorties
(avec observateur).
6
Introduction générale
Solutions approximatives des équations de HJI : Méthode de Galerkin (Cha-
pitre 2). Dans ce chapitre, nous donnons l'algorithme itératif des approximations succes-
sives (AS). Ensuite, nous introduisons la méthode des résidus pondérés en particulier, la
méthode de Galerkin. Une hybridation de cette dernière avec l'algorithme des approxima-
tions successives est exposée. Cette hybridation nous permettra de résoudre de manière
itérative les équations HJI des diérentes lois de commandes étudiées. Plusieurs méthodes
d'implémentation ainsi que des applications à diérents types de systèmes sont présentées.
Solutions approximatives des équations de HJI : Méthode des réseaux de neu-
rones (Chapitre 3). Ce chapitre est consacré à l'application des réseaux de neurones
(RN) hybridés avec l'algorithme des approximations successives, à la résolution approchée
des HJI. Les poids des RN sont ajustés par les moindres carrés qui est une méthode des
résidus pondérés. Les lois de commandes résultantes (par retour d'état, de sorties,continue
et discrète) sont validées sur une panoplie de systèmes.
Solutions approximatives des équations de HJI : Méthode d'apprentissage en-
ligne (Chapitre 4). Nous nous intéressons ici à une méthode d'apprentissage en ligne
utilisée pour résoudre approximativement des équations de type HJI. En eet, contraire-
ment aux chapitres précédents, le but est de concevoir une architecture Acteur/Critique
simultanée qui permet d'avoir des lois de commandes en ligne. Une application à diérents
types de systèmes est aussi exposée.
Applications d'une méthode d'optimisation à la synthèse de la commande H∞non linéaire (Chpitre 5). Ce chapitre est dédié, à l'utilisation d'une méthode d'op-
timisation métaheuristique pour résoudre d'une façon approximative les équations HJI.
La métaheuristique en question est les essaims de particules (PSO). Le problème d'op-
timisation proposé étant avec contraintes, deux méthodes de relaxation des contraintes
sont données. Il s'agit du lagrangien augmenté hybridé avec la PSO (ALPSO) et celui de
la fonction ctive. Des comparaisons avec les algorithmes génétiques et la méthode des
réseaux de neurones sont présentées dans le cadre de la commande H∞ de deux systèmes
dynamiques. Ensuite, la PSO est utilisée pour l'ajustement des gains d'un contrôleur
H∞-PID non linéaire d'une certaine classe de systèmes appelées les lagrangiens. Une ap-
plication à un robot SCARA est faite.
7
Introduction générale
Chapitre 1 Chapitre 2
Chapitre 3
Chapitre 4
Chapitre 5
Section 2.3
Figure 1 Relations entre les chapitres
8
Chapitre 1
Commande H∞ non linéaire
1 Introduction
La commande H∞ des systèmes linéaires a été initiée par Zames au début des années
80 (Zames (1981)) et développée, en particulier par Doyle, Glover, Khargonekar, Zhoo
et Francis (Francis (1987), Doyle et al. (1989), Zhou et al. (1995)). Les techniques de
résolution utilisées pour la synthèse des correcteurs H∞ sont basées sur les équations al-
gébriques de Riccati (ARE) et les inégalités matricielles linéaires (LMI). La nature des
systèmes considérés (linéaires et déterministes) rend cette résolution exacte et facile à éla-
borer. En eet, des outils de calculs existent, tel que, pour ne pas citer d'autres, le "toolbox
robust-control" de Matlab. Nous rappelons que la commande H∞ linéaire a pour objectif
de trouver un correcteur qui stabilise le système de façon interne et minimise la norme
H∞ de la matrice de transfert reliant les sorties à réguler et les entrées exogènes (pertur-
bations), donc assurer un rejet de ces derniers. Le problème de la commande H∞ linéaire
est dit un problème sous-optimal puisque le minimum à atteindre est prédéni.
L'objectif de la commande H∞ non linéaire, comme dans le cas linéaire, est d'assurer
une stabilité asymptotique du système en boucle fermée et de minimiser le rapport entre
l'énergie de sorties à réguler et l'énergie des entrées exogènes (perturbations). Ce rapport
est appelé par la suite le L2-gain. Sa minimisation n'est pas globale mais relative à un
certain niveau d'atténuation. Ce qui qualie la commande de sous-optimale.
Les premiers travaux concernant l'extension de la commande H∞ au cas non linéaire
sont celles de Ball, Helton et Walker (Ball and Helton (1989), Ball et al. (1993)), Isi-
dori, Asttol et Kang (Isodori and Astol (1992), Isidori and Kang (1995)), et Van der
Schaft (Van der Shaft (1992), Van der Shaft (2000)). Ces travaux concernent l'utilisation
des concepts de dissipativité et de jeux diérentiels non coopératifs dans la synthèse de
la commande H∞ pour les systèmes non linéaires anes en entrées et en perturbations.
Van der Schaft (Van der Shaft (1992), Van der Shaft (2000)) démontre que les lois de
9
Chapitre 1. Commande H∞ non linéaire
commandes par retour d'état sont fonction de solutions des équations dites de Hamition-
Jacobi-Iscaas (HJI). Ces dernières sont la version non linéaires des ARE. Dans leur article
(Isodori and Astol (1992)), les auteurs traitent la commande H∞ par retour dynamique
de sortie. Cette commande est mise en ÷uvre par un observateur non linéaire dont la
matrice des gains est fonction des états à observer. Ils montrent l'analogie avec le cas
linéaire et spécialement le rapport existant entre les solutions des équations de HJI avec
celles des ARE. Isodori et Kang (Isidori and Kang (1995)) introduisent une méthode de
calcul de la matrice de gain.
La commandeH∞ des systèmes non linéaires discrets n'est pas sollicitée par un nombre
important de travaux comme son rivale (cas continue) (Lin and Byrnes (1995), James and
Baras (1995), Lin and Byrnes (1996)). En eet, seul le cas linéaire discret a fait l'objet
d'une étude théorique approfondie. Ceci est du à la nature simple des équations aux dif-
férences qui modèlent le système et des équations de Riccati discrètes utilisées pour la
synthèse de la commande. Dans le cas non linéaire, Lin et Byrnes dans (Lin and Byrnes
(1995), Lin and Byrnes (1996)) se sont inspirés des travaux de Van der Schaft, Isodori,
et Astol, dans le cas continu (Van der Shaft (1992), Van der Shaft (2000), Isodori and
Astol (1992) et Isidori and Kang (1995)), pour donner les solutions des problèmes de la
commande H∞ non linéaire discrète par retour d'état et de sorties.
Le but de ce chapitre est de présenter d'une part quelques rappels, sur la notion de
stabilité, indispensables et nécessaires à la compréhension de cette thèse, et d'autre part
un état de l'art de la commande H∞ pour les systèmes non linéaires dans le cas du retour
d'état et de sorties.
Ce chapitre est organisé comme suit : La section 2 regroupe un ensemble de déni-
tions relatives à la stabilité (le concept de stabilité considéré est celui de Lyapounov)
des systèmes non linéaires. Les diérentes formes de stabilité des systèmes non linéaires
sont détaillées ainsi que leurs liaison avec la théorie de Lyapounov. Ces dénitions sont
utilisées lors de la démonstration de la stabilité dans les lois de commandes élaborées. Les
notions de passivité et dissipativité sont très utiles et très liées au concept du L2-gain. La
section 3 traite la commande H∞ des systèmes non linéaires générales, par retour d'état
et par retour de sorties mesurées. La section 4 fournit un état d'art de la commande H∞par retour d'état des systèmes non linéaires anes avec et sans contraintes sur les entrées.
Le cas discret de la commande par retour d'état est mis en évidence dans la section 5.
Finalement, la commandeH∞ non linéaire par retour de sortie est élaborée dans la section
6.
10
Chapitre 1. Commande H∞ non linéaire
2 Stabilité des systèmes non linéaires
Soit U un ouvert non vide de <n (n ∈ N∗) contenant 0 et I un intervalle non vide de
<, non borné à droite. La classe des systèmes considérés sera celle pouvant être mis sous
la forme de l'équation diérentielle ordinaire suivante
x = f(x) (1.1)
ou celle donnée par
x = f(t, x) (1.2)
où x ∈ <n et f une fonction non linéaire. Cette forme (1.2), de par la présence explicite
de la variable temporelle t, sera susceptible d'évoluer au cours du temps et sera donc
qualiée de non-stationnaire.
2.1 Premières dénitions
Dénition 2.1. Un point x ∈ U est un point d'équilibre, ou un point singulier du
système (1.1) (respectivement de (1.2)) si f(x) = 0 (respectivement ∀t ∈ I, f(t, x) = 0).
On considérera toujours le point d'équilibre en 0. Pour le cas général, il sut de faire une
translation.
Dénition 2.2. Soit le système (1.1), et V : U → < ayant des dérivées partielles sur U .
La dérivée totale V le long de la trajectoire d'état du système (1.1) est donnée par :
V (y) =n∑i=1
∂V
∂xi(y)fi(y)
Dénition 2.3. Considérant le système (1.2), et V : I × U → < ayant des dérivées
partielles sur U . La dérivée totale V le long de la trajectoire d'état du système (1.2) est
dénie par :
V (t, y) =∂V
∂t+
n∑i=1
∂V
∂xi(t, y)fi(t, y)
Dénition 2.4. Soit a > 0 et f : [0, a] → <+ une application (une fonction) continue,
on dit que f appartient à la classe K si :
1. f est strictement croissante,
2. f(0) = 0.
11
Chapitre 1. Commande H∞ non linéaire
Dénition 2.5. Soit f : <+ → <+ une application (une fonction) continue, on dit que f
appartient à la classe K∞ si :
1. f est strictement croissante,
2. limr→+∞ f(r) = +∞.
Dénition 2.6. Une fonction V : I × U → < est décrescente si et seulement s'il existe
un voisinage V de 0 et une fonction ψ de classe K telle que :
|V (t, y)| ≤ ψ(‖y‖) ∀t ∈ I,∀y ∈ V
Dénition 2.7. Une fonction V : I × <n → < continue est radialement non bornée s'il
existe une fonction ψ de classe K∞ telle que :
|V (t, y)| ≥ ψ(‖y‖) ∀t ∈ I,∀y ∈ <n
2.2 Fonctions (semi) dénies positives
Dénition 2.8. Une fonction V : U → < est dite semi-dénie positive (respectivement
semi-dénie négative) s'il existe un voisinage V de 0 tel que :
1. V (0) = 0
2. pour tout y ∈ V , V (y) ≥ 0 (respectivement V (y) ≤ 0).
Elle est dite dénie positive (respectivement dénie négative) s'il existe un voisinage V de
0 tel que :
1. V (0) = 0
2. pour tout y ∈ V \ 0, V (y) > 0 (respectivement V (y) < 0).
Dénition 2.9. Une fonction V : I×U → < est dite semi-dénie positive (respectivement
négative) s'il existe un voisinage V de 0 tel que :
1. ∀t ∈ I, V (t, 0) = 0
2. ∀t ∈ I,∀y ∈ V , V (t, y) ≥ 0 (respectivement V (t, y) ≤ 0)).
Elle est dite dénie positive (respectivement négative) s'il existe un voisinage V de 0 tel
que :
1. ∀t ∈ I, V (t, 0) = 0
2. ∃V0 : V → < dénie positive (respectivement négative) telle que : ∀t ∈ I,∀y ∈ V ,V (t, y) ≥ V0(y) (respectivement V (t, y) ≤ V0(y))
12
Chapitre 1. Commande H∞ non linéaire
2.3 Rappels de quelques concepts de stabilité
Dans ce qui suit, on considère une version uniforme de la stabilité. Cette version est
directement liée à la non-stationnarité du système (1.2) et au fait que ce que l'on recherche
en général est un comportement du système qui est le même, quel que soit l'instant initial
considéré.
Dénition 2.10. (Khalil, 1996) Le point d'équilibre x = xe du système (1.1) est dit
Uniformément Localement Stable (ULS) si toute trajectoire solution du système comprise
dans une boule de centre xe et de rayon ε de grandeur quelconque est initialisée en x0
dans une boule de centre xe et de rayon δ dépendant de ε. Plus précisément
∀ε > 0, ∃δ(ε) tel que si ‖x0 − xe‖ ≤ δ(ε), alors ‖x(t)− xe‖ ≤ ε (1.3)
Dénition 2.11. (Khalil, 1996) Le point d'équilibre x = xe du système (1.1) est dit
Uniformément Localement Asymptotiquement Stable (ULAS) s'il est Uniformément Lo-
calement Stable et si toute trajectoire solution du système et initialisée en x0 dans une
boule de centre xe et de rayon η converge vers le point d'équilibre quand t tend vers
l'inni. Plus précisément
∃η > 0 tel que si ‖x0 − xe‖ ≤ η, alors limt→∞‖x(t)− xe‖ → 0 (1.4)
On parle d'une convergence asymptotique.
Dénition 2.12. (Khalil, 1996) Le point d'équilibre x = xe du système (1.1) est dit Uni-
formément Globalement Asymptotiquement Stable (UGAS) s'il est Uniformément Stable
et si toute trajectoire solution du système et initialisée en x0 dans une boule de centre xeet de rayon inni converge vers le point d'équilibre quand t tend vers l'inni.
Parmi les inconvénients de l'utilisation des précédentes dénitions pour analyser la
stabilité des systèmes non linéaires on cite :
- Il est nécessaire de calculer explicitement la trajectoire du système pour chaque condi-
tion initiale.
- Le maniement des dénitions est fastidieux.
d'où la nécessité d'introduire la stabilité au sens de Lyapounov, par le biais de la dite
seconde méthode de Lyapounov.
13
Chapitre 1. Commande H∞ non linéaire
2.4 Théorie de Lyapounov
La théorie de stabilité de Lyapounov, (Khalil (1996), Slotine andWeiping (1991), Lewis
et al. (1993), Lewis et al. (2004)), traite du comportement des systèmes non linéaires libres
(sans commande) décrits par les équations diérentielles (1.1) ou (1.2).
L'idée derrière cette théorie est que l'on considère un système isolé dans le sens où il n'y a
pas de forces extérieures qui s'exercent, où, sans perte de généralité, l'origine est le point
d'équilibre. Ensuite, nous supposons qu'il est possible de dénir une fonction, de sorte
qu'elle est nulle à l'origine et positive partout, qui décrit, dans un certain sens, l'énergie
totale du système. Si le système initialement à l'équilibre, est perturbé à un nouvel état
initial non nul, alors plusieurs possibilités sont à envisager. Si la dynamique du système
est telle que son énergie est non croissante, alors il est facile de conclure que l'origine est
stable. Si la dynamique est telle que l'énergie est réduite à zéro, alors le point d'équilibre
est asymptotiquement stable. Finalement, si la dynamique est telle que l'énergie augmente
au-delà de sa valeur initiale, alors il est possible de conclure que le système est instable.
A partir de ce raisonnement, Lyapounov a généralisé la notion d'énergie pour n'importe
quel système dynamique décrit par les équations (1.1) et (1.2). L'énergie est souvent
décrite par une fonction mathématique qui possède certaines propriétés prédénies. Elle
est dite fonction candidate de Lyapounov.
La théorie de Lyapounov nous permettra de déterminer la stabilité d'un point d'équilibre
particulier sans pour autant résoudre l'équation diérentielle (1.1) ou (1.2). En outre, elle
nous donnera des résultats qualitatifs aux questions de stabilité, qui peuvent être utilisés
dans la conception des lois de commandes pour les systèmes dynamiques non linéaires.
Dans cette section, nous allons donner les théorèmes de Lyapounov de base qui traitent
principalement la stabilité asymptotique du point d'équilibre.
Thèoreme 2.1. Khalil (1996), Slotine and Weiping (1991) Soit 0 un point d'équilibre de
(1.1), s'il existe un voisinage V de 0 et une fonction V : V → <+ continue, ayant des
dérivées partielles continues, telle que :
1. V soit dénie positive
2. la dérivée totale V soit semi-dénie négative où V est évaluée le long de la trajectoire
du (1.1)
alors 0 est stable. V s'appelle une fonction de Lyapounov. En plus, si V est décrescente,
alors 0 est uniformément stable.
Thèoreme 2.2. Khalil (1996), Slotine and Weiping (1991) Soit 0 un point d'équilibre de
(1.1), s'il existe un voisinage V de 0 et une fonction V : V → <+ continue, ayant des
dérivées partielles continues, telle que :
1. V soit dénie positive
14
Chapitre 1. Commande H∞ non linéaire
2. la dérivée totale V soit dénie négative où V est évaluée le long de la trajectoire du
(1.2)
alors 0 est asymptotiquement stable. V est dite une fonction stricte de Lyapounov. En
plus, si V est décrescente, alors 0 est uniformément asymptotiquement stable.
Thèoreme 2.3. Khalil (1996), Slotine and Weiping (1991) Soit 0 un point d'équilibre de
(1.1), s'il existe un voisinage V de 0 et une fonction V : V → <+ continue, ayant des
dérivées partielles continues, telle que :
1. V soit dénie positive
2. V est décrescente et radialement non bornée
3. V est dénie négative
alors 0 est uniformément globalement asymptotiquement stable.
Thèoreme 2.4. Théoréme de LaSalle. Lewis et al. (1993), Lewis et al. (2004)
Si on suppose qu'il existe une fonction de Lyapounov V dénie positive et V (x) ≤ 0, ∀x ∈V, alors l'origine 0 est asymptotiquement stable si et seulement si V (x) = 0 seulement au
point x = 0.
Une variante du théorème de LaSalle est la suivante
Thèoreme 2.5. Principe d'invariance de LaSalle. Lewis et al. (1993), Lewis et al. (2004)
Soit V une fonction de Lyapounov dénie positive radialement non bornée et tel que
V (x) ≤ 0, ∀x ∈ <n. Soit aussi, l'ensemble D = x ∈ <n|V (x) = 0 et supposant
que la seule trajectoire contenue dans D soit la trajectoire triviale, alors l'origine 0 est
globalement asymptotiquement stable.
Dans ce qui suit, on omet le terme "Uniformément".
2.5 Stabilité asymptotique des systèmes connectés en cascade
Dans cette section les notions de mise en cascade de systèmes non linéaires et la
stabilité asymptotique associée à ce type de connexion sont données. Lyshevski (2001)
Soient deux systèmes connectés en cascade comme indiqué sur la gure 1.1
x = f(x)
ξ = l(x, ξ)(1.5)
où x ∈ <n et ξ ∈ <m, f(0) = 0 et l(0, 0) = 0, c.à.d (x, ξ) = (0, 0) est le point d'équilibre
des deux systèmes connectés en cascade. L stabilité asymptotique du point d'équilibre est
donnée par le résultat suivant.
15
Chapitre 1. Commande H∞ non linéaire
La stabilité asymptotique locale du point d'équilibre ξ = 0 du sous système supérieur
entrainé par x = 0 (du système ξ = l(0, ξ)) et la stabilité asymptotique locale du point
d'équilibre x = 0 du sous système inférieur (du système x = f(x)) induit toujours la
stabilité asymptotique locale du point d'équilibre (x, ξ) = (0, 0). Par contre, la stabilité
asymptotique globale de ξ = 0 de ξ = l(0, ξ) et la stabilité asymptotique globale de x = 0
de x = f(x) n'entraine pas toujours la stabilité asymptotique globale de (x, ξ) = (0, 0),
sauf sous certaines conditions.
x = f(x) ξ = l(x, ξ)x
Figure 1.1 Systèmes connectés en cascade
2.6 Notions de passivité et dissipativité
La propriété d'atténuation des perturbations est liée au concept de passivité suivant.
Dénition 2.13. (Van der Shaft (2000)) Un système non linéaire de la forme
x = f(x, ω)
z = h(x, ω) (1.6)
avec x(0) = x0 est localement dissipatif autour de (x, ω) = (0, 0) s'il existe une fonction
de stockage S(x) positive telle que S(0) = 0, et une fonction s(w, z) localement intégrable
pour tout ω, telles que
S(x)− S(x0) ≤∫ t
0
s(ω(τ), z(τ))dτ (1.7)
sur tout l'intervalle [0, t].
Si S(x) est diérentiable, l'équation (1.7) peut être mise sous la forme
S(x) ≤ s(ω, z) (1.8)
dS
dxf(x, ω) ≤ s(ω, h(x, ω)) (1.9)
Une particularité de s permet de dénir la passivité du système (1.6)
Dénition 2.14. (Van der Shaft (2000)) Le système (1.6) est dit passif s'il est dissipatif
et si la fonction s s'exprime par s(ω, z) = ωT z.
16
Chapitre 1. Commande H∞ non linéaire
3 Commande H∞ des systèmes non linéaires générales
3.1 Formulation mathématique du problème
Soit le système non linéaire décrit par les équations suivantes
x = F (x, ω, u)
z = Z(x, ω, u) (1.10)
y = Y (x, ω)
La première équation est l'équation d'état du système ayant comme vecteur d'état x
dénit autour de l'origine de <n, comme vecteur de commande, u ∈ <m, et comme vecteur
d'entrée exogène, ω ∈ <r, qui peut englober les perturbations, les bruits de mesures et
les consignes. La seconde équation décrit la variable de pénalité z ∈ <s pouvant inclureles erreurs de poursuite ainsi que la commande u. Le choix de cette variable de pénalité
est guidé par les performances de la commande H∞ élaborées par un cahier de charge
prédéni. La troisième équation décrit la relation statique entre les sorties mesurées d'une
part y et les états x et perturbations ω d'autre part. Les fonctions F (x, ω, u), Z(x, ω, u)
et Y (x, ω) sont supposées lisses (fonctions de classe Ck, avec k susamment grand) et
dénies au voisinage de l'origine de <n ×<r ×<m.
Système
Contrôleur
z
yu
ω
Figure 1.2 Problème standard H∞
3.2 Objectifs de la commande
Le problème de la commande H∞ sous-optimale consiste à trouver un contrôleur (une
loi de commande) ayant comme entrées les sorties mesurées du système, y et produisant les
entrées de commande u, tel que le système non linéaire sous la forme standard représentée
sur la gure 1.2
17
Chapitre 1. Commande H∞ non linéaire
1. soit asymptotiquement stable en boucle fermée ;
2. ait un L2-gain inférieur ou égale à un niveau γ donné, c.à.d. pour tout T ≥ 0 et
ω ∈ L2(0, T ), on ait ∫ T
0
‖z(τ)‖2dτ ≤ γ2
∫ T
0
‖ω(τ)‖2dτ (1.11)
On parle du problème d'atténuation de l'inuence des entrées exogènes ω sur la variable de
pénalité z. Le lien entre la dissipativité et le L2-gain d'un système non linéaire est mise en
évidence dans Van der Shaft (2000). Si le système (1.10) est localement asymptotiquement
stable et localement dissipatif avec
s(ω, z) = γ2‖ω‖2 − ‖z‖2 (1.12)
alors sa réponse, pour une entrée susamment petite et x(0) = 0, satisfait∫ t
0
(γ2‖ω(τ)‖2 − ‖z(τ)‖2)dτ ≥ S(x(t)) ≥ 0 (1.13)
pour tout t > 0. D'où (1.10) ait un L2-gain inférieur ou égale γ.
3.3 Hypothèses simplicatrices
Les hypothèses suivantes (Christen and Cirillo (1997)) sont nécessaires pour le déve-
loppement de la commande H∞ optimale non linéaire.
H1 F (0, 0, 0) = 0, Z(0, 0, 0) = 0 et Y (0, 0) = 0, c.à.d. (0, 0, 0) est un point d'équilibre du
système (1.10). Si ce n'est pas le cas, un changement de variables est susant pour
vérier cette hypothèse.
H2 La matrice
D11 =∂Z(x, ω, u)
∂ω
∣∣∣∣(0,0,0)
(1.14)
satisfait la condition σ(D11) < γ, avec σ est la plus grande valeur singulière de D11.
Ceci garanti la solvabilité du problème de la commande par retour d'état statique.
Cette hypothèse n'est guère un problème car la dénition de l variable de pénalité
z est de l'essor du cahier de charge prédénie.
H3 La matrice
D12 =∂Z(x, ω, u)
∂u
∣∣∣∣(0,0,0)
(1.15)
est telle queDT12D12 est inversible. Cette hypothèse permet la solvabilité du problème
de la commande par retour d'état.
18
Chapitre 1. Commande H∞ non linéaire
H4 La matrice
D21 =∂Y (x, ω)
∂ω
∣∣∣∣(0,0)
(1.16)
est telle queDT21D21 est inversible. Cette hypothèse permet la solvabilité du problème
de la commande par retour des sorties mesurées.
H5 Pour toute trajectoire bornée du système (1.10) avec comme entrée exogène ω = 0
∀tZ(x, 0, u) = 0 ∀t ⇒ lim
t→∞x(t) = 0
Cette hypothèse permet de garantir la stabilité asymptotique du point d'équilibre.
3.4 Commande par retour d'état
L'objectif de la commande par retour d'état est de trouver une loi de commande
u = α(x) tel que le système en boucle fermée
x = F (x, ω, α(x))
z = Z(x, ω, α(x)) (1.17)
y = x
soit localement dissipatif pour s(ω, z) = γ2‖ω‖2 − ‖z‖2.
Dénissant le vecteur
ν =
[ω
u
]avec cette notation le système (1.17) devient
x = F (x, ν)
z = Z(x, ν) (1.18)
et γ2‖ω‖2 = νT
[γ2Ir 0
0 0
]ν.
La commande H∞ par retour d'état est considérée comme un jeu diérentiel à deux
joueurs ω et u. Le premier joueur ω tend à maximiser la fonction Hamiltonienne du jeux
(1.19) tandis que le deuxième joueur tend à minimiser (1.19). La fonction Hamiltonienne
(de Pontryagin) du jeu diérentiel est donnée par
H(x, p, ν) = pT X(x, ν) + ‖Z(x, ν)‖2 − νT[γ2Ir 0
0 0
]ν (1.19)
19
Chapitre 1. Commande H∞ non linéaire
p est appelé le facteur de Lagrange.
L'optimum ν∗(x, p) de H(x, p, ν) au voisinage de (x, p) = (0, 0) est calculé par
∂H(x, p, ν)
∂ν
∣∣∣∣ν=ν∗(x,p)
= 0 (1.20)
avec ν∗(0, 0) = (0, 0).
La matrice Hessienne du Hamiltonien H est
∂2H(x, p, ν)
∂ν2
∣∣∣∣(x,p,ν)=(0,0,0)
= 2R = 2
[DT
11D11 − γ2Ir DT11D12
DT12D11 DT
12D12
]
La matrice R peut être factorisée comme suit R = NTMN avec
M =
[DT
11D11 − γ2Ir −DT11(D12TD12)−1 0
0 DT12D12
]
N =
[Ir 0
(D12TD12)−1DT12D11 Im
]
D'après l'hypophyse H2, l'élément diagonal supérieur de M est déni négatif, donc ω∗ est
un maximum du Hamiltonien H, en plus l'élément diagonal inférieur de M est toujours
déni positif, ce qui rend u∗ un minimum de H. Donc le point-selle ν∗ du Hamiltonien
vérie au voisinage de (x, p) = (0, 0)
H(x, p, ν)
∣∣∣∣ν=
ω
u∗(x, p)
≤ H(x, p, ν)
∣∣∣∣ν=
ω∗(x, p)u∗(x, p)
≤ H(x, p, ν)
∣∣∣∣ν=
ω∗(x, p)u
(1.21)
Supposant maintenant l'existence d'une fonction lisse non négative V (x) : <n → < dénie
au voisinage de x = 0, avec V (0) = 0 et posant
H∗(x, p) = H(x, p, ν∗)
D'après (1.21) on a
H(x, V Tx , ν) ≤ H∗(x, V
Tx )
Supposant aussi que V (x) satisfait
H∗(x, VTx ) ≤ 0 (1.22)
alors la loi de commande
u = u∗(x, VTx ) (1.23)
20
Chapitre 1. Commande H∞ non linéaire
rend le système (1.17) satisfaisant l'inégalité suivante
VxF (x, ω, u∗) + ‖Z(x, ω, u∗)‖2 − γ2‖ω‖2 ≤ 0 (1.24)
c'est-à-dire localement dissipatif autour de (x, ω) = (0, 0). Les inégalités (1.22) et (1.24)
sont appelées les inégalités de Hamilton-Jacobi-Isaacs.
D'après l'hypothèse H5, le système non linéaire (1.17) avec la loi de commande (1.23)
est localement asymptotiquement stable. En eet, en prenant ω = 0, l'inégalité (1.24)
devienne
VxF (x, 0, u∗) + ‖Z(x, 0, u∗)‖2 ≤ 0
et comme Z(x, 0, u∗) est nulle pour toute trajectoire asymptotiquement stable (Hypothèse
H5), alors V (x) est une fonction de Lyapunov, c'est-à-dire
V (x) > 0
V (0) = 0
dV (x)
dt= VxF (x, 0, u∗) ≤ 0
D'après la seconde méthode de Lyapounov, le système non linéaire (1.17) avec la loi de
commande (1.23) est localement stable.
Remarque 3.1. Rappelant l'interprétation du problème par un jeu diérentiel à deux
joueurs. Le développement ci-dessus se résume comme suit : S'il existe une fonction V (x)
telle que H∗(x, V Tx ) = 0, alors la stratégie u = u∗(x, V
Tx ) est la meilleure stratégie pour
le joueur minimisant le Hamiltonien H∗ et la stratégie ω = ω∗(x, VTx ) est la pire stratégie
pour le joueur maximisant le Hamiltonien H∗. Comme ω est en général une perturba-
tion, alors ω∗(x, V Tx ) peut être interprétée comme la pire perturbation qui peut aecter le
système.
3.5 Commande par retour de sortie
On considère dans cette section le cas ou les états ne sont pas disponibles en mesure
mais plutôt observables via un observateur. On parle d'un retour de sorties mesurées. Le
schéma fonctionnel d'une telle commande nécessitant un observateur d'état est donnée
par la gure 1.3
3.5.1 Condition nécessaire pour le retour de sortie
Soit le Hamiltonien K : <n ×<n ×<r ×<p → < déni par
K(x, p, ω, y) = pTF (x, ω, 0)− yTY (x, ω) + ‖Z(x, ω, 0)‖2 − γ2‖ω‖2 (1.25)
21
Chapitre 1. Commande H∞ non linéaire
Système
ObservateurContrôleurξ
z
yu
ω
Figure 1.3 Problème standard H∞ avec retour de sortie
Puisque∂2K(x, p, ω, y)
∂ω2
∣∣∣∣(x,p,ω,y)=(0,0,0,0)
= 2(DT11D11 − γ2Ir) < 0 (1.26)
il existe une fonction lisse ω(x, p, y) au voisinage de (0, 0, 0) tel que
∂K(x, p, ω, y)
∂ω
∣∣∣∣ω=ω(x,p,y)
= 0, ω(0, 0, 0) = 0 (1.27)
La solution de l'équation (1.27) est donnée par
ω(x, p, y) = −(2(DT11D11 − γ2Ir))
−1(2DT11C1x+BT
1 p−DT21y) (1.28)
avec C1 = ∂Z(x,ω,u)∂x
∣∣∣∣(0,0,0)
et B1 = ∂F (x,ω,u)∂ω
∣∣∣∣(0,0,0)
.
De même, on a
∂2K(x, p, ω(x, p, y), y)
∂y2
∣∣∣∣(x,p,y)=(0,0,0)
= −1
2D21(DT
11D11 − γ2Ir)−1DT
21 > 0 (1.29)
alors, il existe une fonction lisse y∗(x, p) au voisinage de (0, 0) solution de l'équation
suivante∂K(x, p, ω(x, p, y), y)
∂y
∣∣∣∣y=y∗(x,p)
= 0, y∗(x, p)(0, 0) = 0 (1.30)
La solution de l'équation (1.30) est donnée par
y∗(x, p) = −(D21(DT11D11 − γ2Ir)
−1DT21)−1
× (2(C2 −D21(DT11D11 − γ2Ir)
−1DT11C1)x−D21(DT
11D11 − γ2Ir)−1BT
1 p) (1.31)
22
Chapitre 1. Commande H∞ non linéaire
avec C2 = ∂Y T (x,ω)∂x
∣∣∣∣(x,p,y)=(0,0,0)
.
voir l'annexe A pour plus de détails concernant les équations (1.28), (1.29) et (1.31).
En dénissant la nouvelle variable
ω∗∗ = ω(x, p, y∗(x, p))
et d'après (1.26) et (1.29) on obtient au voisinage de (0, 0, 0, 0) les inégalités suivantes
K(x, p, ω, y) ≤ K(x, p, ω(x, p, y), y)
K(x, p, ω(x, p, y), y) ≥ K(x, p, ω∗∗(x, p), y∗(x, p))(1.32)
Thèoreme 3.1. (Christen and Cirillo (1997))
Pour le système non linéaire (1.10), et la loi de commande par retour de sortie
ξ = η(ξ, y), η(0, 0) = 0
u = θ(ξ), θ(0) = 0
s'il existe une fonction lisse dénie positive, U(x, ξ), qui satisfait l'inégalité
[Ux(x, ξ) Uξ(x, ξ)
][F (x, ω, θ(ξ))
η(ξ, Y (x, ω))
]+ ‖Z(x, ω, θ(ξ))‖2 − γ2‖ω‖2 ≤ 0 (1.33)
pour tout (x, ξ, ω) au voisinage de (0, 0, 0), alors la fonction dénie positive W (x) =
U(x, 0) satisfait l'inégalité HJI suivante
K(x,W Tx (x), ω∗∗(x,W
Tx (x)), y∗(x,W
Tx (x))) ≤ 0 (1.34)
pour tout x au voisinage de 0.
Démonstration. En posant ξ = 0 dans (1.33), on obtient
Wx(x)F (x, ω, 0) + Uξ(x, 0)η(0, Y (x, ω)) + ‖Z(x, ω, 0)‖2 − γ2‖ω‖2 ≤ 0 (1.35)
Puisque η(0, 0) = 0, on peut toujours trouver une fonction lisse P (x, y) tel que on a
Uξ(x, 0)η(0, y) = −P (x, y)y
alors l'inégalité (1.35) devienne
Wx(x)F (x, ω, 0)− P T (x, Y (x, ω))Y (x, ω) + ‖Z(x, ω, 0)‖2 − γ2‖ω‖2 ≤ 0
23
Chapitre 1. Commande H∞ non linéaire
avec ω = ω(x,W Tx (x), y) cette dernière devienne
K(x,W Tx (x), ω(x,W T
x (x), y), P (x, Y (x, ω(x,W Tx (x), y)))) ≤ 0
Posant maintenant y = y(x) solution de y(x) = P (x, Y (x, ω(x,W Tx (x), y(x)))) on obtient
donc
K(x,W Tx (x), ω(x,W T
x (x), y(x)), y(x)) ≤ 0
D'après (1.32), on obtient nalement
K(x,W Tx (x), ω∗∗(x,W
Tx (x)), y∗(x,W
Tx (x))) ≤ 0
3.5.2 Loi de commande par retour de sortie
Thèoreme 3.2. (Christen and Cirillo (1997))
Considérant le système non linéaire décrit par l'équation (1.10) et soit les hypothèses
suivantes
i) Les hypothèse H1 à H5 sont vériés,
ii) L'inégalité (1.22) est vérié,
iii) L'inégalité
K(x,W Tx (x), ω∗∗(x,W
Tx (x)), y∗(x,W
Tx (x)))−H∗(x, V T
x (x)) ≤ 0 (1.36)
possède une solution W (x) > 0, avec W (0) = 0,
iv)
Wx(x)− Vx(x) > 0 ∀x 6= 0
v) La matrice Hessienne de (1.36) est non singulière au point x = 0 et l'équation
(W (x)− V (x))G(x) = yT∗ (x,W Tx (x)) (1.37)
possède une solution lisse G(x)
Alors la loi de commande suivante
ξ = F (ξ, ω∗(ξ, VTξ (ξ)), u∗(ξ, V
Tξ (ξ))) +G(ξ)(y − Y (ξ, ω∗(ξ, V
Tξ (ξ))))
u = u∗(ξ, VTξ (ξ)) (1.38)
stabilise asymptotiquement le système autour de (x, ξ) = (0, 0) avec un L2-gain ≤ γ.
24
Chapitre 1. Commande H∞ non linéaire
Démonstration. Voir l'annexe A.
Remarque 3.2. (Isidori and Kang (1995), Christen and Cirillo (1997))
Le gain G(x), de l'observateur non linéaire (1.38), peut être calculé de la manière suivante :
on extrait xT de Wx(x)− Vx(x) et de yT∗ (x,W Tx (x)) tel que
Wx(x)− Vx(x) = xTR1(x)
yT∗ (x,W Tx (x)) = xTL(x)
puis on obtient facilement
G(x) = R−11 (x)L(x)
Remarque 3.3. Les deux signaux ω∗∗(x,W Tx (x)) et y∗(x,W T
x (x)) sont interprétés comme
dans le cas de la commande par retour d'état. En eet, ω∗∗(x,W Tx (x)) maximise le Ha-
miltonien K, tandis que y∗(x,W Tx (x)) le minimise. Donc, ω∗∗(x,W T
x (x)) est interprétée
comme la pire perturbation qui tend à augmenter la norme de la variable de pénalité z et
y∗(x,WTx (x)) est le signal de commande qui tend de réduire l'eet de ω sur z.
4 Commande H∞ des systèmes non linéaires anes
Dans la section précédente, il a été impossible d'aboutir à une loi de commande ex-
plicite dû à la nature générale des fonctions F , Z et Y . Dans cette section nous nous
intéressons aux systèmes non linéaires de type ane.
Nous appelons système non linéaire ane (en état ou en entrée) un système dont la
représentation d'état prend l'une des formes suivantes
• Ane en état :
x = f(ω, u)x+ g1(ω) + g2(u)
z = h1(ω, u)x+ k11(ω) + k12(u)
y = h2(ω, u)x+ k21(ω)
• Ane en entrée exogène et en commande :
x = f(x) + g1(x)ω + g2(x)u
z = h1(x) + k11(x)ω + k12(x)u (1.39)
y = h2(x) + k21(x)ω
Nous nous intéressons dorénavant aux systèmes non linéaires anes en entrée exogène
25
Chapitre 1. Commande H∞ non linéaire
et en commande. Avec ce type de représentation il sera possible d'aboutir à des lois de
commandes explicites non plus générales comme dans le cas précédant.
4.1 Commande par retour d'état
Dans la commande par retour d'état les états sont accessible en mesure, c.à.d y = x.
Le système sera donc décrit par les équations suivantes
x = f(x) + g1(x)ω + g2(x)u(x)
z = h1(x) + k11(x)ω + k12(x)u(x) (1.40)
Les fonctions f(x), g1(x) et g2(x) sont non linéaires lisses de dimensions appropriées.
Le système (1.40) est supposé avoir un point d'équilibre á l'origine de <n, donc, sansperdre de généralité, nous supposons que f(0) = 0 et h1(0) = 0.
Le choix de la variable de pénalité z est assez large. Si le problème de la commande est
de minimiser l'erreur, x = 0, nous avons zT z = xTx, ou zT z = xTQx (h1(x) = Q1/2x et
k12(x) = 0), avec Q = QT ≥ 0 est une matrice symétrique semi-dénie positive, décrivant
les poids relatifs à chaque état. Si l'objectif est la minimisation de l'énergie du signal de
commande, nous choisirons zT z = uTu ou zT z = uTRu (h1(x) = 0 et k12(x) = R1/2),
avec R = RT > 0 est une matrice symétrique dénie positive décrivant les poids relatifs à
chaque commande. Nous pouvons combiner les deux objectifs pour avoir le critère général
suivant
zT z = xTQx+ uTRu (1.41)
Si nous désirons avoir une convergence rapide vers le point d'équilibre nous devons aug-
menter Q largement par rapport à R. Par contre si nous souhaitons conserver de l'énergie
nous devons cette fois-ci augmenter R largement par rapport à Q.
Dans le cas de la commande non linéaire, h1(x) et k12(x) sont, en général, des fonctions
non linéaires lisses quelconques, non pas forcement quadratiques.
Pour simplier l'analyse, les hypothèses suivantes sont imposées (Isodori and Astol
(1992), Van der Shaft (1992), Isidori and Kang (1995), Van der Shaft (2000))
k11(x) = 0
hT1 (x)k12(x) = 0 (1.42)
kT12(x)k12(x) = I
Ces dernières sont dites les hypothèses simplicatrices de Doyle-Glover-Khargonekar-
Francis (DGKF).
La première hypothèse est évidente, puisqu'en général, il n'y a pas une relation directe
entre les entrées exogènes et la variable de pénalité z. Nous parlons, dans ce cas, d'un
26
Chapitre 1. Commande H∞ non linéaire
retour d'état statique. Les deux autres hypothèses imposent d'une part une orthogonalité
entre h1(x) et la commande u dans la norme de z et d'autre part, une matrice de pon-
dération R égale à la matrice identité. La variable de pénalité z sera écrite sous la forme
suivante
z =
[h1(x)
u
]et sa norme sera ‖z‖2 = zT z = ‖h1(x)‖2 + ‖u‖2.
Le problème de la commande H∞ optimal par retour d'état est de trouver la plus petite
valeur γ∗ ≥ 0 et une loi de commande par retour d'état associée, u∗(x), telle que pour toute
valeur de γ > γ∗, le système décrit par (1.40) est asymptotiquement stable et possédé
un L2-gain inférieur ou égale à γ > 0. Le principe de la commande H∞ sous-optimal par
retour d'état est mis en évidence par le théorème suivant
Thèoreme 4.1. Soit γ > 0. S'il existe une fonction V (x), dénie positive, solution de
l'équation de Hamilton-Jacobi-Isaacs (HJI) suivante
Vx(x)f + hT1 h1 +1
4Vx(x)
(1
γ2g1g
T1 − g2g
T2
)V Tx (x) = 0, V (x0) = 0 (1.43)
alors, avec la loi de commande suivante
u∗(x) = −1
2gT2 V
Tx (x) (1.44)
le système en boucle fermée (1.40)-(1.44) est asymptotiquement stable et possédé un L2-
gain ≤ γ.
Démonstration. En utilisant les équation intermédiaires suivantes
gT2 VTx (x) = −2u∗(x)
γ2‖ω − 1
2γ2gT1 Vx(x)T‖2 = γ2‖ω‖2 +
1
4γ2Vx(x)g1g
T1 V
Tx (x)− Vx(x)g1ω
et en complétant les carrés dans l'équation (1.43), nous obtiendrons facilement
dV
dt= Vx(x)f + Vx(x)g1ω + Vx(x)g2u
=
∥∥∥∥u+1
2gT2 V
Tx (x)
∥∥∥∥2
− γ2
∥∥∥∥ω − 1
2γ2gT1 V
Tx (x)
∥∥∥∥2
− ‖h1‖2 − ‖u‖2 + γ2‖ω‖2 (1.45)
27
Chapitre 1. Commande H∞ non linéaire
avec la loi de commande (1.44) et la norme de z, on aurons
dV
dt= −γ2
∥∥∥∥ω − 1
2γ2gT1 V
Tx (x)
∥∥∥∥2
− ‖z‖2 + γ2‖ω‖2
≤ −‖z‖2 + γ2‖ω‖2 (1.46)
L'intégration de dV/dt, de t = 0 à t = T ≥ 0, donne∫ T
0
‖z(t)‖2dt ≤ γ2
∫ T
0
‖ω(t)‖2dt+ V (x0)− V (x(T )) (1.47)
puisque V (x0) = 0 et V > 0, nous concluons que le système (1.40) possédé un L2-gain
≤ 0.
Pour démontrer la stabilité du système en boucle fermée nous posons ω = 0 et nous
obtiendrons ainsi
dV
dt= −γ2
∥∥∥∥ 1
2γ2gT1 V
Tx (x)
∥∥∥∥2
− ‖z‖2 ≤ −‖z‖2 ≤ 0
donc, le système en boucle fermée est stable. Pour démontrer sa stabilité asymptotique,
on remarque que n'importe quelle trajectoire vériant
dV
dt= 0
est telle que h1(x(t)) = 0 et u = 0 pour t ≥ 0. En remplaçant dans (1.40), nous aurons
x = f(x)
z = h1(x)
Maintenant, si (f, h1) est détectable (h1(x) = 0 implique limt→∞ x(t) = 0) alors, selon le
théorème de LaSalle, le point d'équilibre est asymptotiquement stable.
Remarque 4.1. Le problème de la commande H∞ par retour d'état est considéré comme
un jeu diérentiel à deux joueurs (Abu-Khalaf (2005b)) :
minu
maxω
H(x, V Tx , ω, u) = max
ωminuH(x, V T
x , ω, u) = 0 (1.48)
tel que
H(x, V Tx , ω, u) = Vx(f(x) + g1(x)ω + g2(x)u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 (1.49)
La condition (1.48) est dite condition d'Isaacs.
La stratégie u = u∗(x), donnée par (1.44), est obtenue en minimisant le Hamiltonien H
28
Chapitre 1. Commande H∞ non linéaire
en utilisant les conditions d'optimalité de Bellman suivantes
∂H
∂u|u=u∗ = gT2 V
Tx + 2u = 0,
∂2H
∂u2= −2 > 0
Elle est considérée comme la meilleure stratégie pour le joueur minimisant le Hamiltonien
H.
Maintenant, en maximisant le Hamiltonien H avec les conditions d'optimalité suivantes
∂H
∂ω|ω=ω∗ = gT1 V
Tx − 2γ2ω = 0,
∂2H
∂ω2= −2γ2 < 0
nous aurons
ω∗(x) =1
2γ2gT1 V
Tx (x) (1.50)
Cette dernière est considérée comme la pire perturbation qui peut aecter le système. En
remplaçant (1.44) et (5.20) dans le Hamiltonien H donné par (1.49) l'équation HJI (1.43)
découle.
4.1.1 Exemple
C'est un système 1-D (n = 1), (Van der Shaft (2000)), décrit par l'éqution d'état
suivante
x = x2 + x(ω + u)
z =
[x
u
]
Le point d'équilibre du système est 0. L'équation HJI correspondante est donnée par
1
4(Vx)
2
(1− γ2
γ2
)+ Vx + 1 = 0
ayant comme solution pour γ > 1
V (x) =2(1 +
√2γ2 − 1)γ
γ2 − 1|x|
La commande u∗(x) est ainsi donnée par
u∗(x) = −(1 +√
2γ2 − 1)γ
γ2 − 1|x|
La simulation du système en boucle fermée pour la condition initiale x0 = 1 et γ = 2,
montre la convergence du point d'équilibre vers 0. (voir gure 1.4)
29
Chapitre 1. Commande H∞ non linéaire
0 5 10 15 20 25 30 35 40 45 50−2.5
−2
−1.5
−1
−0.5
0
0.5
1
temps [sec]
x,u
xu
Figure 1.4 Évolution de l'état x(t) et de la commande u(t) (Exemple 4.1.1)
4.1.2 Cas Particulier : Systèmes linéaires anes
Dans ce paragraphe, nous allons étudier, dans un esprit similaire au paragraphe pré-
cédent, les relations entre le problème de la commande H∞ des systèmes non linéaires et
le problème de la commande H∞ des systèmes linéarisés correspondantes. En particulier,
nous allons voir que si la commande H∞ par retour d'état est solvable pour les systèmes
linéaires, elle est aussi pour les systèmes non linéaires autour du point d'équilibre. Ces ré-
sultats sont très utiles du fait que la commande H∞ linéaire est facile à obtenir. D'ailleurs,
plusieurs méthodes existent pour la synthèse d'une telle commande. Nous pouvons citer,
par exemple, la méthode de résolution fondée sur les équations de Riccati et la méthode
de résolution fondée sur les LMI.
La linéarisation du système (1.40) autour du point d'équilibre x = 0 donne
x = Ax+B1ω +B2u
z = C1x+D12u (1.51)
avec
A =∂f
∂x
∣∣∣∣x=0
, B1 = g1(0), B2 = g2(0)
C1 =∂h1
∂x
∣∣∣∣x=0
, D12 = k12(0)
30
Chapitre 1. Commande H∞ non linéaire
Ces matrices sont obtenues par développement en série de Taylor, autour de x = 0 et en
prenant seulement les premiers termes
f(x) ' f(0) +∂f
∂x
∣∣∣∣x=0
x = Ax,
g1(x) ' B1,
g2(x) ' B2,
h1(x) ' h1(0) +∂h1
∂x
∣∣∣∣x=0
x = C1x,
k12(x) ' D12
Les hypothèses (1.42) deviennent
CT1 D12 = 0
DT12D12 = I
Maintenant, en choisissant V (x) = xTPx, telle que P est symétrique et dénie positive
l'équation HJI (1.59) devienne une équation algébrique de Riccati (ARE) donnée par
PA+ ATP + P (1
γ2B1B
T1 −B2B
T2 )P + CT
1 C1 = 0 (1.52)
Thèoreme 4.2. Supposant que (A,C1) est détectable, et soit γ > 0, alors il existe un
retour d'état statique
u = −BT2 Px (1.53)
tel que, le système en boucle fermée (1.51)-(1.53) est asymptotiquement stable et possède
un L2-gain ≤ γ, si et seulement s'il existe une matrice P ≥ 0 solution de l'équation de
Riccati (1.52).
Démonstration. Nous choisissons comme fonction de Lyapounov V (x) = xTPx, telle que
P est symétrique dénie positive solution de l'équation de Riccati (1.52). Sa dérivée totale
est donnée par
V = Vxx = 2xTP (Ax+B1ω +B2u) (1.54)
en utilisant (1.52) et en complétant les carrés, (1.54) devienne
V = γ2‖ω‖2 − ‖u‖2 − ‖C1x‖2 − γ2‖ω − 1
γ2BT
1 Px‖2 + ‖u+BT2 Px‖2
= γ2‖ω‖2 − ‖z‖2 − γ2‖ω − 1
γ2BT
1 Px‖2
≤ γ2‖ω‖2 − ‖z‖2
31
Chapitre 1. Commande H∞ non linéaire
L'intégration de V entre 0 et T donne∫ T
0
‖z(t)‖2dt ≤ γ2‖ω(t)‖2dt+ V (0)− V (T ) ≤ γ2‖ω(t)‖2dt
puisque V (0) = 0 et V > 0. Cela prouve que le système en boucle fermée possède un
L2-gain ≤ γ.
Pour démontrer la stabilité, nous posons ω = 0, nous obtiendrons ainsi
V ≤ −‖z‖2 ≤ 0
donc le point d'équilibre du système en boucle fermée est stable.
Pour démontrer sa stabilité asymptotique, il sut de remarquer que V est nulle pour une
trajectoire nulle ,c.à.d, limt→∞ x(t) = 0. D'après le principe d'invariance de LaSalle le
point d'équilibre du système en boucle fermée est asymptotiquement stable.
4.2 Commande par retour d'état avec contraintes sur la com-
mande
Dans le domaine industriel, où nous avons recours à une implémentation, la commande
agissante sur les actionneurs doit être bornée. Ceci est justié par un souci de protection
du système à contrôler où une forte action peut le détériorer, et une faible action est sans
eet.
La fonction la plus usuelle utilisée pour limiter un signal de commande est la fonction
Sat+1−1 donnée par
Sat+1−1(u) =
−1 si u < −1;
u si −1 ≤ u ≤ +1;
+1 si u > +1.
Cette fonction n'est pas dérivable, ce qui pose un problème lors de l'implémentation. Il est
donc judicieux de remplacer Sat+1−1 par une autre fonction qui change de transition de −1
à −1 progressivement et de manière lisse. Nous pouvons choisir par exemple la fonction
tangente hyperbolique donnée par
tanh(u) =eu − e−u
eu + e−u
La gure 1.5 illustre la similitude entre les deux fonctions.
32
Chapitre 1. Commande H∞ non linéaire
−2 −1 0 1 2−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
( · )
u
Sat+1
-1 ( · )tanh( · )
Figure 1.5 Commande saturée : Sat+1−1(u) et tanh(u)
Dans le cas général où φ(·) est une fonction utilisée pour limiter la commande u, elle doit
être bornée, monotone croissante élément-à-élément (cas multi-variable) et impaire. Ly-
shevski (Lyshevski, 2001) a introduit la fonction générale non quadratique suivante dans
le cas de la commande optimale des systèmes non linéaires
W (u) = 2
∫ u
0
φ−T (v)dv = 2m∑k=1
∫ uk
0
φ−1(vk)dvk (1.55)
où W (u) est un scalaire et
φ(v) =[φ(v1) · · · φ(vm)
]Tφ−T (v) =
[φ−1(v1) · · · φ(vm)−1
]La norme de la variable de pénalité z sera donc donnée par
‖z‖2 = zT z = ‖h1(x)‖2 +W (u)
33
Chapitre 1. Commande H∞ non linéaire
La résolution du problème H∞ non linéaire dans le cas de la commande contrainte est
équivalente à la résolution de l'équation HJI suivante
H(x, V Tx , u∗, ω∗) = Vx(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 +W (u∗)− γ2‖ω∗‖2 = 0
= Vx(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 + 2
∫ u∗
0
φ−T (v)dv
− γ2‖ω∗‖2 = 0 (1.56)
tel que (u∗, ω∗) est le point-selle du Hamiltonien H(x, V Tx , u, ω).
La meilleure stratégie (du jeu diérentiel) u∗(x) est obtenue en minimisant le Hamiltonien
H. En utilisant les conditions d'optimalité suivantes
∂H
∂u
∣∣∣∣u=u∗
= gT2 VTx + 2φ−1(u) = 0,
∂2H
∂u2= 2
dφ−1(u)
du> 0
nous obtiendrons
u∗(x) = φ(−1
2gT2 V
Tx (x)) (1.57)
La pire perturbation ω∗ reste inchangée et est donnée par (5.20).
Si nous remplaçons (1.57) et (5.20) dans le HamiltonienH (1.56), nous obtiendrons l'équa-
tion de HJI donnée par
Vxf(x)− Vxg2φ(1
2gT2 V
Tx ) + ‖h1‖2 + 2
∫ −φ( 12gT2 V
Tx (x))
0
φ−T (v)dv
+1
4γ2Vxg1g
T1 V
Tx = 0 (1.58)
Thèoreme 4.3. Soit γ > 0. Supposant que (f, h1) est détectable (voir dénition 6.1), s'il
existe une fonction V (x), dénie positive, solution de l'équation de Hamilton-Jacobi-Isaacs
(HJI) suivante
Vx(x)f + ‖h1‖2 +1
4Vx(x)
(1
γ2g1g
T1
)V Tx (x) +W (u∗) + Vxg2u∗ = 0 V (x0) = 0 (1.59)
alors le système en boucle fermée (1.18)-(1.57) est asymptotiquement stable et possède un
L2-gain ≤ γ.
Démonstration. Elle est similaire à celle des théorèmes 4.1 et 4.2. En eet, nous pouvons
écrire facilement
dV
dt= −‖h1‖2 −W (u∗)︸ ︷︷ ︸
‖z‖2|u=u∗
+γ2‖ω‖2 − γ2
∥∥∥∥ω − 1
2γ2gT1 V
Tx (x)
∥∥∥∥2
− Vxg2(u∗ − u)
34
Chapitre 1. Commande H∞ non linéaire
En introduisant (1.57) nous aurons
dV
dt= −γ2
∥∥∥∥ω − 1
2γ2gT1 V
Tx (x)
∥∥∥∥2
− ‖z‖2 + γ2‖ω‖2
≤ −‖z‖2 + γ2‖ω‖2 (1.60)
Après intégration entre t = 0 et t = T ≥ 0 nous obtiendrons∫ T
0
‖z(t)‖2dt ≤ γ2
∫ T
0
‖ω(t)‖2dt+ V (x0)− V (x(T )) ≤ γ2
∫ T
0
‖ω(t)‖2dt (1.61)
Cela dit, le système (1.18)-(1.57) possède un L2-gain ≤ 0.
Pour démontrer la stabilité du système en boucle fermée, posant ω = 0. l'équation (1.60)
deviennedV
dt= −γ2
∥∥∥∥ 1
2γ2gT1 V
Tx (x)
∥∥∥∥2
− ‖z‖2 ≤ 0
Donc le système en boucle fermée est stable au sens de Lyapounov. Pour démontrer sa
stabilité asymptotique, il sut de remarquer que n'importe quelle trajectoire vériant,
pour ω = 0dV
dt= −γ2
∥∥∥∥ 1
2γ2gT1 V
Tx (x)
∥∥∥∥2
− ‖h1‖2 −W (u) = 0
est telle que h1(x(t)) = 0. Puisque (f, h1) est détectable, c.à.d., h1(x) = 0⇒ limt→∞ x(t) =
0, donc le point d'équilibre x = 0 est asymptotiquement stable (principe d'invariance de
LaSalle).
Remarque 4.2. Si la commande u est limitée dans l'intervalle |u| ≤ A, nous pouvons
choisir comme fonction de saturation, la fonction φ(v) = A tanh(v/A), ainsi la commande
saturée sera donnée par
u∗(x) = A tanh(−1
2gT2 V
Tx (x)/A) (1.62)
La fonction non quadratique devienne
W (u) = 2
∫ u
0
A tanh−1(v/A)dv = 2Au tanh−1(u/A) + A2 ln(1− u2/A2) (1.63)
La gure 1.6 illustre clairement qu'un tel choix de W (u) est dèlement proche à la forme
quadratique de u utilisée dans la synthèse de la commande sans contraintes.
En remplaçant (1.62) et (1.63) dans l'équation HJI (1.58) nous obtiendrons une forme
plus simple à utiliser dans le cas de la commande H∞ par retour d'état avec contraintes
sur la commande
Vxf(x) + ‖h1‖2 +1
4γ2Vxg1g
T1 V
Tx + A2 ln(1− tanh2(−1
2gT2 V
Tx (x)/A)) = 0 (1.64)
35
Chapitre 1. Commande H∞ non linéaire
−1 0 10
0.2
0.4
0.6
0.8
1
u
W(u)
u2
2∫
tanh-1(u)
Figure 1.6 Coût quadratique et non quadratique
5 Commande H∞ par retour d'état des systèmes non
linéaire discrets
Dans cette section la commande H∞ des systèmes non linéaires anes discrets obte-
nus par discrétisation des systèmes continus données par (1.40) est détaillée. Soit ∆T la
période de discrétisation et notant tous les signaux x, u, ω et z à l'instant t = k∆T res-
pectivement par xk, uk, ωk et zk. Si nous utilisons l'approximation suivante de la dérivée,
dite méthode d'Euler
x ' xk+1 − xk∆T
le système (1.40) devient
xk+1 = ∆Tf(xk) + ∆Tg1(xk)ωk + ∆Tg2(xk)uk + xk
zk = h1(xk) + k11(xk)ωk + k12(xk)uk
Une écriture plus générale d'un système discret non linéaire ane est donnée par
xk+1 = f(xk) + g1(xk)ωk + g2(xk)uk
zk = h1(xk) + k11(xk)ωk + k12(xk)uk (1.65)
Les fonctions f, g1, g2, h1, k11 et k12 sont toujours lisses et le système (1.65) possède un
point d'équilibre à l'origine.
36
Chapitre 1. Commande H∞ non linéaire
Les hypothèses (1.42) sont toujours maintenues dans le cas discret, avec
k11(xk) = 0
hT1 (xk)k12(xk) = 0 (1.66)
kT12(xk)k12(xk) = I
Nous envisageons, dans ce qui suit, le cas où seulement l'état est disponible dans la loi de
commande (commande par retour d'état)
uk = F (xk) (1.67)
où F1 : <n → <n est une fonction lisse tel que F1(0) = 0.
L'objectif de la commande H∞ est :
1. assurer la stabilité asymptotique du point d'équilibre du système en boucle fermée
(1.65)-(1.67),
2. diminuer l'inuence des entrées exogènes sur la variable de pénalité z. En d'autre
terme, le système en boucle fermée ait un L2-gain inférieur ou égale à un niveau γ
donné, c.à.d. pour tout k ∈ [0, N ] (N est un entier positif) et ωk ∈ L2(0, N), nous
aurionsN∑k=0
‖zk‖2 ≤ γ2
N∑k=0
‖ωk‖2 ∀N (1.68)
La dénition du L2-gain dans la cas discret peut être déduite directement de celle
du cas continu.
5.1 Commande H∞ discrète et jeu diérentiel non coopératif
Soit le système discret (1.65) et la fonction coût à horizon ni suivante
V (xk, uk, ωk) =N∑i=k
(‖zi‖2 − γ2‖ωi‖2
)(1.69)
=N∑i=k
(‖hi‖2 + ‖ui‖2 − γ2‖ωi‖2
)(1.70)
avec V (xN+1, uN+1, ωN+1) = 0.
L'objectif est de, simultanément, minimiser V (xk, uk, ωk) par uk = u∗k(xk) (Joueur 1) et
maximiser V (xk, uk, ωk) par ωk = ω∗k(xk) (Joueur 2). Une telle solution, (u∗k, ω∗k), si elle
existe est basée sur le théorème suivant, inspirée de celui de la commande optimale non
linéaire H2 (Chen and Jagannathan (2008)) et des travaux de Mehraeen et al. (2009) et
Zhang et al. (2009)
37
Chapitre 1. Commande H∞ non linéaire
Thèoreme 5.1. Considérant un jeu diérentiel à deux joueurs et à somme nulle. Un
point-selle (u∗k, ω∗k) est une solution du jeu, c.à.d.
V (xk, u∗k, ω) ≤ V (xk, u
∗k, ω
∗k) ≡ V ∗(xk) ≤ V (xk, uk, ω
∗k) ∀u, ∀ω
ou
V ∗(xk) = minuk
maxωk
V (xk, uk, ωk)
= max
ωk
minuk
V (xk, uk, ωk)
(1.71)
si et seulement si V ∗(xk) est solution de l'équation HJI discrète suivante
0 = ‖hk‖2 − 1
4
∂V ∗(xk+1)
∂xk+1
1
γ2g1(xk)g
T1 (xk)− g2(xk)g
T2 (xk)
∂TV ∗(xk+1)
∂xk+1
+ V ∗(xk+1)− V ∗(xk) (1.72)
Démonstration. Soit la fonction Hamiltonienne suivante associée au jeu diérentiel (1.65)-
(1.69)
H(xk, uk, ωk) = V (f(xk) + g1(xk)ωk + g2(xk)uk, uk, ωk)− V (xk, uk, ωk)
+ ‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2 (1.73)
En utilisant le développement en série de Taylor d'ordre 1 de V (xk+1, uk, ωk) autour de
xk
V (xk+1, uk, ωk) = V (xk, uk, ωk) +∂V (xk+1, uk, ωk)
∂xk+1
(xk+1 − xk) (1.74)
la fonction Hamiltonienne devient
H(xk, uk, ωk) =∂V (xk+1, uk, ωk)
∂xk+1
(f(xk) + g1(xk)ωk + g2(xk)uk − xk)
+ ‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2
Les conditions nécessaires d'optimalité de Bellman, c.à.d, ∂H/∂uk = 0, ∂H/∂ωk = 0
donnent
∂H(xk, uk, ωk)
∂uk= 2uk + gT2 (xk)
∂TV (xk+1, uk, ωk)
∂xk+1
= 0
∂H(xk, uk, ωk)
∂ωk= −2γ2ωk + gT1 (xk)
∂TV (xk+1, uk, ωk)
∂xk+1
= 0
Le point-selle est donc donné par la meilleure et la pire stratégie du jeu diérentiel sui-
38
Chapitre 1. Commande H∞ non linéaire
vantes
u∗k = −1
2gT2 (xk)
∂TV ∗(xk+1)
∂xk+1
(1.75)
ω∗k =1
2γ2gT1 (xk)
∂TV ∗(xk+1)
∂xk+1
(1.76)
Maintenant, d'après la dénition de V ∗(xk) (1.71), l'équation suivante s'obtienne
V ∗(xk) = ‖h1(xk)‖2 + ‖u∗k‖2 − γ2‖ω∗k‖2 + V ∗(xk+1) (1.77)
qui peut être réécrite sous la forme suivante
0 =∂V ∗(xk+1)
∂xk+1
(f(xk) + g1(xk)ω∗k + g2(xk)u
∗k − xk) + ‖h1(xk)‖2 + ‖u∗k‖2− γ2‖ω∗k‖2 (1.78)
Si nous remplaçons les équations (1.75) et (1.76) dans (1.78) l'équation HJI discrète (1.72)
découle facilement.
Remarque 5.1. Puisque le système discret (1.65) est ane en commande uk et en pertur-
bation ωk, et le Hamiltonien H(xk, uk, ωk) est quadratique en uk et ωk, nous avons
∂2H(xk, uk, ωk)/∂u2k = 2 > 0 et ∂2H(xk, uk, ωk)/∂ω
2k = −2γ2 < 0. Donc
H(xk, u∗k, ωk) ≤ H(xk, u
∗k, ω
∗k) ≤ H(xk, uk, ω
∗k) (1.79)
et
H(xk, u∗k, ω
∗k) = V ∗(xk+1)− V ∗(xk) + ‖h1(xk)‖2 + ‖u∗k‖2 − γ2‖ω∗k‖2 = 0 (1.80)
Le théorème précédant nous a donné la solution, (u∗k, ω∗k), du jeu diérentiel non co-
opératif associé à la commande H∞ par retour d'état, par contre le principal théorème
traitant l'atténuation des perturbations et la stabilité asymptotique est le suivant.
Thèoreme 5.2. (Lin and Byrnes, 1996) Soit γ > 0 et l'hypothèse suivante
H1) Le système suivant
xk+1 = f(xk) + g1(xk)ω∗k + g2(xk)u
∗k (1.81)
possède un point d'équilibre xk = 0 asymptotiquement stable.
S'il existe une fonction V ∗, solution de l'équation HJI discrète (1.72) ou (1.78), alors, avec
la loi de commande (1.75), le système en boucle fermée (1.65)-(1.75) est asymptotiquement
stable et possède un L2-gain ≤ γ.
Démonstration. D'après (1.79) et (1.80), l'inégalité suivante découle
H(xk, u∗k, ωk) ≤ 0
39
Chapitre 1. Commande H∞ non linéaire
ou
V (xk+1, u∗k, ωk)− V (xk, u
∗k, ωk) ≤ γ2‖ωk‖2 − (‖h1(xk)‖2 + ‖u∗k‖2)︸ ︷︷ ︸
‖zk‖2|uk=u∗k
(1.82)
Donc le système déni par son entrée ωk et sa sortie zk est dissipatif pour une fonction
de stockage V (xk, u∗k, ωk) et par conséquence possède un L2-gain ≤ γ (voir 2.6).
Pour démontrer la stabilité du système, nous posons ωk = 0 dans l'équation (1.82), ce qui
donne une stabilité au sens de Lyapounov du point d'équilibre xk = 0 du système
xk+1 = f(xk) + g2(xk)u∗k
Pour démontrer la stabilité asymptotique nous avons besoin d'une analyse plus ne.
Le développement en série de Taylor, d'ordre deux, de H(xk, u∗k, ωk) autour de ω
∗k donne
H(xk, u∗k, ωk) = H(xk, u
∗k, ω
∗k) +
1
2(ωk − ω∗k)TR22(ωk − ω∗k) +O(‖ωk − ω∗k‖)
où R22 = ∂2H(xk, u∗k, ωk)/∂
2ωk|ωk=ω∗k= −2γ2 < 0.
Puisque H(xk, u∗k, ω
∗k) = 0, et en posant ωk = 0, il vient que
H(xk, u∗k, 0) =
1
2(ω∗k)
TR22(ω∗k) ≤1
4(ω∗k)
TR22(ω∗k)
ou
V (xk+1, u∗k, 0)− V (xk, u
∗k, 0) ≤ −‖zk‖2 +
1
4(ω∗k)
TR22(ω∗k) ≤ 0
Maintenant, si nous imposons l'égalité suivante V (xk+1, u∗k, 0) − V (xk, u
∗k, 0) = 0 nous
aurons (ω∗k)TR22(ω∗k) = 0. Cette dernière relation est équivalente à trouver une matrice
L(xk) tel que
y(xk) , L(xk)ω∗k = 0, avec, LT (xk)L(xk) = −R22
Avec cette nouvelle variable ctive le système discret en boucle fermée devient
xk+1 = f(xk) + g1(xk)u∗k + g2(xk)ω
∗k + d(xk)y(xk)
où d(xk) = −g1(xk)L−1(xk).
Il est clair que toute trajectoire xk vériant y(xk) = 0 est aussi une trajectoire du système
(1.81). D'après l'hypothèse H1, nous avons y(xk) = 0 ⇒ limk→∞ xk = 0, donc, d'après
le principe d'invariance de LaSalle le point d'équilibre xk = 0 est asymptotiquement
stable.
Remarque 5.2. Le développement de la commande H∞ discrète est basée sur l'approxi-
mation d'ordre 1 de la fonction coût V (xk+1, uk, ωk) (1.74). En augmentant l'ordre à 2,
40
Chapitre 1. Commande H∞ non linéaire
l'analyse devienne plus rigoureuse. En eet, avec la notation suivante
∂TV ∗(xk+1)
∂xk+1
= ∇V ∗(xk+1) = ∇V ∗k+1 (1.83)
nous aurons la relation suivante
∇V ∗k+1 = ∇V ∗k +∇2V ∗k (xk+1 − xk)
= ∇V ∗k +∇2V ∗k (f(xk) + g1(xk)ω∗k + g2(xk)u
∗k − xk) (1.84)
où
∇2Vk =
∂2V (x)
∂x21
∂2V (x)∂x1x2
· · · ∂2V (x)∂x1xn
∂2V (x)∂x2x1
∂2V (x)
∂x22· · · ∂2V (x)
∂x2xn...
.... . .
...∂2V (x)∂xnx1
∂2V (x)∂xnx2
· · · ∂2V (x)∂x2n
x=xk
(1.85)
En substituant (1.84) dans (1.75) et (1.76), nous obtiendrons respectivement
u∗k = −1
2gT2 (xk)
(∇V ∗k +∇2V ∗k (f(xk) + g1(xk)ω
∗k + g2(xk)u
∗k − xk)
)(1.86)
ω∗k =1
2γ2gT1 (xk)
(∇V ∗k +∇2V ∗k (f(xk) + g1(xk)ω
∗k + g2(xk)u
∗k − xk)
)(1.87)
avec V ∗ est le coût optimum donné par l'équation (1.71).
En substituant les équation (1.86) et (1.87) dans l'hamiltonien, l'équation HJI discrète
devient
0 =∂V (xk+1, u
∗k, ω
∗k)
∂xk+1
(f(xk) + g1(xk)ω∗k + g2(xk)u
∗k − xk)
+1
2(f(xk) + g1(xk)ω
∗k + g2(xk)u
∗k − xk)T ·
∂2V (xk+1, u∗k, ω
∗k)
∂x2k+1
·
(f(xk) + g1(xk)ω∗k + g2(xk)u
∗k − xk)
+ ‖h1(xk)‖2 + ‖u∗k‖2 − γ2‖ω∗k‖2 (1.88)
6 Commande H∞ non linéaire par retour de sortie
6.1 Formulation mathématique du probléme
Dans cette section le problème de la commande par retour de sortie des systèmes non
linéaires anes est envisagé. La démarche à suivre est similaire à celle da la partie 3.5.
Rappelons que la forme ane en entrée (commande et exogène) du système (1.10) est
41
Chapitre 1. Commande H∞ non linéaire
décrite par
x = f(x) + g1(x)ω + g2(x)u
z = h1(x) + k11(x)ω + k12(x)u (1.89)
y = h2(x) + k21(x)ω
La description des trois équations (1.89) est déjà donnée dans 3.1.
Comme dans 4.1, les fonctions f(x), g1(x), g2(x), h1(x), h2(x), k11(x), k12(x) et k21(x) sont
des fonctions non linéaires lisses (c.à.d C∞) au voisinage de l'origine de <n. On suppose
aussi, et sans perdre de généralité, que l'origine est un point d'équilibre, c.à.d f(0) = 0,
h1(0) = 0 et h2(0) = 0.
L'objectif de la commande H∞ par retour de sortie est de trouver une loi de commande
ξ = η(ξ, y)
u = θ(ξ) (1.90)
avec η(0, 0) = 0 et θ(0) = 0 tel que le système non linéaire en boucle fermée (1.89)-(1.90)
possède les deux propriétés suivantes
1. soit asymptotiquement stable ;
2. ait un L2-gain inférieur ou égal à un niveau γ donné, c.à.d. pour tout T ≥ 0 et
ω ∈ L2(0, T ), on ait ∫ T
0
‖z(τ)‖2dτ ≤ γ2
∫ T
0
‖ω(τ)‖2dτ (1.91)
Dans le but de simplier l'analyse et d'obtenir une expression raisonnable de la loi de com-
mande par retour de sortie, nous supposons que les fonctions non linéaires caractérisant
le système (1.89) obéissent aux hypothèses simplicatrices de (DGKF) suivantes
k11(x) = 0
hT1 (x)k12(x) = 0
kT12(x)k12(x) = I (1.92)
k21(x)gT1 (x) = 0
k21(x)kT21(x) = I
La description des trois premières hypothèses a été déjà détaillée. Les quatrième et cin-
quième hypothèse ont une interprétation duale que les précédentes. Relaxer ces hypothèses
est possible, mais la formulation mathématique du problème devient plus complexe.
42
Chapitre 1. Commande H∞ non linéaire
6.2 Loi de commande par retour de sortie
Avant d'aborder le théorème principal de la commande par retour de sortie, la notion
suivante de détectabilité doit être rappelée.
Dénition 6.1. Supposant que f(0) = 0 et h(0) = 0. La paire (f, h) est dite localement
détectable s'il existe un voisinage U du point x = 0 tel que, si x(t) est toute trajectoire
du système x = f(x) qui vérie x(0) ∈ U , alors h(x(t)) = 0 pour tout t ≥ 0 implique
limt→∞ x(t) = 0
Le théorème suivant résout le problème de l'atténuation des perturbations tout en
assurant la stabilité asymptotique du système en boucle fermée.
Thèoreme 6.1. (Isodori and Astol (1992), Isidori and Kang (1995))
Considérant le système (1.89) et supposant ce qui suit
H1 La paire (f, h1) est localement détectable,
H2 Il existe une fonction lisse dénie positive V (x) autour de l'origine de <n et solution
de l'équation HJI suivante
Vx(f(x) + g1(x)ω∗(x) + g2(x)u∗(x)
)+ ‖h1(x)‖2 + ‖u∗(x)‖2− γ2‖ω∗(x)‖2 = 0 (1.93)
avec
ω∗(x) =1
2γ2gT1 (x)V T
x u∗(x) = −1
2gT2 (x)V T
x
H3 Il existe une matrice de gains, G, de taille n×n tel que le point d'équilibre du système
ξ = f(ξ) + g1(ξ)ω∗(ξ)−Gh2(ξ) (1.94)
est localement asymptotiquement stable,
H4 Il existe une fonction lisse semi-dénie positive W (x, ξ), localement dénie au voisi-
nage de <n × <n tel que W (0, ξ) > 0 pour ξ 6= 0 et qui est solution de l'équation
HJI suivante
[Wx Wξ]fe(x, ξ) + hTe (x, ξ)he(x, ξ) + γ2ΦT (x, ξ)Φ(x, ξ) = 0 (1.95)
avec
fe(x, ξ) =
[f(x) + g1(x)ω∗(x) + g2(x)u∗(ξ)
f(ξ) + g1(ξ)ω∗(ξ)− g2(ξ)u∗(ξ) +G(h2(x)− h2(ξ))
]he(x, ξ) = u∗(ξ)− u∗(x)
Φ(x, ξ) =1
2γ2(Wxg1(x) +WξGk21(x))T
43
Chapitre 1. Commande H∞ non linéaire
alors la commande par retour de sortie suivante
ξ = f(ξ) + g1(ξ)ω∗(ξ) + g2(ξ)u∗(ξ) +G(y − h2(ξ))
u = u∗(ξ) (1.96)
stabilise le système (1.89) asymptotiquement et le rend dissipatif avec un L2-gain ≤ γ.
Démonstration. La démonstration est similaire à celle donnée dans le cas de la commande
par retour de sortie des systèmes non linéaires généraux. Dans ce qui suit nous donnons
seulement un aperçu.
Le Hamiltonien
H(x, ω, u) = Vx(f(x) + g1(x)ω(x) + g2(x)u(x)
)+ ‖h1(x)‖2 + ‖u(x)‖2 − γ2‖ω(x)‖2
est quadratique par rapport à (ω, u).
Suivant l'hypothèse H2 on a Vxg2(x) = −2uT∗ (x) et Vxg1(x) = 2γ2ωT∗ (x), d'où
H(x, ω∗, u∗) = Vxf(x) + 2γ2‖ω∗(x)‖2− 2‖u∗(x)‖2 + ‖h1(x)‖2 + ‖u∗(x)‖2− γ2‖ω∗(x)‖2 = 0
Donc, en complétant les carrés nous obtiendrons
Vx(f(x)+g1(x)ω+g2(x)u
)= ‖u−u∗‖2−γ2‖ω−ω∗‖2−‖h1(x)‖2−‖u‖2−γ2‖ω‖2 (1.97)
Observant maintenant que le système en boucle fermée (1.89)-(1.96) peut être écrit sous
la forme augmentée suivante
xe = fe(x, ξ) + ge(x)(ω − ω∗)
où xe = [x ξ]T et
ge(x) =
[g1(x)
Gk21(x)
]La quantité
He(x, ξ, r) = (Wx Wξ)(fe(x, ξ) + ge(x, ξ)r
)+ hTe (x, ξ)he(x, ξ)− γ2rT r
est quadratique par rapport à r et en utilisant l'hypothèse H4 on obtient
He(x, ξ,Φ(x, ξ)) = 0
44
Chapitre 1. Commande H∞ non linéaire
Alors l'égalité suivante découle facilement
(Wx Wξ)(fe(x, ξ) + ge(x, ξ)(ω − ω∗(x))
)=
− γ2‖ω − ω∗(x)− Φ(x, ξ)‖2 − ‖u∗(ξ)− u∗(x)‖2 + γ2‖ω − ω∗(x)‖2 (1.98)
Pour démontrer la stabilité asymptotique du système en boucle fermée, nous utilisons la
fonction de Lyapounov suivante
U(x, ξ) = V (x) +W (x, ξ)
qui est, par construction, dénie positive. En posant ω = 0 et en utilisant (1.97) et (1.98)
nous aurons
dU
dt= −‖h1(x)‖2 − ‖u∗(ξ)‖2 − γ2‖ω∗(x) + Φ(x, ξ)‖2 ≤ 0
Cela démontre la stabilité du point d'équilibre (x, ξ) = (0, 0) du système en boucle fermée.
Pour démontrer la stabilité asymptotique du point d'équilibre, remarquant que n'importe
quelle trajectoire vériantdU(x(t), ξ(t))
dt= 0
est telle que h1(x(t)) = 0 et u∗(ξ) = 0 pour t ≥ 0. Par conséquence, le système en boucle
fermée devient
x = f(x)
z = h1(x)
ξ = f(ξ) + g1(ξ)ω∗(ξ) +G(h2(x)− h2(ξ))
D'après l'hypothèse H1, on a h1(x) = 0 implique limt→∞ x(t) = 0, et comme h2(0) = 0 et
d'aprèsH3, nous obtiendrons ξ = 0 est asymptotiquement stable. Finalement, en utilisant
le concept de la stabilité asymptotique des systèmes en cascade (voir 2.5) et le théorème
de LaSalle, nous concluons que le point d'équilibre (x, ξ) = (0, 0) est asymptotiquement
stable.
Pour démontrer la propriété de l'atténuation des perturbations (L2-gain ≤ γ) avec ω 6= 0,
nous utilisons le fait que
dU
dt= −‖h1(x)‖2 − ‖u∗(ξ)‖2 + γ2‖ω‖2 − γ2‖ω − ω∗(x)− Φ(x, ξ)‖2
45
Chapitre 1. Commande H∞ non linéaire
En intégrant dU/dt de t = 0 à t = T ≥ 0 nous obtiendrons∫ T
0
‖z(t)‖2dt ≤ γ2
∫ T
0
‖ω(t)‖2dt− γ2
∫ T
0
‖ω − ω∗(x)− Φ(x, ξ)‖2dt+ U(0)− U(T )
≤ γ2
∫ T
0
‖ω(t)‖2dt
Ce qui termine la démonstration.
6.2.1 Calcul de la matrice gain G
Il a été démontré, dans la section 3.5, que la matrice gain, G, est donnée en fonction
de y∗, le minimum du Hamiltonien K donné par l'équation (1.25). Pour les systèmes non
linéaires anes, cette équation devienne
K(x,W Tx , ω, y) = Wx(f + g1ω)− yT (h2 + k21ω) + ‖h1‖2 − γ2‖ω‖2 (1.99)
Pour calculer le point-selle du Hamiltonien K donné par (1.99), (y∗, ω∗∗) nous procédons
comme suit :
Tout d'abord nous calculons ω = ω tel que
∂K
∂ω(x,W T
x , ω, y)
∣∣∣∣ω=ω
= 0
ce qui donne
ω(x,Wx, y) =1
2γ2(gT1 Wx − kT21(x)y) (1.100)
Si nous utilisons les hypothèses simplicatrices données par (1.92), l'équation (1.99) de-
vient
K(x,W Tx , ω, y) = W T
x f −1
4γ2(yTy −W T
x g1gT1 Wx)− yTh2 + ‖h1‖2
Ensuite nous calculons y∗ par
∂K
∂y(x,W T
x , ω, y)
∣∣∣∣y=y∗(x,Wx)
= 0 (1.101)
ce qui donne
y∗(x,Wx) = 2γ2h2(x) (1.102)
Substituant (1.102) dans (1.100) donne
ω∗∗(x,Wx) = ω(x,Wx, y∗) =1
2γ2gT1 Wx − kT21(x)h2(x) (1.103)
Finalement, le calcul de la matrice G, connaissant y∗ se fait par la même méthode détaillée
dans la remarque 3.2 concernant les systèmes non linéaires générales
46
Chapitre 1. Commande H∞ non linéaire
1 Extraire R1(x) de xTR1(x) = Wx(x)− Vx(x)
2 Extraire L(x) de xTL(x) = 2γ2hT2 (x)
3 Calculer la matrice des gains G(x) = R−11 (x)L(x).
6.3 Cas Particulier : Systèmes linéaires anes
Dans cette section, nous présentons les travaux d'Isodori et Astol (Isodori and Astol
(1992)), qui montrent que le problème de la commande H∞ par retour de sortie des
systèmes non linéaires anes est solvable par la commande H∞ par retour de sortie des
systèmes linéaires anes autour du point d'équilibre.
Proposition 6.1. (Isodori and Astol (1992)) Soit le système linéaire décrit par
x = Ax+B1ω +B2u
z = C1x+D12u (1.104)
y = C2x+D21ω
Supposant les hypothèses suivantes
L1 La paire (A,B1) est stabilisable.
L2 La paire (A,C1) est détectable.
L3 Il existe une matrice symétrique dénie positive X solution de l'équation algébrique
de Riccati suivante
ATX +XA+ CT1 C1 −XB2B
T2 X +
1
γ2XB1B
T1 X = 0 (1.105)
L4 Il existe une matrice symétrique dénie positive Y solution de l'équation algébrique
de Riccati suivante
Y AT + AY +B1BT1 − Y CT
2 C2Y +1
γ2Y CT
1 C1Y = 0 (1.106)
L5 ρ(XY ) < γ2, tel que ρ est le rayon spectral.
Alors les hypothèses H1 à H4 sont vériées avec
G = ZCT2 (1.107)
V (x) = xTXx
W (x, ξ) = γ2(x− ξ)TZ−1(x− ξ)
47
Chapitre 1. Commande H∞ non linéaire
où
Z = Y (I − 1
γ2XY )−1
Démonstration. Voir Isodori and Astol (1992)
Cette proposition, montre que le contrôleur par retour de sortie suivant
ξ = (A+B1F1 +B2F2)ξ +G(y − C2ξ)
u = F2ξ (1.108)
où F1 = (1/γ2)BT1 X, F2 = −BT
2 X, garantit la stabilité asymptotique du système (1.104),
avec un L2-gain ≤ γ.
7 Conclusion
Ce chapitre a été consacré d'une part à quelques rappels sur des concepts relatifs à la
stabilité (au sens de Lyapounov) et aux notions de passivité et dissipassivité.
D'autre part, nous avons présenté un état de l'art qui regroupe les diérentes stratégies
de commande H∞ par retour d'état et de sorties pour les systèmes non linéaires à temps
continu et à temps discret. Le problème de la commande par retour d'état peut être
résolu par le biais d'une équation HJI non linéaire à dérivée partielle. Cette dernière
est analytiquement dicile, voir même impossible à résoudre. Dans le cas où les entrées
sont contraintes à être bornées (saturées), l'équation HJI devienne plus complexe et sa
résolution plus dicile.
L'extension de la commande par retour d'état aux systèmes à temps discret est pré-
sentée. Par analogie avec le cas continu, nous avons obtenu une équation HJI discrète
dont la résolution est aussi analytiquement dicile voir impossible.
Finalement, nous avons présenté la commande H∞ par retour dynamique de sorties,
vu comme un observateur non linéaire à matrice des gains variables. Celle ci peut être
obtenue en résolvant deux équations de HJI, dont leurs solutions nous donne la matrice
des gains.
Nous pouvons constater que l'élément majeur qui revient à chaque fois que nous abordons
le problèmeH∞ non linéaire est les équations de HJI. Nous avons déjà parlé de la diculté
à résoudre analytiquement ces derniers.
Dans le chapitre qui suit, nous donnerons une méthode de résolution itérative dite des
itérations successives. Cette dernière hybridée avec les méthodes des résidus pondérés en
particulier la méthode de Galerkin nous donnera une approximation des solutions exactes
des HJI.
48
Chapitre 2
Solutions approximatives des équations
de HJI : Méthode de Galerkin
1 Introduction
Dans ce chapitre, les diérents problèmes de la commande H∞ non linéaires sont
résolus d'une manière itérative. En eet les équations de Hamilton-Jacobi-Isaac (HJI)
résultantes, d'une part de la commande par retour d'état continu et discret, et de la com-
mande par retour de sorties sont résolus par hybridation de la méthode des approximations
successives et de la méthode de Galerkin.
La méthode des approximations successives connue par "Policy Iteration Method" ou
"Iteration in Policy Space" a été initialement introduite par Saridis and Lee (1979). Les
auteurs ont introduit une méthode qui améliore une commande initiale tout en vériant
la solvabilité de l'équation de Hamilton-Jacobi-Bellman (HJB) dans le cas de la com-
mande optimale non linéaire. La méthode de résolution des HJB à chaque itération était
analytique et limitée à des classes de systèmes non linéaires. IL a fallu attendre les tra-
vaux de Beard et al. (1997), Beard and McLain (1998) pour avoir une hybridation entre
la méthode des approximations successives et la méthode de Galerkin pour résoudre la
HJB à chaque itération. Dans Beard et al. (1997), les auteurs ont transformé l'équation
HJB non linéaire en une séquence d'équations dites GHJB (HJB Généralisées) linéaires
et ont utilisé la méthode de Galerkin pour les résoudre. Dans Beard and McLain (1998),
Ils proposent la même méthodologie pour le cas des équations HJI dans le contexte de
la commande H∞ non linéaire. Dans Beard et al. (1997), Beard and McLain (1998) et
Abu-Khalaf et al. (2006), est présentée, entre autres, une démonstration de la stabilité de
l'algorithme des approximations successives.
Dans ce chapitre, nous proposons d'appliquer la méthode de Galerkin pour la syn-
thèse d'une loi de commande H∞ non linéaire par retour d'état des systèmes non linéaires
continus et discrets sans et avec contraintes (saturation) sur les entrées et par retour de
sorties. Des procédures de calculs des intégrales de Galerkin sont aussi données. On pré-
49
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
sente trois méthodes ; l'une est déterministe et est basée sur la discrétisation du domaine
d'intégration, la deuxième est stochastique et est basée sur la méthode de Monté-Carlo,
nalement, la troisième est analytique et est basée sur le calcul symbolique que proposent
plusieurs logiciels de calculs scientiques tel que Matlab et Mapple.
Le reste de ce chapitre est organisé comme suit : Dans la section 2 est présentée
la méthode des approximations successives comme donnée dans Beard et al. (1997) et
Beard and McLain (1998). Dans la section 3 est donnée la méthode des résidus pondérés
et dans 4 la méthode de Galerkin appliquée à la synthèse d'une commande continue
par retour d'état. Des résultats de simulation sont aussi présentés. Dans la section 5,
on propose l'application de la méthode de Galerkin pour résoudre le problème de la
commande H∞ non linéaire à horizon ni (à temps nal xe). La section 6 traite la
résolution des HJI discrètes par la méthode de Galerkin. Finalement, la résolution du
problème de la commande par retour de sortie est établie dans la section 7
2 Méthode des Approximations successives
Rappelons que l'équation HJI dans le cas de la commande H∞ par retour d'état du
système
x = f(x) + g1(x)ω + g2(x)u
z =
[h1(x)
u
](2.1)
est donnée par
Vx(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 + ‖u∗‖2 − γ2‖ω∗‖2 = 0 (2.2)
avec
u∗(x) = −1
2gT2 V
Tx (x) (2.3)
ω∗(x) =1
2γ2gT1 V
Tx (x) (2.4)
L'équation (2.2) peut être réécrite sous la forme suivante
H(x, Vx, ω∗, u∗) = 0 (2.5)
Une telle équation est non linéaire par rapport à Vx (dépendance de u∗ et ω∗ en fonction de
Vx) et à dérivée partielle, ce qui rend sa solvabilité analytiquement très dicile voire même
impossible. Néanmoins, on peut la résoudre en utilisant les approximations successives
(AS).
50
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
L'idée principale de cette méthode est de transformer (2.2) en une équation linéaire à
dérivée partielle dite équation HJI généralisée (GHJI) donnée par
Vx(f + g1ω + g2u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 = 0 (2.6)
La résolution par rapport à Vx de (2.6) se fait de la manière itérative suivante :
En partant d'une commande initiale u(0) stabilisante du système non linéaire (2.1) avec
une perturbation ω(i,j) = 0, dans une région appelée domaine de faisabilité Ω ; nous
commençons par résoudre, par rapport à Vx, l'équation (2.6) puis nous réactualisant la
perturbation par la loi suivante :
ω(i,j) =1
2γ2gT1 (x)V (i,j)
x (2.7)
jusqu'au |V (i,j+1)x − V (i,j)
x | < ε. Nous posons, ainsi, j =∞. Ensuite, nous réactualisons la
commande selon la loi
u(i) = −1
2gT2 (x)V (i,∞)
x (2.8)
jusqu'au |V (i+1,∞)x − V (i,∞)
x | < ε. Nous posons, ainsi, i = ∞. La solution nale de (2.2)
selon l'algorithme des AS est V (∞,∞)x .
Cet algorithme, proposé par Beart and Mcain dans (Beard et al., 1997), est interprété
comme un jeu diérentiel à deux joueurs et à somme nulle. En eet, étant donnée une
commande initiale, une boucle interne réactualise la perturbation ω jusqu'à ce qu'elle
devienne la pire stratégie maximisant le hamiltonien du jeu, H(x, Vx, ω, u), tandis que
la boucle externe réactualise, pour la perturbation obtenue, la commande u jusqu'à ce
qu'elle devienne la meilleure stratégie minimisant le hamiltonien du jeu.
L'algorithme des approximations successives est donnée par la gure 2.1.
Remarque 2.1. Le choix du domaine Ω est guidé par les conditions suivantes :
1. Le système x = f(x) + g2(x)u(0)(x) doit être asymptotiquement stable.
2. Le domaine Ω doit être fermé, continu et entourant le point d'équilibre du système.
La commande u(0)(x) est dite une commande faisable.
Remarque 2.2. On note que le problème de la commande H∞ optimal (recherche du γ
optimal) n'est pas solvable dans le cas non linéaire. Ceci est dû au fait qu'il n'existe pas
une méthode du calcul de la norme H∞ entre l'entrée exogène ω et la sortie z (le gain L2)
comme dans le cas linéaire. En eet, pour les systèmes linéaires la recherche de la norme
H∞ ou le gain L2 se fait par dichotomie (Zhou et al. (1995), Zhoo (1999)). Néanmoins,
on peut procéder comme suit pour trouver un γ sous-optimal :
1. Choisir une commande initiale u0(x) et xer γ
51
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
2. Si le problème H∞ non linéaire est solvable, réduire γ et prendre u0(x) = u∞
(u∞ est la commande résultante) puis refaire 2 (Algorithme 2.1) sinon aller à 1 en
augmentant γ.
La commande résultante est dite commande H∞ sous optimale.
1 Soit u(0)(x) une commande initiale stabilisante, dans un domaine Ω le système(2.1) avec ω = 0
2 Fixer γ un niveau d'atténuation initiale3 for i = 0 to ∞ do4 Fixer ω(i,0) = 05 for j = 0 to ∞ do
6 Résoudre pour V (i,j)x
7 V(i,j)x (f(x) + g1(x)ω(i,j) + g2(x)u(i)) + ‖h1‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2 = 0
8 Mise à jour de la perturbation
9 ω(i,j+1) = 12γ2gT1 (x)V
(i,j)x
10 end11 Mise à jour de la commande
12 u(i) = −12gT2 (x)V
(i,∞)x
13 end
14 Si l'équation HJI est solvable alors, réduire γ et aller à 3 avec u0(x) = u(∞)(x).
Figure 2.1 Approximations successives de la solution de l'équation HJI
La démonstration de la convergence de l'algorithme des approximations successives
peut être déduite par les lemmes suivants.
Lemme 2.1. (Beard et al., 1997)
Si pour tout (i, j) le système
x = f + g1ω(i,j) + g2u
(i) (2.9)
est asymptotiquement stable dans Ω, alors,
V (i,j)(x) ≤ V (i,j+1)(x) ≤ V (i,∞)(x) (2.10)
pour tout x ∈ Ω, où V (i,∞)(x) est la solution de l'équation HJI
V (i,∞)x (f + g2u
(i)) + ‖h1‖2 + ‖u(i)‖2 +1
4γ2V (i,∞)x g1g
T1 V
(i,∞)Tx = 0 (2.11)
En plus, si V (i,j+1)(x) = V (i,j)(x), alors V (i,j)(x)→ V (i,∞)(x).
Démonstration. Voir (Beard et al., 1997).
52
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Lemme 2.2. (Beard et al., 1997)
Si pour tout i, le système
x = f + g1ω(i,∞) + g2u
(i) (2.12)
est asymptotiquement stable dans Ω, alors
V (∞,∞)(x) ≤ V (i+1,∞)(x) ≤ V (i,∞)(x) (2.13)
pour tout x ∈ Ω, où V (∞,∞)(x) est la solution de l'équation HJI
V (∞,∞)x f + ‖h1‖2 +
1
4V (∞,∞)x
(1
γ2g1g
T1 − g2g
T2
)V (∞,∞)Tx = 0 (2.14)
En plus, si V (i+1,∞)(x) = V (i,∞)(x), alors V (i,∞)(x)→ V (∞,∞)(x).
Démonstration. Voir (Beard et al., 1997).
Lemme 2.3. (Beard et al., 1997)
Si u(i)(x) stabilise asymptotiquement le système (2.1) dans Ω, il est de même pour u(i+1)(x).
En plus, V (i,∞) est une fonction de Lyapunov pour u(i+1)(x).
Démonstration. Voir (Beard et al., 1997).
La résolution de (2.6) de manière analytique reste un chalenge, d'où on fait recours à
des approximations numériques basées sur la méthode des résidus pondérés.
3 Méthode des Résidus Pondérés
La méthode des résidus pondérés, ci-après abrégé en MWR (Method of Weighted Re-
siduals), est une méthode générale pour la résolution des équations intégro-diérentielles
et/ou aux dérivées partielles (Finlayson and Scriven (1966), Finlayson (1972)). La solu-
tion inconnue est étendue dans un ensemble de fonctions de bases, qui sont spéciées au
préalable, mais avec des constantes ou des fonctions ajustables.
La MWR est illustrée par l'application à la synthèse de la commande H∞ par retour
d'état en résolvant l'équation GHJI (2.6).
La méthode générale de résolution propose de représenter V (x), solution de (2.6) par sa
projection dans un sous-espace de dimension nie N , dont la base est dénie par les N
fonctions φi(x), c.à.d.
VN(x) =N∑k=1
ckφk(x) (2.15)
Les composantes scalaires ck deviennent les inconnues du problème et les fonctions de
base φk(x) sont choisies a priori en fonction de la connaissance qu'on peut avoir sur la
solution exacte V (x). Les méthodes de résolution approximatives sont donc des techniques
53
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
qui permettent le calcul des composantes ck de la solution approchée dans le sous espace
de recherche. Il est bien évident que si la solution exacte du problème appartient à ce
sous-espace, la technique de calcul des composantes ck doit donner la solution exacte.
3.1 Approximation polynomiale
Dans les exemples cités si-après les fonctions de base seront choisis polynomiales paires.
En plus si l'ordre du système, dont le problème H∞ est issu, est n et l'ordre de l'approxi-
mation est M , ces fonctions seront les termes du développement du polynôme suivant
M/2∑j=1
( n∑k=1
xk
)2j
(2.16)
Dans le cas où n = 2, les fonctions de base seront
x21, x1x2, x
22, x
41, x
31x2, x
21x
22, x1x
32, x
42, · · · , xM2
3.2 Formulation intégrale normale
On appelle résidus, la diérence entre l'équation généralisée de HJI (GHJI) pour VN(x),
l'approximation de V aux étapes (i, j) (des mises à jour de ω et u) et l'équation GHJI
pour V (x), nous le notons par R et est donné par
R(c, x) = GHJI(V(i,j)N (x))−GHJI(V (x)) (2.17)
avec
GHJI(V(i,j)N (x)) =
N∑k=1
ckφk,x(x)
(f(x) + g1(x)ω(i,j) + g2(x)u(i)
)+ ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2
GHJI(V (x)) = Vx(f + g1ω + g2u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 = 0
et φk,x(x) = ∂φk∂x
.
Si la solution approximative (2.15) est une solution exacte alors le résidu est égal à 0,
sinon nous devons chercher les coecients ck en forçant le résidu à être nul au sens des
intégrales normales pondérées suivantes∮Ω
R(c, x)wldΩ = 0, l = 1, · · · , N (2.18)
Intuitivement, nous pouvons remarquer que les équations (2.17) et (2.18) sont équivalentes
quelque soit les fonctions de pondération wl. Il s'agit d'une projection de l'équation (2.17)
54
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
sur les fonctions wl.
En combinant (2.17) et (2.18) nous obtiendrons
N∑k=1
ck
∮Ω
φk,x(x)
(f(x) + g1(x)ω(i,j) + g2(x)u(i)
)wldΩ
= −∮
Ω
(‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2
)wldΩ (2.19)
Une forme matricielle plus compacte est donnée comme suit
N∑k=1
Bklck = dl (2.20)
où Bkl =∮
Ωφk,x(x)
(f(x)+g1(x)ω(i,j) +g2(x)u(i)
)wldΩ et dl = −
∮Ω
(‖h1(x)‖2 +‖u(i)‖2−
γ2‖ω(i,j)‖2
)wldΩ.
Puisque les fonctions de base φl(x) sont connues et les poids wl sont dénies ci-dessous,
alors les Bkl et dl peuvent être facilement obtenues donnant la solution approximative
(2.15).
Dans la section suivante nous donnons les diérentes formes des fonctions de pondération
wl qui donnent la diversité de la méthode des résidus pondérés.
3.3 Les méthodes des résidus pondérés
Les fonctions de pondération peuvent être choisies de diérentes manières et chaque
choix correspond à un critère diérent de la MWR. Par exemple, nous pourrions diviser
le domaine Ω en N sous-domaines plus petits, Ωl, et choisir
wl =
1 si x ∈ Ωl;
0 sinon.(2.21)
Cette méthode est dite méthode des sous-domaines (subdomain method). Initiée en 1923
par les ingénieurs hollandais, Biezeno et Koch, elle fut appliquée aux problèmes de stabilité
des poutres, tiges et plaques (Finlayson and Scriven (1966), Lindgren (2009)).
Dans la méthode de collocation (Finlayson and Scriven (1966), Lindgren (2009)), les
fonctions de pondération sont choisies comme des fonctions de Dirac
wl = δ(x− xl) (2.22)
qui possèdent la propriété suivante :∮
ΩRwldΩ = R|xl .
Dans la méthode des moments (Lindgren (2009)), les fonctions de pondération sont don-
55
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
nées par les polynômes suivants
wl = xl (2.23)
La méthode des moindres carrés a été introduite par Gauss en 1795 . Le travail n'a été
publié qu'en 1809. Legendre a publié les mêmes idées en 1806. Dans la MWR, la méthode
des moindres carrés est utilisée en choisissant comme fonctions de pondérations
wl =∂R
∂cl(2.24)
de telle façon à minimiser le critère des moindres carrés suivant : I(cl) =∮RTRdx.
Une des méthodes d'approximation les plus connues est celle développée par l'ingénieur
russe Galerkin en 1915. Les fonctions de pondération sont, tout simplement, les fonctions
de base (Finlayson and Scriven (1966), Finlayson (1972)), c.à.d.
wl = φl(x) (2.25)
Dans ce qui suit nous présenterons une technique de synthèse de la commande H∞ non
linéaire basée sur les approximations successives hybridées avec la méthode de Galerkin.
4 Méthode de Galerkin appliquée à la synthèse de la
commande H∞ par retour d'état -Cas continu
4.1 Algorithme de Galerkin
Soit u(0) : Ω → Rm une loi de commande stabilisante asymptotiquement le système
non linéaire (2.1) dans le domaine Ω. Soit φk(x), k = 1, · · · , N un ensemble de fonctions
de base. Réécrivons la solution approximative de (2.6) donnée par (2.15) sous la forme
VN(x) =N∑k=1
ckφk(x) = cTΦ(x) (2.26)
avec cT =[c1 · · · cN
]et Φ(x) =
[φ1(x) · · · φN(x)
]T.
Avec le choix des fonctions de pondération donné par (2.25), l'équation (2.19) devienne
N∑k=1
ck
∮Ω
φk,x(x)
(f(x) + g1(x)ω(i,j) + g2(x)u(i)
)φl(x)dΩ =
−∮
Ω
(‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2
)φl(x)dΩ (2.27)
56
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
ou sous forme matricielle plus compacte
(A1 + A2(ω(i,j)) + A3(u(i)))c = b1 + γ2b2(ω(i,j)) + b3(u(i)) (2.28)
avec :
A1 =
∮Ω
ΦfT (x)∇ΦTdΩ (2.29)
A2(ω(i,j)) =
∮Ω
Φω(i,j)TgT1 (x)∇ΦTdΩ (2.30)
A3(u(i)) =
∮Ω
Φu(i)TgT2 (x)∇ΦTdΩ (2.31)
et
b1 = −∮
Ω
Φ‖h1(x)‖2dΩ (2.32)
b2(ω(i,j)) =
∮Ω
Φ‖ω(i,j)‖2dΩ (2.33)
b3(u(i)) = −∮
Ω
Φ‖u(i)‖2dΩ (2.34)
où ∇Φ =[φ1,x · · · φN,x
]=[dφ1/dx · · · dφN/dx
].
La solution est donc donnée par
c =
(A1 + A2(ω(i,j)) + A3(u(i))
)−1(b1 + γ2b2(ω(i,j)) + b3(u(i))
)(2.35)
Pour démontrer l'unicité de la solution, c.à.d. rang(A1 +A2(ω(i,j)) +A3(u(i))) = N , nous
utiliserons les résultats données dans le cas de la résolution de l'équation HJB dans le
cas de la commande H2 non linéaire (Beard et al. (1997)). Les lemmes suivants sont une
extension au cas des équations HJI.
Lemme 4.1. (Abu-Khalaf, 2004), (Abu-Khalaf, 2005a)
Si les fonctions de bases φk(x)∞1 sont linéairement indépendantes, c.à.d.∑k
ckφk(x) = 0⇒ ck = 0, ∀k
alors l'ensemble ∂φk(x)∂x
F (x, ω(i,j), u(i))N1 est linéairement indépendant,
avec F (x, ω(i,j), u(i)) = f(x) + g1(x)ω(i,j) + g2(x)u(i).
Démonstration. Cette démonstration est similaire à celle donnée dans Beard et al. (1997),
concernant l'application de la méthode de Galerkin dans la commande H2 non linéaire.
57
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Nous omettrons les indices i, j.
Si F (x, ω, u) est asymptotiquement stable, alors nous aurons, le long de la trajectoire de
x notée ϕ(t;x0, ω, u), avec x0 ∈ Ω
φ(x0) = −∫ ∞
0
dφ
dτ(ϕ(τ ;x0, ω, u))dτ
= −∫ ∞
0
∂φ
∂xF (x, ω, u)(ϕ(τ ;x0, ω, u))dτ
Maintenant, en supposant que le lemme n'est pas vrai, c.à.d. il existe un vecteur non nul
c tel que
cT∇Φ(x)F (x, ω, u) = 0
nous obtiendrons, pour tout x0 ∈ Ω,∫ ∞0
cT∇Φ(x)F (x, ω, u)(ϕ(τ ;x0, ω, u))dτ = 0
⇒ cT∫ ∞
0
∇Φ(x)F (x, ω, u)(ϕ(τ ;x0, ω, u))dτ = 0
⇒ cTΦ(x0) = 0
Ce qui est contradictoire avec l'indépendance linéaire de φi(x)N1 .
Le lemme suivant donne une condition d'inversibilité de la matrice A1 +A2(ω)+A3(u).
Tout d'abord, nous supposons que ∂φj∂xF (x, ω, u) peut être écrite en combinaison linéaire
par rapport à l'ensemble φj(x)∞1 , c.à.d.
∂φj∂x
F (x, ω, u) =∞∑k=1
djkφk = djΦ (2.36)
Lemme 4.2. (Abu-Khalaf et al., 2006)
Si l'ensemble φj(x)∞1 est linéairement indépendant et si∂φj∂xF (x, ω, u) vérie (2.36),
alors
rang
(∮Ω
ΦF (x, ω, u)T∇ΦTdΩ
)= N
Démonstration. Il est facile d'écrire∮Ω
ΦF (x, ω, u)T∇ΦTdΩ =
∮Ω
ΦΦTdΩD
avec D = [d1, · · · ,dN ].
Nous concluons donc que rang(A1 +A2(ω) +A3(u)) = N puisque rang(∮
ΩΦΦTdΩ) = N
(φj(x)∞1 est linéairement indépendant).
Beard et McLain dans Beard and McLain (1998) donne une méthode de calcul des
intégrales dans A2(ω), A3(u), b2(ω) et b2(u) réduisant ainsi le temps de calcul de ces
58
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
derniers. En eet, en utilisant le point-selle de l'équation HJI (2.6) donnée par le couple
(ω∗,u∗) suivant
ω∗ =1
2γ2gT1 (x)V T
x,N =1
2γ2gT1 (x)
N∑k=1
ckφx,k =1
2γ2gT1 (x)∇ΦTc
u∗ = −1
2gT2 (x)V T
x,N = −1
2gT2 (x)
N∑k=1
ckφx,k = −1
2gT2 (x)∇ΦTc
avec Vx,N = ∂VN (x)∂x
.
les termes donnés dans (2.30), (2.31), (2.33) et (2.34) deviennent
A2(c) =1
2γ2
∮Ω
cT∇Φg1gT1∇ΦTΦdΩ
=1
2γ2
N∑k=1
ck
∮Ω
∂φk∂x
g1gT1∇ΦTΦdΩ︸ ︷︷ ︸G1i
=1
2γ2
N∑k=1
ckG1k (2.37)
A3(c) = −1
2
∮Ω
cT∇Φg2gT2∇ΦTΦdΩ
= −1
2
N∑k=1
ck
∮Ω
∂φk∂x
g2gT2∇ΦTΦdΩ︸ ︷︷ ︸Kk
= −1
2
N∑k=1
ckKk (2.38)
de même on trouve
b2(c) =1
4γ2
N∑k=1
ckG1kc (2.39)
b3(c) =1
4
N∑k=1
ckKkc (2.40)
Les intégrales A2(c), A3(c), b2(c) et b3(c) peuvent être calculées de manière itérative une
fois les matrices G1k et Kk obtenues. D'où l'algorithme de Galerkin pour la synthèse de
la commande H∞ par retour d'état donné par la gure 2.2.
59
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Input : N un entier positif, ε un nombre susamment petitInput : u(0)(x) commande initialeInput : A1, A3(u(0)(x)), b1, b3(u(0)(x)), G1i, Ki, i = 0, · · · , NInput : Φ(x) vecteur des fonctions de base
1 Fixer γ un niveau d'atténuation initiale2 Fixer cold1 , cold2 susamment grand;3 for i = 0 to ∞ do4 Fixer ω(i,0) = 05 if i == 0 then6 A(i) = A1 + A3(u(0)(x))
7 b(i) = b1 − b3(u(0)(x))
8 else
9 A(i) = A1 − 12
∑Nk=1 c
(i−1)k Kk
10 b(i) = b1 − 14
∑Nk=1 c
(i−1)k Kkc
(i−1)k
11 end12 for j = 0 to ∞ do13 if j == 0 then14 A = A(i) b = b(i)
15 else
16 A = A(i) + 12γ2
∑Nk=1 c
(i,j−1)k G1k
17 b = b(i) + 14γ2
∑Nk=1 c
(i,j−1)k G1kc
(i,j−1)k
18 end
19 c(i,j) = A−1b
20 if ‖c(i,j) − cold1‖ ≤ ε then
21 j =∞22 else23 cold1 = c(i,j)
24 end
25 end
26 if ‖c(i,∞) − cold2‖ ≤ ε then
27 i =∞28 else29 cold2 = c(i,∞)
30 end
31 end32 S'il y'a convergence de c, alors réduire γ et retour à l'étape 3 avec
u0(x) = −1/2gT2 (x)∇ΦTc(∞,∞)
33 Sauvegarder c(∞,∞).
Figure 2.2 Algorithme de la méthode de Galerkin pour la commande H∞ par retour d'état
4.2 Les méthodes d'implémentations
Avant de survoler quelques méthodes d'implémentation de la méthode de Galerkin,
nous présentons des conditions sur la dynamique du système pouvant réduire considé-
60
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
rablement le temps de calcul des intégrales en réduisant le nombre N des fonctions de
base.
4.2.1 Réduction de N .
Il est clair que lorsque n et N augmentent les calcules des intégrales multiples gu-
rants dans les équations (2.29) à (2.34) deviennent fastidieux , néanmoins nous montrons
par la suite que, sous certaines conditions, nous pouvons réduire N considérablement. La
motivation vient du fait que si f est une fonction mono dimensionnelle impaire alors on
a∫ a−a fdx = 0. Pour faire une généralisation, nous commençons par un certain nombre de
dénitions :
Dénition 4.1. f est dite séparable dans Ω si f =∏n
1 fj(xj), ∀xj ∈ Ω
Dénition 4.2. L'ensemble Lo est dénie par l'ensemble de toutes les fonctions impaires
et séparables, c.à.d. Lo = f : <n → < : fest impaire et séparable
Dénition 4.3. L'ensemble Le est dénie par l'ensemble de toutes les fonctions paires etséparables, c.à.d. Le = f : <n → < : fest paire et séparable
Lno est un vecteur dont les éléments sont dans Lo.Le théorème suivant donne une justication mathématique de la réduction du nombre de
fonctions de base N .
Thèoreme 4.1. Soit l'équation (2.1) et supposant que le lemme 4.1 est vérié, en plus
on suppose ce qui suit :
S1 Ω est un hypercube centré à l'origine, c.à.d. Ω = [−a1, a1]× · · · × [−an, an] ,
S2 f + g1ω + g2u ∈ Lno ,
S3 ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 ∈ Le,
Si φj ∈ Lo alors, cj = 0
En d'autres termes, en choisissant pour un système vériant les hypothèses précé-
dentes, des fonctions de base φi paires, nous réduisons considérablement le nombre N et
par conséquence le temps de calcul des intégrales.
Dans ce qui suit, nous nous intéressons aux méthodes de calcul des intégrales multiples.
61
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
4.2.2 Méthode basée sur la discrétisation des intégrales
Lemme 4.3. (Approximation de Riemann) Un intégral peut être approximé par
∫ b
a
f(x)dx = limδx→0
P∑i=1
f(xi)δx
où δx = xi − xi−1 et P est le nombre de points dans l'intervalle [a, b].
δx
Figure 2.3 Maillage dans <3
En construisant un maillage de P point dans Ω (gure 2.3), les quantités (A1+A2(ω)+
A3(u)) et (b1 + b2(ω) + b3(u)) dans (2.29)-(2.34), selon le lemme 4.3, deviennent
A1 + A2(ω) + A3(u) = limδx→0
(ΦX)δx
b1 + γ2b2(ω) + b3(u) = − limδx→0
(ΦY )δx
avec
X =
(∇Φ(f + g1ω + g2u))T |x1
...
(∇Φ(f + g1ω + g2u))T |xP
, Y =
(∇Φ(‖h1‖2 + ‖u‖2 − γ2‖ω‖2))T |x1
...
(∇Φ(‖h1‖2 + ‖u‖2 − γ2‖ω‖2))T |xP
, (2.41)et
Φ =[Φ|x1 · · · Φ|xP
](2.42)
Le vecteur des coecients sera calculé par
c = −(ΦX)−1(ΦY ) (2.43)
62
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
4.2.3 La Méthode de Monté-Carlo
Il est bien connu en probabilités, qu'une espérance mathématique peut être formelle-
ment dénie par une intégrale. Or la méthode de Monté-Carlo (Hammersley and Hand-
scomb (1975), Evans and Swartz (2000), Peyre (2012)) permet d'évaluer facilement cette
espérance. En renversant le paradigme, c.à.d., en écrivant une intégrale comme une espé-
rance, il est possible d'utiliser la méthode de Monté- Carlo pour calculer une intégrale :
Soit à calculer, par exemple, l'intégrale A suivant
A =
∮Ω
f(x)dΩ (2.44)
L'espérance mathématique d'une fonction aléatoire g(x) dénie sur Ω par n variables
aléatoires x1, x2, · · · , xn distribuées selon la loi de probabilité P est
EΩ[g(X)] =
∮Ω
g(x)P(x)dΩ
Donc l'espérance mathématique de f(x)/P(x) est
EΩ[f(X)/P(X)] =
∮Ω
f(x)dΩ = A
Au nal, on peut évaluer l'intégral A par l'algorithme suivant
1. Simuler P variables indépendantes distribuées selon la loi de probabilité P(x) ;
2. Pour chacune de ces variables, évaluer f(x)/P(x) ;
3. Prendre la moyenne des valeurs obtenues pour avoir un estimateur de l'intégrale.
Pour simuler P variables indépendantes distribuées selon P(x), il sut de prendre P va-
riables indépendantes uniformément distribuées dans l'intervalle [0, 1] : U1, U2, · · · , UP ,puis prendre x1 = P−1(U1), x2 = P−1(U2), · · · , xP = P−1(UP ).
Pour notre cas, le domaine Ω est choisi comme étant un hypercube donné par [a1, b1] ×[a2, b2]× · · · × [an, bn]. La loi de probabilité choisie est la loi uniforme donnée par
P(x) =n∏i=1
Pi(xi)
telle Pi(x) sont données par
Pi(xi) =
1
bi − aisi xi ∈ [ai, bi], i = 1, · · · , n;
0 sinon.
63
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Alors nous avons
A =
∮Ω
ΦF T (x, ω, u)∇ΦdΩ
= E[ΦF T (x, ω, u)∇Φ/P(x)]
=n∏i=1
(bi − ai)E[F T (x, ω, u)∇ΦΦ]
=
∏ni=1(bi − ai)
P
P∑k=1
ΦF T (x, ω, u)∇Φ|x=xk
=
∏ni=1(bi − ai)
P(ΦX)
de même nous trouvons
b =
∮Ω
(Φ‖h1‖2 + ‖u‖2 − γ2‖ω‖2)TdΩ
=
∏ni=1(bi − ai)
P
P∑k=1
Φ(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)T |x=xk
=
∏ni=1(bi − ai)
P(ΦY )
avec X, Y et Φ sont données par (2.41) et (2.42).
Finalement le vecteur c est donné par c = −(ΦX)−1(ΦY ).
Le choix de la loi de probabilité uniforme rend la méthode de Monté-Carlo identique à
celle utilisant l'approximation de Reiman . La seule diérence est le pas de discrétisation
qui est xe dans le cas de l'approximation de Reiman et aléatoire dans la méthode de
Monté-Carlo.
Les codes Matlab c© données par les gures 2.4 et 2.5 génèrent, respectivement, un maillage
dans le cas n = 4 pour la méthode de discrétisation des intégrales et pour la méthode de
Monté-Carlo stochastique.
4.2.4 Méthode basé sur le calcul symbolique.
Matlab c© ore un outil de calcul symbolique très puisant, à savoir Symbolic Toolbox c©.
Le code Matlab c© de la gure 2.6 illustre ces calculs pour l'exemple 4.3.1 de la section sui-
vante. Nous avons utilisé les fonctions symboliques , int (calcul des intégrales) et jacobian
(calcul de la matrice jacobienne de Φ(x)) pour l'obtention de A1 et b1.
64
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
x1 = x1min:Deltax:x1max;
x2 = x2min:Deltax:x2max;
x3 = x3min:Deltax:x3max;
x4 = x4min:Deltax:x4max;
P1 = size(x1,1);
P2 = size(x2,1);
P3 = size(x3,1);
P4 = size(x4,1);
x = [];
for i1 = 1:P1
for i2 = 1:P1
for i3 = 1:P1
for i4 = 1:P1
x = [x;x1(i1) x2(i2) x3(i3) x4(i4)];
end
end
end
end
P = size(x,1);
for k = 1:P
% On fait appel aux variables par x(k,1), x(k,2), x(k,3) et x(k,4)
....
end
Figure 2.4 Méthode de discrétisation déterministe n = 4
P = 5000;
for k = 1:P
% On fait appel aux variables par x(k,1), x(k,2), x(k,3) et x(k,4)
x(k,1) = x1min + (x1max-x1min)*rand;
x(k,2) = x2min + (x2max-x2min)*rand;
x(k,3) = x3min + (x3max-x3min)*rand;
x(k,4) = x4min + (x4max-x4min)*rand;
....
end
Figure 2.5 Méthode stochastique de Monté-Carlo n = 4
65
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
x1=sym('x1');x2=sym('x2');x3=sym('x3');
f=[2*x1+x2+x3;x1-x2;x3];
h1=[x1;x2;x3];
x1b=[-1.2;1.2];
x2b=[-1.2;1.2];
x3b=[-1.2;1.2];
PHI=[x1^2;x2^2;x3^2;x1*x2;x1*x3;x2*x3;...
x1^4;x2^4;x3^4;...
x1^2*x2^2;x1^2*x3^2;x2^2*x3^2;...
x1^2*x2*x3;x1*x2^2*x3;x1*x2*x3^2;x1^3*x2;x1^3*x3;...
x1*x2^3;x1*x3^3;x2*x3^3;x2^3*x3];
jac=jacobian(PHI).';
A1=PHI*f.'*jac;
A1=int(int(int(A1,x1,x1b(1),x1b(2)),x2,x2b(1),x2b(2)),...
x3,x3b(1),x3b(2));
A1=double(A1);
b1=PHI*(h1.'*h1);
b1=int(int(int(b1,x1,x1b(1),x1b(2)),x2,x2b(1),x2b(2)),...
x3,x3b(1),x3b(2));
b1=double(b1);
Figure 2.6 code Matlab c© pour le calcul symbolique
66
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
4.3 Exemples Numériques
L'objectif de cette section est de démontrer l'ecacité de l'algorithme donnée par la
gure 2.2 à résoudre l'équation HJI pour diérents type de systèmes dynamiques.
4.3.1 Système linéaire MIMO 3-D
Nous commençons par l'application de l'algorithme de Galerkin pour la résolution de
l'équation de HJI pour un système linéaire multi-variables décrit par l'équation d'état
suivante
x =
2x1 + x2 + x3
x1 − x2
x3
+
0 0
1 0
0 1
ω +
0 0
0 1
1 0
u (2.45)
z =
[x
u
]
Pour initialiser l'algorithme, la commande LQR suivante
u = argminu
∫ ∞0
(xTx+ uTu)dt
est appliquée au système (2.46) avec ω = 0. Nous obtenons ainsi
u1 = −8.31x1 − 2.28x2 − 4.66x3
u2 = −8.57x1 − 2.27x2 − 2.28x3
La région de faisabilité est <3. Nous choisissons arbitrairement le domaine suivant : Ω =
[−1.2, 1.2]3.
Les fonctions de base utilisées sont les termes du développement de l'équation (2.16) pour
n = 3 et M = 4 et sont données par
Φ(x) = [x21, x
22, x
23, x1x2, x1x3, x2x3, x
41, x
42, x
43,
x21x
22, x
21x
23, x
22x
23, x
21x2x3, x1x
22x3, x1x2x
23, x
31x2, x
31x3, x1x
32, x1x
33, x2x
33, x
32x3)]T
La valeur de γ initiale était choisie égale à 10. Après réduction de celle-ci jusqu'à la valeur
de 4, nous avons obtenu le vecteur des coecients suivant, après seulement 4 itérations
(voir gure 2.7).
c = [32.7820, 2.8904, 4.9499, 18.1759, 17.6333, 4.8718]T
les éléments restants sont proches de 0, donc négligeables. La fonction V (x) s'écrit, donc,
67
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1 1.5 2 2.5 3 3.5 442.1
42.2
42.3
42.4
42.5
itération
||c||
Figure 2.7 Norme du vecteur des coecients (MIMO-3D)
comme suit
V (x) = xT
32.7820 9.0879 8.8166
9.0879 2.8904 2.4359
8.8166 2.4359 4.9499
xLa loi de commande H∞ ainsi obtenue est donnée par
u1 = −8.8166x1 − 2.4359x2 − 4.9499x3
u2 = −9.0879x1 − 2.8904x2 − 2.4359x3
Le résultat obtenu est identique à celui obtenu en résolvant l'équation de Riccati (1.52)
pour le système linéaire. En eet, la fonction CARE de Matlab donne
P =
32.7820 9.0880 8.8166
9.0879 2.8904 2.4359
8.8166 2.4359 4.9499
Pour la simulation du système en boucle fermée des conditions initiales nulles, c.à.d.
x0 = [0, 0, 0]T , sont choisies et un vecteur de perturbation ω12 = 5 sin te−t est introduit au
début de simulation.
Dans la gure 2.8, sont illustrés les états du système. Nous remarquons la stabilité asymp-
totique du point d'équilibre x = 0. La même gure schématise le vecteur de commande
H∞ non linéaire par retour d'état u. L'atténuation
r(t) =
∫ t0‖z‖2dτ∫ t
0‖ω‖2dτ
(2.46)
68
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
dénie par le rapport entre l'énergie de la fonction de pénalité z et celle des entrées
exogènes ω est illustrée dans la gure 2.9. Nous remarquons que r γ2 = 16. Donc,
la commande obtenue par la méthode des approximations successives hybridée avec la
méthode de Galerkin est robuste avec un L2 < γ. Dans la même gure, est schématisé le
résidus R déni par l'équation (2.17), sa valeur nale vaut R = −1.9902× 10−17.
0 5 10 15 20
−0.2
−0.1
0
0.1
0.2
temps [sec]
États
x1x2x3
0 5 10 15 20
−1
−0.5
0
temps [sec]
Com
mandesH∞
u1u2
Figure 2.8 Évolution des états et des commandes H∞ (MIMO-3D)
0 5 10 15 200
0.5
1
1.5
2
2.5
temps [sec]
Atténuation
r
5 10 15 20
−1.5
−1
−0.5
0·10−4
temps [sec]
Résidus
R
Figure 2.9 Évolution de l'atténuation r et du résidus R en présence d'une perturbation(MIMO-3D)
69
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
4.3.2 Système non linéaire SISO 2-D
C'est un système non linéaire décrit par l'équation d'état suivante
x =
[−x3
1 − x2
x1 + x2
]+
[1
0
]ω +
[0
1
]u (2.47)
avec z =[x u
]T. Ce système possède un point d'équilibre à l'origine.
La commande initiale est obtenue par une linéarisation exacte entrée-sortie du système
avec ω = 0 et par application d'une commande optimale linéaire quadratique.
La méthode est résumée par les étapes suivantes :
0. Étant donnée un système non linéaire x = f(x) + g(x)u, choisir une sortie ctive du
système par y = h(x)
1. Calcul de la première dérivée
y =∂h
∂xf +
∂h
∂xgu = Lfh(x) + Lgh(x)u
Lf est la dérivée de Lie le long du champ de vecteur f .
2. Si Lgh(x)u 6= 0 alors le système linéaire y = v est obtenu par la loi de commande
suivante
u =1
Lgh(x)(−Lfh(x) + v)
3. Si Lgh(x)u = 0, calculer la seconde dérivée de la sortie, c.à.d.
y = L2fh(x) + LgLfh(x)u
4. Si Lgh(x)u = 0, continuer la dérivation de y jusqu'à l'apparition de la commande
u, c. à. d., LgLr−1f h(x)u 6= 0 (r est dit degré relatif du système non linéaire). Le
système linéaire y(r) = v est obtenu par la loi de commande suivante
u =1
LgLr−1f h(x)
(−Lr−1f h(x) + v)
5. Par le changement de variable suivant z = [h(x), Lfh(x), · · · , Lr−1f h(x)]T , nous
obtenons le système linéaire suivant
z =
0 1 0 · · · 0
0 0 1 · · · 0...
......
. . ....
0 0 0 · · · 0
+
0
0...
1
v70
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
La commande par linéarisation entrée-sortie peut être schématisée par la gure 2.10.
An d'appliquer la linéarisation Entrées/Sorties au système (2.47), la sortie ctive y = x1
yref
+ −CommandeLinéaire
Transformationdes Entrées
Système
Non linéaire
Transformation
des États
v(t) u(t)
x(t) x(t)
z(t)
y(t)
Figure 2.10 Principe de la commande par linéarisaation entrés-sortie
est choisie. Nous obtenons ainsi
y = x1 = −x31 − x2
y = x1 = −3x21x1 − x2
= −3x21(−x3
1 − x2)− x1 − x2 − u = v
La commande linéarisante est donc donnée par
u = 3x21(x3
1 + x2)− x1 − x2 − v (2.48)
et le système linéaire obtenu y = v s'écrit par représentation d'état comme suit
z =
[0 1
0 0
]+
[0
1
]v (2.49)
avec z1 = y et z2 = y.
Si nous appliquons au système (2.49) une commande LQR qui minimise le critère suivant
J =
∫ ∞0
(zT z + v2)dt
nous obtenons
v = −z1 − 1.7321z2 (2.50)
Finalement la commande initiale utilisée pour débuter l'algorithme de Galerkin est obte-
nue en remplaçant (2.50) dans (2.48)
u0(x) = 3x51 + 3x2
1x2 − x2 − 1.7321(x31 + x2) (2.51)
71
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
La commande u0(x) stabilise le système dans <2, donc Ω est choisi arbitrairement comme
suit Ω = [−1, 1]2.
Les fonctions de base utilisées pour cet exemple sont
Φ(x) = [x21, x1x2, x
22, x
41, x
31x2, x
21x
22, x1x
32, x
42,
x61, x
51x2, x
41x
22, x
31x
32, x
21x
42, x1x
52, x
62, · · · ]T
Le nombre de fonctions de base N est égal à 3, 8 et 15 pour M = 2, 4, 6 (voir équation
(2.16)). La valeur initiale de γ est prise égale à 20, sa valeur réduite garantissant la
convergence de l'algorithme est choisie égale à γ = 3.
Les vecteurs des coecients obtenus après convergence de l'algorithme sont les suivants
c3 = [1.2823, 1.0728, 2.0914]T
c8 = [2.7396, 0.0103, 2.5078, −1.0209, 0.7652, −0.5441, 0.2168, −0.0838]T
, c15 = [3.6339, −0.9549, 2.8147, −2.6752, 2.9931, −2.1305, 0.8422, −0.2234,
0.8543, −1.3222, 1.2068, −0.6757, 0.2851, −0.0670, 0.0330]T
Les commandes ainsi obtenues sont données par
u3(x) = −0.5364x1 − 2.0914x2 (2.52)
u8(x) = −0.0052x1 − 2.5078x2 − 0.3826x31 + 0.5441x2
1x2 −
0.3252x1x22 + 0.1676x3
2 (2.53)
u15(x) = 0.4774x1 − 2.8147x2 − 1.4965x31 + 2.1305x2
1x2 −
1.2632x1x22 + 0.4469x3
2 + 0.6611x51 − 1.2068x2x
41 +
1.0136x22x
31 − 0.5701x3
2x12 + 0.1675x42x1 − 0.0990x5
2 (2.54)
Dans la gure 2.11 est illustrée la norme du vecteur des coecients c par rapport aux
itérations et pour diérentes valeurs de N . On conclue que l'algorithme converge après 5 à
6 itérations. Pour simuler le système en boucle fermée avec les lois de commandes (2.52),
(2.53) et (2.54) les valeurs initiales x0 = [−1, 1]T sont sélectionnées. Une perturbation
ω = 5 sin te−t est introduite au début de simulation. Dans la gure 2.12 nous présentons
les états x1 et x2 pour N = 0, 3, 8 et 15. La valeur de N = 0, correspond à la commande
initiale (2.51). Nous remarquons que les états convergent asymptotiquement vers le point
d'équilibre 0. En plus, il est observé que plus la valeur N augmente, plus la réponse est
améliorée (temps de réponse, oscillations), et plus les non linéarités apparaissent dans la
commande, ce qui entraine un coût d'implémentation plus élevé. La valeur de N = 3 sut
pour notre système. Dans la gure 2.13 sont schématisées l'évolution des commandes et
l'atténuation r (2.46). Le rejet de perturbation est meilleure dans le cas où N = 3.
72
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1 2 3 4 5 62
4
6
8
10
itération
||c||
N = 3N = 8N = 15
Figure 2.11 Norme du vecteur des coecients (SISO-2D)
0 5 10 15 20−1
−0.5
0
0.5
temps [sec]
x 1
N = 0N = 3N = 8N = 15
0 5 10 15 20
0
0.5
1
temps [sec]
x 2
N = 0N = 3N = 8N = 15
Figure 2.12 Évolution des états pour N = 0, 3, 8, 15 (SISO-2D)
73
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
0 5 10 15 20−2
−1.5
−1
−0.5
0
0.5
temps [sec]
Com
mande
u N = 0N = 3N = 8N = 15
5 10 15 20
1.4
1.6
1.8
2
2.2
temps [sec]
Atténuation
N = 0N = 3N = 8N = 15
Figure 2.13 Évolution de la commande et atténuation r pour N = 0, 3, 8, 15 (SISO-2D)
4.3.3 Système de suspension magnétique
Considérons le système de suspension magnétique de la gure 2.14 constitué d'une
boule de fer dans un champ magnétique vertical créé par un électro-aimant. Nous adoptons
l'hypothèse du ux non saturé, c.à.d., λ = L(θ)i, où λ est le ux, θ est la diérence entre
la position mesurée et nominale du rotor et i le courant circulant dans la bobine du rotor.
L(θ) dénote la valeur de l'inductance.
θ(t)
mg
F (t)
i(t), R
Figure 2.14 Système de suspension magnétique
La dynamique du système est obtenu en invoquant les lois de Kircho et Newton
λ+Ri = u
mθ = F −mg + d
74
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
où m désigne la masse de la boule, R la résistance de la bobine et F la force crée par
l'électro-aimant donnée par (2.55). Finalement d est une force de perturbation qui peut
aecter le système.
F =1
2
∂L
∂θ(θ)i2 (2.55)
Il existe plusieurs façons d'approximer l'inductance L(θ). La plus utilisée (Barie and Chias-
son (1996), Rodriguez et al. (2000)) est L(θ) = kC−θ , avec k est une constante qui dépend
du bobinage du rotor et C est un écart de position. Les paramètres du système de sus-
pension magnétique sont assignés dans le tableau 2.1 (Rodriguez et al. (2000)).
Table 2.1 Paramètres du système de suspension magnétique
Paramètre Désignation Valeur
m Masse de la boule [Kg] 0.0844
k Constante de bobine [Nm2/A2] 6.4042 · 10−5
R Résistance de la bobine [Ω] 2.52
C Écart de position [m] 0.005
g Constante de la gravité [N/s2] 9.81
En posant x = [λ, θ, θ]T nous obtenons le système non linéaire suivant
x1 = −Rkx1(C − x2) + u
x2 = x3 (2.56)
x3 =1
2kmx2
1 − g +1
md
Le système (2.56), possède un point d'équilibre donné par xe = [x∗1, x∗2, 0]T , tel que
x∗1 =√
2kmg et x∗2 est une position désirée . Pour écrire (2.56) sous la forme standard
(2.1) et avoir ainsi un point d'équilibre à l'origine le changement de variables suivante
x1 = x1 − x∗1, x2 = x2 − x∗2 et x3 = x3 est à faire. Nous obtenons ainsi le système suivant
˙x1 = −Rk
(x1 + x∗1)(C − x2 − x∗2) +R
kx∗1(C − x∗2) + u
˙x2 = x3
˙x3 =1
2km(x1 + x∗1)2 − g +
1
md
où
f(x) =
−Rk
(x1 + x∗1)(C − x2 − x∗2) + Rkx∗1(C − x∗2)
x3
12km
(x1 + x∗1)2 − g
, g1(x) =
0
01
m
, g2(x) =
1
0
0
75
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
La commande u0(x) utilisée pour initialiser l'algorithme des approximations successives
de Galerkin est choisi comme étant une commande linéaire donnée par
u0(x) = −100(x1 − x∗1)− 1000(x2 − x∗2)− 10x3 +R
kx∗1(C − x∗2) (2.57)
La commande initiale (2.57) étant linéaire, son application au système non linéaire doit
être au voisinage du point d'équilibre xe. Dans cette lumière, nous choisissons Ω =
[−0.01, +0.01] × [−1 × 10−3, +1 × 10−3] × [−0.1, +0.1]. Les pas de discrétisation (voir
paragraphe 4.2.2) sont choisis comme suit : δx1 = 0.0001, δx2 = 0.00001 et δx3 = 0.01.
Avec l'objectif de réguler x(t) au point d'équilibre xe, nous dénissons la variable de
pénalité z comme suit
z =
[x(t)− xe
u
](2.58)
Les fonctions de base utilisées dans l'algorithme de Galerkin sont choisies, dans un premier
temps, sous la forme suivante
Φ = [x21, x
22, x
23, x1x2, x1x3, x2x3]T
avec N = 6 (M = 2), et dans un deuxième lieu sous la forme
Φ = [x21, x
22, x
23, x1x2, x1x3, x2x3, x
41, x
42, x
43,
x21x
22, x
21x
23, x
22x
23, x
21x2x3, x1x
22x3, x1x2x
23, x
31x2, x
31x3, x1x
32, x1x
33, x2x
33, x
32x3)]T
avec N = 21 (M = 4).
Dans cet exemple la valeur de γ assurant la convergence de l'algorithme est égale à γ = 2.
Les valeurs des coecients obtenues après convergence de l'algorithme de Galerkin sont
presque identiques pour N = 6 et N = 21, et sont données par
c = [184.128, 5.887.339, 1.153, 2075.99, 29.104, 164.077]T
Les coecients proches de 0 dans le cas N = 21 ont été omis. Pour le critère d'arrêt de
l'algorithme la valeur de ε = 10−6 est sélectionnée.
Dans la gure 2.15 nous illustrons la norme du vecteur des coecients c par rapport aux
itérations. Nous remarquons qu'il y' a la convergence de l'algorithme après seulement 5
itérations.
76
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1 1.5 2 2.5 3 3.5 4 4.5 56,200
6,400
6,600
6,800
7,000
7,200
7,400
itération
[[c[[
Figure 2.15 Norme du vecteur des coecients (Suspension magnétique)
Pour la simulation du système en boucle fermée, les conditions initiales sont prises égale
à x0 = [0, 0, 0]T . Une trajectoire de référence x∗2 = 3 mm pour t < 1 seconde et
x∗2 = −3 mm pour t > 1 seconde est imposée au système.
0 0.5 1 1.5 2
−4
−2
0
2
4
temps [sec]
x 2(m
m)
x∗2N = 0N = 6
0 0.5 1 1.5 2
−2
0
2
4
6
temps [sec]
Com
mande
u(V)
N = 0N = 6
Figure 2.16 Position et commande pour une trajectoire variable (Suspension magnétique)
Dans la gure 2.16 sont illustrées l'évolution temporelle de la position x2 et la commande
H∞ non linéaire. Dans les graphes, N = 0 est assigné au cas de la commande initiale
u0(x) donnée par (2.57). Nous observons que pour N = 6 il y' a une bonne poursuite de
référence mais avec un eort de commande plus considérable.
77
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
0 1 2 3 4
0
2
4
6
temps [sec]
x 2(m
m)
0 1 2 3 4
0
2
4
6
temps [sec]
Com
mande
u(V)
Figure 2.17 Position et commande avec perturbation (Suspension magnétique)
Dans la gure 2.17, sont schématisées la position x2 et la commande H∞ dans le cas
de la présence d'une perturbation ω = 0.5 cos te−t au début de la simulation. Il est clair
que le système rejette la perturbation. L'atténuation r, dénie auparavant, est illustrée
par la gure 2.18. Pour N = 6 elle vaux r = 2.82 < γ2 = 4, ce qui assure un bon rejet des
perturbations.
0 0.5 1 1.5 2 2.5 3 3.5 40
2
4
6
8
10
temps [sec]
Atténuation
r
Figure 2.18 Évolution de l'atténuation r (Suspension magnétique)
78
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
x
y
q1
q2
l1
l2
m1, τ1
m2, τ2
g
Figure 2.19 Robot Plainaire à 2 ddl
4.3.4 Robot Planaire à deux degrés de liberté
Le système considéré dans cet exemple est un robot planaire à deux degrés de liberté
(voir Figure 2.19) dont les équations de mouvement obtenues par l'approche d'Euler-
Lagrange sont [α + β + 2η cos q2 β + η cos q2
β + η cos q2 β
][q1
q2
]
+
[−η(2q1q2 + q2
1) sin q2
ηq21 sin q2
]
+
[αe1 cos q1 + ηe1 cos(q1 + q2)
ηe1 cos(q1 + q2)
]+
[τd1
τd2
]=
[τ1
τ2
](2.59)
où α = (m1 +m2)l21, β = m2l22 η = m2l1l2 , et e1 = g/l1.Les paramètres du robot sont les
suivants : m1 = m2 = 1kg, a1 = a2 = 1m, et g = 10m/s2 ; ce qui donne, α = 2, β = 1,
η = 1, et e1 = 10.
Nous dénissons les états, commandes et perturbations du système comme suit
x =[q1 q2 q1 q2
]Tu =
[τ1 τ2
]Tω =
[τd1 τd2
]TLes équations de mouvement (2.60) peuvent être réécrites sous la forme d'état suivante
x = f(x) + g1(x)ω + g2(x)u (2.60)
79
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
où f(x), g1(x) et g2(x) sont données par
f(x) =
x3
x4
−(2x3x4+x24−x23−x23 cosx2) sinx2+20 cosx1−10 cos(x1+x2) cosx2cos2 x2−2
(2x3x4+x24+2x3x4 cosx2+x24 cosx2+3x23+2x23 cosx2+20[cos(x1+x2)−cosx1](1+cosx2)−10 cosx2 cos(x1+x2))
cos2 x2−2
g1(x) =
0 0
0 0−1
cos2 x2 − 2
1 + cos x2
2− cos2 x21 + cos x2
cos2 x2 − 2
−3− 2 cosx2
2− cos2 x2
, g2(x) =
0 0
0 01
cos2 x2 − 2
−1− cosx2
2− cos2 x2−1− cosx2
cos2 x2 − 2
3 + 2 cosx2
2− cos2 x2
L'objectif de la commande est de déplacer le robot d'une position initiale quelconque x(0)
vers la position verticale. Donc le vecteur d'état désirée est dénie par xd =[π/2 0 0 0
]T.
Avec cet objectif, la variable de pénalité z devienne
z =
[x(t)− xd
u
](2.61)
Pour avoir un point d'équilibre à l'origine il est recommandé de faire le changement de
variable suivant : x(t) = x(t)− xd.Les fonctions de base utilisées dans l'algorithme de Galerkin sont choisies sous la forme
suivante
Φ = [x21, x1x2, x1x3, x1x4, x
22, x2x3, x2x4, x32, x3x4, x
24, x
41, x
31x2,
x31x3, x
31x4, x
21x
22, x
21x2x3, x
21x2x4, x
21x
23, x
21x3x4, x
21x
24, x1x
32,
x1x22x3, x1x
22x4, x1x2x
23, x1x2x3x4, x1x2x
24, x1x
33, x1x
23x4,
x1x3x24, x1x
34, x
42, x
32x3, x
32x4, x
22x
23, x
22x3x4, x
22x
24, x2x
33,
x2x23x4, x2x3x
24, x2x
34, x
43, x
33x4, x
23x
24, x3x
34, x
44]
avec N = 45 (n = 4, M = 4). Dans cet exemple la valeur de γ = 10 est sélectionnée.
La commande initiale utilisé pour lancer l'algorithme de Galerkin est la suivante
u0(x) =[−500x1 − 500x3; −200x2 − 200x4
]Tqui est une commande stabilisante. On a utilisé la méthode de Monté-Carlo avec un
maillage de 3000 points dans l'hypercube Ω = [−1,+1]4. Pour le critère d'arrêt de l'al-
gorithme la valeur de ε = 10−6 est sélectionnée. L'algorithme converge après seulement 6
itérations. La gure 2.20 montre l'évolution de la norme de c par rapport à l'itération i.
80
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1 2 3 4 5 6
2.5
3
3.5
4
itération
||c||
Figure 2.20 Norme du vecteur des coecients (Robot planaire)
Le vecteur des perturbations ω(t) est composé par des couples de frottement secs et vis-
queux pour les deux articulations et est donnée par
ω(t) =
[q1 + 0.1sign(q1)
q2 + 0.1sign(q2)
]
Les résultats de simulation du système en boucle fermée pour les conditions initiales sui-
vantes x(0) = [π/4;π/6; 0; 0]T sont illustrés aux gures 2.21-2.22. Sur la gure 2.21 sont
présentées les positions articulaires (q1− π/2)(x1) et q2(x2), la convergence asymptotique
vers le point d'équilibre est atteinte.
0 1 2 3 4 5 60
0.5
1
temps [sec]
x 1',x 2
[rad]
x1'x2
Figure 2.21 Convergence asymptotique des états vers le point d'équilibre (Robot planaire)
81
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Nous présentons aussi les couples de commandes et celles de perturbations sur la gure
2.22.
0 2 4 6−80
−60
−40
−20
0
temps [sec]
τ1,τ2[N.m
]
τ 1τ 2
0 2 4 6
−1
−0.5
0
temps [sec]τd1,τd2[N.m
]
τd1τd2
Figure 2.22 Évolution des commandes τ et des perturbations τd (Robot planaire)
L'atténuation r donnée par (2.46) est schématisée par la gure 2.23. Nous remarquons
clairement que r(tf ) γ2 = 100, donc un rejet de perturbation malgré la présence conti-
nue de cette dernière (sign(q)).
1 2 3 4 5 60
20
40
60
temps [sec]
Atténuation
r
Figure 2.23 Évolution de l'atténuation r (Robot planaire)
82
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
4.3.5 Oscillateur translationnel avec actionneur rotatif (TORA)
C'est un système constitué d'un chariot de masse M , contraint de se déplacer le long
d'une ligne horizontale et xée, par un ressort de raideur K, à un mur. Le chariot est sta-
bilisé par un actionneur rotatif de masse m et de moment d'inertie I, situé à une distance
e de l'axe de rotation. Le signal de commande est le couple N autour de l'axe de rotation
et le signal de perturbation est la force F exercée sur le chariot. Le système est présenté
par la gure 2.24.
K
F(t)
M
θ
e
mI
N
Figure 2.24 Oscillateur translationnel avec actionneur rotatif (TORA)
Ses équations de mouvement sont (Abu-Khalaf (2005b), Christen and Cirillo (1997), Ta-
vakoli et al. (2003))
(M +m)q + kq = −me(θ cos θ − θ2 sin θ) + F
(I +me2)θ = −meq cos θ +N (2.62)
En utilisant la normalisation suivante
ζ ≡√M +m
I +me2q, τ ≡
√k
M +m
u ≡ M +m
k(I +me2)N, ω ≡ 1
k
√M +m
I +me2F
les équations de mouvement deviennent
ζ + ζ = ε(θ cos θ − θ2 sin θ) + ω
θ = −εζ cos θ + u (2.63)
83
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
où ε décrit le couplage existant entre le mouvement translationnel et le mouvement de
rotation
ε =me√
(I +me2)(M +m)
L'écriture de (2.63) sous la forme d'état donne
x =
x3
x4
−x1 + εx24 sinx2
1− ε2 cos2 x2ε cosx2(x1 − εx2
4 sinx2)
1− ε2 cos2 x2
+
0
01
1− ε2 cos2 x2−ε cosx2
1− ε2 cos2 x2
ω +
0
0−ε cosx2
1− ε2 cos2 x21
1− ε2 cos2 x2
u (2.64)
où x =[x1 x2 x3 x4
]T=[ζ θ ζ θ
]TLa norme de la variable de pénalité z est choisie égale à (Christen and Cirillo, 1997)
‖z(x, u)‖2 = 0.1(x21 + x2
2 + x23 + x2
4) + u2 (2.65)
Le paramètre ε et le niveau d'atténuation γ sont choisis respectivement égales à 0.5 et 10.
Pour la détermination du vecteur des coecients c, la commande initiale est déterminée
par l'approximation en utilisant le développement de Taylor de V (x) (Christen and Cirillo
(1997)) et est donnée par
u0(x) = 0.3568x1 + 0.04095x3 − 0.318481x2 − 0.9275x4 −
0.398x21x2 − 0.693x2
1x4 + 0.04706x2x24 − 0.11167x3x
24 +
0.2080x2x3x4 + 0.2585x3x22 + 0.43052x1x
24 + 0.27214x1x2x4 −
0.001801x1x22 + 0.7113x1x3x4 + 0.3076x1x2x3 + 0.13067x3
1 −
0.431x21x3 + 0.32392x1x
23 − 0.1936x3
3 − 0.37795x23x4 −
0.1482x23x2 − 0.034129x3
4 + 0.0217469x22x4 + 0.00008549x3
2 (2.66)
La région de faisabilité de la commande est choisie comme suit : Ω = [−2, 2]4.
Les fonctions de base utilisées sont les termes du développement de l'équation (2.16) pour
n = 4 et M = 2, 4 et 6 et sont données par
Φ = [x21, x1x2, x1x3, x1x4, x
22, x2x3, x2x4, x
23, x3x4, x
24, x
41, · · · , x4
4, x61, · · · , x6
4]T (2.67)
Ce qui donne, N = 10, 45 et 129.
Nous présentons sur la gure 2.25 la norme du vecteur des coecients c, pour diérentes
valeurs de N . Nous constatons qu'il y'a convergence de l'algorithme de Galerkin après
seulement 4 itérations.
84
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1 1.5 2 2.5 3 3.5 4
2.4
2.6
2.8
3
3.2
itération
||c||
N = 10N = 45N = 129
Figure 2.25 Norme du vecteur des coecients (TORA)
Pour la simulation du système en boucle fermée, les conditions initiales sont choisies nulles.
Une perturbation (la force F (t)) est appliquée au début de la simulation et vaut ω(t) =
5 sin 5te−t. Sur la gure 2.26 sont illustrés les trajectoires de x1 et x2, pour diérentes
valeurs de N . Il est facile de remarquer la stabilité asymptotique du point d'équilibre 0.
La commande H∞ u ainsi que l'atténuation r dénie par (2.46) sont tracés dans la gure
2.27. Nous concluons que r γ2, ce qui signie une bonne atténuation des perturbations.
0 20 40 60 80 100−2
−1
0
1
2
temps [sec]
x 1(ζ)
N = 10N = 45N = 129
0 20 40 60 80 100−1
0
1
2
temps [sec]
x 2(θ)
N = 10N = 45N = 129
Figure 2.26 Convergence asymptotique vers l'état d'équilibre x = 0 (TORA)
85
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
0 20 40 60 80 100
−1
−0.5
0
0.5
temps [sec]
Com
mande
H∞
N = 10N = 45N = 129
0 20 40 60 80 1000
1
2
3
4
temps [sec]
Attétun
ationr
N = 10N = 45N = 129
Figure 2.27 Évolution de la commande u, de la perturbation ω et l'atténuation r (TORA)
4.4 Méthode de Galerkin : Cas de la commande H∞ contrainte
par retour d'état
Dans le cas de la commande contrainte par retour d'état, les simplications faites sur
le calcul de A3(u) et b3(u) (équations (2.31), (2.34)) ne sont plus valables. Néanmoins, ces
derniers peuvent être calculées directement par
A3(u) =
∮Ω
uTgT2 (x)∇ΦTΦdΩ (2.68)
b3(u) = −∮
Ω
W (u)ΦdΩ (2.69)
avec
u = φ(−1
2gT2 (x)∇ΦTc) (2.70)
etW (u) = 2∫ u
0φ−T (v)dv (voir équations (1.55) et (1.57)). φ étant la fonction de saturation
de la commande.
Nous rappelons que dans le cas d'une saturation dans un intervalle [−A, +A] par une
tangente hyperbolique, c.à.d., φ(·) = A tanh(·/A), on a
W (u) = 2A
(u tanh−1(u/A) + 0.5A log(1− (u/A)2)
)L'algorithme de Galerkin décrit par la gure 2.2 est donc remplacée par celui de la gure
2.28
86
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Input : N un entier positif, ε un nombre susamment petitInput : u0(x) commande initiale avec saturationInput : A1, A3(u(0)(x)), b1, b3(u(0)(x))Input : Φ(x) vecteur des fonctions de base
1 Fixer cold1 , cold2 susamment grand;2 for i = 0 to ∞ do3 Fixer ω(i,0) = 04 for j = 0 to ∞ do5 Calcul de A2(ω(i,j) =
∫Ωω(i,j)TgT1∇ΦTΦdΩ
6 A3(u(i)) =∫
Ωu(i)TgT2∇ΦTΦdΩ
7 b2(ω(i,j)) =∫
Ω‖ω(i,j)‖2ΦdΩ
8 b3(u(i)) = −∫
ΩW (u(i))ΦdΩ
9 c(i,j) = (A1 + A2(u(i)) + A3(ω(i,j)))−1(b1 + b2(u(i)) + γ2b3(ω(i,j)))
10 if ‖c(i,j) − cold1‖ ≤ ε then
11 j =∞12 else13 Mise à jour de la perturbation14 ω(i,j+1) = 1
2γ2gT1 (x)∇ΦTc(i,j)
15 cold1 = c(i,j)
16 end
17 end
18 if ‖c(i,∞) − cold2‖ ≤ ε then
19 i =∞20 else21 Mise à jour de la commande22 u(i) = φ(−1
2gT2 (x)∇ΦTc(i,∞))
23 cold2 = c(i,∞)
24 end
25 end26 S'il y'a convergence de c, alors réduire γ et retour à l'étape 3 avec
u0(x) = −1/2gT2 (x)∇ΦTc(∞,∞)
27 Sauvegarder c(∞,∞).
Figure 2.28 Algorithme de la méthode de Galerkin pour la commande H∞ contrainte parretour d'état
4.4.1 Application au système TORA
Pour illustrer l'application de l'algorithme de Galerkin pour la commandeH∞ contrainte
(avec saturation), l'exemple 4.3.5 (TORA) est repris. A cet eet nous utilisons les mêmes
paramètres de synthèse de la commande, tout en imposant une bornitude |u| < 0.4.
La norme du vecteur c est illustrée dans la gure 2.29 pour diérentes valeurs de N .
Nous constatons que l'algorithme convergence pour une tolérance ε = 10−6 après 4 à 6
itérations.
87
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1 2 3 4 5 62
2.5
3
3.5
4
4.5
itération
||c||
N = 10N = 45N = 129
Figure 2.29 Norme du vecteur des coecients- Cas de la commande contrainte (TORA)
Après application des commandes H∞ contraintes, et sous les mêmes conditions du para-
graphe précédent, nous remarquons que le point d'équilibre x = 0 est asymptotiquement
stable (voir gure 2.30). Les commandes et atténuations sont schématisées dans la gure
2.31. La commande est saturée avec |u| < 0.4. Plus le nombre N augmente plus les per-
formances du système s'améliorent et plus l'atténuation des perturbations est meilleure.
Quand N = 129, les non linéarités deviennent plus importantes, ce qui rend l'atténuation
légèrement plus grande que le cas où N = 45. Donc, le choix de N = 45 est largement
susant pour atteindre les objectifs de stabilité et robustesse.
0 20 40 60 80 100−2
−1
0
1
2
temps [sec]
x 1(ζ)
N = 10N = 45N = 129
0 20 40 60 80 100−1
0
1
2
temps [sec]
x 2(theta)
N = 10N = 45N = 129
Figure 2.30 Convergence asymptotique vers l'état d'équilibre x = 0- Cas de la commandecontrainte (TORA)
88
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
0 20 40 60 80 100−0.4
−0.2
0
0.2
0.4
temps [sec]
Com
mande
H∞
N = 10N = 45N = 129
0 20 40 60 80 1000
1
2
3
4
temps [sec]
Atténuation
r
N = 10N = 45N = 129
Figure 2.31 Évolution de la commande u, de la perturbation ω et l'atténuation r- Cas de lacommande contrainte (TORA)
5 Méthode de Galerkin appliquée à la synthèse de la
commande H∞ à temps nal xe
Considérons le système non linéaire ane décrit par l'équation d'état
x = f(x) + g1(x)ω + g2(x)u
z =
[h1(x)
u
](2.71)
Le problème de la commande H∞ par retour d'état à temps nal xe consiste à trouver
le point selle (u, ω) minimisant et maximisant le critère de cout suivant
V (x(t0), t0) = ϕ(x(tf ), tf ) +
∫ tf
t0
(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)dt (2.72)
avec V (x(tf ), tf ) = ϕ(x(tf ), tf ).
Le calcul innitésimal sur l'équation (2.72) et l'utilisation du principe d'optimalité de
Bellman donne l'équation de HJI suivante
∂V (x, t)
∂t+∂V (x, t)
∂x(f + g1ω + g2u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 = 0 (2.73)
89
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
En eet, en posant L(x, ω, u) = ‖h1‖2 + ‖u‖2 − γ2‖ω‖2, (2.72) peut s'écrire comme suit
V (x(t), t) = ϕ(x(tf ), tf ) +
∫ tf
t
L(x, ω, u)dτ
= ϕ(x(tf ), tf ) +
∫ t+∆t
t
L(x, ω, u)dτ +
∫ tf
t+∆t
L(x, ω, u)dτ
= ϕ(x(tf ), tf ) + L(x, ω, u)∆t+ V (x(t+ ∆t), t+ ∆t)− ϕ(x(tf ), tf )
≈ L(x, ω, u)∆t+ V (x(t), t) +∂V
∂t∆t+
∂V
∂x∆x (2.74)
En supposant que ∆t→ 0 nous obtenons facilement
0 = L(x, ω, u) +∂V
∂t+∂V
∂x
∆x
∆t
= L(x, ω, u) +∂V
∂t+∂V
∂x(f + g1ω + g2u)
et l'équation de HJI (2.73) découle.
Cette équation donne une solution au problème de la commande H∞ par retour d'état
à temps nal xe, et est solvable en rétrograde "backward" connaissant la solution à
l'instant nal V (x(tf ), tf ) = ϕ(x(tf ), tf ).
Le point selle (u, ω) est tel que
V ∗(x(t), t) = minu
maxω
(ϕ(x(tf ), tf ) +
∫ tf
t
L(x, u, ω)dt
)(2.75)
D'après (2.74) nous avons
V ∗(x(t), t) = minu
maxω
(L(x, ω, u)∆t+ V ∗(x(t), t) +
∂V ∗
∂t∆t+
∂V ∗
∂x∆x
)(2.76)
puisque V ∗(x(t), t) + ∂V ∗
∂t∆t ne dépend pas de u et ω, l'équation suivante s'obtienne faci-
lement en prenant ∆t→ ∂t
−∂V∗(x, t)
∂t= min
umaxω
(‖h1‖2 + ‖u‖2 − γ2‖ω‖2 +
∂V ∗(x, t)
∂x(f + g1ω + g2u)
)(2.77)
L'équation (2.77) est dite équation HJI à temps nal xe. Le point selle (u, ω) s'obtient
par minimisation et maximisation et est donnée par
u∗ = −1
2gT2∂V ∗(x, t)T
∂x(2.78)
ω∗ =1
2γ2gT1∂V ∗(x, t)T
∂x(2.79)
90
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
En remplaçant (2.78) et (2.79) dans (2.77), nous aurons l'équation HJI à temps nal xe
suivante
−∂V∗(x, t)
∂t= ‖h1‖2 +
∂V ∗(x, t)
∂xf +
1
4
∂V ∗(x, t)
∂x
(1
γ2g1g
T1 − g2g
T2
)∂V ∗(x, t)T
∂x(2.80)
La solution de l'équation HJI (2.80) est dicile voir même impossible analytiquement.
L'algorithme des approximations successives combiné avec la méthode de Galerkin peut
être utilisé pour résoudre, cette fois ci, une séquence d'équations HJI linéaires données
par (2.73).
5.1 Algorithme de Galerkin
Dans ce qui suit, nous présentons une solution de (2.73) par la méthode de Galerkin.
Pour cela, V (x, t) est approchée par
VN(x, t) =N∑i=1
ci(t)φi(x) = c(t)TΦ(x) (2.81)
avec c(t)T =[c1(t) · · · cN(t)
]et Φ(x) =
[φ1(x) · · · φN(x)
]T.
L'équation (2.73) devienne
N∑i=1
ci(t)φi(x) +N∑i=1
ci(t)φi,x(x)(f + g1ω + g2u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 = 0 (2.82)
L'application de la méthode de Galerkin sur l'équation (2.82) donne
N∑k=1
ck(t)
∮Ω
φk(x)φl(x)dΩ +N∑k=1
ck
∮Ω
φk,x(x)
(f(x) + g1(x)ω + g2(x)u
)φl(x)dΩ =
−∮
Ω
(‖h1(x)‖2 + ‖u‖2 − γ2‖ω‖2
)φl(x)dΩ, l = 1, · · · , N (2.83)
ou sous forme matricielle plus compacte∮Ω
cT (t)ΦT (x)Φ(x)dΩ +
∮Ω
c(t)T (f + g1ω + g2u)T∇ΦΦdΩ
+
∮Ω
(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)ΦTdΩ = 0 (2.84)
Si nous utilisons une discrétisation du domaine Ω par un maillage de P points (voit lemme
4.3) l'équation (2.84) devienne
ATAc(t) + ATBc(t) + ATC = 0 (2.85)
91
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
avec
A =[Φ(x)|x1 · · · Φ(x)|xP
]TB =
[∇ΦT (f + g1ω + g2u)|x1 · · · ∇ΦT (f + g1ω + g2u)|xP
]TC =
[(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)|x1 · · · (‖h1‖2 + ‖u‖2 − γ2‖ω‖2)|xP
]TL'équation (2.85) est une équation diérentielle ordinaire rétrograde qui peut être résolue
en connaissant au préalable la valeur du vecteur des coecient c(t) à l'instant nal t = tf .
La commande H∞ par retour d'état à temps nal xe est donc donnée par
u∗ = −1
2gT2∇TΦ(x)c(t) (2.86)
et est appliquée au système de t allant de 0 à tf , ce qui rend cette dernière une commande
o-line (le vecteur de coecients c(t) est calculé de t allant de tf à 0).
L'algorithme de Galerkin pour la synthèse de la commande H∞ par retour d'état à temps
nal xe est donné par la gure 2.32.
Input : P un entier positifInput : Φ(x) vecteur des fonctions de base
1 Initialiser le vecteur c(tf ) ;2 Calculer les matrices
3 A =[∇Φ(x)|x1 · · · ∇Φ(x)|xP
]T4 B =
[∇Φ(x)f(x)|x1 · · · ∇Φ(x)f(x)|xP
]T5 E =
[h(x)|x1 · · · h(x)|xP
]T6 for t = tf to 0 do7 u = −1
2gT2∇TΦ(x)c(t)
8 ω = 12γ2gT1∇TΦ(x)c(t)
9 Calculer les matrices
10 C =[∇Φ(x)g1(x)ω|x1 · · · ∇Φ(x)g1(x)ω|xP
]T11 D =
[∇Φ(x)g2(x)u|x1 · · · ∇Φ(x)g2(x)u|xP
]T12 F =
[uTu|x1 · · · uTu|xP
]T13 G =
[ωTω|x1 · · · ωTω|xP
]T14 résoudre l'équation diérentielle ordinaire
15 c(t) = −(ATA)−1
(AT (B + C +D)c(t) + AT (E + F − γ2G)
)16 Sauvegarder c(t).17 end
Figure 2.32 Algorithme de Galerkin pour la commande H∞ à temps nal xe
92
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
5.2 Application à la validation d'une commande H∞ inverse
Dans cette section nous nous intéressons à l'application de la commande H∞ avec
horizon ni (à temps nal xe) sur un système dynamique obtenu par résolution inverse
de l'équation HJI (Doyle et al. (1996)). En d'autre termes, étant donnée V (x), ‖h1(x)‖2,
g1(x), g2(x) et γ, la résolution inverse d'une équation HJI consiste à trouver la famille des
systèmes non linéaires données par f(x) et vériant l'équation de HJI suivante
Vxf(x) +1
4Vx
(1
γ2g1(x)gT1 (x)− g2(x)gT1 (x)
)V Tx + ‖h1(x)‖2 = 0 (2.87)
Pour notre exemple, on suppose que
V (x) = x21 + 2x2
2 + 3x21x
22
‖h1(x)‖2 = 2(2x1 + 6x1x22)2 + 2(4x2 + 6x2
1x2)2
g1(x) =
[0.5
1
]
g2(x) =
[1 0
0 3
]γ = 1
la dynamique du système f(x) s'obtient en résolvant l'équation HJI (2.87) (par rapport
à f(x)). Elle est donnée par
f(x) =
[−(29x1 + 87x1x
22)/8− (2x2 + 3x2x
21)/4
−(x1 + 3x1x22)/4
](2.88)
La solution approchée de V (x) est donnée par
VN(x, t) = c1(t)x21 + c2(t)x1x2 + c3(t)x2
2
+c4(t)x41 + c5(t)x3
1x2 + c6(t)x21x
22 + c7(t)x1x
32
+c8(t)x42 + c9(t)x6
1 + c10(t)x51x2 + c11(t)x4
1x22 + c12(t)x3
1x32
+c13(t)x21x
42 + c14(t)x1x
52 + c15(t)x6
2
Les valeurs attendues des ck sont ck = [1, 0, 2, 0, 0, 3, 0, · · · , 0]T .
Un maillage de 1000 points dans le domaine Ω = [−1,+1]2 est utilisée pour approximer
les intégrales dans l'équation diérentielle ordinaire ODE (2.85).
Les valeurs nales
c(tf ) = [10, 10, 10, 10, 10, 0, 0, 0, 0, 0, 10, 10, 10, 10, 10]T
93
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
sont utilisées et l'équation (2.85) est résolue en rétrograde. Nous disposons de la com-
mande qu'après sa résolution totale de t = tf à t = 0.
0 0.2 0.4 0.6 0.8 1−2
0
2
4
6
8
10
temps [sec]
c i
c1c3c6
Figure 2.33 Poids ci : Commande H∞ à temps nal xe
La gure 2.34 représente les états et les commandes obtenus après application de la loi de
commande (2.86). La convergence asymptotique du point d'équilibre x = 0 est visible.
0 0.2 0.4 0.6 0.8 1
−0.5
0
0.5
1
temps [sec]
Etats
x1x2
0 0.2 0.4 0.6 0.8 1−5
0
5
10
15
temps [sec]
Com
mandes
u1u2
Figure 2.34 Évolution des états x1, x2 et des commandes u1, u2 : Commande H∞ à tempsnal xe
94
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
5.3 Application au système TORA
Pour pouvoir appliquer la commande H∞ par retour d'état à temps nal xe au sys-
tème TORA décrit par l'équation d'état (2.64) nous choisissons comme fonctions de base
celles données par l'équation (2.67) avec N = 10 et N = 45. Le paramètre ε et le niveau
d'atténuation γ sont choisis respectivement égales à 0.5 et 10.
Pour résoudre l'équation diérentielle ordinaire ODE (2.85) un maillage de 1000 points
dans le domaine Ω = [−1,+1]2 a été créé. Les valeurs nales du vecteur des coecients c
pour N = 10 et N = 45 sont tel que ck(tf ) = 1, ∀k.La gure 2.35 montre la convergence des coecients ck.
Les conditions initiales nulles et une perturbations ω(t) = 5 sin(t)e−t sont imposées au
0 10 20 30 40 50 602
4
6
8
temps [sec]
||c(t)||
N = 10N = 45
Figure 2.35 Norme du vecteur des coecients (TORA)- Cas de la commande à temps nalxe
système au début de simulation. La gure 2.36 illustre la convergence des états vers le
point d'équilibre x = 0 pour diérentes valeurs de N . La meilleure performance est obte-
nue pourN = 45.
La gure 2.37 représente la commande et l'atténuation r dénie par (2.46). Plus N est
grand plus la commande est réalisable et plus une bonne atténuation des perturbations
est assurée : r γ2 = 100.
95
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
0 20 40 60−2
−1
0
1
2
temps [sec]
x 1(ζ)
N = 10N = 45
0 20 40 60−1
0
1
2
temps [sec]
x 2(θ)
N = 10N = 45
Figure 2.36 Convergence asymptotique vers l'état d'équilibre x = 0 (TORA)- Cas de la com-mande à temps nal xe
0 20 40 60−1
−0.5
0
0.5
temps [sec]
Com
mande
u
N = 10N = 45
0 20 40 600
1
2
3
4
temps [sec]
Atténuation
r
N = 10N = 45
Figure 2.37 Évolution de la commande u, de la perturbation ω et l'atténuation r (TORA)-Cas de la commande à temps nal xe
6 Méthode de Galerkin appliquée à la synthèse de la
commande H∞ par retour d'état -Cas discret
Le système non linéaire considéré est donné par la forme d'état standard suivante
xk+1 = f(xk) + g1(xk)ωk + g2(xk)uk (2.89)
96
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
La variable de pénalité z est donnée par
zk =
[h1(xk)
uk
](2.90)
Dans cette section, nous nous intéressons à la résolution de l'équation HJI obtenue dans
le cadre de la commande H∞ par retour d'état des systèmes non linéaires discrets. Nous
rappelons que cette équation, dans le cas d'approximation d'ordre 2, est donnée par
0 = ∇V ∗(xk+1)(f(xk) + g1(xk)ω∗k + g2(xk)u
∗k − xk)
+1
2(f(xk) + g1(xk)ω
∗k + g2(xk)u
∗k − xk)T · ∇2V ∗(xk+1) ·
(f(xk) + g1(xk)ω∗k + g2(xk)u
∗k − xk)
+ ‖h1(xk)‖2 + ‖u∗k‖2 − γ2‖ω∗k‖2 (2.91)
où la commande H∞ sous-optimale discrète et la pire perturbation sont, respectivement,
exprimées par
u∗k = −(
2 + gT2 (xk)∇2V ∗k g2(xk)
)−1
·
gT2 (xk)
(∇V ∗k +∇2V ∗k (f(xk) + g1(xk)ω
∗k − xk)
)(2.92)
ω∗k =
(2γ2 + gT1 (xk)∇2V ∗k g1(xk)
)−1
·
gT1 (xk)
(∇V ∗k +∇2V ∗k (f(xk) + g2(xk)u
∗k − xk)
)(2.93)
avec
∇V ∗(xk+1) = ∇V ∗k =∂TV ∗(xk+1)
∂xk+1
et
∇2Vk =
∂2V (x)
∂x21
∂2V (x)∂x1x2
· · · ∂2V (x)∂x1xn
∂2V (x)∂x2x1
∂2V (x)
∂x22· · · ∂2V (x)
∂x2xn...
.... . .
...∂2V (x)∂xnx1
∂2V (x)∂xnx2
· · · ∂2V (x)∂x2n
x=xk
6.1 Méthode des approximations successives
L'équation (2.91) étant non linéaire sa résolution est dicile voir analytiquement im-
possible. Néanmoins, nous pouvons la résoudre par l'algorithme des approximations suc-
cessives (AS).
L'idée principale de cette méthode est de transformer (2.91) en une séquence d'équations
97
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
linéaires données par
0 = ∇V (i,j)k (f(xk) + g1(xk)ω
(i,j)k + g2(xk)u
(i)k − xk)
+1
2(f(xk) + g1(xk)ω
(i,j)k + g2(xk)u
(i)k − xk)
T · ∇2V(i,j)k ·
(f(xk) + g1(xk)ω(i,j)k + g2(xk)u
(i)k − xk)
+ ‖h1(xk)‖2 + ‖u(i)k ‖
2 − γ2‖ω(i,j)k ‖2 (2.94)
puis de les résoudre par rapport à ∇Vk de manière itérative. L'équation (2.94)) est dite
équation HJI discrète généralisée, notée G-DHJI.
L'algorithme des AS dans le cas discret est similaire à celui présenté dans le cas continu,
et est résumé comme suit :
En partant d'une commande initiale u(0)k stabilisante du système non linéaire suivant
xk+1 = f(xk) + g2(xk)uk dans une région appelée région de faisabilité Ω ; et pour une
perturbation ω(i,j)k = 0, l'équation (2.94) est résolue puis la perturbation est réactualisée
par la loi suivante
ω(i,j)k =
(2γ2 + gT1 (xk)∇2V
(i,j)k g1(xk)
)−1
·
gT1 (xk)
(∇V (i,j)
k +∇2V(i,j)k (f(xk) + g2(xk)u
(i)k − xk)
)(2.95)
jusqu'au |∇V (i,j+1)k − ∇V (i,j)
k | < ε, nous posons ainsi j = ∞. Ensuite, la commande est
réactualisée selon la loi
u(i)k = −
(2 + gT2 (xk)∇2V
(i,∞)k g2(xk)
)−1
· (2.96)
gT2 (xk)
(∇V (i,∞)
k +∇2V(i,∞)k (f(xk) + g1(xk)ω
(i,∞)k − xk)
)(2.97)
jusqu'au |∇V (i+1,∞)k −∇V (i,∞)
k | < ε, nous posons ainsi i =∞. La solution nale de (2.94)
selon l'algorithme des AS est ∇V (∞,∞)k . L'algorithme des approximations successives est
donnée par la gure 2.38.
98
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1 Soit u(0)k une commande initiale stabilisante, dans un domaine Ω
2 Fixer γ un niveau d'atténuation initiale3 for i = 0 to ∞ do4 Fixer ω(i,0) = 05 for j = 0 to ∞ do
6 Résoudre pour ∇V (i,j)k
7 0 = ∇V (i,j)k (f(xk) + g1(xk)ω
(i,j)k + g2(xk)u
(i)k − xk) + 1
2(f(xk) + g1(xk)ω
(i,j)k +
g2(xk)u(i)k − xk)T · ∇2V
(i,j)k · (f(xk) + g1(xk)ω
(i,j)k + g2(xk)u
(i)k − xk) +
‖h1(xk)‖2 + ‖u(i)k ‖2 − γ2‖ω(i,j)
k ‖2
8 Mise à jour de la perturbation
9 ω(i,j)k = (2γ2 + gT1 (xk)∇2V
(i,j)k g1(xk))
−1 · gT1 (xk)(∇V (i,j)k +∇2V
(i,j)k (f(xk) +
g2(xk)u(i)k − xk))
10 end11 Mise à jour de la commande
12 u(i)k = −(2 + gT2 (xk)∇2V
(i,∞)k g2(xk))
−1 · gT2 (xk)(∇V (i,∞)k +∇2V
(i,∞)k (f(xk) +
g1(xk)ω(i,∞)k − xk))
13 end
14 Si l'équation HJI est solvable alors, réduire γ et aller à 3 avec u(0)k = u
(∞)k .
Figure 2.38 Approximations successives de la solution de l'équation HJI- Cas discret
6.2 Algorithme de Galerkin
La résolution de l'équation G-DHJI (2.94) par la méthode de Galerkin suppose tout
d'abord une solution approximative donnée par
VN(xk) =N∑i=1
ciφi(xk) = cTΦ(xk) (2.98)
avec cT =[c1 c2 · · · cN
]et Φ(xk) =
[φ1(x) φ2(x) · · · φN(x)
]Tx=xk
.
L'équation (2.94) devient
0 = cT∇Φ(xk)(f(xk) + g1(xk)ω+g2(xk)uk − xk) +1
2(f(xk) + g1(xk)ωk + g2(xk)uk − xk)TcT∇2Φ(xk) ·
(f(xk) + g1(xk)ωk + g2(xk)uk − xk) +
‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2
99
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
avec ∇Φ et ∇2Φ sont la jacobienne et la matrice Hessienne de Φ
∇Φ(xk) =[∂φ1∂x
∂φ2∂x· · · ∂φN
∂x
]Tx=xk
∇2Φ(xk) =[∂2φ1∂x2
∂2φ2∂x2
· · · ∂2φN∂x2
]Tx=xk
La méthode de Galerkin, détaillée dans la section 4.1, donne la solution c comme suit
c = −(∮
Ω
(f(xk) + g1(xk)ωk + g2(xk)uk − xk)T∇Φ(xk)TΦ(xk)dΩ
+1
2
∮Ω
(f(xk) + g1(xk)ωk + g2(xk)uk − xk)T∇2Φ(xk)×
(f(xk) + g1(xk)ωk + g2(xk)uk − xk)Φ(xk)dΩ
)−1
·(∮Ω
(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)Φ(xk)dΩ
)(2.99)
Remarque 6.1. Pour le calcul des poids c nous utilisons une méthode de discrétisation des
intégrales qui peut être soit déterministe, soit stochastique (Monté-Carlo). En eet (2.99)
peut s'écrire comme suit
c = −(ΦX)−1 · (ΦY ) (2.100)
avec
Φ =[Φ(xk)|x1k · · · Φ(xk)|xPk
](2.101)
XT =
(∇Φ(xk)∆xk + 1
2(∆xk)
T∇2Φ(xk)(∆xk))|x1k...
(∇Φ(xk)∆xk + 12(∆xk)
T∇2Φ(xk)(∆xk))|xPk
(2.102)
Y =
(‖h1(xk)‖2 + ‖u(i)
k ‖2 − γ2‖ω(i,j)k ‖2)|x1k
...
(‖h1(xk)‖2 + ‖u(i)k ‖2 − γ2‖ω(i,j)
k ‖2)|xPk
(2.103)
où ∆xk = f(xk) + g1(xk)ωk + g2(xk)uk et P étant le nombre de point constituant la
maillage du domaine Ω.
En combinant la méthode des AS et celle de Galerkin nous obtenons l'algorithme
donné par la gure 2.39. Les deux exemples suivants montrent l'ecacité de la méthode
de Galerkin pour résoudre le problème de la commande H∞ non linéaire discrète par
retour d'état.
100
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Input : P un entier positif, ε un nombre susamment petitInput : u0(xk) commande initiale avec saturationInput : I, J deux nombres entiers positifsInput : Φ(xk) vecteur des fonctions de base
1 Fixer cold1 , cold2 susamment grand;2 for i = 0 to I do3 Fixer ω(i,0) = 04 for j = 0 to J do5 Calcul de Φ, X et Y selon (2.101), (2.102) et (2.103) respectivement6 Calcul de c(i,j) = −(ΦX)−1 · (ΦY )7 Calcul de ∇V = cT∇Φ(xk), ∇2V = cT∇2Φ(xk)
8 if ‖c(i,j) − cold1‖ ≤ ε then
9 j = J10 else11 Mise à jour de la perturbation
12 ω(i,j+1) =
(2γ2 − gT1 (xk)∇2V (xk)g1(xk)
)−1
gT1 (xk)
(∇V (xk) +
∇2V (xk)(f(xk) + g2(xk)u(i−1) − xk)
)13 cold1 = c(i,j)
14 end
15 end
16 if ‖c(i,J) − cold2‖ ≤ ε then
17 i = I18 else19 Mise à jour de la commande
20 u(i) =
(2 + gT2 (xk)∇2V (xk)g2(xk)
)−1
gT2 (xk)
(∇V (xk) +∇2V (xk)(f(xk) +
g1(xk)ω(i,j+1) − xk)
)21 cold2 = c(i,∞)
22 end
23 end
24 Sauvegarder c(I,J).
Figure 2.39 Algorithme des Galerkin pour la commande H∞ par retour d'état discret
6.3 Exemples Numériques
6.3.1 Système non linéaire discret MIMO
C'est un système MIMO discret donnée par l'équation au diérences non linéaire
suivante (Jagannathan, 2009)
x(k + 1) =
[x2
1(k) sin(0.5x2(k))
sin(0.9x1(k)) cos(1.4x2(k))
]+
[0
1
]ω(k) +
[1 0
0 0.2
]u(k) (2.104)
101
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
et
z(k) =
[x(k)
u(k)
](2.105)
Pour la détermination du vecteur des coecients c, la commande initiale utilisée est
donnée par
u0(x) =
[x1(k)− 0.6x2(k)
−0.2x1(k) + 0.35x2(k)
](2.106)
La région de faisabilité de la commande est <2, nous choisissons donc arbitrairement
Ω = [−1, 1]2.
Les fonctions de base utilisées sont les termes du développement du polynôme (2.16) pour
n = 2 et m = 6, c.à.d.3∑j=1
( 2∑i=1
xi
)2j
d'où
Φ = [x21, x1x2, x
22, x
41, x
31x2, x
21x
22, x1x
32, x
42, x
61, x
51x2, x
41x
22, x
31x
32, x
21x
42, x1x
52, x
62]T
avec N = 15. Les valeurs de γ et ε sont, respectivement, égaux, à 10 et 10−6. Le vecteur
des coecients c obtenu après convergence de l'algorithme est le suivant
c = [0.5163, 0.3342, 0.4779, −0.0004, 0.0470, −0.0999, −0.1571,
0.0126, 0.0004, 0.0040, 0.0150, 0.0198, 0.0347, 0.0045, −0.0036]T
1 2 3 4 5 6 7 80
2
4
6
8
itération
||c||
Figure 2.40 Norme du vecteur des coecients ||c|| (Système discret 1)
La gure 2.40 montre la convergence de l'algorithme de Galerkin, après seulement six
102
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
itérations, en illustrant la norme de c.
Pour la simulation du système en boucle fermée, les conditions initiales sont x0 = [1, −1]T .
L'entrée exogène est choisi égale à ω(k) = sin(k)e−0.2k. Sur la gure 2.41 sont présentés
les états du système dans le cas de l'application de la commande initiale (2.106) et la
commande H∞ par retour d'état. Nous constatons facilement d'une part la convergence
vers le point d'équilibre x = 0 et d'autre part l'amélioration, en temps de réponse, obtenue
par rapport à l'utilisation de la commande initiale. La gure 2.42 présente les commandes
u1 et u2 dans le cas de l'application de la commande initiale (2.106) et la commande H∞par retour d'état. Les mêmes interprétations peuvent être établies.
0 10 20 30 40 50
−0.5
0
0.5
1
k
x 1
x1 initialx1 H∞
0 10 20 30 40 50−1
−0.5
0
0.5
1
1.5
k
x 2
x2 initialx2 H∞
Figure 2.41 Évolution des états x1 et x2 pour u0 et uH∞ (Système discret 1)
0 10 20 30 40 50
0
0.5
1
1.5
k
u 1
u1 initialu1 H∞
0 10 20 30 40 50−0.6
−0.4
−0.2
0
0.2
k
u 2
u2 initialu2 H∞
Figure 2.42 Évolution des commandes u0 et uH∞ (Système discret 1)
103
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
L'atténuation dénie dans le cas discret par
r(k) =
∑ki=0 x(k)Tx(k) + u(k)Tu(k)∑k
i=0 ω(k)Tω(k)
est illustrée dans la gure 2.43. Nous constatons que celle obtenue dans le cas H∞ est
nettement réduite par rapport à celle obtenue avec la commande initiale.
0 10 20 30 40 500
5
10
15
20
25
k
Attenuation
r
r initialr H∞
Figure 2.43 Évolution de l'atténuation r pour u0 et uH∞ (Système discret 1)
6.3.2 Oscillateur translationnel avec actionneur rotatif (TORA) discrétisé
L'application de la commande H∞ non linéaire discrète par retour d'état u système
TORA est présentée. L'approximation de la fonction coût V est choisie d'ordre 2. En
utilisant un temps de discrétisation ∆T = 0.001 nous obtenons un système discret dèle
et proche du modèle continu.
x(k + 1) =
∆T · x3(k) + x1(k)
∆T · x4(k) + x2(k)
∆T · −x1(k) + εx24(k) sinx2(k)
1− ε2 cos2 x2(k)+ x3(k)
∆T · ε cosx2(k)(x1(k)− εx24(k) sinx2(k))
1− ε2 cos2 x2(k)+ x4(k)
+
∆T ·
0
01
1− ε2 cos2 x2(k)−ε cosx2(k)
1− ε2 cos2 x2(k)
ω + ∆T ·
0
0−ε cosx2(k)
1− ε2 cos2 x2(k)1
1− ε2 cos2 x2(k)
u (2.107)
104
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
avec ε = 0.5.
Une commande contrainte est synthétisée avec la condition |u| ≤ A = 0.8. la fonction de
saturation est la tangente hyperbolique. La norme de la variable de pénalité z, dans le
cas discret, est donc
‖z(x, u)‖2 = 0.1x(k)Tx(k)+2A(u(k) tanh−1(u(k)/A)+0.5A log(1−(u(k)/A)2))) (2.108)
Pour la détermination du vecteur des coecients c, la commande initiale est choisie égale
à celle utilisée dans le cas continu, c.à.d. (2.66).
La région de faisabilité est Ω = [−2, 2]4 et le niveau d'atténuation γ est 10.
Les fonctions de base utilisées sont les termes du développement du polynôme (2.16) pour
n = 4 et m = 6, c.à.d.3∑j=1
( 4∑i=1
xi
)2j
donc N = 129.
La méthode de discrétisation du domaine Ω, avec un maillage de 10000 point, est utilisée.
La gure 2.44 montre la convergence de la norme du vecteur c après seulement 5 itérations.
1 1.5 2 2.5 3 3.5 4 4.5 5
2,880
2,890
2,900
2,910
itération
||c||
Figure 2.44 Norme des coecients ||c|| (TORA Discret)
Une fois le vecteur des coecients obtenu, la loi de commande avec saturation
u(k) = −A tanh
1
A
(2 + gT2 (xk)∇2TΦcg2(xk)
)−1
·
gT2 (xk)
(∇TΦc +∇2TΦc(f(xk) + g1(xk)ωk − xk)
)(2.109)
105
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
avec A = 0.8 est appliquée pour simuler du système en boucle fermée avec comme condi-
tions initiales x(0) = [1.5, −0.6, 1.5, 0.6]T et une perturbation (la force F (t)) qui vaut
ω(k) = 5 sin ke−k/100. Dans la gure 2.45 sont illustrés les trajectoires de x1(k), x2(k) et
x3(k), x4(k). IL est facile de remarquer la stabilité asymptotique du point d'équilibre 0.
0 1 2 3 4
·104
−2
−1
0
1
2
k
x 1(ζ),x 2(θ)
x1x2
0 1 2 3 4
·104
−2
−1
0
1
2
k
x 3(dζ/dt),x 4(dθ/dt)
x3x4
Figure 2.45 Convergence asymptotique des états vers x = 0 (TORA discret)
0 1 2 3 4
·104
−0.5
0
0.5
k
Com
mande
u
0 1 2 3 4
·104
0
2
4
6
8
10
12
k
Atténuation
r
Figure 2.46 Évolution de la commande u et de l'atténuation r (TORA discret)
La commande u(k) est tracée dans la gure 2.46. Nous voyons clairement la bornitude la
commande dans l'intervalle [−A = 0.8,+0.8 = +A]. L'atténuation r dénie par
r(k) =
∑kl=0 ‖z(xl, ul)‖2∑k
l=0 ‖ωl‖2
106
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
est aussi présentée dans la gure 2.46. Nous concluons que r γ2, ce qui signie une
bonne atténuation des perturbations.
7 Méthode de Galerkin appliquée à résolutions des équa-
tions de HJI pour la commande par retour de sortie
Nous rappelons que la résolution du problème de la commande H∞ non linéaire par
retour de sortie est basée sur l'équation de HJI suivante
K(x,W Tx (x), ω∗∗(x,W
Tx (x)))−H∗(x, V T
x (x)) = 0 (2.110)
avec
H∗(x, VTx (x)) = H(x, V T
x (x), ω∗, u∗) = 0 (2.111)
et
K(x,W Tx (x), ω(x,W T
x (x))) = Wx(f + g1ω)− 2γ2hT2 (h2 + k21ω) + ‖h1‖2 − γ2‖ω‖2
ω∗∗(x,Wx) =1
2γ2gT1 Wx − kT21(x)h2(x) (2.112)
H∗, ω∗ et u∗ dans (2.111) sont données respectivement par les équations (1.49), (5.20) et
(1.44).
7.1 Algorithme des approximations successives
La résolution de l'équation HJI (2.111) a déjà fait l'objet de l'application de l'algo-
rithme des approximations successives (gure 2.1) jumelé avec l'algorithme de Galerkin
(gure 2.2). Nous obtenons ainsi le vecteur des coecients c.
L'équation (2.110) est interprétée comme un jeu diérentiel à un seul joueur ω∗∗. L'algo-
rithme 2.1 est reformulé pour transformer l'équation non linéaire (par rapport à Wx) à
dérivées partielles (2.110) en une séquence d'équations linéaires à dérivées partielles et de
les résoudre itérativement. L'algorithme est donnée par la gure 2.47.
7.2 Algorithme de Galerkin
Soit ω : Ω→ Rr une perturbation initiale dénie dans le domaine Ω et soit ψk(x), k =
1, · · · ,M un ensemble de fonctions de base approximant la fonction W (x), solution de
(2.110)
WM(x) =M∑k=1
νkψk(x) = νTΨ(x) (2.113)
107
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1 Soit c le vecteur des coecients relatif à la résolution de l'équation HJI dans le casde la commande par retour d'état
2 Soit H∗ donnée par (2.111) avec u∗ = −12gT2∇ΦTc et ω∗ = 1
2γ2gT1∇ΦTc
3 Soit ω(0)(x) = ω∗4 for i = 0 to ∞ do
5 Résoudre pour W (i)x
6 W(i)x (f + g1ω
(i))− 2γ2hT2 (h2 + k21ω(i)) + ‖h1‖2 − γ2‖ω(i)‖2 −H∗ = 0
7 Mise à jour de la perturbation
8 ω(i+1) = 12γ2gT1 W
(i)Tx − kT21h2
9 end
Figure 2.47 Approximations successives de la solution de l'équation HJI
avec νT =[ν1 · · · νM
]et Ψ(x) =
[ψ1(x) · · · ψM(x)
]T.
En remplaçant l'approximation (2.113) dans l'équation HJI (2.110) cette dernière devient
M∑i=1
νiψi,x(x)(f + g1ω)− 2γ2hT2 (h2 + k21ω) + ‖h1‖2− γ2‖ω‖2−H∗(x, V Tx (x)) = 0 (2.114)
Maintenant la méthode de Galerkin appliquée à l'équation (2.114) donne
M∑k=1
νk
∮Ω
ψk,x(x)(f(x) + g1(x)ω
)ψl(x)dΩ =
M∑k=1
∮Ω
(2γ2hT2 (h2 + k21ω)− ‖h1(x)‖2 + γ2‖ω‖2 +H∗
)ψl(x)dΩ (2.115)
ou sous forme matricielle plus compacte
(C1 + C2(ω))ν = d1 + γ2d2(ω) (2.116)
avec :
C1 =
∮Ω
fT (x)∇ΨTΨdΩ (2.117)
C2(ω) =
∮Ω
ωTgT1 (x)∇ΨTΨdΩ (2.118)
et
d1 =
∮Ω
(2γ2‖h2(x)‖2 − ‖h1(x)‖2 +H∗)ΨdΩ (2.119)
d2(ω) =
∮Ω
(‖ω‖2 + 2hT2 k21ω)ΨdΩ (2.120)
108
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Les termes C1, C2(ω) et d2(ω) peuvent être calculés en utilisant l'équation (2.112). En
eet, cette dernière devient
ω =1
2γ2gT1 W
Tx − kT21(x)h2(x) =
1
2γ2gT1∇ΨTν − kT21(x)h2(x) (2.121)
En remplaçant dans (2.118) et (2.120), nous obtenons
C1 =
∮Ω
(fT (x)− hT2 k21gT1 )∇ΨTΨdΩ (2.122)
C2(ν) =1
2γ2
∮Ω
νT∇Ψg1gT1∇ΨTΨdΩ
=1
2γ2
M∑j=1
νj
∮Ω
∂ψj∂x
g1gT1∇ΨTΨdΩ︸ ︷︷ ︸G2j
=1
2γ2
M∑j=1
νjG2j (2.123)
de même nous aurons, après quelques manipulations
d2(ν) =1
4γ2
M∑j=1
νjG2jν (2.124)
Les intégrales C2(ν) et d2(ν) peuvent être calculées de manière itérative une fois la matrice
G2j a été calculée.
L'algorithme de Galerkin pour la synthèse de la commande H∞ par retour de sortie est
illustré par la gure 2.48.
7.2.1 Calcul de la matrice de gain G
Une fois nous avons déterminés c et ν, par les algorithmes 2.2 et 2.48, la matrice de
gain G est obtenue par l'équation
(νT∇Ψ− cT∇Φ)G(x) = 2γ2h2(x) (2.125)
en introduisant les approximations faites sur V (x) et W (x).
Finalement, la remarque 3.2 permet de déterminer la matrice G, comme suit
1 Extraire R1(x) de xTR1(x) = (νT∇Ψ− cT∇Φ)
2 Extraire L(x) de xTL(x) = 2γ2h2(x)
3 Calculer la matrice gain non linéaire par G(x) = R−11 (x)L(x).
109
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Input : M un entier positif, ε un nombre susamment petitInput : c, H∗ donnée par (2.111) avec u∗ = −1
2gT2∇ΦTc et ω∗ = 1
2γ2gT1∇ΦTc
Input : ω(0)(x) = ω∗ perturbation initialeInput : C1 (2.122), C2(ω(0)(x)) (2.118), d1 (2.120), d2(ω(0)(x)) (2.120), G2j,
j = 0, · · · ,MInput : Ψ(x) vecteur des fonctions de base
1 Fixer νold susamment grand;2 for i = 0 to ∞ do3 if i == 0 then4 C(i) = C1 + C2(ω(0)(x))
5 d(i) = d1 + d2(ω(0)(x))
6 else
7 C(i) = C1 + 12γ2
∑Mj=1 νjG2j
8 d(i) = d1 + 14γ2
∑Mj=1 νjG2jν
9 end
10 ν(i) = C−1d
11 if ‖ν(i) − νold‖ ≤ ε then12 i =∞13 else14 νold = ν(i)
15 end
16 end
17 Sauvegarder ν(∞).
Figure 2.48 Algorithme de la méthode de Galerkin pour la commandeH∞ par retour de sortie
7.3 Commande H∞ par retour de sortie du système TORA
Dans cette section nous nous intéressons à l'application de l'algorithme de Galerkin
dans le cas de la commande par retour de sortie au système TORA. Nous supposons que
seul les états x1(ζ) et x2(θ) sont accessibles par mesure, et ces derniers sont entachés,
respectivement, de bruits de mesures ω2 et ω3, c.à.d
y =
[x1 + ω2
x2 + ω3
](2.126)
Donc, h2(x) =[x1 x2
]Tet k21 =
[0 1 0
0 0 1
].
Pour la détermination des vecteurs de coecients c et ν nous avons utilisé les fonctions
de bases suivantes
Φ = [x21, x1x2, x1x3, x1x4, x
22, x2x3, x2x4, x
23, x3x4, x
24]T
Ψ = Φ
110
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
Ce choix est justié dans le souci d'avoir une matrice de gain G(x) constante. D'ailleurs,
nous obtenons, après convergence des algorithmes 2.2 et 2.48, les résultats suivants.
c = [0.9369, −0.1910, −0.0690, −0.2718, 0.3972,
0.4290, 0.9296, 0.9741, 0.9352, 1.0270]T
ν = [111.8537, 28.1290, −45.9130, −28.4083, 122.3326,
−2.3055, −83.1247, 45.0090, 38.5496, 82.8899]T
La gure 2.49 présente ||ci+1−ci|| et ||νi+1−νi|| en fonction de l'itération i. La convergencedes deux algorithmes est obtenue après 10 et 16 itérations.
0 2 4 6 8 10 12 14 1610−6
10−3
100
103
106
itération
||ci+
1-c
i ||,||ν
i+1-ν
i ||
||ci+1-ci||||ν i+1-ν i||
Figure 2.49 Incréments des coecients c, ν - Commande pr retour de sortie du systèmeTORA
La méthode de détermination de G donne
G =
0.9990 −0.0927
−0.0927 1.0144
0.5078 −0.2510
0.0135 0.5584
(2.127)
Après l'obtention de G, la loi de commande par retour de sortie est donnée par
ξ = f(ξ) + g1(ξ)ω∗(ξ) + g2(ξ)u∗(ξ) +G(y − h2(ξ))
u = u∗(ξ) (2.128)
avec u∗(ξ) = −0.5g2(ξ)∇Φ(ξ)c et ω∗(ξ) = 0.5γ−2g1(ξ)∇Φ(ξ)c.
La commande (2.128), ainsi qu'une perturbation ω1 = 5 sin t exp(−t) sont appliquées au
111
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
système TORA avec les conditions initiales suivantes : x(0) =[1.5 −0.6 1.5 0.6
]Tet
ξ(0) =[0 0 0 0
]T.
Dans la gure 2.50 sont présentés les états x et leurs estimés ξ. Nous constatons clairement
la stabilité asymptotique du point d'équilibre (x, ξ) = (0, 0) et donc, la capacité de la
méthode approximative de Galerkin à résoudre le problème de la commande H∞ non
linéaire par retour de sortie. Dans la gure 2.51 sont montrées la commande non linéaire
et l'atténuation r =∫∞
0‖z‖2dt/
∫∞0‖ω‖2dt. L'objectif, r γ2 avec γ = 10, est visiblement
atteint.
Dans ce qui suit, nous proposons d'appliquer la commande par retour de sortie (2.128)
0 10 20 30 40 50
−2
−1
0
1
2
temps [sec]
x 1(ζ),ξ 1
x1ξ1
0 10 20 30 40 50
−1
0
1
2
temps [sec]
x 2(θ),ξ 2
x2ξ2
Figure 2.50 Convergence asymptotique des états et des estimées vers (x, ξ) = (0, 0) (TORA)
0 10 20 30 40 50
−1
0
1
temps [sec]
Com
mande
u
0 10 20 30 40 500
2
4
6
temps [sec]
Atténuation
r
Figure 2.51 Commande H∞ par retour de sortie et Atténuation r : G (2.127)
en utilisant, cette fois-ci, la matrice de gain G données dans la proposition 6.1 du chapitre
112
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
1. Pour cela, le modèle non linéaire du TORA (2.64) est linéarisé autour de l'origine. Les
matrices suivantes s'obtiennent directement
A =
0 0 1 0
0 0 0 1
−1/(1− ε2) 0 0 0
ε/(1− ε2) 0 0 0
, B1 =
0 0 0
0 0 0
1/(1− ε2) 0 0
−ε/(1− ε2) 0 0
B2 =
0
0
−ε/(1− ε2)
1/(1− ε2)
, C1 =√
0.1I4, C2 =
[1 0 0 0
0 1 0 0
]
La résolution des deux équations de Riccati (1.105) et (1.106), donne la matrice de gain
(1.107), suivante
G =
1.2491 −0.1231
−0.123 1.5930
0.7881 −0.4095
0.0607 1.2653
(2.129)
La gure 2.52 montre la loi de commande (2.128) dans le cas de l'application de la matrice
de gain (2.129). La stabilité asymptotique de (x, ξ) = (0, 0) reste assurée. L'atténuation
r est illustrée sur la même gure et l'objectif r γ2 est toujours vérié.
0 10 20 30 40 50−1
−0.5
0
0.5
temps [sec]
Com
mande
u
0 10 20 30 40 500
2
4
6
temps [sec]
Atténuation
r
Figure 2.52 Commande H∞ par retour de sortie et Atténuation r : G (2.129)
113
Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin
8 Conclusion
Ce chapitre a été consacré à la synthèse des lois de commandes H∞ des systèmes
non linéaires anes en entrées et en perturbations par hybridation de l'algorithme des
approximations successives avec la méthode de Galerkin. L'algorithme des AS a été utilisé
pour transformer les équations HJI non linéaires en des équations GHJI linéaires. La
méthode de Galerkin, quand à elle, a été utilisée pour résoudre approximativement les
équations GHIJ dans un sous espace engendré par des fonctions de base choisies, pour des
raisons de simplication, polynomiales.
Plusieurs stratégies de commande ont été élaborées. Il s'agit de la commande H∞continu par retour d'état sans et avec contraintes sur les signaux d'entrées, de la commande
H∞ par retour d'état avec horizon ni, de la commandeH∞ discrète par retour d'état et la
commande H∞ par retour de sorties. Nos contributions sont focalisées sur l'application de
la méthode Galerkin-AS dans la synthèse de la commande à horizon ni et la commande
à temps discret. Plusieurs méthodes d'implémentation ont été élaborées (déterministe
et stochastique). Nous avons pu appliquer le calcul symbolique pour implémenter cette
hybridation.
Les applications faites sur une diversité de systèmes et les résultats de simulations
montrent l'ecacité d'une telle méthode de résolution du problème H∞ non linéaire.
114
Chapitre 3
Solutions approximatives des équations
de HJI : Méthode des réseaux de
neurones
1 Introduction
Dans le chapitre précédant nous avons traité le problème de la commande H∞ non
linéaire par la résolution des équations de HJI résultantes en utilisant une hybridation de
l'algorithme des approximations successives et la méthode de Galerkin. En eet plusieurs
problèmes liés au concept de la commande H∞ non linéaire ont été traités, à savoir,
le retour d'état continu et discret, la commande à horizon ni et le retour de sortie
(commande avec observateur).
Ce chapitre présente une alternative à la méthode de Galerkin qui est l'utilisation des
réseaux de neurones articiels (RNA) dont les poids sont optimisés par la méthode des
moindres carrés (MMC). Cette dernière est une des méthodes des résidus pondérés, donc
peut résoudre, par approximation, des équations à dérivées partielles non linéaires telles
que les équations de HJI. Les premiers travaux relatifs à l'utilisation des RNA dans le
domaine de la commande H2 optimale est celle de M. Abu-Khalaf et F. Lewis dans Abu-
Khalaf (2004) Abu-Khalaf et al. (2006) Abu-Khalaf (2005a) Abu-Khalaf (2005b). Une
extension à la commande H∞ non linéaire est aussi donnée dans Abu-Khalaf (2005b).
Notre contribution dans ce chapitre est l'utilisation de la méthode RNA-MMC (réseaux
de neurones-moindres carrés) pour résoudre le problème de la commande par retour d'état
discret et par retour de sortie du système TORA.
Ce chapitre est organisé comme suit : Dans la section 2 nous donnons la propriété
fondamentale des RNA qui est l'approximation des fonctions lisses. Dans la section 3, la
MMC, combinée avec l'algorithme des approximations successives (AS), est utilisée pour
la résolution des équations GHJI dans le cas du retour d'état continu. Une application
115
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
sur le système TORA est faite. Ensuite, la section 4 donne une extension au cas du retour
d'état discret avec comme système de validation le TORA discrétisé. La section 5 aborde
le problème de la commande H∞ par retour de sortie, ou commande avec observateur
dynamique non linéaire appliqué au même système. Finalement, une étude comparative
entre la méthode de Galerkin et celle des RNA-MMC, dans le cas de la commande par
retour d'état, est donnée dans la section 6. Une conclusion terminer ce chapitre.
2 Les réseaux de neurones comme approximateurs uni-
versels
Dans cette section la résolution des équations HJI par les réseaux de neurones est
traitée. La propriété d'approximation universelle des RN à approximer des fonctions lisses
quelconques s'énonce comme suit : (Cybenko, 1989), (Hornik et al., 1990)
Toute fonction bornée susamment lisse peut être approximée uniformément, avec une
précision arbitraire, dans un domaine ni de l'espace de ces variables, par un réseau de
neurones qui possède une couche cachée de plusieurs neurones et une couche de sortie
linéaire.
Dans les réseaux de neurones nous trouvons deux architectures diérentes, à savoir, les
réseaux statiques non bouclés et les réseaux dynamiques bouclés. Les premiers sont utilisés
dans le cas de l'approximation des fonctions et les seconds dans le cas de l'identication
et la commande des systèmes dynamiques.
Comme nous nous intéressons à l'approximation des fonctions valeurs V (x), la première
architecture est envisagée.
Pour pouvoir implémenter les réseaux de neurones, rappelons que la fonction valeur V (x)
solution de l'équation GHJI (2.6) peut être remplacée par une approximation (Méthode
des résidus pondérés) donnée par
VN(x) =N∑k=1
ckφk(x) = cTΦ(x) (3.1)
avec
c =[c1 c2 · · · cN
]T∇Φ =
[∂φ1(x)∂x
∂φ2(x)∂x
· · · ∂φN (x)∂x
]TL'équation (3.1) peut être considérée comme une sortie linéaire d'un réseau de neurones
non bouclé possédant n entrées et N neurones dans la couche cachée dont les fonctions
d'activation sont φi. Le réseau de neurones qui implémente la commande H∞ non linéaire
par retour d'état est schématisé par la gure 3.1.
116
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
x1
x2
...
xn−1
xn
...
φ1
φ2
...
φN−1
φN
Σ
c1
c2
cN−1
cN
VN ∂T
∂x
−12g2(x)T ∂
TVN∂x
12γ2
g1(x)T ∂TVN∂x
u
ω
x = f(x) + g1(x)ω + g2(x)u
Figure 3.1 Implémentation de la commande H∞ par un réseau de neurones non bouclée
3 Résolution des équations de HJI : Cas de la Com-
mande H∞ continue par retour d'état
3.1 Méthode des approximations successives
Nous rappelons dans ce paragraphe la méthode des approximations successives (AS)
détaillée dans la section 2 du chapitre 2. Dans la méthode AS, l'équation de HJI (2.2) est
remplacée par une suite d'équations à dérivées partielles linéaires suivantes en séparant le
calcul de la commande et perturbation optimales (u∗, ω∗) de la solution Vx. Ces équations
sont données par
V (i,j)x (f(x) + g1(x)ω(i,j) + g2(x)u(i)) + ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2 = 0 (3.2)
L'algorithme des AS résout (3.2) de la manière itérative suivante :
En partant d'une commande initiale u(0) stabilisante du système non linéaire x = f(x) +
g1(x)ω+ g2(x)u(0) dans une région de faisabilité Ω ; et une perturbation ω(i,j) = 0, l'équa-
117
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
tion (3.2) est résolue et la perturbation est réactualisée par
ω(i,j) =1
2γ2gT1 (x)V (i,j)
x (3.3)
jusqu'au |V (i,j+1)x − V
(i,j)x | < ε, nous posons ainsi j = ∞. Ensuite, la commande est
réactualisée selon la loi
u(i) = −1
2gT2 (x)V (i,∞)
x (3.4)
jusqu'au |V (i+1,∞)x −V (i,∞)
x | < ε, nous posons ainsi i =∞. La solution nale de (3.2) selon
l'algorithme des AS est V (∞,∞)x .
3.2 Méthode des Résidus pondérés basée sur les moindres carrés
En remplaçant dans l'équation GHJI (3.2) la fonction coût V (x) par l'approximation
donnée par (3.1), (3.2) devient
V(i,j)Nx (f(x) + g1(x)ω(i,j) + g2(x)u(i)) + ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2 ' 0 (3.5)
L'égalité dans (3.2) n'est valide que pour la solution exacte V (x), donc en remplaçant
V (x) par VN(x) nous obtenons un résidu donné par
R = V(i,j)Nx (f(x) + g1(x)ω(i,j) + g2(x)u(i)) + ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2
ou sous la forme
R(c, x) = cT∇Φ(x)F (x, ω(i,j), u(i)) +H(x, ω(i,j), u(i)) (3.6)
avec
F (x, ω(i,j), u(i)) = f(x) + g1(x)ω(i,j) + g2(x)u
H(x, ω(i,j), u(i)) = ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2
Notre objectif est de trouver le vecteur c de telle manière à minimiser le carré du résidus
sur tout le domaine de solution Ω. Le carré du résidu est une mesure de la distance
(positive ou négative) du résidu par rapport à 0
I(c) =
⟨R(c, x), R(c, x)
⟩=
∮Ω
R(c, x)TR(c, x)dΩ (3.7)
118
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
En eet, la minimisation de I(c) par rapport à c s'écrit par
∂I(c)
∂c= 0
ce qui donne ∮Ω
R(c, x)∂R(c, x)
∂cdΩ = 0 (3.8)
En comparant (3.8) avec les intégrales normales de la méthode des résidus pondérés, nous
obtenons une variante des MWR, dite méthode des moindres carrés. Les fonctions de
pondération wl sont choisies comme suit
wl =∂R(c, x)
∂c, l = 1, · · · , N (3.9)
La relation suivante peut être facilement déduite
∂R(c, x)
∂c= ∇Φ(x)F (x, ω(i,j), u(i))
D'où les intégrales normales pondérées deviennent∮Ω
(cT∇Φ(x)F (x, ω(i,j), u(i)) +H(x, ω(i,j), u(i)))(∇Φ(x)F (x, ω(i,j), u(i)))dΩ = 0 (3.10)
Finalement ,le vecteur des coecients s'obtient comme suit
c = −(∮
Ω
∇Φ(x)F (x, ω(i,j), u(i))F T (x, ω(i,j), u(i))∇TΦ(x)dΩ
)−1
×(∮Ω
∇Φ(x)F (x, ω(i,j), u(i))H(x, ω(i,j), u(i))dΩ
)(3.11)
L'équation (3.11) implique une inversion matricielle. Le lemme 4.1 de la section 4.1 du
chapitre précédent donne une condition d'existence de la solution c. En eet, si l'ensemble
∂φi(x)∂x
F (x, ω, u)N1 est linéairement indépendant, alors la matrice∮Ω
∇Φ(x)F (x, ω, u)F T (x, ω, u)∇TΦ(x)dΩ
est de rang complet N , donc inversible ce qui garantit l'unicité de la solution (3.11).
119
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
3.3 Méthode d'implémentation
La méthode de calcul des intégrales reste inchangée. Ceci dit les intégrales sont ap-
prochées par la dénition de l'intégrale de Reimann suivante
b∫a
f(x)dx = lim||δx||→0
P∑i=1
f(xi)δx (3.12)
où δx = xi − xi−1 et f est une fonction bornée sur [a, b].
L'application de cette dernière aux intégrales de l'équation (3.11) donne∮Ω
∇Φ(x)F (x, ω(i,j), u(i))F T (x, ω(i,j), u(i))∇TΦ(x)dΩ = lim||δx||→0
(XTX) · ||δx||
∮Ω
∇Φ(x)F (x, ω(i,j), u(i))H(x, ω(i,j), u(i))dΩ = lim||δx||→0
(XTY ) · ||δx||
la solution c devienne
c = −(XTX)−1 · (XTY ) (3.13)
avec
X =[∇Φ(x)F (x, ω, u)|x1 · · · ∇Φ(x)F (x, ω, u)|xP
](3.14)
Y =[H(x, ω, u)|x1 · · · H(x, ω, u)|xP
](3.15)
P étant le nombre de points constituant la maillage du domaine Ω. Ce nombre doit être
supérieur ou égal au nombre de fonctions de bases, N . Cela garantira l'inversibilité de
XTX. On note aussi que plus le pas de discrétisation des intégrales, ∆x est petit plus
le nombre de points constituant le maillage, P , est grand. Il existe d'autres méthodes
d'approximation des intégrales, on peut citer entre autres la méthode d'intégration de
Monté-Carlo (voir section 4.2.3 du chapitre précédant).
Les codes Matlab c© données dans les gures 2.4 et 2.5 et générant un maillage dans le cas
n = 4 peuvent êtres reprises facilement dans le cas de la méthode des RNA-MMC.
La gure 3.2 donne l'algorithme des moindres carrés pour la résolution de l'équation GHJI.
Remarque 3.1. La résolution d'un problème de moindres carrés via l'inversion matricielle
(3.13) possède deux inconvénients majeurs. D'une part, la perturbation due aux erreurs
d'arrondi lorsque nous passons par les équations normalesXc = −Y peut être importante.
En eet, si la matrice des données X est légèrement perturbée comme suit : X = X+δX,
le calcul de c va amplier la perturbation : (X+δX)T (X+δX) = XTX+δXTX+XT δX+
δXT δX alors qu'en passant par d'autres méthodes de résolution (par exemple factoriser
X sous la forme LU où L est orthogonale et U triangulaire, ou utiliser une méthode calcul
120
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Input : P un entier positif, ε un nombre susamment petitInput : u0(x) commande initiale avec saturationInput : I, J deux nombres entiers positifsInput : Φ(x) vecteur des fonctions de base
1 Fixer cold1 , cold2 susamment grand;2 for i = 0 to I do3 Fixer ω(i,0) = 04 for j = 0 to J do5 for l = 1 to P do6 Calcul de7 Xl = ∇Φ(x)F (x, ω(i,j), u(i))|xl8 Yl = H(x, ω(i,j), ui)|xl9 end
10 X =[X1 · · · XP
]11 Y =
[Y1 · · · YP
]12 c(i,j) = −(XTX)−1 · (XTY )
13 if ‖c(i,j) − cold1‖ ≤ ε then
14 j = J15 else16 Mise à jour de la perturbation17 ω(i,j+1) = 1
2γ2gT1 (x)∇ΦTc(i,j)
18 cold1 = c(i,j)
19 end
20 end
21 if ‖c(i,J) − cold2‖ ≤ ε then
22 i = I23 else24 Mise à jour de la commande25 u(i) = tanh(−1
2gT2 (x)∇ΦTc(i,∞))
26 cold2 = c(i,∞)
27 end
28 end
29 Sauvegarder c(I,J).
Figure 3.2 Algorithme des RNA pour la commande H∞ contrainte par retour d'état
récursive) la perturbation des données sera moindre. D'autre part, le calcul de XTX peut
faire intervenir des overow ou underow parasites. En eet, si X contient un élément
supérieur (mais proche) au plus petit ottant représentable, XTX contient un élément
inférieur à ce ottant.
Remarque 3.2. L'inversion matricielle dans (3.13) peut provoquer, dans les boucles des
mises à jours des perturbations ω et des commandes u, des matrices singulières. Pour
contrecarrer ce phénomène, nous pouvons toujours calculer le vecteur des coecients c en
utilisant le lemme d'inversion matricielle qui nous ramène à un algorithme des moindres
121
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
carrés récursives. En eet la ligne 12 de l'algorithme donnée dans la gure 3.2 est remplacée
par celles de la gure 3.3.
1 A = X2 B = −Y3 c = 04 S = δI, avec δ susament grand5 for i = 1 to P do
6 S = S − SA(i, :)TA(i, :)S
(1 + A(i, :)SA(i, :)T )7 c = c + SA(i, :)T (B(i, :)− A(i, :)c)
8 end
Figure 3.3 Algorithme des Moindres Carrées récursives
3.4 Application à la commande H∞ par retour d'état du système
TORA
Dans cette section l'application de la méthode RNA-MMC au système TORA décrit
dans l'exemple 4.3.5 de la section 4.3 est faite. Nous rappelons que c'est un système
mécanique instable en boucle ouverte et qui peut être modélisé sous la forme standard
(2.1). L'objectif de la commande est double, à savoir, assurer la stabilité asymptotique
du point d'équilibre x = 0 et garantir une atténuation des variables d'entrées exogènes
(Force de perturbation F (t)) par rapport à des sorties à régulées (z), c.à.d, assurer un
L2-gain inférieur à un certain niveau d'atténuation γ.
Les fonctions de base utilisées dans l'algorithme des RNA-MMC sont choisies sous la
forme suivante
Φ = [x21, x1x2, x1x3, x1x4, x
22, x2x3, x2x4, x
23, x3x4, x
24, x
41, x
31x2,
x31x3, x
31x4, x
21x
22, x
21x2x3, x
21x2x4, x
21x
23, x
21x3x4, x
21x
24, x1x
32,
x1x22x3, x1x
22x4, x1x2x
23, x1x2x3x4, x1x2x
24, x1x
33, x1x
23x4,
x1x3x24, x1x
34, x
42, x
32x3, x
32x4, x
22x
23, x
22x3x4, x
22x
24, x2x
33,
x2x23x4, x2x3x
24, x2x
34, x
43, x
33x4, x
23x
24, x3x
34, x
44] (3.16)
avec N = 45. Dans cet exemple la valeur de γ = 10 est sélectionnée.
La commande initiale utilisée pour lancer l'algorithme des RNA-MMC est la même que
dans le cas de la méthode de Galerkin.
La région de faisabilité de la commande est Ω = [−1, 1]4 et la méthode utilisée pour
calculer les intégrales est celle de Monté-Carlo avec un nombre de points P = 3000. La
valeur ε utilisée pour l'arrêt des boucles des mise à jour des commandes et perturbations
122
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
est choisie égale à 0.001 (ceci est susant puisqu'on compare la diérence sur la norme
quadratique du vecteur des coecients c).
L'algorithme converge après seulement 4 itérations et le vecteur des coecients obtenu
est donné par le tableau 3.1.
Table 3.1 Vecteur c - RNA Cas continu (TORA)
c = [1.1620 0.0232 0.0955 −0.3491 0.2196 0.4862 0.6905 1.20901.3163 1.0022 −0.0099 0.0056 −0.0148 0.0260 0.0925 0.00500.1165 −0.0138 0.0158 0.0586 −0.0547 0.0393 0.0744 0.01550.0719 0.1124 −0.0008 0.0392 0.0455 0.0369 0.0835 −0.14650.0900 0.0180 −0.7374 0.0091 0.0014 0.0560 −0.0874 0.0147−0.0048 0.0173 0.0554 0.0103 0.0004]
Nous présentons sur la gure 3.4 la norme du vecteur des coecients ||c|| en fonction
des itérations.
1 1.5 2 2.5 3 3.5 42.6
2.65
2.7
2.75
2.8
2.85
itération
||c||
Figure 3.4 Norme du vecteur des coecients (TORA) - Méthode des RNA
Pour la simulation du système en boucle fermée, les conditions initiales sont choisies égales
à x(0) = [1.5, −0.6, 1.5, 0.6]T . Une perturbation (la force F (t)) est appliquée au début
de la simulation et vaut ω(t) = 5 sin 5te−t. Sur la gure 3.5 sont illustrés les trajectoires
des états x1(t) et x2(t). IL est facile de remarquer la stabilité asymptotique du point
d'équilibre 0. La commande u, ainsi que l'atténuation r dénie par
r(t) =
∫ t0‖z‖2dτ∫ t
0‖ω‖2dτ
sont tracés dans la gure 3.6. Nous concluons que r γ2, ce qui signie une bonne
atténuation des perturbations.
123
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
0 10 20 30 40
−2
0
2
temps [sec]
x 1(ζ)
0 10 20 30 40−1
−0.5
0
0.5
1
tmps [sec]
x 2(θ)
Figure 3.5 Convergence asymptotique des états vers x = 0 (TORA) - Méthode des RNA
0 10 20 30 40
−0.5
0
0.5
1
temps [sec]
Com
mande
u
10 20 30 40
1
2
3
temps [sec]
Atténuation
r
Figure 3.6 Commande u et atténuation r (TORA) - Méthode des RNA
4 Résolution des équations de HJI Cas de la Com-
mande H∞ discrète par retour d'état
Nous rappelons que l'approximation d'ordre 2 faite sur la fonction coût V (xk+1, uk, ωk)
dans le cas discret donne l'équation GHJI suivante
0 =∂V (xk+1, uk, ωk)
∂xk+1
(f(xk) + g1(xk)ωk + g2(xk)uk − xk
)+
1
2
(f(xk) + g1(xk)ωk + g2(xk)uk − xk
)T∂2V (xk+1, uk, ωk)
∂x2k+1(
f(xk) + g1(xk)ωk + g2(xk)uk − xk)
+ ‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2 (3.17)
124
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Maintenant, dans le cas ou nous utilisons un RNA pour approximer V par VN donnée par
(3.1), l'équation (3.17) donne un résidu R que nous essayons de le minimiser au sens des
moindres carrés
R = cT∇Φ(x)∆xk +1
2(∆xk)
TcT∇2Φ(x)(∆xk)
+‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2
avec
∆xk = xk+1 − xkxk+1 = f(xk) + g1(xk)ωk + g2(xk)uk
∇Φ =[∂φ1∂x
∂φ2∂x· · · ∂φN
∂x
]T∇2Φ =
[∂2φ1∂x2
∂2φ2∂x2
· · · ∂2φN∂x2
]TPour trouver la solution (c) au sens des moindres carrés nous utilisons la méthode des
résidus pondérés. Comme dans le cas continu, les fonctions de pondérations sont choisies
comme suit
wj =∂R(c, x)
∂c, j = 1, · · · , N (3.18)
La solution au problème est donc formalisée par les intégrales normales pondérées sui-
vantes ∮Ω
R(c, x)∂R(c, x)
∂cdΩ = 0 (3.19)
L'équation (3.19) donne la solution suivante
c = −[ ∮
Ω
(∇Φ(x)∆xk +
1
2(∆xk)
T∇2Φ(x)(∆xk)
)·(
∇Φ(x)∆xk +1
2(∆xk)
T∇2Φ(x)(∆xk)
)TdΩ
]−1
·[ ∮Ω
(∇Φ(x)∆xk +
1
2(∆xk)
T∇2Φ(x)(∆xk)
)·(
‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2
)dΩ
](3.20)
Pour démontrer l'unicité de la solution, c.à.d.
rang
(∮Ω
(∇Φ(x)∆xk +1
2(∆xk)
T∇2Φ(x)(∆xk))
(∇Φ(x)∆xk +1
2(∆xk)
T∇2Φ(x)(∆xk))TdΩ
)= N
125
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
les résultats donnés dans le cas de la résolution de l'équation HJB dans le cas de la
commande H2 non linéaire continue (Beard et al. (1997)) sont utilisés. Le lemme suivant
est une extension au cas des équations HJI.
Lemme 4.1. Si les fonctions de bases φj(x)∞1 sont linéairement indépendantes, c.à.d.∑j
cjφj(x) = 0⇒ cj = 0, ∀j
alors l'ensemble ∇φj(x)∆xk + 12(∆xk)
T∇2φj(x)(∆xk)N1 est linéairement indépendant.
Démonstration. Tout d'abord, nous commençons par écrire
∆φj(xk) = φj(xk+1)− φj(xk)
ce qui donne
φj(x∞)− φj(x0) =∞∑k=0
∆φj(xk)
Or en faisant un développement limité de φj(xk) autour de xk nous aurons facilement
∆φj(xk) = ∇φj(xk)T∆xk +1
2(∆xk)
T∇2φj(xk)(∆xk)
Ceci donne
φj(x∞)− φj(x0) =∞∑k=0
(∇φj(xk)T∆xk +
1
2(∆xk)
T∇2φj(xk)(∆xk)
)(3.21)
Puisque le système est asymptotiquement stable, c.à.d., limk→∞
xk = 0, et en supposant que
φj(0) = 0, ∀j, alors l'équation (3.21) devient
φj(x0) = −∞∑k=0
(∇φj(xk)T∆xk +
1
2(∆xk)
T∇2φj(xk)(∆xk)
)(3.22)
La notation matricielle de (3.22) est
Φ(x0) = −∞∑k=0
(∇Φ(xk)
T∆xk +1
2(∆xk)
T∇2Φ(xk)(∆xk)
)(3.23)
Maintenant, nous supposons que le lemme n'est pas vrai, c.à.d. il existe un vecteur non
nul β tel que
βT(∇Φ(x)∆xk +
1
2(∆xk)
T∇2Φ(x)(∆xk)
)= 0
126
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
alors, d'après (3.23), nous pouvons écrire
βTΦ(x0) = −∞∑k=0
βT(∇Φ(xk)
T∆xk +1
2(∆xk)
T∇2Φ(xk)(∆xk)
)= 0 (3.24)
Ce qui est contradictoire avec l'indépendance linéaire de
∇φj(x)∆xk + 12(∆xk)
T∇2φj(x)(∆xk)N1 .
4.1 Méthode d'implémentation
Les intégrales dans l'équation (3.20) peuvent êtres approchées par la formule (3.12) ce
qui donne ∮Ω
(∇Φ(x)∆xk +
1
2(∆xk)
T∇2Φ(x)(∆xk)
)·(
∇Φ(x)∆xk +1
2(∆xk)
T∇2Φ(x)(∆xk)
)TdΩ = lim
||δx||→0(XTX) · ||δx||∮
Ω
(∇Φ(x)∆xk +
1
2(∆xk)
T∇2Φ(x)(∆xk)
)·(
‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2
)= lim||δx||→0
(XTY ) · ||δx||
la solution c devienne
c = −(XTX)−1 · (XTY ) (3.25)
avec
XT =
(∇Φ(x)∆xk + 1
2(∆xk)
T∇2Φ(x)(∆xk))|x1k...
(∇Φ(x)∆xk + 12(∆xk)
T∇2Φ(x)(∆xk))|xPk
(3.26)
Y =
(‖h1(xk)‖2 + ‖u(i)
k ‖2 − γ2‖ω(i,j)k ‖2)|x1k
...
(‖h1(xk)‖2 + ‖u(i)k ‖2 − γ2‖ω(i,j)
k ‖2)|xPk
(3.27)
P étant le nombre de points constituant la maillage du domaine Ω. Ce nombre doit être
supérieur ou égal au nombre de fonctions de bases, N . Cela garantira l'inversibilité de
XTX.
Une fois la détermination des coecients c est faite, la mise à jour de la commande H∞sous-optimale u∗k (1.86) et la perturbation ω
∗k (1.87), selon la méthode des approximations
127
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
successives, se font comme suit
ω(i,j+1) =
(2γ2 − gT1 (xk)∇2V (xk)g1(xk)
)−1
gT1 (xk)
(∇V (xk) +∇2V (xk)(f(xk) + g2(xk)u
(i−1) − xk))
(3.28)
u(i) = −(
2 + gT2 (xk)∇2V (xk)g2(xk)
)−1
gT2 (xk)
(∇V (xk) +∇2V (xk)(f(xk) + g1(xk)ω
(i,j+1) − xk))
(3.29)
La gure 3.7 donne l'algorithme des RNA appliqué à la commande H∞ discrète par retour
d'état.
4.2 Application à la commande H∞ discrète par retour d'état du
système TORA
Le modèle du TORA discrétisé est celui obtenu dans le cas de la méthode de Galerkin
et est donnée par (2.107). Une commande contrainte est synthétisée avec la condition
|u| ≤ A = 0.8. la fonction de saturation est la tangente hyperbolique. La norme de la
variable de pénalité z, dans le cas discret, est toujours donnée par (2.108).
Pour la détermination du vecteur des coecients c, la commande initiale est choisie égale
à celle utilisée dans le cas continu, c.à.d. (2.66).
La région de faisabilité de la commande est Ω = [−2, 2]4 et le niveau d'atténuation γ est
10. Les fonctions de base utilisées sont données par l'équation (3.16), avec N = 45. Le
pas de discrétisation du domaine Ω est δx = 0.2.
La gure 3.8 montre la convergence de la norme du vecteur ||c|| après seulement 9 itéra-
tions (ε = 0.001), et est donnée par le tableau 3.2.
Table 3.2 Vecteur c -RNA Cas discret (TORA)
c = [1.1858 0.0075 −0.0879 −0.3643 0.3027 0.4464 0.7354 0.21161.2795 0.9814 −0.0003 0.0024 −0.0253 0.0343 0.0523 −0.01230.0905 0.0077 0.0429 0.1151 −0.0191 0.0570 0.0959 0.01150.0638 0.1569 −0.0059 0.0465 0.0665 0.0959 0.0178 0.11360.0079 0.0101 −0.7180 −0.0106 −0.0067 0.0848 −0.0474 0.08650.0073 0.0482 0.1249 0.0665 0.0804]
128
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Input : P un entier positif, ε un nombre susamment petitInput : u0(xk) commande initiale avec saturationInput : I, J deux nombres entiers positifsInput : Φ(xk) vecteur des fonctions de base
1 Fixer cold1 , cold2 susamment grand;2 for i = 0 to I do3 Fixer ω(i,0) = 04 for j = 0 to J do5 Calcul de X et Y selon (3.26) et (3.27) respectivement6 Calcul de c(i,j) = −(XTX)−1 · (XTY )7 Calcul de ∇V = cT∇Φ(xk), ∇2V = cT∇2Φ(xk)
8 if ‖c(i,j) − cold1‖ ≤ ε then
9 j = J10 else11 Mise à jour de la perturbation
12 ω(i,j+1) =
(2γ2 − gT1 (xk)∇2V (xk)g1(xk)
)−1
gT1 (xk)
(∇V (xk) +
∇2V (xk)(f(xk) + g2(xk)u(i−1) − xk)
)13 cold1 = c(i,j)
14 end
15 end
16 if ‖c(i,J) − cold2‖ ≤ ε then
17 i = I18 else19 Mise à jour de la commande
20 u(i) =
(2 + gT2 (xk)∇2V (xk)g2(xk)
)−1
gT2 (xk)
(∇V (xk) +∇2V (xk)(f(xk) +
g1(xk)ω(i,j+1) − xk)
)21 cold2 = c(i,∞)
22 end
23 end
24 Sauvegarder c(I,J).
Figure 3.7 Algorithme des RNA pour la commande H∞ par retour d'état discret
Une fois le vecteur des coecients est obtenue, la loi de commande avec saturation est
appliquée pour simuler du système en boucle fermée avec comme conditions initiales
x(0) = [1.5, −0.6, 1.5, 0.6]T . Une perturbation (la force F (t)) est appliquée au début de
la simulation et vaut ω(k) = 5 sin ke−k/100.
129
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
1 2 3 4 5 6 7 8 92,650
2,700
2,750
2,800
2,850
2,900
itération
||c[[
Figure 3.8 Norme du vecteur des coecients (TORA)Méthode des RNA- Cas discret
Dans la gure 3.9 sont illustrés les trajectoires de x1(k) et x2(k). IL est facile de constater la
stabilité asymptotique du point d'équilibre 0. La commande u(k) est tracée dans la gure
3.10. Nous constatons la bornitude la commande dans l'intervalle [−A = 0.8,+0.8 = +A].
L'atténuation r dénie par (2.46) est aussi présentée. La condition r γ2 étant vériée,
ce qui signie une bonne atténuation des perturbations.
0 1 2 3 4
·104
−2
−1
0
1
2
k
x 1(ζ)
0 1 2 3 4
·104
−0.5
0
0.5
1
k
x 2(θ)
Figure 3.9 Convergence asymptotique des états vers x = 0 (TORA)Méthode des RNA- Cas discret
130
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
0 1 2 3 4
·104
−0.5
0
0.5
k
Com
mande
u
0 1 2 3 4
·104
0
2
4
6
8
10
12
k
Atténuation
r
Figure 3.10 Commande u et atténuation r (TORA)Méthode des RNA- Cas discret
5 Résolution des équations de HJI Cas de la Com-
mande H∞ par retour de sortie
Dans cette section le problème de la commande H∞ non linéaire par retour de sortie
est résolu par la méthode RNA-MMC. Il se ramène à trouver la solution d'une équation
GHJI à un seul joueur donnée par
Wx(f + g1ω)− 2γ2hT2 (h2 + k21ω) + ‖h1‖2 − γ2‖ω‖2 −H∗(x, V Tx (x)) = 0 (3.30)
avec
H∗(x, VTx (x)) = H(x, V T
x (x), ω∗, u∗) = 0 (3.31)
H, ω∗ et u∗ dans (3.30) sont données respectivement par les équations (1.49), (5.20) et
(1.44).
La résolution de l'équation HJI (3.31) a déjà fait l'objet de l'application de l'algorithme des
approximations successives, AS, (gure 2.1) jumelé avec l'algorithme des moindres carrés
(gure 3.2). Nous obtenons le vecteur des coecients c approximant ainsi la fonction coût
V (x).
La résolution de (3.30) par la méthode des AS consiste à résoudre itérativement l'équation
suivante
W (i)x (f + g1ω
(i))− 2γ2hT2 (h2 + k21ω(i)) + ‖h1‖2 − γ2‖ω(i)‖2 −H∗(x, V T
x (x)) = 0 (3.32)
131
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
pour ω(0) donnée puis de faire une mise à jour de ω(i) selon la loi suivante
ω(i+1) =1
2γ2gT1 W
(i)Tx − kT21h2 (3.33)
jusqu'à∣∣∣W (i+1)(x)−W (i)(x)
∣∣∣→ 0.
L'algorithme des AS dans le cas de la commande H∞ par retour de sortie est déjà donnée
dans la gure 2.47.
5.1 Algorithme des Moindres Carrés
En remplaçant, dans (3.32), W (x) par son approximation donnée par
WM(x) =M∑k=1
νkψk(x) = νTΨ
nous obtenons le résidu suivant
R(ν, x) = ν∇Ψ(x)F (x, ω(i)) + Γ(x, ω(i)) (3.34)
avec
F (x, ω(i)) = f(x) + g1(x)ω(i) (3.35)
Γ(x, ω(i)) = −2γ2hT2 (h2 + k21ω(i)) + ‖h1‖2 − γ2‖ω(i)‖2 −H∗(x, V T
x (x)) (3.36)
Comme dans le cas de l'algorithme de Galerkin, la méthode des moindres carrés consiste à
résoudre (3.34) en minimisant le carré du résidu R par rapport au vecteur des coecients
ν. Nous aurons donc∮Ω
(νT∇Ψ(x)F (x, ω(i)) + Γ(x, ω(i)))(∇Ψ(x)F (x, ω(i)))dΩ = 0 (3.37)
Finalement ,le vecteur des coecients s'obtient comme suit
ν = −(∮
Ω
∇Ψ(x)F (x, ω(i))F T (x, ω(i))∇TΨ(x)dΩ
)−1
×(∮Ω
∇Ψ(x)F (x, ω(i))Γ(x, ω(i))dΩ
)(3.38)
L'équation (3.38) implique une inversion matricielle, le lemme 4.1 de la section 4.1 du
chapitre précédent donne une condition d'existence de la solution ν.
132
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
5.2 Méthode d'implémentation
Les intégrales dans l'équation (3.38) peuvent êtres approchées par la formule (3.12) ce
qui donne ∮Ω
∇Ψ(x)F (x, ω(i))F T (x, ω(i))∇TΨ(x)dΩ = lim||δx||→0
(XTX) · ||δx||
∮Ω
∇Ψ(x)F (x, ω(i))Γ(x, ω(i))dΩ = lim||δx||→0
(XTY ) · ||δx||
la solution ν devient
ν = −(XTX)−1 · (XTY ) (3.39)
avec
X =[∇Ψ(x)F (x, ω)|x1 · · · ∇Φ(x)F (x, ω)|xP
](3.40)
Y =[Γ(x, ω)|x1 · · · Γ(x, ω)|xP
](3.41)
P est le nombre de points constituant la maillage du domaine Ω et que ce nombre doit être
supérieure ou égale au nombre de fonctions de basesM . La gure 3.11 donne l'algorithme
des moindres carrés pour la résolution du problème de la commande H∞ par retour de
sortie.
5.2.1 Calcul de la matrice de gain G
Une fois les vecteurs c et ν ont été obtenus par les algorithmes 3.2 et 3.11 la matrice
de gain G de la loi commande par retour de sortie est déterminée par la même méthode
détaillée dans la section 7.2.1 du chapitre précédent.
5.3 Commande H∞ par retour de sortie du système TORA
Dans cette section nous nous intéressons à l'application de l'algorithme des moindres
carrés dans le cas de la commande par retour de sortie au système TORA. Les mêmes
conditions que celle dans la méthode de Galerkin sont utilisées. Les fonctions de bases,
pour la déterminations de c et ν, sont de taille N = M = 45.
Nous obtenons après convergence des algorithmes 3.2 et 3.11 les résultats donnés dans les
tableaux 3.3 et 3.4.
La gure 3.12 présente ||ci+1−ci|| et ||νi+1−νi|| en fonction de l'itération i. Nous consta-
tons qu'il y'a convergence des deux algorithmes après 14 et 20 itérations (ε = 10−6).
133
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Input : P un entier positif, ε un nombre susamment petitInput : ω0(x) = ω∗ perturbation initialeInput : I un nombre entier positifInput : Ψ(x) vecteur des fonctions de base
1 Fixer νold susamment grand;2 for i = 0 to I do3 for l = 1 to P do4 Calcul de5 Xl = ∇Φ(x)F (x, ω(i))|xl6 Yl = Γ(x, ω(i))|xl7 end
8 X =[X1 · · · XP
]9 Y =
[Y1 · · · YP
]10 ν(i) = −(XTX)−1 · (XTY )
11 if ‖ν(i) − νold‖ ≤ ε then12 i = I13 else14 Mise à jour de la perturbation15 ω(i+1) = 1
2γ2gT1 ΨT (x)ν(i) − kT21h2
16 νold = ν(i)
17 end
18 end
19 Sauvegarder ν(I).
Figure 3.11 Algorithme des RNA pour la commande H∞ par retour de sortie
0 2 4 6 8 10 12 14 16 18 2010−6
10−3
100
103
106
itération
||ci+
1-c
i ||,||ν
i+1-ν
i ||
||ci+1-ci||||ν i+1-ν i||
Figure 3.12 Erreurs sur c et ν- Cas de RNA (TORA avec N = M = 45)
134
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Table 3.3 Vecteur c -RNA (TORA)
c = [1.1835 0.0180 −0.1126 −0.3800 0.2209 0.5041 0.7049 1.23581.3566 1.0244 −0.0109 0.0056 −0.0160 0.0280 0.0971 0.00260.1186 −0.0163 0.0132 0.0591 −0.0554 0.0438 0.0802 0.01670.0788 0.1174 −0.0006 0.0423 0.0492 0.0392 0.0872 −0.14770.0933 0.0167 −0.7545 0.0063 −0.0005 0.0555 −0.0913 0.0142−0.0059 0.0161 0.0565 0.0104 0.0003]
Table 3.4 Vecteur ν -RNA (TORA)
ν = [184.6327 23.2337 −87.4421 −34.1931 2.9733 3.4886 28.885999.9464 40.9633 35.5817 −25.4491 21.7275 10.0789 1.351679.2947 −36.1509 −100.5170 −27.9425 −22.3049 −35.1331 −34.0313−51.9139 36.4305 24.3909 48.9790 −52.5770 4.4668 25.313167.4902 78.3274 −1.2836 27.7504 31.3788 48.6435 −36.90185.2485 −15.8567 −72.1315 −40.1750 −30.9718 −9.2220 −17.5560−41.1842 −36.6020 −10.0615]
Le choix de N = M = 45 rend la matrice de gain G fortement non linéaire, qu'il est
impossible de la présenter, néanmoins nous donnons ci-après les matrices R1 et L tel que
G = R−11 L
R1 =
R11 R12 R13 R14
R21 R22 R23 R24
R31 R32 R33 R34
R41 R42 R43 R44
avec
R11 = − 101.75x21 + 65.16x1x2 + 30.28x1x3 + 3.97x1x4 + 158.39x2
2
− 72.30x2x3 − 201.27x2x4 − 55.85x23 − 44.63x3x4 − 70.38x2
4 + 366.89
R12 = + 21.72x21 + 158.39x1x2 − 36.15x1x3 − 100.63x1x4 − 101.92x2
2
− 103.91x2x3 + 72.70x2x4 + 24.37x23 + 48.90x3x4 − 52.69x2
4 + 23.21
R13 = + 10.09x21 − 36.15x1x2 − 55.85x1x3 − 22.31x1x4 − 51.95x2
2
+ 48.74x2x3 + 48.90x2x4 + 13.40x23 + 50.54x3x4 + 67.44x2
4 − 87.32
R14 = + 1.32x21 − 100.63x1x2 − 22.31x1x3 − 70.38x1x4 + 36.35x2
2
+ 48.90x2x3 − 105.38x2x4 + 25.27x23 + 134.88x3x4 + 234.86x2
4 − 33.81
135
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
R21 = − 33.97x22 − 51.95x2x3 + 36.35x2x4 + 24.37x2
3 + 48.90x3x4 − 52.69x24 + 23.21
R22 = − 5.48x22 + 83.69x2x3 + 93.85x2x4 + 97.25x2
3 − 72.29x3x4 + 10.48x24 + 5.50
R23 = + 27.89x22 + 97.25x2x3 − 36.14x2x4 − 47.56x2
3 − 144.37x3x4 − 40.08x24 + 2.98
R24 = + 31.28x22 − 36.14x2x3 + 10.48x2x4 − 72.18x2
3 − 80.16x3x4 − 92.95x24 + 28.18
R31 = + 4.46x23 + 25.27x3x4 + 67.44x2
4 − 87.32
R32 = − 15.85x23 − 72.18x3x4 − 40.08x2
4 + 2.98
R33 = − 36.86x23 − 52.71x3x4 − 82.48x2
4 + 197.42
R34 = − 17.57x23 − 82.48x3x4 − 109.83x2
4 + 39.60
R41 = + 78.28x24 − 33.81
R42 = − 30.98x24 + 28.18
R43 = − 36.61x24 + 39.60
R44 = − 40.24x24 + 69.11
et
L =
2γ2 0
0 2γ2
0 0
0 0
La loi de commande par retour de sortie est donnée par
ξ = f(ξ) + g1(ξ)ω∗(ξ) + g2(ξ)u∗(ξ) +G(y − h2(ξ))
u = u∗(ξ) (3.42)
avec u∗(ξ) = −0.5g2(ξ)∇Φ(ξ)c et ω∗(ξ) = 0.5γ−2g1(ξ)∇Φ(ξ)c. La commande (3.42), ainsi
qu'une perturbation ω1 = 5 sin t exp(−t) sont appliquées au système TORA avec les condi-
tions initiales suivantes : x(0) =[1.5 −0.6 1.5 0.6
]Tet ξ(0) =
[0 0 0 0
]T.
Les résultats de simulations sont portés sur les gures 3.13 à 3.15. Dans la gure 3.13
sont présentés les graphes des états x et leurs estimés ξ. Nous remarquons clairement
la stabilité asymptotique du point d'équilibre (x, ξ) = (0, 0). L'amélioration des perfor-
mances (moins d'oscillations, un régime transitoire plus court) par rapport au cas continu
est agrante. Nous pouvons conclure, donc, sur la capacité de la méthode RNA-MMC à
résoudre le problème de la commande H∞ non linéaire par retour de sortie. Dans la gure
3.14 sont montrées la commande non linéaire et l'atténuation r =∫∞
0‖z‖2dt/
∫∞0‖ω‖2dt.
L'objectif, r γ2 avec γ = 10, est visiblement atteint. La gure 3.15 illustre l'évolution
136
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
de la norme de G(x) en fonction du temps. La convergence de ‖G(x)‖ illustre la stabilité
asymptotique du point d'équilibre (x, ξ) = (0, 0) au régime permanent.
0 10 20 30 40−1.5
−1
−0.5
0
0.5
1
1.5
2
2.5
temps [sec]
x 1(θ),ξ 1
x1ξ1
0 10 20 30 40−1.5
−1
−0.5
0
0.5
1
1.5
2
temps [sec]
x 2(θ),ξ 2
x2ξ2
Figure 3.13 Convergence asymptotique des états et des estimées vers (x, ξ) = (0, 0)- Cas deRNA (TORA avec N = M = 45)
6 Étude comparative
Les performances de l'algorithme des RNA-MMC ont été comparées, dans le cas de
la commande H∞ continue par retour d'état, avec celles de algorithme de Galerkin pour
les systèmes 4.3.1 (système linéaire MIMO 3-D), 4.3.2 (système non linéaire SISO 2-D)
et 4.3.5 (TORA) du chapitre précédant. La comparaison a été réalisée dans les mêmes
conditions (Fonctions de base, Critère d'arrêt, Méthode de discrétisation).
Pour eectuer la comparaison, la méthode utilisée pour discrétiser les intégrales est la
méthode stochastique de Monté-Carlo. Ce choix est fait dans un souci d'exécuter chaque
algorithme plusieurs fois (10 Exécutions).
Dans les tableaux de comparaison sont mentionnés :
137
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
0 10 20 30 40−1.2
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
temps [sec]
Com
mande
u
0 10 20 30 401
2
3
4
5
temps [sec]Atténuation
r
Figure 3.14 Commande par retour de sortie et Atténuation -Cas de RNA (TORA avec N =M = 45)
• Le nombre des fonctions de base N ;
• Le nombre d'itération nécessaire à la convergence de l'algorithme, Niter ;
• La norme du vecteur des coecients, ||c|| ;
• Le L2-gain (l'atténuation r) ;
• La fonction coût minimal dénie par J∗ = minu(∫∞
0(‖z‖2 − γ2‖ω‖2)dt) ;
• Le résidus sur l'équation GHJI Res.
Pour le système linéaire 3-D décrit dans la section 4.3.1, nous avons comparé les deux
méthodes avec la méthode de résolutions de l'équation algébrique de Riccati en utilisant
la fonction de MATLAB, CARE. Puisque le système est linéaire, les trois méthodes (Ga-
lerkin, RNA-MMC et CARE) convergent vers les mêmes résultats pour les 10 exécutions
( voir Table 3.5).
La comparaison des algorithmes pour ke système non linéaire 2-D (cf. 4.3.2) est dé-
taillée dans les Tables 5.3 à 3.8. Dans les Tables 5.3-3.7 nous avons constaté que le nombre
d'itération nécessaire à la convergence des deux algorithmes reste inchangé (Niter = 5) par
rapport au nombre de fonctions de bases N et pour chaque exécution. Nous avons aussi
constaté que l'algorithme des RNA-MMC présente des meilleurs résultats par rapport à la
méthode de Galerkin en terme du L2-gain et de la fonction coût minimal, J∗. Par contre,
138
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
0 5 10 15 20 25 30 35 401.1
1.2
1.3
1.4
1.5
temps [sec]
||G||
Figure 3.15 Évolution de la Norme de G(x)- Cas de RNA (TORA)
Table 3.5 Performances des deux méthodes (GALERKIN et RNA-MMC)Système linéaire 3-D.
GALERKIN
N Niter ‖c‖ L2 J∗ Res
6 5 42.1017 2.4706 −11.5451 1.9902× 10−17
21 5 42.1017 2.4706 −11.5451 1.9902× 10−17
RNA-MMC
N Niter ‖c‖ L2 J∗ Res
6 5 42.1017 2.4706 −11.5451 1.9902× 10−17
21 5 42.1017 2.4706 −11.5451 1.9902× 10−17
CARE (MATLAB)
N Niter ‖c‖ L2 J∗ Res
− − 42.1017 2.4706 −11.5451 −1.9902× 10−17
L'application de l'algorithme de Galerkin donne un résidu plus petit.
La Table 3.8 présente les erreurs absolus sur les états et la commande entre les deux
algorithmes et pour diérentes valeurs de N . Plus ce nombre augmente plus les erreurs
absolues diminuent. Ce ci est attendu du fait que plus nous augmentons le nombre de fonc-
tions de base, N , plus nous nous approchons de la solution exacte de l'équation GHJI.
La comparaison des algorithmes pour ke système TORA (cf. 4.3.5) est donnée dans les
Tables 3.9 à 3.11. Dans les Tables 3.9-3.10 nous avons remarqué que le nombre d'itération
nécessaire à la convergence de l'algorithme de Galerkin est réduit par rapport à celui de
la méthode des RNA-MMC. L'algorithme des RNA-MMC présente aussi des meilleurs
139
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
résultats par rapport à la méthode de Galerkin en terme du L2-gain et de la fonction coût
minimal, J∗. En contre partie, L'application de l'algorithme de Galerkin donne un résidu
relativement plus petit.
La Table 3.11 présente les erreurs absolues sur les états et la commande entre les deux
algorithmes et pour diérentes valeurs de N . Les remarques précédentes concernant la
Table 3.8 sont maintenues.
7 Conclusion
Ce chapitre présente l'application des RNA et principalement l'algorithme des moindres
carrés hybridé avec l'algorithme des approximations successives (AS) pour la résolution
des équations GHJI dans le cas de la commande H∞ par retour d'état continue, la com-
mande par retour d'état discrète, et de la commande par retour de sortie. Le problème
de la commande H∞ par retour d'état à temps nal xe n'est pas abordé. Ceci est du au
fait que la dérivée du résidu par rapport au vecteur des coecients donne la fonction de
base elle même, ce qui rend les deux algorithmes (Galerkin et RNA-MMC) identiques.
L'application a été faite sur le système TORA continu et discrétisé. Les résultats obtenus
montrent que la méthode des RNA-MMC présente des améliorations en terme de l'atté-
nuation des perturbations vis-à-vis des signaux à commander. Donc l'ecacité d'un tel
algorithme à synthétiser une commande H∞ non linéaire par retour d'état et de sortie.
L'implémentation est hors-ligne, ce qui augmente considérablement son coût de réalisa-
tion. Le chapitre suivant donne une alternative en- ligne quand à la détermination d'une
commande H∞ non linéaire par retour d'état.
140
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Table3.6Perform
ancesdes
deuxméthod
es(G
ALERKIN
etRNA-M
MC)
Systèmenon
linéaire2-D.
GALERKIN
RNA-M
MC
N=
3Niter
‖c‖
L2
J∗
Res
Niter
‖c‖
L2
J∗
Res
15
2.67
701.
3524
−23.8
981
1.21
16×
10−
10
52.
6584
1.35
14−
23.9
015
2.34
52×
10−
10
25
2.67
651.
3528
−23.8
968
7.91
30×
10−
11
52.
6597
1.35
13−
23.9
019
2.46
76×
10−
10
35
2.68
381.
3528
−23.8
970
1.04
74×
10−
11
52.
6523
1.35
14−
23.9
017
2.43
78×
10−
10
45
2.67
151.
3529
−23.8
967
7.80
73×
10−
11
52.
6463
1.35
11−
23.9
025
2.68
43×
10−
10
55
2.66
801.
3523
−23.8
985
1.24
03×
10−
11
52.
6540
1.35
16−
23.9
010
2.13
19×
10−
10
65
2.67
881.
3533
−23.8
953
4.67
09×
10−
11
52.
6648
1.35
09−
23.9
032
2.71
42×
10−
10
75
2.69
111.
3523
−23.8
985
1.44
47×
10−
11
52.
6540
1.35
15−
23.9
014
2.30
98×
10−
10
85
2.67
671.
3525
−23.8
980
1.07
14×
10−
11
52.
6525
1.35
16−
23.9
008
2.12
76×
10−
10
95
2.67
761.
3531
−23.8
960
6.55
72×
10−
11
52.
6552
1.35
13−
23.9
019
2.48
66×
10−
10
105
2.68
421.
3529
−23.8
965
7.91
06×
10−
11
52.
6615
1.35
11−
23.9
024
2.56
01×
10−
10
moy
2.67
851.
3527
−23.8
972
9.50
15×
10−
11
2.65
581.
3513
−23.9
018
2.42
65×
10−
10
N=
15Niter
‖c‖
L2
J∗
Res
Niter
‖c‖
L2
J∗
Res
15
6.90
961.
4717
−23.5
257
9.38
29×
10−
15
55.
9359
1.45
40−
23.5
809
4.52
10×
10−
15
25
6.92
131.
4718
−23.5
254
8.36
62×
10−
15
55.
9140
1.45
29−
23.5
844
3.69
21×
10−
15
35
6.99
921.
4729
−23.5
220
9.30
29×
10−
15
55.
8115
1.45
17−
23.5
882
3.83
06×
10−
15
45
6.95
101.
4729
−23.5
219
9.33
76×
10−
15
55.
8568
1.45
29−
23.5
844
4.21
19×
10−
15
55
6.91
371.
4716
−23.5
259
9.02
29×
10−
15
55.
8373
1.45
23−
23.5
861
3.81
59×
10−
15
65
6.99
641.
4734
−23.5
203
1.07
85×
10−
14
55.
9471
1.45
40−
23.5
808
3.99
06×
10−
15
75
6.82
341.
4705
−23.5
293
8.81
01×
10−
15
56.
0503
1.45
59−
23.5
751
4.19
82×
10−
15
85
6.89
361.
4718
−23.5
254
1.03
24×
10−
14
55.
9758
1.45
35−
23.5
824
3.68
54×
10−
15
95
6.92
241.
4715
−23.5
264
8.95
14×
10−
15
55.
8902
1.45
32−
23.5
833
4.18
46×
10−
15
105
6.92
561.
4730
−23.5
217
1.08
04×
10−
14
55.
9223
1.45
36−
23.5
822
4.00
53×
10−
15
moy
6.92
561.
4720
−23.5
243
9.50
89×
10−
15
5.91
411.
4534
−23.5
827
4.01
36×
10−
15
141
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Table3.7Perform
ancesdes
deuxméthod
es(G
ALERKIN
etRNA-M
MC)
Systèmenon
linéaire2-D
(suite).
GALERKIN
RNA-M
MC
N=
24Niter
‖c‖
L2
J∗
Res
Niter
‖c‖
L2
J∗
Res
15
13.3
106
1.48
56−
23.4
822
8.65
65×
10−
15
510.7
303
1.47
47−
23.5
162
1.14
76×
10−
14
25
13.5
006
1.48
69−
23.4
780
8.85
21×
10−
15
510.9
357
1.47
68−
23.5
098
1.12
29×
10−
14
35
13.5
233
1.48
77−
23.4
756
8.82
48×
10−
15
510.7
314
1.47
54−
23.5
140
1.25
17×
10−
14
45
13.5
278
1.48
67−
23.4
789
8.64
55×
10−
15
510.8
725
1.47
60−
23.5
122
1.17
06×
10−
14
55
13.5
047
1.48
73−
23.4
767
8.98
01×
10−
15
510.6
593
1.47
51−
23.5
150
1.16
40×
10−
14
65
13.3
529
1.48
69−
23.4
781
9.10
20×
10−
15
510.7
190
1.47
57−
23.5
130
1.17
04×
10−
14
75
13.3
590
1.48
61−
23.4
806
8.45
73×
10−
15
510.9
999
1.47
56−
23.5
133
1.09
70×
10−
14
84
13.4
371
1.48
46−
23.4
853
8.35
33×
10−
15
510.7
760
1.47
60−
23.5
122
1.20
61×
10−
14
95
13.5
486
1.48
72−
23.4
771
9.21
94×
10−
15
510.8
623
1.47
67−
23.5
100
1.12
80×
10−
14
105
13.2
354
1.48
61−
23.4
805
8.77
79×
10−
15
510.5
778
1.47
54−
23.5
140
1.16
76×
10−
14
moy
13.4
300
1.48
65−
23.4
793
8.78
69×
10−
15
10.7
864
1.47
57−
23.5
129
1.16
26×
10−
14
N=
35Niter
‖c‖
L2
J∗
Res
Niter
‖c‖
L2
J∗
Res
15
27.9
865
1.48
88−
23.4
722
4.67
19×
10−
15
521.1
306
1.48
42−
23.4
864
7.01
72×
10−
15
25
28.2
325
1.48
86−
23.4
727
4.58
45×
10−
15
521.7
335
1.48
40−
23.4
871
6.67
79×
10−
15
35
27.4
820
1.48
87−
23.4
724
4.74
06×
10−
15
521.1
764
1.48
44−
23.4
861
6.84
42×
10−
15
45
27.1
718
1.48
81−
23.4
742
4.78
43×
10−
15
520.5
475
1.48
40−
23.4
871
7.12
57×
10−
15
55
27.4
382
1.48
91−
23.4
713
4.73
61×
10−
15
520.6
157
1.48
43−
23.4
862
7.10
39×
10−
15
65
27.3
240
1.48
88−
23.4
723
4.77
01×
10−
15
520.5
298
1.48
31−
23.4
899
7.17
72×
10−
15
75
27.5
747
1.48
84−
23.4
734
4.73
21×
10−
15
520.6
232
1.48
43−
23.4
862
7.09
87×
10−
15
86
27.9
702
1.48
86−
23.4
728
4.63
07×
10−
15
520.8
372
1.48
34−
23.4
891
7.07
37×
10−
15
95
27.3
850
1.48
83−
23.4
737
4.68
84×
10−
15
520.8
927
1.48
36−
23.4
883
7.03
26×
10−
15
105
27.2
323
1.48
85−
23.4
731
4.78
97×
10−
15
520.8
551
1.48
37−
23.4
881
6.91
77×
10−
15
moy
27.5
797
1.48
85−
23.4
728
4.71
28×
10−
15
20.8
941
1.48
39−
23.4
874
7.00
69×
10−
15
142
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Table 3.8 Erreurs absolues entre Galerkin et RNA-MMCSystème linéaire 3-D.
∆ = |Galerkin−RNAMCC |t=20s
N ∆x1 ∆x2 ∆u
3 3.4923e− 06 4.8262e− 07 2.8182e− 06
8 3.8907e− 07 3.7234e− 07 1.0086e− 06
15 1.1189e− 08 4.0396e− 08 1.2003e− 07
24 1.8299e− 08 1.7269e− 08 3.4090e− 08
35 3.8354e− 09 1.1327e− 08 3.1459e− 08
143
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Table3.9Perform
ancesdes
deuxméthod
es(G
ALERKIN
etRNA-M
MC)
SystèmeTORA.
GALERKIN
RNA-M
MC
N=
10Niter
‖c‖
L2
J∗
Res
Niter
‖c‖
L2
J∗
Res
14
2.38
863.
7378
−30
0.81
959.
5532×
10−
15
52.
2927
3.38
39−
301.
9252
1.18
16×
10−
12
24
2.39
383.
6048
−30
1.23
513.
1881×
10−
14
42.
2875
3.42
38−
301.
8008
1.23
44×
10−
12
34
2.38
163.
7854
−30
0.67
053.
8106×
10−
14
42.
2802
3.49
94−
301.
5644
1.32
40×
10−
12
44
2.40
233.
5859
−30
1.29
415.
7259×
10−
14
52.
2756
3.43
24−
301.
7737
1.33
11×
10−
12
54
2.39
323.
6757
−30
1.01
365.
4707×
10−
14
42.
2947
3.40
32−
301.
8650
1.16
45×
10−
12
64
2.39
063.
6604
−30
1.06
135.
4345×
10−
14
42.
2869
3.47
38−
301.
6445
1.47
95×
10−
12
74
2.37
363.
8031
−30
0.61
536.
2843×
10−
14
42.
2802
3.57
20−
301.
3376
1.03
40×
10−
12
84
2.39
493.
7012
−30
0.93
378.
4927×
10−
15
52.
3017
3.34
57−
302.
0445
1.33
30×
10−
12
94
2.39
353.
7907
−30
0.65
413.
5128×
10−
14
42.
2984
3.40
71−
301.
8527
1.09
78×
10−
12
104
2.38
273.
6340
−30
1.14
362.
7458×
10−
14
52.
2892
3.48
45−
301.
6108
1.04
96×
10−
12
moy
2.38
943.
6978
−30
0.94
403.
6067×
10−
14
2.28
873.
4425
−30
1.74
191.
2230×
10−
12
N=
45Niter
‖c‖
L2
J∗
Res
Niter
‖c‖
L2
J∗
Res
14
2.71
622.
0020
−30
6.24
364.
6175×
10−
15
62.
6580
1.99
76−
306.
2576
5.93
81×
10−
15
24
2.71
251.
9968
−30
6.25
993.
4547×
10−
15
62.
6619
2.00
31−
306.
2402
6.52
50×
10−
15
34
2.71
651.
9905
−30
6.27
963.
4563×
10−
14
62.
6607
1.99
78−
306.
2569
6.49
95×
10−
15
44
2.71
801.
9910
−30
6.27
804.
1105×
10−
15
62.
6570
2.00
04−
306.
2486
7.13
94×
10−
15
54
2.72
101.
9976
−30
6.25
743.
3462×
10−
15
52.
6631
2.00
13−
306.
2460
6.62
95×
10−
15
64
2.71
631.
9969
−30
5.25
964.
7086×
10−
15
72.
6561
1.99
75−
306.
2579
5.52
53×
10−
15
74
2.72
701.
9877
−30
6.28
855.
3125×
10−
15
62.
6551
1.98
91−
306.
2841
6.73
21×
10−
15
84
2.71
551.
9904
−30
6.27
994.
1464×
10−
15
62.
6640
1.99
66−
306.
2606
6.08
76×
10−
15
94
2.72
031.
9899
−30
6.28
173.
8766×
10−
15
62.
6609
1.99
11−
306.
2778
6.04
97×
10−
15
104
2.71
631.
9934
−30
6.27
074.
4037×
10−
15
52.
6570
1.99
32−
306.
2711
5.82
31×
10−
15
moy
2.71
791.
9936
−30
6.26
984.
1433×
10−
15
2.65
931.
9967
−30
6.26
006.
2949×
10−
15
144
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Table3.10
Perform
ancesdes
deuxméthod
es(G
ALERKIN
etRNA-M
MC)
SystèmeTORA
(suite).
GALERKIN
RNA-M
MC
N=
129
Niter
‖c‖
L2
J∗
Res
Niter
‖c‖
L2
J∗
Res
14
2.93
302.
0136
−30
6.20
744.
2052×
10−
15
62.
7383
1.96
73−
306.
3523
4.68
92×
10−
15
25
2.96
482.
0459
−30
6.10
674.
0986×
10−
15
62.
7511
1.96
24−
306.
3676
4.85
21×
10−
15
34
2.94
082.
0621
−30
6.05
594.
4885×
10−
15
72.
7550
1.97
46−
306.
3293
4.58
33×
10−
15
45
2.97
772.
0337
−30
6.14
474.
2084×
10−
15
62.
7453
1.97
94−
306.
3144
4.51
28×
10−
15
54
2.95
402.
0023
−30
6.24
294.
1840×
10−
15
62.
7518
1.98
38−
306.
3006
4.73
62×
10−
15
65
2.96
731.
9976
−30
6.25
744.
3154×
10−
15
52.
7471
1.99
16−
306.
2762
4.57
54×
10−
15
79
3.56
722.
1425
−30
5.80
473.
6456×
10−
15
72.
7570
1.97
80−
306.
3188
4.36
14×
10−
15
84
2.93
772.
0370
−30
6.13
444.
0294×
10−
15
62.
7333
1.98
14−
306.
3082
4.51
51×
10−
15
94
2.92
692.
0574
−30
6.07
054.
3823×
10−
15
52.
7443
1.97
17−
306.
3385
4.70
41×
10−
15
104
2.90
131.
9970
−30
6.25
944.
3431×
10−
15
52.
7378
1.96
62−
306.
3556
4.65
15×
10−
15
moy
3.00
702.
0389
−30
6.12
844.
1901×
10−
15
2.74
611.
9756
−30
6.32
614.
6181×
10−
15
145
Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones
Table 3.11 Erreurs absolues entre Galerkin et RNA-MMCSystème TORA.
∆ = |Galerkin−RNAMCC |t=100s
N ∆x1 ∆x2 ∆x3 ∆x4 ∆u
10 1.2175e− 06 9.0044e− 07 4.2237e− 06 2.2531e− 06 1.9274e− 06
45 4.1428e− 08 4.8538e− 08 7.8125e− 08 1.6512e− 08 3.0854e− 08
129 1.8684e− 08 8.3487e− 10 2.6718e− 08 2.1240e− 08 1.3465e− 08
146
Chapitre 4
Solutions approximatives des équations
de HJI : Méthode d'apprentissage
en-ligne
1 Introduction
Dans les chapitres précédents, nous avons mis en évidence le fort potentiel des mé-
thodes basées sur les résidus pondérés (Galerkin et RNA-MMC) pour résoudre le problème
de la commande H∞ non linéaire. Nous avons vu que ces méthodes peuvent être appliquer
au cas du retour d'état de sortie en temps continu ou discret. Leur inconvénient majeur
est leurs incapacités à être implémentées en-ligne.
Plusieurs travaux ont contribué à l'émergence des méthodes de résolution des équations
HJI en-ligne. Ces travaux sont basés sur les concepts d'apprentissage par renforcement
(AR) et des algorithmes Acteurs-Critiques (AC).
L'apprentissage par renforcement, venue de la communauté intelligence articielle
(IA), consiste à apprendre quoi faire, comment associer des actions à des situations an
d'optimiser quantitativement une récompense (fonction coût) (Coulom, 2002). L'appre-
nant ne reçoit pas l'ordre de quoi faire, mais au lieu de cela, il doit découvrir quelles
actions donnent le plus de récompenses. Dans l'apprentissage par renforcement, nous
trouvons souvent le vocabulaire de l'acteur et du critique. L'acteur correspond à l'agent
réagissant par les actions sur l'état du système et le critique correspond à la fonction
coût à optimiser pour pouvoir réactualiser l'action de l'acteur, selon que nous avons une
amélioration ou pas.
Vrabie et al. (2009) sont les premiers à appliquer l'architecture AC pour résoudre en-
ligne le problème de la commande optimale à horizon inni des systèmes linéaires. Ils
proposent deux structures : l'acteur qui est la commande optimale à réactualiser et le cri-
tique qui est la fonction coût à évaluer. Cette dernière n'est que la solution de l'équation
147
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
HJB associée à la commande optimale. La mise à jour de l'acteur est faite selon la valeur
du critique.
Dans (Prasad et al., 2014), les auteurs appliquent la méthode de synthèse de la com-
mande, proposée dans (Vrabie et al., 2009), dans la régulation automatique de la tension
électrique appelée AVR, pour 'Automatic voltage regulation'. Dans (Wang et al., 2014),
les auteurs résolvent le problème de la commande optimale robuste pour une certaine
classe de systèmes non linéaires en utilisant la technique de la programmation dynamique
adaptative (ADP), concept étroitement liée au AR. Des extensions au cas de la commande
H∞ linéaire et non linéaire peuvent être trouvées dans (Wu and Luo, 2013), (Wu. and
Luo, 2012),(Liu et al., 2013), (Zhang et al., 2011) et (Jiang and Jiang, 2013b).
Dans ce chapitre nous allons détailler une méthode en-ligne de synthèse de la com-
mande H∞ non linéaire continue par retour d'état qui utilise les réseaux de neurones avec
un apprentissage par renforcement.
Ce chapitre est organisé de la façon suivante
1. Nous commencerons par donner la première version de l'algorithme de résolution si-
multané de l'équation HJI. L'algorithme cherche à résoudre itérativement l'équation
HJI pour la fonction coût V (x), puis réactualise de façon simultanée la commande
et la perturbation.
2. Ensuite, et en se basant sur les concepts de dérivée au sens de Fréchet et Gâteaux-
dérivée, une analyse de stabilité de la méthode de résolution est faite. Le théorème
principal donné montre qu'en ramenant la méthode itérative à une méthode de
Newton la stabilité est facilement démontrée.
3. Nous montrerons que l'utilisation des RN avec un apprentissage par renforcement
transforme le problème en problème de détermination en-ligne des poids du RN.
L'apprentissage utilise seulement une seule structure Acteur pour à la fois la com-
mande et la perturbation et une structure Critique pour la fonction coût. Pour
l'implémentation nous utiliseront la méthode des moindres carrés.
4. Finalement, nous terminerons par appliquer la méthode de synthèse de la commande
à des systèmes linéaires et non linéaires pour démontrer l'ecacité de la méthode.
2 Apprentissage simultané en ligne : Cas de la com-
mande H∞ non linéaire par retour d'état
Nous avons vu que l'objectif de la commande H∞ non linéaire par retour d'état est
double ; assurer d'un coté, la stabilité asymptotique du point d'équilibre x = 0 du système
148
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
non linéaire
x = f(x) + g1(x)ω + g2(x)u
z = [h(x) u]T
et d'autre coté, assurer une atténuation de l'eet des entrées exogènes ω (perturbations)
sur les sorties à commandé z au sens du L2-gain déni par :∫∞
0zT zdt ≤ γ2
∫∞0ωTωdt,
avec γ est le niveau d'atténuation.
Nous avons vu aussi que la solution d'un tel problème est donnée par le retour d'état non
linéaire u∗ = −1/2gT2∇V où V (x) est la solution de l'équation HJI suivante
G(V ) = ∇V T (f + g1ω∗ + g2u
∗) + ||h(x)||2 + ||u∗||2 − γ2||ω∗||2
= ∇V Tf + ||h(x)||2 +1
4∇V T
(1
2g1g
T1 − g2g
T2
)∇V = 0 (4.1)
avec ∇V T = ∂V∂x, ω∗ = 1/2γ2gT1∇V et G est un opérateur sur l solution V .
La résolution d'une telle équation est dicile voir impossible analytiquement.
Dans les deux chapitres précédents, nous avons donné des solutions approximatives à
(4.1) en supposant que V (x) peut être approché par VN(x) =∑N
k=1 ckφk(x). Le problème
se ramène donc à trouver les coecients ck. Nous avons utilisé deux méthodes o-line
parmi les méthodes des résidus pondérés, à savoir, l'algorithme de Galerkin et la méthode
RNA-MMC.
2.1 Approche de résolution en-ligne (1er algorithme)
La fonction coût V (x) solution de (4.1) peut être formulée comme suit
V (x(t)) =
∞∫t
(||h(x)||2 + ||u(x)||2 − γ2||ω(x)||2
)dτ (4.2)
En eet, si nous la dérivant par rapport au temps t nous obtiendrons facilement
∇V(f(x) + g1(x)ω + g2(x)u
)+ ||h(x)||2 + ||u(x)||2 − γ2||ω(x)||2 = 0 (4.3)
avec la condition V (∞) = 0. Nous pouvons aussi écrire
V (x(t)) =
t+dt∫t
(||h(x)||2 + ||u(x)||2 − γ2||ω(x)||2
)dτ + V (x(t+ dt)) (4.4)
A partir de cette dernière formulation les auteurs dans Wu. and Luo (2012) ont proposé
l'algorithme en-ligne de la gure 4.1, pour la résolution des équations HJI.
149
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
1 Soit V (0)(x) une fonction coût initiale et2 u(0) = −1
2gT2 (x)∇V (0)(x)
3 ω(0) = 12γ2gT1 (x)∇V (0)(x)
4 for i = 0 to ∞ do5 Résoudre pour V (i+1)(x)
6 V (i+1)(x(t)) =t+dt∫t
(||h(x)||2 + ||u(i)(x)||2 − γ2||ω(i)(x)||2
)dτ + V (i+1)(x(t+ dt))
7 Mise à jour de la commande et perturbation8 u(i+1)(x) = −1
2gT2 (x)∇V (i+1)(x)
9 ω(i+1)(x) = 12γ2gT1 (x)∇V (i+1)(x)
10 if ||V (i+1)(x)− V (i)(x)|| ≤ ε then11 i =∞, V (i)(x) est la solution12 else13 Aller à 5 et Continuer14 end
15 end
Figure 4.1 Algorithme d'apprentissage en-ligne simultané
Remarque 2.1. La diérence entre les travaux données dans Abu-Khalaf (2004), Abu-
Khalaf et al. (2006), Abu-Khalaf (2005a) et Abu-Khalaf (2005b) et d'algorithme ici pré-
senté est que les méthodes antérieures sont qualiées de hors-ligne et exigent par consé-
quent une connaissance apriori du modèle (dynamique) du système. D'où une implémen-
tation assez couteuse. L'algorithme en-ligne est "model-free", c.à.d, aucune connaissance
apriori du modèle (f , g1, g2) n'est requise. Ce qui rend son implémentation possible et en
temps réel.
Remarque 2.2. Les algorithmes hors-ligne nécessitent des mises à jour de u et ω boucles
diérés, c.à.d, la mise à jour de ω suppose que u est constante et la mise à jour de u ne
commence que si l'optimum de ω est atteint. L'algorithme en-ligne de la gure 4.1 procède
à une mise à jour simultanée de u et ω. D'où son nom : Algorithme d'apprentissage en-ligne
simultané.
Remarque 2.3. Le travail présenté est une extension de celui dans Vrabie et al. (2009)
pour le cas de la commande optimale des systèmes linéaires. En eet, l'auteur résous en-
ligne une équation algébrique de Riccati, sans connaissance du modèle du système et en
utilisant un réseau de neurones formel. L'algorithme est considéré comme une architecture
acteur-critique. L'acteur est réactualisé pour déterminer la commande (action) optimale
selon la fonction valeur (coût) donnée par le critique. Cette architecture est considérée
comme étant une architecture phare de l'apprentissage par renforcement.
150
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
2.2 Étude de la stabilité de l'algorithme en-ligne
L'objectif est de démontrer la convergence de l'algorithme, en d'autre terme, démontrer
que V (i+1)(x(t)) solution de
V (i+1)(x(t)) =
t+dt∫t
(||h(x)||2 + ||u(i)(x)||2 − γ2||ω(i)(x)||2
)dτ + V (i+1)(x(t+ dt)) (4.5)
converge vers la solution de l'équation HJI G(V ∗) quand i→∞.
Pour aboutir, les auteurs dans Wu. and Luo (2012) utilisent les notions de dérivée au sens
de Fréchet et Gâteaux-dérivée.
Soit V un espace de Banach (espace vectoriel muni d'une norme) et G et T deux applica-
tion de V dans V tel que :
TV = V − (G′(V ))−1G(V ) (4.6)
où G′(V ) est la dérivée au sens de Fréchet (fonctionnelle) de G au point V . Cette dérivée
est souvent remplacée par la dérivée de Gâteaux plus facile à calculer.
Dénition 2.1. G est Gâteaux-dérivable au point V , s'il existe un opérateur linéaire
L : V→ V, tel queG(V + sW ) = G(V ) + sL(W ), s→ 0
L est dit Gâteaux dérivée de G au point V et est donnée par
L(W ) = lims→0
G(V + sW )−G(V )
s(4.7)
Le lemme suivant est utilisé pour démontrer que (4.6), pour G dénie par (4.1), se
ramène à une équation itérative de Newton.
Lemme 2.1. (Wu. and Luo, 2012) La Gâteaux dérivée de G au point V est donnée par
G′(V )W = L(W ) = (∇W )Tf +1
4(∇W )T
(1
γ2g1g
T1 − g2g
T2
)∇W (4.8)
Pour la démonstration , il sut d'utiliser (4.7) et (4.1).
Les auteurs dans Wu. and Luo (2012) démontrent, dans le théorème qui suit, que l'al-
gorithme de la gure (4.1) peut être considéré comme une méthode itérative de Newton
pour résoudre G(V ) = 0.
Thèoreme 2.1. (Wu. and Luo, 2012) Soit T : V→ V une application dénie par (4.6),
alors l'équation (4.5) peut être écrite sous la forme itérative de Newton suivante
V (i+1) = TV (i)
= V (i) − (G′(V i))−1G(V (i)), i = 0, 1, · · · (4.9)
151
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
Démonstration. Nous donnons seulement quelques éléments de démonstrations, plus de
détails sont donnés dans Wu. and Luo (2012)
L'équation (4.9) devienne facilement
G′(V i)V (i+1) = G′(V i)V (i) −G(V (i)) (4.10)
Tout calcul donne
G′(V (i))V (i+1) = (∇V (i+1))T(f + g1ω
(i) + g2u(i)
)(4.11)
G′(V (i))V (i) = (∇V (i))Tf − 2||u(i)||2 + 2γ2||ω(i)||2 (4.12)
G(V (i)) = (∇V (i))Tf + ||h||2 + ||u(i)||2 − γ2||ω(i)||2 (4.13)
En substituant dans (4.10), l'équation (4.14) découle
(∇V (i+1))T(f + g1ω
(i) + g2u(i)
)+ ||h||2 + ||u(i)||2 − γ2||ω(i)||2 = 0 (4.14)
En remarquent que (∇V (i+1))T(f+g1ω
(i) +g2u(i))
=d
dtV (i+1)(x(t)) et en intégrant l'équa-
tion (4.14) entre t et t+ dt nous obtiendrons
V (i+1)(x(t)) =
t+dt∫t
(||h(x)||2 + ||u(i)(x)||2 − γ2||ω(i)(x)||2
)dτ + V (i+1)(x(t+ dt)) (4.15)
ce qui termine la démonstration.
2.3 Architecture Acteur-Critique et RN pour la résolution en-
ligne des HJI
Dans cette section, nous donnons la structure acteur-critique de l'algorithme de la
gure 4.1. Elle comporte trois unités d'apprentissage ; deux acteurs (commande et pertur-
bation) et un critique (fonction coût). Les trois interagissent entre eux et avec le système
durant l'apprentissage en-ligne. Le schéma détaillé est celui de la gure 4.2. A chaque
étape, (ici, étape coïncide avec le temps réel), les paramètres de la commande et pertur-
bation sont mis-à-jour à partir de l'observation du système et de l'information fournie par
le critique. Le critique réactualise la fonction coût à partir des nouvelles actions (com-
mande et perturbation).
L'équation 4.4 reste toujours dicile à résoudre, les auteurs dans Wu. and Luo (2012)
propose un seul réseau de neurone (RN) pour réactualiser les paramètres du critique au
lieu d'en utiliser trois pour chaque unité d'apprentissage.
152
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
Acteur 1
Politique de Commandeu(x)
Acteur 2
Politique de Perturbationω(x)
Système
Critique
Fonction coûtV (x)Coût
États
Figure 4.2 Structure Acteur-Critique de l'algorithme d'apprentissage simultané on-line
L'idée de base est présentée dans ce qui suit :
Soit VN(x(t)) = cTΦ(x(t)) une approximation de V (x(t)), tel que c et Φ sont respective-
ment le vecteur des poids du RA et celui des fonctions de base (voir chapitres précédents).
En remplaçant dans l'équation itérative de V (x(t)) nous obtenons
ΦT (x(t))c(i+1) =
t+dt∫t
(||h(x)||2+||u(i)(x)||2−γ2||ω(i)(x)||2
)dτ+ΦT (x(t+dt))c(i+1) (4.16)
L'adaptation de la commande de la perturbation donne
u(i+1) = −1
2gT2∇ΦTc(i+1) (4.17)
ω(i+1) =1
2γ2gT1∇ΦTc(i+1) (4.18)
où ∇Φ = [∂φ1/∂x ∂φ2/∂x · · · ∂φN/∂x]T est la matrice jacobienne de Φ.
Le déroulement de l'algorithme Acteur-Critique hybridé avec le RN VN(x) du critique,
est comme suit : une fois le vecteur des poids c est calculé par (4.16) (le critique), les
acteurs sont réactualisés par (4.17) et (4.18) et sont réinjectés dans le système donnant
une nouvelle valeur du critique, et ainsi de suite.
153
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
2.4 Implémentation
Le vecteur c(i+1) possède N inconnus, donc nous avons besoin de N équations pour
pouvoir le calculer. Plusieurs auteurs, Wu. and Luo (2012), Vrabie et al. (2009), Jiang
and Jiang (2013a), ont proposé de décomposer l'intervalle [t, t+ dt] en N ≥ N points et
de résoudre (4.16) dans chaque sous-intervalle. En eet, après discrétisation, la solution
(4.16) devient
c(i+1) =
(XXT
)−1
·XY (4.19)
avec
X =[Φ(x(t)
)− Φ
(x(t+ δt)
)· · · Φ
(x(t+ (N − 1)δt)
)− Φ
(x(t+ Nδt)
)](4.20)
Y =
y(x(t), u(i)(t), ω(i)(t)
)...
y(x(t+ (N − 1)δt), u(i)(t+ (N − 1)δt), ω(i)(t+ (N − 1)δt)
) (4.21)
où δt = dt/N et
y(x(t+ kδt), u(i)(t+ kδt), ω(i)(t+ kδt)
)=∫ t+(k+1)δt
t+kδt
(||h(x)||2 + ||u(i)(x)||2 − γ2||ω(i)(x)||2
)dτ, k = 0, 1, · · · , N − 1
L'algorithme 4.1 est donc remplacé par celui donnée par la gure 4.3.
1 Étape 1 : Soit N fonctions de base Φ et c(0) un vecteur initial des coecients. Soitu(0) = −1
2gT2 (x)∇ΦTc(0), ω(0) = 1
2γ2gT1 (x)∇ΦTc(0) et i = 0
2 Étape 2 : avec u(i) et ω(i) , échantillonné N point le long de la trajectoire dusystème dans l'intervalle [idt, (i+ 1)dt]. Calcul de c(i+1) par (4.19) à l'instant(i+ 1)dt.
3 Étape 3 : Mis-à-jour de la commande et de la perturbations via (4.17) et (4.18) àl'instant (i+ 1)dt.
4 Étape 4 : Prendre i = i+ 1, si ||c(i+1) − c(i)|| ≤ ε stop et considérer c(i) commesolution, sinon aller à l'étape 2 et continuer.
Figure 4.3 Implémentation de l'algorithme d'apprentissage simultané on-line
Remarque 2.4. L'inversion matricielle dans (4.19) peut provoquer une singularité. Pour
contrecarrer ce phénomène, nous pouvons toujours calculer le vecteur des coecients c en
utilisant le lemme d'inversion matricielle qui nous ramène à un algorithme des moindres
carrés récursives (MCR). En eet l'équation (4.19) est remplacée par l'algorithme MCR
de la gure 4.4.
154
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
1 c = 02 S = δI, avec δ susament grand3 for i = 1 to N − 1 do
4 S = S − SX(i, :)X(i, :)TS
(1 +X(i, :)TSX(i, :))5 c = c + SX(i, :)(B(i, :)−X(i, :)Tc)
6 end
Figure 4.4 Algorithme MCR pour l'apprentissage simultané en-ligne
3 Exemples illustratifs
3.1 Système Linéaire 3D
Pour valider l'algorithme d'aprentissage en-ligne de la gure 4.3, nous proposons de
l'appliquer à l'exemple 4.3.1 du chapitre 2 (système MIMO-3D). Étant le système linéaire,
les fonctions de base sont choisies comme suit : Φ(x) =[x2
1 x1x2 x1x3 x22 x2x3 x2
3
]T.
La valeur γ = 4 est sélectionnée. Les paramètres de l'algorithme d'apprentissage en-ligne
sont décrites dans la Table 4.1
Table 4.1 Paramètres de l'algorithme en-ligne : MIMO-3D
Paramètre ValeurPas de simulation : ∆t 0.05
Nombre de point entre [t, t+ ∆t] : N 10Tolérance : ε 10−15
Coecients initiaux : c0
[10 10 10 0 0 0
]TNous prenons, x0 =
[1 1 1
]Tet ω12(t) = 5 cos te−t. Les résultats de l'application de
l'algorithme de la gure 4.3 sont illustrés dans les gures 4.5 à 4.7.
La gure 4.5 indique la convergence des coecients vers les valeurs
c∗ =[32.8555 18.0395 17.4773 2.8265 4.8224 4.9177
]Taprès seulement 5 itérations (à t = 0.25s). Nous avons obtenu les mêmes valeurs données
par la fonction CARE du Matlab en résolvant l'équation de Riccati (1.52). Ce qui donne
ccare =[32.782018.1760 17.6332 2.8904 4.8718 4.9499
]T, qui est très proche de c∗.
La gure 4.6 illustre les états x(t) et les commandes u(t). Nous remarquons la stabi-
lité asymptotiquement du point d'équilibre x = 0 et ceci malgré l'introduction au début
de simulation de la perturbation. L'évolution de l'atténuation r dénie par l'équation 2.46
est illustrée par la gure 4.7. L'atténuation converge vers r = 2.316 qui est largement in-
155
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
0 5 · 10−2 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
5
10
15
20
25
30
35
temps [sec]
c ic1c2c3c4c5c6
Figure 4.5 Évolution temporelle des coecients ci pour le système MIMO-3D
férieur à la valeur de γ2 = 16. Donc la propriété du L2 est vériée.
0 1 2 3 4 5−2
−1.5
−1
−0.5
0
0.5
1
1.5
temps [sec]
États
x1x2x3
0 1 2 3 4 5−12
−10
−8
−6
−4
−2
0
2
4
temps [sec]
Com
mandes
u1u2
Figure 4.6 Convergence asymptotique des états vers x = 0, Commande et perturbation pourle système MIMO-3D
156
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 51
1.2
1.4
1.6
1.8
2
2.2
2.4
temps [sec]
Atténuation
r
Figure 4.7 Évolution de r(t) pour le système MIMO-3D
3.2 Système non linéaire 2D
Nous reprenons l'exemple 4.3.2 du chapitre 2 (système SISO-2D) avec comme fonction
de base Φ(x) =[x2
1 x1x2 x22
]Tet γ = 3. Les paramètres de l'algorithme d'apprentissage
en-ligne sont décrites dans la Table 4.2 Nous prenons, x0 =[1 1
]Tet ω(t) = 5 sin te−t.
Table 4.2 Paramètres de l'algorithme en-ligne : Exemple SISO-2D
Paramètre ValeurPas de simulation : ∆t 0.1
Nombre de point entre [t, t+ ∆t] : N 10Tolérance : ε 10−7
Coecients initiaux : c0 0
Les résultats de l'application de l'algorithme de gure 4.7 sont illustrés dans les gures
4.8 à 4.11.
La gure 4.8 indique la convergence des coecients vers les valeurs
c∗ =[1.4701 1.5185 2.1771
]Taprès seulement 6 itérations (à t = 0.6s).
La gure 4.9 illustre l'évolution des états x(t), la commande u(t) et la perturbation ω(t).
Nous remarquons la stabilité asymptotiquement du point d'équilibre x = 0 et ceci malgré
l'introduction au début de simulation de la perturbation (Nous n'avons pas attendu la n
de la phase d'apprentissage pour appliquer la perturbation). L'évolution de l'atténuation
r est illustré par la gure 4.10. L'atténuation converge vers r = 1.55 qui est largement
157
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
temps [sec]
c i
c1c2c3
Figure 4.8 Évolution temporelle des coecients ci pour le système SISO-2D
inférieur à la valeur de γ2 = 9. Donc la propriété du L2 est vériée.
0 5 10 15 20−1
−0.5
0
0.5
1
temps [sec]
États
x1x2
0 5 10 15 20
−2
−1
0
1
2
temps [sec]
Com
mande
uet
Perturbationω u
ω
Figure 4.9 Convergence asymptotique des états vers x = 0, Commande et perturbation pourle système SISO-2D
Dans la gure 4.11 nous illustrons la norme du vecteur des coecients en fonction du
pas de simulation ∆t et du nombre de points N = ∆t/δt. Nous avons fait varier N de
3 à 27 et ∆t de 0.01 à 0.5. Nous constatons que le nombre d'échantillons N a un léger
eet sur ||c|| pour diérentes valeurs de ∆t. Par contre en augmentant ∆t la valeur de
||c|| augmente. Au delà de ∆t = 0.2s le système devient instable.
158
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
2 4 6 8 10 12 14 16 18 200
2
4
6
temps [sec]
Atténuation
r
Figure 4.10 Évolution de r(t) pour le système SISO-2D
05
1015
2025
30
05 · 10−2
0.10.15
0.22
2.5
3
3.5
N∆ t
||c||
Figure 4.11 norme de c en fonction de ∆t et N pour le système SISO-2D
3.3 Système TORA
Dans cette section nous nous intéressons à l'application de l'algorithme simultané en-
ligne au système décrit dans l'exemple 4.3.5 de la section 4.3. Nous rappelons que c'est
un système mécanique instable en boucle ouverte et qui peut être modélisé sous la forme
standard (2.1).
Les fonctions de base utilisées sont choisies sous la forme suivante :
Φ =[x2
1 x1x2 x1x3 x1x4 x22 x2x3 x2x4 x2
3 x3x4 x24
]T159
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
La valeur de γ = 10 est sélectionnée. Les paramètres de l'algorithme d'apprentissage sont
décrites dans la Table 4.3.
Table 4.3 Paramètres de l'algorithme on-line pour le système TORA
Paramètre ValeurPas de simulation : ∆t 0.05
Nombre de point entre [t, t+ ∆t] : N 10Tolérance : ε 10−7
Coecients initiaux : c0 0
Les résultats de l'application de l'algorithme de la gure 4.3 sont données par les gures
4.12 à 4.14. Dans 4.12 est illustré l'évolution temporelle de la norme du vecteur c. Nous
constatons la convergence des coecients après 0.1s, c.à.d., après seulement 2 itérations.
Les coecients ainsi obtenus sont présentés dans la Table 4.4.
Table 4.4 Vecteur c -RNA Cas discret (TORA)
c∗ = [0.8283 1.1702 0.5087 0.0368 0.01920.9420 1.0293 1.1800 0.8992 1.0569]
La gure 4.13 schématise la convergence asymptotique du point d'équilibre x = 0 ainsi
que la commande u. Nous avons exposé le système, au début de simulation, à une per-
turbation ω(t) = cos te−t. Le vecteur d'état initial est x(0) =[1.5 −0.6 1.5 0.6
]T. La
gure 4.14 montre l'atténuation r(t). La valeur atteinte de r vaut 32.47 qui est largement
inférieur à γ2 = 100. Nous concluons, ainsi que l'atténuation des perturbations est donc
vériée.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
1
2
3
temps [sec]
||c||
Figure 4.12 Évolution temporelle de la norme de c pour le système TORA
160
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
0 20 40 60 80 100−2
−1
0
1
2
temps [sec]
x 1(ζ),x 2(θ)
x1x2
0 20 40 60 80 100
−1
−0.5
0
0.5
temps [sec]
Com
mande
uFigure 4.13 Convergence asymptotique des états vers x = 0 et commande pour le système
TORA
0 10 20 30 40 50 60 70 80 90 1000
5
10
15
20
25
30
35
temps [sec]
Atténuation
r
Figure 4.14 Évolution de r(t) pour le système TORA
161
Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne
4 Conclusion
Dans ce chapitre, nous avons présenté une méthode en-ligne de synthèse de la com-
mande H∞ non linéaire par retour d'état. La méthode ramène la résolution de l'équation
HJI résultante à un problème d'apprentissage en-ligne simultané basé sur le concept du
renforcement (Acteur/Critique). Le travail est basé sur les travaux de Vrabie et al. (2009)
pour le cas de la commande optimale linéaire, et celui de Wu. and Luo (2012) pour
la commande H∞ non linéaire. L'utilisation des dérivées de Gateaux et de Fréchet ont
permis de démontrer que l'algorithme d'apprentissage en-ligne peut se ramené à un algo-
rithme itératif de Newton pour l'équation G(V ) = 0. La convergence est donc directement
démontrée.
Nous avons validé l'algorithme sur un système linéaire MIMO. Les résultats montrent
que les poids du RN convergent en-ligne vers la solution exacte obtenue par l'équation
algébrique de Riccati. Nous avons aussi montré la capacité d'un tel algorithme à résoudre
le problème H∞ pour les systèmes non linéaires.
162
Chapitre 5
Application d'une méthode
d'optimisation à la synthèse de la
commande H∞ non linéaire
1 Introduction
La demande sans cesse croissante du milieu industriel pour accroitre la production tout
en réduisant les coûts, a contribué largement à l'émergence d'une branche très importante
des mathématiques, à savoir l'optimisation. Cette dernière est devenue omniprésente dans
des domaines très larges tels que l'engineering, la théorie de la décision, l'économie et même
les sciences sociales.
Les méthodes utilisées pour résoudre un problème d'optimisation sont fonction de la
nature du problème lui même, de sa complexité et des outils mathématiques et numériques
mises en disposition. Les méthodes dites classiques sont restreintes aux cas où le problème
à résoudre peut être modélisé analytiquement et/ou convexe, ce qui n'est pas le cas pour
de nombreuses situations.
Les méthodes stochastiques dites méta-heuristiques semblent être le remède à ces
situations. Parmi eux nous pouvons citer le recuit simulé (SA), (Kirkpatrick et al., 1983),
les algorithmes génétiques (GA), (Goldberg, 1989), les essaims de particules (PS), (Clerc
and Kennedy, 2002) et bien d'autres.
L'optimisation par essaims de particules (PSO) a connu un très grand succès des
dernières années, dans diérents domaines. Dans l'automatique, la méthode a été large-
ment utilisée pour l'optimisation des gains des contrôleurs tels que le PID, (Gaing, 2004),
(Mehdi et al., 2007), (GirirajKumar et al., 2010). Dans le domaine de la commande H∞linéaire, nous pouvons trouver plusieurs travaux de recherches impliquant la PSO, (Ma-
ruta et al., 2009), (Kim et al., 2008). Dans Cruz et al. (2013), les auteurs ont utilisé la
PSO pour trouver la solution de l'équation de Riccati déduite de la commande optimale.
163
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Dans ce chapitre, nous allons appliquer la PSO pour résoudre l'équation HJI déduite de
la commande H∞ non linéaire. Nous allons utilisé deux fonctions objectives à minimiser.
L'une découle de l'objectif à avoir un résidu, sur l'équation HJI, nulle et l'autre sur
l'objectif d'avoir un L2 gain inférieur à un niveau d'atténuation donnée.
Ce chapitre est organisé de la façon suivante : Dans la section suivante, nous allons
donner un aperçu sur l'optimisation (avec et sans contraintes) et les méta-heuristiques.
Dans la section 3, l'optimisation par essaim de particules sera détaillée. La section 4
traitera l'application de la PSO à la résolution des équations HJI dans le cas du retour
d'état. Dans la section 5, deux exemples illustratifs (système non linéaire 2D et TORA)
vont clarier l'ecacité d'une telle approche.
2 Optimisation et méthodes méta-heuristiques
2.1 Dénition de l'optimisation
L'optimisation est le fait d'obtenir le meilleur résultat dans des circonstances données.
Dans tout domaine d'ingénierie, les ingénieurs doivent prendre beaucoup de décisions
technologiques et de gestion. Le but ultime de toutes ces décisions est soit minimiser
l'eort requis ou maximiser le bénéce souhaité. Cependant, l'eort et le bénéce dans
toute situation concrète peut se modéliser en une fonction coût de certaines variables de
décision. L'optimisation peut être dénie comme le processus de trouver les variables qui
donnent le maximum ou minimum de cette fonction, sans ou avec contraintes.
2.2 Problème d'optimisation
D'un point de vue mathématique, le problème se formule de la façon suivante :
• problème sans contraintes :
minx∈<nx
J(x) (5.1)
• problème avec contraintes :
minx∈C
J(x) (5.2)
où x =[x1 x2 · · · xnx
]Test le vecteur des nx variables de décision.
J(x) =[J1(x) J2(x) · · · JM(x)
]Test le vecteur des M fonctions coût. Quand M > 1,
le problème est dit d'optimisation multi-objective.
La recherche d'un minimum de J(x) est équivalent à la recherche d'un maximum de −J ,et vis-versa.
L'optimisation est souvent modélisée sous la forme (5.2). Les contraintes sont :
164
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
• soit de type inégalités avec
C = x ∈ < tels que :hl(x) ≤ 0, i = 1, · · · ,mi (5.3)
• soit de type égalité avec
C = x ∈ < tels que :gl(x) = 0, i = 1, · · · ,me (5.4)
avec mi est le nombre des contraintes de type inégalité et me est le nombre de contraintes
de type égalité.
L'optimisation avec contraintes (5.2) peut se ramener à un problème d'optimisation sans
contraintes (5.1) en introduisant une nouvelle fonction coût qui inclue les contraintes de
la manière suivante
L(x,λ) = J(x) +
mi∑l=1
λlgl(x) +
me+mi∑l=me+1
λl max(hl−me(x), 0) (5.5)
Le terme ajouté à J(x) est appelé fonction de pénalité, L(x, λ) le lagrangien et λl les
multiplicateurs de Lagrange. Le choix des λl n'est pas critique pour l'optimisation, en
eet, ces derniers pénalisent plus ou moins la violation des contraintes. Si x satisfait les
contraintes, nous aurons L(x,λ) = J(x) et le problème d'optimisation devient
minx∈<nx
L(x,λ)
2.3 Méthodes classiques v.s. Méthodes métaheuristiques
L'existence des méthodes d'optimisation peut être attribuée à l'époque de Newton,
Lagrange, et Cauchy. L'utilisation du calcul diérentiel dans l'optimisation est devenue
possible grâce aux contributions de Newton et Leibnitz. Les pionniers qui ont traité la
minimisation des fonctionnelles, étaient Bernoulli, Euler, Lagrange, et Weirstrass.
L'optimisation avec contraintes qui implique l'ajout de multiplicateurs inconnus, est
devenu connu par le nom de son inventeur, Lagrange. Cauchy était le premier à utiliser
la méthode de descente du gradient pour résoudre les problèmes de minimisation sans
contrainte. Malgré ces premières contributions, très peu de progrès ont été réalisés.
Il fallait attendre le milieu du vingtième siècle, lorsque les ordinateurs numériques
à haute vitesse faisaient la mise en ÷uvre des procédures d'optimisation et stimulaient
les recherches sur de nouvelles méthodes. Les progrès spectaculaires suivis, produisant
une littérature considérable sur les techniques d'optimisation. Mais d'un autre coté, les
problèmes à optimiser deviennent plus complexes, et les obstacles pour les résoudre plus
émergents. Le principal obstacle est que la plupart des problèmes d'optimisation sont
NP-diciles (Garey Johnson, 1979). Par conséquent, les méthodes théoriques connues
165
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
ne peuvent pas être appliquées sauf peut-être pour certains problèmes de petite taille.
D'autres dicultés paraissent quand la fonction coût n'est pas diérentiable et/ou mul-
timodale. Par conséquent, l'ensemble des méthodes utilisant les dérivées de la fonction
coût ne peut pas être utilisé. Un autre obstacle est quand la fonction coût ne peut être
modélisée sous forme analytique mais évaluée que par des simulations.
Dans ces situations, les approches métaheuristiques semblent être le seul moyen pour ré-
soudre les problèmes d'optimisation.
Le terme métaheuristique vient des mots grecs meta (au delà) et heuriskein (trouver). Il
n'y a pas clairement de consensus sur la dénition exacte des heuristiques et des méta-
heuristiques. Nous allons adopter celles-ci :
• Une heuristique est une technique de résolution spécialisée à un problème. Elle ne
garantit pas la qualité de la solution obtenue.
• Une métaheuristique est une heuristique générique qu'il faut adapter à chaque pro-
blème
La dénition de la littérature du terme métaheuristique (Wikipédia) est :
Une métaheuristique est un algorithme d'optimisation visant à résoudre des problèmes
d'optimisation dicile (souvent issus des domaines de la recherche opérationnelle, de
l'ingénierie ou de l'intelligence articielle) pour lesquels on ne connaît pas de méthode
classique plus ecace. Les métaheuristiques sont généralement des algorithmes stochas-
tiques itératifs, qui progressent vers un optimum global, c'est-à-dire l'extremum global
d'une fonction, par échantillonnage d'une fonction objective. Elles se comportent comme
des algorithmes de recherche, tentant d'apprendre les caractéristiques d'un problème an
d'en trouver une approximation de la meilleure solution (d'une manière proche des algo-
rithmes d'approximation).
2.3.1 Caractéristiques des métaheuristiques
Nous citons ici quelques caractéristiques des métaheuristiques (Digabel, 2014)
B Le but visé par les métaheuristiques est d'explorer l'espace de recherche ecacement
an de déterminer des solutions (presque) optimales.
B Les techniques qui constituent des algorithmes de type métaheuristique vont de la
simple procédure de recherche locale à des processus d'apprentissage complexes.
B Les métaheuristiques sont en général non-déterministes et ne donnent aucune ga-
rantie d'optimalité.
B Les métaheuristiques peuvent être hybridés avec d'autres métaheuristiques ou avec
des méthodes classiques.
166
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
B Les métaheuristiques peuvent contenir des mécanismes qui évitent le blocage dans
un minimum local.
2.3.2 Classication des métaheuristiques
Les métaheuristiques sont généralement classés en deux grandes familles de méthodes,
à savoir, celles dites de trajectoire et celles basées sur les populations
2.3.2.1 Méthodes de trajectoires elles manipulent une seule solution à la fois et
tentent itérativement d'améliorer cette solution. Elles construisent une trajectoire dans
l'espace des solutions en tentant de se diriger vers des solutions optimales. Parmi les
exemples, nous citons : Le recuit simulé (Kirkpatrick et al. (1983)) et la recherche tabou
(Glover (1986)).
2.3.2.2 Méthodes basées sur une population En tout temps on dispose d'une
base de plusieurs solutions, appelée population. Ces métaheuristiques s'inspirent de phé-
nomènes naturels ou biologiques. Nous citons comme exemples les algorithmes génétiques
(Goldberg (1989)) et les algorithmes des fourmis (Dorigo and Stutzle (2004)) s'inspirent
respectivement de la théorie de l'évolution et du comportement de fourmis à la recherche
de nourriture.
Dans ce qui suit, nous nous intéressons particulièrement à une métaheuristique basée
sur la population et qui a trouvé un large domaine d'application dans le domaine de
l'ingénierie. Cette méthode est dite "essaim de particules" (PS) pour "Particule Swarm".
3 Optimisation par Essaim de Particules
3.1 Principe de base
L'optimisation par essaim de particules, ou Particle Swarm Optimisation (PSO) est
une métaheuristique stochastique originalement développée par deux chercheurs améri-
cains, l'un ingénieur en électricité, Rusel Eberhart, et l'autre socio-psychologue, James
Kennedy, en 1995. La méthode s'articule sur le comportement en essaim des animaux,
telque les bancs de poisons, les vols d'oiseaux, ou tout mouvement en essaim des insectes.
Les deux chercheurs, ont remarqué que les essaims des particules (oiseaux, poissons,...)
développent deux types d'intelligence lors de leurs déplacement. L'une complexe, lorsqu'il
s'agit du comportement du groupe, et l'autre limitée, lorsqu'il s'agit du comportement in-
dividuel. Il ont remarqué aussi que des règles simples, telles que "rester proche des autres
individus", "aller dans une même direction" ou "aller à la même vitesse" maintiennent le
groupe d'individus en cohésion.
167
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Lors du déplacement d'une particule (un individu dans l'essaim), trois comportements
socio-psychologiques se manifestent. Le premier est un dit d'inertie, où la particule a ten-
dance de ne pas modier sa vitesse et sa direction. Le deuxième, est un comportement
cognitif, où la particule tend à se diriger vers le meilleur site déjà visité. Finalement, le
troisième, qualié de sociale, où la particule se déplace vers le meilleur site visité par l'es-
saim où d'autres particules voisines. Le modèle formel du comportement d'une particule
au sein de l'essaim est modélisé par les deux chercheurs dans la section qui suit.
3.2 Formulation
Une particule i est caractérisée par son vecteur de position
xi =[xi1 xi2 · · · xinx
].
Le vecteur vitesse est noté par
vi =[vi1 vi2 · · · vinx
]La particule mémorise la meilleure position qu'elle a occupée lors de l'exploration du
domaine de recherche. Cette meilleure position est relative à la minimisation d'une certaine
fonction coût, et est notée par
Pbesti =[Pbesti1 Pbesti2 · · · Pbestinx
]La meilleure position obtenue par l'ensemble de l'essaim, relative au minimum global
atteint, est notée par
Gbest =[Gbest1 Gbest2 · · · Gbestnx
]3.2.1 Déroulement de la PSO
L'algorithme PSO commence par une initialisation des positions de Np particules dans
un hypercube cube dans <nx . Cette initialisation doit être aléatoire et régulière. A chaque
itération notée k, les particules se déplacent selon les comportements socio-psychologiques
cités auparavant en améliorant leurs positions et vitesses selon les équations (5.7) et (5.6)
vi,j(k+1) = wvi,j(k)+c1r1i,j(k)(Pbesti,j(k)−xi,j(k)
)+c2r2i,j(k)
(Gbestj(k)−xi,j(k)
)(5.6)
xi,j(k + 1) = xi,j(k) + vi,j(k), i ∈ 1, · · · , Np, j ∈ 1, · · · , nx (5.7)
où w est la constante d'inertie ; c1, c2 sont deux constantes positives déterminées de
façon empirique et suivant la relation c1 + c2 ≤ 4. Ces constantes sont dites coecients
168
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
d'accélération. r1, r2 sont deux nombres aléatoires suivant une loi uniforme sur [0, 1].
Pour maintenir la stabilité en mouvement, c.à.d, assurer que le déplacement des particules
est restreint dans un espace de recherche, la vitesse doit être limitée par vmax, en d'autre
termes ∣∣∣vi,j(k + 1)∣∣∣ ≤ vmax
L'équation (5.6) possède trois termes suivant le comportement de déplacement déjà dé-
taillé :
1. wvi,j(k) est la composante d'inertie dans la vitesse. La constante w sert à modier
la vitesse de déplacement en se basant sur la vitesse actuelle.
2. c1r1i,j(k)(Pbesti,j(k) − xi,j(k)
)correspond à la composante cognitive de la vitesse,
c1 est un paramètre de contrôle et r1 donne l'aspect aléatoire au comportement
cognitif de la particule.
3. c2r2i,j(k)(Gbestj(k) − xi,j(k)
)correspond à la composante sociale de la vitesse. c2
est un paramètre de contrôle et r2 donne l'aspect aléatoire au comportement social
de la particule.
La meilleure position de la particule i ainsi que la meilleure position de tout l'essaim sont
respectivement données par (5.8) et (5.9)
Pbesti(k + 1) =
Pbesti(k) si J(xi(k + 1)) ≥ Pbesti(k);
xi(k + 1) sinon.(5.8)
Gbest(k + 1) = arg minPbesti
J(Pbesti(k + 1)), i ∈ 1, · · · , Np (5.9)
L'interprétation géométrique de la méthode PSO est illustrée par la gure 5.1. Les étapes
de l'algorithme PSO sont détaillées dans la gure 5.2
3.3 Les variantes de la PSO
Durant ces dernières années la PSO a connu une explosion en ce qui concerne l'émer-
gence de plusieurs variantes. En eet, de nombreux chercheurs ont élaboré des modi-
cations sur l'algorithme de base. Parmi ces améliorations, nous citons, l'introduction
d'un coecient d'inertie variable, w(k), qui décroit de 1.4 à 0 (Shi and Eberhart (1998)).
D'autres chercheurs ont proposé des coecients d'accélération c1(k) et c2(k) variantes
dans le temps . Pour ne pas citer d'autres, Ratnaweera (Ratnaweera et al. (2004)) montre
par des testes empiriques que le fait de choisir c1(k) linéairement décroisant et c2(k)
linéairement croisant donne des résultats plus performants.
La diérence entre les particules au sein de l'essaim a conduit à l'automatisation des
coecients d'inertie et d'accélération pour chaque particule. En eet, dans des essaims
169
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
xi(k)
Gbest(k)
Pbesti(k)
vi(k)
Sa meilleure position
Meilleure position de l'essaim
Position avec la vitesse courante
Position actuelle
Nouvelle position
xi(k + 1)
Figure 5.1 Déplacement d'une particule dans PSO
Input : Np le nombre de particulesInput : kmax le nombre maximal d'itération, ε la toléranceInput : w, c1, c2 paramètres de contrôle du PSO
1 Initialiser aléatoirement les positions xi et vitesses vi2 Calculer la fonction objective pour chaque position3 for k = 0 to kmax do4 Mettre à jour les vitesses et positions selon (5.6) et (5.7)5 Calculer la fonction objective pour chaque nouvelle position6 Mettre à jour Pbest et Gbest selon (5.8) et (5.9)7 if ∆Gbest < ε then8 Stop9 La solution est Gbest10 else11 Aller à 4 et continuer12 end
13 end
Figure 5.2 Algorithme du PSO
réels, les individus (oiseaux ou poissons, par exemple) ont des caractéristiques diérentes
les uns aux autres (diérences d'âge, expériences de vol, étirement des muscles, etc.), ce
qui a conduit à élaborer des coecients variantes dans le temps et pour chaque individu
(Xingjuan et al. (2009)).
Nous désignons par la suite µi = wi, c1i, c2i comme coecient généralisé. Dans (Xing-
juan et al. (2009)), les auteurs proposent un µi(k) qui varie selon la stratégie suivante : Si
la valeur de la fonction objective de la particule i est nettement meilleure que celle de la
particule j, alors la probabilité que l'optimum global se trouve au voisinage de i est plus
grande qu'il se trouve au voisinage de j. Ceci à ramener, à dénir une sorte d'information
170
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
appelée Score pour chaque particule. Cette nouvelle information est donnée par
Scorei(k) =J(xwrost(k))− J(xi(k))
J(xwrost(k))− J(xbest(k))
avec
xwrost(k) = arg maxxJ(xi(k)), i = 1, · · · , Np
xbest(k) = arg minxJ(xi(k)), i = 1, · · · , Np
Le coecient généralisé µi(k) est donné par
µi(k) = wl(k) +(µh − µl
)(1− Scorei(k)
)avec µl et µh sont respectivement les bornes inférieures et supérieures de µi(k).
Nous attribuons, donc, à la particule qui ne contribue pas à l'exploration de l'espace
de recherche, un coecient plus grand µh et un coecient plus petit µl à la meilleure
particule. Des formes non linéaires du Scorei(k), plus au moins complexes, ont été utilisées
et donnaient des performances plus élevées.
Au lieu de régler trois paramètres indépendamment w, c1 et c2, Clerc et Kennedy (Clerc
and Kennedy (2002)) ont démontré qu'en combinant ces paramètres dans un seul, appelé,
coecient de constriction, et noté χ, une bonne convergence du PSO peut être obtenue.
L'équation de mis-à-jour de la vitesse (5.6) devienne
vi,j(k + 1) = χ
(vi,j(k) + φ1r1(k)
(Pbesti,j(k)− xi,j(k)
)+ φ2r2(k)
(Gbestj(k)− xi,j(k)
))(5.10)
avec
χ =2
φ− 2 +√φ2 − 4φ
où φ = φ1 + φ2 > 4. Selon Clerc and Kennedy (2002), prendre φ = 4.1, avec φ1 = φ2,
donne un meilleur taux de convergence.
3.4 PSO avec contraintes
Dans cette section, nous présentons deux algorithmes d'optimisation avec contraintes
dédiés à la méthode des essaims de particules (PS). Le premier est inspiré de la méthode
augmentée des multiplicateurs de Lagrange (ALM) (Rao (2009)) et la deuxième est basée
sur la dénition d'une fonction ctive dans le problème d'optimisation.
171
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
3.4.1 Algorithme ALPSO
Cet algorithme est originalement développé dans (Sedlaczek and Eberhard (2006)).
Kim dans (Kim et al. (2008)) a utilisé l'algorithme pour la synthèse optimale des para-
mètres d'un contrôleur H∞-PID. Les contraintes sont supposées être sous la forme mixte,
(égalité et inégalité), suivante
g(x) = 0, g : <nx → <me
h(x) ≤ 0, h : <nx → <mi
où me et mi sont respectivement le nombre des contraintes d'égalité et d'inégalité.
L'algorithme est basé sur la méthode dite de lagrangien augmenté qui permet de rendre le
problème d'optimisation avec contraintes et un problème d'optimisation sans contraintes
en introduisant une nouvelle fonction objective augmentée donnée par : (Rao (2009))
A(x,λ,β(t)) = J(x) +
me+mi∑l=1
λlθl(x) +
me+mi∑l=1
β(t)l θ
2l (x) (5.11)
avec
θl(x) =
gl(x) 1 ≤ l ≤ me
max[hl−me(x), −λl
2βl
]me + 1 ≤ l ≤ mi
(5.12)
et λ = [λ1, λ2, · · · , λme+ml]T , β(t) = [β
(t)1 , β
(t)2 , · · · , β(t)
me+ml]T , dénotent respectivement le
vecteur des multiplicateurs de Lagrange et le vecteur des facteurs de pénalité. Le troisième
terme est ajouté pour garantir que la solution x∗ n'est pas seulement stationnaire mais
aussi un minimum de A(x,λ,β) pour la valeur "optimale" λ∗. Puisque la valeur de λ∗
n'est pas connue, une méthode itérative est utilisée pour trouver la solution au problème :
A la première itération (t = 1), les valeurs de λ(t)l sont choisies nulles, β(t)
l constantes
quelconques et L est minimisée pour trouver la solution x∗(t). Les facteurs λ(t)l , β(t)
l sont
mis-à-jour par
λ(t+1)l = λ
(t)l + 2β
(t)l θl(x
(t)) (5.13)
β(t+1)l =
2β
(t)l si |fl(x(t))| > |fl(x(t−1))|et|fl(x(t))| > εl
0.5β(t)l si |fl(x(t))| ≤ εl
β(t)l sinon
(5.14)
où fl(x) = gl(x) pour l = 1, · · · ,me et fl(x) = hl(x) pour l = me + 1, · · · ,me +mi.
La valeur x(t) est mis-à-jour par l'algorithme PSO standard ((5.7), (5.6)). L'hybridation
de l'algorithme PSO avec la méthode AL est schématisée par la gure 5.3
172
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Input : Np le nombre de particulesInput : kmax le nombre maximal d'itération de la PSO, εPSO la tolérance pour PSOInput : tmax le nombre maximal d'itération de la ALMInput : w, c1, c2 paramètres de contrôle du PSO
1 Initialiser aléatoirement les positions x(0)i (0) et vitesses v(0)
i (0)
2 Initialiser λ(0) = 0 et β(0) = β0
3 Prendre k = 0, t = 0
4 Prendre Pbest(0)i (0) = x
(0)i (0), Gbest(0)(0) = arg min
x(0)i (0)
(L(x(0)i (0),λ(0),β(0)))
5 for t = 0 to tmax do6 for k = 0 to kmax do7 Mettre à jour les vitesses et positions selon (5.6) et (5.7)8 Calculer la fonction objective L pour chaque nouvelle position9 Mettre à jour Pbest(t) et Gbest(t) pour la fonction objective L selon (5.8) et
(5.9)10 if ∆Gbest(t) < ε(PSO) then11 Stop12 La solution est x(t) = Gbest(t)
13 else14 Aller à 4 et continuer15 end
16 Mettre-à-jour λ(t) et β(t) par (5.13) et (5.14)17 end
18 end
Figure 5.3 Algorithme du ALPSO
3.4.2 Méthode de la fonction ctive
Cette méthode développée par Ichiro Maruta (Maruta et al., 2009) ne nécessite aucun
paramètre de synthèse et au contraire à ALPSO est moins complexe. Elle est développée
dans un contexte PSO et suppose des contraintes de type inégalités (5.2), (5.3). En eet
Maruta (Maruta et al. (2009)) a démontré que ces derniers peuvent êtres prises en charge
dans une optimisation sans contraintes en utilisant une fonction ctive Jv(x) qui possède
les propriétés suivantes :
1. Jv(x) < 0 ∀x ∈ C
2. Jv(xa) < Jv(xb) si J(xa) < J(xb)
Le choix de Jv(x) n'est pas tellement critique. Il sut de choisir Jv(x) = J(x) si J(x)
satisfait (1). Nous pouvons choisir Jv(x) = arctan(J(x))− π/2 ou Jv(x) = −1/J(x).
L'optimisation avec contraintes (5.2)-(5.3) se ramène à une optimisation sans contraintes
suivante
minx∈<nx
Jm(x) (5.15)
173
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
avec
fm(x) =
hmax si hmax ≥ 0
Jv(x) sinon(5.16)
où hmax = max[h1(x), h2(x), · · · , hme(x)]. Nous pouvons maintenant appliquer l'algo-
rithme du PSO au problème d'optimisation (5.15).
Cette nouvelle technique est applicable pour la PSO pour la raison suivante : sup-
posant, initialement que xi(k) se trouve dans une région de l'espace de recherche où
hmax(xi(k)) < 0 (région faisable), alors Pbesti(k) et Gbest(k) sont calculées à la base de
Jv(xi(k)). Maintenant, si xi(k) se déplace, à l'étape (k + 1), selon (5.6) et (5.7) vers une
autre région où hmax(xi(k+1)) devienne la fonction objective, chaque particule se voit être
obligée de revenir vers la région faisable puisque Jm(xi(k)) = Jv(xi(k)) < Jm(xi(k+ 1)) =
hmax(xi(k + 1)). Ainsi, Pbesti(k + 1) et Gbest(k + 1) restent toujours dans la région fai-
sable. La méthode de la fonction ctive semble être pour le moment la meilleure méthode
qui traite l'optimisation avec contraintes dans le contexte de la PSO. Contrairement à la
ALPSO, elle ne nécessite aucunes variables supplémentaires (multiplicateurs de Lagrange,
facteurs de pénalités) et ne se limite pas à des fonctions objectives continues et dérivables
en x.
4 Résolution de l'équation HJI par PSO
4.1 Approximation par réseau de neurones
Dans cette section, un réseau de neurones à une couche cachée est utilisé pour ap-
proximer V (x) solution de l'équation HJI dans le cas de la commande H∞ contrainte par
retour d'état. Nous rappelons qu'une telle équation, dans le cas où la contrainte sur la
commande |u(x)| < A est remplacée par une fonction A tanh(u(x)/A), est donnée par
H(x,∂V
∂x, u∗, ω∗) =
∂V
∂x(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 +W (u∗)− γ2‖ω∗‖2 = 0 (5.17)
avec
W (u∗) = 2A
∫ u∗
0
tanh−T (ν/A)dν
= 2Au tanh−1(u∗/A) + A2 ln
(1− uT∗ u∗/A2
)(5.18)
174
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
est la quasi-norme de u∗, et
u∗(x) = −A tanh
(1
2gT2 (x)
∂V T
∂x
)(5.19)
ω∗(x) =1
2γ2gT1 (x)
∂V T
∂x(5.20)
sont, respectivement, la commande optimale contrainte et la pire perturbation.
Nous avons vu dans les chapitres précédents, que cette équation ne peut être résolue
analytiquement, d'où l'existence de méthodes approximatives tels que, la méthode des
réseaux de neurones.
La solution V (x) est approximée par VN(x), la sortie d'un RN à une seule couche cachée
(voir gure 5.48)
V (x) ≈ VN(x) =N∑k=1
ckφk(x) = cTΦ(x) (5.21)
où c = [c1, c2, · · · , cN ]T est le vecteur des coecients à ajustés,
et Φ(x) = [φ1(x), φ2(x), · · · , φN(x)]T est le vecteur des N fonctions de base (fonctions
d'activation).
Le gradient de VN(x) est facilement donné par
∂VN∂x
= cT∇Φ(x) (5.22)
où ∇Φ(x) = [∂φ1∂x, ∂φ2
∂x, · · · , ∂φN
∂x]T .
L'équation HJI (5.17) devienne
H(x, c) = cTΦ(x)(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 +W (u∗)− γ2‖ω∗‖2 = 0 (5.23)
avec W (u∗) donnée par (5.18) et
u∗(x, c) = −A tanh
(1
2gT2∇TΦ(x)c
)(5.24)
ω∗(x, c) =1
2γ2gT1∇TΦ(x)c (5.25)
Le problème de la résolution de l'équation HJI est transformé en un problème de recherche
du vecteur des coecients c. Dans la section suivante, nous allons utilisés une approche
métaheuristique pour la résolution de (5.23). La méthode PSO est utilisée pour trouver
le vecteur optimal des coecients c∗ en minimisant une fonction objective appropriée.
175
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
4.2 Fonctions objectives
4.2.1 Fonction objevtive basée sur l'Hamiltonien
Dans le cas où l'objectif à atteindre est d'avoir un hamiltonien H(x, c) nul, la fonction
à minimiser peut être choisie sous forme quadratique en H(x, c). Ceci est dû, au faite que,
pour f(x) une fonction quelconque, l'équation suivante
argx(f(x) = 0
)= arg min
x
(fT (x)f(x)
)peut être facilement obtenue (voir gure 5.4 pour l'interprétation géométrique).
D'où, nous choisissons comme fonction objective, la forme quadratique suivante
x
f, fTff
fTf
Figure 5.4 Fonction objective quadratique
J1(c) = H(x, c)TH(x, c)
Les variables de décision sont, donc les éléments du vecteur des coecients c, avec nx = N .
Pour traiter seulement le cas de l'optimisation mono-objective (M = 1), la fonction J(c)
doit être calculée en un seul point. Ceci dit, il sut de prendre les états du système, x(t),
à l'instant tf , temps du régime permanent où le point d'équilibre x = 0 est atteint et
limt→tf
u∗ = 0, limt→tf
ω∗ = 0. Nous obtiendrons, donc limt→tf
H(x(t), c∗) = 0. Ainsi, la fonction
objective devienne
J1(c) = H(x(tf ), c)TH(x(tf ), c) (5.26)
avec x(t) est la trajectoire du système en boucle fermée, x = f(x) + g1(x)ω∗ + g2(x)u∗.
Nous pouvons associer à cette fonction objective une contrainte de type inégalité donnée
176
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
par
h(c) =
tf∫0
||z(x, c)||2dτ
tf∫0
||ω∗(x, c)||2dτ− γ2 ≤ 0 (5.27)
avec ||z(x, c)||2 = ||h(x)||2 + ||u∗(x, c)||2, et u∗(x, c) et ω∗(x, c) sont données respective-
ment par (5.24) et (5.25).
Pour transformer l'optimisation avec contraintes en une sans contraintes, nous avons uti-
lisé la méthode de la fonction ctive, avec
Jv(c) = −1/J1(c) (5.28)
4.2.2 Fonction objective basée sur le L2-gain
L'objectif de la commande H∞ non linéaire, est double : assurer une stabilité asympto-
tique du point d'équilibre x = 0 et assurer un L2-gain inférieur à un niveau d'atténuation
γ. Donc, la fonction objective à optimiser (à minimiser) peut être choisie comme suit
J2(c) ==
tf∫0
||z(x, c)||2dτ
tf∫0
||ω∗(x, c)||2dτ(5.29)
La contrainte associée peut être choisie de type égalité, donnée par
g(c) = H(x, c) = 0 (5.30)
Ce choix nous permet de trouver le vecteur des variables de décision c qui nous garantissent
un niveau d'atténuation minimale, tout en résolvant l'équation HJI, H(x, c) = 0.
Nous avons utilisé la méthode ALPSO pour prendre en charge ces contraintes de type
égalité, et rendre l'optimisation sans contraintes.
4.3 Résultats de simulation
Pour démontrer l'ecacité de la PSO à approximer la solution des équations HJI dans
le contexte H∞ non linéaire, nous allons l'appliquer pour optimiser le vecteur c de la loi de
commande (5.24) dans le cas de deux systèmes non linéaires déjà vus. Il s'agit du système
2-D et du système TORA. L'optimisation sera faite sur les deux fonctions objectives (5.26)
avec la contrainte (5.27) et (5.29) avec la contrainte (5.30). Des comparaisons, avec les
algorithmes génétiques et la méthode des réseaux de neurones, vont êtres aussi eectuées.
177
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
4.3.1 Système non linéaire 2D
Nous reprenons le problème de la synthèse d'un contrôleurH∞ non linéaire du système
décrit dans le deuxième chapitre. Nous avons utilisé l'algorithme d'optimisation PSO pour
trouver la solution à l'équation HJI (5.23).
Les paramètres du PSO sont assignés dans la Table 5.1. Une comparaison a été réalisée
avec les algorithmes génétiques (AG), dont les paramètres sont assignées dans la même
Table.
Les deux algorithmes ont été exécutés 10 fois. Les résultats de la comparaison, pour la
Table 5.1 Paramètres de PSO et GA
PSO GA
Paramètre Valeur Paramètre Valeur
Nombre maximale de générations 150 Nombre maximale de générations 200
Nombre de Particule 20 Chromosome 20
Coecient d'inertie 0.9 Probabilité de Croisement 0.8
Coecient cognitif 2 Probabilité de Mutation 0.02
Coecient social 2
minimisation des fonctions objectives J1(c) et J2(c), sont portés sur la Table 5.2.
Table 5.2 Minimas des fonctions objectives J1(c) et J2(c) pour les algorithmes PSO et GA
J1(c) J2(c)
Exécution AG PSO AG PSO
1 1.94× 10−27 1.93× 10−139 1.3533 1.3247
2 5.57× 10−49 2.90× 10−141 1.3498 1.3560
3 4.53× 10−45 6.24× 10−140 1.3500 1.3752
4 2.59× 10−54 1.29× 10−139 1.3555 1.3461
5 4.31× 10−29 7.44× 10−141 1.3539 1.3468
6 2.68× 10−46 1.51× 10−143 1.3539 1.3504
7 2.88× 10−38 4.62× 10−142 1.3527 1.3378
8 2.28× 10−50 9.59× 10−143 1.3470 1.3560
9 1.57× 10−36 2.11× 10−1.34 1.3468 1.3475
10 1.78× 10−44 6.76× 10−136 1.3515 1.3565
178
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Nous avons constaté que l'algorithme PSO minimise au mieux la fonction objective J1(c)
que les AG (la moyenne de J1(c) sur les 10 exécutions est de l'ordre de 10−140 pour la PSO
et 10−40 pour les AG). Toute fois, dans les deux cas, la contrainte L2 ≤ γ2 est vériée. Donc
l'objectif d'avoir une solution approximative de l'équation HJI avec une atténuation des
perturbations est atteint. Pour la deuxième fonction objective, il est dicile de comparer
entre les deux méthodes (nous avons obtenu des valeurs de J2(c) avec des uctuations,
mais qui restent très proches et garantissent un L2 ≤ γ2). Nous avons aussi remarqué que
la PSO donne un valeur du Hamiltonien plus proche de zéro que les AG.
Pour voir les performances de la commande H∞ basée sur la PSO et les AG, le vecteur
optimal c∗ obtenu pour la meilleure exécution et pour la fonction J1(c) est utilisé pour
la synthèse de la loi de commande (5.24). Les même conditions de simulation que celles
des chapitres précédents (conditions initiales, perturbation,· · · ) sont maintenues. Nous
constatons (voir gure 5.5) que l'algorithme PSO a donné une meilleur performance au
régime permanent. Le temps d'établissement (à ±2%) pour le PSO vaut 5sec, par contre,
il vaut 10sec pour les AG. Nous remarquons, également une atténuation meilleure dans
le cas de la PSO (voir gure 5.6).
0 5 10 15 20
−0.5
0
0.5
1
temps [sec]
x 1
GAPSO
0 5 10 15 20
0
0.2
0.4
0.6
temps [sec]
x 2
GAPSO
Figure 5.5 Évolution des états x pour l'algorithme PSO et les AG (système non linéaire 2-D)
4.3.2 Système TORA
Dans cette section nous nous intéressons à l'optimisation par PSO appliquée à la
synthèse d'une commande H∞ du système TORA. Le système en question est déjà décrit
dans les chapitres précédents.
Le nombre de fonctions de base est choisi égale à N = 10. les paramètres de la PSO
sont celles données dans la Table 5.4. La fonction objective à minimiser est J1(c) avec
comme contrainte h(c) donnée par (5.27). La méthode de la fonction ctive (5.28) est
179
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
0 5 10 15 20
−1
−0.5
0
temps [sec]
Com
mande
GAPSO
5 10 15 20
0.5
1
1.5
temps [sec]
Atténutionr
GAPSO
Figure 5.6 Évolution de la commande et l'atténuation r pour l'algorithme PSO et les AG(système non linéaire 2-D)
utilisée dans ce cas.
Le vecteur optimal des coecients c∗, obtenu par PSO, est assigné dans la Table 5.4.
Une comparaison avec la méthode des réseaux de neurones hybridée avec les moindres
carrés (NN-LS) est faite. Les valeurs de c∗ associées sont aussi données dans la même
Table.
Table 5.3 Vecteur optimale des coecients obtenue par PSO et NN-LS
c1 c2 c3 c4 c5
PSO 0.0631 5.2973 4.2689 −4.5243 1.5995
NN-LS 1.8158 −0.6560 −0.0323 −0.2661 0.4959
c6 c7 c8 c9 c10
PSO 4.6150 8.3257 −9.7144 0.3716 8.6936
NN-LS 0.0503 1.1048 1.7812 0.0412 1.2132
Les résultats de simulations du système TORA en boucle fermée, c.à.d., avec la loi de
commande (5.24) pour les deux algorithmes sont donnés dans les gures 5.7 et 5.8. La
commande H∞ basée sur la PSO montre des performances meilleures que celles basées sur
la méthode NN-LS. Le temps d'établissement (à 2%) ainsi que le dépassement maximal
(par rapport à l'état d'équilibre x = 0) sont présentés dans la Table 5.4. Nous y présen-
tons aussi, la valeur de l'atténuation r. D'après cette Table, nous constatons que le temps
établissement est double, et l'atténuation est moins importante quand nous appliquons la
méthode NN-LS par rapport à la PSO.
180
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Table 5.4 Performance du système TORA pour la PSO et NN-LS
Ts(x1) Omax(x1) Ts(x2) Omax(x2) r
PSO 26 1.9448 25.2 1.1048 2.15
NN-LS 69.9 1.7978 67 1.1728 3.9757
0 20 40 60 80 100
−1
0
1
2
temps [sec]
x 1(ζ)
NN-LSPSO
0 20 40 60 80 100−1
−0.5
0
0.5
1
1.5
temps [sec]
x 2(θ)
NN-LSPSO
Figure 5.7 Évolution des états x1(ζ) et x2(θ) pour l'algorithme PSO et la méthode NN-LS(système TORA)
5 Synthèse de la Commande H∞ non linéaire par PSO
5.1 Commande H∞ des systèmes variants dans le temps
Le système non linéaire (1.40) dans le cas d'une dynamique variante dans le temps
peut s'écrire par l'équation d'état suivante
x = f(x, t) + g1(x, t)ω + g2(x, t)u (5.31)
où les fonctions f(x, t), g1(x, t) et g2(x, t) sont supposées lisses au voisinage du point
d'équilibre (l'origine de <n). Les signaux à contrôler sont supposés sous la forme
z = W
(x
u
)(5.32)
181
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
0 20 40 60 80 100
−1
0
1
temps [sec]
Com
mande
uNN-LSPSO
0 20 40 60 80 1000
1
2
3
4
temps [sec]
Atténuation
r
NN-LSPSO
Figure 5.8 Évolution de la commande et atténuation r pour l'algorithme PSO et la méthodeNN-LS (système TORA)
avec W ∈ <s×s est une matrice de poids.
La matrice symétrique dénie positiveW TW peut être partitionnée de la manière suivante
W TW =
(Q 0
0T R
)(5.33)
où Q et R sont aussi SDP.
La commande H∞ non linéaire sous-optimale assurant la stabilité asymptotique du point
d'équilibre x = 0, ainsi qu'un L2 gain ≤ γ est donnée par
u∗ = −1
2R−1gT2 (x, t)V T
x (5.34)
où V (x, t) est la solution de l'équation HJI suivante
Vt + Vxf(x, t) +1
4Vx
(1
γ2g1(x, t)gT1 (x, t)− g2(x, t)R−1gT2 (x, t)
)V Tx + xTQx = 0
Nous notons Vt = ∂V∂t
et Vx = ∂V∂x.
Une telle solution existe pour tout γ >√σmax(R) ≥ 0, où σmax(R) est la plus grande
valeur singulière de R.
La pire perturbation est donnée par
ω∗ =1
2γ2gT1 (x, t)V T
x (5.35)
Pour plus de détails concernant l'équation HJI (5.35) ainsi que la commande optimale
veuillez vous référer aux chapitres précédents.
182
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Dans la section qui suit, nous allons traiter la commande H∞ des systèmes lagrangiens.
5.2 Application de la PSO à la commande des systèmes lagran-
giens
5.2.1 Commande H∞ non linéaire des systèmes lagrangiens
Les équations de mouvement d'un système lagrangien possédant n degré de liberté
peuvent être obtenues en utilisant le formalisme d'Euler-Lagrange. Ils sont données par
M(q)q + C(q, q)q + F (q) +G(q) = τ(t) + τd(t) (5.36)
où q(t), q(t) and q(t) sont, respectivement, le vecteur des positions, vitesses et accélérations
généralisées des n liaisons. τ(t) est le vecteur des n forces généralisées (forces ou couples)
s'exerçant sur les liaisons. M(q) est la matrice d'inertie SDP et C(q, q) est la matrice des
forces de Coriolis et centrifuges de dimension n. G(q) et F (q) sont, respectivement, les
forces dues à la gravité et les forces de frottements. τd est le vecteurs des perturbations.
En plus, les systèmes lagrangiens possèdent la propriété d'antisymétrique suivante
M(q, q)− (C(q, q) + CT (q, q)) = 0 (5.37)
L'objectif de la commande est d'assurer une poursuite d'une trajectoire de référence notée
qr(t) malgré la présence des incertitudes paramétriques et des forces de perturbations,
assurant ainsi un L2 gain inférieur à un certain niveau d'atténuation γ.
Pour écrire le système sous la forme d'état, nous utiliserons le vecteur d'état suivant
x(t) =[eT (t) eT (t)
∫eT (t)dt
]T(5.38)
avec e(t) = q − qr, e(t) = q − qr,∫e(t)dt =
∫(q − qr)dt et qr est le vecteur des vitesses
désirées.
Le terme d'intégration est introduit dans le vecteur d'état dans le but d'avoir une erreur
nulle au régime permanent en dépit des incertitudes et des perturbations.
D'après l'équation (5.36), nous avons
q = −M−1(q)C(q, q)q + F (q) +G(q)− τ(t)− τd(t) (5.39)
Cette équation peut être récrite sous la forme d'état suivante
x = f(x, t) + g0(q, q, qr, qr) + g(x, t)τ + k(x, t)τd (5.40)
183
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
où
f(x, t) =
−M−1C 0 0
I 0 0
0 I 0
x, g0(q, q, qr, qr) =
−M−1(Mqr + Cqr + F +G)
0
0
g(x, t) = k(x, t) =
−M−1
0
0
Nous avons omis des variables dans M(q), C(q, q), F (q) et G(q). Les matrices I et O sont
respectivement, les matrices identité et zeros de dimensions appropriées.
Pour pouvoir appliquer la commande H∞, le système (5.40) doit être mis sous la forme
standard (1.40). Les auteurs dans (Rao et al., 2008) ont introduit le changement de
variables suivant
x = T0x =
T1 T2 T3
0 I I
0 0 I
x avec T1 = ρI, et ρ est un paramètre de synthèse.
Après quelques manipulations, l'équation (5.40) devienne
x = f(x, t) + g1(x, t)ω + g2(x, t)ρ(−Γ(x) + τ) (5.41)
avec
f(x, t) = T−10
−M−1C 0 0
ρ−1 I − ρ−1T2 I − ρ−1(T3 − T2)
0 I −I
T0x
g1(x, t) = g2(x, t) = T−10
M−1
0
0
où
Γ(x) = M(qr − ρ−1T2x1 − ρ−1T3x2)
+ C(qr − ρ−1T2x1 − ρ−1T3x2) + F +G
ω = ρτd
Finalement, la forme standard s'obtienne en choisissant comme loi de commande u =
ρ(−Γ(x) + τ). Le vecteur des forces généralisées appliquées au système lagrangien (5.36)
184
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
sera, donc, donné par τ = Γ(x) + ρ−1u, c.à.d.
τ = Mq + Cq + F +G− ρ−1(MTx+ CTx) + ρ−1u (5.42)
avec T =[T1 T2 T3
].
La loi de commande (5.42) est composée de trois termes :
1. un compensateur des non linéarités du système lagrangien.
2. une composante qui est fonction du vecteur d'état et sa dérivée.
3. une commande auxiliaire qui va être la commande H∞ sous optimale à synthétisée.
Une solution à l'équation HJI (5.35) a été proposée dans Ortega et al. (2005), donnée par
(5.43)
V (x, t) =1
2xTT T0
M 0 0
0 Y X − Y0 X − Y Z + Y
T0x (5.43)
où X, Y et Z ∈ <n×n sont des matrices constantes DP, tel que Z −XY −1X + 2X > 0.
En les substituant dans (5.35) nous obtenons le système d'équation algébriques de Riccati
suivant 0 Y X
Y 2X Z + 2X
X Z + 2X 0
+Q+1
γ2T TT − T TR−1T = 0 (5.44)
Après calcul des éléments de T par le système (5.44), V (x, t) sera complètement dénie.
La commande sous optimale sera donc donnée par
u∗ = −R−1Tx (5.45)
Pour plus de détails, veuillez vous référez ux références (Lopez-Martinez et al., 2007),
(Ortega et al., 2005) et (Rao et al., 2008).
En substituant T , u∗ et x dans l'équation (5.42), le vecteur des forces généralisées sera
réécrit, facilement, sous la forme suivante
τ = Mqr + Cq + F +G− 1
ρM([T2 T3 0
]+M−1CT +R−1T )x (5.46)
ou sous la forme d'une commande couple calculée-PID suivante
τ = Mqr + Cq + F +G−M(KDe+KP e+KI
∫edt) (5.47)
185
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
où
KD = 1ρ(T2 +M−1CT1 +M−1R−1T1) ;
KP = 1ρ(T3 +M−1CT2 +M−1R−1T2) ;
KI = 1ρ(M−1CT3 +M−1R−1T3).
Une simplication des termes du régulateur PID non linéaire s'obtienne en choisissant les
matrices Q et R comme suit
Q =
w21I 0 0
0 w22I 0
0 0 w23I
, R = w2uI (5.48)
En eet, nous obtenons, après quelques manipulations, les gains donnés par
KD =
√w2
2+2w1w3
w1I +M−1(C + 1
wuI) ;
KP = w3
w1I +
√w2
2+2w1w3
w1M−1(C + 1
wuI) ;
KI = w3
w1M−1(C + 1
wuI).
(5.49)
Ces gains dépendent non seulement des matrices M et C mais aussi des coecients
[w1, w2, w3, wu].
Dans la section suivante, nous nous intéressons à l'ajustement des paramètres du régula-
teur H∞-PID non linéaire en utilisant l'optimisation par essaim de particules.
5.2.2 Méthode d'ajustement par PSO
Nous rappelons que la nalité de la commande H∞ est d'avoir un système en boucle
fermée asymptotiquement stable avec un L2 gain ≤ γ, donc il est judicieux de choisir
comme fonction objective à minimiser celle donnée par
J(y) =
∫∞0‖z‖2dt∫∞
0‖ω‖2dt
. (5.50)
où le vecteur des variables de décision est donnée par : y = [w1, w2, w3, wu].
Il est facile de constater que l fonction objective (5.50) est non linéaire et complexe par
rapport au vecteur y (voir équations (5.32), (5.33), (5.35), (5.48) et (5.49)).
186
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Les contraintes sont choisies de type inégalité avec
h(y) =
wu − γ∫∞
0 ‖z‖2dt∫∞
0 ‖ω‖2dt− γ2∫∞
0t‖e‖2
2dt− ε
≤ 0 (5.51)
La première contrainte est facilement obtenue par la condition γ >√σmax(R) ≥ 0 et
(5.48). La deuxième est déduite directement de la dénition du L2 gain. Finalement, la
troisième contrainte est ajoutée dans le but d'imposer un critère de type ITSE (Integral
Time Square Error) inférieur à une valeur ε, avec ITSE =∫∞
0t‖e‖2
2dt ≤. La valeur de ε
est choisie égale à 10−4.
Le problème d'optimisation avec contraintes revient à trouver le vecteur y∗, tel que
miny∈F
∫∞0‖z‖2dt∫∞
0‖ω‖2dt
, F = y ∈ Rny |h(y) < 0. (5.52)
Nous allons utilisé la méthode de la fonction ctive pour transformer (5.52) en un problème
d'optimisation sans contraintes avec
fv(y) =−1∫∞
0‖z‖2dt∫∞
0‖ω‖2dt
. (5.53)
L'organigramme de la gure 5.9 décrit la procédure d'optimisation des paramètres du
contrôleur H∞-PID NL
5.3 Application à la commande d'un robot SCARA à 4 d.d.l.
Les performances de la commande optimisée par PSO vont êtres démontrées dans le
cas de l commande d'un robot manipulateur de type SCARA à 4 d.d.l. L'objectif est
d'assurer une poursuite des trajectoires de références tout en assurant une atténuation de
l'eet des forces de perturbations et des incertitudes paramétriques. La valeur de γ est
choisie égale à 2. Nous notons que notre contrôleur n'en dépend pas, sa valeur est juste
utilisée comme contrainte.
5.3.1 Dynamique du SCARA à 4 d.d.l
En utilisant le formalisme d'Euler-Lagrange, les équations de mouvement du système
(Figure 5.10) sont décrites par (5.54) (Lewis et al. (2004) et Voglewede et al. (2009))
187
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Initialisation aléatoire des positionset vitesses de Np particule dansle domaine de recherche. k = 0
Appliquer la loi de commande(5.47) avec les gains (5.49)
pour w1 = y(1, i), w2 = y(2, i), w3 =y(3, i), wu = y(4, i), i = 1, · · · , N
Évaluer les fonctions J(y), fv(y) etfm(y) selon (5.50), (5.53) et (5.16)
Calculater Pbesti(k) etGbest(k) par (5.8) et (5.9)
Mise à jour des vitesses etpositions selon (5.6), (5.7)
k < kmax k = k + 1
y∗ = P best,kswarm
non
oui
Figure 5.9 Organigramme PSO pour H∞-PID NL
M11 M12 0 M14
M12 M22 0 M24
0 0 M33 0
M14 M24 0 M44
θ1
θ2
d3
θ4
+
C11 C12 0 0
C21 0 0 0
0 0 0 0
0 0 0 0
θ1
θ2
d3
θ4
+
0
0
−p4g
0
=
τ1
τ2
τ3
τ4
(5.54)
où les éléments de la matrice d'inertie M(q), les forces de Coriolis/centrifuge C(q, q) et
les forces dues à la gravitation g(q) sont donnés par
M11 = p1 + p2 cos θ2, M12 = p3 + 0.5p2 cos θ2,
M14 = −p5, M22 = p3, M24 = −p5, M33 = p4, M44 = p5,
C11 = −p2 sin θ2θ2, C12 = −0.5p2 sin θ2θ2, C21 = 0.5p2θ2θ1
et
p1 = I1 + I2 + I3 + I4 +m1l21 +m2(l22 + a2
1) + (m3 +m4)(a21 + a2
2);
p2 = 2(a1l2m2 + a1a2(m3 +m4));
p3 = I2 + I3 + I4 +m2l22 + (m3 +m4)a2
2;
188
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
Joint 1
z0
a1
x0
θ1
Joint 2
z1
a2
x1
θ2
Joint 3
x2
z2 d3
Joint 4 x3
z3
θ4
Figure 5.10 Robot SCARA à 4 d.d.l.
p4 = m3 +m4, p5 = I4;
I1 = 0.02087m1, I2 = 0.08m2, I3 = 0.05, I4 = 0.02m4
Les paramètres du robot sont assignés dans la Table 5.5.
Les positions généralisées sont notées par θi, pour i = 1, 2, 4 et d3.
Table 5.5 Paramètres du SCARA.
link1 link2 link3 link4
Masses (Kg) 15± 3 12± 2 3 3± 1distances ai (m) 0.5 0.4 distances li (m) 0.25 0.2
g (m/s2) 9.8
Les trajectoires de référence à poursuivre sont tel que :
qri =π
4sin 2t, i = 1, 2, 4, qr3 =
1
5sin 2t, (5.55)
In order to check the performance of the PSO-based controller, some uncertainty has been
included in the robot parameters. Abrupt change of masses, as indicated in Table 5.5, is
added for each link at time simulation 4 seconds. In addition, in order to introduce some
disturbances into the system, persistent torques were applied.
5.3.2 Paramètres du PSO
Les paramètres du PSO w, c1, c2 sont choisis comme suit : le coecient cognitive c1
décroit linéairement de 0.8 à 0.7 le long du processus d'optimisation. Le coecient social
c2 croit linéairement de 0.7 à 0.8. Le coecient d'inertie w décroit linéairement de 0.9 à
0.4 durant l'optimisation. Les bornes limites inférieurs et supérieurs sont respectivement
189
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
y = [0, 0, 0, 0] et y = [1, 1, 2, 1]. L'algorithme PSO a été exécuté 30 fois avec Np = 30 et
kmax = 300.
5.3.3 Résultats et discussions
Pour vérier la convergence de l'algorithme PSO, l'évolution de la meilleure (mini-
male) et moyenne valeur de la fonction objective pour les 30 particules est illustrée sur la
Figure 5.11. Nous constatons que toutes les particules ont atteint la valeur minimale de
la fonction. Sa valeur vaut 3.96055 · 10−4 après 100 itérations. L'évolution des paramètres
de la commande pour la meilleure fonction objective est donnée dans la Figure 5.12. Les
paramètres optimaux sont y∗ = [0.11893; 0.10039; 1.861; 0.27366].
Une fois le vecteur des paramètres est obtenue, la commande obtenue est appliquée au
robot SCARA. Les trajectoires de référence ainsi que celles obtenues avec les meilleure et
moyenne exécution du PSO parmi les 30 expériences sont assignées dans la Figure 5.13.
Les positions initiales du robot sont [0rad, 0rad, 0m, 0rad]. A l'instant t = 5sec les
masses sont brusquement changées de 15kg à 18Kg pour la première liaison, de 12kg à
14Kg pour la seconde liaison et de 3kg à 4Kg pour la quatrième liaison. En plus, des
couples de perturbations de 5N.m, 10N.m, 15N et 20N.m sont ajoutés brusquement à
l'instant t = 8sec.
L'eet des incertitudes paramétriques et des perturbations est plus important dans le cas
où nous prenant la moyenne expérience. Il est réduit de façon considérable dans le cas de
la meilleure expérience.
Les couples sont schématisés par la Figure 5.14. Nous notons le rejet des perturbations
dans le cas de la meilleure expérience. Les mêmes résultats montrent la capacité du contrô-
leur à réduire l'eet des incertitudes.
190
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300
4
4.5
5
5.5
6
6.5·10−4
Génération k
J
MeilleureMoyenne
Figure 5.11 Évolution de la meilleur et moyenne fonction objective
6 Conclusion
Dans ce chapitre, nous avons présenté une méthode de résolution des équations HJI,
dans le cas de la commande H∞ non linéaire, basée sur l'optimisation par les essaims de
particules. Nous avons donné deux algorithmes d'optimisation avec contraintes, l'un basée
sur la méthode du lagrangien augmenté hybridée avec PSO (ALPSO) et l'autre basé sur
la méthode de la fonction ctive. Cette dernière est plus facile à implémenter puisqu'elle
n'utilise qu'un nombre limité de paramètres. Nous avons choisi comme fonctions objectives
à minimiser, deux fonctions. Une fonction du carré du résidu sur l'équation HJI et une
autre qui n'est que le L2 gain du système. L'application a été faite sur deux systèmes
non linéaires et une comparaison avec les AG et la méthode RNA-MMC (chapitre 3) a
été réalisée. Nous avons constaté que dans les deux cas la PSO a donné une meilleure
performance quant à la réponse des systèmes et l'atténuation des perturbations.
191
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
0 100 200 3000.1
0.2
0.3
0.4
0.5
Génération k
w1
0 100 200 3000
0.2
0.4
0.6
0.8
1
Génération k
w2
0 100 200 3000.25
0.26
0.27
0.28
0.29
0.3
Génération k
wu
0 100 200 300
2
4
6
8
Génération k
w3
Figure 5.12 Évolution des paramètres de la commande
192
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
0 1 2 3 4 5 6 7 8 9 10−1
−0.5
0
0.5
1
temps[sec]
θ 1(rad)
RéférenceMeilleureMoyenne
0 1 2 3 4 5 6 7 8 9 10−1
−0.5
0
0.5
1
temps [sec]
θ 2(rad)
RéférenceMeilleureMoyenne
0 1 2 3 4 5 6 7 8 9 10
−0.2
0
0.2
temps [sec]
d 3(m
)
RéférenceMeilleureMoyenne
0 1 2 3 4 5 6 7 8 9 10−1
−0.5
0
0.5
temps [sec]
θ 3(rad)
RéférenceMeilleureMoyenne
Figure 5.13 trajectoires désirées et réelles du robot SCARA
193
Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire
0 1 2 3 4 5 6 7 8 9 10
0
200
400
600
temps [sec]
τ1(N
.m)
MeilleureMoyenne
0 1 2 3 4 5 6 7 8 9 10
0
100
200
temps [sec]
τ2(N
.m)
MeilleureMoyenne
0 1 2 3 4 5 6 7 8 9 10−80
−60
−40
−20
0
temps [sec]
τ3(N
)
MeilleureMoyenne
0 1 2 3 4 5 6 7 8 9 10
0
20
40
temps [sec]
τ4(N
.m)
MeilleureMoyenne
Figure 5.14 Évolution des couples du robot SCARA
194
Conclusion générale
Dans cette thèse, nous nous sommes intéressés à la commande robuste non linéaire de
systèmes dynamiques par l'approche H∞. Plusieurs cas ont été traités, selon la nature du
système à commander (continu, discret) et la disponibilité des mesures au niveau de la
commande (par retour d'état, par retour de sorties).
La commandeH∞ non linéaire conduit toujours à des équations non linéaires à dérivées
partielles dites équations HJI. Ces équations sourent de ne pas avoir un cadre général de
résolution. Elles sont souvent diciles, voir même impossible à résoudre analytiquement,
contrairement au cas linéaire. En eet, la solution du problème H∞ linéaire est réduite
à une solution d'équations algébriques dites de Riccati. Ces dernières s'obtiennent par
imposer une forme quadratique aux solutions d'équations HJI.
La présente thèse est dédiée à la résolution approximative des équations HJI par
l'utilisation, en premier lieu, de deux techniques issues de la méthode des résidus pondérés
(MWR). Il s'agit de la méthode de Galerkin et de la méthode des réseaux de neurones.
La méthode des résidus pondérés, utilisée initialement dans le domaine de la physique,
tend à résoudre les équations intégro-diérentielles en approximant la solution dans un
sous espace ni engendré par un ensemble de fonctions de base. Ensuite, de faire une pro-
jection de la solution sur des fonctions de projections dites de pondérations. La diversité
dans le choix de ces fonctions donnent plusieurs méthodes à base de MWR.
Avant de pouvoir appliquer les résidus pondérés (Galerkin, réseaux de neurones), nous
avons présenté l'algorithme des approximations successives (AS). Cet algorithme, de na-
ture itérative, transforme l'équation HJI non linéaire en une équation linéaire dite HJI
généralisé (GHJI). L'algorithme des AS débute par application d'une commande initiale
(pas forcement robuste) sur le système sans perturbation. Une mise à jour de cette der-
nière se fait jusqu'à l'obtention de sa valeur optimale. Ensuite, une mise à jour de la
commande (avec la perturbation optimale) est faite jusqu'à l'obtention de la commande
H∞ optimale.
L'implémentation de l'algorithme des AS reste un challenge et l'introduction d'une
méthode numérique approximative (Galerkin, réseaux de neurones) est cruciale.
Hybridée avec l'algorithme des approximations successives, la méthode de Galerkin
consiste à annuler une le résidus sur l'équation GHJI. Ce dernier est l'écart entre l'équation
GHJI avec solution approximative et celle avec solution exacte. Dans cette méthode les
195
Conclusion générale
fonctions de pondérations ne sont que les fonctions de base.
Nous avons appliqué la méthode de Galerkin pour résoudre le problème de la com-
mande par retour d'état continue sans et avec contraintes sur les signaux de commande.
Nos contributions résident, en premier lieu, dans l'application de la méthode pour la syn-
thèse de la commande H∞ non linéaire discrète, puis dans la synthèse de la commande
H∞ non linéaire à horizon ni (à temps nal xe). Nous avons présenté aussi l'utilisation
de la méthode pour l synthèse d'une commande par retour de sortie (avec observateur
non linéaire). Les résultats de simulations sur divers systèmes non linéaires choisis dans
la littérature montrent l'ecacité d'une telle méthode de synthèse quand à stabilité du
système en boucle fermée et la robustesse vis à vis des perturbations.
La méthode des réseaux de neurones considère la solution approchée de l'équation
HJI comme étant un réseau à une seule couche cachée. Les fonctions de pondération sont
choisies comme étant la dérivée du résidu par rapport aux poids du réseau de neurones.
Les poids sont donc, ajustés par la méthode des moindres carrés (le carrée du résidu).
La méthode des réseaux de neurones hybridée avec l'algorithme des approximations
successives a été appliquée pour résoudre les problèmes de la commande H∞ par retour
d'état continu et discret. Notre contribution dans ce volet réside dans son application
dans le contexte de la commande par retour de sorties. Les simulations faites sur des
systèmes non linéaires continus et discrets illustrent la capacité de la méthode à atteindre
les objectifs de stabilité et robustesse.
Les méthodes présentées sourent des limitations suivantes :
1. Elles nécessitent une commande initiale pour lancer l'algorithme des approximations
successives. L'obtention de cette loi de commande n'est pas toujours une tache facile.
2. La solution approximative donnée n'est valide que dans un domaine de faisabilité de
la commande initiale. En d'autre termes, plus nous nous éloignons du domaine où
la commande initiale stabilise le système plus nous risquons d'échouer dans notre
synthèse.
3. Les méthodes de synthèse présentées sont qualiées de hors ligne. La commande
H∞ non linéaire n'est pas appliquée qu'après convergence de l'algorithme des AS.
4. Finalement, Les mises à jour des perturbations et de la commande H∞ ne se font
pas de manière simultanée (voir en détails l'algorithme des AS).
L'utilisation d'un apprentissage en ligne semble être un remède parfait à ces limita-
tions. Dans ce contexte, nous avons présenté l'algorithme d'apprentissage en ligne par
renforcement. Il est basé sur le concept d'Acteur-Critique. L'algorithme d'apprentissage
par renforcement est utilisé pour approximée directement la solution de l'équation HJI.
Il est basé sur une architecture composée de deux acteurs (pour la mise à jour simultanée
de la perturbation et de la commande) et un critique pour évaluer la fonction coût (la
196
Conclusion générale
solution de l'équation HJI). La convergence de l'algorithme est fondée mathématiquement
en utilisant la dérivée fonctionnelle au sens de Fréchet et la gâteaux-dérivée. En eet il est
démontré que l'algorithme est similaire à la méthode itérative de Newton. L'ecacité de la
méthode en terme de stabilité asymptotique et robustesse est montrée via des simulations
faites sur plusieurs systèmes dynamiques.
Un autre volet concernant la synthèse de la commande H∞ par retour d'état non li-
néaire est exposé. Nous avons présenté l'optimisation par métaheuristiques comme outil
de résolution des équations HJI. Nous avons appliqué les essaims de particules(PSO) pour
trouver les poids optimaux de la solution approximative. Deux problèmes d'optimisation
avec contraintes, ainsi que deux méthodes de relaxation de ces derniers, ont été étudiés.
Des simulations ainsi que des comparaisons avec d'autres méthodes (AG, RNA) ont mon-
tré la puissance de la PSO à résoudre le problème de la commande H∞ par retour d'état
non linéaire.
Les essaims de particules ont été aussi utilisé pour l'ajustement des gains d'un contrô-
leur H∞-PID non linéaire synthétisé pour une classe restreinte de systèmes, à savoir les
systèmes lagrangiens. Le problème de poursuite de trajectoires d'un robot SCARA traité
par cette technique illustre l'ecacité de la méthode proposée.
197
Bibliographie
Abu-Khalaf, M. (2004). Nearly optimal state feedback contol of constrained nonlinear
systems using a neural network hjb approch. Annual Review in Control, 28 :239251.
Abu-Khalaf, M. (2005a). Nearly optimal control laws for nonlinear systems with satura-
ting aactuator using a neural network hjb approach. Automatica, 41 :779797.
Abu-Khalaf, M. (2005b). Nonlinear H2/H∞ Constrained Feedback Control : A Pratical
Design Approach Using Neural Networks. Phd thesis, University of Texas.
Abu-Khalaf, M., Lewis, F. L., and Huang, J. (2006). Policy iterations on the hamilton-
jacobi-isaacs equation for state feedback control with input saturation. IEEE Trans.
Automat. Contr., 51(12) :19891995.
Bachir-Bouiadjra, R. and Khel, M. F. (2013). H∞ - PID controller optimization using
heuristic kalman algorithm. In In 3rd IEEE International Conference on Systems and
Control ICSC13, Algiers, Algeria.
Bachir-Bouiadjra, R. and Khel, M. F. (2014). Nonlinear H∞ control via measurement
feedback using neural network. In International Symposium on Industrial Electronics
ISTANBUL, 1 - 4 June 2014.
Bachir-Bouiadjra, R. and Khel, M. F. (2015a). Nonlinear H∞ control via measurement
feedback using neural network. Journal of Control Enginneing and Applied Informtaics
(In Reveiw).
Bachir-Bouiadjra, R. and Khel, M. F. (2015b). Particle swarm optimisation and re-
y algorithm for solving H∞ sub-optimal control of nonlinear systems. International
Journal of Automation and Control ( In Review).
Bachir-Bouiadjra, R. and Khel, M. F. (2015c). H∞ nonlinear PID controller tuning
based on simple constrained particle swarm optimization. International Journal of
Industrial and Systems Engineering (In Production).
Ball, J. A. and Helton, J. W. (1989). H∞ optimal control for nonlinear plants : connection
wiih dieiential games. In In Proc. 2&h Conf on Decision and Control. Tamna. FL.
DD., pages 956962.
198
Bibliographie
Ball, J. A., Helton, J. W., and Walker (1993). H∞ control for nonlinear systems via with
output feedback. IEEE Transaction on Automatic Control, 38 :546559.
Barie, W. and Chiasson, J. (1996). Linear and nonlinear state-space controllers for ma-
gnetic levitation. International Journal of Systems Science.
Beard, R. W. and McLain, T. W. (1998). Successive galerkin approximation algorithms for
nonlinear optimal and robust control. International Journal of Control, 71(5) :717743.
Beard, R. W., Sardis, G., and Wen, J. T. (1997). Galerkin approximations of the genera-
lized hamilton-jacobi-bellman equation. Automatica, 33(12) :21592177.
Chen, Z. and Jagannathan, S. (2008). Generalized hamilton jacobi bellman formulation
based neural network control of ane nonlinear discrete time systems. IEEE Trans.
Neural Network, 19(1) :90106.
Christen, U. and Cirillo, R. (1997). Nonlinear H∞ control derivation and implementation.
Technical report, IMRT Report No. 31. Ecole polytechnique fédérale de Zurich.
Clerc, M. and Kennedy, J. (2002). The particle swarm : explosion, stability, and conver-
gence in multi-dimensional complex space. IEEE Transactions on Evolutionary Com-
putation, 6 :5873.
Coulom, M. R. (2002). Apprentissage par renforcement utilisant des réseaux de neurones,
avec des applications au contrôle moteur. PhD thesis, INSTITUT NATIONAL POLY-
TECHNIQUE DE GRENOBLE.
Cruz, R. R., Sanchez, E. N., Tellez, F. O., Loukianov, A. G., and Harley, R. G. (2013).
Particle swarm optimization for discrete-time inverse optimal control of a doubly fed
induction generator. IEEE TRANSACTIONS ON CYBERNETICS, 43(6) :16981709.
Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathe-
matics of Control, Signals, and Systems, 2 :303314.
Digabel, S. L. (2014). Introduction aux métaheuristiques. Technical report, Ecole Poly-
technique de Montreal.
Dorigo, M. and Stutzle, T. (2004). Ant Colony Optimization. MIT Press, Cambridge,
MA.
Doyle, J., Primbs, J. A., Shapiro, B., and Nevisti, V. (1996). Nonlinear games : examples
and counterexamples. In Proceedings of the 35th Conference on Decision and Control
Kobe, Japan.
199
Bibliographie
Doyle, J. C., Glover, K., Khargonekar, P. P., and Francis, B. (1989). State-space solutions
to standard h2 and h∞ control problems. IEEE Transactions on Automatic Control,
34(8) :831847.
Evans, M. and Swartz, T. (2000). Approximating Integrals Via Monte Carlo and Deter-
ministic Methods. Oxford University Press.
Finlayson, B. A. (1972). The Method of Weighted Residuals and Variational Principles
With Application In Fluid Mechanics, Heat and Mass Transfer. Elsevier.
Finlayson, B. A. and Scriven, L. E. (1966). The method of weighted residuals- a review.
Applied Mechanics Reviews, 19(9) :735748.
Francis, B. (1987). A course in h∞ control theory. Lecture notes in control and information
sciences, 88.
Gaing, Z.-L. (2004). A particle swarm optimization approach for optimum design of pid
controller in avr system. IEEE Transactions on Energy Conversion, 19(2) :384391.
GirirajKumar, S. M., Jayaraj, D., and Kishan, A. R. (2010). Pso based tuning of a pid
controller for a high performance drilling machine. International Journal of Computer
Applications, 1(19) :1218.
Glover, F. (1986). Future paths for integer programming and links to articial intelligence.
Computers and Operations Research, 13 :533549.
Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Lear-
ning. Addison-Wesley, Reading, MA.
Hammersley, J. M. and Handscomb, D. C. (1975). Monte Carlo Methods. Oxford Univer-
sity Institute of Economics and Statistics.
Hornik, K., Stinchcombe, M., and White, H. (1990). Universal approximation of an
unknown mapping and its derivatives using multilayer feedforward networks. Neural
Networks, 3(5) :551560.
Isidori, A. and Kang, W. (1995). H∞ control via measurement feedback for general
nonlinear systems. IEEE Trans. Automat. Contr., 40(3) :466472.
Isodori, A. and Astol, A. (1992). Disturbance attenuation and H∞-control via measure-
ment feedback in nonlinear systems. IEEE Trans. Automat. Contr., 37(9) :12831293.
Jagannathan, S. J. (2009). Optimal tracking control of ane nonlinear discrete-time
systems with unknown internal dynamics. In Joint 48th IEEE Conference on Decision
and Control and 28th Chinese Control Conference, pages 67506755, Shanghai.
200
Bibliographie
James, M. R. and Baras, J. S. (1995). Robust H∞ output feedback control for nonlinear
systems. IEEE Trans. Automat. Contr., 40(6) :10071017.
Jiang, Z.-P. and Jiang, Y. (2013a). Robust adaptive dynamic programming for linear and
non linear systems : An overview. European Journal of Control, 19 :417425.
Jiang, Z.-P. and Jiang, Y. (2013b). Robust adaptive dynamic programming for linear
andn onlinear systems : An overview. European Journal of Control, 19 :417425.
Kalman, R. E. and Bucy, R. S. (1960). New results in linear ltering and prediction
theory. ASME Trans. Series D : J. Basic Engineering, 83 :95108.
Khalil, H. K. (1996). Nonlinear Systems. Prentice-Hall, Upper Saddle River.
Kim, T.-H., Maruta, I., and Sugie, T. (2008). Robust pid controller tuning based on the
constrained particle swarm optimization. Automatica, 44(4) :11041110.
Kirkpatrick, S., Gelatt, C. D., and Vecchi, M. P. (1983). Optimization by simulated
annealing. Science, 220(4598) :671680.
Lewis, F. L., Abdallah, C. T., and Dawson, D. M. (1993). Control of robot manipulators.
MACMILLAN Publishing company.
Lewis, F. L., Dawson, D. M., and Abdallah, C. T. (2004). Robot Manipulator Control :
Theory and Practice. Marcel Dekker, Inc., New York.
Lin, W. and Byrnes, C. I. (1995). Discrete-time nonlinear H∞-control feedback. Automa-
tica, 31(3) :419434.
Lin, W. and Byrnes, C. I. (1996). H∞-control of discrete time nonlinear system. IEEE
Trans. Automat. Contr., 41(4) :494510.
Lindgren, L.-E. (2009). From weighted residual methods to nite element methods. Tech-
nical report.
Liu, D., Li, H., and Wang, D. (2013). Neural-network-based zero-sum game for discrete-
time nonlinear systems via iterative adaptive dynamic programming algorithm. Neu-
rocomputing, 110 :92100.
Lopez-Martinez, M., Ortega, M. G., Vivas, C., and Rubio, F. R. (2007). Nonlinear L2
control of a laboratory helicopter with variable speed rotors. Automatica, 43(4) :655
661.
Lyshevski, S. E. (2001). Control Systems Theory with Engineering Applications. Springer
Science+Business Media New York.
201
Bibliographie
Maruta, I., Kim, T., and Sugie, T. (2009). Fixed-structure H∞ controller synthesis : a
meta-heuristic approach using simple constrained particle swarm optimization. Auto-
matica, 45(4) :553559.
Mehdi, N., Nezamabadi-Pour, H., and Malihe, M. (2007). A pso-based optimum design
of pid controller for a linear brushless dc motor. International Journal of Electrical,
Electronic Science and Engineering, World Academy of Science, Engineering and Tech-
nology, 1(2) :97101.
Mehraeen, S., Dierks, T., Jagannathan, S., and Crow, M. L. (2009). Zero-sum two-player
game theoretic formulation of ane nonlinear discrete-time systems using neural net-
works. IEEE Trans. Cyber.
Ortega, M. G., Vargas, M., Vivas, C., and Rubio, F. R. (2005). Robustness improvement
of a nonlinear H∞ controller for robot manipulators via saturation functions. Journal
of Robotic Systems, 22(8) :421437.
Peyre, R. (2012). Méthodes probabilistes pour la simulation. Technical report, École des
Mines de Nancy.
Prasad, L. B., Gupta, H. O., and Tyagi, B. (2014). Application of policy iteration tech-
nique based adaptive optimal control design for automatic voltage regulator of power
system. Electrical Power and Energy Systems, 63 :940949.
Rao, G. V., Ortega, M. G., Vargas, M., and Rubio, F. R. (2008). Backstepping nonlinear
H∞ control for path tracking of a quadrotor unmmaned areal vehicle. In American
Control Conference, pages 33563361.
Rao, S. S. (2009). Engineering Optimization Theory and Practice. JOHN WILEY and
SONS.
Ratnaweera, A., Halgamuge, S. K., and Watson, H. C. (2004). Self-organizing hierarchical
particle swarm opitmizer with time-varying acceleration coecients. IEEE Transactions
on Evolutionary Computation, 8(3) :240255.
Rodriguez, H., Siguerdidjane, H., and Ortega, R. (2000). Experimental comparison of
linear and nonlinear controllers for a magnetic suspension. In Proceedings of the 2000
IEEE International Conference on Control Applications, Anchorage, Alaska, USA.
Saridis, G. N. and Lee, C. S. G. (1979). An approximation theory of optimal control
for trainable manipulators. IEEE Transaction on Systems, Man, and Cybernetics,
9(3) :152159.
202
Bibliographie
Sedlaczek, K. and Eberhard, P. (2006). Using augmented lagrangian particle swarm
optimization for constrained problems in engineering. Structural and Multidisciplinary
Optimization, 32(4) :277286.
Shi, Y. and Eberhart, R. C. (1998). A modied particle swarm optimizer. In Proceedings of
the IEEE International Conference on Evolutionary Computation, Anchorage, Alaska,
USA, pages 6973.
Slotine, J. J. and Weiping, L. (1991). Applied Nonlinear Control. Prentice Hall,.
Tavakoli, M., Taghirad, H. D., and Abrishamchian, M. (2003). Parametric and nonpara-
metric identication and robust control of a rotational/translational actuator. In The
Fourth International Conference on Control and Automation (ICCA03), pages 765769.
Van der Shaft, A. J. (1992). l2 gain analysis of nonlinear systems and nonlinear state
feedback H∞ control. IEEE Transaction on Automatic Control, 37(6) :770782.
Van der Shaft, A. J. (2000). L2-Gain and Passivity Techniques in Nonlinear Control.
Springer-Verlag London Limited.
Voglewede, P., Anton, H., Smith, C., and Monti, A. (2009). Dynamic performance of a
scara robot manipulator with uncertainty using polynomial chaos theory. IEEE Tran-
sactions on Robotics, 25(1) :206210.
Vrabie, D., Pastravanu, O., Abu-Khalaf, M., and Lewis, F. L. (2009). Adaptive opti-
mal control for continuous-time linear systems based on policy iteration. Automatica,
45 :4747484.
Wang, D., Liu, D., Li, H., and Ma, H. (2014). Neural-network-based robust optimal control
design for a class of uncertain nonlinear systems via adaptive dynamic programming.
Information Sciences, 282 :167179.
Wu., H. N. and Luo, B. (2012). Neural network based online simultaneous policy update
algorithm for solving the hji equation in nonlinear H∞ control. IEEE Trans. Neural
Networks, 23(12) :18841895.
Wu, H. N. and Luo, B. (2013). Simultaneous policy update algorithms for learning the
solution of linear continuous-time H∞ state feedback control. Information Sciences,
222 :472485.
Xingjuan, C., Zhihua, C., Jianchao, Z., and Ying, T. (2009). Individual Parameter Selec-
tion Strategy for Particle Swarm Optimization, chapter 5, pages 89112. In-Tech.
203
Bibliographie
Zames, G. (1981). Feedback and optimal sensitivity : Model reference transforma-
tions, multiplicative seminorms, and approximations. IEEE Transactions on Automatic
Control, 26(4).
Zhang, H., Luo, Y., and Liu, D. (2009). Neural-network-based near-optimal control for
a class of discrete-time ane nonlinear systems with control constraints. IEEE Trans.
Neural Networks, 90(9) :14901503.
Zhang, H., Weib, Q., and Liu, D. (2011). An iterative adaptive dynamic programming
method for solving a class of nonlinear zero-sum dierential games. Automatica, 47 :207
2014.
Zhoo, K. (1999). Essentials of Robust Control. Prentice Hall.
Zhou, K., Doyle, J., and Glover, K. (1995). Robust and optimal control . Prentice Hall,
Upper Saddle River, New Jersey.
204
Annexe A
Démonstration des théorèmes
1 Equation (1.28)
En dévellopant en série de Taylor l'équation (1.27) autour de (x, p, ω, y) = (0, 0, 0, 0) ≡0 et en prenant seulement le premier terme on obtient
∂K(·)∂ω
= xT(∂
∂x
∂
∂ωK(·)
)∣∣∣∣0
+ pT(∂
∂p
∂
∂ωK(·)
)∣∣∣∣0
+ ωT(∂2
∂ω2K(·)
)∣∣∣∣0
+ yT(∂
∂y
∂
∂ωK(·)
)∣∣∣∣0
= 0 (A.1)
donc
ωT (x, p, y) = −(xT(∂
∂x
∂
∂ωK(·)
)∣∣∣∣0
+ pT(∂
∂p
∂
∂ωK(·)
)∣∣∣∣0
+
yT(∂
∂y
∂
∂ωK(·)
)∣∣∣∣0
)(∂2
∂ω2K(·)
)−1∣∣∣∣0
(A.2)
Finalement, d'après (1.26) et les dénitions de C1 et B1 on obtient
ω(x, p, y) = −(2(DT11D11 − γ2Ir))
−1(2DT11C1x+BT
1 p−DT21y) (A.3)
2 Equation (1.31)
De la même manière, le dévellopant en série de Taylor l'équation (1.30) autour de
(x, p, y) = (0, 0, 0) ≡ 0 en prenant seulement le premier terme, donne
∂K(x, p, ω(x, p, y))
∂y= xT
(∂
∂x
∂
∂yK(·)
)∣∣∣∣0
+ pT(∂
∂p
∂
∂yK(·)
)∣∣∣∣0
+ yT(∂2
∂y2K(·)
)∣∣∣∣0
= 0 (A.4)
205
Annexe A. Démonstration des théorèmes
Si on pose C2 = ∂Y∂x|0 et après quelques calculs, on trouve
∂
∂x
∂
∂yK(x, p, ω(x, p, y))|0 = −CT
2 + CT1 D11(DT
11D11 − γ2Ir)−1DT21
∂
∂p
∂
∂yK(x, p, ω(x, p, y))|0 =
1
2B1(DT
11D11 − γ2Ir)−1DT21 (A.5)
En utilisant (1.29) l'équation (1.31) s'obtient facilement.
3 Démonstration du théorème 3.2
Soit Q(x) = W (x)− V (x) et dénissant
S(x, ω) = Qx(F (x, ω, 0)−G(x)Y (x, ω)) +H(x, V Tx (x), ω, 0)−H∗(x, V T
x (x))
alors il est facile de vérier
S(x, ω) = WxF (x, ω, 0)− yT∗ (x,W Tx )Y (x, ω)
− VxF (x, ω, 0) +H(x, V Tx (x), ω, 0)−H∗(x, V T
x (x))
= WxF (x, ω, 0)− yT∗ (x,W Tx )Y (x, ω)
+ ‖Z(x, ω, 0)‖2 − γ2‖ω‖2 −H∗(x, V Tx (x))
= K(x,W Tx , ω, y∗(x,W
Tx ))−H∗(x, V T
x (x))
≤ K(x,W Tx , ω∗∗(x,W
Tx ), y∗(x,W
Tx ))−H∗(x, V T
x (x))
= xTMx
où M est une matrice dénie négative au voisinage de x = 0.
Soit encore la dénition de la variable d'état augmentée xe = [x ξ]T et la nouvelle
fonction lisse U(x) = Q(x−ξ)+V (x). Avec cette fonction on peut prouver que le système
en boucle fermée
xe = F e(x, ω) =
[F (x, ω, u∗(ξ, V
Tξ (ξ)))
F (ξ, ω∗(ξ, VTξ (ξ)), u∗(ξ, V
Tξ (ξ))) +G(ξ)(Y (x, ω)− Y (ξ, ω∗(ξ, V
Tξ (ξ))))
]z = Ze(xe, ω) = Z(x, ω, u∗(ξ, V
Tξ (ξ))) (A.6)
possède les deux propriètés suivantes
a) il satisfait à la condition de dissipativité
Uxe(xe)F e(x, ω) + ‖Ze(xe, ω)‖2 − γ2‖ω‖2 < 0 (A.7)
b) il possède un point d'équilibre localement asymptotiquement stable à xe = 0.
206
Annexe A. Démonstration des théorèmes
Pour démontrer la propriété a) il sut de considérer ce qui suit. On a
Uxe(xe)F e(x, ω) + ‖Ze(xe, ω)‖2 − γ2‖ω‖2
= Qx(x− ξ)[F (x, ω, u∗(ξ, VTξ (ξ)))− F (ξ, ω∗(ξ, V
Tξ (ξ)), u∗(ξ, V
Tξ (ξ)))
−G(ξ)(Y (x, ω)− Y (ξ, ω∗(ξ, VTξ (ξ))))] + Vx(x)F (x, ω, u∗(ξ, V
Tξ (ξ)))
+ ‖Z(x, ω, u∗(ξ, VTξ (ξ)))‖2 − γ2‖ω‖2
= Qx(x− ξ)[F (x, ω, u∗(ξ, VTξ (ξ)))− F (ξ, ω∗(ξ, V
Tξ (ξ)), u∗(ξ, V
Tξ (ξ)))
−G(ξ)(Y (x, ω)− Y (ξ, ω∗(ξ, VTξ (ξ))))] +H(x, V T
x (x), ω, u∗(ξ, VTξ (ξ)))
≤ Qx(x− ξ)[F (x, ω, u∗(ξ, VTξ (ξ)))− F (ξ, ω∗(ξ, V
Tξ (ξ)), u∗(ξ, V
Tξ (ξ)))
−G(ξ)(Y (x, ω)− Y (ξ, ω∗(ξ, VTξ (ξ))))] +H(x, V T
x (x), ω, u∗(ξ, VTξ (ξ)))
−H∗(x, V Tx (x)) (A.8)
Soit L(x, ξ, ω) toute l'expression à droite de l'inégalité (A.8), et soit ω(x, ξ) la solution au
voisinage de (x, ξ) = (0, 0) de
∂L(x, ξ, ω)
∂ω
∣∣∣∣ω=ω(x,ξ)
= 0, ω(0, 0) = 0 (A.9)
puisque Lωω(x, ξ, ω) = 2(DT11D11 − γ2Ir) < 0, alors on a au voisinage de (0, 0, 0)
L(x, ξ, ω) ≤ L(x, ξ, ω(x, ξ)) (A.10)
Donc
Uxe(xe)F e(x, ω) + ‖Ze(xe, ω)‖2 − γ2‖ω‖2 ≤ L(x, ξ, ω(x, ξ)) (A.11)
En plus, nous pouvons vérier l'existence d'une matrice R(x, ξ) tel que
L(x, ξ, ω(x, ξ)) = (x− ξ)TR(x, ξ)(x− ξ) (A.12)
avec R(0, 0) = M(0). Donc, au voisinage de (0, 0) la matrice R(x, ξ) est une matrice
dénie négative, par conséquence la propriété a) est démontrée.
Pour démontrér la propriété b) il sut de prendre ω = 0 dans (A.7) pour avoir
dU(xe(t))
dt≤ −‖Ze(x, 0)‖2 ≤ 0
cela dit le point d'équilibre est stable. Pour démontrer sa stabilité asymptotique on consi-
dère la trajectoire xe(t) tel que
Ze(xe, 0) = Z(x, 0, u∗(ξ, VTξ (ξ))) = 0 ∀t ≥ 0 (A.13)
207
Annexe A. Démonstration des théorèmes
D'après l'hypothèse H5, on a
limt→∞
x(t) = 0
et d'après H3, la solution, u = u(x), de Z(x, 0, u(x)) = 0 est unique. Donc (A.13) implique
que
limt→∞
u∗(ξ(t), VTξ (ξ(t))) = 0
Maintenant il sut de voir que
x = F (x, ω∗(x, VTx (x)), 0)−G(x)Y (x, ω∗(x, V
Tx (x))) (A.14)
est asymptotiquement stable. Pour cela, il sut de voir que
0 > S(x, ω∗(x, VTx (x))) ≥ Qx(x)(F (x, ω∗(x, V
Tx (x)), 0)−G(x)Y (x, ω∗(x, V
Tx (x))))
implique que Q(x) est une fonction de Lypunov pour le système (A.14).
208