Post on 13-Apr-2016
description
TABLE DES MATIÈRES 3
Table des matières
1 Introduction et rappels 51.1 Représentation graphique . . . . . . . . . . . . . . . . . . . . . 5
1.2 Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Applications quadratiques . . . . . . . . . . . . . . . . . . . . 9
2 Optimisation sans contrainte 112.1 Extrema libres . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Dérivée directionnelle, profil . . . . . . . . . . . . . . . . . . . 12
2.3 Condition nécessaire d’optimalité . . . . . . . . . . . . . . . . 14
2.4 Condition suffisante d’optimalité . . . . . . . . . . . . . . . . . 14
2.5 Algorithmes de gradient . . . . . . . . . . . . . . . . . . . . . 16
2.5.1 Gradient à pas fixe . . . . . . . . . . . . . . . . . . . . 17
2.5.2 Gradient à pas optimal . . . . . . . . . . . . . . . . . . 18
3 Contraintes égalité, multiplicateurs de Lagrange 213.1 Définitions et notations . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Deux variables et une seule contrainte égalité . . . . . . . . . . 23
3.4 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5 En résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4 Contrainte inégalité 314.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Conditions nécessaires (KKT) . . . . . . . . . . . . . . . . . . 33
4.3 Conditions suffisantes (KKT) . . . . . . . . . . . . . . . . . . . 33
cc le mercredi 5/03
Correction lundi 10/03
Exam mercredi 12/03
Pierre Puiseux
4 TABLE DES MATIÈRES
Avertissement
ce ne sont que des notes de cours, en perpétuelle évolution, dans lesquelles subsistent certainement denombreuses erreurs et approximations !
Notations
R : R ∪ {−∞,+∞}
C : C ∪ {−∞,+∞}
K : R ou C et K : R ou C.
χA : fonction caractéristique de l’ensemble A.
L (E,F ) : applications linéaires de E dans F (E et F espaces vectoriels).
Lc (E,F ) : applications linéaires continues de E dans F (E et F espaces vectoriels normés).
|||Φ||| : norme de l’application linéaire Φ.
(f |g) produit scalaire.
C (A,B) = C0 (A,B) fonctions continues de A dans B.
Cp : fonctions de classe Cp
(u|v) : produit scalaire.
x, y, z, . . . des nombres réels
x, y, z, . . . des vecteurs de Rn
∇f (x) ou f ′ (x) : le gradient de f au point x.
∇2f (x) ou f ′′ (x) ou Hf (x) : la matrice hessienne de f au point x.
5
Chapitre 1
Introduction et rappels
L’optimisation est l’étude des fonctions f : Rn → R, pour lesquelles on cherche un point a =(a1, a2, . . . an) ∈ C ⊂ Rn en lequel f atteint un maximum ou un minimum.
Le point a est recherché dans un ensemble C qui prend en compte certaines contraintes du problème.
Un problème d’optimisation (minimisation) s’écrira :
(P)
{Minf (x)x ∈ C
On se restreint le plus souvent ici à des fonctions de deux ou trois variables (n = 2).
La fonction à optimiser est appelée fonction coût ou fonction objectif.
1.1 Représentation graphique
On considèrera une fonction f d’un ouvert D à valeurs dans R, où D est de la forme D = ]α1, β1[×]α2, β2[ si n = 2 et plus généralement D = ]α1, β1[× ]α2, β2[× · · · × ]αn, βn[ dans Rn .
On sait représenter graphiquement une fonction f : R2 → R et traçant dans R3 l’ensemble des pointsde coordonnées (x, y, z) avec z = f (x, y).
On peut également tracer les courbes de niveau ou isovaleurs (comme sur une carte IGN).
Pour n > 2 c’est plus délicat, on n’a pas de mode de visualisation directe de f comme dans R2. Lesisovaleurs sont des surfaces dans Rn−1 , difficiles à représenter graphiquement.
Pierre Puiseux
6 Chapitre 1. Introduction et rappels
-1.5 -1 -0.5 0 0.5 1 1.5
-1
-0.5
0.5
1
Fig. 1.1.1 : Fonction (x, y) 7→ sin (xy), isovaleurs et représentation standard
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
-2
-1,5
-1
-0,5
0,5
1
1,5
2
Fig. 1.1.2 : Fonction (x, y) 7→ 3 (x− 1)2 e(−x2−(y−1)2)− 10(x5− x3 − y5
)e−x2−y2 − 1
3e(−(x+1)2−y2),
isovaleurs et représentation standard
1.2 Formules de Taylor
Rappellons la formule de Taylor à l’ordre 2 pour les fonctions de 1, 2 ou n variables :
Théorème. (Formule de Taylor à l’ordre 2)
1. Dimension n = 1 : si f est 2 fois continuement dérivable en a ∈ D alors pour h suffisamentproche de 0 1 :
f (a+ h) = f (a) + f ′ (a)h+ f ′′ (a)h2 + h2ε (h)
avec limh→0
ε (h) = 0
1h suffisament proche de 0 pour que a+ h appartienne à D, afin que f (a+ h) ait un sens.
1.3 Convexité 7
2. Dimension n = 2 : si f est 2 fois continuement dérivable en (a, b) ∈ D alors pour (h, k)suffisament proche de (0, 0) :
f (a+ h, b+ k) = f (a, b)+∂f
∂x(a, b)h+
∂f
∂y(a, b) k+
∂2f
∂x2h2+2
∂2f
∂x∂y(a, b)hk+
∂2f
∂y2k2(h2 + k2
)ε (h, k)
avec lim(h,k)→(0,0)
ε (h, k) = 0
3. Dimension n : si f est 2 fois continuement dérivable en a ∈ D alors pour h ∈ Rn suffisamentproche de 0Rn :
f (a+ h) = f (a) +∇f (a) .h+∇2f (a) (h, h) + ∥h∥22 ε (h)
avec limh→0Rn
ε (h) = 0
Remarque. Dans cette écriture, ∇f (a) ∈ Rn est le vecteur gradient de f en a, ∇2f (a) ∈ Rn,n est lamatrice hessienne de f en a et∇2f (a) (h, h) désigne le produit matriciel h×∇2f (a)× ht.
(h1 h2 . . . hn
)×
∂2f∂x2
1(a) ∂2f
∂x1∂x2(a) . . . ∂2f
∂x1∂xn(a)
∂2f∂x1∂x2
(a) . . . . . . ...... . . . . . . ∂2f
∂xn−1∂xn(a)
∂2f∂x1∂xn
(a) . . . ∂2f∂xn−1∂xn
(a) ∂2f∂x2
n(a)
×
h1
h2...hn
1.3 Convexité
Un résumé très rapide des propriétés de positivité des matrices.
Proposition 1.1. Soit n un entier et A ∈ Rn,n une matrice carrée.
– On appelle valeurs propres de A les racines du polynôme de degré n
pA (λ) = det (A− λIn)
– Si la matriceA est symétrique, alors elle admet n valeurs propres réelles λi, i ∈ J1, nK, certainesde ces valeurs pouvant être multiples, c’est à dire des racines multiples de pA.
– Si ∀i ∈ J1, nK, λi ≥ 0 alors la matrice est positive, et on a
∀x ∈ Rn, xt.A.x ≥ 0
– Si ∀i ∈ J1, nK, λi > 0 alors la matrice est définie positive, et on a
∀x ∈ Rn, x ̸= 0 ⇒ xt.A.x > 0
Dans ce cas, A est également inversible.
8 Chapitre 1. Introduction et rappels
Définition 1.1. Une partie de C ⊂ Rn est dite convexe si et seulement si
∀a, b ∈ C ,∀ω ∈ [0, 1] , (1− ω) a+ ωb ∈ C
En d’autre termes, tout segment qui relie deux points de C est entièrement dans C .
Exemple.
– Un ballon de rugby, de foot, sont convexes, un freezebee n’est pas convexe, un gruyère nonplus.
– le carré C = [0, 1]2 est strictement convexe : si a,b ∈ C et ω ∈ [0, 1] alors (1− ω) a + ωb =((1− ω) xa + ωxb(1− ω) ya + ωyb
). Or {
0 ≤ xa ≤ 1 et0 ≤ xb ≤ 1
comme ω et 1− ω sont positifs, on en déduit :{0 ≤ (1− ω)xa ≤ 1− ω et0 ≤ ωxb ≤ ω
et en additionnant :0 ≤ (1− ω)xa + ωxb ≤ 1
de manière analogue la deuxième coordonnée de (1− ω) a+ ωb vérifie :
0 ≤ (1− ω) ya + ωyb ≤ 1
et finalement on a bien(1− ω) a+ ωb ∈ C
Définition 1.2. Soit D un ouvert de Rn et f : D → R. On dit que f est
1. convexe si
∀x, y ∈ D, ∀ω ∈ [0, 1] , f ((1− ω) x+ ωy) ≤ (1− ω) f (x) + ωf (y)
2. strictement convexe si l’inégalité précédente est stricte :
∀x, y ∈ D, x ̸= y, ∀ω ∈ [0, 1] , f ((1− ω) x+ ωy) < (1− ω) f (x) + ωf (y)
3. f est (strictement) concave si −f est (strictement) convexe.
Autrement dit f est convexe signifie que la représentation graphique de f est en dessous du segmentqui joint le point (x, f (x)) au point (y, f (y)).
1.4 Applications quadratiques 9
Fig. 1.3.1 : Fonction strictement convexe, convexe, non convexe
Proposition 1.2. Soit D un ouvert convexe de Rn et f : D → R une application deux fois continue-ment dérivable. Alors
– f est convexe
◃ si et seulement si ∇2f (x) est une matrice positive pour tout x ∈ D,◃ si et seulement si les valeurs propres de ∇2f (x) sont toutes positives pour tout x ∈ D.
– f est strictement convexe
◃ si et seulement si ∇2f (x) est une matrice définie positive pour tout x ∈ D◃ si et seulement si les valeurs propres de∇2f (x) sont strictement positives pour tout x ∈ D.
Exemple. La fonction f (x, y) = x2 + y2 − xy + 2x+ 2y est convexe :∇f (x, y) =
(2x− y + 22y − x+ 2
),
∇2f (x, y) =
(2 −1−1 2
)qui a pour valeurs propres λ1 = 1, λ2 = 3 elle est donc strictement convexe
sur R.
1.4 Applications quadratiques
Définition 1.3. Soit n un entier. On appelle application quadratique de Rn dans R toute application fde la forme
f (x) =1
2⟨Ax, x⟩+ ⟨b, x⟩+ c
où A ∈ Rn,n est une matrice, b ∈ Rn est un vecteur et ⟨., .⟩ désigne le produit scalaire de Rn :∀x = (x1, . . . , xn)
t ,∀y = (y1, . . . , yn)t
⟨x, y⟩ =∑
i∈J1,nKxiyi
Proposition 1.3. Si f est une application quadratique
f (x) =1
2⟨Ax, x⟩+ ⟨b, x⟩+ c
alors∇f (x) = Ax+ b
et∇2f (x) = A
10 Chapitre 1. Introduction et rappels
Exemple 1.1. (x, y) 7→ x2 + y2 + xy− 2x+3 est une application quadratique dont les éléments sontdonnés par :
∇f (x) =(2x+ y − 22y + x
)∇2f (x) =
(2 11 2
)Donc f (x) = 1
2⟨Ax, x⟩+ ⟨b, x⟩+ c avec A =
(2 11 2
),b =
(−20
)et c = 3.
11
Chapitre 2
Optimisation sans contrainte
2.1 Extrema libres
Définition. Soit (a, b) un point de D. On dit que
1. f admet un maximum local en (a, b) s’il existe un ε > 0 tel que f (a, b) ≥ f (x, y) pour tout(x, y) tel que |x− a| < ε et |y − b| < ε ;
2. f admet un minimum local en (a, b) s’il existe un ε > 0 tel que f (a, b) ≤ f (x, y) pour tout(x, y) tel que |x− a| < ε et |y − b| < ε ;
3. f admet un maximum global en (a, b) si f (a, b) ≥ f (x, y) pour tout (x, y) ∈ D ;
4. f admet un minimum global en (a, b) si f (a, b) ≤ f (x, y) pour tout (x, y) ∈ D.
– Dessin en 2d, en 3d
– extremum = max ou min
Remarque. On notera que trouver un minimum pour la fonction f équivaut à trouver un maximumpour la fonction -f
rappel extremum 1dThéorème 2.1. Soit I un intervalle ouvert de R, non vide, et f : I → R une fonction deux foiscontinuement dérivable en a ∈ I , telle que f ′ (a) = 0. Alors :
– si f ′′ (a) < 0, f admet un maximum local en a
– si f ′′ (a) > 0 alors f admet un minimum local en a
– si f ′′ (a) = 0 on ne peut pas conclure.
Pour le 3-ème cas, penser aux deux fonctions x 7→ x2 et x 7→ x3 en a = 0, dont l’une est minimum,l’autre ne l’est pas.Ce comportement de f au voisinage de a se lit directement dans son développement limité à l’ordre2, (h positif ou négatif ) :
f (a+ h)− f (a) = h2 (f ′′ (a) + ε (h))
avec limh→0 ε (h) = 0. Donc si f ′′ (a) > 0, alors f (a+ h) > f (a), autrement dit f est minimum ena.
Pierre Puiseux
12 Chapitre 2. Optimisation sans contrainte
2.2 Dérivée directionnelle, profil
Définition. On suppose f continuement dérivable sur D. Soit A = (a, b) ∈ D et une directiond = (u, v) donnée.
– On appelle dérivée directionnelle de f en (a, b) dans la direction (u, v) la quantité
∂f
∂x(a, b)u+
∂f
∂y(a, b) v
– on appelle coupe ou profil de f le long de la droite A, d la fonction
γ (t) = f (A+ td)
= f (a+ tu, b+ tv)
Le profil est la représentation en dimension 1 de la fonction f dans le plan vertical défini par le pointA (voir figure 2.2.1) et la direction d et la dérivée directionnelle de f enA dans la direction d est g′ (0).
Exemple. Pour la fonction f : (x, y) 7→ 3 (x− 1)2 e(−x2−(y−1)2) − 10(x5− x3 − y5
)e−x2−y2 −
13e(−(x+1)2−y2), au point (a, b) = (0, 0) et dans la direction d = (0, 1), on obtient la coupe suivantl’axe Oy :
γ (t) = f (0, t)
= 3e−(t−1)2 + 10t5e−t2 − 1
3e−1−t2
-2,8 -2,4 -2 -1,6 -1,2 -0,8 -0,4 0 0,4 0,8 1,2 1,6 2 2,4 2,8
-7,5
-5
-2,5
2,5
5
7,5
10
x = 0
x = 0.5
x = 1
Fig. 2.2.2 : La fonctionf : (x, y) 7→ 3 (x− 1)2 e(−x2−(y−1)2) − 10
(x5− x3 − y5
)e−x2−y2 − 1
3e(−(x+1)2−y2)
Les coupes dans la direction Oy = (0, 1), passant par (0, 0) ,(12, 0), (1, 0)
c’est à dire γ (t) = f(12, t), γ (t) = f
(12, t)et γ (t) = f (1, t)
Proposition 2.1. Le gradient de f en (a, b) est la direction de plus grande pente de f au point (a, b).
2.2 Dérivée directionnelle, profil 13
1000 m
1100 m
1200 m
1300 m
1400 m
1500 m1600 m
1700 m
1800 m
t0 1
(u,v)
2
g(t)
(a,b)
Fig. 2.2.1 : profil γ (t) et isovaleurs
Démonstration. pour une direction d = (u, v) donnée, de norme ∥d∥2 = 1, la dérivée en γ′ (0) de lafonction γ : t 7→ f (a+ tu, b+ tv)mesure la pente de la fonction f en (a, b) et dans la direction d. Or
γ′ (0) =∂f
∂x(a, b)u+
∂f
∂y(a, b) v
est la dérivée directionnelle dans la direction d. C’est le produit scalaire de ∇f (a, b) par d, c’est àdire, en désignant par α l’angle entre ces deux vecteurs ::
γ′ (0) = ∥∇f (a, b)∥2 ∥d∥2 cos (α)
Donc γ′ (0) est maximal lorsque cos (α) = 1 c’est à dire pour α = 0 c’est à dire encore pour d dansla direction du gradient.
14 Chapitre 2. Optimisation sans contrainte
2.3 Condition nécessaire d’optimalité
Théorème. (condition nécessaire, ordre 1) si f est continuement dérivable sur D, si (a, b) ∈ D estun extremum, alors le gradient de f en (a, b) est nul :
∂f
∂x(a, b) =
∂f
∂y(a, b) = 0
La nullité du gradient en (a, b) est une condition nécessaire, mais insuffisante, pour que f admette unextremum en (a, b). Les points ou le gradient s’annule sont appelés points critiques.
Exemple. f (x, y) = xy a pour point critique (0, 0) et f (0, 0) = 0 n’est ni un minimum ni un maxi-mum car f prend des valeurs positives et négatives sur tout voisinage de (0, 0) puisque f (x, x) > 0et f (x,−x) < 0.
2.4 Condition suffisante d’optimalité
Cherchons maintenant une condition suffisante d’optimalité.
Une condition suffisante pour que la fonction f soit maximum au point (a, b) est que la coupe γsoit maximum en 0 pour toutes les directions (u, v). Ce qui revient à dire que γ′ (0) = 0 et γ′′ (0) < 0pour toutes les directions (u, v), ou encore :
– ∂f∂x
(a, b)u+ ∂f∂y
(a, b) v est nul pour toute direction (u, v) et
– γ′′ (0) = ∂2f∂x2 (a, b)u
2 + 2uv ∂2f∂x∂y
(a, b) + ∂2f∂y2
(a, b) v2 est négatif pour toute direction (u, v)
La première condition est la nullité du gradient de f en (a, b).
Définition. On appelle hessienne de f en (a, b) la matrice
(∂2f∂x2 (a, b)
∂2f∂x∂y
(a, b)∂2f∂x∂y
(a, b) ∂2f∂y2
(a, b)
), parfois notée
D2f (a, b) ou Hf (a, b) ou même simplement f ′′ (a, b).
Les valeurs propres d’une matrice A sont les racines du polynôme P (λ) = det (A− λI).
On appelle vecteur propre associé à la valeur propre λ tout vecteur U non nul vérifiant AU = λU .
On remarque que γ′′ (0) =(u v
)D2f (a, b)
(uv
), la théorie des formes bilinéaires s’applique : pour
que γ′′ (0) > 0 dans toutes les directions (u, v), il suffit que la hessienne soit une matrice définiepositive, c’est à dire que ses valeurs propres soient strictement positives.
On peut retenir le théorème :
2.4 Condition suffisante d’optimalité 15
Théorème 2.2. Soit D un domaine ouvert de R2, f une fonction deux fois continûment différentiablesur D et (a, b) un point de D. Notons ∇ le gradient et H la matrice hessienne de f au point (a, b).
1. Si∇ = 0 et siH a toutes ses valeurs propres strictement négatives, alors (a, b) est un maximumlocal pour f .
2. Si ∇ = 0 et si H a toutes ses valeurs propres strictement positives, alors (a, b) est un minimumlocal pour f .
3. Si ∇ = 0 et si H a certaines de ses valeurs propres strictement positives, toutes les autresstrictement négatives, alors (a, b) est un point selle pour f .
4. Si ∇ = 0 et si certaines valeurs propres de H sont nulles, alors on ne peut pas conclure.
x
y
z
(a,b)
Dx
y
z
(a,b)
D
x
y
z
(a,b)
D
Fig. 2.4.1 : Maximum, minimum et point col en dimension 2
Exemple. (dimension 2) f (x, y) = xy2+2x2+y2. Au point (x, y), le gradient et la matrice hessiennesont :
∇f (x, y) =
(y2 + 4x2xy + 2y
);H =
(4 2y2y 2 (x+ 1)
)
16 Chapitre 2. Optimisation sans contrainte
– CN : les points critiques sont (−1, 2) , (−1,−2) et (0, 0).
– CS :
◃ (a, b) = (−1, 2) H =
(4 44 0
)la hessienne a pour valeurs propres λ = 2 + 2
√5 > 0,
µ = 2− 2√5 < 0 c’est un point selle.
◃ (a, b) = (−1,−2)H =
(4 −4−4 0
)la hessienne a pour valeurs propres λ = 2+2
√5 > 0,
µ = 2− 2√5 < 0 c’est un point selle.
◃ (a, b) = (0, 0)H =
(4 00 2
)la hessienne a pour valeurs propres λ = 4, µ = 2 toutes deux
positives, c’est un minimum.
Lorsque la fonction f est à deux variables (x, y), cette analyse par valeurs propres se simplifie, et iln’est pas nécessaire de calculer les valeurs propres :
γ′′ (0) = ∂2f∂x2 (a, b)u
2+2uv ∂2f∂x∂y
(a, b)+ ∂2f∂y2
(a, b) v2 est un polynôme du second degré en u, la condi-tion γ′′ (0) < 0 (suffisante pour avoir un maximum) est de la forme αu2 + 2βu + γ < 0 pour tout
(u, v). Le discriminant réduit de ce polynôme est ∆′ = v2((
∂2f∂x∂y
(a, b))2
− ∂2f∂x2 (a, b)
∂2f∂y2
(a, b)
)=
−v2 detH (x, y). On en déduit :
Théorème 2.3. (spécifique à la dimension 2)
– si detH (a, b) > 0 alors γ′′ (0) est de signe constant : le signe de ∂2f∂x2 (a, b) ;
◃ si ∂2f∂x2 (a, b) < 0 , alors f admet un maximum en (a, b) ;
◃ si ∂2f∂x2 (a, b) > 0 , alors f admet un minimum en (a, b) ;
– si detH (a, b) < 0 alors γ′′ (0) change de signe (a, b) est un point selle ;
– si detH (a, b) = 0 on ne peut pas conclure.
2.5 Algorithmes de gradient
Pour calculer le minimum d’une fonction f : Rn → R dont on connaît le gradient∇f : Rn → Rn
On rappelle que le gradient de f en (a, b) est un vecteur de Rn qui indique la plus grande pente en(a, b).
L’idée pour minimiser une fonction (si le problème est de trouver un maximum pour+f , on minimise−f ) , est de partir d’un point donné, x(0) et de suivre la plus grande pente (en descendant) pour aboutirà un point x(1), puis de recommencer jusqu’à aboutir à un point critique (où le gradient est nul).
2.5 Algorithmes de gradient 17
2.5.1 Gradient à pas fixe
Pour deux vecteurs u, v ∈ Rn, on définit le produit scalaire :
u.v =∑
1≤k≤n
ukvk
et la norme euclidienne de u par∥u∥2 =
√u.u
L’algorithme du gradient consiste à partir d’une approximation initiale x(0) = (x0, y0), à se déplacerdans la direction de la plus grande pente, donc du gradient, d’un pas t. Si t > 0, le déplacement se faitdans la direction f croissante, si t < 0, on se déplace dans la direction f décroissante.
On stoppe les itérations lorsque f(x(k))ou bien x(k) est stationnaire. Ici, on a choisi la stationnarité
de f(x(k)).
Algorithme 2.1 Algorithme du gradient à pas fixe pour minimiser une fonction fx(0), ε, f,∇f, t sont donnés, k = 0répéter :
– x(k+1) = x(k) − t∇f(x(k))
– k = k + 1
jusqu’à∣∣f (x(k)
)− f
(x(k−1)
)∣∣ < ε
Exemple. Le programme Python qui suit implémente l’algorithme du gradient à pas fixe, pour lafonction (x, y) 7→ x2 + y2 − xy. Le test d’arrêt des itérations se fait sur la norme du gradient : c’est àdire sur
∥∥∇f(x(k))∥∥2
2< ε2, ce qui équivaut à
∥∥x(k+1) − x(k)∥∥2< ε. Afin d’interdire une boucle infini,
(en cas de non convergence), on limite également le nombre d’itérations avec le paramètre itmax
#!/usr/local/bin/python2.7
# -*- coding : utf-8 -*-
''' Optimisation : gradient à pas fixe'''
def f(x,y) :
return x*x + y*y - x*y
def gradf(x,y) :
return [2*x - y, 2*y - x]
def gradient(X0=[1.0,1.0], f=f, gradf=gradf, eps=1.e-5, itmax=100, t=1.0) :
'''Gradient à pas fixe'''
X = [X0]
x,y = X0
F = [f(x,y)]
it = 1
while 1 :
dx, dy = gradf(x, y)
18 Chapitre 2. Optimisation sans contrainte
dx, dy = t*dx, t*dy
if (dx*dx+dy*dy)< eps*eps or it >= itmax :
break
else :
it += 1
x -= dx
y -= dy
F.append(f(x,y))
X.append([x,y])
return (it, X, F)
if __name__ == '__main__' :
import numpy as np
import matplotlib.pyplot as plt
it, X, F = gradient(X0=[1.0,0.0], f=f,
gradf=gradf, eps=1.e-6,
itmax=50, t=0.667)
print it, len(F)
print F
plt.plot(range(it), F)
plt.show()
0 5 10 15 20 250.0
0.2
0.4
0.6
0.8
1.0
Fig. 2.5.1 : Valeur de la fonction objectif en fonction du numéro d’itération, algorithme du gradient
2.5.2 Gradient à pas optimal
Ici, on demande à l’algorithme de déplacer x(k), toujours dans la direction du gradient, mais cette foisjusqu’au minimum de f , c’est à dire de minimiser la coupe
t ∈ R 7→ γk (t) = f(x(k) + t.∇f
(x(k)))
En général, on ne dispose pas d’une expression analytique de la coupe γk. La minimisation de cettefonction (appelée recherche linéaire) peut être assez difficile à mener. Il existe des algorithmes (règlesde Wolfe, d’Armijo, ...) qui approchent ce minimum.
2.5 Algorithmes de gradient 19
Algorithme 2.2 Algorithme du gradient à pas optimalx(0), ε, f,∇f sont donnésk = 0répéter :
– calcul de ∇f(x(k))
– trouver tk qui minimise la coupe γk : t ∈ R 7→ f(x(k) + t∇f
(x(k)))
– x(k+1) = x(k) − tk∇f(x(k))
– k = k + 1
jusqu’à∣∣f (x(k)
)− f
(x(k−1)
)∣∣ < ε
21
Chapitre 3
Contraintes égalité, multiplicateurs deLagrange
3.1 Définitions et notations
En toute généralité, nous posons le problème d’optimisation sous contraintes égalité ainsi :
SoitD un ouvert non vide deRn, et soit f : D → R la fonction coût ou fonction objectif, continuementdifférentiable.
Les contraintes g1, . . . , gp sont p applications continuement différentiables et
C = {x ∈ D, gi (x) = 0, ∀i ∈ J1, pK}Le problème de minimisation à résoudre est :
(P)
{Minf (x)x ∈ C
Définition 3.1. On appelle lagrangien du problème (P) la fonction
L (x, λ) = L (x1, x2, . . . , xn, λ1, . . . , λm)
= f (x) +∑
i∈J1,pKλigi (x)
Notation. On note (observez l’indice x)
∇xL (x, λ) = ∇f (x) +∑
i∈J1,pKλi∇gi (x)
et∇2
xL (x, λ) = ∇2f (x) +∑
i∈J1,pKλi∇2gi (x)
On voit facilement
Pierre Puiseux
22 Chapitre 3. Contraintes égalité, multiplicateurs de Lagrange
– que∇xL (x, λ) est le vecteur constitué des n premières composantes de∇L (x, λ) et
– que∇2xL (x, λ) est la sous matrice constituée des n première lignes et n premières colonnes
de∇2L (x, λ)
∇2xL (x, λ) =
∂2L∂x2
1
∂2L∂x1∂x2
. . . ∂2L∂x1∂xn
∂2L∂x1∂x2
. . . . . . ...... . . . . . . ∂2L
∂xn−1∂xn
∂2L∂x1∂xn
. . . ∂2L∂xn−1∂xn
∂2L∂x2
n
(x, λ)
3.2 Quelques exemples
Exemple 3.1. Minimiser la fonction f : x 7→ x2 sous la contrainte x = 1 à pour unique solutionévidente x = 1. Mais x = 1 n’est pas point critique de f puisque f ′ (1) = 2 ̸= 0. Il est donc clair quela méthode d’optimisation sans contrainte du chapitre précédent ne peut pas s’appliquer telle qu’elleau problème contraint.
Exemple 3.2. Minimiser ou maximiser
f (x, y) = x3y − x2 + 3x+ y2 + 2y
sous la contrainteg (x, y) = 2x+ y − 1 = 0
La contrainte fournit y = 1 − 2x que l’on reporte dans f (x, y) qui devient une fonction à une seulevariable
h (x) = f (x, 1− 2x)
= −2x4 + x3 + 3x2 − 5x+ 3
= −(x− 1)(2x3 + x2 − 2x+ 3)
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2
-5
-2,5
2,5
5
7,5
10
Fig. 3.2.1 : h (x) = −2x4 + x3 + 3x2 − 5x+ 3
Remarque. g (x, y) = 0 est l’équation de la droite passant par A = (0, 1) et dirigée par le vecteurd = (1,−2). Minimiser la fonction f sous la contrainte g (x, y) = 0 équivaut donc à minimiser lacoupe de f sur cette droite. Cette coupe est précisément la fonction γ : t 7→ f (A+ td).
on trouve facilement que γ est maximum en x = −1, avec γ (−1) = 8.
3.3 Deux variables et une seule contrainte égalité 23
Les contraintes ne sont pas nécessairement linéaires comme g (x, y) dans l’exemple précédent.
Exemple 3.3. (contrainte non linéaire) : parmi les parallélépipèdes de surface S0 fixée, lequel a le vo-lume maximal ? x, y désignant les longueurs des cotés du parallélépipède, la surface est S (x, y, z) =2 (xy + yz + zx) et son volume est V (x, y, z) = xyz. Le problème consiste donc à trouver le maxi-mum de V (x, y, z) sous la contrainte 2 (xy + yz + zx) = S0. On peut calculer z :
z =S0
2− xy
x+ y
et maximiser
VS0 (x, y) = xyS0
2− xy
x+ y
On trouve alors la maximum par la technique usuelle :
x = y =
√S0
6
puis z = x = y, ce qui montre que le cube est la solution cherchée.
Remarque. dans le cas d’un problème d’optimisation à n variables le nombre de contraintes « indé-pendantes » (dans un sens à préciser) doit être inférieur à n car sinon, pour p = n contraintes, lescontraintes forment un système de n équations à n inconnues. Dans les bons cas, il n’y a qu’une seulesolution, indépendante de la fonction à optimiser. Pour p > n il peut n’y avoir aucune solution.
Exemple 3.4. Le problème suivant : trouver le minimum de la fonction f (x, y) = xy sous lescontraintes x + y = 1 et x − y = 1 a pour unique solution (x, y) = (1, 0), qui est le seul pointde R2 satisfaisant les deux contraintes. Cette solution est obtenue sans tenir aucun compte de la fonc-tion à optimiser. Les contraintes dans ce cas sont deux équations de droites, la solution est l’uniqueintersection de ces deux droites, sauf cas particulier (droites parallèles ou confondues).
3.3 Deux variables et une seule contrainte égalité
On se place en dimension n = 2 (f est une fonction a deux variables) avec une seule contrainte égalitég. L’ensemble des contraintes est
C = {(x, y) ∈ D, g (x, y) = 0}
Le lagrangien du problème est donc
L (x, y, λ) = f (x, y) + λg (x, y)
Le théorème suivant donne une condition nécessaire d’existence d’un minimum contraint :
Théorème 3.1. (condition nécessaire, ordre 1) SoitD un domaine ouvert de R2, f et g deux applica-tions continuement dérivables de D dans R. On note
C = {(x, y) ∈ D, g (x, y) = 0}
24 Chapitre 3. Contraintes égalité, multiplicateurs de Lagrange
Si f restreinte à C présente un extrémum en (a, b) ∈ C et si la contrainte est qualifiée :
∇g (a, b) ̸= 0R2
alors le lagrangien admet un point critique (a, b, λ∗) et λ∗ est appelé multiplicateur de Lagrange :
∇L (a, b, λ∗) = 0R3
Remarque.
1. Si (a, b, λ∗) et un point critique du lagrangien, alors (a, b) ∈ A car ∂L∂λ
(a, b, λ∗) = g (a, b) = 0.
2. Si la contrainte n’est pas qualifiée en (a, b), il se peut que f restreinte àA présente un extrémumen (a, b) ∈ A mais que le multiplicateur de Lagrange λ∗ n’existe pas.
3. Si la contrainte est le cercle unité x2 + y2 = 1 on a une interprétation simple du multiplicateurde Lagrange : minimiser f (x, y) sous la contrainte x2 + y2 = 1 revient à minimiser φ (θ) =f (cos (θ) , sin (θ)) pour θ ∈ R, c’est un problème en 1 dimension, sans contrainte. La conditionnécessaire d’optimalité s’écrit : φ′ (θ) = 0 soit
− sin (θ)∂f
∂x(cos (θ) , sin (θ)) + cos (θ)
∂f
∂y(cos (θ) , sin (θ))
ce qui peut s’interpréter ainsi : les deux vecteurs∇f (cos (θ) , sin (θ)) et u = (cos (θ) , sin (θ))t
sont colinéaires. Or u n’est autre que ∇g (cos (θ) , sin (θ)) avec g (x, y) = x2 + y2 − 1 donc ilexiste un réel λ∗ tel que ∇f (cos (θ) , sin (θ)) = λ∗∇g (cos (θ) , sin (θ))
Définition 3.2. (Hessienne bordée) La matrice hessienne du lagrangien est aussi appelée la matricehessienne bordée de f
∇2L (x, y, λ) =
∂2L∂x2 (x, y, λ)
∂2L∂y∂x
(x, y, λ) ∂g∂x
(x, y)∂2L∂x∂y
(x, y, λ) ∂2L∂y2
(x, y, λ) ∂g∂y
(x, y)∂g∂x
(x, y) ∂g∂y
(x, y) 0
Théorème 3.2. (Condition suffisante, ordre 2) Soit D un domaine ouvert de R2, f et g deux applica-tions deux fois continuement dérivables de D dans R. Soit (a, b, λ∗) un point critique du lagrangien
L (x, y, λ) = f (x, y) + λg (x, y)
alors
– si le déterminant de la hessienne bordée ∇2L (a, b, λ∗) est strictement négatif, (a, b) est unminimum local du problème contraint ;
– si le déterminant de la hessienne bordée∇2L (a, b, λ∗) est strictement positif, (a, b) est un maxi-mum local du problème contraint.
ATTENTION : Le théorème précédent est valide uniquement pour deux variables (x, y)
3.3 Deux variables et une seule contrainte égalité 25
Exemple 3.5. Optimimiser
f (x, y) = x3y − x2 + 3x+ y2 + 2y
sous la contrainteg (x, y) = 2x+ y − 1 = 0
Le lagrangien du problème est
L (x, y, λ) = x3y − x2 + 3x+ y2 + 2y + λ (2x+ y − 1)
1. Gradient et hessienne bordée :
∇L (x, y, λ) =
3x2y − 2x+ 3 + 2λx3 + 2y + 2 + λ
2x+ y − 1
et
∇2L (x, y, λ) =
6xy − 2 3x2 23x2 2 12 1 0
2. un seul point critique de L : (−1, 3, 7)∇2L (−1, 3, 7) =
−20 3 23 2 12 1 0
et
3. La contrainte est qualifiée au point (−1, 3) car∇g (−1, 3) =
(21
)̸= 0R2
4. det (∇2L (−1, 3, 7)) = 24 > 0 donc f présente un maximum contraint en (−1, 3) : f (−1, 3) =8
5. figures
Fig. 3.3.1 : f (x, y) = x3y − x2 + 3x+ y2 + 2y et la contrainte 2x+ y − 1 = 0
26 Chapitre 3. Contraintes égalité, multiplicateurs de Lagrange
3.4 Cas général
La fonction à optimiser est f : D ⊂ Rn → R où D est un ouvert de Rn.
Les p contraintes égalité sont gi (x) = 0, 1 ≤ i ≤ p où gi sont p fonctions de D dans R.
L’ensemble contraint est donc
C = {x ∈ D, ∀i, 1 ≤ i ≤ p, gi (x) = 0}
et le problème de minimisation est :
(P)
{Minf (x)x ∈ C
Définition 3.3. On dit que les contraintes sont qualifiées au point x∗ si et seulement si la famille
{∇gi (x∗) , 1 ≤ i ≤ p}
est une famille libre.
On commence par des conditions nécessaires :
Théorème 3.3. (condition nécessaire, ordre 1) On suppose que f et gi, 1 ≤ i ≤ p sont continuementdérivables sur D.
– Si f restreinte à C présente un extremum en x∗ ∈ C et
– si les contraintes sont qualifiées
alors le lagrangien admet un point critique (x∗, λ∗) avec λ∗ =(λ∗1, λ
∗2, . . . , λ
∗p
):
∇L (x∗, λ∗) = 0R3
les λ∗i sont appelés multiplicateurs de Lagrange.
Remarque.
1. Si (x∗, λ∗) et un point critique du lagrangien, alors x∗ ∈ C car ∂L∂λj
(x∗, λ∗) = gj (x∗) = 0.
2. Si la contrainte n’est pas qualifiée en x∗, il se peut que f restreinte à C présente un extremumen x∗ ∈ C mais que les multiplicateurs de Lagrange λ∗ n’existent pas.
La version « faible » pour les conditions suffisantes :
Théorème 3.4. (Condition suffisante d’ordre 2) On suppose que f et gj, 1 ≤ j ≤ p sont deux foiscontinuement dérivables sur D et que
– (x∗, λ∗) est un point critique du lagrangien,
– les contraintes en x∗ sont qualifiées,
– la matrice ∇2xL (x∗, λ∗) est définie positive,
3.4 Cas général 27
alors x∗ est un minimum du problème contraint.
Exemple 3.6. Dans l’exemple (3.5), ∇2xL (−1, 3, 7) =
(−20 33 2
)a une valeur propre négative,
l’autre positive. Ce théorème ne permet pas de conclure.
Dans l’exemple suivant, le théorème permet de conclure :
Exemple 3.7. Minimiser f (x, y, z) = x+ y + z sous la contrainte g (x, y, z) = x2 + y2 + z2 − r2
1. Le Lagrangien est
L (x, y, z, λ) = x+ y + z + λ(x2 + y2 + z2 − r2
)le gradient :
∇L (x, y, z, λ) =
1 + 2λx1 + 2λy1 + 2λz
x2 + y2 + z2 − r2
la hessienne :
∇2L (x, y, z, λ) =
2λ 0 0 2x0 2λ 0 2y0 0 2λ 2z2x 2y 2z 0
et son déterminant :
det(∇2L (x, y, z, λ)
)= −16λ2
(x2 + y2 + z2
)< 0
2. Points critiques : x = y = z = − 12λ
et la contrainte donne 3x2 = r2 donc les points critiquessont :
A = (x∗, λ∗) =
(√3
3r,
√3
3r,
√3
3r,−
√3
2r
)et B = −A.
Vérifions que la contrainte est qualifiée pour chacun de ces points :
∇g (x, y, z) =
2x2y2z
donc ∇g (x∗) ̸= 0 et ∇g (−x∗) ̸= 0 ces deux points critiques sont donc candidats à être desextrema contraints.
3. De l’égalité∇2
xL (x, y, z, λ) = 2λId3
on déduit, en utilisant le théorème précédent :
– au point A on a ∇2xL (A) a donc pour valeurs propres λ1 = λ2 = λ3 = −
√3r
< 0 on adonc un maximum.
28 Chapitre 3. Contraintes égalité, multiplicateurs de Lagrange
– au pointB = −A les valeurs propres∇2xL (B) de sont λ1 = λ2 = λ3 =
√3r
> 0 on a doncun minimum.
Voici une version plus raffinée de ce théorème :
Théorème 3.5. (Condition suffisante d’ordre 2) On suppose que f et g1, g2, . . . , gp sont deux foiscontinuement dérivables sur D et que
1. (x∗, λ∗) est un point critique du lagrangien, et
2. les contraintes en x∗ sont qualifiées,
3. pour tout h ∈ Rn tel que ∀i ∈ J1, pK,∇gi (x∗) .h = 0
ht.∇2xL (x∗, λ∗) .h > 0
alors x∗ est un minimum du problème contraint.
Si on remplace la troisième condition par
ht.∇2xL (x∗, λ∗) .h < 0
alors x∗est un maximum
Remarque. La différence avec le théorème précédent tient à la condition 3 : on demande ici que lamatrice ∇2
xL (x∗, λ∗) soit définie positive seulement pour les vecteurs h qui sont orthogonaux à tousles gradients des contraintes.
Proposition 3.1. (règle pratique) La troisième condition du théorème précédent est équivalente à :toutes les racines du polynôme
p (λ) = det(A− λIn D
Dt 0
)sont positives, où In la matrice identité de Rn,n,
A = ∇2xL (x∗, λ∗) ∈ Rn,n
etD = (∇gj (x∗))1≤j≤p ∈ Rn,p
(D est la matrice dont les p colonnes sont les gradients des contraintes).
Exemple 3.8. Dans l’exemple (3.5),
∇2L (−1, 3, 7) =
−20 3 −23 2 −1−2 −1 0
et
p (λ) =
∣∣∣∣∣∣−20− λ 3 −2
3 2− λ −1−2 −1 0
∣∣∣∣∣∣ = 24 + 5λ
a pour racine λ = −245< 0, on a donc un maximum en f (−1, 3) = 8.
3.5 En résumé 29
3.5 En résumé
Pour une ou plusieurs contraintes égalité, on utilisera la méthodologie suivante :
Contraintes égalités
1. Déterminer les points critiques du lagrangien, et
2. pour chaque point critique (x∗, λ∗) :
(a) vérifier que les contraintes en x∗ sont qualifiées,(b) trouver les racines du polynôme
p (t) = det(A− tIn D
Dt 0
)i. si les racines sont toutes strictement positives, on a un minimum en f (x∗) ;ii. si les racines sont toutes strictement négatives, on a un maximum en f (x∗) ;iii. sinon on ne peut pas conclure.
31
Chapitre 4
Contrainte inégalité
4.1 Définition et exemples
En toute généralité, nous posons le problème d’optimisation sous contraintes (égalité et inégalité)ainsi :
SoitD un ouvert non vide deRn, et soit f : D → R la fonction coût ou fonction objectif, continuementdifférentiable.
Les contraintes g1, . . . , gp et h1, . . . , hq sont p+ q applications continuement différentiables et
C = { x ∈ D, gi (x) = 0, ∀i ∈ J1, pK︸ ︷︷ ︸contraintes égalité
et hj (x) ≤ 0,∀j ∈ J1, qK︸ ︷︷ ︸ }contraintes inégalité
Le problème de minimisation à résoudre est :
(P)
{Minf (x)x ∈ C
Définition 4.1. Soit x ∈ D.
– On dit que la contrainte inégalité hj est active ou saturée en x si et seulement si
hj (x) = 0
– On dit que les contraintes g1, . . . , gp et h1, . . . , hq sont qualifiées en x si et seulement si
(QC)x :{∇g1 (x) , . . . ,∇gp (x)}
∪{∇hj (x) |hj saturée}
est une famille libre
– On appelle Lagrangien du problème (P) la fonction :
L (x, λ, µ) = f (x) +∑
i∈J1,pKλigi (x) +∑
j∈J1,qKµjhj (x)
Pierre Puiseux
32 Chapitre 4. Contrainte inégalité
– On note∇xL (x, λ, µ) = ∇f (x) +
∑i∈J1,pKλi∇gi (x) +
∑j∈J1,qKµj∇hj (x)
et∇2
xL (x, λ, µ) = ∇2f (x) +∑
i∈J1,pKλi∇2gi (x) +∑
j∈J1,qKµj∇2hj (x)
Remarque. On voit facilement
– que∇xL (x, λ, µ) est le vecteur constitué des n premières composantes de∇L (x, λ, µ) et
– que ∇2xL (x, λ, µ) est la sous matrice constituée des n première lignes et n premières colonnes
de∇2L (x, λ, µ)
∇2xL (x, λ, µ) =
∂2L∂x2
1
∂2L∂x1∂x2
. . . ∂2L∂x1∂xn
∂2L∂x1∂x2
. . . . . . ...... . . . . . . ∂2L
∂xn−1∂xn
∂2L∂x1∂xn
. . . ∂2L∂xn−1∂xn
∂2L∂x2
n
(x, λ, µ)
Exemple 4.1.
On considère un bien B, de quantité 100 à répartir entre 5 consommateurs. Chaque consommateurreçoit une quantité xi du bien B. Il doit en recevoir une quantité minimale qi et en espère la quantitépi avec
i qi pi
1 10 202 15 253 20 404 15 405 25 40
Formalisons ce problème sous forme d’un minimum à calculer.
La fonction coût :f (x) =
∑1≤i≤5
(xi − pi)2
les contraintes : ∑1≤i≤5
xi = 100
etxi ≥ qi, 1 ≤ i ≤ 5
4.2 Conditions nécessaires (KKT) 33
4.2 Conditions nécessaires (KKT)
Théorème 4.1. (conditions nécessaires, Karush-Kuhn-Tucker.)Si x∗ ∈ C est un minimum local de f sur C et si (QC)x∗ est vérifiée, alors il existe λ∗ = (λ1, . . . , λp)et µ∗ = (µ1, . . . , µq) tels que :
1. (x∗, λ∗, µ∗) vérifie :∇xL (x∗, λ∗, µ∗) = 0
2. et les multiplicateurs µj, j ∈ J1, qK vérifient :
∀j ∈ J1, qK,{µj > 0 si la contrainte est saturée en x∗
µj = 0 sinon
ou de manière équivalente :
∀j ∈ J1, qK,{µj ≥ 0 etµjhj (x∗) = 0
Remarque.
1. Pour un problème de maximisation, il suffit de remplacer ∀j ∈ J1, qK, µj ≥ 0 par ∀j ∈J1, qK, µj ≤ 0.
2. Si la contrainte hj n’est pas saturée, alors µj = 0 et la contrainte n’intervient plus dans lelagrangien, c’est comme si elle était absente du problème initial.
4.3 Conditions suffisantes (KKT)
Définition 4.2. On dit que (P) est un problème de programmation convexe si :
– D est un ouvert convexe (c’est le cas notamment si D = Rn) ;
– f est convexe ;
– les contraintes égalité gi, i ∈ J1, pK sont des applications affines ;– les contraintes inégalité hj, j ∈ J1, qK sont des applications convexes.
Théorème 4.2. (conditions suffisantes, Karush-Kuhn-Tucker.) Si (P) est un problème de program-mation convexe, et si (QC)x∗ est vérifiée, alors les deux conditions KKT en x∗ ∈ C sont suffisantespour que x∗ soit un minimum global de f .
Exemple 4.2. La fonction objectif :
f (x, y, z) = x2 + y2 + z2
les contraintes : {g (x, y, z) = x+ y + z − 3 = 0
h (x, y, z) = 2x− y + z − 5 ≤ 0
Consiste à déterminer dans R3 la distance à l’origine du demi-plan défini par les contraintes.
34 Chapitre 4. Contrainte inégalité
Les conditions KKT s’écrivent :
∇f (x) + λ∇g (x) + µ∇h (x) = 0
(ii) µ (2x− y + z − 5) = 0
(iii) µ ≥ 0
soit
(i)
2x+ λ+ 2µ = 0
2y + λ− µ = 0
2z + λ+ µ = 0
(ii) µ (2x− y + z − 5) = 0
(iii) µ ≥ 0
Supposons µ ̸= 0, alors
(iν) 2x− y + z − 5 = 0
et
(i) ⇒
x = (−λ− 2µ)/2
y = (−λ+ µ)/2
z = (−λ− µ)/2
La contrainte égalité implique 3λ+ 2µ = −6 et avec (iν) : λ+ 3µ = −5 d’où µ = −97< 0 ce qui
est incompatible avec (iii).
Donc µ = 0 puis λ = −2 et x = y = z = 1. Il s’agit d’un minimum global de f sur C car C est unconvexe, f est convexe, ainsi que les contraintes.
Exemple 4.3. On reprend l’exemple donné en introduction et on le simplifie : La fonction objectifest :
f (x) =∑
i∈J1,5K (xi − pi)2
les contraintes :
g (x) =∑
i∈J1,5Kxi − 100 = 0
hi (x) = qi − xi ≤ 0, i ∈ J1, 5KLe lagrangien
L (x, λ, µ) = f (x) + λg (x) +∑
i∈J1,5Kµihi (x)
La première condition KKT s’écrit :
∇f (x) + λ∇g (x) +∑
i∈J1,5Kµi∇hi (x) = 0
4.3 Conditions suffisantes (KKT) 35
et avec la seconde condition KKT :
(i)
2 (xi − pi) + λ− µi = 0
µi (xi − qi) = 0
µi ≥ 0
i ∈ J1, nK∑
xi = 100
TODO
Exercices
Sans contrainte
Exercice 4.1. Pour chacune des fonctions de R2 dans R suivantes :
f1(x, y) = x3 + 3xy2 − 15x− 12y
f2(x, y) = x2 + y2 − xy
f3(x, y) = x2 − y2 − xy
f4(x, y) = x3 + y3 − x2y2
f5(x, y) = 4x2 + 4y2 − (x+ y)4
1. Calculer le gradient de f .
2. Déterminer les points critiques de f .
3. Calculer la matrice hessienne de f .
4. Pour chacun des points critiques de f , donner les conclusions tirées de l’examen de la matricehessienne.
5. Pour chacun des points critiques de f , dire s’il s’agit ou non d’un extremum global de f .
Exercice 4.2. Pour chacune des fonctions de R2 dans R suivantes :
f1 (x, y, z) = x2 + 2y2 + 3z2
f2 (x, y, z) = x2 + 2y2 − 3z2
f3 (x, y, z) = x4 + y2 + z2−4x−2y−2z + 4
f4 (x, y, z) = x4−2x2y + 2y2 + 2z2 + 2yz−2y−2z + 2
f5 (x, y, z) = 3(x2 + y2 + z2)−2(x+ y + z)4
1. Calculer le gradient de f et la matrice hessienne de f .
2. Déterminer les points critiques de f .
3. Pour chacun des points critiques de f , donner les conclusions tirées de l’examen de la matricehessienne.
36 Chapitre 4. Contrainte inégalité
Contraintes égalité
Exercice 4.3. Optimiser f (x, y) = x2y sous la contrainte 4x+ y = 30 en utilisant deux méthodes :
1. en se ramenant à un problème à une variable
2. en utilisant les techniques de lagrangien.
Exercice 4.4. Chercher les extrema de la fonction f (x, y) = x2y sous la contrainte 12x+2y−180 = 0
Exercice 4.5. Chercher les extrema de la fonction f (x, y) = x (1 + y) sous la contrainte 5x+10y−5 = 0
Exercice 4.6. Chercher les extrema de la fonction f (x, y, z) = x+ y+ z sous la contrainte x2+ y2+z2 = 1
Exercice 4.7. Chercher les extrema de la fonction f (x, y) = x+ y sous la contrainte x2 + y2 = 1
Exercice 4.8. Optimiser f (x, y) = xy
1. sous la contrainte x+ y = 6
2. sous la contrainte x2 + y2 = 2
Exercice 4.9. On veut maximiser la fonction
f (x, y, z) = x2yz
sous la contrainte2x+ 4y + z − 64 = 0
Montrer que ce problème se ramène à un problème d’optimisation sans contrainte et résoudre ce pro-blème.
Exercice 4.10.
On note C le cercle unité de R2 :
C ={(x, y) ∈ R2, x2 + y2 = 1
}On considère les fonctions
f (x, y) = x+ y f (x, y) = x+ y − xy f (x, y) = x2 − yf (x, y) = x2 + y2 − xy f (x, y) = x2 + y2 − x2y2
1. Utiliser les conditions nécessaires d’ordre 1 pour déterminer les candidats à être des extremapour la restriction de f à C.
2. Pour chacun de ces points, dire s’il s’agit ou non d’un extremum pour la restriction de f à C
Exercice 4.11. Optimiser f (x, y, z) = x2 + y2 + z2
4.3 Conditions suffisantes (KKT) 37
sous la contrainte x+ 2y = 2 et x2 + 2y2 + 2z2 = 2
Exercice 4.12. Optimiser f (x, y, z) = xyz difficile
sous la contrainte
x+ y + z − 1 = 0
x2 + y2 + z2 − 1 = 0
Indication : il y a 6 points critiques pour le lagrangien. On pourra vérifier que les points(23, 23,−1
3,−2
9, 13
)et (1, 0, 0, 0, 0) en font partie, et on en déduira les autres avec des arguments de symétrie.
Contraintes inégalités
Exercice 4.13. (Problème deKepler.) Inscrire dans l’ellipsoïdeE ={(x, y, z) ∈ R3, x
2
a2+ y2
b2+ z2
c2= 1}
le parallèlépipède de volume maximal, sont les cotés sont parallèles aux axes.
Exercice 4.14. Soit f (x, y) = 2x− y
1. Justifier l’existence d’un extrema sur le domaine
C ={(x, y) ∈ R2, x2 + y2 = 1
}2. Justifier l’existence d’un extrema sur le domaine
C1 ={(x, y) ∈ R2, x2 + y2 ≤ 1
}Exercice 4.15. Maximiser x sous la contrainte y ≥ x2 et x+ y ≤ 1.
Exercice 4.16. Minimiser x sous la contrainte y ≥ 0 et y ≤ (1 + x)3.
Exercice 4.17. Optimiser f (x, y) = ex2+y2 + y2 − 1 pour (x, y) ∈ C = {(x, y) ∈ R2; x2 + y2 ≤ 9}
Exercice 4.18. Minimiser f (x, y) = x2 pour (x, y) ∈ C = {(x, y) ∈ R2;x2 + y2 ≤ 2 et x = y}
Exercice 4.19. Résoudre :
(P)
max
(− (x− 4)2 − (y − 4)2
)x+ y ≤ 4
x+ 3y ≤ 9
Exercice 4.20. Les fonctions suivantes sont elles convexes ?
1. (x, y) 7→ x2 + y2 + 4xy
2. (x, y) 7→ 2x2 − 2y2 − 6z2 + 3xy − 4xz + 7yz
3. (x, y) 7→ ex + ey
4. (x, y) 7→ exey
38 INDEX
Index
Ccontraintes qualifiées, 26courbes de niveau, 5
FFormule de Taylor, 6
Iisovaleurs, 5
LLagrangien, 31lagrangien, 21
Mmultiplicateurs de Lagrange, 21
Pprogrammation convexe, 33
Pierre Puiseux