Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique &...

45
Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE [email protected]

Transcript of Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique &...

Page 1: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

OptimisationNotes de cours

Master 1 Statistique & Data Science, Ingénierie Mathématique

2020-2021

Bruno [email protected]

Page 2: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Table des matières

1 Rappels et compléments de calculs différentiels 51.1 Cadre et notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Différentielle et gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.1 Applications linéaires et matrices associées . . . . . . . . . . . . . . . 51.2.2 Différentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.3 Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.4 Dérivation des fonctions composées . . . . . . . . . . . . . . . . . . . 7

1.3 Différentielle d’ordre deux et matrice hessienne . . . . . . . . . . . . . . . . . 71.4 Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Problèmes d’optimisation : Existence et unicité des solutions 102.1 Cadre et vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2 Existence de solutions pour les fonctions coercives et continues . . . . . . . . . 112.3 Extremums locaux et dérivabilité . . . . . . . . . . . . . . . . . . . . . . . . . 112.4 Ensembles convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.5 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 142.5.2 Caractérisation des fonctions convexes différentiables et deux fois dif-

férentiables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.6 Problèmes d’optimisation convexes . . . . . . . . . . . . . . . . . . . . . . . . 182.7 Etude des fonctionnelles quadratiques . . . . . . . . . . . . . . . . . . . . . . 19

3 Algorithmes de descente pour des problèmes sans contraintes 213.1 Forte convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.2 Généralités sur les algorithmes de descente . . . . . . . . . . . . . . . . . . . 24

3.2.1 Forme générale d’un algorithme de descente . . . . . . . . . . . . . . 243.2.2 Algorithmes de recherche de pas de descente . . . . . . . . . . . . . . 26

3.3 Algorithmes de descente de gradient . . . . . . . . . . . . . . . . . . . . . . . 273.4 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4 Problème de minimisation sous contraintes égalités et inégalités : Les conditions deKarush-Kuhn-Tucker (KKT) 324.1 Cadre et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2 Conditions d’optimalité non qualifiées . . . . . . . . . . . . . . . . . . . . . . 334.3 Qualification des contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.4 Conditions de Karush-Kuhn-Tucker (KKT) . . . . . . . . . . . . . . . . . . . 35

2

Page 3: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

5 Algorithmes pour l’optimisation sous contraintes 395.1 Solutions des problèmes d’optimisation convexes . . . . . . . . . . . . . . . . 395.2 Projection sur un convexe fermé . . . . . . . . . . . . . . . . . . . . . . . . . 405.3 Algorithme de gradient projeté . . . . . . . . . . . . . . . . . . . . . . . . . . 415.4 Méthode de Newton sous contraintes égalités affines . . . . . . . . . . . . . . 42

5.4.1 Minimisation d’une fonctionnelle quadratique sous contraintes égalitésaffines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.4.2 Pas de Newton contraint . . . . . . . . . . . . . . . . . . . . . . . . . 43

3

Page 4: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Introduction

Ce cours est une introduction aux problèmes d’optimisation. Le cours se focalise essentielle-ment sur des problèmes d’optimisation en dimension finie, avec ou sans contraintes. Après uneintroduction des différentes notions mathématiques nécessaires (rappels de calcul différentiel,conditions d’optimalité, convexité, etc.), une part importante est donnée à l’exposition des dif-férents algorithmes classiques d’optimisation, l’étude théorique de leur convergence, ainsi quela mise en œuvre pratique de ces algorithmes. Le logiciel libre de calcul scientiffique Scilabsera utilisé en séance de Travaux Pratiques (TP).

Scilab est téléchargeable gratuitement ici :https://www.scilab.org/fr

Les principaux ouvrages de référence pour ce cours sont :

[CIARLET] Philippe G. CIARLET, Introduction à l’analyse numérique matricielle et à l’op-timisation, cinquième édition, Dunod, 1998

[BOYD & VANDENBERGHE] Stephen BOYD and Lieven VANDENBERGHE Convex Opti-mization, Cambridge University Press, 2004.Ouvrage téléchargeable gratuitement ici :http://stanford.edu/~boyd/cvxbook/

[ALLAIRE & KABER] Grégoire ALLAIRE et Sidi Mahmoud KABER, Algèbre linéaire nu-mérique, Ellipses, 2002

4

Page 5: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Chapitre 1

Rappels et compléments de calculsdifférentiels

Les références principales pour ce chapitre sont le chapitre A.4 de [BOYD & VANDENBERGHE]et le chapitre 7 de [CIARLET]. Dans ce cours on se placera toujours sur des espaces vectorielsnormés de dimensions finis que l’on identifie à Rn, n ! 1.

1.1 Cadre et notationn et m sont des entiers supérieurs ou égaux à 1. Par convention les vecteurs de Rn sont

des vecteurs colonnes. On note 〈·, ·〉 le produit scalaire canonique et ‖ · ‖ la norme euclidienneassociée. On note Mm,n(R) l’ensemble des matrices de taille m × n à coefficients réelles etMn(R) = Mn,n(R) l’ensemble des matrices carrées de taille n × n. La transposée d’unematrice A est notée AT . On a donc pour tous x, y ∈ Rn, 〈x, y〉 = xTy et par conséquent, pourtout A ∈ Mm,n(R), x ∈ Rn, y ∈ Rm,

〈y, Ax〉 = 〈ATy, x〉.

Remarque (Notation de la transposée). La notation AT correspond plutôt à une conventionanglo-saxonne. Elle a été choisie pour ce polycopié car elle est plus simple à taper en LATEXetest plus proche de l’opération transposée en scilab, notée A’. Toutefois les étudiants sont libresd’utiliser la notation classique tA pour leurs prises notes et leurs copies d’examen.

1.2 Différentielle et gradient

1.2.1 Applications linéaires et matrices associéesOn désigne par L(Rn,Rm) l’ensemble des applications linéaires de Rn dans Rm. On iden-

tifie un élément de L(Rn,Rm) à une matrice rectangulaire de taille m × n correspondant à lamatrice de l’application dans les bases canoniques de Rn et Rm : si ϕ ∈ L(Rn,Rm) alors pourtout x ∈ Rn, ϕ(x) = Ax avec A la matrice dont les colonnes sont les images par ϕ des vecteursde la base canonique (e1, . . . , en) de la base canonique de Rn,

ϕ(x) = ϕ

!n"

k=1

xkek

#=

n"

k=1

xkϕ(ek) =$ϕ(e1) · · · ϕ(en)

%&

'(x1...xn

)

*+ = Ax.

5

Page 6: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

1.2.2 DifférentielleDans tout ce chapitre, Ω désigne un ensemble ouvert de Rn.

Définition 1.1. Soit f : Ω → Rm. La fonction f est différentiable au point x ∈ Ω si il existeune matrice df(x) ∈ Mm,n(R) telle que au voisinage de x on ait

f(y) = f(x) + df(x)(y − x) + ‖y − x‖ε(y − x)

avec limy→x

ε(y−x) = 0, i.e., ‖y−x‖ε(‖y−x‖) = oy→x

(‖y−x‖). On appelle df(x) la différentielle

de f au point x, ou encore la matrice jacobienne de f au point x. On dit que f est différentiablesi f est différentiable en tout point de Ω. On dit que f est continûment différentiable si f estdifférentiable et l’application x (→ df(x) est continue.

La fonction affine f(y) = f(x)+df(x)(y−x) est l’approximation à l’ordre 1 de f au pointx. La différentielle peut être calculée à partir des dérivées partielles des composantes de f : Si onnote f = (f1, . . . , fm)

T les composantes de f , alors pour tout (i, j) ∈ 1, . . . ,m×1, . . . , n,

(df(x))i,j =∂fi∂xj

(x).

Exemple 1.2. Considérons l’application f : Rn → R2 définie par

f(x) =

,-nk=1 xk-nk=1 x

2k

..

On pose b = (1, . . . , 1)T ∈ RN , alors pour x ∈ Rn,

f(x) =

,〈x, b〉‖x‖2

..

Alors

f(x+ h) =

,〈(x+ h), b〉‖x+ h‖2

.

=

,〈x, b〉+ 〈h, b〉

‖x‖2 + 2〈x, h〉+ ‖h‖2.

=

,〈x, b〉‖x‖2

.+

,〈h, b〉2〈x, h〉

.+

,0

‖h‖2.

= f(x) +

,bT

2xT

.h+

,0

‖h‖2..

Le dernier terme est bien un o(‖h‖). Donc on a Df(x) =

,bT

2xT

..

1.2.3 GradientDans ce cours on s’intéressera plus particulièrement à des fonctions à valeurs réelles, ce qui

correspond au cas m = 1. La matrice jacobienne de f : Ω → R est alors une matrice ligne detaille 1 × n. La transposée de cette matrice est un vecteur de Rn appelé gradient de f au pointx et noté ∇f(x). Pour tout h ∈ Rn,

df(x)h = ∇f(x)Th = 〈∇f(x), h〉.

6

Page 7: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Ainsi, pour f : Ω → R, f est différentiable si et seulement si il existe un vecteur ∇f(x) tel que

f(y) = f(x) + 〈∇f(x), y − x〉+ ‖y − x‖ε(y − x) avec limy→x

ε(y − x) = 0.

∇f(x) s’interprète comme le vecteur de plus forte augmentation de f au voisinage de x. Enparticulier, ∇f(x) est orthogonal aux lignes de niveaux de la fonction f .

1.2.4 Dérivation des fonctions composéesThéorème 1.3 (Dérivation des fonctions composées). Soient f : Rn → Rm et g : Rm → Rp

deux fonctions différentiables. Soit h = g f : Rn → Rp la fonction composée définie parh(x) = g(f(x)). Alors h est différentiable sur Rn et pour tout x ∈ Rn,

dh(x) = dg(f(x))df(x).

Remarque. On peut énoncer une version locale du résultat précédent car, comme le suggèrela formule dh(x) = dg(f(x))df(x), pour que h soit différentiable en x, il suffit que f soitdifférentiable en x et que g soit différentiable en f(x).

Exemple 1.4. Déterminons le gradient de l’application g : Rn → R définie par

g(x) = f(Ax+ b)

où A est une matrice de Mm,n(R), b ∈ Rm et f : Rm → R est une application différentiable.On a g(x) = f h(x) avec h(x) = Ax + b. Comme h est affine on a dh(x) = A en tout pointx. On a donc d’après la règle de dérivation des fonctions composées

dg(x) = df(h(x))dh(x) = df(Ax+ b)A.

Donc ∇g(x) = dg(x)T = ATdf(Ax+ b)T = AT∇f(Ax+ b).

1.3 Différentielle d’ordre deux et matrice hessienneDans le cadre général où f : Ω → Rm, si f est différentiable alors l’application différentielle

df : x (→ df(x) est une application de l’ouvert Ω vers l’espace vectoriel L(Rn,Rm). Si cetteapplication est elle-même différentiable en x, alors on obtient une différentielle d(df)(x)(·)qui appartient à L(Rn,L(Rn,Rm)) que l’on identifie à une application bilinéaire d2f(x) :Rn × Rn → Rm qui est symétrique d’après le théorème de Schwarz. d2f(x) est appelée ladifférentielle d’ordre deux de l’application f au point x. f est deux fois différentiable si elle estdifférentiable sur tout Ω. f est deux fois continûment différentiable sur Ω, si f est deux fois dif-férentiable et si l’application x (→ d2f(x) est continue. On note C2(Ω) l’ensemble des fonctionsdeux fois continûment différentiables.

Dans le cas où m = 1, c’est-à-dire où f : Ω → R est à valeurs réelles, d2f(x) est une formebilinéaire symétrique dont la matrice s’écrit

∇2f(x) =/

∂2f∂xi∂xj

(x)0

1!i,j!n.

Cette matrice est appelée matrice hessienne de f au point x. On a alors pour tous vecteursh, k ∈ Rn,

d2f(x)(h, k) = 〈∇2f(x)h, k〉 = kT∇2f(x)h = hT∇2f(x)k.

7

Page 8: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Pour ce cours on aura constamment besoin de calculer le gradient et la matrice hessiennede fonctionnelles f : Ω → R deux fois différentiables. En pratique on utilise la propositionsuivante.

Proposition 1.5 (La matrice hessienne est la différentielle du gradient). Soit f : Ω → R unefonction différentiable sur Ω et deux fois différentiable au point x ∈ Ω. Alors, la matrice hes-sienne ∇2f(x) de f au point x est la différentielle de l’application gradient x (→ ∇f(x) aupoint x.

Preuve. En explicitant avec les dérivées partielles, la différentielle est la matrice/

∂∂xj

(∇f(x))i

0

1!i,j!n=

/∂2f

∂xi∂xj(x)

0

1!i,j!n= ∇2f(x).

Il est difficile de donner une règle de dérivation des fonctions composées pour l’ordre deux.Voici toutefois une règle à connaître pour ce cours.

Composition avec une fonction affine : Soit g : Rn → R définie par

g(x) = f(Ax+ b)

où A est une matrice de Mm,n(R), b ∈ Rm et f : Rm → R est une application deux foisdifférentiable. Alors g est deux fois différentiable et

∇2g(x) = AT∇2f(Ax+ b)A,

formule qui s’obtient facilement en dérivant l’expression ∇g(x) = AT∇f(Ax + b) montréeprécédemment.

1.4 Formules de TaylorLes formules de Taylor se généralisent aux fonctions de plusieurs variables. On se limite

aux fonctions à valeurs réelles.

Théorème 1.6 (Formules de Taylor pour les fonctions une fois dérivable). Soit f : Ω → R unefonction.

(a) Définition de la différentielle = Formule de Taylor-Young à l’ordre 1 : Si f est différentiableen x ∈ Ω, alors

f(x+ h) = f(x) + 〈∇f(x), h〉+ ‖h‖ε(h) avec limh→0

ε(h) = 0.

On considère maintenant un point h fixé tel que le segment [x, x+ h] soit inclus dans Ω.

(b) Formule des accroissements finis : Si f est continue sur Ω et différentiable sur ]x, x + h[,alors

|f(x+ h)− f(x)| " supy∈]x,x+h[

‖∇f(y)‖‖h‖.

8

Page 9: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

(c) Formule de Taylor-Maclaurin : Si f est continue sur Ω et différentiable sur ]x, x+ h[, alorsil existe θ ∈]0, 1[ tel que

f(x+ h) = f(x) + 〈∇f(x+ θh), h〉.

(d) Formule de Taylor avec reste intégral : Si f ∈ C1(Ω) alors

f(x+ h) = f(x) +

1 1

0

〈∇f(x+ th), h〉dt.

Preuve. On applique les formules de Taylor à la fonction ϕ(t) = f(x+ th), t ∈ [0, 1].

Théorème 1.7 (Formules de Taylor pour les fonctions deux fois dérivable). Soit f : Ω → Rune fonction.

(a) Formule de Taylor-Young à l’ordre 2 : Si f est différentiable dans Ω et deux fois différen-tiable en x ∈ Ω, alors

f(x+ h) = f(x) + 〈∇f(x), h〉+ 1

2〈∇2f(x)h, h〉+ ‖h‖2ε(h) avec lim

h→0ε(h) = 0.

On considère maintenant un point h fixé tel que le segment [x, x+ h] soit inclus dans Ω.

(b) Formule des accroissements finis généralisée : Si f ∈ C1(Ω) et f est deux fois différentiablesur ]x, x+ h[, alors

|f(x+ h)− f(x)− 〈∇f(x), h〉| " 1

2sup

y∈]x,x+h[

‖∇2f(y)‖Mn(R)‖h‖2.

où ‖ · ‖Mn(R) désigne la norme subordonnée des matrices pour la norme euclidienne.

(c) Formule de Taylor-Maclaurin : Si f ∈ C1(Ω) et f est deux fois différentiable sur ]x, x+ h[,alors il existe θ ∈]0, 1[ tel que

f(x+ h) = f(x) + 〈∇f(x), h〉+ 1

2〈∇2f(x+ θh)h, h〉.

(d) Formule de Taylor avec reste intégral : Si f ∈ C2(Ω) alors

f(x+ h) = f(x) + 〈∇f(x), h〉+1 1

0

(1− t)〈∇2f(x+ th)h, h〉dt.

9

Page 10: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Chapitre 2

Problèmes d’optimisation : Existence etunicité des solutions

La référence principale pour ce chapitre est le chapitre 8 de [CIARLET].

2.1 Cadre et vocabulaireOn appelle problème d’optimisation tout problème de la forme

Trouver x" tel que x" ∈ U et f(x") = minx∈U

f(x),

où U est une partie donnée de Rn et f : Rn → R est une fonction donnée que l’on appelle fonc-tionnelle du problème d’optimisation. Le but de l’optimisation est de proposer des algorithmespermettant d’approcher les solutions x" au sens où, partant d’un vecteur initial x(0) quelconque,on construit explicitement une suite de vecteurs (x(k))k"0 convergeant vers une solution x".

Le problème d’optimisation est dit sans contraintes si U = Rn et sous contraintes sinon.On dit que le problème est convexe si f et U sont convexes.Dans ce cours on s’intéressera à résoudre des problèmes d’optimisation (généralement convexes)

de dimension finie, avec ou sans contraintes.On établira dans ce chapitre des conditions d’existence et d’unicité des solutions de pro-

blèmes d’optimisation. Dans les chapitres suivants, on s’intéressera à l’élaboration d’algo-rithmes itératifs pour la résolution effectives de tels problèmes d’optimisation convexes, avecou sans contraintes et de dimension finie.

Bien sûr, les méthodes développées dans ce cours permettent également de trouver les va-leurs maximales de fonctions f . Pour cela il suffit de remplacer f par −f puisque

maxx∈U

f(x) = minx∈U

−f(x).

Extremums des fonctions réelles Soit f : U → R, où U ⊂ Rn. On dit que la fonction fadmet en un point x ∈ U un minimum local (respectivement un maximum local) s’il existe unε > 0 tel que pour tout y ∈ U ∩ B(x, ε), f(y) ! f(x) (resp. f(y) " f(x)). On dit que lafonction admet un extremum local en x si elle admet soit un minimum soit un maximum localen x.

Par abus de langage, on dira que x est un minimum local pour dire que la fonction f admetun minimum local en x.

10

Page 11: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

On dit qu’un minimum local x est strict s’il existe un ε > 0 tel que pour tout y ∈ U∩B(x, ε),y ∕= x, f(y) > f(x). On définit de même la notion de maximum strict.

Enfin, on dit qu’un minimum x est global si pour tout y ∈ U , f(y) ! f(x). Si W ⊂ U , ondira qu’un minimum x ∈ W est global sur W si pour tout y ∈ W , f(y) ! f(x). On définit demême la notion de maximum global.

2.2 Existence de solutions pour les fonctions coercives et conti-nues

La première question concernant un problème d’optimisation est celle de l’existence d’unesolution. Si on cherche à minimiser une fonction f : U ⊂ Rn → R continue sur U , alors ilest bien connue que si U est compact (i.e. fermé et borné) la fonction f est bornée et atteintses bornes sur U . Elle admet donc au moins un minimum global x" ∈ U . La notion de fonctioncoercive permet d’étendre ce type de raisonnement pour des fonctions définies sur des domainesnon bornés.

Définition 2.1 (Fonctions coercives). Une fonction f : Rn → R est dite coercive si

lim‖x‖→+∞

f(x) = +∞.

Théorème 2.2. Soient U une partie non vide fermée de Rn et f : Rn → R une fonctioncontinue, coercive si l’ensemble U est non borné. Alors il existe au moins un élément x" ∈ Utel que

f(x") = infx∈U

f(x).

Preuve. Soit x0 un point quelconque de U . La coercivité de f entraîne qu’il existe un réel r > 0tel que

‖x‖ ! r ⇒ f(x) > f(x0).

Donc,infx∈U

f(x) = infx∈U∩B(0,r)

f(x).

Comme l’ensemble U ∩B(0, r) est fermé et borné et que f est continue, f est bornée et atteintses bornes sur le compact U ∩B(0, r), ce qui assure l’existence d’un minimum (global) dans U(qui est inclus dans U ∩B(0, r)).

2.3 Extremums locaux et dérivabilitéOn va maintenant chercher à caractériser les minimums locaux des fonctions différentiables.

Dans toute la suite du chapitre Ω désigne un sous-ensemble ouvert de Rn.

Théorème 2.3 (Condition nécessaire d’extremum local). Soit f : Ω → R une fonction à valeursréelles. Si la fonction f admet un extremum local en un point x ∈ Ω et si elle est différentiableen ce point, alors

∇f(x) = 0 (ou encore df(x) = 0).

11

Page 12: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

On dit qu’un point x est un point critique de la fonctionnelle f si ∇f(x) = 0.On s’intéresse maintenant aux conditions nécessaires et suffisantes faisant intervenir la dé-

rivée seconde. On rappelle qu’une matrice symétrique A est dite positive si

∀u ∈ Rn, 〈Au, u〉 ! 0

et est dite définie positive si

∀u ∈ Rn \ 0, 〈Au, u〉 > 0.

On rappelle également que A est positive (respectivement définie positive) si et seulement sitoutes ses valeurs propres sont positives (respectivement strictement positives).

Théorème 2.4 (Condition nécessaire de minimum local pour la dérivée seconde). Soit f : Ω →R une fonction différentiable dans Ω. Si la fonction f admet un minimum local en un pointx ∈ Ω et si f est deux fois différentiable en x, alors pour tout h ∈ Rn,

〈∇2f(x)h, h〉 ! 0 (ou encore d2f(x)(h, h) ! 0),

autrement dit la matrice hessienne ∇2f(x) est positive.

Preuve. Soit h ∈ Rn. Il existe un intervalle ouvert I ⊂ R contenant l’origine tel que

t ∈ I ⇒ (x+ th) ∈ Ω et f(x+ th) ! f(x).

La formule de Taylor-Young donne

f(x+ th) = f(x) + t〈∇f(x), h〉+ t2

2〈∇2f(x)h, h〉+ t2‖h‖2ε(th)

avec limy→0

ε(y) = 0. Comme x est un minimum dans l’ouvert Ω, d’après le Théorème 2.3 on a

∇f(x) = 0. Ainsi,

0 " f(x+ th)− f(x) =t2

2〈∇2f(x)h, h〉+ t2‖h‖2ε(th)

En divisant par t2

2on en déduit que pour tout t ∕= 0,

∇2f(x)h, h〉+ 2‖h‖2ε(th) ! 0.

En faisant tendre t vers 0 on obtient bien que 〈∇2f(x)h, h〉 ! 0.

Comme le montre le résultat suivant, la dérivée seconde permet souvent de déterminer lanature d’un point critique, c’est-à-dire de déterminer si un point critique est bien un minimumlocal, un maximum local, ou ni l’un ni l’autre.

Théorème 2.5 (Condition suffisante de minimum local pour la dérivée seconde). Soit f : Ω →R une fonction différentiable dans Ω et x un point critique de f (i.e. tel que ∇f(x) = 0).

(a) Si la fonction f est deux fois différentiable en x et si

∀h ∈ Rn \ 0, 〈∇2f(x)h, h〉 > 0

(i.e. la matrice hessienne ∇2f(x) est définie positive), alors la fonction f admet un mini-mum local strict en x.

12

Page 13: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

(b) Si la fonction f est deux fois différentiable dans Ω, et s’il existe une boule B ⊂ Ω centréeen x telle que

∀y ∈ B, ∀h ∈ Rn, 〈∇2f(y)h, h〉 ! 0

alors la fonction f admet en minimum local en x.

Preuve. (a) Comme ∇2f(x) est définie positive, il existe un nombre α > 0 tel que

∀h ∈ Rn, 〈∇2f(x)h, h〉 ! α‖h‖2

(en prenant par exemple α = λmin(∇2f(x)) la plus petite valeur propre de ∇2f(x)).D’après la formule de Taylor-Young,

f(x+h) = f(x)+ 〈∇f(x), h〉+ 1

2〈∇2f(x)h, h〉+ ‖h‖2ε(h) ! f(x)+ (

1

2α− |ε(h)|)‖h‖2

avec limh→0

ε(h) = 0. Soit r > 0 tel que pour tout h ∈ B(0, r), |ε(h)| < 12α. Alors, pour tout

h ∈ B(0, r), f(x+ h) > f(h), donc x est bien un minimum strict.(b) Soit h tel que x + h ∈ B. Alors, comme f est deux fois différentiable, d’après la formule

de Taylor-Maclaurin il existe y ∈]x, x+ h[ tel que

f(x+ h) = f(x) + 〈∇f(x), h〉+ 1

2〈∇2f(y)h, h〉 = f(x) +

1

2〈∇2f(y)h, h〉,

donc f(x+ h) ! f(x) pour tout h tel que x+ h ∈ B, x est bien un minimum local de f .

Remarque (Etude des points critiques). Les deux derniers résultats permettent la plupart dutemps de déterminer la nature d’un point critique x d’une fonction f (i.e. une solution x del’équation ∇f(x) = 0).

— Si la matrice hessienne ∇2f(x) est définie positive, x est un minimum local strict (Théo-rème 2.5).

— Si la matrice hessienne ∇2f(x) est définie négative, x est un maximum local strict(Théorème 2.5 appliqué à −f ).

— Si la matrice hessienne a des valeurs propres de signes différents, x n’est ni un maximumni un minimum local (par contraposée du Théorème 2.4). On parle alors de point selle(formellement un point selle est un point critique ou f ne présente pas d’extremumlocal).

2.4 Ensembles convexesOn rappelle qu’étant donnés deux vecteurs x et y ∈ Rn, [x, y] désigne le segment entre x et

y, à savoir[x, y] = θx+ (1− θ)y, θ ∈ [0, 1].

Définition 2.6 (Ensembles convexes). On dit qu’un ensemble U ⊂ Rn est convexe si

∀x, y ∈ U, [x, y] ⊂ U,

soit encore si∀x, y ∈ U, ∀θ ∈ [0, 1], θx+ (1− θ)y ∈ U.

(autrement dit U contient tout segment rejoignant n’importe quel couple de ses points).

13

Page 14: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Voici quelques exemples d’ensembles convexes :— Un sous-espace vectoriel est convexe— Un hyperplan est convexe.— La boule unité d’une norme est convexe.— Toute intersection d’ensembles convexes est convexe.— Un hyper-rectangle [a1, b1] × · · · × [an, bn] est convexe. Plus généralement le produit

cartésien C = C1 × · · · × Ck d’ensembles convexes C1 ⊂ Rn1 , . . . , Cn ⊂ Rnk est unensemble convexe de l’espace produit Rn1 × · · ·× Rnk .

— L’image d’un ensemble convexe par une application linéaire est convexe (voir exercice).En particulier, les translations, rotations, dilatations, projections d’ensembles convexessont convexes.

Théorème 2.7 (Condition nécessaire de minimum local sur un ensemble convexe). Soit f :Ω → R et U une partie convexe de Ω. Si la fonction f est différentiable en un point x ∈ U et sielle admet en x un minimum local par rapport à l’ensemble U , alors

∀y ∈ U, 〈∇f(x), y − x〉 ! 0 (ou encore df(x)(y − x) ! 0.

En particulier si U est un sous-espace affine de Rn (c’est-à-dire U = x + F avec F un sous-espace vectoriel de V ), alors

∀y ∈ U, 〈∇f(x), y − x〉 = 0 (ou encore df(x)(y − x) = 0.

Preuve. Soit y = x + h un point quelconque de l’ensemble U . U étant convexe, les pointsx+ θh, θ ∈ [0, 1], sont tous dans U . La dérivabilité de f en x permet d’écrire

f(x+ θh)− f(x) = θ〈∇f(x), h〉+ θ‖h‖ε(θh),

avec limθ→0 ε(θh) = 0. Comme le membre de gauche est positif, on a nécessairement 〈∇f(x), h〉 =〈∇f(x), y−x〉 ! 0 (dans le cas contraire pour θ assez petit le membre de droite serait < 0). Lescas des sous-espaces affines U = u+ F , on remarque que si x+ h ∈ U alors x− h appartientégalement à U et donc on a la double inégalité 〈∇f(x), h〉 ! 0 et 〈∇f(x),−h〉 ! 0 et donc〈∇f(x), h〉 = 0.

Remarque. L’interprétation géométrique du théorème précédent est très importante. Si x estun minimum local par rapport au convexe U tel que ∇f(x) ∕= 0, alors ∇f(x) est orienté versl’intérieur du convexe. En effet, la condition 〈∇f(x), y − x〉 ! 0 signifie que l’angle formé parles vecteurs ∇f(x) et y − x est un angle aigu. Dans le cas d’un espace affine U = x + F , celarevient à une condition d’orthogonalité ∇f(x) ∈ F⊥.

2.5 Fonctions convexes

2.5.1 Définition et exemplesDéfinition 2.8 (Fonctions convexes). Soit U ⊂ Rn un ensemble convexe. Soit f : U → R unefonction à valeurs réelles.

— f est convexe si

∀x, y ∈ U, ∀θ ∈ [0, 1], f(θx+ (1− θ)y) " θf(x) + (1− θ)f(y).

14

Page 15: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

— f est strictement convexe si

∀x, y ∈ U, x ∕= y, ∀θ ∈]0, 1[, f(θx+ (1− θ)y) < θf(x) + (1− θ)f(y).

Une fonction f est (strictement) concave si son opposée x (→ −f(x) est (strictement) convexe.

Remarque. On peut également restreindre θ à ]0, 1[ pour la définition de la convexité.

Voici quelques exemples de fonctions convexes :— Sur R, la fonction x (→ x2 est strictement convexe.— Sur R, la fonction x (→ |x| est convexe mais pas strictement convexe.— De même, sur Rn, la fonction x (→ ‖x‖2 est strictement convexe la fonction x (→ ‖x‖

est convexe mais pas strictement convexe.— Le sup d’une famille quelconque de fonctions convexes est convexe.— La composée d’une fonction affine et d’une fonction convexe est convexe (voir exercice).— Sur Rn, les fonctions affines f(x) = 〈a, x〉 + b (avec a ∈ Rn et b ∈ R) sont les seules

fonctions à la fois convexes et concaves (voir exercice).

Théorème 2.9 (Continuité des fonctions convexes). Soit U ⊂ Rn un ensemble convexe d’inté-rieur non vide et f : U → R une fonction convexe sur U . Alors f est continue sur l’intérieur deU .

On admet la preuve de ce résultat (voir [BERGOUNIOUX] chapitre 1 pour une démonstra-tion). On notera qu’une fonction convexe peut être discontinue au bord de son domaine (parvaleur supérieure).

Etant donnée une fonction f : U ⊂ Rn → R, on appelle sous-ensemble de niveau α de fl’ensemble

Cα = x ∈ U, f(x) " α.

Proposition 2.10. Soit U ⊂ Rn un ensemble convexe et f : U → R une fonction convexe surU . Alors pour tout α ∈ R, l’ensemble Cα est convexe. En particulier, l’ensemble des minimumsglobaux de f est un ensemble convexe (qui peut être vide).

Preuve. Soit α ∈ R. Soient x1 et x2 dans Cα et θ ∈ [0, 1]. Alors, comme f est convexe,

f(θx1 + (1− θ)x2) " θf(x1) + (1− θ)f(x2) " θα + (1− θ)α = α

donc θx1 + (1− θ)x2 ∈ Cα ce qui prouve bien que Cα est convexe. L’ensemble des minimumsglobaux de f n’est autre que le sous-ensemble de niveau p∗ = inf

x∈Uf(x) de f , et il est donc bien

convexe.

Remarque. La réciproque de la proposition précédente est fausse. Il existe des fonctions nonconvexes dont tous les sous-ensembles de niveaux sont convexes, comme par exemple x (→−e−x sur R. Un autre exemple : Sur R, tous les ensembles de niveaux de la fonction [0,+∞[

sont convexes mais cette fonction n’est pas convexe. En effet,

Cα = x ∈ R, [0,+∞[(x) " α =

234

35

∅ si α < 0,

]−∞, 0[ si α ∈ [0, 1[,

R si α > 1,

qui sont bien tous des ensembles convexes. En revanche la fonction n’est pas convexe car parexemple

1 = f(0) >1

2f(1) +

1

2f(−1) =

1

2.

15

Page 16: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

2.5.2 Caractérisation des fonctions convexes différentiables et deux foisdifférentiables

Avant de considérer l’influence de la convexité sur l’existence et l’unicité de minimums,nous donnons des caractérisations de la notion de convexité pour les fonctions différentiables etdeux fois différentiables.

Le théorème ci-dessous exprime le fait qu’une fonction différentiable est convexe si et seule-ment si son graphe est au-dessus de chacun des ses plans tangents.

Théorème 2.11 (Convexité et dérivabilité première). Soit f : Ω → R une fonction différen-tiable dans l’ouvert Ω et soit U ⊂ Ω un sous-ensemble convexe.

(a) La fonction f est convexe sur U si et seulement si pour tout x, y ∈ U ,

f(y) ! f(x) + 〈∇f(x), y − x〉 (ou encore f(y) ! f(x) + df(x)(y − x)).

(b) La fonction f est strictement convexe sur U si et seulement si pour tout x, y ∈ U , x ∕= y,

f(y) > f(x) + 〈∇f(x), y − x〉 (ou encore f(y) > f(x) + df(x)(y − x)).

Preuve. (a) : ⇒ : Soient x, y deux points distincts de U et θ ∈]0, 1[. Comme f est convexe,

f((1− θ)x+ θy) " (1− θ)f(x) + θf(y)

et on a doncf(x+ θ(y − x))− f(x)

θ" f(y)− f(x).

En passant à la limite θ → 0 on a

〈∇f(x), y − x〉 = limθ→0

f(x+ θ(y − x))− f(x)

θ" f(y)− f(x).

⇐ : Réciproquement supposons que pour tout x, y ∈ U ,

f(y) ! f(x) + 〈∇f(x), y − x〉.

Soient x, y deux points distincts de U et θ ∈]0, 1[. En appliquant l’inégalité aux deux couples(θx+ (1− θ)y, y) et (θx+ (1− θ)y, x) on a

f(y) ! f(θx+ (1− θ)y) + 〈∇f(θx+ (1− θ)y), θ(y − x)〉,

etf(x) ! f(θx+ (1− θ)y) + 〈∇f(θx+ (1− θ)y), (1− θ)(x− y)〉.

En multipliant par (1− θ) et θ ces deux inégalités, on obtient en les sommant

θf(x) + (1− θ)f(y) ! f(θx+ (1− θ)y),

donc f est bien convexe.(b) : La preuve de l’implication indirecte est identique en remplaçant les inégalités larges

par des inégalités strictes. En revanche pour l’implication directe, le passage à la limite changeles inégalités strictes en inégalités larges, donc on ne peut pas conclure aussi rapidement. Pour

16

Page 17: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

cela on se donne cette fois-ci deux poids 0 < θ < ω < 1. Alors, comme f est strictementconvexe et (1− θ)x+ θy ∈ [x, (1− ω)x+ ωy] avec

(1− θ)x+ θy =ω − θ

ωx+

θ

ω((1− ω)x+ ωy)

f((1− θ)x+ θy) <ω − θ

ωf(x) +

θ

ωf((1− ω)x+ ωy).

D’où,f(x+ θ(y − x))− f(x)

θ<

f(x+ ω(y − x))− f(x)

ω< f(y)− f(x).

En passant à la limite θ → 0 on a alors

〈∇f(x), y − x〉 " f(x+ ω(y − x))− f(x)

ω< f(y)− f(x).

Théorème 2.12 (Convexité et dérivabilité seconde). Soit f : Ω → R une fonction deux foisdifférentiable et soit U ⊂ Ω un sous-ensemble convexe.

(a) La fonction f est convexe sur U si et seulement si pour tout x, y ∈ U ,

〈∇2f(x)(y − x), y − x〉 ! 0

(b) Si pour tout x, y ∈ U , x ∕= y,

〈∇2f(x)(y − x), y − x〉 > 0

alors f est strictement convexe sur U .

En particulier, si Ω = U est un ouvert convexe, alors

(a) f est convexe sur Ω si et seulement si pour tout x ∈ Ω la matrice hessienne ∇2f(x) estpositive.

(b) Si pour tout x ∈ Ω la matrice hessienne ∇2f(x) est définie positive, alors f est strictementconvexe sur Ω.

Preuve. Soient x et y = x + h deux points distincts de U . Alors, comme f est deux foisdifférentiable, d’après la formule de Taylor-Maclaurin il existe z ∈]x, x+ h[ tel que

f(x+ h) = f(x) + 〈∇f(x), h〉+ 1

2〈∇2f(z)h, h〉.

Mais z ∈]x, x+h[, donc il existe θ ∈]0, 1[ tel que z = θx+(1−θ)y, soit z−x = (1−θ)(y−x) =(1− θ)h. Ainsi

f(x+ h) = f(x) + 〈∇f(x), h〉+ 1

2

1

(1− θ)2〈∇2f(z)(z − x), (z − x)〉.

Si par hypothèse 〈∇2f(z)(z − x), (z − x)〉 est positif (resp. strictement positif) on déduit duthéorème de caractérisation des fonctions convexes différentiables que f est convexe (resp.strictement convexe).

17

Page 18: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Il reste à montrer que si f est convexe alors pour tout x, y ∈ U , 〈∇2f(x)(y−x), y−x〉 ! 0.Soient x, y = x+ h ∈ U . En appliquant la formule de Taylor-Young en x pour l’accroissementth (avec t ∈ [0, 1]),

f(x+ th) = f(x) + t〈∇f(x), h〉+ t2

2〈∇2f(x)h, h〉+ t2‖h‖2ε(th)

avec limt→0 ε(th) = 0. Donc

0 " f(x+ th)− f(x)− t〈∇f(x), h〉 = t2

2

$〈∇2f(x)h, h〉+ 2‖h‖2ε(th)

%

et on en déduit que 〈∇2f(x)h, h〉 ! 0 avec le raisonnement habituel.Le cas où U = Ω est une conséquence directe. On peut aussi le démontrer rapidement en

étudiant la différence entre f et ses approximations au premier ordre. En effet, pour x ∈ Ω,

g(y) = f(y)− f(x)− 〈∇f(x), y − x〉

est une fonction convexe (en tant que somme de fonctions convexes), deux fois différentiable ettelle que ∇2f(y) = ∇2g(y). Comme g(y) ! 0 et que g(x) = 0, x est un minimum global de fet donc nécessairement pour tout h ∈ Rn, 〈∇2f(x)h, h〉 ! 0.

2.6 Problèmes d’optimisation convexesOn rappelle qu’une problème d’optimisation

Trouver x" tel que x" ∈ U et f(x") = minx∈U

f(x),

est dit convexe si U et f sont convexes. Vis-à-vis de l’optimisation, la convexité joue un rôle cru-cial puisqu’elle permet d’assurer qu’un minimum local est en fait un minimum global, commeprécisé par le résultat suivant.

Théorème 2.13 (Minimum de fonctions convexes). Soit U ⊂ Rn un ensemble convexe.

(a) Si une fonction convexe f : U → R admet un minimum local en un point x, elle y admeten fait un minimum global sur U .

(b) Une fonction f : U → R strictement convexe admet au plus un minimum local qui est enfait un minimum global strict.

(c) Soit f : Ω → R une fonction convexe différentiable définie sur un ouvert convexe Ω ⊂ Rn.Alors un point x ∈ Ω est un minimum global de f si et seulement si ∇f(x) = 0 (ou encoredf(x) = 0).

(d) Soit f : Ω → R une fonction définie sur un ouvert Ω contenant U et telle que f est convexesur U . Alors x ∈ U est un minimum de f sur U si et seulement si pour tout y ∈ U ,

〈∇f(x), y − x〉 ! 0 (ou encore df(x)(y − x) ! 0.

En particulier, si U = x + F est un sous-espace affine, alors x ∈ U est un minimum de fsur U si et seulement si pour tout y ∈ U ,

〈∇f(x), y − x〉 = 0 (ou encore df(x)(y − x) = 0.

18

Page 19: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Preuve. (a) Soit y un point quelconque de U . Comme précédemment, la convexité entraîne que

f(y)− f(x) ! f(x+ θ(y − x))− f(x)

θ

pour tout θ ∈]0, 1[. Comme x est un minimum local, il existe un θ0 assez petit tel que f(x +θ0(y − x))− f(x) ! 0. Mais alors, f(y)− f(x) ! 0, donc x est bien un minimum global.

(b) Si f est strictement convexe et que x est un minimum local de f , alors pour y ∕= x leraisonnement précédent donne l’existence d’un θ0 > 0 tel que

f(y)− f(x) >f(x+ θ0(y − x))− f(x)

θ0! 0.

Donc y ∕= x implique f(y) > f(x). x est donc bien un minimum strict qui est global et unique.(c) On sait que ∇f(x) = 0 est une condition nécessaire pour être un minimum global.

Montrons que c’est une condition suffisante si f est convexe. D’après le Théorème 2.11, six ∈ Ω est tel que ∇f(x) = 0, alors pour tout y ∈ Ω, f(y) ! f(x) + 〈∇f(x), y − x〉 = f(x),donc x est bien un minimum global.

(d) C’est le même raisonnement. La condition est nécessaire d’après le Théorème 2.7, et sielle est vérifiée, alors d’après le Théorème 2.11 f(y) ! f(x) + 〈∇f(x), y − x〉 ! f(x) donc xest bien un minimum global sur U .

Remarque.— Une fonction non strictement convexe peut admettre plusieurs minimums locaux. Ce-

pendant, comme on l’a vu, l’ensemble des minimums globaux forme un ensemble convexe.— Le théorème précédent est fondamental pour la suite de ce cours. En pratique on ne

s’intéressera la plupart du temps à des problèmes d’optimisation convexes.— Etant donné un problème d’optimisation sans contrainte min

x∈Rnf(x) on devra toujours

vérifier si l’on se trouve dans les conditions « idéales » : Si f est différentiable, coerciveet strictement convexe, alors le problème admet une unique solution x" qui est l’uniquesolution de l’équation ∇f(x) = 0.

2.7 Etude des fonctionnelles quadratiquesOn appelle fonctionnelle quadratique toute fonction f : Rn → R de la forme

f(x) =1

2〈Ax, x〉 − 〈b, x〉+ c,

où A ∈ Mn(R) est une matrice carrée symétrique, b ∈ Rn et c ∈ R. La proposition suivanterésume les propriétés des fonctionnelles quadratiques.

Proposition 2.14 (Propriétés des fonctionnelles quadratiques). Soit f : Rn → R une fonction-nelle quadratique de la forme f(x) = 1

2〈Ax, x〉 − 〈b, x〉+ c. Alors,

(a) f est C2 sur Rn (et même C∞).

(b) Pour tout x ∈ Rn,∇f(x) = Ax− b et ∇2f(x) = A.

(c) f est convexe si et seulement si A est positive.

19

Page 20: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

(d) f est strictement convexe si et seulement si A est définie positive.

(e) infx∈Rn

f(x) est fini si et seulement si A est positive et telle que le système linéaire Ax = b

admet (au moins) une solution, et alors l’ensemble de solutions de Ax = b est l’ensembledes minimums globaux de f . Ainsi résoudre le problème d’optimisation associé à f revientà résoudre le système linéaire Ax = b.

La preuve de cette proposition est l’objet d’un exercice.

20

Page 21: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Chapitre 3

Algorithmes de descente pour desproblèmes sans contraintes

La référence principale pour ce chapitre est le chapitre 9 de [BOYD & VANDENBERGHE].Dans ce chapitre on s’intéresse à résoudre un problème d’optimisation convexe sans contrainte

de la formeTrouver x" ∈ Rn tel que f(x") = min

x∈Rnf(x),

où f : Rn → R est une fonction convexe et deux fois différentiable (sur Rn). Si le problèmeadmet des solutions x", on note

p" = f(x") = minx∈Rn

f(x).

Sous ces hypothèses on sait que résoudre le problème d’optimisation revient à résoudre le sys-tème non linéaire à n équations

∇f(x) =

&

''''''''(

∂f

∂x1

(x1, . . . , xn)

∂f

∂x2

(x1, . . . , xn)

...∂f

∂xn

(x1, . . . , xn)

)

********+

=

&

'''(

00...0

)

***+.

Afin d’assurer l’existence et l’unicité d’une telle solution, nous allons supposer que f est forte-ment convexe.

3.1 Forte convexitéDéfinition 3.1. Soit f : Rn → R une fonction deux fois différentiable. On dit que f est forte-ment convexe si il existe une constante m > 0 telle que

∀x, h ∈ Rn, 〈∇2f(x)h, h〉 ! m‖h‖2.

Autrement dit une fonction f deux fois différentiable est fortement convexe pour la constantem > 0 si et seulement si pour tout x ∈ Rn, la matrice ∇2f(x) − mIn est positive, ou encorepour tout x ∈ Rn, les valeurs propres de ∇2f(x) sont toutes plus grandes que m.

21

Page 22: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Proposition 3.2 (Propriétés des fonctions fortement convexes). Soit f : Rn → R une fonctionfortement convexe pour la constante m > 0. Alors f vérifie les propriétés suivantes :

(a) f est strictement convexe.

(b) Pour tous x, y ∈ Rn,

f(y) ! f(x) + 〈∇f(x), y − x〉+ m

2‖y − x‖2.

(c) f est coercive.

(d) f admet un unique minimum global x".

(e) Pour tout x ∈ Rn,

p" ! f(x)− 1

2m‖∇f(x)‖2 et ‖x− x"‖ " 2

m‖∇f(x)‖.

Preuve. (a) Comme pour tout x ∈ Rn, la matrice hessienne ∇2f(x) est définie positive, f eststrictement convexe d’après le Théorème 2.12 sur les fonctions convexes deux fois diffé-rentiables.

(b) Soient x, y ∈ Rn. D’après la formule de Taylor-Maclaurin, il existe z ∈]x, y[ tel que

f(y) = f(x) + 〈∇f(x), y − x〉+ 1

2〈∇2f(z)(y − x), y − x〉.

En appliquant l’inégalité de forte convexité au dernier terme on obtient la minoration an-noncée.

(c) En prenant x = 0 dans l’inégalité précédente on a

f(y) ! f(0) + 〈∇f(0), y〉+ m

2‖y‖2

! f(0)− ‖∇f(0)‖‖y‖+ m

2‖y‖2

! f(0) + ‖y‖/m2‖y‖ − ‖∇f(0)‖

0.

Cette fonction minorante est coercive, donc f est elle aussi coercive.

(d) f est strictement convexe et coercive, elle admet donc un unique minimum global.

(e) Soit x ∈ Rn. Alors, pour tout y ∈ Rn,

f(y) ! f(x) + 〈∇f(x), y − x〉+ m

2‖y − x‖2.

En prenant y = x" on a en appliquant l’inégalité de Cauchy-Shwarz,

p" ! f(x) + 〈∇f(x), x" − x〉+ m

2‖x" − x‖2

! f(x)− ‖∇f(x)‖‖x" − x‖+ m

2‖x" − x‖2

! f(x) + ‖x" − x‖/m2‖x" − x‖ − ‖∇f(x)‖

0

Ainsi,‖x" − x‖

/m2‖x" − x‖ − ‖∇f(x)‖

0" p" − f(x) " 0

22

Page 23: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

et doncm

2‖x" − x‖ − ‖∇f(x)‖ " 0

soit‖x" − x‖ " 2

m‖∇f(x)‖.

Revenons à l’inégalité pour tout y ∈ Rn,

f(y) ! f(x) + 〈∇f(x), y − x〉+ m

2‖y − x‖2.

Le terme de droite est une fonction quadratique de la variable y qui est minimale en y" =x− 1

m∇f(y) et cette valeur minimale vaut f(x)− 1

2m‖∇f(x)‖2 (à reprendre en détails en

exercice). Ainsi, on a pour tout y ∈ Rn,

f(y) ! f(x)− 1

2m‖∇f(x)‖2.

En prenant y = x" on a

p" ! f(x)− 1

2m‖∇f(x)‖2.

Proposition 3.3 (Propriétés des fonctions à hessienne bornée). Soit f : Rn → R une fonctionconvexe deux fois différentiable. On suppose qu’il existe M tel que

∀x, h ∈ Rn, 〈∇2f(x)h, h〉 " M‖h‖2,

autrement dit ‖∇2f(x)‖Mn(R) " M . Alors f vérifie les propriétés suivantes :(a) Pour tous x, y ∈ Rn,

f(y) " f(x) + 〈∇f(x), y − x〉+ M

2‖y − x‖2.

(b) Si f admet un minimum global en x" qui vaut p", alors pour tout x ∈ Rn,

p" " f(x)− 1

2M‖∇f(x)‖2.

La preuve de cette proposition fait l’objet d’un exercice.

Remarque. La formule des accroissements finis (pour les fonctions de Rn → Rn, voir [CIARLET])permet de montrer que si pour tous x, h ∈ Rn, 〈∇2f(x)h, h〉 " M‖h‖2, alors le gradient de fest M -Lipschitz, c’est-à-dire que

∀x, y ∈ Rn, ‖∇f(y)−∇f(x)‖ " M‖x− y‖.

Remarque. Dans les preuves des théorèmes de convergence on supposera qu’il existe desconstantes 0 < m " M telles que

∀x ∈ Rn, ∀h ∈ Rn, m‖h‖2 " 〈∇2f(x)h, h〉 " M‖h‖2.

En général, les constantes m et M ne sont pas connues, donc les bornes de la propositionprécédente ne sont pas explicites en pratique. Cependant, elles sont très importantes. En effet,les inégalités

f(x)− 1

2m‖∇f(x)‖2 " p" " f(x)− 1

2M‖∇f(x)‖2 et ‖x− x"‖ " 2

m‖∇f(x)‖

montrent que si la norme du gradient ‖∇f(x)‖ est faible alors x est proche de la solution x".

23

Page 24: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

3.2 Généralités sur les algorithmes de descente

3.2.1 Forme générale d’un algorithme de descenteUn algorithme de descente prend la forme générale décrite par l’Algorithme 1.

Algorithme 1 : Algorithme de descente général

Données : Un point initial x(0) ∈ Rn, un seuil de tolérance ε > 0Résultat : Un point x ∈ Rn proche de x"

Initialiser x :x ← x(0) ;k ← 0 ;

tant que ‖∇f(x)‖ > ε faire1. Déterminer une direction de descente d(k) ∈ Rn.

2. Déterminer un pas de descente t(k) > 0 tel que f(x(k) + t(k)d(k)) < f(x(k)).

3. Mettre à jour x :x ← x(k+1) = x(k) + t(k)d(k) ;k ← k + 1 ;

fin

Comme f est convexe,

f(x(k) + t(k)d(k)) ! f(x(k)) + t(k)〈∇f(x(k)), d(k)〉,

donc, comme t(k) > 0, pour avoir f(x(k) + t(k)d(k)) < f(x(k)) on doit nécessairement avoir〈∇f(x(k)), d(k)〉 < 0. On dira que d ∈ Rn est une direction de descente au point x si

〈∇f(x), d〉 < 0.

L’ensemble des directions de descentes au point x est ainsi un demi-espace ouvert.

Convergence : Si on fait abstraction du critère d’arrêt, un algorithme de descente produit unesuite de points (x(k))k∈N définie par la relation de récurrence

x(k+1) = x(k) + t(k)d(k)

et telle que f(x(k+1)) < f(x(k)) (sauf si x(k) = x" à partir d’un certain rang). L’étude de laconvergence d’un tel algorithme de descente consiste donc à savoir si la suite (x(k))k∈N convergevers x". On rappelle que si f est fortement convexe on a ‖x−x"‖ " 2

m‖∇f(x)‖, donc le critère

d’arrêt ‖∇f(x)‖ " ε implique ‖x− x"‖ " 2ε

m.

On verra que l’on s’intéresse également à la convergence de la suite (f(x(k)) − p")k∈N. Onparle alors de convergence pour la fonction objectif.

Proposition 3.4. Soit f : Rn → R une fonction fortement convexe telle que

∀x, h ∈ Rn, m‖h‖2 " 〈∇2f(x)h, h〉 " M‖h‖2

avec 0 < m " M . Alors pour tout x ∈ Rn,

2

M(f(x)− p") " ‖x− x"‖2 " 2

m(f(x)− p").

24

Page 25: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Par conséquent la suite réelle (f(x(k)))k∈N converge vers p" si et seulement si la suite de vecteurs(x(k))k∈N converge vers x".

Preuve. Par forte convexité on a

∀x, y ∈ Rn, f(y) ! f(x) + 〈∇f(x), y − x〉+ m

2‖y − x‖2.

En prenant y = x et x = x" on en déduit que

f(x) ! p" +m

2‖x− x"‖2,

d’où l’inégalité2

m(f(x)− p") ! ‖x− x"‖2.

De même, en utilisant la majoration

∀x, y ∈ Rn, f(y) " f(x) + 〈∇f(x), y − x〉+ M

2‖y − x‖2.

on obtient que 2M(f(x)− p") " ‖x− x"‖2. Finalement on a l’encadrement,

2

M(f(x)− p") " ‖x− x"‖2 " 2

m(f(x)− p").

Par continuité de f si (x(k))k∈N converge vers x" alors (f(x(k)))k∈N vers p" = f(x"). L’inégalité‖x− x"‖2 " 2

m(f(x)− p") montre que la réciproque est vraie.

Vitesse de convergence : Une fois qu’un algorithme est prouvé être convergent (i.e. (x(k))k∈Nconverge vers x"), on s’intéresse à sa vitesse de convergence. On dit que la méthode est d’ordrer ! 1, s’il existe une constante C > 0 telle que, pour k suffisamment grand

‖x(k+1) − x"‖‖x(k) − x"‖r " C.

— Si r = 1, il faut C ∈]0, 1[ pour avoir convergence et on a alors alors convergencelinéaire.

— Si r = 2, on a une convergence quadratique.

— Si lim‖x(k+1) − x"‖‖x(k) − x"‖r = 0 alors on dit que l’on a convergence superlinéaire (ce qui est

le cas pour toutes les méthodes d’ordre r > 1).La quantité − log10 ‖x(k)−x"‖ mesure le nombre de décimales exactes dans l’approximation

de x" par x(k). En cas de convergence linéaire on a

− log10 ‖x(k+1) − x"‖ ! − log10 ‖x(k) − x"‖ − log10 C

donc on gagne au moins − log10 C décimales à chaque itérations. Si on a une convergenced’ordre r > 1, on a

− log10 ‖x(k+1) − x"‖ ! −r log10 ‖x(k) − x"‖ − log10 C

donc x(k+1) a r fois plus de décimales exactes que x(k). En particulier si on a convergencequadratique, alors la précision double à chaque itération.

On parle également alors de convergence linéaire, quadratique, etc. pour la fonction objectif,c’est-à-dire la vitesse de convergence vers 0 de la suite (f(x(k))− p")k∈N.

25

Page 26: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

3.2.2 Algorithmes de recherche de pas de descenteDans l’Algorithme 1, l’étape

“Déterminer un pas de descente t(k) > 0 tel que f(x(k) + t(k)d(k)) < f(x(k))”

est restée volontairement floue. Il existe de nombreuses méthodes de recherche de pas avecdifférents critères (on parle de line search et des conditions de Wolfe). Comme dans le chapitre9 de [BOYD & VANDENBERGHE], nous allons nous limiter à deux méthodes, la méthode depas de descente optimal (dite aussi exacte) et la méthode de pas de descente par rebroussement.

Dans les deux cas, les données du problème sont une fonction f fortement convexe, un pointactuel x = x(k) ∕= x", une direction de descente d = d(k) pour le point x, et on cherche un pasde descente t = t(k) > 0 tel que f(x+ td) soit “suffisamment plus petit que f(x)”.

Pas de descente optimal : En théorie comme en pratique, il est utile de considérer la méthodequi donne le pas de descente pour lequel f(x+ td) est minimal, à savoir

t" = argmint>0

f(x+ td).

Il est immédiat de vérifier que t" est bien défini comme unique solution d’un problème convexe,et que t = t" si et seulement si 〈∇f(x + td), d〉 = 0. En particulier si f est une fonctionnellequadratique f(x) = 1

2〈Ax, x〉 − 〈b, x〉+ c on obtient l’expression

t" = −〈Ax− b, d〉〈Ad, d〉

(voir exercice).

Calcul du pas de descente par méthode de rebroussement : On détaille maintenant la mé-thode de rebroussement (backtracking an anglais) qui permet de calculer un pas de descentelorsque l’on ne sait pas minimiser la fonction f sur la demi-droite affine x+ td, t > 0. Cetteméthode est décrite par l’Algorithme 2.

Algorithme 2 : Algorithme de calcul du pas de descente par méthode de rebrousse-ment

Données : Un point x ∈ Rn, une direction de descente associée d ∈ Rn, deux réelsα ∈]0, 1

2[ et β ∈]0, 1[

Résultat : Un pas de descente t > 0Initialiser t :

t ← 1 ;tant que f(x+ td) > f(x) + αt〈∇f(x), d〉 faire

Réduire t d’un facteur β :t ← βt ;

fin

Comme f est convexe, on sait que

f(x+ td) ! f(x) + t〈∇f(x), d〉.

L’Algorithme 2 cherche donc à trouver un point t pour lequel cette borne inférieure réduite parun facteur α soit une borne supérieure. En effet, l’algorithme s’arrête dès lors que

f(x+ td) " f(x) + αt〈∇f(x), d〉.

26

Page 27: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Comme d’après la définition du gradient de f en x, pour t proche de 0, f(x+ td) est proche def(x) + t〈∇f(x), d〉 < f(x) + αt〈∇f(x), d〉, on est assuré que l’algorithme converge.

En pratique on choisira α ∈ [0.01, 0.3] et β ∈ [0.1, 0.8].

3.3 Algorithmes de descente de gradientOn s’intéresse maintenant à l’étude d’un algorithme de descente particulier appelé algo-

rithme de descente de gradient. Cet algorithme utilise comme direction de descente d = d(k) aupoint x = x(k) le vecteur opposé du gradient, soit

d(k) = −∇f(x(k)).

Algorithme 3 : Algorithme de descente de gradient

Données : Un point initial x(0) ∈ Rn, un seuil de tolérance ε > 0Résultat : Un point x ∈ Rn proche de x"

Initialiser x :x ← x(0) ;k ← 0 ;

tant que ‖∇f(x)‖ > ε faire1. Calculer d(k) = −∇f(x) (d(k) = −∇f(x(k))).

2. Déterminer un pas de descente t(k) > 0 par la méthode exacte(ou par la méthode de rebroussement).

3. Mettre à jour x :x ← x(k+1) = x(k) + t(k)d(k) ;k ← k + 1 ;

fin

Attention, en pratique, on teste plutôt le critère d’arrêt après l’étape 1. afin de ne pas calculerdeux fois ∇f(x(k)). La convergence de l’algorithme est assurée par le théorème suivant.

Théorème 3.5 (Convergence de l’algorithme de descente de gradient). Soient f : Rn → R unefonction fortement convexe telle que

∀x, h ∈ Rn, m‖h‖2 " 〈∇2f(x)h, h〉 " M‖h‖2

avec 0 < m " M et x(0) un point quelconque de Rn. Alors l’algorithme de descente de gradientconverge et on a convergence linéaire de la suite (f(x(k))− p")k∈N :

∀k ∈ N, f(x(k))− p" " ck(f(x(0))− p"),

où c ∈ [0, 1[ dépend de la méthode de recherche de pas de descente et est donnée par— c = 1− m

Mpour la méthode exacte/optimale,

— c = 1−min/2mα, 2βα

m

M

0pour la méthode de rebroussement utilisant les constantes

α ∈]0, 12[ et β ∈]0, 1[.

27

Page 28: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Preuve. On rappelle que sous les hypothèses du théorème on a démontré à la Proposition 3.4l’encadrement

2

m(f(x(k))− p") " ‖x(k) − x"‖2 " 2

M(f(x(k))− p").

qui montre que la convergence de (f(x(k)))k∈N vers p" entraîne la convergence de (x(k))k∈N versx". On donne maintenant la preuve de la convergence linéaire de (f(x(k))− p")k∈N dans le casde la méthode optimale pour le calcul du pas de descente. La preuve pour le cas de la méthodede rebroussement fait l’objet d’un exercice.

On suppose que l’algorithme de gradient est à l’itération k et que x(k) ∕= x" (sinon l’algo-rithme a convergé en un nombre fini l " k d’itérations et la suite (x(k)) est constante à x" àpartir du rang l). Le point x(k+1) est de la forme x(k+1) = x(k) + t(k)∇f(x(k)) avec

t(k) = argmint>0

f(x(k) − t∇f(x(k))).

On a pour tous x, y ∈ Rn,

f(y) " f(x) + 〈∇f(x), y − x〉+ M

2‖y − x‖2.

En prenant x = x(k) et y = x(k) − t∇f(x(k)) pour tout t > 0 on a

f(x(k) − t∇f(x(k))) " f(x(k))− t‖∇f(x(k))‖2 + t2M

2‖∇f(x(k))‖2.

Par définition, le membre de gauche est minimal en t = t(k) et vaut alors f(x(k) − t(k)∇f(x(k))) =f(x(k+1)). Ainsi pour tout t > 0, on a

f(x(k+1)) " f(x(k)) +

,M

2t2 − t

.‖∇f(x(k))‖2.

Le membre de droite est minimal en t = 1M

, et pour cette valeur de t on obtient la majoration

f(x(k+1)) " f(x(k))− 1

2M‖∇f(x(k))‖2.

On soustrait ensuite p" à cette inégalité

f(x(k+1))− p" " f(x(k))− p" − 1

2M‖∇f(x(k))‖2.

Enfin, d’après la Proposition 3.2, pour tout x ∈ Rn,

p" ! f(x)− 1

2m‖∇f(x)‖2

et donc pour x = x(k),‖∇f(x(k))‖2 ! 2m(f(x(k))− p").

Ainsi,f(x(k+1))− p" "

/1− m

M

0 $f(x(k))− p"

%.

Par récurrence, on a donc bien f(x(k))− p" " ck(f(x(0))− p") avec c = 1− mM

∈ [0, 1[.

28

Page 29: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

L’algorithme de descente de gradient avec la recherche de pas de descente exacte est souventappelé algorithme de gradient à pas optimal [CIARLET]. Attention, c’est le pas qui est optimal,et non l’algorithme! On étudiera des algorithmes plus “optimaux”, c’est-à-dire qui convergentplus rapidement. En terme de fonction objectif, la convergence de cet algorithme est donc li-néaire avec la constante c = 1 − m

M. On rappelle que m et M sont respectivement des bornes

inférieures et supérieures sur les valeurs propres des matrices hessiennes ∇2f(x), x ∈ S. Enparticulier se sont des bornes sur les valeurs propres de la matrice hessienne au point optimal x".Cela suggère que la convergence de l’algorithme de descente de gradient est d’autant plus rapidesi la matrice hessienne ∇2f(x") est bien conditionnée (on rappelle que pour une matrice réellesymétrique A le conditionnement cond(A) correspond au rapport des plus grande et plus petitevaleur propre, et donc cond(A) = λmax(A)

λmin(A)" M

m). On verra qu’en pratique cette observation est

vérifiée. Plus rigoureusement, pour une fonctionnelle quadratique f(x) = 12〈Ax, x〉− 〈b, x〉+ c

on a ∇2f(x) = A pour tout x, et donc on peut prendre m = λmin(A), M = λmax(A), et alorson a cond(A) = m

M. En particulier, si cond(A) = 1, c’est-à-dire si A = λI (avec λ > 0) est une

matrice scalaire, alors l’algorithme du gradient à pas optimal converge en une itération !

3.4 Méthode de NewtonLa méthode de Newton est un algorithme de descente pour lequel le pas de descente d(k) au

point x(k) est donné pard(k) = −∇2f(x(k))−1∇f(x(k)).

Le calcul de ce pas de descente nécessite donc la résolution d’un système linéaire de taille n×n.

Remarque (Résolution de système linéaire). On rappelle que l’évaluation numérique d’un vec-teur x de la forme

x = A−1b

ne doit en général jamais s’effectuer en calculant la matrice inverse A−1 puis en multipliant parle vecteur b mais en résolvant le système linéaire

Ax = b.

En Scilab cela s’écrit x = A\b (et surtout pas x = A^(-1)*b !).

Avant de poursuivre l’étude de l’algorithme de Newton, justifions le choix de ce pas dedescente. Pour une fonction f deux fois différentiable en x, la formule de Taylor-Young assureque

f(x+ h) = f(x) + 〈∇f(x), h〉+ 1

2〈∇2f(x)h, h〉+ ‖h‖2ε(h)

avec limh→0

ε(h) = 0. La fonction

g(x+ h) = f(x) + 〈∇f(x), h〉+ 1

2〈∇2f(x)h, h〉

est donc l’approximation d’ordre deux de f au voisinage de x. Cette fonction g est une fonction-nelle quadratique (en la variable h) avec A = ∇2f(x) et b = −∇f(x). Elle est donc minimalepour le vecteur

h" = −∇2f(x)−1∇f(x)

29

Page 30: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

qui est le pas de Newton. Autrement dit le pas de Newton d(k) = −∇2f(x(k))−1∇f(x(k)) estchoisi de sorte à ce que x(k) + d(k) minimise l’approximation à l’ordre deux au point x(k) de lafonction f .

Proposition 3.6. Le pas de Newton d = −∇2f(x(k))−1∇f(x(k)) est invariant par changementde variable affine.

La preuve de cette proposition fait l’objet d’un exercice.Cette proposition est fondamentale. Alors que l’algorithme de descente de gradient est très

influencé par le conditionnement de la matrice hessienne, l’algorithme de descente de Newtonest invariant par changement de variable affine.

Critère d’arrêt invariant par changement de variable affine : Comme pour toute les mé-thodes de descente, le critère d’arrêt ‖∇f(x)‖2 " ε2 est valide pour la méthode de Newton,mais il n’est pas invariant par changement de variable affine. Pour cela on préfère utiliser lecritère Λ(x) " ε2 où

Λ(x) = 〈∇2f(x)−1∇f(x),∇f(x)〉 = −〈d,∇f(x)〉

est la norme au carré de ∇f(x) pour la norme associée à la matrice symétrique définie positive∇2f(x)−1. On remarque que le produit scalaire 〈d,∇f(x)〉 = −Λ(x) est calculé par ailleursdans la méthode de rebroussement pour le calcul du pas de descente, donc ce critère d’arrêtn’ajoute aucun coût de calcul.

L’algorithme de Newton est donné par l’Algorithme 4.

Algorithme 4 : Algorithme de descente de Newton

Données : Un point initial x(0) ∈ Rn, un seuil de tolérance ε > 0, des paramètresα ∈]0, 1

2[ et β ∈]0, 1[ pour la méthode de rebroussement

Résultat : Un point x ∈ Rn proche de x"

Initialiser x :x ← x(0) ;k ← 0 ;

Calculer la première direction de descente :d(0) = −∇2f(x(0))−1∇f(x(0)) ;Λ(0) = −〈d(0),∇f(x(0))〉 ;

tant que Λ(k) > ε2 faire1. Déterminer un pas de descente t(k) > 0 au point x(k) selon la direction d(k)

par la méthode de rebroussement avec les paramètres α et β.

2. Mettre à jour x :x ← x(k+1) = x(k) + t(k)d(k) ;k ← k + 1 ;

3. Calculer la nouvelle direction de descente :d(k) = −∇2f(x(k))−1∇f(x(k)) ;Λ(k) = −〈d(k),∇f(x(k))〉 ;

fin

30

Page 31: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Théorème 3.7 (Convergence de la méthode de Newton). Soit f : Rn → R une fonction forte-ment convexe telle que

∀x, h ∈ Rn, m‖h‖2 " 〈∇2f(x)h, h〉 " M‖h‖2

avec 0 < m " M et dont la matrice hessienne est lipschitzienne pour la constante L > 0

∀x, y ∈ Rn, ‖∇2f(x)−∇2f(y)‖Mn(R) " L‖x− y‖.

Soit x(0) un point quelconque de Rn. On pose

η = min(1, 3(1− 2α))m2

Let γ = αβη2

m

M2.

Alors on a :— Si ‖∇f(x(k))‖ ! η, alors

f(x(k+1))− f(x(k)) " −γ.

— Si ‖∇f(x(k))‖ < η, alors la méthode de rebroussement retourne le pas t(k) = 1 et

L

2m2‖∇f(x(k+1))‖ "

,L

2m2‖∇f(x(k))‖

.2

.

En particulier, l’algorithme de Newton converge et atteint un régime de convergence quadra-tique au bout d’un nombre fini d’itérations.

Le théorème est admis. On renvoie à [BOYD & VANDENBERGHE, pp. 488-491] pour unepreuve détaillée.

Remarque. Si f : Rn → R est une fonctionnelle quadratique, alors l’algorithme de Newtonconverge en une seule itération. On retiendra que cela n’a pas de sens d’utiliser l’algorithme deNewton pour minimiser une fonctionnelle quadratique. L’algorithme de Newton est utile pourminimiser des fonctionnelles non quadratiques, et il consiste à minimiser une fonctionnellequadratique à chaque itération, ce qui implique la résolution d’un système linéaire de taillen×n. Chaque itération a donc un coût de calcul non négligeable, mais en revanche l’algorithmeconverge très rapidement et nécessite un faible nombre d’itérations pour atteindre une grandeprécision numérique.

31

Page 32: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Chapitre 4

Problème de minimisation sous contrainteségalités et inégalités : Les conditions deKarush-Kuhn-Tucker (KKT)

Les références principales pour ce chapitre sont :— [BERGOUNIOUX], chapitre 3.— [LANGE], chapitre 5.

4.1 Cadre et notationsNous allons considérer des problèmes d’optimisation de la forme

Trouver x" tel que x" ∈ U et f(x") = minx∈U

f(x),

où l’ensemble des contraintes U ⊂ Rn est défini par des égalités et des inégalités :

U = x ∈ Rn, h(x) = 0 et g(x) " 0

où— h : Rn → Rp représente p contraintes en égalité avec h(x) = (h1(x), h2(x), . . . , hp(x))

T ;— g : Rn → Rq représente q contraintes en inégalité avec g(x) = (g1(x), g2(x), . . . , gq(x))

T

et par convention g(x) " 0 signifie ∀j ∈ 1, . . . , q, gj(x) " 0 (i.e. g(x) ∈]−∞, 0]q).h et g seront toujours supposées continues de sorte que

U = h−1(0) ∩ g−1(]−∞, 0]q)

sera toujours un ensemble fermé.On rappelle que si f : Rn → R est continue et coercive et U est fermé non vide (ou

seulement continue si U est compact non vide) alors on a existence d’au moins une solution duproblème d’optimisation (Voir Théorème 2.2).

Proposition 4.1 (Contraintes convexes). Si la fonction contraintes en égalités h : Rn → Rp

est affine et si chacune des fonctions contraintes en inégalités gj : Ω → R sont convexes,l’ensemble des contraintes

U = x ∈ Rn, h(x) = 0 et g(x) " 0 = h−1(0) ∩ g−1(]−∞, 0]q)

est un sous-ensemble convexe fermé de Rn (possiblement vide).

32

Page 33: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Vocabulaire On dit qu’un problème d’optimisation sous la contrainte U est réalisable si Un’est pas vide. Tout point x ∈ U est alors appelé point admissible du problème.

Exemple 4.2.— Le cercle unité x ∈ Rn, ‖x‖ = 1 est une contrainte en égalité pour la fonction

h(x) = ‖x‖ − 1, mais aussi pour la fonction h(x) = ‖x‖2 − 1 qui est différentiable surtout Rn contrairement au premier choix.

— L’ensemble des vecteurs de probabilités de Rn est6x ∈ Rn, ∀i = 1, . . . , n, xi ! 0 et

n"

i=1

xi = 1

7

est décrit par une contrainte égalité et n contraintes inégalités par les fonctions

h(x) =n"

i=1

xi − 1 et gi(x) = −xi, i = 1, . . . , n.

Toutes ces fonctions sont affines donc l’ensemble est convexe (ce que l’on savait déjà !).

4.2 Conditions d’optimalité non qualifiéesOn va maintenant caractériser les solutions du problème

Trouver x" tel que x" ∈ U et f(x") = minx∈U

f(x),

où U = x ∈ Rn, h(x) = 0 et g(x) " 0.(P)

Théorème 4.3 (Conditions nécessaires d’optimalité non qualifiées). On suppose que f , h etg sont de classe C1 sur un ouvert Ω contenant l’ensemble des contraintes U . On supposeque x" ∈ U est une solution du problème (P). Alors il existe λ" = (λ"

1, . . . ,λ"p)

T ∈ Rp,µ" = (µ"

1, . . . , µ"q)

T ∈ Rq+, et µ"

0 ∈ R+ non tous nuls (i.e. (λ"1, . . . ,λ

"p, µ

"0, µ

"1, . . . , µ

"q)

T ∈Rp+q+1 \ 0) tels que

µ"0∇f(x") +

p"

i=1

λ"i∇hi(x

") +

q"

j=1

µ"j∇gj(x

") = 0 et ∀j ∈ 1, . . . , q, µ"jgj(x

") = 0,

autrement dit µ"j = 0 dès que gj(x

") < 0.

Démonstration. Admise, voir [BERGOUNIOUX] p. 58.

Vocabulaire et notation Les réels λ"1, . . . ,λ

"p et réels positifs µ"

1, . . . , µ"q sont appelés des

multiplicateurs de Lagrange. La relation

∀j ∈ 1, . . . , q, µ"jgj(x

") = 0

est une relation dite de complémentarité. On dit qu’une contrainte en inégalité gj est active (ousaturée) au point x ∈ U si gj(x) = 0 (on se trouve alors en général on bord du domaine U ).Dans le cas contraire, gj(x) < 0 et la contrainte est dite inactive. Pour tout x ∈ U , on notera

I(x) = j ∈ 1, . . . , q, gj(x) = 0

33

Page 34: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

l’ensemble des indices des contraintes actives en x. La relation de complémentarité du Théo-rème 4.3 assure que seul les vecteurs gradients ∇gj(x

") des contraintes actives en x" sont sus-ceptibles d’intervenir dans la combinaison linéaire

µ"0∇f(x") +

p"

i=1

λ"i∇hi(x

") +

q"

j=1

µ"j∇gj(x

") = 0.

Remarque.— Les multiplicateurs de Lagrange ne sont pas uniques. On peut par exemple tous les

multiplier par une constante.— Tant qu’on n’a pas µ"

0 > 0, le théorème n’apporte aucune information au problèmespécifique à f ! C’est pourquoi on parle de conditions non qualifiées. On verra ensuitedes conditions de qualifications des contraintes pour être assuré d’éviter ce problème.

4.3 Qualification des contraintesMauvaises descriptions des contraintes On ne change pas l’ensemble des contraintes

U = x ∈ Rn, h(x) = 0 et g(x) " 0

si l’on remplace h par

ϕ(x) =

,h(x)

−h1(x)

.∈ Rp+1.

Alors∇ϕp+1(x) = −∇h1(x) = −∇ϕ1(x).

Donc en tout point x ∈ U on peut obtenir une combinaison non triviale des gradients avecλ = (λ1, 0 . . . , 0,λ1)

T . Plus généralement on peut ajouter une combinaison linéaire des coor-données des hi et retrouver les mêmes problèmes. Une bonne représentation des contraintesdevrait donc avoir des vecteurs gradients ∇hi(x

") linéairement indépendants (i.e. qui formentune famille libre). De même on peut ajouter des combinaisons linéaires positives des contraintesinégalités gj (actives) sans changer le problème. Les contraintes seront donc bien représentéessi les vecteurs gradients ∇gj(x

") sont aussi linéairement indépendants. Malheureusement cen’est pas toujours possible d’avoir indépendance linéaire. Il en résulte que la notion de “bonnescontraintes” est assez compliquée.

Définition 4.4 (Qualification des contraintes de Mangasarian-Fromovitz). On dit qu’un pointréalisable x" ∈ U vérifie la qualification de contraintes de Mangasarian-Fromovitz (QCMF) si

(i) Les vecteurs ∇hi(x"), i = 1, . . . , p sont linéairement indépendants.

(ii) Il existe un vecteur non nul d ∈ Rn \ 0 tel que

∀i ∈ 1, . . . , p, 〈∇hi(x"), d〉 = 0 et ∀j ∈ I(x"), 〈∇gj(x

"), d〉 < 0.

La plupart du temps en pratique on peut se contenter de la qualification des contraintesmoins précise de Kuhn-Tucker faisant uniquement appel à l’indépendance linéaire.

Définition 4.5 (Qualification des contraintes de Kuhn-Tucker). On dit qu’un point réalisablex" ∈ U vérifie la qualification de contraintes de Kuhn-Tucker (QCKT) si les vecteurs ∇hi(x

"),i = 1, . . . , p, ∇gj(x

"), j ∈ I(x") sont linéairement indépendants.

34

Page 35: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Proposition 4.6 (QCKT implique QCMF). Un point réalisable x" ∈ U vérifiant la qualificationde contraintes de Kuhn-Tucker (QCKT) vérifie également la qualification de contraintes deMangasarian-Fromovitz (QCMF).

Preuve. Supposons que x" ∈ U vérifie QCKT. Soit r = #I(x") " q le nombre de contraintesactives. Alors l’application linéaire

ψ : Rn → Rp+r

x (→ ((〈∇hi(x"), x〉)1!i!p, (〈∇gj(x

"), x〉)j∈I(x!))

est de rang p + r car sa matrice est formée des p + r vecteurs lignes ∇hi(x"), i = 1, . . . , p,

∇gj(x"), j ∈ I(x") linéairement indépendants. En particulier ψ est surjective. Il existe donc un

vecteur d tel que ψ(d) = (0, . . . , 0,−1, . . . ,−1)T , et d ∕= 0 car ψ(0) = 0. On alors x" ∈ U quivérifie le point (ii) de QCMF avec ce vecteur d.

4.4 Conditions de Karush-Kuhn-Tucker (KKT)Théorème 4.7 (Conditions de Karush-Kuhn-Tucker (KKT)). On suppose que f , h et g sont declasse C1 sur un ouvert Ω contenant l’ensemble des contraintes U . On suppose que x" ∈ U estune solution du problème (P) et que x" vérifie la qualification de contraintes de Mangasarian-Fromovitz (QCMF). Alors x" vérifie les conditions de KKT :

Il existe λ" = (λ"1, . . . ,λ

"p)

T ∈ Rp et µ" = (µ"1, . . . , µ

"q)

T ∈ Rq+ tels que

∇f(x") +

p"

i=1

λ"i∇hi(x

") +

q"

j=1

µ"j∇gj(x

") = 0 et ∀j ∈ 1, . . . , q, µ"jgj(x

") = 0.

Preuve. Il suffit de montrer que l’on a nécessairement µ"0 non nul dans les coefficients donnés

par le Théorème 4.3 (et alors on divise par µ"0 > 0 pour obtenir le résultat). Supposons par

l’absurde que µ"0 = 0. On a alors λ" = (λ"

1, . . . ,λ"p)

T ∈ Rp et µ" = (µ"1, . . . , µ

"q)

T ∈ Rq+ non

tous deux nuls tels que

p"

i=1

λ"i∇hi(x

") +

q"

j=1

µ"j∇gj(x

") = 0 et ∀j ∈ 1, . . . , q, µ"jgj(x

") = 0.

Par définition, pour tout j /∈ I(x"), µ"j = 0. On a ensuite deux cas. Si pour tous j ∈ I(x"),

µ"j = 0, alors on obtient λ" = (λ"

1, . . . ,λ"p)

T ∕= 0 tel que

p"

i=1

λ"i∇hi(x

") = 0

ce qui contredit le point (i) de QCMF. Si il existe j0 ∈ I(x") tel que µ"j0> 0, alors, en prenant

un vecteur d vérifiant le point (ii) de QCMF,

0 =

p"

i=1

λ"i 〈∇hi(x

"), d〉8 9: ;=0

+

q"

j=1

µ"j〈∇gj(x

"), d〉8 9: ;!0

" µ"j0∇gj0(x

"), d〉 < 0.

On obtient encore une contradiction, ce qui conclut la preuve par l’absurde.

35

Page 36: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Comme dans le cas sans contraintes, ces conditions nécessaires d’optimalité caractérisentles solutions dans le cas convexe.

Définition 4.8 (Lagrangien). On appelle lagrangien du problème (P) la fonction définie surΩ× Rp × Rq par

L(x,λ, µ) = f(x) +

p"

i=1

λihi(x) +

q"

j=1

µjgj(x).

Proposition 4.9 (KKT cas convexe). On suppose que f , h et g sont de classe C1 sur un ouvertΩ contenant l’ensemble des contraintes U . On suppose de plus que Ω est convexe, que f estconvexe sur Ω, que la fonction contraintes en égalités h : Ω → Rp est affine et que chacunedes fonctions contraintes en inégalités gj : Ω → R sont convexes, de sorte que U est un sous-ensemble convexe fermé de Ω. On suppose enfin que x" vérifie la qualification de contraintesde Mangasarian-Fromovitz (QCMF). Alors x" ∈ U est une solution du problème (convexe) (P)si et seulement si x" vérifie les conditions de KKT.

Preuve. Le sens direct (condition nécessaire) est donné par le théorème des conditions de KKT.Pour le sens inverse, soit x" ∈ U vérifiant les conditions de KKT pour les vecteurs λ" =(λ"

1, . . . ,λ"p)

T ∈ Rp et µ" = (µ"1, . . . , µ

"q)

T ∈ Rq+ non tous deux nuls. Alors l’équation

∇f(x") +

p"

i=1

λ"i∇hi(x

") +

q"

j=1

µ"j∇gj(x

") = 0

montre que x" est un point critique de la fonction

x (→ L(x,λ", µ") = f(x) +

p"

i=1

λ"ihi(x) +

q"

j=1

µ"jgj(x).

Or cette fonction est convexe car f est convexe, x (→-p

i=1 λ"ihi(x) est affine et chaque gj est

convexe et chaque µ"j ! 0. Donc ce point critique est nécessairement un minimum global sur

Ω :∀x ∈ Ω, L(x",λ", µ") " L(x,λ", µ").

Or pour tout x ∈ U , h(x) = 0 et gj(x) " 0, d’où

L(x,λ", µ") = f(x) +

p"

i=1

λ"i hi(x)8 9: ;

=0

+

q"

j=1

µ"jgj(x)8 9: ;!0

" f(x).

Par ailleurs, en x" ∈ U vu la condition de complémentarité ∀j ∈ 1, . . . , q, µjgj(x") = 0,

même la deuxième somme est nulle,

L(x",λ", µ") = f(x) +

p"

i=1

λ"i hi(x)8 9: ;

=0

+

q"

j=1

µ"jgj(x)8 9: ;=0

= f(x").

Finalement,∀x ∈ U, f(x") = L(x",λ", µ") " L(x,λ", µ") " f(x),

donc x" ∈ U est bien une solution du problème (convexe) (P).

36

Page 37: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Exemple 4.10 (Utilisation pour une inégalité ([LANGE] p. 111)).Montrons que pour tout x1 ! 0, x2 ! 0,

x21 + x2

2 " 4ex1+x2−2.

Pour cela il suffit de montrer que

maxx1"0, x2"0

(x21 + x2

2)e−x1−x2 ! 4e−2.

Pour se ramener au cadre étudier on pose f(x) = −(x21 + x2

2)e−x1−x2 et g(x) = (−x1,−x2) et

on étudie le problèmeming(x)!0

f(x)

dont la valeur doit être −4e−2.Vérifions les hypothèses du Théorème4.7. f et g sont C1 sur R2. On a

∇g1(x) =

,−10

.et ∇g2(x) =

,0−1

.

qui sont linéairement indépendants pour tout x donc tout point réalisable vérifie les QCKT.Ainsi d’après les conditions de KKT, pour toute solution x du problème il existe µ = (µ1, µ2) !0 tel que

∇f(x) + µ1∇g1(x) + +µ2∇g2(x) = 0 et µ1g1(x) = µ2g2(x) = 0.

On a

∇f(x) = ∇<−(x2

1 + x22)e

−x1−x2==

,(x2

1 + x22 − 2x1)e

−x1−x2

(x21 + x2

2 − 2x2)e−x1−x2

.

On a donc le système >(x2

1 + x22 − 2x1)e

−x1−x2 − µ1 = 0(x2

1 + x22 − 2x2)e

−x1−x2 − µ2 = 0

avec µ1, µ2 ! 0 vérifiant −µ1x1 = −µ2x2 = 0. Supposons que les contraintes ne soient pasactives en x, c’est-à-dire x1 > 0 et x2 > 0 ce qui implique que µ1 = µ2 = 0 et on est ramené àchercher les points critiques de f . On a alors

>(x2

1 + x22 − 2x1)e

−x1−x2 = 0(x2

1 + x22 − 2x2)e

−x1−x2 = 0

donc >x21 + x2

2 − 2x1 = 0x21 + x2

2 − 2x2 = 0.

On obtient alors en soustrayant les deux équations x1 = x2 et par substitution, la deuxièmeéquation devient 2x2

2 − 2x2 = 0, et donc x2 = x1 = 1 ou x2 = x1 = 0. On a donc deux pointscritiques (1, 1) et (0, 0).

En (1, 1), on a f((1, 1)) = −2e−2. En (0, 0), on a f((0, 0)) = 0 > f((1, 1)) donc ce pointn’est pas solution.

Supposons maintenant que x1 = 0 et que x2 > 0. Alors, µ2 = 0 mais µ1 ! 0 quelconque.Les conditions de KKT deviennent donc

>x22e

−x2 − µ1 = 0(x2

2 − 2x2)e−x2 = 0

37

Page 38: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

On en déduit que x22 − 2x2 = 0 soit x2 = 2 puisque x2 > 0 (et on trouve que nécessaire-

ment µ1 = 4e−2). Le point (x1, x2) = (0, 2) est donc un candidat pour la valeur minimale duproblème contraint sans pour autant être un point critique de f . On a f((0, 2)) = −4e−2. Parsymétrie entre x1 et x2 on trouve le point (2, 0) si on suppose x2 = 0 et que x1 > 0.

Il reste à justifier qu’il s’agit bien d’un minimum global de f . Ici f n’est pas coercive, maisun argument similaire suffit : on montre qu’à l’infini f tend vers 0. Pour tout x1, x2 ! 0, parinégalité triangulaire

‖x‖ = ‖(x1, 0) + (0, x2)‖ " ‖(x1, 0)‖+ ‖(0, x2)‖ = |x1|+ |x2| = x1 + x2,

donc par croissance de t (→ −e−t,

f(x) = −‖x‖2e−x1−x2 ! −‖x‖2e−‖x‖.

Ainsi, sur [0,+∞[2, f tend vers 0 à l’infini. Il existe donc un voisinage B(0, R) ∩ [0,+∞[ telque f est supérieure à 1

2f((0, 2)) < 0 en dehors de ce compact. Donc la valeur f((0, 2)) est bien

un minimum global de f sur [0,+∞[. Au final on a montré l’inégalité annoncée qui est atteintesi et seulement si (x1, x2) = (0, 2) ou (x1, x2) = (2, 0).

Remarque. Comme pour la caractérisation des points critiques à l’aide de la matrice hessienne,il existe des conditions nécessaires du deuxième ordre pour que les points vérifiant les condi-tions de KKT soient bien des minimums (voir [BERGOUNIOUX], Section 3.3 pour des énoncéset des références).

38

Page 39: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Chapitre 5

Algorithmes pour l’optimisation souscontraintes

5.1 Solutions des problèmes d’optimisation convexesOn va maintenant s’intéresser à des problèmes d’optimisation sous contraintes, à savoir

Trouver x" tel que x" ∈ U et f(x") = minx∈U

f(x),

avec U un sous-ensemble de Rn. Pour un tel problème on dit qu’un point x ∈ U est un pointadmissible. On rappelle qu’un tel problème est dit convexe si U est un ensemble convexe et fest une fonction convexe sur (au moins) U .

On rappelle que les problèmes d’existence, d’unicité et de caractérisation des solutions ontété évoquées au Chapitre 2, voir notamment le Théorème 2.13 que l’on rappelle ci-dessous :

Théorème 5.1 (Minimum de fonctions convexes). Soit U ⊂ Rn un ensemble convexe.

(a) Si une fonction convexe f : U → R admet un minimum local en un point x, elle y admeten fait un minimum global sur U .

(b) Une fonction f : U → R strictement convexe admet au plus un minimum local qui est enfait un minimum global strict.

(c) Soit f : Ω → R une fonction convexe différentiable définie sur un ouvert convexe Ω ⊂ Rn.Alors un point x ∈ Ω est un minimum global de f si et seulement si ∇f(x) = 0 (ou encoredf(x) = 0).

(d) Soit f : Ω → R une fonction définie sur un ouvert Ω contenant U et telle que f est convexesur U . Alors x ∈ U est un minimum de f sur U si et seulement si pour tout y ∈ U ,

〈∇f(x), y − x〉 ! 0 (ou encore df(x)(y − x) ! 0.

En particulier, si U = x + F est un sous-espace affine, alors x ∈ U est un minimum de fsur U si et seulement si pour tout y ∈ U ,

〈∇f(x), y − x〉 = 0 (ou encore df(x)(y − x) = 0.

39

Page 40: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

5.2 Projection sur un convexe ferméThéorème 5.2. Soit C un sous-ensemble convexe, fermé et non vide de Rn et v un point quel-conque de Rn. Alors le problème

Trouver x" tel que x" ∈ C et ‖x" − v‖2 = minx∈C

‖x− v‖2

admet une unique solution x" ∈ C. x" est l’unique point x ∈ C tel que

∀y ∈ C, 〈v − x, y − x〉 " 0.

Le point x" est appelé projeté de v sur C et noté PC(v). L’application PC : Rn → Rn estidempotente (PC PC = PC) et 1-lipschitzienne :

∀u, v ∈ Rn, ‖PC(u)− PC(v)‖ " ‖u− v‖.

Preuve. La fonction f(x) = ‖x− v‖2 est une fonctionnelle quadratique

f(x) =1

2〈Ax, x〉 − 〈b, x〉+ c

avec A = 2In, b = 2v et c = f(0) = ‖v‖2. En particulier f est strictement convexe et coercive.Elle admet donc un unique minimum x" sur C. Ce minimum est l’unique point x ∈ C tel que

∀y ∈ C, 〈∇f(x), y − x〉 ! 0.

Or ∇f(x) = 2Inx− 2v = 2(x− v) d’où x" est l’unique point x ∈ C tel que

∀y ∈ C, 〈x− v, y − x〉 ! 0

ce qui correspond à la caractérisation de l’énoncé en changeant le signe du vecteur de gauchedans le produit scalaire.

Si v ∈ C on a clairement PC(v) = v, et comme pour tout v ∈ C, PC(v) ∈ C, on a bienPC PC = PC . Soient u, v ∈ Rn deux vecteurs. On a

∀y ∈ C, 〈u− PC(u), y − PC(u)〉 " 0.

En particulier en y = PC(v) on a

〈u− PC(u), PC(v)− PC(u)〉 " 0.

De même,〈v − PC(v), PC(u)− PC(v)〉 " 0.

Ainsi, en sommant ces inégalités,

〈u−PC(u), PC(v)−PC(u)〉+〈v−PC(v), PC(u)−PC(v)〉 = 〈−u+PC(u)+v−PC(v), PC(u)−PC(v)〉 " 0,

soit−〈u− v, PC(u)− PC(v)〉+ 〈PC(u)− PC(v), PC(u)− PC(v)〉 " 0

en donc‖PC(u)− PC(v)‖2 " 〈u− v, PC(u)− PC(v)〉.

On conclut en utilisant l’inégalité de Cauchy-Schwarz

〈u− v, PC(u)− PC(v)〉 " ‖PC(u)− PC(v)‖‖u− v‖.

Si ‖PC(u) − PC(v)‖ = 0, on a bien ‖PC(u) − PC(v)‖ " ‖u − v‖, sinon on simplifie par‖PC(u)− PC(v)‖ pour obtenir l’inégalité annoncée.

40

Page 41: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Exemple 5.3. On peut donner de la projection sur certains convexes fermés.— Si C est un sous-espace affine u+ F alors PC(v) est obtenue par projection orthogonal

de v − u sur F : PC(v) = u + pF (v − u). En particulier pour un hyperplan C = x ∈Rn, 〈a, x〉 = b avec a ∕= 0, on a

PC = v +(b− 〈a, v〉)

‖a‖2 a.

— La projection sur la boule unité C = x, ‖x‖ " 1 est donné par

PC(v) =1

‖v‖v.

On en déduit la projection sur une boule fermée quelconque.— La projection sur un hyper-rectangle (supposée non vide)

x, ∀i ∈ 1, . . . , n, ai " xi " bi

s’obtient un tronquant les coordonnées :

∀i ∈ 1, . . . , n, (PC(v))i = min(max(vi, ai), bi).

5.3 Algorithme de gradient projeté

Algorithme 5 : Algorithme de gradient projeté

Données : Un point initial x(0) ∈ C, un seuil de tolérance ε > 0, un pas fixe t > 0Résultat : Un point x ∈ Rn proche de x" = minx∈C f(x)Initialiser x :

x ← x(0) ;k ← 0 ;

tant que k = 0 ou ‖x(k+1) − x(k)‖ > ε faire1. Mettre à jour x :

x ← x(k+1) = PC

$x(k) − t∇f(x(k))

%;

k ← k + 1 ;

fin

La convergence de l’algorithme est assurée par le théorème suivant.

Théorème 5.4 (Convergence de l’algorithme de descente de gradient). Soient f : Rn → R unefonction fortement convexe telle que

∀x, h ∈ Rn, m‖h‖2 " 〈∇2f(x)h, h〉 " M‖h‖2

avec 0 < m " M et x(0) un point quelconque de C. Alors le problème

Trouver x" tel que x" ∈ U et f(x") = minx∈U

f(x),

admet une unique solution. De plus, pour t ∈=0, 2m

M2

<, l’algorithme de gradient projeté converge

et∀k ∈ N, ‖x(k) − x"‖2 " (1− 2mt+M2t2)k‖x(0) − x"‖2.

où (1− 2mt+M2t2) ∈ [0, 1[. On a donc convergence linéaire de la suite de points (x(k))k versla solution x".

41

Page 42: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Preuve. On remarque que x" est un point fixe de x (→ PC (x− t∇f(x)). On a donc

‖x(k+1) − x"‖ = ‖PC

$x(k) − t∇f(x(k))

%− PC (x" − t∇f(x")) ‖

" ‖x(k) − t∇f(x(k))− (x" − t∇f(x"))‖

où l’on a utilisé le caractère 1-lipschitzien de PC . On voit que l’on se retrouve avec l’erreurobtenue avec une descente de gradient sans contraintes ! On passe au carré et on développe,

‖x(k) − t∇f(x(k))− (x" − t∇f(x"))‖2

= ‖x(k) − x" − t∇f(x(k))‖2

= ‖x(k) − x"‖2 − 2t〈∇f(x(k))−∇f(x"), x(k) − x"〉+ t2‖∇f(x(k))−∇f(x")‖2.

D’après l’inégalité de forte convexité entre y = x" et x = x(k),

f(x") ! f(x(k)) + 〈∇f(x(k)), x" − x(k)〉+ m

2‖x(k) − x"‖2.

De même, en échangeant les rôles,

f(x(k)) ! f(x") + 〈∇f(x"), x(k) − x"〉+ m

2‖x(k) − x"‖2.

Doncf(x") ! f(x")− 〈∇f(x(k))−∇f(x"), x(k) − x"〉+m‖x(k) − x"‖2

et ainsi〈∇f(x(k))−∇f(x"), x(k) − x"〉 ! m‖x(k) − x"‖2.

Par ailleurs, on rappelle que l’hypothèse

∀x, h ∈ Rn, 〈∇2f(x)h, h〉 " M‖h‖2

implique que l’application x (→ ∇f(x) est M -lipschitzienne, donc

‖∇f(x(k))−∇f(x")‖ " M‖x(k) − x"‖.

Finalement, on a‖x(k+1) − x"‖2 " (1− 2mt+M2t2)‖x(k) − x"‖2

et on conclut par récurrence.

En pratique cet algorithme est implémentable dès lors que l’on sait projeter sur le convexeC. Selon les ensembles convexes considérés ce n’est pas toujours facile (ou faisable).

5.4 Méthode de Newton sous contraintes égalités affines

5.4.1 Minimisation d’une fonctionnelle quadratique sous contraintes éga-lités affines

On considère une fonctionnelle quadratique

f(x) =1

2〈Px, x〉 − 〈q, x〉+ r,

42

Page 43: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

avec P ∈ Mn(R) symétrique définie positive, q ∈ Rn, r ∈ R, que l’on cherche à minimisersous la contrainte Ax = b où A ∈ Mp,n(R) et b ∈ Rp. On suppose que A est de rang p (sinonon peut éliminer des lignes de A qui sont inutiles) et b ∈ Im(A) (sinon le problème n’est pasréalisable).

La contrainte U = x ∈ Rn, Ax = b s’écrit U = x ∈ Rn, h(x) = 0 avec h(x) =Ax − b. f est strictement convexe et h est convexe, donc x est solution si et seulement si ilexiste λ ∈ Rp,

∇f(x) +

p"

i=1

λi∇ihi(x) = 0 et Ax = b.

Ici, en notant a(1), . . . , a(p) ∈ Rn les (transposées) des lignes de A on a

hi(x) = 〈a(i), x〉 − bi et ∇hi(x) = a(i).

Ainsi,p"

i=1

λi∇ihi(x) =

p"

i=1

λia(i) = ATλ.

Par ailleurs, ∇f(x) = Px− q. Finalement x est solution si et seulement si il existe λ ∈ Rp telque ,

P AT

A 0

.,xλ

.=

,qb

..

Autrement si et seulement si le système linéaire ci-dessus admet une solution. Montrons quela matrice du système linéaire est inversible. Soit h = (h1, h2)

T ∈ Rn+p dans le noyau de lamatrice . Alors ,

P AT

A 0

.h =

,Ph1 + ATh2

Ah1

.= 0.

On a donc Ph1 = −ATh2 et donc h1 = −P−1ATh2 car P est inversible. De plus, Ah1 = 0donc AP−1ATh2 = 0, et en particulier, hT

2AP−1ATh2 = 0. Comme P−1 est définie positive,

on a ATh2 = 0. Mais A est de rang p donc ces p lignes sont linéairement indépendantes, donch2 = 0, et h1 = −P−1ATh2 = 0.

Pour résoudre le problème quadratique sous contrainte on doit donc résoudre un systèmelinéaire de taille n+ p et garder les n premiers coefficients de la solution.

Elimination des contraintes On peut aussi résoudre le problème précédent en paramétrant lesous espace affine et se ramener à un problème d’optimisation sans contraintes. En effet on a

x ∈ Rn, Ax = b = Fz + x, z ∈ Rn−p

où F ∈ Mn,n−p(R) est une matrice telle que Im(F ) = Ker(A) et x est un point quelconquede x ∈ Rn, Ax = b. On peut alors minimiser f(z) = f(Fz + x) et la solution x" estx" = Fz" + x.

5.4.2 Pas de Newton contraintOn considère maintenant une fonction f deux fois différentiable quelconque et on cherche

à adapter la méthode de Newton pour l’optimisation sous les contraintes égalités Ax = b.

43

Page 44: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Comme pour la méthode de Newton sans contrainte, on va choisir le pas de Newton pourminimiser l’approximation d’ordre deux de f au voisinage de x, mais cette fois-ci en se restrei-gnant à la contrainte : Partant d’un point x tel que Ax = b, on minimise

g(x+ h) = f(x) + 〈∇f(x), h〉+ 1

2〈∇2f(x)h, h〉

suivant la contrainte A(x+ h) = b, soit Ah = 0. La solution d est solution du système,∇2f(x) AT

A 0

.,dλ

.=

,−∇f(x)

0

..

C’est la pas de descente pour la méthode de Newton-Lagrange.Comme pour le cas sans contrainte on introduit Λ(x) = −∇f(x)d pour avoir un critère

d’arrêt invariant par changement de variable affine.L’algorithme de Newton sous contraintes égalités est donné par l’Algorithme 6.

Algorithme 6 : Algorithme de descente de Newton sous contraintes égalités

Données : Un point initial x(0) ∈ Rn, un seuil de tolérance ε > 0, des paramètresα ∈]0, 1

2[ et β ∈]0, 1[ pour la méthode de rebroussement, la matrice A et le

vecteur b pour les contraintes égalitésRésultat : Un point x ∈ Rn proche de x"

Initialiser x :x ← x(0) ;k ← 0 ;

Calculer la première direction de descente :

d(0) est telle que,∇2f(x(0)) AT

A 0

.,dλ

.=

,−∇f(x(0))

0

.;

Λ(0) = −〈d(0),∇f(x(0))〉 ;tant que Λ(k) > ε2 faire

1. Déterminer un pas de descente t(k) > 0 au point x(k) selon la direction d(k)

par la méthode de rebroussement avec les paramètres α et β.

2. Mettre à jour x :x ← x(k+1) = x(k) + t(k)d(k) ;k ← k + 1 ;

3. Calculer la nouvelle direction de descente :

d(k) est telle que,∇2f(x(k)) AT

A 0

.,dλ

.=

,−∇f(x(k))

0

.;

Λ(k) = −〈d(k),∇f(x(k))〉 ;

fin

Convergence : On peut montrer que les points x(k) obtenus sont les mêmes que si l’on ap-plique la méthode de Newton sans contraintes à la fonction f(z) = f(Fz+x) [BOYD & VANDENBERGHE]p. 528. Le résultat de convergence du Chapitre 3 assure donc la convergence de l’Algorithme 6.

44

Page 45: Optimisation Notes de cours · 2021. 1. 25. · Optimisation Notes de cours Master 1 Statistique & Data Science, Ingénierie Mathématique 2020-2021 Bruno GALERNE bruno.galerne@univ-orleans.fr

Bibliographie

[ALLAIRE & KABER] Grégoire ALLAIRE et Sidi Mahmoud KABER, Algèbre linéaire numé-rique, Ellipses, 2002

[BERGOUNIOUX] Maïtine BERGOUNIOUX Optimisation et contrôle des systèmes linéaires,Dunod, 2001

[BOYD & VANDENBERGHE] Stephen BOYD and Lieven VANDENBERGHE, Convex Optimiza-tion, Cambridge University Press, 2004

[CIARLET] Philippe G. CIARLET, Introduction à l’analyse numérique matricielle et à l’opti-misation, cinquième édition, Dunod, 1998

[ESCOFFIER] Jean-Pierre ESCOFFIER, Toute l’analyse de la licence - Cours et exercices corri-gés, Dunod, 2014

[LANGE] Kenneth LANGE, Optimization, second edition, Springer, 2013

45