Techniques d’optimisation Max CERF 2018dumas.perso.math.cnrs.fr/MINT-2018-TO5.pdfTechniques...

Techniques d’optimisation

449

Max CERF2018

Sommaire

1. Bases théoriques

2. Optimisation sans contraintes

3. Optimisation avec contraintes3.1 Simplexe3.2 Point intérieur3.3 Gradient projeté3.4 Lagrangien augmenté3.5 Programmation quadratique séquentielle3.6 Convergence

4. Optimisation discrète

5. Optimisation fonctionnelle

3 Optimisation avec contraintes


450

Max CERF2018


Problème non linéaire sous contraintes

Problème noté (PO)

Catégories de problèmes• Programmation linéaire Fonctions f, cE, cI linéaires• Programmation non linéaire Fonctions f, cE, cI quelconques

Traitement des contraintes• Méthodes de contraintes actives Identification des inégalités actives

Transformation en un problème avec contraintes égalitéRespect des contraintes à chaque itération

• Méthodes de point intérieur Fonction barrière (pénalisation intérieure)Suivi d’un chemin central intérieur aux contraintes

• Méthodes de pénalisation Critère augmenté (pénalisation extérieure)Transformation en un problème sans contraintes


0(x)c0(x)csousf(x)min

I

ERx n


451

Max CERF2018


Problème non linéaire sous contraintes

Problème noté (PO)

Classification des méthodes


0(x)c0(x)csousf(x)min

I

ERx n

Méthode primale Méthode primale-duale Méthode duale

Problème traité problème primal problème primal problème dual

Objectif min f- méthode directe- point stationnaire

solution KKT- méthode indirecte- point stationnaire

max w- méthode indirecte- point col

Itérations admissibles admissibles ou non non admissibles

Variables primales x primales x , duales primales x , duales

Algorithmes - simplexe (LP)- gradient projeté- pénalisation

- point intérieur (LP, NLP)- séquentiel quadratique

- simplexe dual (LP)- lagrangien augmenté- Uzawa


585

Max CERF2018

Sommaire

1. Bases théoriques2. Optimisation sans contraintes

3. Optimisation avec contraintes3.1 Simplexe3.2 Point intérieur3.3 Gradient projeté

3.3.1 Principes3.3.2 Direction de déplacement3.3.3 Restauration3.3.4 Algorithme

3.4 Lagrangien augmenté3.5 Programmation quadratique séquentielle3.6 Convergence

4. Optimisation discrète5. Optimisation fonctionnelle

3 Optimisation avec contraintes3.3 Gradient projeté


586

Max CERF2018

3.3.1 Gradient projeté

Problème avec contraintes égalité

m contraintes actives

Etapes principalesA chaque itération :

• Construction d’une direction de descente dk à partir du point xk• Réglage du pas de déplacement sk suivant dk

Direction de descenteOn construit la direction dk dans l’hyperplan tangent aux contraintes (= espace nul) en xk

• Gradient projeté projection du gradient sur l’hyperplan tangent• Gradient réduit réduction du gradient sur une base de l’espace nul

Pas de déplacement• Recherche linéaire suivant dk pas sk• Restauration de l’admissibilité méthode de Newton• Règles d’acceptation du pas Armijo, Goldstein, Wolfe

3 Optimisation avec contraintes3.3 Gradient projeté3.3.1 Principes

0)x(c0)x(csousf(x)min

I

ERx n

0)x(csous)x(fminnRx


587

Max CERF2018

3.3.2 Direction de déplacement

Hyperplan tangent aux contraintes

Gradient projeté

Gradient réduit

Direction de déplacement

Exemple

3 Optimisation avec contraintes3.3 Gradient projeté3.3.2 Direction de déplacement


588

Max CERF2018

3.3.2 Hyperplan tangent

Problème avec contraintes linéaires

• x0 point admissible Ax0 = b• d déplacement admissible à partir de x0 A(x0 + d) = b

• Ad = 0 définit l’espace nul des contraintes= hyperplan des contraintes

• Le déplacement d Rn est admissible sid est dans l’hyperplan des contraintes.

Problème avec contraintes non linéaires

• On définit l’espace nul tangent ou hyperplan tangent en x0 avec A = c(x0)T Ad = 0

• On cherche un déplacement d Rn dans l’hyperplan tangent : c(x0)Td = 0Un déplacement complémentaire est ensuite nécessaire pour restaurer l’admissibilité.

bAxsous)x(fminnRx

0Ad

0)x(csous)x(fminnRx

x0d

c(x)=0

c(x0)



589

Max CERF2018


Définition

Le gradient projeté est la projection orthogonale du gradient de f sur l’hyperplan tangent.

Expression du gradient projeté• Hyperplan tangent aux contraintes en x0 admissible

Ad = 0 avec A = c(x0)T

• Matrice de projection sur l’hyperplan tangent

• Notationsg(x0) gradient de f en x0 g(x0) = f(x0)gp(x0) gradient projeté gp(x0) = Pg(x0)

• gp vérifie :

0)x(csous)x(fminnRx

AAAAIP1TT

0ggg0Ag

pTp

p gp hyperplan tangentg gp hyperplan tangent

x0gp

c(x)=0

c(x0)

gT0

1TTp )x(cAavecgAAAAIg

PPPPcar 2

T



590

Max CERF2018


Direction de descente• La direction du gradient projeté est la direction de plus forte pente dans l’hyperplan tangent

= direction dans l’hyperplan qui maximise la dérivée directionnelle de f

PreuveLa direction d dans l’hyperplan maximisant la dérivée directionnelle de f est solution de

Lagrangien :

Conditions KKT :

d est bien un vecteur normé colinéaire à

• La méthode du gradient projeté équivaut à la méthode de plus forte pente appliquée dans l’espace nul des contraintes méthode d’ordre 1 peu efficace

amélioration par méthode de quasi-Newton

1ddAddg,,dL TTt1dd1d

0Adsousdgmin Tt

Rd n

d hyperplan tangentnorme = 1

R,Ravec m

1d0Ad

0d2Ag T

gAAAAI 1TT

2/Agd T0AAAg T

TAg2AgAA 1T



591

Max CERF2018

3.3.2 Gradient réduit

Définition

Le gradient réduit est le gradient de la fonction réduite sur une base de l’espace nul tangent.

Expression du gradient réduit• Base Z de l’espace nul tangent aux contraintes : AZ = 0 avec A = c(x0)T

• Décomposition du déplacement :

• Déplacement admissible :

• Fonction réduite fr :

• Notationsg(x0) gradient de f en x0 g(x0) = f(x0) g Rngr(x0) gradient réduit gr(x0) = fr(pZ=0) gr Rn m (m = nombre de contraintes)

gr est le gradient de la fonction réduite fr (= fonction de n m variables pZ)

0)x(csous)x(fminnRx

gZg Tr

Z0ZrRp

00Rp

Zpxf)(pfminbp)A(xsousp)f(xminm-n

Zn

Z

YZpp

0p0Ap

Z0T

ZrZ0Zr ZpxfZ)(pfZpxf)(pf

inversibleAY0ZAavecZppYp ZY

en pZ = 0



592

Max CERF2018

3.3.2 Gradient réduit

Direction de descente• Le déplacement à partir du point x0 admissible est décomposé en

• Le gradient réduit gr donne la direction de plus forte pente suivant les variables pZ.La direction de déplacement dans Rn est : d = Zgr .

• On peut choisir les matrices Y et Z- à partir de matrices orthogonales factorisation QR de A- à partir d’une base de A B Rm m (= m colonnes indépendantes de A)

Gradient réduit sur une base B de A

•

(E = matrice de permutation de colonnes de A)

• Le gradient réduit par rapport à la base B est : BT1

NT

r gNBggZg

Z

YZpp

0p0ApinversibleAY0ZAavecZppYp ZY

mnmNBAE

mn

m

m1

0B

Ymn

m

mn1

INB

ZN

B

gg

g



593

Max CERF2018

3.3.2 Direction de déplacement


m contraintes actives

• On construit la direction de déplacement d Rn dans l’hyperplan tangent aux contraintes en x0Ad = 0 avec A = c(x0)T2 méthodes de construction de la direction d

• Méthode du gradient projetéLa direction d est celle du gradient projeté : d = gp

(P = matrice de projection sur l’hyperplan tangent)

• Méthode du gradient réduitLa direction d est obtenue à partir du gradient de la fonction réduite : d = Zgr avec gr = ZTg

(Z = base de l’hyperplan tangent)

• On cherche un pas de déplacement suivant –d pour minimiser f.Un déplacement complémentaire est nécessaire pour restaurer l’admissibilité.

0)x(csous)x(fminnRx

AAAAIPavecPgd1TT

0AZavecgZZd T



594

Max CERF2018

3.3.2 Exemple

Exemple• Minimisation de

• Changement de variables (coordonnées polaires)

• Elimination variable r

• Minimum

011xx)x(csousxx)x(f 222121

11

xf)1x(2

x2xc

2

1

-1

-0,5

0

0,5

1

1,5

2

2,5

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2

1sinrxcosrx

2

11r),r(c

1)sin(cosr),r(f2

1sincos)(f1r

4*

0cos0)tan1(cos0sincos)(''f4

ou4

1tan0cossin)('f

29289.02/11*x70711.02/1*x

2

1



595

Max CERF2018

3.3.2 Exemple

Gradient projeté• Minimisation de

• Gradient projeté au point x0

• Direction de descente au point x0

tangente au cercle en x0


AAAAIP)x(fg,)x(cAavecPgg 1TT

0T

0p

000 sincosr2A

x1

x2

c

c(x)=0x*

g= f

gp

x0r

102

00

0002

coscossincossinsin

P

0

00

2

100 sin

cosr2

)1x(2x2

xc,11

xfPoint admissible x0 (r0=1, 0)

0

0

p

p

cossin

gg

d

0

000p cos

sinsincosg



596

Max CERF2018

3.3.2 Exemple

Gradient réduit• Minimisation de

• Gradient réduit au point x0

• Direction de descente au point x0

tangente au cercle en x0


000 sincosr2A

x1

x2

c

c(x)=0x*

Zgr

x0r

1

1tan

Z 0

0

00

2

100 sin

cosr2

)1x(2x2

xc,11

xfPoint admissible x0 (r0=1, 0)

0r tan1g

INB

Z,NBAE

)x(fg,)x(cAavecgZg 1

0T

0T

r

0

0

r

r

cossin

ZgZgd

0

0

0

00r cos

sincos

sincosZg



597

Max CERF2018

3.3.3 Restauration

Point initial

Itérations admissibles

Méthode de restauration

3 Optimisation avec contraintes3.3 Gradient projeté3.3.3 Restauration


598

Max CERF2018

3.3.3 Restauration

Itérations admissiblesLa méthode du gradient projeté ou réduit construit une suite de solutions admissibles

point initial admissiblerestauration de la faisabilité à chaque itération

Point initial

• On peut construire un point initial admissible du problème

en résolvant le problème préliminaire sans contrainte

• La solution x0 de ce problème préliminaire est admissible si le coût est nul.

Restauration de la faisabilité• La direction de descente d est dans l’hyperplan tangent aux contraintes au point courant.• Si les contraintes ne sont pas linéaires, un pas s suivant d donne un point non admissible.

Il faut restaurer la faisabilité avant d’évaluer si le pas s est acceptable.


I

ERx n

2I2ERx(x)c,0max(x)cmin

n

0)(xc0)(xc

0)(xc,0max0)(xc0)(xc,0max)(xc

0I

0E

0I

0E20I20E



599

Max CERF2018

3.3.3 Restauration

Déplacement admissiblem contraintes actives

On construit le déplacement p à partir du point initial x0 en 2 étapes : p = p1 + p2

• Le déplacement p1 est suivant la direction de descente d dans l’hyperplan tangent : p1 = –sdd Rn = direction construite à partir du gradient projeté ou du gradient réduits > 0 = pas de déplacement suivant –d (pour minimisation)

On obtient un point x1 = x0 + p1 dans l’hyperplan tangentnon admissible si contraintes non linéaires

• Le déplacement p2 restaure un point admissible à partir du point x1.linéarisation des contraintes en x1résolution d’un système sous-déterminé

On obtient un point x2 = x1 + p2 admissible.

Recherche linéaire• On évalue le point x2 correspondant au pas s de recherche linéaire suivant d.• Le pas s est modifié par dichotomie jusqu’à trouver un point x2(s) acceptable.

règles d’Armijo, Goldstein, Wolfe,…

0)x(csousf(x)minnRx

c(x)=0

x0

x1

p1

c(x)=c1

p2x2



600

Max CERF2018

3.3.3 Restauration

Méthode de restauration

Le déplacement p2 doit vérifier :

• Solution de norme minimale projection sur l’hyperplan tangent aux contraintes actives(cf §1.2.4)

• Solution de base pour ne pas dégrader la minimisation apportée par p1(cf §1.2.3)

• Plusieurs pas de restauration peuvent être nécessaires.

111

0T

0T

1111 c)c(xb

A)c(x)c(xAavecbpA

11T

11T1211

RpbAAApbpAsouspmin

n

11

1211

1Y1ZY1 bYAYpbYApb)ZpYp(A

c(x)=0

x0x1p1

c(x)=c1

c(x0)c(x1)

p2



601

Max CERF2018

3.3.3 Restauration

Illustrations

c(x)=0

c(x)=c1 p2

p3

p1x1

x0

Restauration en plusieurs itérations : p2 , p3

c(x)=0

c(x)=c1

p2

p1x1

x0

Restauration infructueuse (non linéarité)

Restauration avec dégradation du critère

c(x)=0 lignes de fp2

p1 x1x0



602

Max CERF2018

3.3.4 Algorithme

Algorithme de gradient projeté / réduit

Exemple

3 Optimisation avec contraintes3.3 Gradient projeté3.3.4 Algorithme


603

Max CERF2018

3.3.4 Algorithme

Algorithme de gradient projeté/réduitLes principales étapes d’une itération de gradient projeté/réduit sont

• construire la direction de descente au point courant• effectuer une recherche linéaire avec restauration

Direction de descente• Sélection des contraintes actives• Projection ou réduction dans l’hyperplan tangent• Mise à jour du hessien (quasi-Newton)

Recherche linéaire• Méthode de dichotomie sur le pas de déplacement• Restauration avant évaluation du pas• Règles d’acceptation (Armijo,…)

Principales difficultés• Amélioration critère grands pas• Restauration contraintes petits pas

difficultés sur problèmes très non-linéairesréglages à adapter au cas par cas

Mise à jourxk , Hk

Projection ou réductionDirection dk

Recherche linéaireavec restauration

Pas sk



604

Max CERF2018

3.3.4 Exemple


• Solution :

Itérations• Point courant :

• Descente : x’ = x s1d1 avec

pas s1 suivant le gradient projeté

• Restauration : x’’ = x’ s2d2 avec

pas s2 suivant le gradient des contraintes

• Réglage des pas : s2 est calculé pour restaurer c(x’’) = 0s1 est choisi pour vérifier une décroissance suffisante f(x’’) < f(x)

-1

-0,5

0

0,5

1

1,5

2

2,5

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2


29289.02/11*x70711.02/1*x

2

1

1sinrcosr

xx

x2

1

cossin

d1

sincos

d2 )1x(2x2

xc2

1

cossin

sincosgp



605

Max CERF2018

3.3.4 Exemple


• Point initial : Restauration initiale :


11.0

xx

2

1

11

xx

2

1

Itération x1 x2 f(x) c(x) Descente s1 x1' x2' c(x') Restauration s21 0,10000 1,00000 1,10000 -0,99000 0,00000 0,10000 1,00000 -0,99000 4,50000

2 1,00000 1,00000 2,00000 0,00000 1,00000 1,00000 0,00000 1,00000 -0,50000

3 0,00000 0,00000 0,00000 0,00000 0,50000 -0,50000 0,00000 0,25000 -0,06699

4 -0,50000 0,13397 -0,36603 0,00000 0,18301 -0,65849 0,22548 0,03349 -0,00844

5 -0,65005 0,24011 -0,40994 0,00000 5,492E-02 -0,69178 0,27581 3,016E-03 -7,547E-04

6 -0,69080 0,27696 -0,41385 0,00000 1,612E-02 -0,70246 0,28809 2,599E-04 -6,497E-05

7 -0,70237 0,28819 -0,41418 0,00000 4,722E-03 -0,70573 0,29150 2,230E-05 -5,576E-06

8 -0,70572 0,29151 -0,41421 0,00000 1,383E-03 -0,70670 0,29249 1,913E-06 -4,783E-07

9 -0,70670 0,29249 -0,41421 0,00000 4,051E-04 -0,70699 0,29277 1,641E-07 -4,103E-08

10 -0,70699 0,29277 -0,41421 0,00000 1,187E-04 -0,70707 0,29286 1,408E-08 -3,520E-09

11 -0,70707 0,29286 -0,41421 0,00000 3,475E-05 -0,70710 0,29288 1,208E-09 -3,020E-10

12 -0,70710 0,29288 -0,41421 0,00000



606

Max CERF2018

3.3.4 Exemple

ExempleMinimisation dePoint initial Point initial admissible Solution


-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0

-0,1

0,0

0,1

0,2

0,3

0,4

-0,8 -0,7 -0,6 -0,5 -0,4

11.0

xx

2

1

29289.02/1170711.02/1

*x*x

2

1

11

xx

2

1restauration initiale itérations



607

Max CERF2018

Sommaire

1. Bases théoriques2. Optimisation sans contraintes

3. Optimisation avec contraintes 3.1 Simplexe3.2 Point intérieur3.3 Gradient projeté3.4 Lagrangien augmenté

3.4.1 Principes3.4.2 Pénalisation3.4.3 Méthode duale3.4.4 Algorithme

3.5 Programmation quadratique séquentielle3.6 Convergence

4. Optimisation discrète5. Optimisation fonctionnelle

3 Optimisation avec contraintes3.4 Lagrangien augmenté


608

Max CERF2018

3.4.1 Lagrangien augmenté


contraintes actives

La difficulté de résolution vient des 2 objectifs antagonistes :• Minimiser le critère f(x)• Satisfaire les contraintes c(x)=0

Méthodes de pénalisationLes contraintes sont ajoutées à la fonction coût avec une pondération :

• Critère augmenté pondération = pénalisation des contraintes• Lagrangien pondération = multiplicateurs de Lagrange• Lagrangien augmenté pondération = pénalisation + multiplicateurs

On se ramène à un problème sans contraintes plus simple

Les difficultés viennent du réglage de la pondération :• Le problème pénalisé sans contraintes doit être équivalent au problème avec contraintes.• Le problème pénalisé est mal conditionné lorsque la pénalisation est grande.

3 Optimisation avec contraintes3.4 Lagrangien augmenté3.4.1 Principes


I

ERx n

0)x(csous)x(fminnRx


609

Max CERF2018

3.4.2 Pénalisation

Critère augmenté

Pénalisation quadratique

Pénalisation exacte

Mise en œuvre

Lagrangien augmenté

3 Optimisation avec contraintes3.4 Lagrangien augmenté3.4.2 Pénalisation


610

Max CERF2018

3.4.2 Critère augmenté


contraintes actives

On note x* la solution du problème avec contraintes.

Critère augmentéOn ajoute au critère un terme positif fonction de la violation des contraintesavec un coefficient de pénalisation > 0 2 méthodes usuelles de pénalisation

• Pénalisation en norme 2 (pénalisation quadratique)

• Pénalisation en norme 1

Problème sans contraintes

2

2I2

2Eρ(x)c0,max(x)cρ

21f(x)(x)f

(x)fmin ρRx n

0)x(csous)x(fminnRx0)x(c

0)x(csousf(x)minI

ERx n

2

2ρc(x)ρ

21f(x)(x)f

1I1Eρ(x)c0,max(x)cρf(x)(x)f

1ρc(x)ρf(x)(x)f

solution x



611

Max CERF2018

3.4.2 Pénalisation quadratique

Problème pénalisé l2

contraintes actives

Le critère l2 est différentiable deux fois pour un problème avec contraintes égalité.On peut appliquer les algorithmes d’optimisation sans contraintes à base de gradient.

Méthode de résolution• On résout une suite de problèmes pénalisés avec des valeurs croissantes de la pénalisation .

• Chaque problème k+1 est initialisé avec la solution précédente xk.

• Problème k avec pénalisation k : solution xk

• Il faut vérifier que la suite des solutions xk converge vers la solution x* du problème initial

2 résultats de convergence selon que xk est une solution exacte ou approchée

2

2I2

2Eρ(x)c0,max(x)cρ

21f(x)(x)favec(x)fmin ρ

Rx n

2

2ρc(x)ρ

21f(x)(x)f

(x)fminkn ρRx

kkkklimsi*xxlim



612

Max CERF2018



• Problème avec contraintes : solution x*


Convergence• Si xk est le minimum global exact, alors

• Si xk est un minimum local approché : avecprécision de résolution k décroissante

alors la limite x est : - soit un point non admissible qui minimise - soit un point x* vérifiant les conditions KKT du problème initial

On a dans ce 2ème cas :

La solution exacte x* n’est obtenue qu’à la limite lorsque la pénalisation tend vers l’infini.

(x)fminkn ρRx

0)x(csous)x(fminnRx

*xxlim kk

kkρ )(xf k 0lim kk

2

2c(x)

kklim xxlim kk

*)c(xlim*xxlim

kkk

kkmultiplicateurs des contraintes activesminimum local



613

Max CERF2018


Eléments de la démonstration

• Critère d’arrêt sur xk :

si les gradients sont linéairement indépendants

• Multiplicateurs de Lagrange

)c(xlim*avec kkk

2)x(c21)x(f)x(f )x(c)x(c)x(f)x(f

kkρ )(xf k

)x(f)x(c)x(c)x(c)x(c)x(f)(xf k kkkkkkkkρk babacar

)x(f)x(c)x(c kkkkk 0)x(f

)x(c)x(c kk

kkkk

admissible0*)x(cou

)x(cmin0*)x(c

0)x(c)x(c)x(f)(xf kkkkkkkρk0**)x(c*)x(f



614

Max CERF2018

3.4.2 Pénalisation exacte


contraintes actives

Le critère l1 n’est pas différentiable.

Méthode de résolution• On résout une suite de problèmes pénalisés avec des valeurs croissantes de la pénalisation .

• Chaque problème k+1 est initialisé avec la solution précédente xk.


Convergence• Si alors x* est un minimum local de f avec la pénalisation l1.

• La pénalisation l1 est exacte si est est supérieur au plus grand multiplicateur.ne nécessite pas d’augmenter indéfiniment pour obtenir la solution exacte x*

(x)fmin ρRx n

(x)fminkn ρRx

imax**

1I1Eρ (x)c0,max(x)cρf(x)(x)favec

1ρc(x)ρf(x)(x)f



615

Max CERF2018

3.4.2 Mise en oeuvre

Méthodes avec critère augmenté• Type de pénalisation

- Pénalisation l2 différentiable, mais nécessite une pénalisation forte pour approcher x*- Pénalisation l1 exacte, mais non différentiable

• Réglage de la pénalisation- Trop faible risque de divergence (pas de minimum du problème pénalisé)- Trop forte mauvais conditionnement, difficultés numériques

• Utilisation du critère augmenté- Difficultés pratiques si l’on veut obtenir une bonne précision sur la solution x*- Le critère augmenté peut servir de fonction mérite

dans le cadre d’autres algorithmes pour évaluer la progression vers l’optimum.

Méthodes avec lagrangien augmentéOn cherche à se ramener à une suite de problèmes sans contraintes- en conservant un critère différentiable- en évitant le mauvais conditionnement du à une pénalisation trop forte

utilisation des multiplicateurs de Lagrange pour réduire la pénalisationméthode duale ou lagrangienne



616

Max CERF2018


Problème pénalisé l2• La méthode de pénalisation consiste à minimiser le critère augmenté.

• La convergence est obtenue pour des valeurs croissantes de pénalisation.

• La solution xk ne respecte qu’approximativement les contraintes :

• Pour respecter précisément les contraintes, il faut augmenter fortement la pénalisation.cause de mauvais conditionnement et de difficultés numériques

• On peut appliquer la méthode de pénalisation au problème équivalent

2ρ

Rxc(x)ρ

21f(x)(x)fmin

n

*)c(xlim*xxlim

kkk

kkmultiplicateurs des contraintes activesminimum local

kklim

kk

*)c(x

2T2

2ρRxc(x)ρ

21c(x)*λf(x)c(x)ρ

21)*L(x,)*(x,Lmin

n

0c(x)sous*)L(x,minnRx

0c(x)sousf(x)minnRx

si l’on connait *



617

Max CERF2018


Lagrangien augmenté• La méthode de lagrangien augmenté consiste à résoudre une suite de problèmes :

avec k = valeur de pénalisation du problème kk = estimation des multiplicateurs pour le problème k

• Si et les problèmes deviennent équivalents.

La solution xk du problème converge vers la solution x* du problème initial.

• La solution xk vérifie également :

(même démonstration que pour le critère augmenté avec pénalisation quadratique)

2k

Tk

2

2kkkρRxc(x)ρ

21c(x)λf(x)c(x)ρ

21)L(x,)(x,Lmin

kn

0)c(xρλ)c(x)f(x),(xL kkkkkkkρx k

)(x,Lmin kρRx kn

*lim kk

*xxlim kk0c(x)sous*)L(x,min

nRx0c(x)sousf(x)min

nRx

*)(x,LminnRx

(x)fminnRx

kklim

*λ)c(xρλlim kkkk

0*c(x*)f(x*))*L(x*,xà comparer à x* qui vérifie :



618

Max CERF2018


Lagrangien augmenté• On peut estimer les multiplicateurs à l’itération k.

pour k assez grand

• La valeur des contraintes à l’itération k est :

On peut parvenir à respecter les contraintes sans augmenter indéfiniment la pénalisationsi k est une bonne estimation des multiplicateurs méthode duale

meilleur conditionnementconvergence plus rapide et précise que la méthode du critère augmentéméthode de lagrangien augmenté appelée aussi méthode des multiplicateurs

ConvergencePour assez grand, la solution x* du problème initial est un minimum local du problème

ne nécessite pas d’augmenter indéfiniment pour obtenir la solution exacte x*

*λ)c(xρλlim kkkk )c(xρλλ* kkk

)c(xρλλ kkk1k

k

kk ρ

λ*λ)c(x

pour l’itération k+1

2Tρ

Rxc(x)ρ

21c(x)*λf(x))*(x,Lmin

n

0*λλk

pénalisation exacte si on connaît *



619

Max CERF2018

3.4.3 Méthode duale

Problème dual

Maximisation duale

Méthode d’Uzawa

Méthode de Newton

Méthode de lagrangien augmenté

Exemple

3 Optimisation avec contraintes3.4 Lagrangien augmenté3.4.3 Méthode duale


620

Max CERF2018

3.4.3 Problème dual


• Problème primal : m contraintes actives

• Lagrangien : x = n variables primales= m variables duales

• Fonction duale : minimisation par rapport à x

• Problème dual : maximisation par rapport à

Méthode duale (ou lagrangienne)Une méthode duale consiste à résoudre le problème dual :

• Le problème est sans contraintes, mais la fonction w( ) est coûteuse à évaluer.

• La solution (x*, *) est un point col du lagrangien :existence non garantie (saut de dualité)

0c(x)sousf(x)minnRx

)x(c)x(f),x(L T

λ)L(x,min)w(nRx

)w(maxmR

)w(maxmR

*),x(L*)*,x(L)*,x(L,,x



621

Max CERF2018

3.4.3 Maximisation duale

Fonction dualeOn note xL( ) la valeur de x qui minimise L(x, ) à fixé.

Condition d’ordre 1 :

• Fonction w : fonction composée

• Gradient de w := 0 = c(xL( ))

• Hessien de w :

Preuve : on calcule xL( ) à partir de xL(xL( ), )=0

λ)(xcλλ),(xLλ)(xcλ)(w L1

L2xx

TL

2

λλ),(xLλ)L(x,minλ)(w LRx n

0λλ),(xLλ)(xxenλ)L(x,min LxLRx n

λλ),(xLλλ),(xLλ).(xλ)(w LLxL

λ)(xcλ)(w L

λ)(xcλ)(xλ)(xcλ)(w LLL2

0λλ),(xLλλ),(xLλ)(x0λλ),(xLλ,0λλ),(xL L2

xL2xxLLxLx

12xx

TL Lcx cLavec



622

Max CERF2018

3.4.3 Maximisation duale

Méthode de maximisation• La fonction duale est coûteuse à évaluer.

minimisation en chaque valeur pour obtenir xL( )on ne peut pas directement maximiser w

• On réalise à chaque itération :- une minimisation par rapport à x : (xk, k) (xk+1, k)- une maximisation par rapport à : (xk+1, k) (xk+1, k+1)

Déplacement• Le déplacement sur x est construit en minimisant L(x, k).

minimisation exacte ou approchée

• Le déplacement sur est construit à partir du gradient et éventuellement du hessien de w.

minimisation approchée (pas fixé)

• Méthodes de déplacement sur : Uzawa, lagrangien augmenté, Newton

λλ),(xLλ)L(x,minλ)(w LRx n

kL1kkRx

λxx)λL(x,minn

1k1

k1k2xx

T1kk

21kk

xcλ,xLxc)λ(wxc)λ(w



623

Max CERF2018

3.4.3 Méthode d’UzawaPrincipe

Le déplacement en est construit par une méthode de plus forte pente.

L’efficacité de la méthode dépend du réglage du pas sk.

Méthode d’Uzawa (1958)• On choisit un pas constant : sk = s0.• Difficulté : - pas s0 trop grand oscillations autour de la solution

- pas s0 trop petit convergence très lente• La convergence est linéaire (méthode de plus forte pente).• La vitesse de convergence dépend du conditionnement du hessien de la fonction duale.

Améliorations• On peut régler le pas à chaque itération par une recherche linéaire suivant w( k).• On peut appliquer une méthode de Newton au problème dual en utilisant 2w( k).

méthodes nécessitant une globalisation pour contrôler la convergenceévaluations coûteuses de w( )

1kkk1kkkk1k xcsλλ)λ(wsλλ

*xc*λ,*xL*xcλ*)(w 12xxT2



624

Max CERF2018

3.4.3 Méthode de Newton

PrincipeL’itération de Newton sur le problème dual est définie par :

• On applique une méthode de quasi-Newton au problème primal :

pour obtenir une approximation de l’inverse du hessien de L :

• On applique ensuite une méthode de Newton au problème dual.

Convergence• La convergence est superlinéaire (quasi-Newton) ou quadratique (Newton).• Une globalisation est nécessaire pour vérifier la solution de Newton.

évaluations supplémentaires de w( ) pouvant être coûteuses• Le point col n’existe pas nécessairement si le problème n’est pas convexe (saut de dualité)

création d’un point col par pénalisation

1k

1

1kkT

1kk1kk1

k2

k1k xcxcHxcλλ)λ(w)λ(wλλ

1k1

k1k2xx

T1kk

21kk

xcλ,xLxc)λ(wxc)λ(wavec)λ(w)λ(wλλ k

1k

2k1k

)λL(x,min kRx n

1k1k

2xxk λ,xLH



625

Max CERF2018

3.4.3 Exemple


• Lagrangien :

• Fonction duale :

• Problème dual : point col

• Gradient :

• Hessien :


21xxxx),x(L 222121

121

21

λ)(xpour2121λ)L(x,minλ)(w L

Rx 2

221)(xc)(w 2L

3L1

L2xx

TL

2

λ1

λ)(xcλλ),(xLλ)(xcλ)(w

1001

λ2λλ),(xL,11

λ1

λ)(xcavec L2xxL

01

*x21*)(wmax

R



626

Max CERF2018

3.4.3 Exemple

Méthode d’Uzawa• Minimisation de

• Itération à pas s fixé :

• Influence du pas : s=0,1 ou s=0,2 oscillations autour de la solution


12

12

1

x

k

k1k 2

21s 2

kk1k

Itération x1 x2 s1 -0,10000 1,00000 1,00000 0,12 -0,50000 0,50000 0,85000 0,13 -0,58824 0,41176 0,71920 0,14 -0,69521 0,30479 0,61587 0,15 -0,81186 0,18814 0,54769 0,16 -0,91292 0,08708 0,51438 0,17 -0,97205 0,02795 0,50335 0,18 -0,99334 0,00666 0,50070 0,19 -0,99861 0,00139 0,50014 0,110 -0,99972 0,00028 0,50003 0,111 -0,99994 5,63E-05 0,50001 0,112 -0,99999 1,13E-05 0,50000 0,1

Uzawa pas s = 0,1

Itération x1 x2 s1 -0,10000 1,00000 1,00000 0,22 -0,50000 0,50000 0,70000 0,23 -0,71429 0,28571 0,50408 0,24 -0,99190 0,00810 0,49763 0,25 -1,00476 -0,00476 0,50145 0,26 -0,99711 0,00289 0,49914 0,27 -1,00172 -0,00172 0,50052 0,28 -0,99896 0,00104 0,49969 0,29 -1,00062 -0,00062 0,50019 0,210 -0,99963 0,00037 0,49989 0,211 -1,00022 -2,24E-04 0,50007 0,212 -0,99987 1,34E-04 0,49996 0,2

Uzawa pas s = 0,2



627

Max CERF2018

3.4.3 Exemple

Comparaison Uzawa / Newton• Minimisation de

• Itération k :


12

12

1

x

k

k1k

22

1s 2k

k1k

22

1s 2k

3kk1k

Uzawa

Newton

Globalisation pas s

Itération x1 x2 s1 -0,10000 1,00000 1,00000 0,12 -0,50000 0,50000 0,85000 0,13 -0,58824 0,41176 0,71920 0,14 -0,69521 0,30479 0,61587 0,15 -0,81186 0,18814 0,54769 0,16 -0,91292 0,08708 0,51438 0,17 -0,97205 0,02795 0,50335 0,18 -0,99334 0,00666 0,50070 0,19 -0,99861 0,00139 0,50014 0,110 -0,99972 0,00028 0,50003 0,111 -0,99994 5,63E-05 0,50001 0,112 -0,99999 1,13E-05 0,50000 0,1

Itération x1 x2 s1 -0,10000 1,00000 1,00000 0,252 -0,50000 0,50000 0,62500 0,503 -0,80000 0,20000 0,53711 1,004 -0,93091 0,06909 0,49577 1,005 -1,00854 -0,00854 0,49995 1,006 -1,00011 -0,00011 0,50000 1,007 -1,00000 -1,72E-08 0,50000 1,008 -1,00000 0,00E+00 0,50000 1,00

Uzawa pas s = 0,1 Newton pas s = 1



628

Max CERF2018

3.4.3 Méthode de lagrangien augmenté

PrincipeLa méthode de lagrangien augmenté est une méthode duale appliquée au critère augmenté.

• Critère augmenté f :

• Lagrangien augmenté L :

• Fonction duale augmentée w :

Le problème dual devient :

Fonction duale augmentéeLe gradient et le hessien de w sont identiques à ceux de w en remplaçant L par L .

On réalise à chaque itération :- une minimisation de L par rapport à x- un déplacement en à partir du gradient et du hessien de w

λ)(x,Lmin)(wnRx

)(wmaxmR

2

2ρc(x)ρ

21f(x)(x)f

2

2T

ρ c(x)ρ21)x(c)x(f),(xL

λ)(xxenλ)(x,Lminavecλ)(xcλλ),(xLλ)(xcλ)(w

λ)(xcλ)(wL

RxL1

L2xx

TL

2L

n



629

Max CERF2018

3.4.3 Méthode de lagrangien augmenté

Déplacement• Le déplacement sur x est construit en minimisant L (x, k) avec une précision donnée.

• Le déplacement sur est construit par une méthode de plus forte pente.

Le pas sk est choisi à partir de la propriété de convergence :

Convergence• La convergence est linéaire (méthode de plus forte pente).• La vitesse de convergence dépend du conditionnement des hessiens de L (primal) et w (dual).

• On peut appliquer une méthode de Newton au dual avec (quasi-Newton primal)convergence superlinéaire + globalisation nécessaire

• La pénalisation peut créer un point col qui n’existe pas dans le problème initial.

kL1kkRx

λxx)λ(x,Lminn

1kkk1kkk xcλλs

1kkk1kkkk1k xcsλλ)λ(wsλλ

*λ)c(xρλlim kkkk

IcLcwc.cc.cLL

112xx

T2

TT2xx

2xx mal conditionné si grand

bien conditionné si grand 12

xxk LH



630

Max CERF2018

3.4.3 Exemple


• Lagrangien :

• Solution KKT :

• Fonction duale : en prenant

La fonction duale vaut pour toute valeur de .

• Problème dual :

• Le lagrangien n’admet pas de point col (problème non convexe).Le problème non pénalisé présente un saut de dualité.

On ne peut pas appliquer une méthode duale (Uzawa) sur ce problème.On peut créer un point col par pénalisation (méthode de lagrangien augmenté).


1xxxx),x(L 2121

λ)L(x,minλ)(w2Rx

)(wmaxR

21*x*x,

21* 21

)designe(xx

2

1

41*)*,x(L

41



631

Max CERF2018

3.4.3 Exemple

Point col• Problème pénalisé :

• Lagrangien augmenté :


• Minimisation de L par rapport à x

Ordre 1 :

Ordre 2 :

Valeurs propres : L convexe si

• On obtient si :

01xx)x(csous1xx21xx)x(f 21

22121

λ)(x,Lminλ)(w2Rx

01

10L2xx

12101

2

122

21

1xx1xx21xx),x(L 21

22121

21)(x)(x01xxx

01xxx0L 21211

212x

2112

2112

21

21)(w

22

21



632

Max CERF2018

3.4.3 Exemple

Point col


• Problème dual :

Solution :

On retrouve la solution du problème primal sans saut de dualité point col

• La pénalisation permet de créer un point col pour en rendant le problème convexe.

On peut appliquer une méthode duale au problème pénalisé ( problème initial).La méthode de lagrangien augmenté élargit le domaine d’application des méthodes duales.

λ)(wmaxRλ

0142112220w

2222 221122

1211)(w

21*)(x*)(xet

41*)(w

21* 21

41*)*,x(L*)(w

21



633

Max CERF2018

3.4.4 Algorithme

Algorithme de lagrangien augmenté

Exemple

3 Optimisation avec contraintes3.4 Lagrangien augmenté3.4.4 Algorithme


634

Max CERF2018

3.4.4 Algorithme

Méthode de lagrangien augmenté (ou méthode des multiplicateurs)Les principales étapes d’une itération de lagrangien augmenté sont

• minimiser le lagrangien augmenté• mettre à jour les paramètres de réglage

Minimisation du lagrangien augmenté• Méthode de quasi-Newton• Recherche linéaire ou région de confiance• Précision d’arrêt sur gradient

Paramètres de réglage• Multiplicateurs• Pénalisation• Précisions (gradient, contraintes)

Principales difficultés• Précision contraintes pénalisation forte• Conditionnement pénalisation faible

convergence précise difficileréglages à adapter au cas par cas

Minimisation de LPrécision k

Solution xk+1Contraintes c(xk+1)

Mise à jourxk+1 , k+1 , k+1 , k+1



635

Max CERF2018

3.4.4 Algorithme

Méthode de lagrangien augmenté (ou méthode des multiplicateurs)• Réglages à l’itération k : - multiplicateurs k

- pénalisation k- précision de résolution k- précision sur les contraintes k

• Minimisation :

initialisation xk solution xk+1 valeurs des contraintes = c(xk+1)

• Mise à jour des réglages à l’itération k+1 en fonction du respect des contraintes

- Si mise à jour des multiplicateurs(contraintes bien respectées) résolution plus précise

- Si augmentation de la pénalisation(contraintes mal respectées) résolution moins précise

k1kxc

)(x,Lmin kρRx kn

kk1kx ,xL kcritère d’arrêt

k1kxc

)c(xρλλ kkk1kk1kk1k ,

10k1kk1kk1k ,



636

Max CERF2018

3.4.4 Algorithme

Estimation des multiplicateurs• La solution (x*, *) doit vérifier la condition KKT d’ordre 1.

• On cherche au point x0 le multiplicateur qui approche « au mieux » la condition KKT.

• Il s’agit d’un problème de moindres carrés de la forme :

La solution MC vérifie les équations normales :

• L’estimation des multiplicateurs par moindres carrés est utile :- à la première itération pour initialiser 0- au cours des itérations pour réinitialiser k (si nécessaire).

)x(f)x(c)x(c)x(c 0T

01

0T

0MC

0**)x(c*)x(f0*)*,x(Lx

200

20x )x(f)x(cmin),x(Lmin

)x(fb)x(cAavecbAmin

0

02

bAAA TMCT

multiplicateurs « des moindres carrés »



637

Max CERF2018

3.4.4 Exemple


• Point initial : Solution :23,

01

*x

01xx)x(csousx)1xx(2)x(f 22211

22

21

0,3.15.0

x

-1,5

-1

-0,5

0

0,5

1

1,5

-1,5 -1 -0,5 0 0,5 1 1,5

-0,1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,7 0,8 0,9 1

Suivi de la contrainte



638

Max CERF2018

3.4.4 Exemple


• Point initial : Solution :

01xx)x(csousx)1xx(2)x(f 22211

22

21

0,3.15.0

x

Itération x1 x2 c(x) Newton

1 0,50000 1,30000 0,00000 1 -0,71238 0,90050 12 0,40707 0,34917 -0,71238 10 -0,05788 0,90016 13 0,73467 0,63433 -1,29122 10 -0,00905 0,50091 24 0,91556 0,39077 -1,38175 10 0,00635 0,41807 25 0,98869 0,16985 -1,38175 100 0,00188 0,62061 26 0,99953 0,04158 -1,30283 100 -0,00188 0,01728 27 0,99905 -0,00320 -1,49103 100 -0,00009 0,00172 18 0,99995 0,00171 -1,50003 100 2,06E-06 0,00057 39 1,00000 0,00045 -1,50003 100 1,85E-06 0,00031

),x(L

pénalisation

précisioncontrainte

précisionrésolution

itérationsNewton

23*,

01

*x


Techniques d’optimisation Max CERF 2018dumas.perso.math.cnrs.fr/MINT-2018-TO5.pdfTechniques...

Documents

Transcript of Techniques d’optimisation Max CERF 2018dumas.perso.math.cnrs.fr/MINT-2018-TO5.pdfTechniques...