Download - Plan dexpérience dynamique pour la maximisation Aspect théorique Mise en œuvre expérimentale Présence ou absence de bruit ? Choix du paramètre ? Choix.

1

Plan d’expérience dynamique pour la maximisation

Aspect théorique Mise en œuvre expérimentale

• Présence ou absence de bruit ?• Choix du paramètre ?

• Choix de l’algorithme ?• Choix de la fonction ?

2

f est très coûteuse à évaluer f est supposée régulière, lisse

Optimisation stochastique :

Donc :

Aspect théorique

3

• La borne du regret cumulé dépend de la rapidité d’obtention du gain d’information.

• Mathématiquement

T

Etablit une nouvelle connexion entre GP-UCB et ED

4

GP-UCB

• Partie théorique:

– Description du modèle– Gain d’information et Experimental Design– Algorithme GP-UCB

• Partie expérimentale:– Comparaison avec GP- UCB et ED– Influence de plusieurs maxima– Hypothése de régularité– Influence du bruit – Exemple en dimension 2

5

Calcul de la moyenne, de la covariance et de la variance

Où et

et

Aspect théorique

6

• Objectif : Trouver le maximum de f en l’évaluant le minimum de fois

• Ce que l’on sait faire : Pour chaque x, calculer simplement et

• Stratégie : Choisir soigneusement (grâce à une borne de confiance) le prochain x à évaluer

EXPLORATION EXPLOITATION

Aspect théorique

7

Le prochain x que l’on évaluera sera donc

x1x2

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

x3

Aspect théorique

8

Algorithme• Initialisation : On dispose du GP Prior, selon

lequel f est supposée être échantillonnée, et des valeurs aux bords f(0) et f(1).

• Itérations : Tant que l’on est trop loin du maximum théorique,

on calcule (soit par ED soit par GB-UCB)puis puis et

ED GP-UCB

Aspect théorique

9

Mais comment choisir ?cf. Théorème 1 de Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design

Soit et alors le

Aspect théorique

regret cumulé

est en

10

Expérimentations

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

1.2

1.4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

1.2

1.4

T = 44 T = 8

Experimental Design(ED)

GP - Upper Confidence Bound(GP-UCB)

Lequel des 2 algorithmes choisir ? GP-UCB

11

Expérimentations

Quelle « régularité » pour f ? (avec GP-UCB)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.05

0.1

0.15

0.2

0.25

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-1.5

-1

-0.5

0

0.5

1

1.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

1.2

1.4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-0.5

0

0.5

1

1.5

2

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

T = 3 T = 6 T = 8

T = 12

Fonction trop irrégulière :

Ne converge pas !

12

Expérimentations

Plus d’évaluationsMoins de précision

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-0.2

0

0.2

0.4

0.6

0.8

1

1.2

T = 28

T = 18

Influence d’un bruit additif gaussien ?

13

Choix de et influence de cette constante sur le nombre d’itérations T : / n ?

Expérimentations

0 5 10 150

5

10

15

20

25

30

35

40

45

Nombre d’évaluations de f en fonction de n

14

• Intérêt : obtention du maximum– Rapidement– Précisément

• Limites : – L’hypothèse fonction « régulière » est

indispensable.– On n’a pas une idée « globale » de la fonction.

CONCLUSION