Apprentissage du quantron : un problème d\’optimisation non différentiable

104
Apprentissage du quantron Un problème d’optimisation non différentiable Simon de Montigny sous la direction de Richard Labib, Ph.D. D ´ epartement de math ´ ematiques et g ´ enie industriel ´ Ecole Polytechnique de Montr ´ eal Apprentissage du quantron. April 3, 2008 – p. 1/??

description

Présentation au séminaire de mathématiques appliquées du département de Mathématiques et de Génie Industriel (3 avril 2008, École Polytechnique de Montréal)

Transcript of Apprentissage du quantron : un problème d\’optimisation non différentiable

Page 1: Apprentissage du quantron : un problème d\’optimisation non différentiable

Apprentissage du quantronUn problème d’optimisation non différentiable

Simon de Montigny

sous la direction de Richard Labib, Ph.D.

Departement de mathematiques et genie industriel

Ecole Polytechnique de Montreal

Apprentissage du quantron. April 3, 2008 – p. 1/??

Page 2: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.

Apprentissage du quantron. April 3, 2008 – p. 2/??

Page 3: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.

Entrées Sorties

Neurones et synapses

Apprentissage du quantron. April 3, 2008 – p. 2/??

Page 4: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.

Transformation

des signaux

Un seul neurone

Paramètres

Apprentissage du quantron. April 3, 2008 – p. 2/??

Page 5: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.

Apprentissage du quantron. April 3, 2008 – p. 3/??

Page 6: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.

Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.

Apprentissage du quantron. April 3, 2008 – p. 3/??

Page 7: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.

Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.

Le premier algorithme d’apprentissagedéveloppé pour les réseaux de neuroness’appelle "rétro-propagation de l’erreur"(Rumelhart et al., 1986).

Apprentissage du quantron. April 3, 2008 – p. 3/??

Page 8: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Modification des

paramètres

Modification des

paramètres

Calcul de

l'erreur du

réseau

Rétro-propagation de l'erreur

Rétro-propagation de la partie de l'erreur due à chaque neurone de

la couche précédente

Apprentissage du quantron. April 3, 2008 – p. 4/??

Page 9: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.

Apprentissage du quantron. April 3, 2008 – p. 5/??

Page 10: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.

On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.

Apprentissage du quantron. April 3, 2008 – p. 5/??

Page 11: Apprentissage du quantron : un problème d\’optimisation non différentiable

Introduction

Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.

On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.

Les variables d’optimisation sont lesparamètres du réseau.

Apprentissage du quantron. April 3, 2008 – p. 5/??

Page 12: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3

Apprentissage du quantron. April 3, 2008 – p. 6/??

Page 13: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3

v = w1x1

+w2x2

+w3

w1 , w

2 , w

3

x1

x2

y(v) = v

Apprentissage du quantron. April 3, 2008 – p. 6/??

Page 14: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Tâche : reproduire la fonction{(

x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n

Apprentissage du quantron. April 3, 2008 – p. 7/??

Page 15: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Tâche : reproduire la fonction{(

x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n

Erreur des moindres carrés :

E(w1, w2, w3) =n∑

k=1

[

d(k) − f(x(k)1 , x

(k)2 )

]2

Apprentissage du quantron. April 3, 2008 – p. 7/??

Page 16: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Tâche : reproduire la fonction{(

x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n

Erreur des moindres carrés :

E(w1, w2, w3) =n∑

k=1

[

d(k) − f(x(k)1 , x

(k)2 )

]2

Descente du gradient :wj(t + 1) = wj(t) − η ∂E

∂wj|w1(t),w2(t),w3(t)

Apprentissage du quantron. April 3, 2008 – p. 7/??

Page 17: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Apprentissage du quantron. April 3, 2008 – p. 8/??

Page 18: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Un seul perceptron effectue une régressionlinéaire.

Apprentissage du quantron. April 3, 2008 – p. 8/??

Page 19: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Un seul perceptron effectue une régressionlinéaire.

Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.

Apprentissage du quantron. April 3, 2008 – p. 8/??

Page 20: Apprentissage du quantron : un problème d\’optimisation non différentiable

Exemple : le perceptron

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Un seul perceptron effectue une régressionlinéaire.

Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.

L’apprentissage n’est plus garanti deconverger vers un minimum global.

Apprentissage du quantron. April 3, 2008 – p. 8/??

Page 21: Apprentissage du quantron : un problème d\’optimisation non différentiable

Que faire?

Limitations des réseaux de perceptrons :

Apprentissage du quantron. April 3, 2008 – p. 9/??

Page 22: Apprentissage du quantron : un problème d\’optimisation non différentiable

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.

Apprentissage du quantron. April 3, 2008 – p. 9/??

Page 23: Apprentissage du quantron : un problème d\’optimisation non différentiable

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.

Apprentissage du quantron. April 3, 2008 – p. 9/??

Page 24: Apprentissage du quantron : un problème d\’optimisation non différentiable

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.

Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?

Apprentissage du quantron. April 3, 2008 – p. 9/??

Page 25: Apprentissage du quantron : un problème d\’optimisation non différentiable

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.

Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?

Solution : Améliorer le modèle de neuroneutilisé.

Apprentissage du quantron. April 3, 2008 – p. 9/??

Page 26: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).

Apprentissage du quantron. April 3, 2008 – p. 10/??

Page 27: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).

t0 5 10 15 20

z

0

1

2

3

4

5

Apprentissage du quantron. April 3, 2008 – p. 10/??

Page 28: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).

Apprentissage du quantron. April 3, 2008 – p. 10/??

Page 29: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.

Apprentissage du quantron. April 3, 2008 – p. 11/??

Page 30: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.

Apprentissage du quantron. April 3, 2008 – p. 11/??

Page 31: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)

Apprentissage du quantron. April 3, 2008 – p. 12/??

Page 32: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)

i : indice des entréesj : indice des potentiels de chaque entrée

Apprentissage du quantron. April 3, 2008 – p. 12/??

Page 33: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)

i : indice des entréesj : indice des potentiels de chaque entrée

S(t) est une fonction continue.

Apprentissage du quantron. April 3, 2008 – p. 12/??

Page 34: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)

i : indice des entréesj : indice des potentiels de chaque entrée

S(t) est une fonction continue.

S(t) = 0 en dehors de [0, T ], où T est la fin dudernier potentiel reçu.

Apprentissage du quantron. April 3, 2008 – p. 12/??

Page 35: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.

Apprentissage du quantron. April 3, 2008 – p. 13/??

Page 36: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.

Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.

Apprentissage du quantron. April 3, 2008 – p. 13/??

Page 37: Apprentissage du quantron : un problème d\’optimisation non différentiable

Le quantron

Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.

Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.

Nous allons aborder le problèmed’apprentissage avec le modèle f = max S(t).

Apprentissage du quantron. April 3, 2008 – p. 13/??

Page 38: Apprentissage du quantron : un problème d\’optimisation non différentiable

Objectifs généraux de la recherche

Développer un algorithme d’apprentissageefficace pour le quantron.

Apprentissage du quantron. April 3, 2008 – p. 14/??

Page 39: Apprentissage du quantron : un problème d\’optimisation non différentiable

Objectifs généraux de la recherche

Développer un algorithme d’apprentissageefficace pour le quantron.

Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.

Apprentissage du quantron. April 3, 2008 – p. 14/??

Page 40: Apprentissage du quantron : un problème d\’optimisation non différentiable

Objectifs généraux de la recherche

Développer un algorithme d’apprentissageefficace pour le quantron.

Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.

Évaluer les capacités et les limites duquantron comme outil de reconnaissance deformes et d’approximation de fonctions.

Apprentissage du quantron. April 3, 2008 – p. 14/??

Page 41: Apprentissage du quantron : un problème d\’optimisation non différentiable

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

k=1

gk(t)u(t − τk)

Apprentissage du quantron. April 3, 2008 – p. 15/??

Page 42: Apprentissage du quantron : un problème d\’optimisation non différentiable

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

k=1

gk(t)u(t − τk)

Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :

Apprentissage du quantron. April 3, 2008 – p. 15/??

Page 43: Apprentissage du quantron : un problème d\’optimisation non différentiable

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

k=1

gk(t)u(t − τk)

Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :

Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)

Apprentissage du quantron. April 3, 2008 – p. 15/??

Page 44: Apprentissage du quantron : un problème d\’optimisation non différentiable

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

k=1

gk(t)u(t − τk)

Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :

Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)Approximation différentiable (Bertsekas)

Apprentissage du quantron. April 3, 2008 – p. 15/??

Page 45: Apprentissage du quantron : un problème d\’optimisation non différentiable

Problème préliminaire

Nous allons développer :

Apprentissage du quantron. April 3, 2008 – p. 16/??

Page 46: Apprentissage du quantron : un problème d\’optimisation non différentiable

Problème préliminaire

Nous allons développer :une approximation différentiable dumaximum global de S(t)

Apprentissage du quantron. April 3, 2008 – p. 16/??

Page 47: Apprentissage du quantron : un problème d\’optimisation non différentiable

Problème préliminaire

Nous allons développer :une approximation différentiable dumaximum global de S(t)

une approximation différentiable de ϕ(t)

Apprentissage du quantron. April 3, 2008 – p. 16/??

Page 48: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Apprentissage du quantron. April 3, 2008 – p. 17/??

Page 49: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).

Apprentissage du quantron. April 3, 2008 – p. 17/??

Page 50: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).

Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)

Apprentissage du quantron. April 3, 2008 – p. 17/??

Page 51: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).

Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)

Convergence : limc→∞

softmax S(t) = max S(t)

Apprentissage du quantron. April 3, 2008 – p. 17/??

Page 52: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Propriétés des fonctions de densité

Apprentissage du quantron. April 3, 2008 – p. 18/??

Page 53: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Propriétés des fonctions de densité∫ T

0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1

Apprentissage du quantron. April 3, 2008 – p. 18/??

Page 54: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Propriétés des fonctions de densité∫ T

0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1

ecS(t)

∫ T

0ecS(τ)dτ

≥ 0

Apprentissage du quantron. April 3, 2008 – p. 18/??

Page 55: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Propriétés des fonctions de densité∫ T

0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1

ecS(t)

∫ T

0ecS(τ)dτ

≥ 0

softmax S(t) = E[S(Xc)] où Xc est un tempsaléatoire choisi dans l’intervalle [0, T ] selon lafonction de densité fXc

(t) = ecS(t)

∫ T

0ecS(τ)dτ

.

Apprentissage du quantron. April 3, 2008 – p. 18/??

Page 56: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Apprentissage du quantron. April 3, 2008 – p. 19/??

Page 57: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Si t∗ est fini, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,

∞ si t ∈ t∗.

Apprentissage du quantron. April 3, 2008 – p. 19/??

Page 58: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Si t∗ est fini, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,

∞ si t ∈ t∗.

Si t∗ est infini non dénombrable, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,1

µ(t∗) si t ∈ t∗.

Apprentissage du quantron. April 3, 2008 – p. 19/??

Page 59: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Xc converge en distribution vers X.

Apprentissage du quantron. April 3, 2008 – p. 20/??

Page 60: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Xc converge en distribution vers X.

S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).

Apprentissage du quantron. April 3, 2008 – p. 20/??

Page 61: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Xc converge en distribution vers X.

S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).

limc→∞ softmax S(t) = E[S(X)] = max S(t)

Apprentissage du quantron. April 3, 2008 – p. 20/??

Page 62: Apprentissage du quantron : un problème d\’optimisation non différentiable

Preuve de convergence

Xc converge en distribution vers X.

S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).

limc→∞ softmax S(t) = E[S(X)] = max S(t)

Remarque : ddc

E[S(Xc)] = V [S(Xc)] ≥ 0(passage de la dérivée sous l’intégrale)

Apprentissage du quantron. April 3, 2008 – p. 20/??

Page 63: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

S(t)

t0 5 10 15 20

z

0

1

2

3

4

5

Apprentissage du quantron. April 3, 2008 – p. 21/??

Page 64: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

S(t)

Apprentissage du quantron. April 3, 2008 – p. 21/??

Page 65: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

fX1(t)

t0 5 10 15 20

0,05

0,10

0,15

0,20

0,25

Apprentissage du quantron. April 3, 2008 – p. 21/??

Page 66: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

fX2(t)

t0 5 10 15 20

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 21/??

Page 67: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

fX3(t)

t0 5 10 15 20

0

0,1

0,2

0,3

0,4

0,5

0,6

Apprentissage du quantron. April 3, 2008 – p. 21/??

Page 68: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

fX25(t)

t0 5 10 15 20

0

0,5

1,0

1,5

2,0

Apprentissage du quantron. April 3, 2008 – p. 21/??

Page 69: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de max S(t)

fX100(t)

t0 5 10 15 20

0

1

2

3

Apprentissage du quantron. April 3, 2008 – p. 21/??

Page 70: Apprentissage du quantron : un problème d\’optimisation non différentiable

Limites de ce résultat

L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.

Apprentissage du quantron. April 3, 2008 – p. 22/??

Page 71: Apprentissage du quantron : un problème d\’optimisation non différentiable

Limites de ce résultat

L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.

L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).

Apprentissage du quantron. April 3, 2008 – p. 22/??

Page 72: Apprentissage du quantron : un problème d\’optimisation non différentiable

Limites de ce résultat

L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.

L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).

L’implémentation informatique de cetteformule demande une attention particulière.

Apprentissage du quantron. April 3, 2008 – p. 22/??

Page 73: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Potentiels du quantron :

ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon

Apprentissage du quantron. April 3, 2008 – p. 23/??

Page 74: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Potentiels du quantron :

ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon

Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique

Apprentissage du quantron. April 3, 2008 – p. 23/??

Page 75: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Potentiels du quantron :

ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon

Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique

Paramètres :w (amplitude), s (temps d’arrêt)

Apprentissage du quantron. April 3, 2008 – p. 23/??

Page 76: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Exemple de ∂ϕ(t;s)∂s

(avec t fixé à 1) :

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Apprentissage du quantron. April 3, 2008 – p. 24/??

Page 77: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Représentation avec fonctions Heaviside :

ϕ(t) =wQ(ln ω/√

t) × [u(t) − u(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [u(t − s) − u(t − 2s)]

Apprentissage du quantron. April 3, 2008 – p. 25/??

Page 78: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Représentation avec fonctions Heaviside :

ϕ(t) =wQ(ln ω/√

t) × [u(t) − u(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [u(t − s) − u(t − 2s)]

La solution la plus simple serait de remplacerles fonctions Heaviside par des sigmoïdes :

σ(x) =1

1 + e−ax

Apprentissage du quantron. April 3, 2008 – p. 25/??

Page 79: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Problème:

ϕ(t) =wQ(

ln ω/√

t)

× [σ(t) − σ(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.

Apprentissage du quantron. April 3, 2008 – p. 26/??

Page 80: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Problème:

ϕ(t) =wQ(

ln ω/√

t)

× [σ(t) − σ(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.

Solution : Approximer le potentiel par unefonction en escalier, puis approximer les pasde la fonction en escalier par des sigmoïdes.

Apprentissage du quantron. April 3, 2008 – p. 26/??

Page 81: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Approximation avec 5 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Page 82: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Approximation avec 9 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Page 83: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Approximation avec 13 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Page 84: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Approximation avec 17 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Page 85: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Approximation avec 21 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Page 86: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Approximation avec 25 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Page 87: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Apprentissage du quantron. April 3, 2008 – p. 28/??

Page 88: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Apprentissage du quantron. April 3, 2008 – p. 28/??

Page 89: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Ce choix donne une approximation "lisse".

Apprentissage du quantron. April 3, 2008 – p. 28/??

Page 90: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Ce choix donne une approximation "lisse".

Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.

Apprentissage du quantron. April 3, 2008 – p. 28/??

Page 91: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Ce choix donne une approximation "lisse".

Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.

Un mauvais choix de a est néfaste.

Apprentissage du quantron. April 3, 2008 – p. 28/??

Page 92: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Approximation avec 9 évaluations, a = 2d2s

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 29/??

Page 93: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

Approximation avec 9 évaluations, a = 20d2s

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 29/??

Page 94: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

Apprentissage du quantron. April 3, 2008 – p. 30/??

Page 95: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

a = 5d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Apprentissage du quantron. April 3, 2008 – p. 30/??

Page 96: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

a = 2d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Apprentissage du quantron. April 3, 2008 – p. 30/??

Page 97: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

a = 20d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0

1

2

3

Apprentissage du quantron. April 3, 2008 – p. 30/??

Page 98: Apprentissage du quantron : un problème d\’optimisation non différentiable

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

Le calcul de la dérivée est utilisable, mais laprésence de pics dans la dérivée del’approximation pourrait être problématiquepour effectuer la descente du gradient.

Apprentissage du quantron. April 3, 2008 – p. 30/??

Page 99: Apprentissage du quantron : un problème d\’optimisation non différentiable

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Apprentissage du quantron. April 3, 2008 – p. 31/??

Page 100: Apprentissage du quantron : un problème d\’optimisation non différentiable

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Les questions d’implémentation de cesméthodes sont primordiales.

Apprentissage du quantron. April 3, 2008 – p. 31/??

Page 101: Apprentissage du quantron : un problème d\’optimisation non différentiable

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Les questions d’implémentation de cesméthodes sont primordiales.

Suite des travaux :

Apprentissage du quantron. April 3, 2008 – p. 31/??

Page 102: Apprentissage du quantron : un problème d\’optimisation non différentiable

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Les questions d’implémentation de cesméthodes sont primordiales.

Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.

Apprentissage du quantron. April 3, 2008 – p. 31/??

Page 103: Apprentissage du quantron : un problème d\’optimisation non différentiable

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Les questions d’implémentation de cesméthodes sont primordiales.

Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.Application des résultats obtenus àl’apprentissage en classification et enrégression.

Apprentissage du quantron. April 3, 2008 – p. 31/??

Page 104: Apprentissage du quantron : un problème d\’optimisation non différentiable

Références

M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :Springer-Verlag, 2005.

S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction,Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P.Pardalos, editors, Kluwer Academic Publishers, 2001.

S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper SaddleRiver, NJ : Prentice Hall, 1999.

R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of LocalExperts", Neural Computation, 3, 79-87, 1991.

R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems",Proceedings of the International Joint Conference on Neural Networks, 1,617-620, 1999.

C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problemsonto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989.

D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations byback-propagation of errors", Nature, 323, 533-536, 1986.

Apprentissage du quantron. April 3, 2008 – p. 32/??