Apprentissage du quantron : un problème d\’optimisation non différentiable

Apprentissage du quantronUn problème d’optimisation non différentiable

Simon de Montigny

sous la direction de Richard Labib, Ph.D.

Departement de mathematiques et genie industriel

Ecole Polytechnique de Montreal

Apprentissage du quantron. April 3, 2008 – p. 1/??

Introduction

Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.

Introduction

Entrées Sorties

Neurones et synapses

Introduction

Transformation

des signaux

Un seul neurone

Paramètres

Introduction

Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.

Introduction

Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.

Introduction

Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.

Le premier algorithme d’apprentissagedéveloppé pour les réseaux de neuroness’appelle "rétro-propagation de l’erreur"(Rumelhart et al., 1986).

Introduction

Modification des

paramètres

Modification des

paramètres

Calcul de

l'erreur du

réseau

Rétro-propagation de l'erreur

Rétro-propagation de la partie de l'erreur due à chaque neurone de

la couche précédente

Introduction

Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.

Introduction

On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.

Introduction

On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.

Les variables d’optimisation sont lesparamètres du réseau.

Exemple : le perceptron

Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3

v = w1x1

w1 , w

y(v) = v

Tâche : reproduire la fonction{(

x(k)1 , x

, d(k)}

k=1,...,n

x(k)1 , x

, d(k)}

k=1,...,n

Erreur des moindres carrés :

E(w1, w2, w3) =n∑

d(k) − f(x(k)1 , x

(k)2 )

x(k)1 , x

, d(k)}

k=1,...,n

Erreur des moindres carrés :

E(w1, w2, w3) =n∑

d(k) − f(x(k)1 , x

(k)2 )

Descente du gradient :wj(t + 1) = wj(t) − η ∂E

∂wj|w1(t),w2(t),w3(t)

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Un seul perceptron effectue une régressionlinéaire.

Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.

L’apprentissage n’est plus garanti deconverger vers un minimum global.

Que faire?

Limitations des réseaux de perceptrons :

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.

Que faire?

Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?

Que faire?

Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?

Solution : Améliorer le modèle de neuroneutilisé.

Le quantron

Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).

Le quantron

t0 5 10 15 20

Le quantron

Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.

Le quantron

Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

ϕi,j(t)

Le quantron

S(t) =∑

ϕi,j(t)

i : indice des entréesj : indice des potentiels de chaque entrée

Le quantron

S(t) =∑

ϕi,j(t)

S(t) est une fonction continue.

Le quantron

S(t) =∑

ϕi,j(t)

S(t) est une fonction continue.

S(t) = 0 en dehors de [0, T ], où T est la fin dudernier potentiel reçu.

Le quantron

Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.

Le quantron

Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.

Le quantron

Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.

Nous allons aborder le problèmed’apprentissage avec le modèle f = max S(t).

Objectifs généraux de la recherche

Développer un algorithme d’apprentissageefficace pour le quantron.

Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.

Évaluer les capacités et les limites duquantron comme outil de reconnaissance deformes et d’approximation de fonctions.

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

gk(t)u(t − τk)

f(τ1, . . . , τn) = maxn

gk(t)u(t − τk)

Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :

f(τ1, . . . , τn) = maxn

gk(t)u(t − τk)

Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)

f(τ1, . . . , τn) = maxn

gk(t)u(t − τk)

Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)Approximation différentiable (Bertsekas)

Nous allons développer :

Nous allons développer :une approximation différentiable dumaximum global de S(t)

une approximation différentiable de ϕ(t)

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

S(t)ecS(t)

0 ecS(τ)dτ

softmax S(t) =

S(t)ecS(t)

0 ecS(τ)dτ

Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).

softmax S(t) =

S(t)ecS(t)

0 ecS(τ)dτ

Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)

softmax S(t) =

S(t)ecS(t)

0 ecS(τ)dτ

Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)

Convergence : limc→∞

softmax S(t) = max S(t)

Preuve de convergence

Propriétés des fonctions de densité

Propriétés des fonctions de densité∫ T

ecS(t)

0ecS(τ)dτ

dt = 1

ecS(t)

0ecS(τ)dτ

dt = 1

ecS(t)

0ecS(τ)dτ

ecS(t)

0ecS(τ)dτ

dt = 1

ecS(t)

0ecS(τ)dτ

softmax S(t) = E[S(Xc)] où Xc est un tempsaléatoire choisi dans l’intervalle [0, T ] selon lafonction de densité fXc

(t) = ecS(t)

0ecS(τ)dτ

Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Si t∗ est fini, on a

limc→∞

fXc(t) = fX(t) =

0 si t /∈ t∗,

∞ si t ∈ t∗.

Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Si t∗ est fini, on a

limc→∞

fXc(t) = fX(t) =

0 si t /∈ t∗,

∞ si t ∈ t∗.

Si t∗ est infini non dénombrable, on a

limc→∞

fXc(t) = fX(t) =

0 si t /∈ t∗,1

µ(t∗) si t ∈ t∗.

Xc converge en distribution vers X.

S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).

limc→∞ softmax S(t) = E[S(X)] = max S(t)

Remarque : ddc

E[S(Xc)] = V [S(Xc)] ≥ 0(passage de la dérivée sous l’intégrale)

t0 5 10 15 20

fX1(t)

t0 5 10 15 20

fX2(t)

t0 5 10 15 20

fX3(t)

t0 5 10 15 20

fX25(t)

t0 5 10 15 20

fX100(t)

t0 5 10 15 20

Limites de ce résultat

L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.

L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).

L’implémentation informatique de cetteformule demande une attention particulière.

Approximation de ϕ(t)

Potentiels du quantron :

ϕ(t) =

lnω√t

si 0 ≤ t < s

ln ω√s

− Q(

ln ω√t−s

si s ≤ t < 2s

0 sinon

ϕ(t) =

lnω√t

si 0 ≤ t < s

ln ω√s

− Q(

ln ω√t−s

si s ≤ t < 2s

0 sinon

Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique

ϕ(t) =

lnω√t

si 0 ≤ t < s

ln ω√s

− Q(

ln ω√t−s

si s ≤ t < 2s

0 sinon

Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique

Paramètres :w (amplitude), s (temps d’arrêt)

Exemple de ∂ϕ(t;s)∂s

(avec t fixé à 1) :

s0,4 0,6 0,8 1,0 1,2 1,4

Représentation avec fonctions Heaviside :

ϕ(t) =wQ(ln ω/√

t) × [u(t) − u(t − s)]

ln ω/√

− Q(

ln ω/√

t − s)]

× [u(t − s) − u(t − 2s)]

Représentation avec fonctions Heaviside :

ϕ(t) =wQ(ln ω/√

t) × [u(t) − u(t − s)]

ln ω/√

− Q(

ln ω/√

t − s)]

× [u(t − s) − u(t − 2s)]

La solution la plus simple serait de remplacerles fonctions Heaviside par des sigmoïdes :

σ(x) =1

1 + e−ax

Problème:

ϕ(t) =wQ(

ln ω/√

× [σ(t) − σ(t − s)]

ln ω/√

− Q(

ln ω/√

t − s)]

× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.

Problème:

ϕ(t) =wQ(

ln ω/√

× [σ(t) − σ(t − s)]

ln ω/√

− Q(

ln ω/√

t − s)]

× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.

Solution : Approximer le potentiel par unefonction en escalier, puis approximer les pasde la fonction en escalier par des sigmoïdes.

Approximation avec 5 évaluations

t0 1 2 3 4

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Ce choix donne une approximation "lisse".

Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.

Un mauvais choix de a est néfaste.

Approximation avec 9 évaluations, a = 2d2s

t0 1 2 3 4

Approximation avec 9 évaluations, a = 20d2s

t0 1 2 3 4

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

a = 5d2s

s0,4 0,6 0,8 1,0 1,2 1,4

a = 2d2s

s0,4 0,6 0,8 1,0 1,2 1,4

a = 20d2s

s0,4 0,6 0,8 1,0 1,2 1,4

Le calcul de la dérivée est utilisable, mais laprésence de pics dans la dérivée del’approximation pourrait être problématiquepour effectuer la descente du gradient.

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

En conclusion

Les questions d’implémentation de cesméthodes sont primordiales.

En conclusion

Suite des travaux :

En conclusion

Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.

En conclusion

Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.Application des résultats obtenus àl’apprentissage en classification et enrégression.

Références

M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :Springer-Verlag, 2005.

S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction,Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P.Pardalos, editors, Kluwer Academic Publishers, 2001.

S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper SaddleRiver, NJ : Prentice Hall, 1999.

R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of LocalExperts", Neural Computation, 3, 79-87, 1991.

R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems",Proceedings of the International Joint Conference on Neural Networks, 1,617-620, 1999.

C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problemsonto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989.

D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations byback-propagation of errors", Nature, 323, 533-536, 1986.

Apprentissage du quantron : un problème d\’optimisation non différentiable

Technology

Transcript of Apprentissage du quantron : un problème d\’optimisation non différentiable

Apprentissage Authentique

Apprentissage statistique - Apprentissage supervisé ...

Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Optimisation portefeuillerobuste27032014

Optimisation Différentiable Théorie et Algorithmes Partie ...

Apprentissage Lecture

Optimisation Différentiable Théorie et Algorithmes … · En optimisation avec contraintes: – pour la théorie: obtenir des propriétés à partir de problèmes approchés sans

Optimisation combinatoire

optimisation Vapeur

Apprentissage Automatique (4/7): Apprentissage non supervisé

Apprentissage par Renforcement - Apprentissage Numérique

Optimisation Optimisation sans dérivées: De Nelder-Mead aux méthodess globales.

Master 2 Recherche Apprentissage Statistique et Optimisation

Optimisation mathématique

Master Recherche IAC Apprentissage Statistique ...sebag/Slides/Cours_NN_2012_v2.pdf · Master Recherche IAC Apprentissage Statistique, Optimisation & Applications Anne Auger Balazs

Optimisation linéaire

L3 UE51A Optimisation des transferts Optimisation de la ...

Optimisation LAMP

Apprentissage artificiel

Apprentissage ScléRothéRapie