Apprentissage du quantron : un problème d\’optimisation non différentiable

Post on 20-Jun-2015

509 views 2 download

description

Présentation au séminaire de mathématiques appliquées du département de Mathématiques et de Génie Industriel (3 avril 2008, École Polytechnique de Montréal)

Transcript of Apprentissage du quantron : un problème d\’optimisation non différentiable

Apprentissage du quantronUn problème d’optimisation non différentiable

Simon de Montigny

sous la direction de Richard Labib, Ph.D.

Departement de mathematiques et genie industriel

Ecole Polytechnique de Montreal

Apprentissage du quantron. April 3, 2008 – p. 1/??

Introduction

Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.

Apprentissage du quantron. April 3, 2008 – p. 2/??

Introduction

Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.

Entrées Sorties

Neurones et synapses

Apprentissage du quantron. April 3, 2008 – p. 2/??

Introduction

Un réseau de neurones artificiels est unmodèle simplifié du fonctionnement ducerveau.

Transformation

des signaux

Un seul neurone

Paramètres

Apprentissage du quantron. April 3, 2008 – p. 2/??

Introduction

Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.

Apprentissage du quantron. April 3, 2008 – p. 3/??

Introduction

Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.

Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.

Apprentissage du quantron. April 3, 2008 – p. 3/??

Introduction

Les réseaux de neurones sont surtout utiliséscomme outil statistique pour effectuer de larégression, de la classification et del’estimation.

Un réseau doit être entraîné pour pouvoireffectuer une certaine tâche.

Le premier algorithme d’apprentissagedéveloppé pour les réseaux de neuroness’appelle "rétro-propagation de l’erreur"(Rumelhart et al., 1986).

Apprentissage du quantron. April 3, 2008 – p. 3/??

Introduction

Modification des

paramètres

Modification des

paramètres

Calcul de

l'erreur du

réseau

Rétro-propagation de l'erreur

Rétro-propagation de la partie de l'erreur due à chaque neurone de

la couche précédente

Apprentissage du quantron. April 3, 2008 – p. 4/??

Introduction

Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.

Apprentissage du quantron. April 3, 2008 – p. 5/??

Introduction

Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.

On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.

Apprentissage du quantron. April 3, 2008 – p. 5/??

Introduction

Les algorithmes d’apprentissages sontfondés sur des méthodes d’optimisation.

On minimise une fonction d’erreur quicaractérise la différence entre l’état actuel duréseau et l’état désiré.

Les variables d’optimisation sont lesparamètres du réseau.

Apprentissage du quantron. April 3, 2008 – p. 5/??

Exemple : le perceptron

Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3

Apprentissage du quantron. April 3, 2008 – p. 6/??

Exemple : le perceptron

Modèle de neurone :f(x1, x2) = w1x1 + w2x2 + w3

v = w1x1

+w2x2

+w3

w1 , w

2 , w

3

x1

x2

y(v) = v

Apprentissage du quantron. April 3, 2008 – p. 6/??

Exemple : le perceptron

Tâche : reproduire la fonction{(

x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n

Apprentissage du quantron. April 3, 2008 – p. 7/??

Exemple : le perceptron

Tâche : reproduire la fonction{(

x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n

Erreur des moindres carrés :

E(w1, w2, w3) =n∑

k=1

[

d(k) − f(x(k)1 , x

(k)2 )

]2

Apprentissage du quantron. April 3, 2008 – p. 7/??

Exemple : le perceptron

Tâche : reproduire la fonction{(

x(k)1 , x

(k)2

)

, d(k)}

k=1,...,n

Erreur des moindres carrés :

E(w1, w2, w3) =n∑

k=1

[

d(k) − f(x(k)1 , x

(k)2 )

]2

Descente du gradient :wj(t + 1) = wj(t) − η ∂E

∂wj|w1(t),w2(t),w3(t)

Apprentissage du quantron. April 3, 2008 – p. 7/??

Exemple : le perceptron

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Apprentissage du quantron. April 3, 2008 – p. 8/??

Exemple : le perceptron

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Un seul perceptron effectue une régressionlinéaire.

Apprentissage du quantron. April 3, 2008 – p. 8/??

Exemple : le perceptron

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Un seul perceptron effectue une régressionlinéaire.

Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.

Apprentissage du quantron. April 3, 2008 – p. 8/??

Exemple : le perceptron

Puisque f est linéaire, la fonction d’erreur estconvexe et l’apprentissage converge vers unminimum global (Haykin, 1999).

Un seul perceptron effectue une régressionlinéaire.

Mettre plusieurs perceptrons en réseaupermet de faire de la régression non linéaire.

L’apprentissage n’est plus garanti deconverger vers un minimum global.

Apprentissage du quantron. April 3, 2008 – p. 8/??

Que faire?

Limitations des réseaux de perceptrons :

Apprentissage du quantron. April 3, 2008 – p. 9/??

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.

Apprentissage du quantron. April 3, 2008 – p. 9/??

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.

Apprentissage du quantron. April 3, 2008 – p. 9/??

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.

Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?

Apprentissage du quantron. April 3, 2008 – p. 9/??

Que faire?

Limitations des réseaux de perceptrons :Il n’y a pas de règle magique pour choisirla taille du réseau. Un réseau trop grandapprend lentement et généralise mal.Le perceptron est un modèle grossier desneurones biologiques.

Question : Comment peut-on obtenir unréseau plus puissant et de petite taille?

Solution : Améliorer le modèle de neuroneutilisé.

Apprentissage du quantron. April 3, 2008 – p. 9/??

Le quantron

Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).

Apprentissage du quantron. April 3, 2008 – p. 10/??

Le quantron

Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).

t0 5 10 15 20

z

0

1

2

3

4

5

Apprentissage du quantron. April 3, 2008 – p. 10/??

Le quantron

Le quantron est un modèle analytique,biologiquement réaliste qui intègre la diffusiondes neurotransmetteurs (Labib, 1999).

Apprentissage du quantron. April 3, 2008 – p. 10/??

Le quantron

Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.

Apprentissage du quantron. April 3, 2008 – p. 11/??

Le quantron

Une entrée du quantron représente le délaientre les arrivées des vagues de neuro-transmetteurs émises par un autre neurone.

Apprentissage du quantron. April 3, 2008 – p. 11/??

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)

Apprentissage du quantron. April 3, 2008 – p. 12/??

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)

i : indice des entréesj : indice des potentiels de chaque entrée

Apprentissage du quantron. April 3, 2008 – p. 12/??

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)

i : indice des entréesj : indice des potentiels de chaque entrée

S(t) est une fonction continue.

Apprentissage du quantron. April 3, 2008 – p. 12/??

Le quantron

L’opération effectuée par le quantron est unesommation des potentiels reçus :

S(t) =∑

i,j

ϕi,j(t)

i : indice des entréesj : indice des potentiels de chaque entrée

S(t) est une fonction continue.

S(t) = 0 en dehors de [0, T ], où T est la fin dudernier potentiel reçu.

Apprentissage du quantron. April 3, 2008 – p. 12/??

Le quantron

Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.

Apprentissage du quantron. April 3, 2008 – p. 13/??

Le quantron

Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.

Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.

Apprentissage du quantron. April 3, 2008 – p. 13/??

Le quantron

Les paramètres du quantron influencent letemps de début et de fin des potentiels, ainsique leur amplitude.

Si S(t) dépasse le seuil Γ, le quantron émetune vague de neurotransmetteurs. Sinon, iln’émet rien.

Nous allons aborder le problèmed’apprentissage avec le modèle f = max S(t).

Apprentissage du quantron. April 3, 2008 – p. 13/??

Objectifs généraux de la recherche

Développer un algorithme d’apprentissageefficace pour le quantron.

Apprentissage du quantron. April 3, 2008 – p. 14/??

Objectifs généraux de la recherche

Développer un algorithme d’apprentissageefficace pour le quantron.

Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.

Apprentissage du quantron. April 3, 2008 – p. 14/??

Objectifs généraux de la recherche

Développer un algorithme d’apprentissageefficace pour le quantron.

Trouver une formule analytique adaptée àl’algorithme de rétro-propagation pourentraîner des réseaux de quantrons.

Évaluer les capacités et les limites duquantron comme outil de reconnaissance deformes et d’approximation de fonctions.

Apprentissage du quantron. April 3, 2008 – p. 14/??

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

k=1

gk(t)u(t − τk)

Apprentissage du quantron. April 3, 2008 – p. 15/??

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

k=1

gk(t)u(t − τk)

Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :

Apprentissage du quantron. April 3, 2008 – p. 15/??

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

k=1

gk(t)u(t − τk)

Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :

Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)

Apprentissage du quantron. April 3, 2008 – p. 15/??

Problème préliminaire

Le modèle du quantron est une fonction nondifférentiable de ses paramètres.

f(τ1, . . . , τn) = maxn

k=1

gk(t)u(t − τk)

Deux principales approches à l’optimisationnon différentiable (Elhedhli et al., 2001) :

Méthode des sous-gradient (Shor) etgradient généralisé (Clarke)Approximation différentiable (Bertsekas)

Apprentissage du quantron. April 3, 2008 – p. 15/??

Problème préliminaire

Nous allons développer :

Apprentissage du quantron. April 3, 2008 – p. 16/??

Problème préliminaire

Nous allons développer :une approximation différentiable dumaximum global de S(t)

Apprentissage du quantron. April 3, 2008 – p. 16/??

Problème préliminaire

Nous allons développer :une approximation différentiable dumaximum global de S(t)

une approximation différentiable de ϕ(t)

Apprentissage du quantron. April 3, 2008 – p. 16/??

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Apprentissage du quantron. April 3, 2008 – p. 17/??

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).

Apprentissage du quantron. April 3, 2008 – p. 17/??

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).

Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)

Apprentissage du quantron. April 3, 2008 – p. 17/??

Approximation de max S(t)

Approximation différentiable de max S(t) :

softmax S(t) =

∫ T

0

[

S(t)ecS(t)

∫ T

0 ecS(τ)dτ

]

dt

Il s’agit d’une adaptation de la fonctionsoftmax utilisée dans divers modèles deréseaux de neurones. (Peterson etSöderberg, 1989, Jacobs et al., 1991).

Bornes : min S(t) ≤ softmax S(t) ≤ max S(t)

Convergence : limc→∞

softmax S(t) = max S(t)

Apprentissage du quantron. April 3, 2008 – p. 17/??

Preuve de convergence

Propriétés des fonctions de densité

Apprentissage du quantron. April 3, 2008 – p. 18/??

Preuve de convergence

Propriétés des fonctions de densité∫ T

0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1

Apprentissage du quantron. April 3, 2008 – p. 18/??

Preuve de convergence

Propriétés des fonctions de densité∫ T

0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1

ecS(t)

∫ T

0ecS(τ)dτ

≥ 0

Apprentissage du quantron. April 3, 2008 – p. 18/??

Preuve de convergence

Propriétés des fonctions de densité∫ T

0

[

ecS(t)

∫ T

0ecS(τ)dτ

]

dt = 1

ecS(t)

∫ T

0ecS(τ)dτ

≥ 0

softmax S(t) = E[S(Xc)] où Xc est un tempsaléatoire choisi dans l’intervalle [0, T ] selon lafonction de densité fXc

(t) = ecS(t)

∫ T

0ecS(τ)dτ

.

Apprentissage du quantron. April 3, 2008 – p. 18/??

Preuve de convergence

Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Apprentissage du quantron. April 3, 2008 – p. 19/??

Preuve de convergence

Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Si t∗ est fini, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,

∞ si t ∈ t∗.

Apprentissage du quantron. April 3, 2008 – p. 19/??

Preuve de convergence

Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.

Si t∗ est fini, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,

∞ si t ∈ t∗.

Si t∗ est infini non dénombrable, on a

limc→∞

fXc(t) = fX(t) =

{

0 si t /∈ t∗,1

µ(t∗) si t ∈ t∗.

Apprentissage du quantron. April 3, 2008 – p. 19/??

Preuve de convergence

Xc converge en distribution vers X.

Apprentissage du quantron. April 3, 2008 – p. 20/??

Preuve de convergence

Xc converge en distribution vers X.

S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).

Apprentissage du quantron. April 3, 2008 – p. 20/??

Preuve de convergence

Xc converge en distribution vers X.

S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).

limc→∞ softmax S(t) = E[S(X)] = max S(t)

Apprentissage du quantron. April 3, 2008 – p. 20/??

Preuve de convergence

Xc converge en distribution vers X.

S(·) continue et bornée ⇒E[S(Xc)] converge vers E[S(X)](représentation de Skorokhod, convergencedominée, e.g. Capinski et Kopp, 2005).

limc→∞ softmax S(t) = E[S(X)] = max S(t)

Remarque : ddc

E[S(Xc)] = V [S(Xc)] ≥ 0(passage de la dérivée sous l’intégrale)

Apprentissage du quantron. April 3, 2008 – p. 20/??

Approximation de max S(t)

S(t)

t0 5 10 15 20

z

0

1

2

3

4

5

Apprentissage du quantron. April 3, 2008 – p. 21/??

Approximation de max S(t)

S(t)

Apprentissage du quantron. April 3, 2008 – p. 21/??

Approximation de max S(t)

fX1(t)

t0 5 10 15 20

0,05

0,10

0,15

0,20

0,25

Apprentissage du quantron. April 3, 2008 – p. 21/??

Approximation de max S(t)

fX2(t)

t0 5 10 15 20

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 21/??

Approximation de max S(t)

fX3(t)

t0 5 10 15 20

0

0,1

0,2

0,3

0,4

0,5

0,6

Apprentissage du quantron. April 3, 2008 – p. 21/??

Approximation de max S(t)

fX25(t)

t0 5 10 15 20

0

0,5

1,0

1,5

2,0

Apprentissage du quantron. April 3, 2008 – p. 21/??

Approximation de max S(t)

fX100(t)

t0 5 10 15 20

0

1

2

3

Apprentissage du quantron. April 3, 2008 – p. 21/??

Limites de ce résultat

L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.

Apprentissage du quantron. April 3, 2008 – p. 22/??

Limites de ce résultat

L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.

L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).

Apprentissage du quantron. April 3, 2008 – p. 22/??

Limites de ce résultat

L’application de softmax à une fonctioncontinue est limitée par la capacité derésoudre l’intégrale analytiquement.

L’intégrale se résout bien avec uneapproximation linéaire par morceaux de S(t).

L’implémentation informatique de cetteformule demande une attention particulière.

Apprentissage du quantron. April 3, 2008 – p. 22/??

Approximation de ϕ(t)

Potentiels du quantron :

ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon

Apprentissage du quantron. April 3, 2008 – p. 23/??

Approximation de ϕ(t)

Potentiels du quantron :

ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon

Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique

Apprentissage du quantron. April 3, 2008 – p. 23/??

Approximation de ϕ(t)

Potentiels du quantron :

ϕ(t) =

wQ(

lnω√t

)

si 0 ≤ t < s

w[

Q(

ln ω√s

)

− Q(

ln ω√t−s

)]

si s ≤ t < 2s

0 sinon

Q(·) : fonction de survie d’une loi N(0, 1)ω : largeur de la fente synaptique

Paramètres :w (amplitude), s (temps d’arrêt)

Apprentissage du quantron. April 3, 2008 – p. 23/??

Approximation de ϕ(t)

Exemple de ∂ϕ(t;s)∂s

(avec t fixé à 1) :

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Apprentissage du quantron. April 3, 2008 – p. 24/??

Approximation de ϕ(t)

Représentation avec fonctions Heaviside :

ϕ(t) =wQ(ln ω/√

t) × [u(t) − u(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [u(t − s) − u(t − 2s)]

Apprentissage du quantron. April 3, 2008 – p. 25/??

Approximation de ϕ(t)

Représentation avec fonctions Heaviside :

ϕ(t) =wQ(ln ω/√

t) × [u(t) − u(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [u(t − s) − u(t − 2s)]

La solution la plus simple serait de remplacerles fonctions Heaviside par des sigmoïdes :

σ(x) =1

1 + e−ax

Apprentissage du quantron. April 3, 2008 – p. 25/??

Approximation de ϕ(t)

Problème:

ϕ(t) =wQ(

ln ω/√

t)

× [σ(t) − σ(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.

Apprentissage du quantron. April 3, 2008 – p. 26/??

Approximation de ϕ(t)

Problème:

ϕ(t) =wQ(

ln ω/√

t)

× [σ(t) − σ(t − s)]

+ w[

Q(

ln ω/√

s)

− Q(

ln ω/√

t − s)]

× [σ(t − s) − σ(t − 2s)]

est complexe pour t < s.

Solution : Approximer le potentiel par unefonction en escalier, puis approximer les pasde la fonction en escalier par des sigmoïdes.

Apprentissage du quantron. April 3, 2008 – p. 26/??

Approximation de ϕ(t)

Approximation avec 5 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Approximation de ϕ(t)

Approximation avec 9 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Approximation de ϕ(t)

Approximation avec 13 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Approximation de ϕ(t)

Approximation avec 17 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Approximation de ϕ(t)

Approximation avec 21 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Approximation de ϕ(t)

Approximation avec 25 évaluations

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 27/??

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Apprentissage du quantron. April 3, 2008 – p. 28/??

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Apprentissage du quantron. April 3, 2008 – p. 28/??

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Ce choix donne une approximation "lisse".

Apprentissage du quantron. April 3, 2008 – p. 28/??

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Ce choix donne une approximation "lisse".

Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.

Apprentissage du quantron. April 3, 2008 – p. 28/??

Approximation de ϕ(t)

d : nombre de pas de l’approximation parfonction en escalier

Nous avons choisi a = 5d2s comme paramètre

de forme de la sigmoïde.

Ce choix donne une approximation "lisse".

Validation expérimentale par identification duminimum de l’erreur quadratique entre ϕ(t) etson approximation par sigmoïdes.

Un mauvais choix de a est néfaste.

Apprentissage du quantron. April 3, 2008 – p. 28/??

Approximation de ϕ(t)

Approximation avec 9 évaluations, a = 2d2s

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 29/??

Approximation de ϕ(t)

Approximation avec 9 évaluations, a = 20d2s

t0 1 2 3 4

0,1

0,2

0,3

0,4

Apprentissage du quantron. April 3, 2008 – p. 29/??

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

Apprentissage du quantron. April 3, 2008 – p. 30/??

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

a = 5d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Apprentissage du quantron. April 3, 2008 – p. 30/??

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

a = 2d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Apprentissage du quantron. April 3, 2008 – p. 30/??

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

a = 20d2s

s0,4 0,6 0,8 1,0 1,2 1,4

0

1

2

3

Apprentissage du quantron. April 3, 2008 – p. 30/??

Approximation de ϕ(t)

L’approximation semble bonne, maisqu’arrive-t-il à la dérivée?

Le calcul de la dérivée est utilisable, mais laprésence de pics dans la dérivée del’approximation pourrait être problématiquepour effectuer la descente du gradient.

Apprentissage du quantron. April 3, 2008 – p. 30/??

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Apprentissage du quantron. April 3, 2008 – p. 31/??

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Les questions d’implémentation de cesméthodes sont primordiales.

Apprentissage du quantron. April 3, 2008 – p. 31/??

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Les questions d’implémentation de cesméthodes sont primordiales.

Suite des travaux :

Apprentissage du quantron. April 3, 2008 – p. 31/??

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Les questions d’implémentation de cesméthodes sont primordiales.

Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.

Apprentissage du quantron. April 3, 2008 – p. 31/??

En conclusion

Les deux approximations différentiablesprésentées permettent d’aborderl’apprentissage du quantron.

Les questions d’implémentation de cesméthodes sont primordiales.

Suite des travaux :Développement d’une forme alternative decalcul de la réponse du quantron.Application des résultats obtenus àl’apprentissage en classification et enrégression.

Apprentissage du quantron. April 3, 2008 – p. 31/??

Références

M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :Springer-Verlag, 2005.

S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction,Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P.Pardalos, editors, Kluwer Academic Publishers, 2001.

S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper SaddleRiver, NJ : Prentice Hall, 1999.

R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of LocalExperts", Neural Computation, 3, 79-87, 1991.

R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems",Proceedings of the International Joint Conference on Neural Networks, 1,617-620, 1999.

C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problemsonto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989.

D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations byback-propagation of errors", Nature, 323, 533-536, 1986.

Apprentissage du quantron. April 3, 2008 – p. 32/??