Réseaux de neurones artificiels « le neurone formel »

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002

Réseaux de neurones artificielsRéseaux de neurones artificiels

« le neurone formel »« le neurone formel »

S. Canu,

laboratoire PSI, INSA de Rouenéquipe « systèmes d’information pour

l’environnement »

asi.insa-rouen.fr/~scanu

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Le neurone biologiqueLe neurone biologique

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Le neurone formelLe neurone formel

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002PhydsiologiePhydsiologie


0' :décision de frontière ,

...

...

,

...

...

te)(croix ver 0

rouges) (ronds 0

linéairedécision de règle

0 : linéairedécision de frontière

tiques)caractéris ( R dans valeursà v.a.

11

1

1

1

bxw

w

w

w

w

x

x

x

x

bxw

bxw

bxw

dX

d

j

d

j

d

jjj

d

jjj

d

jjj

d

Discrimination LinéaireDiscrimination Linéaire

+

+

+ +

+

+

+

+

+

+

+

+

+

Codage {-1,1}, fonction de décision de type « heaviside »

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Géométrie : illustration dans RGéométrie : illustration dans R22

0' bxw

w

°x

w

bxwxdist

',

1wb

2wb

bxwsignxD ')(

0' bxw

0' bxw

2

1

2

1 , x

xx

w

ww

décision de frontière la à orthogonalest 0)('

0'et 0'et si

wyxw

bywbxwyx

w

bd


-2 -1 0 1 2 3 4

-3

-2

-1

0

1

2

3

Estimation... et rêveEstimation... et rêve


-3 -2 -1 0 1 2 3-3

-2

-1

0

1

2

3Discrimination de deux classes gausiè nnes

0.2

Cas gaussien multidimensionnelCas gaussien multidimensionnel

2

12,

2

11,

21

2

11

1

'2

1

2/12/

'2

1

2/12/

xx

dX

xx

dX

exf

exf

12Le Discriminateur

de Bayesest linéaire...


-2 0 2 4 6-4

-2

0

2

4

6

classe 1classe 2estimationbayes

Moindres carrésMoindres carrés

yXXXW

yXWXWWJ

xXbwWyXW

ybxwbwJ

bxwxDyxDDJ

n

iii

i

n

iii

''

0'20)(

)1,(et , avec

'),(

')(et )()(

1

2

1

21

2

X = [x1 ; x2];X = [X ones(length(X),1)];yi = [ones(length(x1),1) ; -ones(length(x2),1)];

W = (X'*X)\(X'*yi);west = W(1:2);best = W(3);


-2 0 2 4 6 8 10-4

-3

-2

-1

0

1

2

3

4

5

6

classe 1classe 2estimationbayes

Résistance aux « Résistance aux « outliersoutliers » »

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Moindre carrés « stochastiques »Moindre carrés « stochastiques »

ADALINE (Widrow Hoff 1960)ADALINE (Widrow Hoff 1960)

XWXyWX

WWX

yWXWWJ

xXbwWyWX

ybxwbwJ

bxwxDyxDDJ

n

ii

n

ii

n

ii

n

iii

i

n

iii

'2

2)(

)1,(et , avec

'),(

')(et )()(

1

1

1

21

21

2

oldnew

init

WW

WWJ

que.....tant

: itérative méthode ! impossible 0

plus*) évoluen'cout leou classés, mals des reste (*il

Algorithme itératif de gradient

=


Le gradient est orthogonal aux lignes d ’iso coût : argument à la « Taylor »

Algorithme de gradient : illustrationAlgorithme de gradient : illustrationdans le plan dans le plan ww11,w,w22

+

Minimum du coûtLignes d ’iso-coût : J(W) = constante

Direction du gradientJ’(W)

w1

w2

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 20023 solutions3 solutions

sigmoide)fonction la(

)()( avec '2)(

signefonction la approche qui dérivablefonction uneest

2)(PERCEPTRON : 1'

2)(

ADALINE : linéaireion approximat

'2)(

:gradient le

1

1

1

1

xthxxWxyWxWWJ

xyWxWWJ

xyWxWWJ

xWxyWxWWJ

ii

n

iii

i

n

iii

i

n

iii

ii

n

iii

LE NEURONE FORMEL

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Algorithme itératifAlgorithme itératif

nbitemax = 50;k=0;

while ((cout > 0) & (k<nbitemax))

K=K+1;ind = randperm(length(X));

for i=1:length(X)

Dir = (sign(X(ind(i),:)*W)-yi(ind(i)))*X(ind(i),:);W = W - pas*Dir';

end cout = sum(abs(sign(X*W)-yi)); disp([k cout]);

end

Stabilisation du coût (erreur relative)

Randomisation (ok si n grand)

Évaluation du coût : n opérations


-6 -4 -2 0 2 4 6 8 10-4

-3

-2

-1

0

1

2

3

4

5

6

ADALINE, Ça marche...ADALINE, Ça marche...


-2 -1 0 1 2 3 4 5 6

-3

-2

-1

0

1

2

3

ADALINE des fois ADALINE des fois ça ne marche pas…ça ne marche pas…

Solution au sens des moindres carrés


-6 -4 -2 0 2 4 6 8 10-4

-3

-2

-1

0

1

2

3

4

5

6

Le Perceptron, des fois Le Perceptron, des fois ça ne marche pas...ça ne marche pas...

...Quand les exemples ne sont pas linéairement séparables

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Règle du perceptronRègle du perceptron

(Rosenblatt 1958)(Rosenblatt 1958)

codage

classébien ' si

classé mal ' si '

0 si '

0 si 0)(

1'et 1 si '

1 si ' codage

)(

)(

iold

iioldnew

ii

i

iiii

iii

iii

oldnew

xw

xxww

Wxx

Wx

WWJ

yyxx

yxx

xyWxWWJ

WWJ

ww


(Rosenblatt 1958)(Rosenblatt 1958)

• Pas de fonction coût minimisée• preuve de convergence (dans le cas linéairement séparable)

modif) de (nombre

avec min

0 ,1)(hypothèse monde lebien tout classe qui un vecteur soit

classé malest ou fois de nombre le avec

0

1

*

1

**

*

*

1

n

ii

ii

n

iii

i

ii

n

iii

init

ioldnew

mMwxMwxmww

wxniw

xmxmw

w

xww


((Rosenblatt 1958)Rosenblatt 1958)

'''

''' :2et 1

max avec :2

itérations après doncet

max

2

avec min :1

22

2*22*2

222

2222

222

2222

1

*

1

**

MkwMk

McwwwwMc

xcMcw

M

xww

xw

xwxww

mMwxMwxmww

xww

ii

ii

oldnew

iold

ioldioldnew

n

ii

ii

n

iii

ioldnew

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Convergence des algorithmes de gradientConvergence des algorithmes de gradient

converge algorithmel' Alors

convexecout

0limet lim si

)(

1

2

1

1

k

jk

k

k

jk

k

kkk WWJ

ww

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Performances des algorithmes linéairesPerformances des algorithmes linéaires

2/2*

***

1)(

2

12)ˆ(

,/21 ,, de jointe loi la

)( )(minarg coutson et monde)(du linéairer classifieumeilleur

)(minargˆ

empirique risquedu on minimisati

exemples 1

)(

:erreurs des fréquence : ageapprentissd'erreur )()(

:erreurd' éprobabiliterreur

nd

D

empD

n

iyxDemp

d

ed

neJDJP

dnndYX

DJJDJD

DJD

nIn

DJ

RXYXDPDJ

ii

Théorème (Vapnik & Chervonenkis, 1974)

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002Performances des algorithmes linéairesPerformances des algorithmes linéaires

2/2*

***

2

12)ˆ(

,/21 ,, de jointe loi la

)( )(minarg coutson et monde)(du linéairer classifieumeilleur

)(minargˆ : empirique risquedu on minimisatidimension en exemples

nd

D

empD

ed

neJDJP

dnndYX

DJJDJD

DJDdn

Théorème (Vapnik & Chervonenkis, 1974)

Probabilitéd’erreur

risqueempirique

Malédiction de la dimensionnalité

Asymptotiquement« jouable »

précision

borne

Les réseaux de neurones pour l’apprentissageESSEC, le 28 Juin 2002ConclusionConclusion

Neurone formel = Modèle linéraire

Estimation des paramètres– directe

rapide - n3

– itérativelent - apprentissage au coup par coupOCR : n=106

Réseaux de neurones artificiels « le neurone formel »

Documents

Transcript of Réseaux de neurones artificiels « le neurone formel »