Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon

37
1 6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/

description

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage. Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/. RNA de type PMC. y = W f ( W f (W X) ). 2. 1. 1. 3. 2. Motivations. - PowerPoint PPT Presentation

Transcript of Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon

15-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Pourquoi les réseaux de neurones

de type « perceptron multicouche »

conviennent-ils à l’apprentissage

Stéphane Canu, INSA de Rouen , PSI

André Elisseeff, ERIC, université de Lyon

http://psichaud.insa-rouen.fr/~scanu/

25-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

RNA de type PMC

y = W f ( W f (W X) )2 113 2

j-1

j-2

j-3

j-4

j-5

j-6

j-7

j-1

j-2

j-3

j-1

j-2

j-3

tem

p.

Monday

Tuesday

Wednesday

Thursday

Friday

Saturday

Sunday

INPUT LAYER

FIRST HIDEN LAYER

SECOND HIDEN LAYER

OUTPUT

FORECAST

Rai

nW

ater

dem

and

35-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Motivations

• RNA de type PMC : si ça marche, il doit y avoir un argument mathématique !– Une machine qui apprend

(pour « comprendre » ou « résoudre »)

argument biologique ou mathématique

• Poser (formaliser) le problème « d’apprentissage à partir d’exemples »– universalité

– contrôle de la complexité • local vs global• dimensionnalité• hyper paramètre : • structure vs « adaptation »

45-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Le problème d’apprentissage

• Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire)

• des variables aléatoires : (X,Y)

• une loi jointe (inconnue)

• une fonction coût

• une fonction cible r(x)= E(Y|X=x)

• un échantillon (xi,yi) i=1,n

B rYXr ;:

Construire , un estimateur de la fonction r

2),,(),,( R:

ppp yyyyxCyyxYYXC

P),( YXP

55-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Le problème d’apprentissage

• Des variables explicatives : X, et des variables à expliquer : Y (observées) (à prédire)

• des variables aléatoires : (X,Y)

• une loi jointe (inconnue)

• une fonction coût

• une fonction cible r(x)= E(Y|X=x)

• un échantillon (xi,yi) i=1,n

B rYXr ;:

Construire , un estimateur de la fonction r

2),,(),,( R:

ppp yyyyxCyyxYYXC

P),( YXP

R (une dimension)

65-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Apprentissage à partir d'exemples

• Données : (xi,yi) i=1,n

• Principe inductif : Minimisation risque empirique

• Ce n’est pas suffisant ...

)(min)(ˆ fC

f

Argxr emp

B 2)(min)( XfYArgxr E

2)()( XfYf EEP Cemp ( f ) 1

nyi f (xi ) 2

i1

n

75-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

• B trop grand :

tout apprendre = apprendre n’importe quoi

• Solution instable

Pourquoi le principe du MRE n’est pas suffisant ?

85-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Exemples d'estimateurs f(x) à coût nul

• B trop grand :

tout apprendre = apprendre n’importe quoi

• Solution instable

minimiser Cemp ce n’est pas forcément minimiser EP

Cemp = 0

Pourquoi le principe du MRE n’est pas suffisant ?

95-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Exemples d'estimateurs f(x) à coût nul

• B trop grand :

tout apprendre = apprendre n’importe quoi

• Solution instable

minimiser Cemp ce n’est pas forcément minimiser EP

Cemp = 0

Pourquoi le principe du MRE n’est pas suffisant ?

105-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

M.R.E.: comment stabiliser ?deux principes.

• Ce problème est mal posé– EP est instable– B est trop grand

• Il faut introduire un a priori– compactifier = régulariser (Tikhonov 63, Groetsch 93)

• Stabilisateur (pénalisation),

• Arrêt de la minimisation,

• Perturber les entrées,...

– Minimiser dans un sous ensemble F de B

115-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Minimisation du risque empiriqueExemples d'estimateurs f(x) à coût nul

f..f..f3

2

1

Mesure de Qualité

n

iii

fxfy

1

22

1 )( minB

125-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Minimisation du risque empiriqueExemples d'estimateurs f(x) à coût nul

f..f..f

pas bon

3

2

1

Mesure de Qualité

n

iii

fxfy

1

22

1 )( minB

135-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Minimisation du risque empiriqueExemples d'estimateurs f(x) à coût nul

f..f..f

pas bon..

bon..

moyen3

2

1

Mesure de Qualité

n

iii

fxfy

1

22

1 )( minB

145-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Mesure de Qualité

• : F R

f (f)

+Ff| (f) existe

Ajustement aux Données

Min |yi - f(xi)| (f) i

n12

2

f F

155-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Mesure de Qualité

• : F R

f (f)

+Ff| (f) existe

Ajustement aux Données Qualité a priori

Min |yi - f(xi)| (f) i

n12

2

f F

165-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Mesure de Qualité

• : F R

f (f)

+Ff| (f) existe

Ajustement aux Données Qualité a priori

Min |yi - f(xi)| (f) i

n12

2

f F

Roberval

175-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Exemple d’a priori

(f)

mesure la “qualité” de f

P( f ) 1

Zexp ( f ) Interprétation Bayésienne

d =

Qfx

f =

dxf'(x)f'f) =

G

f

j=j

(j)

~

2~

22

1

22(

185-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Exemple d’a priori

(f)

mesure la “qualité” de f

P( f ) 1

Zexp ( f ) Interprétation Bayésienne

d =

Qfx

f =

dxf'(x)f'f) =

G

f

j=j

(j)

~

2~

22

1

22(

Fourier

195-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

-4 -2 0 2 4 60

50

100

150

200

Choix de l’a priori

P(x) petit P(x) grandpeu d’information beaucoup d’informationf doit être « régulière » f peut être « irrégulière »

X

: mesureP(x): densité

(dx)= P(x)dx

205-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

-4 -2 0 2 4 60

50

100

150

200

Choix de l’a priori

P(x) petit P(x) grandpeu d’information beaucoup d’informationf doit être « régulière » f peut être « irrégulière »

X

: mesureP(x): densité

(dx)= P(x)dx

dff

fL

2

22

2

2

d

d

d

d

2

Qualité

215-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Choix de l’a prioridérivée de Radon-Nikodym

d

d

:

d

d

d

d

2

2

2

2

22

2

2

2

2

2

fQff

LWQ

df

Qff

f LL

''''

d

det

'dd

d)(d que telle)( si

d que teldd

32

2

P

PffPfPff

xxPxP

fg gf

Un exemple

225-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

exemple

235-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

• Solution : r(x) = Arg

r(x) = r (x) + r (x)

« locale » (r ) = 0

• les a priori des perceptrons multicouches

tanh(x) : “globale” (tanh) = 0

Choix de (f) a priori

min |yi-f(xi)| (f) i

n12

f F

k

^

k^ ^ ^

l^

2

dff

fL

2

22

2

2

d

d

d

d

2

245-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Minimisation du risque régularisé

- ))((1

- 0)('

+ - ))(( )(' ici

)()(

0

lim,'

0)(' résolvant en est trouvé minimum le

+ ))(( = )(

1

*

*

1

22

1

22

1

i

n

iii

i

n

iii

n

iii

xxyxffQQfJ

fQQxxyxffJ

k

fJkgfJ

kgJ

fJ

QfyxffJ

dérivéedirectionnelle

255-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

min J ( f ) = 1

2( f (xi ) yi )2

i1

n

+ 2

Pf 2

le minimum est trouvé en résolvant P*P f -1

( f (xi ) yi )

i1

n

x - xi

le noyau de Green G : P*P G

f = G * -1

( f (xi ) yi )

i1

n

x - xi + Ker(P)

ˆ r (x) = ci G x - xi i1

n

d j Kerj (x) k1

K

ci -1

( f (xi ) yi )

de Q à G

Q*Q

Q*Q

|Qf

Ker(Q)

265-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

de Q à G

A PRIORI

Solution

min J ( f ) = 1

2( f (xi ) yi )2

i1

n

+ 2

Pf 2

le minimum est trouvé en résolvant P*P f -1

( f (xi ) yi )

i1

n

x - xi

le noyau de Green G : P*P G

f = G * -1

( f (xi ) yi )

i1

n

x - xi + Ker(P)

ˆ r (x) = ci G x - xi i1

n

d j Kerj (x) k1

K

ci -1

( f (xi ) yi )

Q*Q

Q*Q

|Qf

Ker(Q)

275-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

estimation des c

ci -1

( f (xi ) yi )

ci yi c jG(xi x j )j1

n

pour i = 1, n

Gc + I c y matriciellement

c G + I 1 y

r(x) c j G(x x j )j1

n

= G(x x j )j1

n

G + I 1 y j

285-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Estimation des c et des d

G + I K

K’ 0

c

d

y

0

=

1

n

n+k

n+kn

295-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Exemple

305-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Une Solution Mixte

r(x) = r (x) + r (x)

R.B.F + P.M.C

Un cadre théorique possible

k^ ^ ^

l

315-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Perspectives• cadre théorique pour les réseaux de neurones

• mesures signées

• multidimensionnel,

• intégration des données (x et y) dans le choix de • nouveaux algorithmes d ’apprentissage (SVM, …),

• moins d’erreur : des bornes !

• intégrer une mesure de complexité,

325-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Régression spline et a priori

• f = Qf Q*Q G =

• f(x) = ci G(xi,x) + dj Kerj(x)

• moindres carrés : (G + I) c = y

Noyau équivalent : f(x) = yi K(xi,x)

Matrice de lissage : f(xi) = S y

335-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Les autres fonctions couts

Cout quadratique

Cout absolu

Cout relatif absolu

Relatif quadratique

Quantiles

Fixé par l’utilisateur, ...

y f (x) 2

y f (x)

y f (x)

y

y f (x)

y

2

r(x) = E(Y| X=x)

P(Y q(x) X x) p

P(Y m(x) x) 0.5

y f (x) p 1 yf (x ) (1 p) 1 y f (x)

P1

Ym(x) x

0.5

r(x) E

1

Y X x

E1

Y 2 X x

nom contraste fonction cible

345-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Minimisation du Risque Empirique (M.R.E.)

• Ce problème est mal posécar B est trop grand !– existence d’une solution– unicité– stabilité de l’erreur en

prédiction EP

si (xi,yi) change un peu, EP varie peu

ˆ r (x) Arg min

f Byi f (xi ) 2

i1

n

2)(min)( XfYArgxr E

2)(ˆ)ˆ( XrYr EEP

Cemp 1

nyi f (xi ) 2

i1

n

355-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Minimisation du risque structurel

Minimisation risque empirique Cemp( f ) 1

nyi f (xi ) 2

i1

n

min

F B E C Y, minf F Cemp ( f , Xi ,Yi )

Régulariser : choisir F tel que M.R.E. soit stable

Choix de F : Minimisation du risque Structurel ˆ r (x) Arg min

f FCemp( f )

ˆ r (x) Arg min

f BCemp( f )

365-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Minimisation du risque structurel

1 - Choix de F-F est fonction de l’échantillon et du problème,- pratiquement, {Fm} : contrôle de la complexité.

2 - Estimation de l’erreur de prédiction- borne théorique,- par rééchantillonnage,- ensemble test.

3 - Régulariser : introduire un a priori (Groetsch 93)

- stabilisateur (pénalisation, Weigend 91),- perturber les entrées (régulariser l’opérateur, Plaut 86),

- arrêt de la minimisation (Amari 95).

min

F B E C Y, minf F Cemp ( f , Xi ,Yi )

1 2 {

3

375-6 Mai 1999 -Séminaire : THEORIE DE L'APPRENTISSAGE ET MODELISATION COGNITIVE

Moindrescarrés

minc yi c jG(x i x j )

j1

n

i1

n

2

minc Jemp (c) = y - Gc 2

minc Jemp(c) = yt y 2ctGt y ctGt Gc

dJemp (c)

dc= 2 Gt y 2 GtGc

J' emp (c) = 0 c = GtG 1 Gt y

c = GtG I 1G t y