DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S....

29
DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF

Transcript of DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S....

Page 1: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

DEA Perception et Traitement de l’Information

Reconnaissance des formes

Apprentissage linéaire

S. Canu

http://psichaud.insa-rouen.fr/~scanu/RdF

Page 2: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

RdF et apprentissage

D : Algorithme de

Reconnaissancedes Formes

Une forme x(vecteur forme

des caractéristiques)

C’est la forme

« y=D(x) »

A : Algorithme d’apprentissage

niyxS iin ,1 , Ensemble d’apprentissage (échantillon)

)(,)(C,et )(

:couts les

XDSCEDJDJ

A priorisur la

nature de la solution

2

1

3

Les problèmes PYXP ,

D(x) =signe(w’x+b) bw ˆ,ˆ

Page 3: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

0' :décision de frontière ,

...

...

,

...

...

te)(croix ver 0

rouges) (ronds 0

linéairedécision de règle

0 : linéairedécision de frontière

tiques)caractéris ( R dans valeursà v.a.

11

1

1

1

bxw

w

w

w

w

x

x

x

x

bxw

bxw

bxw

dX

d

j

d

j

d

jjj

d

jjj

d

jjj

d

Discrimination Linéaire

+

+

+ +

+

+

+

+

+

+

+

+

+

Codage {-1,1}, fonction de décision de type « heaviside »

Page 4: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

-2 -1 0 1 2 3 4

-3

-2

-1

0

1

2

3

Estimation... et rêve

Page 5: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Stratégies d’estimation– Minimiser les erreurs

• moindres carrées

• adaline

• perceptron

• le neurone formel

– estimer les paramètres • max de vraisemblance, puis règle de Bayes

– minimiser un autre critère• analyse discriminante de Fisher

Page 6: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

-2 0 2 4 6-4

-2

0

2

4

6

classe 1classe 2estimationbayes

Moindres carrés

yXXXW

yXWXWWJ

xXbwWyXW

ybxwbwJ

bxwxDyxDDJ

n

iii

i

n

iii

''

0'20)(

)1,(et , avec

'),(

')(et )()(

1

2

1

21

2

X = [x1 ; x2];X = [X ones(length(X),1)];yi = [ones(length(x1),1) ; -ones(length(x2),1)];

W = (X'*X)\(X'*yi);west = W(1:2);best = W(3);

Page 7: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

-2 0 2 4 6 8 10

-4

-3

-2

-1

0

1

2

3

4

5

6

classe 1classe 2estimationbayes

Résistance aux « outliers »

Page 8: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Moindre carrés « stochastiques »ADALINE (Widrow Hoff 1960)

XWXyWX

WWX

yWXWWJ

xXbwWyWX

ybxwbwJ

bxwxDyxDDJ

n

ii

n

ii

n

ii

n

iii

i

n

iii

'2

2)(

)1,(et , avec

'),(

')(et )()(

1

1

1

21

21

2

oldnew

init

WW

WWJ

que.....tant

: itérative méthode ! impossible 0

plus*) évoluen'cout leou classés, mals des reste (*il

Algorithme itératif de gradient

=

Page 9: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Le gradient est orthogonal aux lignes d ’iso coût : argument à la « Taylor »

Algorithme de gradient : illustrationdans le plan w1,w2

+

Minimum du coûtLignes d ’iso-coût : J(W) = constante

Direction du gradientJ’(W)

w1

w2

Page 10: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

3 solutions

sigmoide)fonction la(

)()( avec '2)(

signefonction la approche qui dérivablefonction uneest

2)(PERCEPTRON : 1'

2)(

ADALINE : linéaireion approximat

'2)(

:gradient le

1

1

1

1

xthxxWxyWxWWJ

xyWxWWJ

xyWxWWJ

xWxyWxWWJ

ii

n

iii

i

n

iii

i

n

iii

ii

n

iii

LE NEURONE FORMEL

Page 11: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Algorithme itératifnbitemax = 50;k=0;

while ((cout > 0) & (k<nbitemax))

K=K+1;ind = randperm(length(X));

for i=1:length(X)

Dir = (sign(X(ind(i),:)*W)-yi(ind(i)))*X(ind(i),:);W = W - pas*Dir';

end cout = sum(abs(sign(X*W)-yi)); disp([k cout]);

end

Stabilisation du coût (erreur relative)

Randomisation (ok si n grand)

Évaluation du coût : n opérations

Page 12: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

-6 -4 -2 0 2 4 6 8 10

-4

-3

-2

-1

0

1

2

3

4

5

6

ADALINE, Ça marche...

Page 13: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

-2 -1 0 1 2 3 4 5 6

-3

-2

-1

0

1

2

3

ADALINE des fois ça ne marche pas…

Solution au sens des moindres carrés

Page 14: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

-6 -4 -2 0 2 4 6 8 10-4

-3

-2

-1

0

1

2

3

4

5

6

Le Perceptron, des fois ça ne marche pas...

...Quand les exemples ne sont pas linéairement séparables

Page 15: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Règle du perceptron(Rosenblatt 1958)

codage

classébien ' si

classé mal ' si '

0 si '

0 si 0)(

1'et 1 si '

1 si ' codage

)(

)(

iold

iioldnew

ii

i

iiii

iii

iii

oldnew

xw

xxww

Wxx

Wx

WWJ

yyxx

yxx

xyWxWWJ

WWJ

ww

Page 16: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Règle du perceptron(Rosenblatt 1958)

• Pas de fonction coût minimisée• preuve de convergence (dans le cas linéairement séparable)

modif) de (nombre

avec min

0 ,1)(hypothèse monde lebien tout classe qui un vecteur soit

classé malest ou fois de nombre le avec

0

1

*

1

**

*

*

1

n

ii

ii

n

iii

i

ii

n

iii

init

ioldnew

mMwxMwxmww

wxniw

xmxmw

w

xww

Page 17: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Règle du perceptron(Rosenblatt 1958)

'''

''' :2et 1

max avec :2

itérations après doncet

max

2

avec min :1

22

2*22*2

222

2222

222

2222

1

*

1

**

MkwMk

McwwwwMc

xcMcw

M

xww

xw

xwxww

mMwxMwxmww

xww

ii

ii

oldnew

iold

ioldioldnew

n

ii

ii

n

iii

ioldnew

Page 18: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Convergence des algorithmes de gradient

converge algorithmel' Alors

convexecout

0limet lim si

)(

1

2

1

1

k

jk

k

k

jk

k

kkk WWJ

ww

Page 19: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Performances des algorithmes linéaires

2/2*

***

1)(

2

12)ˆ(

,/21 ,, de jointe loi la

)( )(minarg coutson et monde)(du linéairer classifieumeilleur

)(minargˆ

empirique risquedu on minimisati

exemples 1

)(

:erreurs des fréquence : ageapprentissd'erreur )()(

:erreurd' éprobabiliterreur

nd

D

empD

n

iyxDemp

d

ed

neJDJP

dnndYX

DJJDJD

DJD

nIn

DJ

RXYXDPDJ

ii

Théorème (Vapnik & Chervonenkis, 1974)

Page 20: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Performances des algorithmes linéaires

2/2*

***

2

12)ˆ(

,/21 ,, de jointe loi la

)( )(minarg coutson et monde)(du linéairer classifieumeilleur

)(minargˆ : empirique risquedu on minimisatidimension en exemples

nd

D

empD

ed

neJDJP

dnndYX

DJJDJD

DJDdn

Théorème (Vapnik & Chervonenkis, 1974)

Probabilitéd’erreur

risqueempirique

Malédiction de la dimensionnalité

Asymptotiquement« jouable »

précision

borne

Page 21: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Maximum de vraisemblance

Distance de Mahalanobis

2

121

121

211

log'21

et

avec 0'

pp

b

wbxw

1,1

11 '

2

1

xx

X exf

' 11

1 xx

2221

1

)1(

111

21

11

1)2(

1)1(

ˆˆ2

1

ˆˆ ˆ

,1,,,1, geappentissad' ensemble n échantillo

1

nnn

xn

mnn

np

nixnixn

ii

ii

2

121

121

211

ˆˆ

log- ˆˆˆ ˆˆ21ˆet

ˆˆˆˆ avec 0ˆ'ˆ

pp

mmmm b

mmwbxw

1

11

)1(1

)1(1 ˆˆ

11ˆ

n

i

T

ii mxmxn

Page 22: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Analyse discriminante de Fisher2 classes

ˆ avec

ˆˆmin

2

21W

WT

T

RvS

vSv

mmvMV

d

Quelle est la direction de l’espace des caractéristiquesqui sépare le mieux les deux classes ?

Voilà la critère !

Page 23: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Analyse discriminante de Fishermulti classes

1 avec min :direction une rechercheon

ou 0 :solution min

ˆ : classesINTRA inertie

ˆˆ : classes INTER inertie

observées variables les mieux""au résumant variable"nouvelle" une rechercheon ,

ˆ,ˆ :moyenne la estimeon classe chaquepour

: totalnombre , classe la dans exemples

classes,

1

1

C

1

vSvvSv

vSv

vvSv

vSvn

nS

mmmmn

nS

dvRx

mc

nncn

C

WT

WT

BT

Rv

WT

BT

Rv

c

C

c

cW

Ti

C

ci

cB

d

cc

ccc

d

d

Page 24: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Analyse discriminante de Fishermulti classes

vvSS

vSvS

v

vSvvSv

vSvvSv

vSvvSv

vSvvSv

vSv

BW

WB

WT

BT

WT

BT

Rv

WT

BT

Rv

WT

WT

BT

Rv

d

d

d

0 -

01 -

1 - min

1 avec min

1 avec min

1

On recherche les vecteurs propres de la matrice BW SS 1

Page 25: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

AD en matlabind1=find(yi==1); X1=Xi(ind1,:);ind2=find(yi==2); X2=Xi(ind2,:);ind3=find(yi==3); X3=Xi(ind3,:);

n1=length(ind1); n2=length(ind2); n3=length(ind3);n = n1+n2+n3; Sw = (n1*cov(X1)+n2*cov(X2)+n2*cov(X3))/n; %AD m1 = mean(X1); m2 = mean(X2); m3 = mean(X3); mm = mean(Xi);Sb = (n1*(m1-mm)'*(m1-mm)+n2*(m2-mm)'*(m2-mm)+n3*(m3-mm)'*(m3-mm))/n;

% L = chol(Sw);% Linv = inv(L);% [v l]=eig(Linv*Sb*Linv'); % AD% v = Linv'*v; [v l]=eig(inv(Sw)*Sb); % AD [val ind] = sort(-abs(diag(l))); P = [v(:,ind(1)) v(:,ind(2))]; xi = Xn*P;

Page 26: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Conclusion : discrimination linéaire– Minimiser les erreurs

• moindres carrées : erreur quadratique

• adaline : erreur quadratique

• perceptron : le nombre de mal classé

• le neurone formel : les formes frontière

• nombre d’erreur : le simplex -> les SVM

– estimer les paramètres • max de vraisemblance, puis règle de Bayes

– minimiser un autre critère• analyse discriminante de Fisher : REPRESENTATION

Page 27: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Apprentissage bayésien

Page 28: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Malédiction de la dimensionalité

– Un problème inatendu

– estimation de la matrice de covariance

– capacité d’un classifieur linéaire

– le problème de l’erreur moyenne !

Page 29: DEA Perception et Traitement de l’Information Reconnaissance des formes Apprentissage linéaire S. Canu scanu/RdF.

Estimation du taux d’erreur