DEA instrumentation et commande Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu...

Post on 03-Apr-2015

111 views 2 download

Transcript of DEA instrumentation et commande Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu...

DEA instrumentation et commande

Reconnaissance des formes

Erreurs et coûts des algorithmes

S. Canu

http://psichaud.insa-rouen.fr/~scanu/RdF

Buts de la RdFD : Algorithme

de Reconnaissance

des Formes

Une forme x(vecteur forme

des caractéristiques)

C’est la forme

« y=D(x) »

classe" vraiela" ,

)( ,...,,...,1 : RdF

décisions des ensemble ,...,2,1tiquescaractéris des espace

D(x)Rx

xDxLlRD

LyRx

d

d

d

Nous voulons un algorithme de RdF performant

K

kkXk

D

sSPdxkxfxDsCXDSCEDJ

DJD

1 ,)(,)(,)(

)(min décision de règle uned'Cout D

RdF et apprentissage

D : Algorithme de

Reconnaissancedes Formes

Une forme x(vecteur forme

des caractéristiques)

C’est la forme

« y=D(x) »

A : Algorithme d’apprentissage

niyxS iin ,1 , Ensemble d’apprentissage (échantillon)

)(,)(C,et )(

:couts les

XDSCEDJDJ

A priorisur la

nature de la solution

2

1

3

Les problèmes PYXP ,

Grandes déviations

P 1

n erri i1

n EP

Z E(Z)

Fréquence Probabilitéd’erreur d’erreur

précision confiance

1

n erri i1

n EP

La moyennen’est pas

l’espérance

prise en comptede l’enchantillonnage

Grandes déviationsBienaimé

Tchebitchev– pour tout P

– Démonstration

P X E(X) 2

2

précision confiance

Hypothèse X v.a. centrée E(X) 0

2 x2 P(x)dx x2 P(x)dx x x2 P(x)dx

x

2 x2 P(x)dx x 2 P(x) dx

x 2 P x

Grande déviation

P X E(X) 2

2

P1

nXi

i1

n p

p(1 p)

n 2

1

4n 2

-6 -4 -2 0 2 4 60

confiance = (4n)-1/2 précision

p : probabilité d’erreur

Xi = 1 si on c’est trompé, = 0 sinon

Application :comparaison d’algorithmesAlgorithme 1 (adaline)

Algorithme 2 (perceptron)

m exemplespour le test

ˆ p 2 nb err

m

ˆ p 1 ˆ p 2

ˆ p 1 nb err

m

Donc l’algorithme 1est meilleur que l’algorithme 2

Application :comparaison d’algorithmesAlgorithme 1 (adaline)

Algorithme 2 (perceptron)

m exemplespour le test

ˆ p 2 nb err

m

ˆ p 1 ˆ p 2

ˆ p 1 nb err

m

Donc l’algorithme 1est meilleur que l’algorithme 2

ˆ p 1 ˆ p 2 2 1

nssi

Application :Choix de la taille de l’ensemble

testAlgorithme 1 (adaline)m exemples

pour le testˆ p

nb err

m

1

mXi

i1

m

Comment choisir m pour que probabilité d’erreur = ?ˆ p

P ˆ p p 1

4m 2

m 1

4 2

m 0,05 0,1 500 0,01 50.000

Comment améliorer cette borne ?

Comment améliorer cette borne ?

– Améliorer l’inégalité des grandes déviations.

– Inégalité de markov

– Hoeffding erreur bornée

– Chernov Classification

– Bernstein

– Bennet

Grandes déviationsgénéralisation de

Bienaimé Tchebitchev– pour tout P

– Démonstration

P X E(X) 2

2

Fonctionpositiveh(x)>0

Hypothèse X v.a. centrée E(X) 0

2 x2 P(x)dx x2 P(x)dx x x2 P(x)dx

x

2 x2 P(x)dx x 2 P(x) dx

x 2 P x

Lemme de Markov– soit (A,,D) un espace probabilisé

– soit X une v.a. sur (A,)

– soit > 0

– Alors :

– Démonstration– comme Bienaymé Tchébychev

P X E(X) E h(x)

h() x, h(x) 0

E h(X) h(x) P(x)dx h( ) P(x)dxx

Comment choisir h(x) ? h est la fonction génératrice des moments : h(X) et(X)

(comment choisir t?)

P X E(X) 2e 2

h(x) e x 2 sur 0,1

P ˆ p n p 2e n 2

P ˆ p n p 2e n h1 (n )

h1(x) = (1+ x) log(x) - x

xP ˆ p n p 2e n h2 (n )

h2 (x) x

1 x / 3

Hoeffding

Bennett

Bernstein

Récapitulons

181log8

11

2

1

3/1

2

1

2

1

21

21

21

21

21

(erreur) sinon 1

(ok) )( si 0)(

2

2

mm

ii

mm

ii

mm

ii

m

ii

iiiii

epem

P

epem

P

epem

P

npe

mP

yxfyxfe

Approximation normale

Hoeffding (1963)

Bernstein (1946)

Bennett (1962)

Taille de l’échantillon pour une précision

81log(8/11)log(2

2

3/1)log(

2

)log(

4

1

1

22

22

n

nn

nn

Exemples

0.02 0.04 0.06 0.08 0.1 0.12 0.140

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

n ta

ille

de l'

éch

antil

lon

Grandes dé viations pour =0.05, p=.5

Bienaymé Tchebychevapproximation normaleHoeffdingBersteinBennett

0.02 0.04 0.06 0.08 0.1 0.12 0.14

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

n ta

ille

de l'

éch

antil

lon

Grandes dé viations pour =0.05, p=.5

Bienaymé Tchebychevapproximation normaleHoeffdingBersteinBennett

Exemples

320018001000600500

Estimation de l’erreur d’un classifieur

Avec un ensemble de test

Avec des exemples – validation croisée– bootstrap

Indépendamment des exemples– il faut une borne

– Beaucoup d’exemples : ensemble test DONNEES

– Peu d’exemples : le rééchantillonnage TEMPS– Validation croisée

– Jackknife

– Bootstrap

– Analyse théorique : PRECISION

Estimation de l’erreur facture

Ensemble test

– grandes déviations

Rééchantillonnage– Validation croisée

– Jackknife

– Bootstrap

X1

X2

X3

.Xi

.Xn

Bootstrap

Young G.A. (1994) Bootstrap: More than a stab in the Dark, Statistical Science 9 pp 382-415

Quelle est la loi de ? (comment estimer le biais et la variance d’un estimateur ?)

Idée : « observer » la distribution deon tire plusieurs échantillonson calcule plusieurs réalisations de

nouvelle idée : créer des échantillons « fictifs »

ˆ*1

- ˆ

Éch

an

tillo

n in

itial

X*1 X*2 X*3 … X*i … X*n

Tirage de n points AVEC REMISE

X*1 X*2 X*3 … X*i … X*n

X*1 X*2 X*3 … X*i … X*n

X*1 X*2 X*3 … X*i … X*n

pri

nci

pe

ˆ*2

ˆ*b

ˆ*B

Bootstrap

X1

X2

X3

.Xi

.Xn

ˆ*1

Éch

an

tillo

n in

itial

X*1 X*2 X*3 … X*i … X*n

Tirage de n points AVEC REMISE

X*1 X*2 X*3 … X*i … X*n

X*1 X*2 X*3 … X*i … X*n

X*1 X*2 X*3 … X*i … X*n

ˆ*2

ˆ*b

ˆ*B

Biais :

Variance : ˆˆ1

ˆˆ1

1

2*

1

*

B

bb

B

bb

B

B

0.3 0.4 0.5 0.6 0.70

10

20

30

40

Exemple de Bootstrapn = 20;xi=rand(n,1);

m = mean(xi); % 0.528

B=200;for b=1:B ind = round(n*rand(n,1)+1/2); mb(b)=mean(xi(ind));end

hist(mb);

std(mb) % 0.0676

sqrt(1/12/n) % 0.0645

ind = 13 17 13 8 9 11 5 8 14 19 2 20 4 8 3 1 19 4 16 6

(Fractiles)

r(x) estimateur P.M.C. + I. B sur l’échantillon initial (x )

Innovation équivalente : = x - r(x )

Validation par Bootstrap

t t+1 t

Erreur initiale

Erreur BS1

Echantillon BS2

P.M.C.

(

((b (B

(x*1 ... (x*b (x* B

r*1(x) ... r*b(x) ... r*B(x)

^ t

t

t t t

t t t

^ ^ ^

^

Validation par Bootstrap

– Faire B fois (B 50)

– 1 : Générer un nouvel échantillon : x*b(t) ; t = 1:T

x*b(t+1) = r(x*b(t)) + b(t)

– 2 : Apprendre ce nouvel échantillon : r*b(x)

– Biais b : � (x(t+1) - r*b(x(t))) -

� (x*b(t+1) - r*b(x*b(t)))

2

t=1

T-11T-1

2

t=1

1T-1

^

^

^

^

-10 -5 0 5 10 15-4

-3

-2

-1

0

1

2

3

4

5

6

Exemple de bootstrap

– Avec une probabilité (1 - ), pour tous les :

EP(w) < Cemp(w) + (VCdim(B), Cemp(w), n, )

erreur < coût visible + complexité, nb d’exemples, précision

– mesure de complexité :

– Taille de B ?

– Nombre de paramètres ?

– dimension de Vapnik - Chervonenkis (pire des cas)

– e.g. Dim VC d'un ensemble de fonctions à seuil = taille du plus grand ensemble S pour lequel le système peut implémenter les 2|S| dichotomies sur S.

w B

Théorie des bornes

Un exemple

de grande déviation

– T une v.a.

de bernouilli

P(T 0) 1 P(t K )

p E(T) 1 0 K K

ˆ p 1

nTi

i1

n P ˆ p 0 1 n

P ˆ p p K 1 n

P ˆ p p ' 1 '

K

n

n log

log 1 '

K

Convergence uniforme

P, f F P Cemp ( f ) EP( f ) (n,, taille de F )

P supf F Cemp ( f ) EP( f )

cas simple card(F ) = F <

P Cemp ( f1) EP( f1) ou ... ou Cemp ( f F ) EP( f F ) F P Cemp ( f ) EP( f ) 2 F e n 2

cas général card(F ) = F = 2 VCF e n 2

Borne sur l’erreur d’apprentissage

Théorème (Vapnik & Chervonenkis, 1974)

)22(log)1(2

1

(erreur) sinon 1

(ok) )( si 0)(

1

dndn

ppE

pen

P

yxfyxfe

bayes

n

ii

iiiii