Traitement de données fonctionnelles par Support Vector Machine

Post on 24-May-2015

119 views 5 download

description

Séminaire du Laboratoire de Statistique et Probabilités, Université Toulouse III May 16th, 2005

Transcript of Traitement de données fonctionnelles par Support Vector Machine

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Traitement de données fonctionnelles parSupport Vector Machine

Nathalie Villaen collaboration avec Fabrice Rossi (INRIA, Rocquencourt)

Université Toulouse Le Mirailvilla@univ-tlse2.fr

Séminaire LSP, 16 mai 2005

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Sommaire

1 MotivationsExemplesRappels sur le principe SVM

2 Aspects théoriquesApproche directeRégularisationConsistance

3 ExpériencesDonnées de spectrométrieBoat / Goat

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Sommaire

1 MotivationsExemplesRappels sur le principe SVM

2 Aspects théoriquesApproche directeRégularisationConsistance

3 ExpériencesDonnées de spectrométrieBoat / Goat

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Les données

Problèmes de discriminations de courbes à 2 classes

X ∈ L2(µ)︸ ︷︷ ︸Infinite dimensional space

→ Y ∈ {−1; 1}

Exemples : Savoir si un individu a ou non de l’arthrite à partirde la forme de l’os de son genou (voir [Ramsay et Silverman, 2002])

40 50 60 70 80 90

1020

3040

50

x pixels

y pi

xels

Creux inférieur de l’os du fémur ⇒ Courbe construiteà partir d’une photo

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Les données

Problèmes de discriminations de courbes à 2 classes

X ∈ L2(µ)︸ ︷︷ ︸Infinite dimensional space

→ Y ∈ {−1; 1}

Exemples : Discriminer des morceaux de viandes à fort / faibletaux de graisse à partir de leur spectre infrarouge (Tecator)

0 10 20 30 40 50 60 70 80 90 1002

2.5

3

3.5

4

4.5

Fat < 20 %

0 10 20 30 40 50 60 70 80 90 1002

2.5

3

3.5

4

4.5

5

5.5

Fat > 20 %

Exemples : Savoir si un individu a ou non de l’arthrite à partirde la forme de l’os de son genou (voir [Ramsay et Silverman, 2002])

40 50 60 70 80 90

1020

3040

50

x pixels

y pi

xels

Creux inférieur de l’os du fémur ⇒ Courbe construiteà partir d’une photo

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Les données

Problèmes de discriminations de courbes à 2 classes

X ∈ L2(µ)︸ ︷︷ ︸Infinite dimensional space

→ Y ∈ {−1; 1}

Exemples : Reconnaître un mot à partir d’enregistrements devoix

0 2000 4000 6000 8000

−1

.0−

0.5

0.0

0.5

1.0

Boat

time

0 2000 4000 6000 8000

−0

.6−

0.4

−0

.20

.00

.20

.40

.6

Goat

time

Exemples : Savoir si un individu a ou non de l’arthrite à partirde la forme de l’os de son genou (voir [Ramsay et Silverman, 2002])

40 50 60 70 80 90

1020

3040

50

x pixels

y pi

xels

Creux inférieur de l’os du fémur ⇒ Courbe construiteà partir d’une photo

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Les données

Problèmes de discriminations de courbes à 2 classes

X ∈ L2(µ)︸ ︷︷ ︸Infinite dimensional space

→ Y ∈ {−1; 1}

Exemples : Savoir si un individu a ou non de l’arthrite à partirde la forme de l’os de son genou (voir [Ramsay et Silverman, 2002])

40 50 60 70 80 90

1020

3040

50

x pixelsy

pixe

ls

Creux inférieur de l’os du fémur ⇒ Courbe construiteà partir d’une photo

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination de courbes

Contexte

Lorsque X ∈ L2(µ), la structure d’espace de Hilbertpermet de disposer d’opérations basiques : combinaisonslinéaires, normes ‖ . ‖ et produits scalaires 〈., .〉.

Beaucoup de modèles statistiques ont été étendus autraitement de données fonctionnelles :〈., .〉 Penalized Discriminant Analysis ([Hastie et al., 1995]) ;〈., .〉 Réseaux de neurones (perceptrons multi-couches, réseaux

RBF, SOM . . . ) ([Rossi et Conan-Guez, 2005],[Rossi et al., 2005], [Rossi et al., 2004] et[Ferré et Villa, 2005]) ;

‖.‖ k-plus proches voisins ([Biau et al., 2005]).

Ici : Support Vector Machines pour données fonctionnelles([Villa et Rossi, 2005] et [Rossi et Villa, 2005]).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination de courbes

Contexte

Lorsque X ∈ L2(µ), la structure d’espace de Hilbertpermet de disposer d’opérations basiques : combinaisonslinéaires, normes ‖ . ‖ et produits scalaires 〈., .〉.Beaucoup de modèles statistiques ont été étendus autraitement de données fonctionnelles :〈., .〉 Penalized Discriminant Analysis ([Hastie et al., 1995]) ;〈., .〉 Réseaux de neurones (perceptrons multi-couches, réseaux

RBF, SOM . . . ) ([Rossi et Conan-Guez, 2005],[Rossi et al., 2005], [Rossi et al., 2004] et[Ferré et Villa, 2005]) ;

‖.‖ k-plus proches voisins ([Biau et al., 2005]).

Ici : Support Vector Machines pour données fonctionnelles([Villa et Rossi, 2005] et [Rossi et Villa, 2005]).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination de courbes

Contexte

Lorsque X ∈ L2(µ), la structure d’espace de Hilbertpermet de disposer d’opérations basiques : combinaisonslinéaires, normes ‖ . ‖ et produits scalaires 〈., .〉.Beaucoup de modèles statistiques ont été étendus autraitement de données fonctionnelles :〈., .〉 Penalized Discriminant Analysis ([Hastie et al., 1995]) ;〈., .〉 Réseaux de neurones (perceptrons multi-couches, réseaux

RBF, SOM . . . ) ([Rossi et Conan-Guez, 2005],[Rossi et al., 2005], [Rossi et al., 2004] et[Ferré et Villa, 2005]) ;

‖.‖ k-plus proches voisins ([Biau et al., 2005]).

Ici : Support Vector Machines pour données fonctionnelles([Villa et Rossi, 2005] et [Rossi et Villa, 2005]).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Rappel sur le principe SVM

Le problème

Soit X ∈ RD et Y ∈ {−1; 1}.On cherche à déterminer la valeur de Y connaissant la variableX .

Les donnéesOn dispose de N réalisations indépendantes de (X , Y ) :(x1, y1), . . . , (xN , yN).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Rappel sur le principe SVM

Le problème

Soit X ∈ RD et Y ∈ {−1; 1}.On cherche à déterminer la valeur de Y connaissant la variableX .

Les donnéesOn dispose de N réalisations indépendantes de (X , Y ) :(x1, y1), . . . , (xN , yN).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination linéaire à marge optimale

On cherche w tel que :

minw ,b〈w , w〉,sous les contraintes : yi (〈w , xi 〉+ b) ≥ 1, 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination linéaire à marge optimale

On cherche w tel que :

minw ,b〈w , w〉,sous les contraintes : yi (〈w , xi 〉+ b) ≥ 1, 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination linéaire à marge optimale

w

marge : 1‖w‖2

Vecteur Support

On cherche w tel que :

minw ,b〈w , w〉,sous les contraintes : yi (〈w , xi 〉+ b) ≥ 1, 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination linéaire à marge optimale

w

marge : 1‖w‖2

Vecteur Support

On cherche w tel que :

minw ,b〈w , w〉,sous les contraintes : yi (〈w , xi 〉+ b) ≥ 1, 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination linéaire à marge souple

On cherche w tel que :

minw ,b,ξ〈w , w〉+ C∑N

i=1 ξi ,sous les contraintes : yi (〈w , xi 〉+ b) ≥ 1− ξi , 1 ≤ i ≤ N,

ξi ≥ 0, 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination linéaire à marge souple

On cherche w tel que :

minw ,b,ξ〈w , w〉+ C∑N

i=1 ξi ,sous les contraintes : yi (〈w , xi 〉+ b) ≥ 1− ξi , 1 ≤ i ≤ N,

ξi ≥ 0, 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination linéaire à marge souple

w

marge : 1‖w‖2

Vecteur Support

On cherche w tel que :

minw ,b,ξ〈w , w〉+ C∑N

i=1 ξi ,sous les contraintes : yi (〈w , xi 〉+ b) ≥ 1− ξi , 1 ≤ i ≤ N,

ξi ≥ 0, 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Discrimination linéaire à marge souple

w

marge : 1‖w‖2

Vecteur Support

On cherche w tel que :

minw ,b,ξ〈w , w〉+ C∑N

i=1 ξi ,sous les contraintes : yi (〈w , xi 〉+ b) ≥ 1− ξi , 1 ≤ i ≤ N,

ξi ≥ 0, 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Envoyer les données dans un espace de grandedimension

Espace initial RD

Φ est implicite par l’utilisation d’un noyau :

〈Φ(x),Φ(x ′)〉X = K (x , x ′)

X est un RKHS, un espace de fonctions de RD dans R telque :

∀ f ∈ X , 〈K (., x), f (.)〉X = f (x)

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Envoyer les données dans un espace de grandedimension

Espace initial RD Espace image X

Φ (non linéaire)

Φ est implicite par l’utilisation d’un noyau :

〈Φ(x),Φ(x ′)〉X = K (x , x ′)

X est un RKHS, un espace de fonctions de RD dans R telque :

∀ f ∈ X , 〈K (., x), f (.)〉X = f (x)

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Envoyer les données dans un espace de grandedimension

Espace initial RD Espace image X

Φ (non linéaire)

Φ est implicite par l’utilisation d’un noyau :

〈Φ(x),Φ(x ′)〉X = K (x , x ′)

X est un RKHS, un espace de fonctions de RD dans R telque :

∀ f ∈ X , 〈K (., x), f (.)〉X = f (x)

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Envoyer les données dans un espace de grandedimension

Espace initial RD Espace image X

Φ (non linéaire)

Φ est implicite par l’utilisation d’un noyau :

〈Φ(x),Φ(x ′)〉X = K (x , x ′)

X est un RKHS, un espace de fonctions de RD dans R telque :

∀ f ∈ X , 〈K (., x), f (.)〉X = f (x)

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Envoyer les données dans un espace de grandedimension

Espace initial RD Espace image X

Φ (non linéaire)

Φ est implicite par l’utilisation d’un noyau :

〈Φ(x),Φ(x ′)〉X = K (x , x ′)

X est un RKHS, un espace de fonctions de RD dans R telque :

∀ f ∈ X , 〈K (., x), f (.)〉X = f (x)

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

En résumé...

SVM à noyauOn cherche w ∈ X tel que :

minw ,b,ξ〈w , w〉X + C∑N

i=1 ξi ,sous : yi (〈w ,Φ(xi )〉X + b) ≥ 1− ξi , 1 ≤ i ≤ N,

ξi ≥ 0, 1 ≤ i ≤ N.

Formulation dualeLe problème admet la formulation duale :

maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyjK (xi , xj),

sous les contraintes :∑N

i=1 αiyi = 0,0 ≤ αi ≤ C , 1 ≤ i ≤ N,

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

En résumé...

SVM à noyauOn cherche w ∈ X tel que :

minw ,b,ξ〈w , w〉X + C∑N

i=1 ξi ,sous : yi (〈w ,Φ(xi )〉X + b) ≥ 1− ξi , 1 ≤ i ≤ N,

ξi ≥ 0, 1 ≤ i ≤ N.

Formulation dualeLe problème admet la formulation duale :

maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyjK (xi , xj),

sous les contraintes :∑N

i=1 αiyi = 0,0 ≤ αi ≤ C , 1 ≤ i ≤ N,

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Sommaire

1 MotivationsExemplesRappels sur le principe SVM

2 Aspects théoriquesApproche directeRégularisationConsistance

3 ExpériencesDonnées de spectrométrieBoat / Goat

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Données fonctionnelles

Ensemble d’apprentissage

(x1, y1), . . . , (xN , yN) ∈ L2(µ)× {−1; 1} ;

Chaque xn est décrit par une discrétisation(xn(tn

1 ), . . . , xn(tnDn

)). Typiquement, D > N.

Dans L2(µ)

Tout ensemble de fonctions est linéairement séparable ;⇒ K (xi , xj) = 〈xi , xj〉 =

∫xixjdµ et marges dures ;

La forme duale est encore valable ([Lin, 2001]) :

(D0) maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyj∫

xixjdµ,

sous :∑N

i=1 αiyi = 0,0 ≤ αi , 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Données fonctionnelles

Ensemble d’apprentissage

(x1, y1), . . . , (xN , yN) ∈ L2(µ)× {−1; 1} ;Chaque xn est décrit par une discrétisation(xn(tn

1 ), . . . , xn(tnDn

)). Typiquement, D > N.

Dans L2(µ)

Tout ensemble de fonctions est linéairement séparable ;⇒ K (xi , xj) = 〈xi , xj〉 =

∫xixjdµ et marges dures ;

La forme duale est encore valable ([Lin, 2001]) :

(D0) maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyj∫

xixjdµ,

sous :∑N

i=1 αiyi = 0,0 ≤ αi , 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Données fonctionnelles

Ensemble d’apprentissage

(x1, y1), . . . , (xN , yN) ∈ L2(µ)× {−1; 1} ;Chaque xn est décrit par une discrétisation(xn(tn

1 ), . . . , xn(tnDn

)). Typiquement, D > N.

Dans L2(µ)

Tout ensemble de fonctions est linéairement séparable ;⇒ K (xi , xj) = 〈xi , xj〉 =

∫xixjdµ et marges dures ;

La forme duale est encore valable ([Lin, 2001]) :

(D0) maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyj∫

xixjdµ,

sous :∑N

i=1 αiyi = 0,0 ≤ αi , 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Données fonctionnelles

Ensemble d’apprentissage

(x1, y1), . . . , (xN , yN) ∈ L2(µ)× {−1; 1} ;Chaque xn est décrit par une discrétisation(xn(tn

1 ), . . . , xn(tnDn

)). Typiquement, D > N.

Dans L2(µ)

Tout ensemble de fonctions est linéairement séparable ;⇒ K (xi , xj) = 〈xi , xj〉 =

∫xixjdµ et marges dures ;

La forme duale est encore valable ([Lin, 2001]) :

(D0) maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyj∫

xixjdµ,

sous :∑N

i=1 αiyi = 0,0 ≤ αi , 1 ≤ i ≤ N.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Limites de l’approche directe

Adéquation de la solution

La solution n’est pas satisfaisante (non pertinente) ! !

Exemple : Fonction moyenne et direction discriminante

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Limites de l’approche directe

Adéquation de la solution

La solution n’est pas satisfaisante (non pertinente) ! !

Exemple : Paramétrisation uniforme par longueur d’arc du creux de l’os

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

xxxx xxxx xxxxxxx

xxxx

xxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxx x xx x x x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxx

x xxxx xxx

xxxxxx

xx xxxxxxxxxxxxxxx

xxxxxxxxxxxxxxx

x x xx x x x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

(X (t1), . . . , X (t50), Y (t1), . . . , Y (t50)) ∈ R100

SVM−−−→ Arthrite ? ? ?

Exemple : Fonction moyenne et direction discriminante

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Limites de l’approche directe

Adéquation de la solution

La solution n’est pas satisfaisante (non pertinente) ! !

Exemple : Fonction moyenne et direction discriminante

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Régularisation

Marges souples

Voir [Hastie et al., 2004]

(DC ) maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyj∫

xixjdµ,

sous les contraintes :∑N

i=1 αiyi = 0,0 ≤ αi ≤ C , 1 ≤ i ≤ N.

Encore plus de régularisation !

Projection des données sur un sous-espace de L2(µ) (B-Spline,ondelettes, ACP, FIR, . . . ) ⇒ Retour en dimension finie ;

Utilisation de noyaux définis par rapport à la norme ou auproduit scalaire ;Utilisation de transformations fonctionnelles (dérivées. . . ). . .

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Régularisation

Marges souples

Voir [Hastie et al., 2004]

(DC ) maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyj∫

xixjdµ,

sous les contraintes :∑N

i=1 αiyi = 0,0 ≤ αi ≤ C , 1 ≤ i ≤ N.

Encore plus de régularisation !

Projection des données sur un sous-espace de L2(µ) (B-Spline,ondelettes, ACP, FIR, . . . ) ⇒ Retour en dimension finie ;

Utilisation de noyaux définis par rapport à la norme ou auproduit scalaire ;Utilisation de transformations fonctionnelles (dérivées. . . ). . .

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Régularisation

Marges souples

Voir [Hastie et al., 2004]

(DC ) maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyj∫

xixjdµ,

sous les contraintes :∑N

i=1 αiyi = 0,0 ≤ αi ≤ C , 1 ≤ i ≤ N.

Encore plus de régularisation !

Projection des données sur un sous-espace de L2(µ) (B-Spline,ondelettes, ACP, FIR, . . . ) ⇒ Retour en dimension finie ;Utilisation de noyaux définis par rapport à la norme ou auproduit scalaire ;

Utilisation de transformations fonctionnelles (dérivées. . . ). . .

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Régularisation

Marges souples

Voir [Hastie et al., 2004]

(DC ) maxα∑N

i=1 αi −∑N

i=1∑N

j=1 αiαjyiyj∫

xixjdµ,

sous les contraintes :∑N

i=1 αiyi = 0,0 ≤ αi ≤ C , 1 ≤ i ≤ N.

Encore plus de régularisation !

Projection des données sur un sous-espace de L2(µ) (B-Spline,ondelettes, ACP, FIR, . . . ) ⇒ Retour en dimension finie ;Utilisation de noyaux définis par rapport à la norme ou auproduit scalaire ;Utilisation de transformations fonctionnelles (dérivées. . . ). . .

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Méthodologie

Choix du noyau

Choisir {Ψj}j≥1 une base hilbertienne de L2(µ) :∀ n = 1, . . . , N, xn =

∑j≥1 xnj Ψj ;

Utiliser un SVM standard sur les coordonnéesx(d)i = (xi1, . . . , xid ) ;

Ceci revient à choisir le noyau :

K(x , x ′) = K (P(x),P(x ′))

où P : x ∈ L2(µ) → Rd est la projection surVect {Ψj}j=1,...,d ;

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Méthodologie

Choix du noyau

Choisir {Ψj}j≥1 une base hilbertienne de L2(µ) :∀ n = 1, . . . , N, xn =

∑j≥1 xnj Ψj ;

Utiliser un SVM standard sur les coordonnéesx(d)i = (xi1, . . . , xid ) ;

Ceci revient à choisir le noyau :

K(x , x ′) = K (P(x),P(x ′))

où P : x ∈ L2(µ) → Rd est la projection surVect {Ψj}j=1,...,d ;

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Une procédure consistante

Choisir les paramètresParamètres à déterminer : d , C , K , paramètres liés à K :

Pour tout d ≥ 1, tout C ∈]0; Cd ] et tout K ∈ Kd (ensemblefini),

effectuer l’apprentissage sur l observations → constructionde la fonction de décision φ ;

évaluer l’erreur sur les m = N − l observations restantes :(fonction d’erreur pénalisée)

1m

N∑n=l+1

11{φ(xn) 6=yn} +λd√N − l

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Une procédure consistante

Choisir les paramètresParamètres à déterminer : d , C , K , paramètres liés à K :Pour tout d ≥ 1, tout C ∈]0; Cd ] et tout K ∈ Kd (ensemblefini),

effectuer l’apprentissage sur l observations → constructionde la fonction de décision φ ;

évaluer l’erreur sur les m = N − l observations restantes :(fonction d’erreur pénalisée)

1m

N∑n=l+1

11{φ(xn) 6=yn} +λd√N − l

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Une procédure consistante

Choisir les paramètresParamètres à déterminer : d , C , K , paramètres liés à K :Pour tout d ≥ 1, tout C ∈]0; Cd ] et tout K ∈ Kd (ensemblefini),

effectuer l’apprentissage sur l observations → constructionde la fonction de décision φ ;évaluer l’erreur sur les m = N − l observations restantes :(fonction d’erreur pénalisée)

1m

N∑n=l+1

11{φ(xn) 6=yn} +λd√N − l

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Résultat

ConsistanceLe classifieur construit de cette manière-là est universellementconsistant : son erreur converge vers l’erreur de Bayes.

Limites du résultat :X doit être bornée dans L2(µ) ;La base de projection doit être orthogonale ( 6= B-Splines,ACP, . . . ).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Résultat

ConsistanceLe classifieur construit de cette manière-là est universellementconsistant : son erreur converge vers l’erreur de Bayes.Limites du résultat :

X doit être bornée dans L2(µ) ;La base de projection doit être orthogonale ( 6= B-Splines,ACP, . . . ).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Sommaire

1 MotivationsExemplesRappels sur le principe SVM

2 Aspects théoriquesApproche directeRégularisationConsistance

3 ExpériencesDonnées de spectrométrieBoat / Goat

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Données de spectrométrie

But : Séparer les morceaux de viande avec un fort contenu degraisse (> 20 %) de ceux avec un faible contenu.

0 10 20 30 40 50 60 70 80 90 1002

2.5

3

3.5

4

4.5

Fat < 20 %

0 10 20 30 40 50 60 70 80 90 1002

2.5

3

3.5

4

4.5

5

5.5

Fat > 20 %

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Méthodologie et résultats

Description des données et méthodes215 spectres discrétisés en 100 points.

50 découpages aléatoires en : 120 (apprentissage) / 95(test) ;10 CV pour la détermination des paramètres.

Résultats

Noyau Erreur moyenne (test)Linéaire 2.7%Linéaire sur X ′′ 2.3%Gaussien 6.1%Gaussien sur X ′′ 1.9%

Les résultats entre gaussien sur X ′′ et linéaire sontsignificativement différents (t-test)Gaussien sur X ′′ est meilleur que linéaire dans 27 cas sur 50 (égaldans 10 cas).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Méthodologie et résultats

Description des données et méthodes215 spectres discrétisés en 100 points.

50 découpages aléatoires en : 120 (apprentissage) / 95(test) ;10 CV pour la détermination des paramètres.

Résultats

Noyau Erreur moyenne (test)Linéaire 2.7%Linéaire sur X ′′ 2.3%Gaussien 6.1%Gaussien sur X ′′ 1.9%

Les résultats entre gaussien sur X ′′ et linéaire sontsignificativement différents (t-test)Gaussien sur X ′′ est meilleur que linéaire dans 27 cas sur 50 (égaldans 10 cas).

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Reconnaissance vocale

But : Différencier les mots "Boat" et "Goat"

0 2000 4000 6000 8000

−1

.0−

0.5

0.0

0.5

1.0

Boat

time

0 2000 4000 6000 8000

−0

.6−

0.4

−0

.20

.00

.20

.40

.6

Goat

time

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Méthodologie et résultats

Description des données et méthodes

100 enregistrements discrétisés en 8 192 points ( ! ! !)

Mise en œuvre de la procédure consistante :Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres(apprentissage) / 49 (validation) ;Performances déterminées par Leave-One-Out.

Résultats

Méthodes Erreur LOOSVM linéaire sur données brutes 46%SVM gaussien sur projection 8%k-plus proches voisins sur projection 21%

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Méthodologie et résultats

Description des données et méthodes

100 enregistrements discrétisés en 8 192 points ( ! ! !)Mise en œuvre de la procédure consistante :

Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres(apprentissage) / 49 (validation) ;Performances déterminées par Leave-One-Out.

Résultats

Méthodes Erreur LOOSVM linéaire sur données brutes 46%SVM gaussien sur projection 8%k-plus proches voisins sur projection 21%

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Méthodologie et résultats

Description des données et méthodes

100 enregistrements discrétisés en 8 192 points ( ! ! !)Mise en œuvre de la procédure consistante :

Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres(apprentissage) / 49 (validation) ;Performances déterminées par Leave-One-Out.

Résultats

Méthodes Erreur LOOSVM linéaire sur données brutes 46%SVM gaussien sur projection 8%k-plus proches voisins sur projection 21%

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Conclusion et perspectives

Possibilité de traiter les données fonctionnelles par SVM ;

Une approche par projection permet d’obtenir uneprocédure consistante ;D’un point de vue pratique :

La projection permet d’obtenir une régularisationsupplémentaire qui améliore les performances ;Des opérations fonctionnelles peuvent également améliorerles performances ;

Quelques questions ouvertes :Relacher les conditions pour la consistance (base B-Spline,autres) ;Etudier la consistance du point de vue des problèmes derégression.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Conclusion et perspectives

Possibilité de traiter les données fonctionnelles par SVM ;Une approche par projection permet d’obtenir uneprocédure consistante ;

D’un point de vue pratique :La projection permet d’obtenir une régularisationsupplémentaire qui améliore les performances ;Des opérations fonctionnelles peuvent également améliorerles performances ;

Quelques questions ouvertes :Relacher les conditions pour la consistance (base B-Spline,autres) ;Etudier la consistance du point de vue des problèmes derégression.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Conclusion et perspectives

Possibilité de traiter les données fonctionnelles par SVM ;Une approche par projection permet d’obtenir uneprocédure consistante ;D’un point de vue pratique :

La projection permet d’obtenir une régularisationsupplémentaire qui améliore les performances ;Des opérations fonctionnelles peuvent également améliorerles performances ;

Quelques questions ouvertes :Relacher les conditions pour la consistance (base B-Spline,autres) ;Etudier la consistance du point de vue des problèmes derégression.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

Conclusion et perspectives

Possibilité de traiter les données fonctionnelles par SVM ;Une approche par projection permet d’obtenir uneprocédure consistante ;D’un point de vue pratique :

La projection permet d’obtenir une régularisationsupplémentaire qui améliore les performances ;Des opérations fonctionnelles peuvent également améliorerles performances ;

Quelques questions ouvertes :Relacher les conditions pour la consistance (base B-Spline,autres) ;Etudier la consistance du point de vue des problèmes derégression.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

G. Biau, F. Bunea, et M. Wegkamp.Functional Classification in Hilbert Spaces.IEEE Transactions on Information Theory, 2005.A paraître.

L. Ferré et N. Villa.Multi-layer Neural Network with Functional Inputs.2005.Soumis à publication.

T. Hastie, A. Buja, et R. Tibshirani.Penalized Discriminant Analysis.Annals of Statistics, 23 : 73–102, 1995.

T. Hastie, S. Rosset, R. Tibschirani, et J. Zhu.The entire regularization path for the support vector machine.Journal of Machine Learning Research, 5 : 1391–1415, 2004.

C.J. Lin.Formulations of support vector machines : a note from an optimization point of view.Neural Computation, 2(13) : 307–317, 2001.

J.O. Ramsay et B.W. Silverman.Applied Functional Data Analysis.Springer Verlag, 2002.

F. Rossi, B. Conan-Guez, et A. El Golli.Clustering functional data with the som algorithm.In ESANN’2004 proceedings, 305–312, Bruges, Belgique, 2004.

Discriminationde courbespar SVM

LSP,Mai 2005

NathalieVilla

MotivationsExemplesRappels sur leprincipe SVM

AspectsthéoriquesApprochedirecteRégularisationConsistance

ExpériencesDonnées despectrométrieBoat / Goat

Bibliographie

F. Rossi, N. Delannay, B. Conan-Guez, et M. Verleysen.Representation of functional data in neural networks.Neurocomputing, 64 : 183–210, 2005.

F. Rossi et B. Conan-Guez.Functional Multi-Layer perceptron : a nonlinear tool for functional data anlysis.Neural Networks, 18(1) : 45–60, 2005.

F. Rossi et N. Villa.Classification in Hilbert Spaces with Support Vector Machines.In ASMDA 2005 proceedings, Brest, France, 2005.A paraître.

N. Villa et F. Rossi.Support Vector Machine for Functional Data Classification.In ESANN proceedings, 467–472, 2005.