Download - Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Analyse de données fonctionnelles parMachines à Vecteurs de Support (SVM)

Nathalie Villa-Vialaneixhttp://www.nathalievilla.org

En collaboration avec Fabrice Rossi (INRIA Rocquencourt)

Institut de Mathématiques de Toulouse, France [email protected]

Limoges, Séminaire CANSO, 23 novembre 2007

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

http://www.nathalievilla.org



Sommaire

1 Analyse des données fonctionnellesExemplesContexte mathématiqueProblématique

2 Une petite introduction aux SVM

3 SVM pour données fonctionnellesApproche par projectionApproche par splines d’interpolation




ExemplesContexte mathématiqueProblématique

Sommaire








Quelques exemples d’applications rencontrées enFDA

Analyse de données spectrométriques

0 20 40 60 80 100

23

45

Longueur d’onde

Abs

orba

nce

Séries temporelles






Reconnaissance vocale

0 2000 4000 6000 8000

−1.

0−

0.5

0.0

0.5

1.0

Temps (ms)

Fre

quen

ces

BoatGoat

Séries temporelles






Analyse de puces à ADN

Séries temporelles






Séries temporelles





Formalisation mathématique

Le cadre

X ∈ (H , 〈., 〉) où (H , 〈., 〉) est un espace de Hilbert (variableexplicative ) ;

Y ∈ {−1, 1} Classification

ou Y ∈ R Régression (variable dépendante ) ;

On cherche à prédire Y à partir de X .

Pour cela, on dispose d’un ensemble d’apprentissage(x1, y1), . . . , (xn, yn) tel que

x i = (xi(t1), . . . , xi(td)) ;(xi , yi) sont des réalisations du couple (X ,Y ).

Objectif : Construire un prédicteur , ϕ(X), à partir desobservations, tel que E

[E(Y , ϕ(X)

)]soit petit où E est une

fonction d’erreur que l’on se fixe.






Le cadre


Y ∈ {−1, 1} Classificationou Y ∈ R Régression (variable dépendante ) ;





[E(Y , ϕ(X)


fonction d’erreur que l’on se fixe.






Le cadre


Y ∈ {−1, 1} Classificationou Y ∈ R Régression (variable dépendante ) ;





[E(Y , ϕ(X)


fonction d’erreur que l’on se fixe.Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges




Un exemple simple des problèmes posés par cecontexte

Modèle linéaire

Y = 〈a,X〉 + ε

tq Y ∈ R, a ∈ H est inconnu (à estimer), ε est une variablealéatoire centrée indépendante de X .

Ici, ϕ = 〈., a〉 est complètement connu si a est connu.Le a∗ optimal pour la prédiction , au sens des moindres carrés,est :

a∗ := arg mina∈HE[(〈a,X〉 − Y )2

]= Var(X)−1Cov(X ,Y )






Modèle linéaire

Y = 〈a,X〉 + ε


Ici, ϕ = 〈., a〉 est complètement connu si a est connu.

Le a∗ optimal pour la prédiction , au sens des moindres carrés,est :








Modèle linéaire

Y = 〈a,X〉 + ε


Ici, ϕ = 〈., a〉 est complètement connu si a est connu.Le a∗ optimal pour la prédiction , au sens des moindres carrés,est :








Cas H = Rk : a∗ est estimé par a = Var(X)−1n Cov(X ,Y )n où

Var(X)n =1n∑n

i=1 xTi xi ;

Cov(X ,Y )n =1n∑n

i=1 yixi .

Cas dimH = +∞ : L’opérateur ΓX est de Hilbert Schmidt donc iln’est pas inversible (ie : n’a pas d’inverse continu)⇒ l’estimationempirique est impossible directement !En pratique , si on travaille avec x i = (xi(t1), . . . , xi(td)), Var(X)n estmal conditionné⇒ instabilité de l’estimation.Solution : Régularisation par pénalisation⇒ on impose desconditions de régularité à l’estimateur a (voir [Cardot et al., 1999]).







Var(X)n =1n∑n

i=1 xTi xi ;

Cov(X ,Y )n =1n∑n

i=1 yixi .

Cas dimH = +∞ : L’opérateur ΓX est de Hilbert Schmidt donc iln’est pas inversible (ie : n’a pas d’inverse continu)⇒ l’estimationempirique est impossible directement !

En pratique , si on travaille avec x i = (xi(t1), . . . , xi(td)), Var(X)n estmal conditionné⇒ instabilité de l’estimation.Solution : Régularisation par pénalisation⇒ on impose desconditions de régularité à l’estimateur a (voir [Cardot et al., 1999]).







Var(X)n =1n∑n

i=1 xTi xi ;

Cov(X ,Y )n =1n∑n

i=1 yixi .

Cas dimH = +∞ : L’opérateur ΓX est de Hilbert Schmidt donc iln’est pas inversible (ie : n’a pas d’inverse continu)⇒ l’estimationempirique est impossible directement !En pratique , si on travaille avec x i = (xi(t1), . . . , xi(td)), Var(X)n estmal conditionné⇒ instabilité de l’estimation.

Solution : Régularisation par pénalisation⇒ on impose desconditions de régularité à l’estimateur a (voir [Cardot et al., 1999]).







Var(X)n =1n∑n

i=1 xTi xi ;

Cov(X ,Y )n =1n∑n

i=1 yixi .

Cas dimH = +∞ : L’opérateur ΓX est de Hilbert Schmidt donc iln’est pas inversible (ie : n’a pas d’inverse continu)⇒ l’estimationempirique est impossible directement !En pratique , si on travaille avec x i = (xi(t1), . . . , xi(td)), Var(X)n estmal conditionné⇒ instabilité de l’estimation.Solution : Régularisation par pénalisation⇒ on impose desconditions de régularité à l’estimateur a (voir [Cardot et al., 1999]).





SVM pour données fonctionnelles

SVM & Données fonctionnelles

SVM = Machines à Vecteurs de Support ; très populaires depuisles travaux sur l’apprentissage statistique [Vapnik, 1995].

Deux types de régularisation efficace :

Régularisation par projection : [Rossi and Villa, 2006] ;

Régularisation par dérivation : [Villa and Rossi, 2006] etpreprint en cours de soumission.





SVM pour données fonctionnelles

SVM & Données fonctionnelles

SVM = Machines à Vecteurs de Support ; très populaires depuisles travaux sur l’apprentissage statistique [Vapnik, 1995].Deux types de régularisation efficace :

Régularisation par projection : [Rossi and Villa, 2006] ;

Régularisation par dérivation : [Villa and Rossi, 2006] etpreprint en cours de soumission.




Sommaire







Discrimination linéaire à marge optimale

On cherche w tel que :

minw,b〈w,w〉,sous les contraintes :yi(〈w, xi〉 + b) ≥ 1, 1 ≤ i ≤ n.




Discrimination linéaire à marge optimale

w

marge : 1‖w‖2

Vecteur Support


minw,b〈w,w〉,sous les contraintes :yi(〈w, xi〉 + b) ≥ 1, 1 ≤ i ≤ n.




Discrimination linéaire à marge souple


minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w, xi〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.




Discrimination linéaire à marge souple

w

marge : 1‖w‖2

Vecteur Support


minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w, xi〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.




Envoyer les données dans un espace de grandedimension

Espace initialH


(PC ,X) minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w,Φ(xi)〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.




Envoyer les données dans un espace de grandedimension

Espace initialH Espace image X

Φ (non linéaire)


(PC ,X) minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w,Φ(xi)〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.




Intérêt du non linéaire

Formulation régularisation : (PC ,X)⇔

(Rλ,X) minf∈X

1n

n∑i=1

max(0, 1 − yi f (xi)) + λ〈f , f〉X.

Formulation duale : (PC ,X)⇔

(DC ,X) maxα∑n

i=1 αi −∑n

i=1∑n

j=1 αiαjyiyj〈Φ(xi),Φ(xj)〉X,avec

∑Ni=1 αiyi = 0,

0 ≤ αi ≤ C , 1 ≤ i ≤ n.

Produit scalaire dans X :∀ u, v ∈ X, K (u, v) = 〈Φ(u),Φ(v)〉X




Approche par projectionApproche par splines d’interpolation

Sommaire








Noyaux pour FDA

Forme générale

Prétraitement : P : H → D

∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).

1 Projections : pour VD = Vect{ψ1, . . . , ψD},

P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .3 . . .

avec, par exemple, K (p1, p2) = 〈p1, p2〉 ouK (p1, p2) = exp(−γ‖p1 − p2‖

2D

). . .





Noyaux pour FDA

Forme générale


∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).


P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .

3 . . .


2D

). . .





Noyaux pour FDA

Forme générale


∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).


P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .3 . . .


2D

). . .





Une approche consistante

Approche par projection

1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;

2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]

partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l

avec Ln−l fa = 1n−l

∑ni=l+1 I{fa (xi ),yi }.

⇒ On obtient un SVM fn.







1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]


a∗ = arg mina

Ln−l fa +λd√

n − l











partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;

construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l











partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;

choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l












a∗ = arg mina

Ln−l fa +λd√

n − l








Hypothèses

Hypothèses sur la distribution de X

(H1) X prend ses valeurs dans un borné deH .

Hypothèses sur les paramètres : ∀ d ≥ 1,

(H2) Jd est un ensemble fini ;(H3) ∃Kd ∈ Jd tel que : Kd est universel et∃νd > 0 : N(Kd , ε) = O(ε−νd ) ;(H4) Cd > 1 ;(H5)

∑d≥1 |Jd |e−2λ2

d < +∞.

Hypothèses sur la validation

(H6) limn→+∞ l = +∞ ;(H7) limn→+∞ n − l = +∞ ;(H8) limn→+∞

l log(n−l)n−l = 0.





Convergence par procédure de validation

Théorème 1 : Consistance universelle

Sous les hypothèses (H1)-(H8), fn est consistant :

Lfnn→+∞−−−−−→ L∗,

où Lfn = P(fn(X) , Y ) et L ∗ = P(f ∗(X) , Y ) avec

f ∗(x) =

{1 si P(Y = 1|X = x) > 1/2,−1 sinon.





Application : reconnaissance vocale

Description des données et méthodes

3 problèmes et pour chaque problème, 100 enregistrementsdiscrétisés en 8 192 points ;

Mise en œuvre de la procédure consistante :Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres (apprentissage) /49 (validation) ;Performances déterminées par leave-one-out.

Résultats

Prob. k -nn QDA SVM gau. SVM lin. SVM lin.(proj) (proj) (direct)

yes/no 10% 7% 10% 19% 58%boat/goat 21% 35% 8% 29% 46%

sh/ao 16% 19% 12% 25% 47%





Application : reconnaissance vocale

Description des données et méthodes

3 problèmes et pour chaque problème, 100 enregistrementsdiscrétisés en 8 192 points ;Mise en œuvre de la procédure consistante :

Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres (apprentissage) /49 (validation) ;Performances déterminées par leave-one-out.

Résultats

Prob. k -nn QDA SVM gau. SVM lin. SVM lin.(proj) (proj) (direct)

yes/no 10% 7% 10% 19% 58%boat/goat 21% 35% 8% 29% 46%

sh/ao 16% 19% 12% 25% 47%





Limites

Aspects limitants de cette approche :1 Consistance basée sur une procédure de validation ;2 Non prise en compte du fait que les fonctions ne sont pas

connues intégralement mais sous la forme d’unediscrétisation ;

3 Aspect très restrictif du pré-traitement des données : onaimerait pouvoir prendre en compte des dérivées de lafonction observée.





Approche directe pour SVM sur dérivées

X est régulière :X ∈ H = Hm = {x : [0; 1] → R : Dmx existe etDmx ∈ L2} ;

Produit scalaire : H est muni du produit scalaire

〈f , g〉H = 〈Pm1 (u),Pm

1 (v)〉m1 + 〈Pm0 (u),Pm

0 (v)〉m0où

H0 = {x ∈ H : Lx = 0}H1 = {x ∈ H :

∑j=1m B jx = 0}

Pmi est l’opérateur de projection surHm

i .






X est régulière :X ∈ H = Hm = {x : [0; 1] → R : Dmx existe etDmx ∈ L2} ;Produit scalaire : H est muni du produit scalaire

〈f , g〉H =∫

[0;1]Lf (t)Lg(t)dt +

m∑j=1

B juB jv

oùLx =

∑mj=1 ajD jx avec am , 0 ;

B j sont des conditions limites ;(∑

j B jx et Lx , 0)⇒ x , 0.

〈f , g〉H = 〈Pm1 (u),Pm

1 (v)〉m1 + 〈Pm0 (u),Pm

0 (v)〉m0où

H0 = {x ∈ H : Lx = 0}H1 = {x ∈ H :

∑j=1m B jx = 0}


i .






X est régulière :X ∈ H = Hm = {x : [0; 1] → R : Dmx existe etDmx ∈ L2} ;Produit scalaire : H est muni du produit scalaire

〈f , g〉H = 〈Pm1 (u),Pm

1 (v)〉m1 + 〈Pm0 (u),Pm

0 (v)〉m0où

H0 = {x ∈ H : Lx = 0}H1 = {x ∈ H :

∑j=1m B jx = 0}


i .





Exemples d’espaces de Sobolev

H1 avec L = I + D et x(0) = 0 (Lx = 0⇒ x = ae−t etx(0) = a) ;

H2 avec L = I + D2 et x(0) = Dx(0) = 0 ;

Hm (m ≥ 1) avec L = Dm et D jx(0) = 0, ∀ j = 1, . . . ,m.

Pour d’autres exemples, voir [Besse and Ramsay, 1986] et[Berlinet and Thomas-Agnan, 2004].





RKHS

H peut être un RKHS

Un RKHS est un espace de fonctions tel que ∃K : R × R → H :

∀ x ∈ H , 〈x,K (t , .)〉H = x(t).

H1 avec L = I + D et x(0) = 0 est un RKHS de noyau

K (s, t) = e−max(s,t) sinh(min(s, t));

H2 avec L = I +D2 et x(0) = Dx(0) = 0 est un RKHS de noyau

K (s, t) = (min(s, t) cos(s − t) − cos(s) cos(t))/2





Utiliser des splines de lissage pour représenter lavariable explicative

Ici, L = Dm.On suppose que les points de discrétisation sont tels que :

d ≥ m − 10 ≤ t1 < t2 < . . . < td ≤ 1 ;les conditions B j sont linéairement indépendantes deh ∈ H → h(tl).

Proposition 1 : [Kimeldorf and Wahba, 1971]

Il existe une unique solution au problème de minimisation :

xλ,d = arg minh∈H

1d

d∑l=1

(x(tl) − h(tl))2 + λ

∫ 1

0(h(m)(t))2dt .

De plus, pour tout x i = (xi(t1), . . . , xi(td)),

〈xλ,di , xλ,dj 〉H = uT Mdv

où Md est symétrique définie positive.





Utiliser des splines de lissage pour représenter lavariable explicative

Ici, L = Dm.

Proposition 1 : [Kimeldorf and Wahba, 1971]

Il existe une unique solution au problème de minimisation :

xλ,d = arg minh∈H

1d

d∑l=1

(x(tl) − h(tl))2 + λ

∫ 1

0(h(m)(t))2dt .

De plus, pour tout x i = (xi(t1), . . . , xi(td)),

〈xλ,di , xλ,dj 〉H = uT Mdv

où Md est symétrique définie positive.





Noyau sur dérivées

Notons :

Gdγ (u, v) = exp

(−γ ‖u − v‖2

Rd

)G∞γ (u, v) = exp

(−γ ‖u − v‖2L2

)

Principe des SVM différentiels

SVM sur (Dmxi , (B jxi)j)i avec noyau G∞γ ⊗ Gmγ

⇔

SVM sur (x i)i avec noyau Gdγ ◦M−1/2

d





Noyau sur dérivées

Notons :

Gdγ (u, v) = exp

(−γ ‖u − v‖2

Rd

)G∞γ (u, v) = exp

(−γ ‖u − v‖2L2

)Principe des SVM différentiels

SVM sur (Dmxi , (B jxi)j)i avec noyau G∞γ ⊗ Gmγ

⇔

SVM sur (x i)i avec noyau Gdγ ◦M−1/2

d





Hypothèses

Hypothèses sur la suite de points de discrétisation

(τd)d≥m est une suite d’ensembles de points de discrétisationτd = {t1, . . . , td} tels que :

pour tout d ≥ m, t1, . . . , td sont distincts ;

les formes linéaires (B j)j sont linéairement indépendantesde h → h(tl) pour tout l = 1, . . . , d ;

La fonction F , limite pour la norme‖u − v‖∞ = supt∈[0,1] |u(t) − v(t)| de Fd(t) = 1

d∑d

l=1 I{t=tl }(t) estC∞.

Hypothèses concernant les paramètres

Le paramètre de régularisation de la spline de lissage est telque :

limd→+∞

λd = 0 et limd→+∞

Sdλ−5/(4m)d = 0

avec Sd = ‖Fd − F‖∞.Pour mémoire : La fonction F est la limite pour la norme

‖u − v‖∞ = supt∈[0,1] |u(t) − v(t)| de Fd(t) = 1d

∑dl=1 I{t=tl }(t).

Le paramètre de régularisation du SVM est tel que : pourtout d ≥ 1, Cn,d = O(n1−βd ) où 0 < βd < 1/d





Hypothèses

Hypothèses concernant X

X est une variable aléatoire à valeurs dans H telle que X [0, 1]est un ensemble borné de R.



limd→+∞


Sdλ−5/(4m)d = 0



∑dl=1 I{t=tl }(t).






Hypothèses



limd→+∞


Sdλ−5/(4m)d = 0



∑dl=1 I{t=tl }(t).






Consistance universelle

Théorème 2 : Consistance universelle

Sous les hypothèses précédentes, le SVM φn,d construit commedécrit précédemment qui est défini par :

maxα∑n

i=1 αi −∑n

i,j=1 αiαjGdγ ◦ (Md)−1/2(x i , x j)

où[t ]∑n

i=1 αiyi = 0,0 ≤ αi ≤ Cn,d , 1 ≤ i ≤ n

est universellement consistant ie :

limd→+∞

limn→+∞

L(φn,d) = L∗





Principe de la preuve

Principe de la preuve : Utilise1 d’une part la consistance des splines par rapport aux

nombres de points d’observations pour montrer quel’erreur optimale commise en utilisant une discrétisation estasymptotiquement égale à l’erreur optimale commise enutilisant la fonction exacte ;

2 d’autre part, la consistance des SVM multidimensionnelspour montrer que l’erreur commise sur la discrétisation estasymptotiquement l’erreur optimale commise en utilisant cettediscrétisation.





Simulation

Un exemple réel : Courbe spectrométrique

Données divisées aléatoirement en 120 spectres pourl’apprentissage et 95 spectres pour calculer l’erreur (test) ;Répétition aléatoire de la division 250 fois ;Le paramètre λ est choisi par leave-one-out ;Nous avons utilisé les conditions aux bornes x(0) = 0 etDx(0) = 0.

Noyau Erreur moyenne Écart type de l’erreurLinéaire sur discrétisation 3,78 % 2,52 %Gaussien sur discrétisation 5,97 % 2,76 %Linéaire fonctionnel 3,12 % 1,71 %Gaussien fonctionnel 2,77 % 2,07 %

(Différences significatives pour un t-test apparié entre SVM surdiscrétisation et SVM fonctionnels).





Bilan et ouvertures

Prolongements en cours : Choix de λ, autres fonctionnellesL ,. . .

Le cas de la régression : si Y est réelle ?⇒ Prise en compte de l’aspect temporel dans la modélisationde systèmes MISO par SVR :

y(t) = F(x1, . . . , xp) + ε

où x i = xi(t − k , . . . , t − 1).




BibliographieBerlinet, A. and Thomas-Agnan, C. (2004).

Reproducing Kernel Hilbert Spaces in Probability and Statistics.Kluwer Academic Publisher.

Besse, P. and Ramsay, J. (1986).

Principal component analysis of sampled curves.Psychometrika, 51 :285–311.

Cardot, H., Ferraty, F., and Sarda, P. (1999).

Functional linear model.Statistics and Probability Letters, 45 :11–22.

Kimeldorf, G. and Wahba, G. (1971).

Some results on Tchebycheffian spline functions.Journal of Mathematical Analysis and Applications, 33(1) :82–95.

Rossi, F. and Villa, N. (2006).

Support vector machine for functional data classification.Neurocomputing, 69(7-9) :730–742.

Vapnik, V. (1995).

The Nature of Statistical Learning Theory.Springer Verlag, New York.

Villa, N. and Rossi, F. (2006).

Un résultat de consistance pour des SVM fonctionnels par interpolation spline.Comptes Rendus Mathématique. Académie des Sciences. Paris, 343(8) :555–560.

. . . et merci pour votre invitation et votre attention !Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges