Download - Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Transcript
Page 1: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Analyse de données fonctionnelles parMachines à Vecteurs de Support (SVM)

Nathalie Villa-Vialaneixhttp://www.nathalievilla.org

En collaboration avec Fabrice Rossi (INRIA Rocquencourt)

Institut de Mathématiques de Toulouse, France [email protected]

Limoges, Séminaire CANSO, 23 novembre 2007

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 2: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Sommaire

1 Analyse des données fonctionnellesExemplesContexte mathématiqueProblématique

2 Une petite introduction aux SVM

3 SVM pour données fonctionnellesApproche par projectionApproche par splines d’interpolation

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 3: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Sommaire

1 Analyse des données fonctionnellesExemplesContexte mathématiqueProblématique

2 Une petite introduction aux SVM

3 SVM pour données fonctionnellesApproche par projectionApproche par splines d’interpolation

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 4: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Quelques exemples d’applications rencontrées enFDA

Analyse de données spectrométriques

0 20 40 60 80 100

23

45

Longueur d’onde

Abs

orba

nce

Séries temporelles

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 5: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Quelques exemples d’applications rencontrées enFDA

Reconnaissance vocale

0 2000 4000 6000 8000

−1.

0−

0.5

0.0

0.5

1.0

Temps (ms)

Fre

quen

ces

BoatGoat

Séries temporelles

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 6: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Quelques exemples d’applications rencontrées enFDA

Analyse de puces à ADN

Séries temporelles

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 7: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Quelques exemples d’applications rencontrées enFDA

Séries temporelles

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 8: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Formalisation mathématique

Le cadre

X ∈ (H , 〈., 〉) où (H , 〈., 〉) est un espace de Hilbert (variableexplicative ) ;

Y ∈ {−1, 1} Classification

ou Y ∈ R Régression (variable dépendante ) ;

On cherche à prédire Y à partir de X .

Pour cela, on dispose d’un ensemble d’apprentissage(x1, y1), . . . , (xn, yn) tel que

x i = (xi(t1), . . . , xi(td)) ;(xi , yi) sont des réalisations du couple (X ,Y ).

Objectif : Construire un prédicteur , ϕ(X), à partir desobservations, tel que E

[E(Y , ϕ(X)

)]soit petit où E est une

fonction d’erreur que l’on se fixe.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 9: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Formalisation mathématique

Le cadre

X ∈ (H , 〈., 〉) où (H , 〈., 〉) est un espace de Hilbert (variableexplicative ) ;

Y ∈ {−1, 1} Classification

ou Y ∈ R Régression (variable dépendante ) ;

On cherche à prédire Y à partir de X .

Pour cela, on dispose d’un ensemble d’apprentissage(x1, y1), . . . , (xn, yn) tel que

x i = (xi(t1), . . . , xi(td)) ;(xi , yi) sont des réalisations du couple (X ,Y ).

Objectif : Construire un prédicteur , ϕ(X), à partir desobservations, tel que E

[E(Y , ϕ(X)

)]soit petit où E est une

fonction d’erreur que l’on se fixe.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 10: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Formalisation mathématique

Le cadre

X ∈ (H , 〈., 〉) où (H , 〈., 〉) est un espace de Hilbert (variableexplicative ) ;

Y ∈ {−1, 1} Classificationou Y ∈ R Régression (variable dépendante ) ;

On cherche à prédire Y à partir de X .

Pour cela, on dispose d’un ensemble d’apprentissage(x1, y1), . . . , (xn, yn) tel que

x i = (xi(t1), . . . , xi(td)) ;(xi , yi) sont des réalisations du couple (X ,Y ).

Objectif : Construire un prédicteur , ϕ(X), à partir desobservations, tel que E

[E(Y , ϕ(X)

)]soit petit où E est une

fonction d’erreur que l’on se fixe.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 11: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Formalisation mathématique

Le cadre

X ∈ (H , 〈., 〉) où (H , 〈., 〉) est un espace de Hilbert (variableexplicative ) ;

Y ∈ {−1, 1} Classificationou Y ∈ R Régression (variable dépendante ) ;

On cherche à prédire Y à partir de X .

Pour cela, on dispose d’un ensemble d’apprentissage(x1, y1), . . . , (xn, yn) tel que

x i = (xi(t1), . . . , xi(td)) ;(xi , yi) sont des réalisations du couple (X ,Y ).

Objectif : Construire un prédicteur , ϕ(X), à partir desobservations, tel que E

[E(Y , ϕ(X)

)]soit petit où E est une

fonction d’erreur que l’on se fixe.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 12: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Formalisation mathématique

Le cadre

X ∈ (H , 〈., 〉) où (H , 〈., 〉) est un espace de Hilbert (variableexplicative ) ;

Y ∈ {−1, 1} Classificationou Y ∈ R Régression (variable dépendante ) ;

On cherche à prédire Y à partir de X .

Pour cela, on dispose d’un ensemble d’apprentissage(x1, y1), . . . , (xn, yn) tel que

x i = (xi(t1), . . . , xi(td)) ;(xi , yi) sont des réalisations du couple (X ,Y ).

Objectif : Construire un prédicteur , ϕ(X), à partir desobservations, tel que E

[E(Y , ϕ(X)

)]soit petit où E est une

fonction d’erreur que l’on se fixe.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 13: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Formalisation mathématique

Le cadre

X ∈ (H , 〈., 〉) où (H , 〈., 〉) est un espace de Hilbert (variableexplicative ) ;

Y ∈ {−1, 1} Classificationou Y ∈ R Régression (variable dépendante ) ;

On cherche à prédire Y à partir de X .

Pour cela, on dispose d’un ensemble d’apprentissage(x1, y1), . . . , (xn, yn) tel que

x i = (xi(t1), . . . , xi(td)) ;(xi , yi) sont des réalisations du couple (X ,Y ).

Objectif : Construire un prédicteur , ϕ(X), à partir desobservations, tel que E

[E(Y , ϕ(X)

)]soit petit où E est une

fonction d’erreur que l’on se fixe.Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 14: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Un exemple simple des problèmes posés par cecontexte

Modèle linéaire

Y = 〈a,X〉 + ε

tq Y ∈ R, a ∈ H est inconnu (à estimer), ε est une variablealéatoire centrée indépendante de X .

Ici, ϕ = 〈., a〉 est complètement connu si a est connu.Le a∗ optimal pour la prédiction , au sens des moindres carrés,est :

a∗ := arg mina∈HE[(〈a,X〉 − Y )2

]= Var(X)−1Cov(X ,Y )

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 15: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Un exemple simple des problèmes posés par cecontexte

Modèle linéaire

Y = 〈a,X〉 + ε

tq Y ∈ R, a ∈ H est inconnu (à estimer), ε est une variablealéatoire centrée indépendante de X .

Ici, ϕ = 〈., a〉 est complètement connu si a est connu.

Le a∗ optimal pour la prédiction , au sens des moindres carrés,est :

a∗ := arg mina∈HE[(〈a,X〉 − Y )2

]= Var(X)−1Cov(X ,Y )

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 16: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Un exemple simple des problèmes posés par cecontexte

Modèle linéaire

Y = 〈a,X〉 + ε

tq Y ∈ R, a ∈ H est inconnu (à estimer), ε est une variablealéatoire centrée indépendante de X .

Ici, ϕ = 〈., a〉 est complètement connu si a est connu.Le a∗ optimal pour la prédiction , au sens des moindres carrés,est :

a∗ := arg mina∈HE[(〈a,X〉 − Y )2

]= Var(X)−1Cov(X ,Y )

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 17: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Un exemple simple des problèmes posés par cecontexte

Cas H = Rk : a∗ est estimé par a = Var(X)−1n Cov(X ,Y )n où

Var(X)n =1n∑n

i=1 xTi xi ;

Cov(X ,Y )n =1n∑n

i=1 yixi .

Cas dimH = +∞ : L’opérateur ΓX est de Hilbert Schmidt donc iln’est pas inversible (ie : n’a pas d’inverse continu)⇒ l’estimationempirique est impossible directement !En pratique , si on travaille avec x i = (xi(t1), . . . , xi(td)), Var(X)n estmal conditionné⇒ instabilité de l’estimation.Solution : Régularisation par pénalisation⇒ on impose desconditions de régularité à l’estimateur a (voir [Cardot et al., 1999]).

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 18: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Un exemple simple des problèmes posés par cecontexte

Cas H = Rk : a∗ est estimé par a = Var(X)−1n Cov(X ,Y )n où

Var(X)n =1n∑n

i=1 xTi xi ;

Cov(X ,Y )n =1n∑n

i=1 yixi .

Cas dimH = +∞ : L’opérateur ΓX est de Hilbert Schmidt donc iln’est pas inversible (ie : n’a pas d’inverse continu)⇒ l’estimationempirique est impossible directement !

En pratique , si on travaille avec x i = (xi(t1), . . . , xi(td)), Var(X)n estmal conditionné⇒ instabilité de l’estimation.Solution : Régularisation par pénalisation⇒ on impose desconditions de régularité à l’estimateur a (voir [Cardot et al., 1999]).

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 19: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Un exemple simple des problèmes posés par cecontexte

Cas H = Rk : a∗ est estimé par a = Var(X)−1n Cov(X ,Y )n où

Var(X)n =1n∑n

i=1 xTi xi ;

Cov(X ,Y )n =1n∑n

i=1 yixi .

Cas dimH = +∞ : L’opérateur ΓX est de Hilbert Schmidt donc iln’est pas inversible (ie : n’a pas d’inverse continu)⇒ l’estimationempirique est impossible directement !En pratique , si on travaille avec x i = (xi(t1), . . . , xi(td)), Var(X)n estmal conditionné⇒ instabilité de l’estimation.

Solution : Régularisation par pénalisation⇒ on impose desconditions de régularité à l’estimateur a (voir [Cardot et al., 1999]).

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 20: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

Un exemple simple des problèmes posés par cecontexte

Cas H = Rk : a∗ est estimé par a = Var(X)−1n Cov(X ,Y )n où

Var(X)n =1n∑n

i=1 xTi xi ;

Cov(X ,Y )n =1n∑n

i=1 yixi .

Cas dimH = +∞ : L’opérateur ΓX est de Hilbert Schmidt donc iln’est pas inversible (ie : n’a pas d’inverse continu)⇒ l’estimationempirique est impossible directement !En pratique , si on travaille avec x i = (xi(t1), . . . , xi(td)), Var(X)n estmal conditionné⇒ instabilité de l’estimation.Solution : Régularisation par pénalisation⇒ on impose desconditions de régularité à l’estimateur a (voir [Cardot et al., 1999]).

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 21: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

SVM pour données fonctionnelles

SVM & Données fonctionnelles

SVM = Machines à Vecteurs de Support ; très populaires depuisles travaux sur l’apprentissage statistique [Vapnik, 1995].

Deux types de régularisation efficace :

Régularisation par projection : [Rossi and Villa, 2006] ;

Régularisation par dérivation : [Villa and Rossi, 2006] etpreprint en cours de soumission.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 22: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

ExemplesContexte mathématiqueProblématique

SVM pour données fonctionnelles

SVM & Données fonctionnelles

SVM = Machines à Vecteurs de Support ; très populaires depuisles travaux sur l’apprentissage statistique [Vapnik, 1995].Deux types de régularisation efficace :

Régularisation par projection : [Rossi and Villa, 2006] ;

Régularisation par dérivation : [Villa and Rossi, 2006] etpreprint en cours de soumission.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 23: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Sommaire

1 Analyse des données fonctionnellesExemplesContexte mathématiqueProblématique

2 Une petite introduction aux SVM

3 SVM pour données fonctionnellesApproche par projectionApproche par splines d’interpolation

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 24: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Discrimination linéaire à marge optimale

On cherche w tel que :

minw,b〈w,w〉,sous les contraintes :yi(〈w, xi〉 + b) ≥ 1, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 25: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Discrimination linéaire à marge optimale

On cherche w tel que :

minw,b〈w,w〉,sous les contraintes :yi(〈w, xi〉 + b) ≥ 1, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 26: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Discrimination linéaire à marge optimale

w

marge : 1‖w‖2

Vecteur Support

On cherche w tel que :

minw,b〈w,w〉,sous les contraintes :yi(〈w, xi〉 + b) ≥ 1, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 27: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Discrimination linéaire à marge optimale

w

marge : 1‖w‖2

Vecteur Support

On cherche w tel que :

minw,b〈w,w〉,sous les contraintes :yi(〈w, xi〉 + b) ≥ 1, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 28: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Discrimination linéaire à marge souple

On cherche w tel que :

minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w, xi〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 29: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Discrimination linéaire à marge souple

On cherche w tel que :

minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w, xi〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 30: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Discrimination linéaire à marge souple

w

marge : 1‖w‖2

Vecteur Support

On cherche w tel que :

minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w, xi〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 31: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Discrimination linéaire à marge souple

w

marge : 1‖w‖2

Vecteur Support

On cherche w tel que :

minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w, xi〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 32: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Envoyer les données dans un espace de grandedimension

Espace initialH

On cherche w tel que :

(PC ,X) minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w,Φ(xi)〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 33: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Envoyer les données dans un espace de grandedimension

Espace initialH Espace image X

Φ (non linéaire)

On cherche w tel que :

(PC ,X) minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w,Φ(xi)〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 34: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Envoyer les données dans un espace de grandedimension

Espace initialH Espace image X

Φ (non linéaire)

On cherche w tel que :

(PC ,X) minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w,Φ(xi)〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 35: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Envoyer les données dans un espace de grandedimension

Espace initialH Espace image X

Φ (non linéaire)

On cherche w tel que :

(PC ,X) minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w,Φ(xi)〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 36: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Intérêt du non linéaire

Formulation régularisation : (PC ,X)⇔

(Rλ,X) minf∈X

1n

n∑i=1

max(0, 1 − yi f (xi)) + λ〈f , f〉X.

Formulation duale : (PC ,X)⇔

(DC ,X) maxα∑n

i=1 αi −∑n

i=1∑n

j=1 αiαjyiyj〈Φ(xi),Φ(xj)〉X,avec

∑Ni=1 αiyi = 0,

0 ≤ αi ≤ C , 1 ≤ i ≤ n.

Produit scalaire dans X :∀ u, v ∈ X, K (u, v) = 〈Φ(u),Φ(v)〉X

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 37: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Intérêt du non linéaire

Formulation régularisation : (PC ,X)⇔

(Rλ,X) minf∈X

1n

n∑i=1

max(0, 1 − yi f (xi)) + λ〈f , f〉X.

Formulation duale : (PC ,X)⇔

(DC ,X) maxα∑n

i=1 αi −∑n

i=1∑n

j=1 αiαjyiyj〈Φ(xi),Φ(xj)〉X,avec

∑Ni=1 αiyi = 0,

0 ≤ αi ≤ C , 1 ≤ i ≤ n.

Produit scalaire dans X :∀ u, v ∈ X, K (u, v) = 〈Φ(u),Φ(v)〉X

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 38: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Intérêt du non linéaire

Formulation régularisation : (PC ,X)⇔

(Rλ,X) minf∈X

1n

n∑i=1

max(0, 1 − yi f (xi)) + λ〈f , f〉X.

Formulation duale : (PC ,X)⇔

(DC ,X) maxα∑n

i=1 αi −∑n

i=1∑n

j=1 αiαjyiyj〈Φ(xi),Φ(xj)〉X,avec

∑Ni=1 αiyi = 0,

0 ≤ αi ≤ C , 1 ≤ i ≤ n.

Produit scalaire dans X :∀ u, v ∈ X, K (u, v) = 〈Φ(u),Φ(v)〉X

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 39: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Sommaire

1 Analyse des données fonctionnellesExemplesContexte mathématiqueProblématique

2 Une petite introduction aux SVM

3 SVM pour données fonctionnellesApproche par projectionApproche par splines d’interpolation

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 40: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Noyaux pour FDA

Forme générale

Prétraitement : P : H → D

∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).

1 Projections : pour VD = Vect{ψ1, . . . , ψD},

P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .3 . . .

avec, par exemple, K (p1, p2) = 〈p1, p2〉 ouK (p1, p2) = exp(−γ‖p1 − p2‖

2D

). . .

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 41: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Noyaux pour FDA

Forme générale

Prétraitement : P : H → D

∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).

1 Projections : pour VD = Vect{ψ1, . . . , ψD},

P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .3 . . .

avec, par exemple, K (p1, p2) = 〈p1, p2〉 ouK (p1, p2) = exp(−γ‖p1 − p2‖

2D

). . .

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 42: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Noyaux pour FDA

Forme générale

Prétraitement : P : H → D

∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).

1 Projections : pour VD = Vect{ψ1, . . . , ψD},

P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .

3 . . .

avec, par exemple, K (p1, p2) = 〈p1, p2〉 ouK (p1, p2) = exp(−γ‖p1 − p2‖

2D

). . .

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 43: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Noyaux pour FDA

Forme générale

Prétraitement : P : H → D

∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).

1 Projections : pour VD = Vect{ψ1, . . . , ψD},

P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .3 . . .

avec, par exemple, K (p1, p2) = 〈p1, p2〉 ouK (p1, p2) = exp(−γ‖p1 − p2‖

2D

). . .

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 44: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Noyaux pour FDA

Forme générale

Prétraitement : P : H → D

∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).

1 Projections : pour VD = Vect{ψ1, . . . , ψD},

P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .3 . . .

avec, par exemple, K (p1, p2) = 〈p1, p2〉 ouK (p1, p2) = exp(−γ‖p1 − p2‖

2D

). . .

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 45: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Une approche consistante

Approche par projection

1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;

2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]

partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l

avec Ln−l fa = 1n−l

∑ni=l+1 I{fa (xi ),yi }.

⇒ On obtient un SVM fn.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 46: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Une approche consistante

Approche par projection

1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]

partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l

avec Ln−l fa = 1n−l

∑ni=l+1 I{fa (xi ),yi }.

⇒ On obtient un SVM fn.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 47: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Une approche consistante

Approche par projection

1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]

partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;

construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l

avec Ln−l fa = 1n−l

∑ni=l+1 I{fa (xi ),yi }.

⇒ On obtient un SVM fn.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 48: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Une approche consistante

Approche par projection

1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]

partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;

choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l

avec Ln−l fa = 1n−l

∑ni=l+1 I{fa (xi ),yi }.

⇒ On obtient un SVM fn.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 49: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Une approche consistante

Approche par projection

1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]

partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l

avec Ln−l fa = 1n−l

∑ni=l+1 I{fa (xi ),yi }.

⇒ On obtient un SVM fn.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 50: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Une approche consistante

Approche par projection

1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]

partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :

a∗ = arg mina

Ln−l fa +λd√

n − l

avec Ln−l fa = 1n−l

∑ni=l+1 I{fa (xi ),yi }.

⇒ On obtient un SVM fn.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 51: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Hypothèses

Hypothèses sur la distribution de X

(H1) X prend ses valeurs dans un borné deH .

Hypothèses sur les paramètres : ∀ d ≥ 1,

(H2) Jd est un ensemble fini ;(H3) ∃Kd ∈ Jd tel que : Kd est universel et∃νd > 0 : N(Kd , ε) = O(ε−νd ) ;(H4) Cd > 1 ;(H5)

∑d≥1 |Jd |e−2λ2

d < +∞.

Hypothèses sur la validation

(H6) limn→+∞ l = +∞ ;(H7) limn→+∞ n − l = +∞ ;(H8) limn→+∞

l log(n−l)n−l = 0.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 52: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Hypothèses

Hypothèses sur la distribution de X

(H1) X prend ses valeurs dans un borné deH .

Hypothèses sur les paramètres : ∀ d ≥ 1,

(H2) Jd est un ensemble fini ;(H3) ∃Kd ∈ Jd tel que : Kd est universel et∃νd > 0 : N(Kd , ε) = O(ε−νd ) ;(H4) Cd > 1 ;(H5)

∑d≥1 |Jd |e−2λ2

d < +∞.

Hypothèses sur la validation

(H6) limn→+∞ l = +∞ ;(H7) limn→+∞ n − l = +∞ ;(H8) limn→+∞

l log(n−l)n−l = 0.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 53: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Hypothèses

Hypothèses sur la distribution de X

(H1) X prend ses valeurs dans un borné deH .

Hypothèses sur les paramètres : ∀ d ≥ 1,

(H2) Jd est un ensemble fini ;(H3) ∃Kd ∈ Jd tel que : Kd est universel et∃νd > 0 : N(Kd , ε) = O(ε−νd ) ;(H4) Cd > 1 ;(H5)

∑d≥1 |Jd |e−2λ2

d < +∞.

Hypothèses sur la validation

(H6) limn→+∞ l = +∞ ;(H7) limn→+∞ n − l = +∞ ;(H8) limn→+∞

l log(n−l)n−l = 0.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 54: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Convergence par procédure de validation

Théorème 1 : Consistance universelle

Sous les hypothèses (H1)-(H8), fn est consistant :

Lfnn→+∞−−−−−→ L∗,

où Lfn = P(fn(X) , Y ) et L ∗ = P(f ∗(X) , Y ) avec

f ∗(x) =

{1 si P(Y = 1|X = x) > 1/2,−1 sinon.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 55: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Application : reconnaissance vocale

Description des données et méthodes

3 problèmes et pour chaque problème, 100 enregistrementsdiscrétisés en 8 192 points ;

Mise en œuvre de la procédure consistante :Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres (apprentissage) /49 (validation) ;Performances déterminées par leave-one-out.

Résultats

Prob. k -nn QDA SVM gau. SVM lin. SVM lin.(proj) (proj) (direct)

yes/no 10% 7% 10% 19% 58%boat/goat 21% 35% 8% 29% 46%

sh/ao 16% 19% 12% 25% 47%

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 56: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Application : reconnaissance vocale

Description des données et méthodes

3 problèmes et pour chaque problème, 100 enregistrementsdiscrétisés en 8 192 points ;Mise en œuvre de la procédure consistante :

Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres (apprentissage) /49 (validation) ;Performances déterminées par leave-one-out.

Résultats

Prob. k -nn QDA SVM gau. SVM lin. SVM lin.(proj) (proj) (direct)

yes/no 10% 7% 10% 19% 58%boat/goat 21% 35% 8% 29% 46%

sh/ao 16% 19% 12% 25% 47%

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 57: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Application : reconnaissance vocale

Description des données et méthodes

3 problèmes et pour chaque problème, 100 enregistrementsdiscrétisés en 8 192 points ;Mise en œuvre de la procédure consistante :

Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres (apprentissage) /49 (validation) ;Performances déterminées par leave-one-out.

Résultats

Prob. k -nn QDA SVM gau. SVM lin. SVM lin.(proj) (proj) (direct)

yes/no 10% 7% 10% 19% 58%boat/goat 21% 35% 8% 29% 46%

sh/ao 16% 19% 12% 25% 47%

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 58: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Limites

Aspects limitants de cette approche :1 Consistance basée sur une procédure de validation ;2 Non prise en compte du fait que les fonctions ne sont pas

connues intégralement mais sous la forme d’unediscrétisation ;

3 Aspect très restrictif du pré-traitement des données : onaimerait pouvoir prendre en compte des dérivées de lafonction observée.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 59: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Approche directe pour SVM sur dérivées

X est régulière :X ∈ H = Hm = {x : [0; 1] → R : Dmx existe etDmx ∈ L2} ;

Produit scalaire : H est muni du produit scalaire

〈f , g〉H = 〈Pm1 (u),Pm

1 (v)〉m1 + 〈Pm0 (u),Pm

0 (v)〉m0où

H0 = {x ∈ H : Lx = 0}H1 = {x ∈ H :

∑j=1m B jx = 0}

Pmi est l’opérateur de projection surHm

i .

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 60: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Approche directe pour SVM sur dérivées

X est régulière :X ∈ H = Hm = {x : [0; 1] → R : Dmx existe etDmx ∈ L2} ;Produit scalaire : H est muni du produit scalaire

〈f , g〉H =∫

[0;1]Lf (t)Lg(t)dt +

m∑j=1

B juB jv

oùLx =

∑mj=1 ajD jx avec am , 0 ;

B j sont des conditions limites ;(∑

j B jx et Lx , 0)⇒ x , 0.

〈f , g〉H = 〈Pm1 (u),Pm

1 (v)〉m1 + 〈Pm0 (u),Pm

0 (v)〉m0où

H0 = {x ∈ H : Lx = 0}H1 = {x ∈ H :

∑j=1m B jx = 0}

Pmi est l’opérateur de projection surHm

i .

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 61: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Approche directe pour SVM sur dérivées

X est régulière :X ∈ H = Hm = {x : [0; 1] → R : Dmx existe etDmx ∈ L2} ;Produit scalaire : H est muni du produit scalaire

〈f , g〉H = 〈Pm1 (u),Pm

1 (v)〉m1 + 〈Pm0 (u),Pm

0 (v)〉m0où

H0 = {x ∈ H : Lx = 0}H1 = {x ∈ H :

∑j=1m B jx = 0}

Pmi est l’opérateur de projection surHm

i .

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 62: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Exemples d’espaces de Sobolev

H1 avec L = I + D et x(0) = 0 (Lx = 0⇒ x = ae−t etx(0) = a) ;

H2 avec L = I + D2 et x(0) = Dx(0) = 0 ;

Hm (m ≥ 1) avec L = Dm et D jx(0) = 0, ∀ j = 1, . . . ,m.

Pour d’autres exemples, voir [Besse and Ramsay, 1986] et[Berlinet and Thomas-Agnan, 2004].

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 63: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Exemples d’espaces de Sobolev

H1 avec L = I + D et x(0) = 0 (Lx = 0⇒ x = ae−t etx(0) = a) ;

H2 avec L = I + D2 et x(0) = Dx(0) = 0 ;

Hm (m ≥ 1) avec L = Dm et D jx(0) = 0, ∀ j = 1, . . . ,m.

Pour d’autres exemples, voir [Besse and Ramsay, 1986] et[Berlinet and Thomas-Agnan, 2004].

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 64: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Exemples d’espaces de Sobolev

H1 avec L = I + D et x(0) = 0 (Lx = 0⇒ x = ae−t etx(0) = a) ;

H2 avec L = I + D2 et x(0) = Dx(0) = 0 ;

Hm (m ≥ 1) avec L = Dm et D jx(0) = 0, ∀ j = 1, . . . ,m.

Pour d’autres exemples, voir [Besse and Ramsay, 1986] et[Berlinet and Thomas-Agnan, 2004].

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 65: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

RKHS

H peut être un RKHS

Un RKHS est un espace de fonctions tel que ∃K : R × R → H :

∀ x ∈ H , 〈x,K (t , .)〉H = x(t).

H1 avec L = I + D et x(0) = 0 est un RKHS de noyau

K (s, t) = e−max(s,t) sinh(min(s, t));

H2 avec L = I +D2 et x(0) = Dx(0) = 0 est un RKHS de noyau

K (s, t) = (min(s, t) cos(s − t) − cos(s) cos(t))/2

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 66: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

RKHS

H peut être un RKHS

Un RKHS est un espace de fonctions tel que ∃K : R × R → H :

∀ x ∈ H , 〈x,K (t , .)〉H = x(t).

H1 avec L = I + D et x(0) = 0 est un RKHS de noyau

K (s, t) = e−max(s,t) sinh(min(s, t));

H2 avec L = I +D2 et x(0) = Dx(0) = 0 est un RKHS de noyau

K (s, t) = (min(s, t) cos(s − t) − cos(s) cos(t))/2

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 67: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

RKHS

H peut être un RKHS

Un RKHS est un espace de fonctions tel que ∃K : R × R → H :

∀ x ∈ H , 〈x,K (t , .)〉H = x(t).

H1 avec L = I + D et x(0) = 0 est un RKHS de noyau

K (s, t) = e−max(s,t) sinh(min(s, t));

H2 avec L = I +D2 et x(0) = Dx(0) = 0 est un RKHS de noyau

K (s, t) = (min(s, t) cos(s − t) − cos(s) cos(t))/2

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 68: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Utiliser des splines de lissage pour représenter lavariable explicative

Ici, L = Dm.On suppose que les points de discrétisation sont tels que :

d ≥ m − 10 ≤ t1 < t2 < . . . < td ≤ 1 ;les conditions B j sont linéairement indépendantes deh ∈ H → h(tl).

Proposition 1 : [Kimeldorf and Wahba, 1971]

Il existe une unique solution au problème de minimisation :

xλ,d = arg minh∈H

1d

d∑l=1

(x(tl) − h(tl))2 + λ

∫ 1

0(h(m)(t))2dt .

De plus, pour tout x i = (xi(t1), . . . , xi(td)),

〈xλ,di , xλ,dj 〉H = uT Mdv

où Md est symétrique définie positive.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 69: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Utiliser des splines de lissage pour représenter lavariable explicative

Ici, L = Dm.

Proposition 1 : [Kimeldorf and Wahba, 1971]

Il existe une unique solution au problème de minimisation :

xλ,d = arg minh∈H

1d

d∑l=1

(x(tl) − h(tl))2 + λ

∫ 1

0(h(m)(t))2dt .

De plus, pour tout x i = (xi(t1), . . . , xi(td)),

〈xλ,di , xλ,dj 〉H = uT Mdv

où Md est symétrique définie positive.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 70: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Utiliser des splines de lissage pour représenter lavariable explicative

Ici, L = Dm.

Proposition 1 : [Kimeldorf and Wahba, 1971]

Il existe une unique solution au problème de minimisation :

xλ,d = arg minh∈H

1d

d∑l=1

(x(tl) − h(tl))2 + λ

∫ 1

0(h(m)(t))2dt .

De plus, pour tout x i = (xi(t1), . . . , xi(td)),

〈xλ,di , xλ,dj 〉H = uT Mdv

où Md est symétrique définie positive.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 71: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Noyau sur dérivées

Notons :

Gdγ (u, v) = exp

(−γ ‖u − v‖2

Rd

)G∞γ (u, v) = exp

(−γ ‖u − v‖2L2

)

Principe des SVM différentiels

SVM sur (Dmxi , (B jxi)j)i avec noyau G∞γ ⊗ Gmγ

SVM sur (x i)i avec noyau Gdγ ◦M−1/2

d

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 72: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Noyau sur dérivées

Notons :

Gdγ (u, v) = exp

(−γ ‖u − v‖2

Rd

)G∞γ (u, v) = exp

(−γ ‖u − v‖2L2

)Principe des SVM différentiels

SVM sur (Dmxi , (B jxi)j)i avec noyau G∞γ ⊗ Gmγ

SVM sur (x i)i avec noyau Gdγ ◦M−1/2

d

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 73: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Hypothèses

Hypothèses sur la suite de points de discrétisation

(τd)d≥m est une suite d’ensembles de points de discrétisationτd = {t1, . . . , td} tels que :

pour tout d ≥ m, t1, . . . , td sont distincts ;

les formes linéaires (B j)j sont linéairement indépendantesde h → h(tl) pour tout l = 1, . . . , d ;

La fonction F , limite pour la norme‖u − v‖∞ = supt∈[0,1] |u(t) − v(t)| de Fd(t) = 1

d∑d

l=1 I{t=tl }(t) estC∞.

Hypothèses concernant les paramètres

Le paramètre de régularisation de la spline de lissage est telque :

limd→+∞

λd = 0 et limd→+∞

Sdλ−5/(4m)d = 0

avec Sd = ‖Fd − F‖∞.Pour mémoire : La fonction F est la limite pour la norme

‖u − v‖∞ = supt∈[0,1] |u(t) − v(t)| de Fd(t) = 1d

∑dl=1 I{t=tl }(t).

Le paramètre de régularisation du SVM est tel que : pourtout d ≥ 1, Cn,d = O(n1−βd ) où 0 < βd < 1/d

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 74: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Hypothèses

Hypothèses concernant X

X est une variable aléatoire à valeurs dans H telle que X [0, 1]est un ensemble borné de R.

Hypothèses concernant les paramètres

Le paramètre de régularisation de la spline de lissage est telque :

limd→+∞

λd = 0 et limd→+∞

Sdλ−5/(4m)d = 0

avec Sd = ‖Fd − F‖∞.Pour mémoire : La fonction F est la limite pour la norme

‖u − v‖∞ = supt∈[0,1] |u(t) − v(t)| de Fd(t) = 1d

∑dl=1 I{t=tl }(t).

Le paramètre de régularisation du SVM est tel que : pourtout d ≥ 1, Cn,d = O(n1−βd ) où 0 < βd < 1/d

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 75: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Hypothèses

Hypothèses concernant les paramètres

Le paramètre de régularisation de la spline de lissage est telque :

limd→+∞

λd = 0 et limd→+∞

Sdλ−5/(4m)d = 0

avec Sd = ‖Fd − F‖∞.Pour mémoire : La fonction F est la limite pour la norme

‖u − v‖∞ = supt∈[0,1] |u(t) − v(t)| de Fd(t) = 1d

∑dl=1 I{t=tl }(t).

Le paramètre de régularisation du SVM est tel que : pourtout d ≥ 1, Cn,d = O(n1−βd ) où 0 < βd < 1/d

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 76: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Consistance universelle

Théorème 2 : Consistance universelle

Sous les hypothèses précédentes, le SVM φn,d construit commedécrit précédemment qui est défini par :

maxα∑n

i=1 αi −∑n

i,j=1 αiαjGdγ ◦ (Md)−1/2(x i , x j)

où[t ]∑n

i=1 αiyi = 0,0 ≤ αi ≤ Cn,d , 1 ≤ i ≤ n

est universellement consistant ie :

limd→+∞

limn→+∞

L(φn,d) = L∗

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 77: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Principe de la preuve

Principe de la preuve : Utilise1 d’une part la consistance des splines par rapport aux

nombres de points d’observations pour montrer quel’erreur optimale commise en utilisant une discrétisation estasymptotiquement égale à l’erreur optimale commise enutilisant la fonction exacte ;

2 d’autre part, la consistance des SVM multidimensionnelspour montrer que l’erreur commise sur la discrétisation estasymptotiquement l’erreur optimale commise en utilisant cettediscrétisation.

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 78: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Simulation

Un exemple réel : Courbe spectrométrique

Données divisées aléatoirement en 120 spectres pourl’apprentissage et 95 spectres pour calculer l’erreur (test) ;Répétition aléatoire de la division 250 fois ;Le paramètre λ est choisi par leave-one-out ;Nous avons utilisé les conditions aux bornes x(0) = 0 etDx(0) = 0.

Noyau Erreur moyenne Écart type de l’erreurLinéaire sur discrétisation 3,78 % 2,52 %Gaussien sur discrétisation 5,97 % 2,76 %Linéaire fonctionnel 3,12 % 1,71 %Gaussien fonctionnel 2,77 % 2,07 %

(Différences significatives pour un t-test apparié entre SVM surdiscrétisation et SVM fonctionnels).

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 79: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Simulation

Un exemple réel : Courbe spectrométrique

Données divisées aléatoirement en 120 spectres pourl’apprentissage et 95 spectres pour calculer l’erreur (test) ;Répétition aléatoire de la division 250 fois ;Le paramètre λ est choisi par leave-one-out ;Nous avons utilisé les conditions aux bornes x(0) = 0 etDx(0) = 0.

Noyau Erreur moyenne Écart type de l’erreurLinéaire sur discrétisation 3,78 % 2,52 %Gaussien sur discrétisation 5,97 % 2,76 %Linéaire fonctionnel 3,12 % 1,71 %Gaussien fonctionnel 2,77 % 2,07 %

(Différences significatives pour un t-test apparié entre SVM surdiscrétisation et SVM fonctionnels).

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 80: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Bilan et ouvertures

Prolongements en cours : Choix de λ, autres fonctionnellesL ,. . .

Le cas de la régression : si Y est réelle ?⇒ Prise en compte de l’aspect temporel dans la modélisationde systèmes MISO par SVR :

y(t) = F(x1, . . . , xp) + ε

où x i = xi(t − k , . . . , t − 1).

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 81: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

Approche par projectionApproche par splines d’interpolation

Bilan et ouvertures

Prolongements en cours : Choix de λ, autres fonctionnellesL ,. . .

Le cas de la régression : si Y est réelle ?⇒ Prise en compte de l’aspect temporel dans la modélisationde systèmes MISO par SVR :

y(t) = F(x1, . . . , xp) + ε

où x i = xi(t − k , . . . , t − 1).

Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges

Page 82: Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)

Analyse des données fonctionnellesUne petite introduction aux SVM

SVM pour données fonctionnellesReferences

BibliographieBerlinet, A. and Thomas-Agnan, C. (2004).

Reproducing Kernel Hilbert Spaces in Probability and Statistics.Kluwer Academic Publisher.

Besse, P. and Ramsay, J. (1986).

Principal component analysis of sampled curves.Psychometrika, 51 :285–311.

Cardot, H., Ferraty, F., and Sarda, P. (1999).

Functional linear model.Statistics and Probability Letters, 45 :11–22.

Kimeldorf, G. and Wahba, G. (1971).

Some results on Tchebycheffian spline functions.Journal of Mathematical Analysis and Applications, 33(1) :82–95.

Rossi, F. and Villa, N. (2006).

Support vector machine for functional data classification.Neurocomputing, 69(7-9) :730–742.

Vapnik, V. (1995).

The Nature of Statistical Learning Theory.Springer Verlag, New York.

Villa, N. and Rossi, F. (2006).

Un résultat de consistance pour des SVM fonctionnels par interpolation spline.Comptes Rendus Mathématique. Académie des Sciences. Paris, 343(8) :555–560.

. . . et merci pour votre invitation et votre attention !Nathalie Villa SVM fonctionnels, Séminaire CANSO, Limoges