Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

38
Séminaire SAMOS 4 février 2005 R R é é seaux de neurones et SVM seaux de neurones et SVM à à entr entr é é es fonctionnelles : une es fonctionnelles : une approche par r approche par r é é gression gression inverse inverse Nathalie Villa (GRIMM - SMASH) Université Toulouse Le Mirail

description

Séminaire du SAMOS, Université Paris I, France February 4th, 2005

Transcript of Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Page 1: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

RRééseaux de neurones et SVM seaux de neurones et SVM àà entrentréées fonctionnelles : une es fonctionnelles : une

approche par rapproche par réégression gression inverseinverse

Nathalie Villa (GRIMM - SMASH)Université Toulouse Le Mirail

Page 2: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

OBJECTIFSOBJECTIFS

ObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale

Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels

Page 3: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

L’analyse de données fonctionnelles

1) Données de phonèmes (discrimination)

50 100 150 200 250-5

0

5

10

15

20

25

30

[aa]

50 100 150 200 250-5

0

5

10

15

20

25

30

[ao]

Enregistrements de voix

50 100 150 200 250-5

0

5

10

15

20

[dcl]

50 100 150 200 250-5

0

5

10

15

20

25

[iy]

50 100 150 200 2500

5

10

15

20

25

[sh]

Phonème

Page 4: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

2) Données de spectrométrie (régression)

10 20 30 40 50 60 70 80 90 1002

2.5

3

3.5

4

4.5

5

5.5

Spectres d’absorbance

Masse de matière grasse

Page 5: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Contexte théorique

• X ∈ (H,<.,.>) (espace de Hilbert ; typiquement H=L2)

• On dispose de N observations : (X1 ,Y1),…(XN ,YN) et on cherche à estimer E(Y / X) par perceptronmulti-couches, par SVM…

Perceptronmulti-couches,SVM

1C1

1CK

Y =

Y réel

Page 6: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Problèmes habituels liés à ce cadre

• Problèmes d’inversion d’opérateursExemple : dans le modèle linéaire fonctionnel Y = <ψ , X> + ε, on a la relation ΓXY = ΓX ψ mais l’opérateur ΓX n’est pas borné et n’a donc pas d’inverse continu même lorsqu’il est bijectif.

•Problèmes liés à l’existence de trop de solutions à une équation donnée (problèmes mal posés)Exemple : en AFD, on recherche a ∈ H qui maximise Cor(<a,X>,Y) ; étant donnés des exemples (X1,Y1),…, (XN,YN), on peut toujours trouver une infinité de a ∈ H tel que Cor({<a,Xk>,Yk }k=1..N) = 1Voir : Leurgans, Moyeed and Silverman (1993)

Page 7: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Contexte pratique

• Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au travers d’une discrétisation aux points t1,…,tD

⇒ connaissance imparfaite des observations : il faut approcher les opérations usuelles (produit scalaire…)

Voir : Rossi et Conan-Guez (2004)⇒ nécessité de trouver un mode de représentation approprié des

paramètres fonctionnels du modèle étudiéExemple : pour les perceptrons multi-couches, on cherchera à trouver une représentation adéquate des poids fonctionnels du réseau

⇒ travailler dans RD est habituellement une mauvaise idée… ! (variables de grandes dimensions et fortement corrélées, matrices mal conditionnées…)

Page 8: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Quelques outils habituels de résolution

• Projection des données sur un espace de dimension finie (d) puis travail habituel dans Rd

– sur une base ACPVoir : Bosq (1991) (Processus AR),Cardot, Ferraty et Sarda (1999) (Modèle Linéaire)Thodberg (1996) (Perceptron multi-couches)

– sur une base orthonormée de L2 (base trigonométrique, par exemple)

Voir : Biau, Bunea, Wegkamp (2004) (k Plus Proches Voisins)

Page 9: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

– sur une base B-SplineVoir : Rossi et Conan-Guez (2004)

• Régularisation : on impose aux estimateurs certaines conditions de régularitéVoir : Leurgans, Moyeed and Silverman (1993) (Analyse Canonique)

Page 10: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

TROUVER UNE BASE DE TROUVER UNE BASE DE PROJECTION OPTIMALEPROJECTION OPTIMALE

ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimale

Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels

Page 11: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Principaux avantages de l’approche proposée

• On détermine une base de projection qui dépend :– des données (procédure automatique de détermination),– de la cible Y (la base est exactement adaptée au but poursuivi).

• On projette les données sur cette base avant de les traiter par réseaux de neurones– le vecteur d’entrée est de faible dimension (traitement rapide).

• On dispose d’un résultat qui assure la convergence des paramètres empiriques vers les poids optimaux théoriques du perceptron.

Page 12: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Fonctional Inverse Regression : le modèle

Pour X ∈ L2, on suppose queY = f (<X,a1>,…,<X,aq>,ε) (Condition de Li)

Alors, E(Y/X) appartient à Vect{ΓXaj} et l’espace EDR (Vect{aj}) s’obtient par décomposition spectrale de l’opérateur ΓX

-1 ΓE(Y/X).Problème : ΓX n’est pas inversible donc les vecteurs propres de (ΓX

N)-1 ΓNE(Y/X) ne convergent pas vers les

vecteurs propres de ΓX-1 ΓE(Y/X).

⇒ On estime ΓX par ΓXN + α [.,.] où [.,.] est

un terme de pénalisation destiné à régulariser les estimateurs â1,…,âq.

Page 13: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

ConsistanceThéorème : Sous les hypothèses– E(||X||4) < +∞

– ∀ α > 0, inf{<ΓXNa,a> + α [a,a] : ||a||=1} = ρα > 0

– limN→+∞ α = 0 et limN→+∞ Nα² = +∞

– Les valeurs propres de ΓX sont distinctes

La probabilité que ΓE(X/Y)N admette un maximum sur

inf{ΓXN + α [a,a] : ||a||=1} tend vers 1 et ce maximum a1

N

converge en probabilité vers a1Voir : Ferré et Villa (2005a)

Page 14: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Remarques

• Condition de Li peu restrictive pour les vecteurs de grande dimension

• FIR peut être utilisée pour des problèmes de régression et des problèmes de discrimination

• De manière pratique, on a choisi [f,g] = <D²f,D²g>

Page 15: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Exemple : phonèmes

• Méthodes comparées :– SIR régularisée + Noyau– SIR projetée + Noyau– SIR pseudo-inverse + Noyau– Ridge-PDA Voir : Hastie, Buja, Tibshirani (1995)– NPCD – PCA Voir : Ferraty, Vieu (2003)

• Protocole expérimental : Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.

Page 16: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

11 %

10 %

9 %

8 %

SIR2-N RPDA NPCD-PCASIR-Nr SIR-Np

Page 17: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Projection sur les deux premiers vecteurs

propres SIR régularisée

Projection sur les deux premiers vecteurs

propres SIR projetée

Page 18: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

50 100 150 200 250-0.03

-0.02

-0.01

0

0.01

0.02

0.03

0.04

0.05

50 100 150 200 250-0.03

-0.02

-0.01

0

0.01

0.02

0.03

0.04

0.05

Espace EDR pour SIR régularisée

Espace EDR pour SIR projetée

Page 19: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

RESEAUX DE NEURONES RESEAUX DE NEURONES FONCTIONNELSFONCTIONNELS

ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale

Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels

Page 20: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Principe de FIR-NNX Y = f (<X,a1>,…,<X,aq>,ε)

FIR

{<X,âj >}j=1…q

Perceptronmulti-couches Y

Estimation de f

(Projection des données sur une estimation de

l’espace EDR)

Page 21: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Consistance

Sous les hypothèses du théorème précédent et d’un certain nombre d’hypothèses techniques, les poids permettant d’obtenir l’erreur empirique minimum convergent en probabilité vers les poids théoriques lorsque le nombre d’observations tend vers +∞.

Page 22: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Exemple : Tecator data

• Méthodes comparées :– SIR régularisée + NN– SIR pseudo-inverse + NN– ACP + NN– NNf (par projection sur Spline)– SIR + Linéaire

• Protocole expérimental :Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.

Page 23: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005 ACP-NN NNf SIR-NNrSIR-NNn SIR-l

Page 24: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

SVM FONCTIONNELSSVM FONCTIONNELS

ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale

Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnels

Page 25: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Principe SVMΦ (non linéaire)

x1,…, xN ∈ H Espace image(grande dimension)

z1,…,zN

Page 26: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Formulation mathématique

• On cherche à minimiser ½ ||w||² sous la contrainteyi (<zi , w> + b) ≥ 1, ∀i = 1,…,N

• Ceci se met sous la forme duale : maximiser

αi – αi αj yiyj <zi , zj>

sous la contrainte αi ≥ 0, ∀i = 1,…,N• zi = Φ(xi) où < Φ(x) , Φ(x’)> = K(z,z’) (théorème de

Moore-Aronszajn)

∑=

N

i 1∑=

N

i 1

Page 27: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Solution

• La classification se fait selon l’hyperplan d’équation

sign(<z,w*>+b),où w* = αi

* yi zi et où seuls un « petit » nombre de αi

* sont non nuls : ils déterminent les vecteurs supports.

Espace image

zi,…,zNVecteurs supports (participent à la construction de la frontière de décision)

∑=

N

i 1

Page 28: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Problèmes spécifiques du cas fonctionnel

• Dans un espace de dimension infinie, il y a toujours une séparation linéaire

• Mais, même dans ce cadre, on peut rencontrer les problèmes habituels dûs à la grande dimension ou de connaissance incomplète des données (discrétisation)

• L’utilisation de noyaux fonctionnels peut apporter un plus (utilisation de la nature spécifique des données)

Page 29: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

FIR + SVM pour classification

X ∈H

FIR

<X,â1>,…, <X,âq>

Y = f (<X,a1>,…,<X,aq>,ε)

Φ(non linéaire)Noyau classique

Espace image

Z

Estimation de f

Page 30: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Exemple sur données simulées : waveform

2 4 6 8 10 12 14 16 18 20-4

-2

0

2

4

6

8Classe 1

2 4 6 8 10 12 14 16 18 20-4

-2

0

2

4

6

8

10Classe 2

2 4 6 8 10 12 14 16 18 20-4

-2

0

2

4

6

8Classe 3

uh1(t)+(1-u)h2(t)+ε(t) uh1(t)+(1-u)h3(t)+ε(t) uh2(t)+(1-u)h3(t)+ε(t)

•h1(t) = max(6-|t-11|,0)•h2(t) = h1(t-4)•h3(t) = h1(t+4)

Page 31: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Méthodologie

• Méthodes comparées :– SIR + SVM RBF– SVM RBF sur la discrétisation– Ridge PDA– SIR + Noyau

• Protocole expérimental :Sur 10 échantillons aléatoires, on détermine les paramètres optimaux par validation croisée puis on évalue l’erreur commise sur un échantillon indépendant (apprentissage : 3 × 100, validation : 500, test : 500).

Page 32: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Résultats

12,3712,4710,1711,73Moyenne (app)

1212,612,2010,20Minimum (test)

2,012,053,042,25Ecart type (test)

14,1615,6215,4613,70Moyenne (test)

SIR + NoyR-PDASVMSIR + SVM

Page 33: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Conclusion et perspectives

• FIR permet une approche semi-paramétrique pour l’implémentation de données fonctionnelles dans réseaux neuronaux et SVM

• Implémentation facile et bon comportement expérimental

• Perspectives :– SVM fonctionnels pour régression ;– Autres approches fonctionnelles pour SVM ;– Consistance de méthodes pour SVM fonctionnels…

Page 34: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Bibliographie (1)

• Leurgans, Moyeed and Silverman (1993) Canonical Correlation Analysis when the Data are Curves, J. R. Statist. Soc. B, 55, 3, 725-740.

• Rossi and Conan-Guez (2004) Functional multi-Layerperceptron: a non-linear tool for functional data analysis, Neural Networks, à paraître.

• Bosq (1991) Modelization, non-parametric estimation andprediction for continuous time processes, In Roussas, G., editor, Nonparametric Functional Estimation and Related Topics, NATO, ASI Series, 509-529.

Page 35: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Bibliographie (2)

• Cardot, Ferraty and Sarda (1999) Functional Linear Model, Statistics and Probability Letters, 45, 1, 11-22.

• Thodberg (1996) A Review of Bayesian Neural Networks with an Application to Near Infrared Spectroscopy, IEEE Transactions on Neural Networks, 7, 1, 56-72.

• Biau, Bunea and Wegkamp (2004) Functional classification in Hilbert Spaces, soumis.(www.math.univ-montp2.fr/~biau/publications.html)

• Ferré and Villa (2005) Multi-Layer Neural Network withfunctional inputs: an inverse regression approach, soumis.

Page 36: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Bibliographie (3)

• Hastie, Buja and Tibshirani (1995) Penalized discriminant analysis, Ann. Statist., 23, 1, 73-102.

• Ferraty and Vieu (2003) Curves discrimination: a nonparametric functional approach, Computational Statisticsand Data Analysis, 44, 161-173.

Page 37: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Merci de votre attentionMerci de votre attention

Page 38: Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

Annexe 1 : Opérateurs hilbertiens

• Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u>(théorème de Riesz)

• Opérateur de variance de X : ΓX = E(X ⊗ X) avecX ⊗ X : u → <X,u> X (opérateur continu de H oùl’ensemble des opérateurs continus de H est un espace de Hilbert)

• Estimateur de l’opérateur de variance :

ΓXN = Xn ⊗ Xn∑

=

N

nN

1

1