Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Post on 24-May-2015

199 views 4 download

description

Séminaire du SAMOS, Université Paris I, France February 4th, 2005

Transcript of Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse

Séminaire SAMOS4 février 2005

RRééseaux de neurones et SVM seaux de neurones et SVM àà entrentréées fonctionnelles : une es fonctionnelles : une

approche par rapproche par réégression gression inverseinverse

Nathalie Villa (GRIMM - SMASH)Université Toulouse Le Mirail

Séminaire SAMOS4 février 2005

OBJECTIFSOBJECTIFS

ObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale

Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels

Séminaire SAMOS4 février 2005

L’analyse de données fonctionnelles

1) Données de phonèmes (discrimination)

50 100 150 200 250-5

0

5

10

15

20

25

30

[aa]

50 100 150 200 250-5

0

5

10

15

20

25

30

[ao]

Enregistrements de voix

50 100 150 200 250-5

0

5

10

15

20

[dcl]

50 100 150 200 250-5

0

5

10

15

20

25

[iy]

50 100 150 200 2500

5

10

15

20

25

[sh]

Phonème

Séminaire SAMOS4 février 2005

2) Données de spectrométrie (régression)

10 20 30 40 50 60 70 80 90 1002

2.5

3

3.5

4

4.5

5

5.5

Spectres d’absorbance

Masse de matière grasse

Séminaire SAMOS4 février 2005

Contexte théorique

• X ∈ (H,<.,.>) (espace de Hilbert ; typiquement H=L2)

• On dispose de N observations : (X1 ,Y1),…(XN ,YN) et on cherche à estimer E(Y / X) par perceptronmulti-couches, par SVM…

Perceptronmulti-couches,SVM

1C1

1CK

Y =

Y réel

Séminaire SAMOS4 février 2005

Problèmes habituels liés à ce cadre

• Problèmes d’inversion d’opérateursExemple : dans le modèle linéaire fonctionnel Y = <ψ , X> + ε, on a la relation ΓXY = ΓX ψ mais l’opérateur ΓX n’est pas borné et n’a donc pas d’inverse continu même lorsqu’il est bijectif.

•Problèmes liés à l’existence de trop de solutions à une équation donnée (problèmes mal posés)Exemple : en AFD, on recherche a ∈ H qui maximise Cor(<a,X>,Y) ; étant donnés des exemples (X1,Y1),…, (XN,YN), on peut toujours trouver une infinité de a ∈ H tel que Cor({<a,Xk>,Yk }k=1..N) = 1Voir : Leurgans, Moyeed and Silverman (1993)

Séminaire SAMOS4 février 2005

Contexte pratique

• Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au travers d’une discrétisation aux points t1,…,tD

⇒ connaissance imparfaite des observations : il faut approcher les opérations usuelles (produit scalaire…)

Voir : Rossi et Conan-Guez (2004)⇒ nécessité de trouver un mode de représentation approprié des

paramètres fonctionnels du modèle étudiéExemple : pour les perceptrons multi-couches, on cherchera à trouver une représentation adéquate des poids fonctionnels du réseau

⇒ travailler dans RD est habituellement une mauvaise idée… ! (variables de grandes dimensions et fortement corrélées, matrices mal conditionnées…)

Séminaire SAMOS4 février 2005

Quelques outils habituels de résolution

• Projection des données sur un espace de dimension finie (d) puis travail habituel dans Rd

– sur une base ACPVoir : Bosq (1991) (Processus AR),Cardot, Ferraty et Sarda (1999) (Modèle Linéaire)Thodberg (1996) (Perceptron multi-couches)

– sur une base orthonormée de L2 (base trigonométrique, par exemple)

Voir : Biau, Bunea, Wegkamp (2004) (k Plus Proches Voisins)

Séminaire SAMOS4 février 2005

– sur une base B-SplineVoir : Rossi et Conan-Guez (2004)

• Régularisation : on impose aux estimateurs certaines conditions de régularitéVoir : Leurgans, Moyeed and Silverman (1993) (Analyse Canonique)

Séminaire SAMOS4 février 2005

TROUVER UNE BASE DE TROUVER UNE BASE DE PROJECTION OPTIMALEPROJECTION OPTIMALE

ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimale

Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels

Séminaire SAMOS4 février 2005

Principaux avantages de l’approche proposée

• On détermine une base de projection qui dépend :– des données (procédure automatique de détermination),– de la cible Y (la base est exactement adaptée au but poursuivi).

• On projette les données sur cette base avant de les traiter par réseaux de neurones– le vecteur d’entrée est de faible dimension (traitement rapide).

• On dispose d’un résultat qui assure la convergence des paramètres empiriques vers les poids optimaux théoriques du perceptron.

Séminaire SAMOS4 février 2005

Fonctional Inverse Regression : le modèle

Pour X ∈ L2, on suppose queY = f (<X,a1>,…,<X,aq>,ε) (Condition de Li)

Alors, E(Y/X) appartient à Vect{ΓXaj} et l’espace EDR (Vect{aj}) s’obtient par décomposition spectrale de l’opérateur ΓX

-1 ΓE(Y/X).Problème : ΓX n’est pas inversible donc les vecteurs propres de (ΓX

N)-1 ΓNE(Y/X) ne convergent pas vers les

vecteurs propres de ΓX-1 ΓE(Y/X).

⇒ On estime ΓX par ΓXN + α [.,.] où [.,.] est

un terme de pénalisation destiné à régulariser les estimateurs â1,…,âq.

Séminaire SAMOS4 février 2005

ConsistanceThéorème : Sous les hypothèses– E(||X||4) < +∞

– ∀ α > 0, inf{<ΓXNa,a> + α [a,a] : ||a||=1} = ρα > 0

– limN→+∞ α = 0 et limN→+∞ Nα² = +∞

– Les valeurs propres de ΓX sont distinctes

La probabilité que ΓE(X/Y)N admette un maximum sur

inf{ΓXN + α [a,a] : ||a||=1} tend vers 1 et ce maximum a1

N

converge en probabilité vers a1Voir : Ferré et Villa (2005a)

Séminaire SAMOS4 février 2005

Remarques

• Condition de Li peu restrictive pour les vecteurs de grande dimension

• FIR peut être utilisée pour des problèmes de régression et des problèmes de discrimination

• De manière pratique, on a choisi [f,g] = <D²f,D²g>

Séminaire SAMOS4 février 2005

Exemple : phonèmes

• Méthodes comparées :– SIR régularisée + Noyau– SIR projetée + Noyau– SIR pseudo-inverse + Noyau– Ridge-PDA Voir : Hastie, Buja, Tibshirani (1995)– NPCD – PCA Voir : Ferraty, Vieu (2003)

• Protocole expérimental : Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.

Séminaire SAMOS4 février 2005

11 %

10 %

9 %

8 %

SIR2-N RPDA NPCD-PCASIR-Nr SIR-Np

Séminaire SAMOS4 février 2005

Projection sur les deux premiers vecteurs

propres SIR régularisée

Projection sur les deux premiers vecteurs

propres SIR projetée

Séminaire SAMOS4 février 2005

50 100 150 200 250-0.03

-0.02

-0.01

0

0.01

0.02

0.03

0.04

0.05

50 100 150 200 250-0.03

-0.02

-0.01

0

0.01

0.02

0.03

0.04

0.05

Espace EDR pour SIR régularisée

Espace EDR pour SIR projetée

Séminaire SAMOS4 février 2005

RESEAUX DE NEURONES RESEAUX DE NEURONES FONCTIONNELSFONCTIONNELS

ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale

Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels

Séminaire SAMOS4 février 2005

Principe de FIR-NNX Y = f (<X,a1>,…,<X,aq>,ε)

FIR

{<X,âj >}j=1…q

Perceptronmulti-couches Y

Estimation de f

(Projection des données sur une estimation de

l’espace EDR)

Séminaire SAMOS4 février 2005

Consistance

Sous les hypothèses du théorème précédent et d’un certain nombre d’hypothèses techniques, les poids permettant d’obtenir l’erreur empirique minimum convergent en probabilité vers les poids théoriques lorsque le nombre d’observations tend vers +∞.

Séminaire SAMOS4 février 2005

Exemple : Tecator data

• Méthodes comparées :– SIR régularisée + NN– SIR pseudo-inverse + NN– ACP + NN– NNf (par projection sur Spline)– SIR + Linéaire

• Protocole expérimental :Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.

Séminaire SAMOS4 février 2005 ACP-NN NNf SIR-NNrSIR-NNn SIR-l

Séminaire SAMOS4 février 2005

SVM FONCTIONNELSSVM FONCTIONNELS

ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale

Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnels

Séminaire SAMOS4 février 2005

Principe SVMΦ (non linéaire)

x1,…, xN ∈ H Espace image(grande dimension)

z1,…,zN

Séminaire SAMOS4 février 2005

Formulation mathématique

• On cherche à minimiser ½ ||w||² sous la contrainteyi (<zi , w> + b) ≥ 1, ∀i = 1,…,N

• Ceci se met sous la forme duale : maximiser

αi – αi αj yiyj <zi , zj>

sous la contrainte αi ≥ 0, ∀i = 1,…,N• zi = Φ(xi) où < Φ(x) , Φ(x’)> = K(z,z’) (théorème de

Moore-Aronszajn)

∑=

N

i 1∑=

N

i 1

Séminaire SAMOS4 février 2005

Solution

• La classification se fait selon l’hyperplan d’équation

sign(<z,w*>+b),où w* = αi

* yi zi et où seuls un « petit » nombre de αi

* sont non nuls : ils déterminent les vecteurs supports.

Espace image

zi,…,zNVecteurs supports (participent à la construction de la frontière de décision)

∑=

N

i 1

Séminaire SAMOS4 février 2005

Problèmes spécifiques du cas fonctionnel

• Dans un espace de dimension infinie, il y a toujours une séparation linéaire

• Mais, même dans ce cadre, on peut rencontrer les problèmes habituels dûs à la grande dimension ou de connaissance incomplète des données (discrétisation)

• L’utilisation de noyaux fonctionnels peut apporter un plus (utilisation de la nature spécifique des données)

Séminaire SAMOS4 février 2005

FIR + SVM pour classification

X ∈H

FIR

<X,â1>,…, <X,âq>

Y = f (<X,a1>,…,<X,aq>,ε)

Φ(non linéaire)Noyau classique

Espace image

Z

Estimation de f

Séminaire SAMOS4 février 2005

Exemple sur données simulées : waveform

2 4 6 8 10 12 14 16 18 20-4

-2

0

2

4

6

8Classe 1

2 4 6 8 10 12 14 16 18 20-4

-2

0

2

4

6

8

10Classe 2

2 4 6 8 10 12 14 16 18 20-4

-2

0

2

4

6

8Classe 3

uh1(t)+(1-u)h2(t)+ε(t) uh1(t)+(1-u)h3(t)+ε(t) uh2(t)+(1-u)h3(t)+ε(t)

•h1(t) = max(6-|t-11|,0)•h2(t) = h1(t-4)•h3(t) = h1(t+4)

Séminaire SAMOS4 février 2005

Méthodologie

• Méthodes comparées :– SIR + SVM RBF– SVM RBF sur la discrétisation– Ridge PDA– SIR + Noyau

• Protocole expérimental :Sur 10 échantillons aléatoires, on détermine les paramètres optimaux par validation croisée puis on évalue l’erreur commise sur un échantillon indépendant (apprentissage : 3 × 100, validation : 500, test : 500).

Séminaire SAMOS4 février 2005

Résultats

12,3712,4710,1711,73Moyenne (app)

1212,612,2010,20Minimum (test)

2,012,053,042,25Ecart type (test)

14,1615,6215,4613,70Moyenne (test)

SIR + NoyR-PDASVMSIR + SVM

Séminaire SAMOS4 février 2005

Conclusion et perspectives

• FIR permet une approche semi-paramétrique pour l’implémentation de données fonctionnelles dans réseaux neuronaux et SVM

• Implémentation facile et bon comportement expérimental

• Perspectives :– SVM fonctionnels pour régression ;– Autres approches fonctionnelles pour SVM ;– Consistance de méthodes pour SVM fonctionnels…

Séminaire SAMOS4 février 2005

Bibliographie (1)

• Leurgans, Moyeed and Silverman (1993) Canonical Correlation Analysis when the Data are Curves, J. R. Statist. Soc. B, 55, 3, 725-740.

• Rossi and Conan-Guez (2004) Functional multi-Layerperceptron: a non-linear tool for functional data analysis, Neural Networks, à paraître.

• Bosq (1991) Modelization, non-parametric estimation andprediction for continuous time processes, In Roussas, G., editor, Nonparametric Functional Estimation and Related Topics, NATO, ASI Series, 509-529.

Séminaire SAMOS4 février 2005

Bibliographie (2)

• Cardot, Ferraty and Sarda (1999) Functional Linear Model, Statistics and Probability Letters, 45, 1, 11-22.

• Thodberg (1996) A Review of Bayesian Neural Networks with an Application to Near Infrared Spectroscopy, IEEE Transactions on Neural Networks, 7, 1, 56-72.

• Biau, Bunea and Wegkamp (2004) Functional classification in Hilbert Spaces, soumis.(www.math.univ-montp2.fr/~biau/publications.html)

• Ferré and Villa (2005) Multi-Layer Neural Network withfunctional inputs: an inverse regression approach, soumis.

Séminaire SAMOS4 février 2005

Bibliographie (3)

• Hastie, Buja and Tibshirani (1995) Penalized discriminant analysis, Ann. Statist., 23, 1, 73-102.

• Ferraty and Vieu (2003) Curves discrimination: a nonparametric functional approach, Computational Statisticsand Data Analysis, 44, 161-173.

Séminaire SAMOS4 février 2005

Merci de votre attentionMerci de votre attention

Séminaire SAMOS4 février 2005

Annexe 1 : Opérateurs hilbertiens

• Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u>(théorème de Riesz)

• Opérateur de variance de X : ΓX = E(X ⊗ X) avecX ⊗ X : u → <X,u> X (opérateur continu de H oùl’ensemble des opérateurs continus de H est un espace de Hilbert)

• Estimateur de l’opérateur de variance :

ΓXN = Xn ⊗ Xn∑

=

N

nN

1

1