Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse
description
Transcript of Réseaux de neurones et SVM à entrées fonctionnelles : une approche par régression inverse
Séminaire SAMOS4 février 2005
RRééseaux de neurones et SVM seaux de neurones et SVM àà entrentréées fonctionnelles : une es fonctionnelles : une
approche par rapproche par réégression gression inverseinverse
Nathalie Villa (GRIMM - SMASH)Université Toulouse Le Mirail
Séminaire SAMOS4 février 2005
OBJECTIFSOBJECTIFS
ObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels
Séminaire SAMOS4 février 2005
L’analyse de données fonctionnelles
1) Données de phonèmes (discrimination)
50 100 150 200 250-5
0
5
10
15
20
25
30
[aa]
50 100 150 200 250-5
0
5
10
15
20
25
30
[ao]
Enregistrements de voix
50 100 150 200 250-5
0
5
10
15
20
[dcl]
50 100 150 200 250-5
0
5
10
15
20
25
[iy]
50 100 150 200 2500
5
10
15
20
25
[sh]
Phonème
Séminaire SAMOS4 février 2005
2) Données de spectrométrie (régression)
10 20 30 40 50 60 70 80 90 1002
2.5
3
3.5
4
4.5
5
5.5
Spectres d’absorbance
Masse de matière grasse
Séminaire SAMOS4 février 2005
Contexte théorique
• X ∈ (H,<.,.>) (espace de Hilbert ; typiquement H=L2)
• On dispose de N observations : (X1 ,Y1),…(XN ,YN) et on cherche à estimer E(Y / X) par perceptronmulti-couches, par SVM…
Perceptronmulti-couches,SVM
1C1
1CK
Y =
Y réel
Séminaire SAMOS4 février 2005
Problèmes habituels liés à ce cadre
• Problèmes d’inversion d’opérateursExemple : dans le modèle linéaire fonctionnel Y = <ψ , X> + ε, on a la relation ΓXY = ΓX ψ mais l’opérateur ΓX n’est pas borné et n’a donc pas d’inverse continu même lorsqu’il est bijectif.
•Problèmes liés à l’existence de trop de solutions à une équation donnée (problèmes mal posés)Exemple : en AFD, on recherche a ∈ H qui maximise Cor(<a,X>,Y) ; étant donnés des exemples (X1,Y1),…, (XN,YN), on peut toujours trouver une infinité de a ∈ H tel que Cor({<a,Xk>,Yk }k=1..N) = 1Voir : Leurgans, Moyeed and Silverman (1993)
Séminaire SAMOS4 février 2005
Contexte pratique
• Les observations : (X1 ,Y1),…(XN ,YN) ne sont connues qu’au travers d’une discrétisation aux points t1,…,tD
⇒ connaissance imparfaite des observations : il faut approcher les opérations usuelles (produit scalaire…)
Voir : Rossi et Conan-Guez (2004)⇒ nécessité de trouver un mode de représentation approprié des
paramètres fonctionnels du modèle étudiéExemple : pour les perceptrons multi-couches, on cherchera à trouver une représentation adéquate des poids fonctionnels du réseau
⇒ travailler dans RD est habituellement une mauvaise idée… ! (variables de grandes dimensions et fortement corrélées, matrices mal conditionnées…)
Séminaire SAMOS4 février 2005
Quelques outils habituels de résolution
• Projection des données sur un espace de dimension finie (d) puis travail habituel dans Rd
– sur une base ACPVoir : Bosq (1991) (Processus AR),Cardot, Ferraty et Sarda (1999) (Modèle Linéaire)Thodberg (1996) (Perceptron multi-couches)
– sur une base orthonormée de L2 (base trigonométrique, par exemple)
Voir : Biau, Bunea, Wegkamp (2004) (k Plus Proches Voisins)
Séminaire SAMOS4 février 2005
– sur une base B-SplineVoir : Rossi et Conan-Guez (2004)
• Régularisation : on impose aux estimateurs certaines conditions de régularitéVoir : Leurgans, Moyeed and Silverman (1993) (Analyse Canonique)
Séminaire SAMOS4 février 2005
TROUVER UNE BASE DE TROUVER UNE BASE DE PROJECTION OPTIMALEPROJECTION OPTIMALE
ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels
Séminaire SAMOS4 février 2005
Principaux avantages de l’approche proposée
• On détermine une base de projection qui dépend :– des données (procédure automatique de détermination),– de la cible Y (la base est exactement adaptée au but poursuivi).
• On projette les données sur cette base avant de les traiter par réseaux de neurones– le vecteur d’entrée est de faible dimension (traitement rapide).
• On dispose d’un résultat qui assure la convergence des paramètres empiriques vers les poids optimaux théoriques du perceptron.
Séminaire SAMOS4 février 2005
Fonctional Inverse Regression : le modèle
Pour X ∈ L2, on suppose queY = f (<X,a1>,…,<X,aq>,ε) (Condition de Li)
Alors, E(Y/X) appartient à Vect{ΓXaj} et l’espace EDR (Vect{aj}) s’obtient par décomposition spectrale de l’opérateur ΓX
-1 ΓE(Y/X).Problème : ΓX n’est pas inversible donc les vecteurs propres de (ΓX
N)-1 ΓNE(Y/X) ne convergent pas vers les
vecteurs propres de ΓX-1 ΓE(Y/X).
⇒ On estime ΓX par ΓXN + α [.,.] où [.,.] est
un terme de pénalisation destiné à régulariser les estimateurs â1,…,âq.
Séminaire SAMOS4 février 2005
ConsistanceThéorème : Sous les hypothèses– E(||X||4) < +∞
– ∀ α > 0, inf{<ΓXNa,a> + α [a,a] : ||a||=1} = ρα > 0
– limN→+∞ α = 0 et limN→+∞ Nα² = +∞
– Les valeurs propres de ΓX sont distinctes
La probabilité que ΓE(X/Y)N admette un maximum sur
inf{ΓXN + α [a,a] : ||a||=1} tend vers 1 et ce maximum a1
N
converge en probabilité vers a1Voir : Ferré et Villa (2005a)
Séminaire SAMOS4 février 2005
Remarques
• Condition de Li peu restrictive pour les vecteurs de grande dimension
• FIR peut être utilisée pour des problèmes de régression et des problèmes de discrimination
• De manière pratique, on a choisi [f,g] = <D²f,D²g>
Séminaire SAMOS4 février 2005
Exemple : phonèmes
• Méthodes comparées :– SIR régularisée + Noyau– SIR projetée + Noyau– SIR pseudo-inverse + Noyau– Ridge-PDA Voir : Hastie, Buja, Tibshirani (1995)– NPCD – PCA Voir : Ferraty, Vieu (2003)
• Protocole expérimental : Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.
Séminaire SAMOS4 février 2005
11 %
10 %
9 %
8 %
SIR2-N RPDA NPCD-PCASIR-Nr SIR-Np
Séminaire SAMOS4 février 2005
Projection sur les deux premiers vecteurs
propres SIR régularisée
Projection sur les deux premiers vecteurs
propres SIR projetée
Séminaire SAMOS4 février 2005
50 100 150 200 250-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
50 100 150 200 250-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
Espace EDR pour SIR régularisée
Espace EDR pour SIR projetée
Séminaire SAMOS4 février 2005
RESEAUX DE NEURONES RESEAUX DE NEURONES FONCTIONNELSFONCTIONNELS
ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnelsSVM fonctionnels
Séminaire SAMOS4 février 2005
Principe de FIR-NNX Y = f (<X,a1>,…,<X,aq>,ε)
FIR
{<X,âj >}j=1…q
Perceptronmulti-couches Y
Estimation de f
(Projection des données sur une estimation de
l’espace EDR)
Séminaire SAMOS4 février 2005
Consistance
Sous les hypothèses du théorème précédent et d’un certain nombre d’hypothèses techniques, les poids permettant d’obtenir l’erreur empirique minimum convergent en probabilité vers les poids théoriques lorsque le nombre d’observations tend vers +∞.
Séminaire SAMOS4 février 2005
Exemple : Tecator data
• Méthodes comparées :– SIR régularisée + NN– SIR pseudo-inverse + NN– ACP + NN– NNf (par projection sur Spline)– SIR + Linéaire
• Protocole expérimental :Sur 50 échantillons aléatoires, on effectue la discrimination sur un échantillon d’apprentissage et on calcule le taux d’erreur sur un échantillon de test.
Séminaire SAMOS4 février 2005 ACP-NN NNf SIR-NNrSIR-NNn SIR-l
Séminaire SAMOS4 février 2005
SVM FONCTIONNELSSVM FONCTIONNELS
ObjectifsObjectifsObjectifsTrouver une base de projection optimaleTrouver une base de projection optimaleTrouver une base de projection optimale
Réseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsRéseaux de neurones fonctionnelsSVM fonctionnelsSVM fonctionnels
Séminaire SAMOS4 février 2005
Principe SVMΦ (non linéaire)
x1,…, xN ∈ H Espace image(grande dimension)
z1,…,zN
Séminaire SAMOS4 février 2005
Formulation mathématique
• On cherche à minimiser ½ ||w||² sous la contrainteyi (<zi , w> + b) ≥ 1, ∀i = 1,…,N
• Ceci se met sous la forme duale : maximiser
αi – αi αj yiyj <zi , zj>
sous la contrainte αi ≥ 0, ∀i = 1,…,N• zi = Φ(xi) où < Φ(x) , Φ(x’)> = K(z,z’) (théorème de
Moore-Aronszajn)
∑=
N
i 1∑=
N
i 1
Séminaire SAMOS4 février 2005
Solution
• La classification se fait selon l’hyperplan d’équation
sign(<z,w*>+b),où w* = αi
* yi zi et où seuls un « petit » nombre de αi
* sont non nuls : ils déterminent les vecteurs supports.
Espace image
zi,…,zNVecteurs supports (participent à la construction de la frontière de décision)
∑=
N
i 1
Séminaire SAMOS4 février 2005
Problèmes spécifiques du cas fonctionnel
• Dans un espace de dimension infinie, il y a toujours une séparation linéaire
• Mais, même dans ce cadre, on peut rencontrer les problèmes habituels dûs à la grande dimension ou de connaissance incomplète des données (discrétisation)
• L’utilisation de noyaux fonctionnels peut apporter un plus (utilisation de la nature spécifique des données)
Séminaire SAMOS4 février 2005
FIR + SVM pour classification
X ∈H
FIR
<X,â1>,…, <X,âq>
Y = f (<X,a1>,…,<X,aq>,ε)
Φ(non linéaire)Noyau classique
Espace image
Z
Estimation de f
Séminaire SAMOS4 février 2005
Exemple sur données simulées : waveform
2 4 6 8 10 12 14 16 18 20-4
-2
0
2
4
6
8Classe 1
2 4 6 8 10 12 14 16 18 20-4
-2
0
2
4
6
8
10Classe 2
2 4 6 8 10 12 14 16 18 20-4
-2
0
2
4
6
8Classe 3
uh1(t)+(1-u)h2(t)+ε(t) uh1(t)+(1-u)h3(t)+ε(t) uh2(t)+(1-u)h3(t)+ε(t)
•h1(t) = max(6-|t-11|,0)•h2(t) = h1(t-4)•h3(t) = h1(t+4)
Séminaire SAMOS4 février 2005
Méthodologie
• Méthodes comparées :– SIR + SVM RBF– SVM RBF sur la discrétisation– Ridge PDA– SIR + Noyau
• Protocole expérimental :Sur 10 échantillons aléatoires, on détermine les paramètres optimaux par validation croisée puis on évalue l’erreur commise sur un échantillon indépendant (apprentissage : 3 × 100, validation : 500, test : 500).
Séminaire SAMOS4 février 2005
Résultats
12,3712,4710,1711,73Moyenne (app)
1212,612,2010,20Minimum (test)
2,012,053,042,25Ecart type (test)
14,1615,6215,4613,70Moyenne (test)
SIR + NoyR-PDASVMSIR + SVM
Séminaire SAMOS4 février 2005
Conclusion et perspectives
• FIR permet une approche semi-paramétrique pour l’implémentation de données fonctionnelles dans réseaux neuronaux et SVM
• Implémentation facile et bon comportement expérimental
• Perspectives :– SVM fonctionnels pour régression ;– Autres approches fonctionnelles pour SVM ;– Consistance de méthodes pour SVM fonctionnels…
Séminaire SAMOS4 février 2005
Bibliographie (1)
• Leurgans, Moyeed and Silverman (1993) Canonical Correlation Analysis when the Data are Curves, J. R. Statist. Soc. B, 55, 3, 725-740.
• Rossi and Conan-Guez (2004) Functional multi-Layerperceptron: a non-linear tool for functional data analysis, Neural Networks, à paraître.
• Bosq (1991) Modelization, non-parametric estimation andprediction for continuous time processes, In Roussas, G., editor, Nonparametric Functional Estimation and Related Topics, NATO, ASI Series, 509-529.
Séminaire SAMOS4 février 2005
Bibliographie (2)
• Cardot, Ferraty and Sarda (1999) Functional Linear Model, Statistics and Probability Letters, 45, 1, 11-22.
• Thodberg (1996) A Review of Bayesian Neural Networks with an Application to Near Infrared Spectroscopy, IEEE Transactions on Neural Networks, 7, 1, 56-72.
• Biau, Bunea and Wegkamp (2004) Functional classification in Hilbert Spaces, soumis.(www.math.univ-montp2.fr/~biau/publications.html)
• Ferré and Villa (2005) Multi-Layer Neural Network withfunctional inputs: an inverse regression approach, soumis.
Séminaire SAMOS4 février 2005
Bibliographie (3)
• Hastie, Buja and Tibshirani (1995) Penalized discriminant analysis, Ann. Statist., 23, 1, 73-102.
• Ferraty and Vieu (2003) Curves discrimination: a nonparametric functional approach, Computational Statisticsand Data Analysis, 44, 161-173.
Séminaire SAMOS4 février 2005
Merci de votre attentionMerci de votre attention
Séminaire SAMOS4 février 2005
Annexe 1 : Opérateurs hilbertiens
• Espérance de X ∈ H : ∀ u ∈ H, E(<X,u>)=<E(X),u>(théorème de Riesz)
• Opérateur de variance de X : ΓX = E(X ⊗ X) avecX ⊗ X : u → <X,u> X (opérateur continu de H oùl’ensemble des opérateurs continus de H est un espace de Hilbert)
• Estimateur de l’opérateur de variance :
ΓXN = Xn ⊗ Xn∑
=
N
nN
1
1