Réseaux de neurones à entrées fonctionnelles

download Réseaux de neurones à entrées fonctionnelles

If you can't read please download the document

description

Séminaire GRIMM/SMASH, Université Toulouse 2 (Le Mirail), France October, 8th, 2004

Transcript of Réseaux de neurones à entrées fonctionnelles

  • 1. RRseaux de neuronesseaux de neurones entrentres fonctionnelleses fonctionnelles Nathalie Villa (GRIMM - SMASH) Universit Toulouse Le Mirail Sminaire SMASH 8 octobre 2004

2. Sminaire SMASH 8 octobre 2004 BUT DU TRAVAILBUT DU TRAVAIL Ou comment utiliser des rseaux de neurones en statistique fonctionnelle ??? 3. Rseaux fonctionnels : Mode demploi But : Discrimination Perceptron multi-couches 1 C1 1 CK Y = Rgression Perceptron multi-couches Y rel Sminaire SMASH 8 octobre 2004 4. Exemples 1) Donnes de phonmes (discrimination) 50 100 150 200 250 -5 0 5 10 15 20 25 30 [aa] 50 100 150 200 250 -5 0 5 10 15 20 25 30 [ao] 50 100 150 200 250 -5 0 5 10 15 20 [dcl] 50 100 150 200 250 -5 0 5 10 15 20 25 [iy] 50 100 150 200 250 0 5 10 15 20 25 [sh] Sminaire SMASH 8 octobre 2004 Phonme Enregistrements de voix 5. 2) Donnes de spectromtrie (rgression) 10 20 30 40 50 60 70 80 90 100 2 2.5 3 3.5 4 4.5 5 5.5 Spectres dabsorbance Masse de matire grasse Sminaire SMASH 8 octobre 2004 6. Sminaire SMASH 8 octobre 2004 Le programme Etat des lieux en rseaux de neuronesEtat des lieux en rseaux de neurones fonctionnelsfonctionnels SIRSIR SIRSIR--NNNN 7. Sminaire SMASH 8 octobre 2004 ETAT DES LIEUX ENETAT DES LIEUX EN RESEAUX DE NEURONESRESEAUX DE NEURONES FONCTIONNELSFONCTIONNELS 8. 1) Approche directe discrtise en t1tD X w + b Ya j jj )t(w)t(X m 1 biais g SORTIESORTIE Sminaire SMASH 8 octobre 2004 Rossi, Conan-Guez (2002) 9. Reprsentation des fonctions de poids w : Reprsentation linaire des poids par rapport une base de B-Splines, dondelettes, de fonctions trigonomtriques : Reprsentation non linaire des poids par un perceptron multicouche multidimentionnel. = i ii )t(w)t(w Sminaire SMASH 8 octobre 2004 10. 2) Approche par projection X w + b Ya >< j,i jiij ,w biais g SORTIESORTIE projection = j jjX )X(P Sminaire SMASH 8 octobre 2004 11. Rsultats Approximation universelle : il existe un perceptron fonctionnel qui approche avec la prcision voulue nimporte quelle application allant dun compact de lespace L dans R. Consistance : les paramtres (w) et (a) qui minimisent lerreur empirique construite partir dun nombre fini dobservations discrtises en un nombre fini de points convergent ps vers les paramtres optimaux thoriques lorsque le nombre dobservations et le nombre de points de discrtisation tendent vers linfini. Sminaire SMASH 8 octobre 2004 12. Limites Approche directe : la dtermination des minima locaux peut devenir lourde lorsque le nombre de points de discrtisation augmente, particulirement si la fonction de poids est reprsente par un perceptron multicouche. Approche par projection : trouver une base de projection adapte au problme ; le choix du type de la base ainsi que du nombre de fonctions y introduire nest pas vident priori. Risque de perte dinformations pertinentes. Sminaire SMASH 8 octobre 2004 13. Base de projection qui dpend des donnes (mthode mise en uvre sur le jeu de donnes de spectromtrie) X ACP X kn (Projection des donnes sur les kn premiers vecteurs propres) Perceptron multi-couches classique Y Sminaire SMASH 8 octobre 2004 Thodberg (1996) 14. Avantages Le jeu de donnes est simplifi ; La base de projection dpend des donnes (procdure automatique de dtermination). Inconvnients La base de projection ne dpend pas de la cible mais uniquement des variables explicatives (base de projection non optimise). Risque de perte dinformations pertinentes. Pas de rsultat de convergence dmontr (mthode empirique). Sminaire SMASH 8 octobre 2004 15. Sminaire SMASH 8 octobre 2004 SIRSIR Dterminer une base de projection pertinente 16. Sliced Inverse Regression : Le modle Li (1991) ),X'a,...X'a(fY q1 = Pour X multidimentionnel centre et indpendante de X f inconnue (aj)j linairement indpendants Ide : Estimer par des mthodes dalgbre linaire lespace EDR (Vect{aj} ) : SIR ; Estimer la fonction f (mthodes non paramtriques, rseaux de neurones). Sminaire SMASH 8 octobre 2004 17. Ferr, Yao (2003) Dauxois, Ferr, Yao (2003) Pour X fonctionnel, ),X,a,...,X,a(fY q1 > + [f , g] o [f , g] = dt)t(gD)t(fD 22 Concrtement Sminaire SMASH 8 octobre 2004 FIR rgularise Daprs les travaux de Tihonov (1963) ; Leurgans, Moyeed et Silverman (1993) 20. Thorme : (Consistance) Sous lhypothse de Li et des hypothses techniques, atteint son maximum sur S avec une probabilit qui tend vers 1 lorsque N tend vers +. De plus, si a1 N est le maximum de cette fonction sur S alors )a,a(Q a,a N N )Y/X(E >< 0aa),aa( N,P 1 N 11 N 1X >< + Sminaire SMASH 8 octobre 2004 Ferr, Villa (2004) 21. Remarques Condition de Li : Li dmontre que cette condition est peu restrictive pour des vecteurs X de grande dimension ; Pnalisation : Lhypothse de rgularit sur X est faite au travers du choix de [ , ] : dautres choix conduiraient au mme rsultat de consistance ; Estimation de E(X/Y) : Lestimateur de E(X/Y) doit converger une vitesse . Plusieurs choix sont possibles suivant les buts poursuivis N Sminaire SMASH 8 octobre 2004 22. Estimation de E(X/Y) But : Rgression Estimateur par tranchage du support : pour une partition (Ih)h du support de Y, o et h h h h N )Y/X(E N N = = n IY h h n IN = n IY n h h h n IX N 1 Sminaire SMASH 8 octobre 2004 23. Estimateur noyau : o === n ^ n ^ nN )Y/X(E )YY/X(E)YY/X(E N 1 == n m m n n ^ h yY K h yY KX )yY/X(E Sminaire SMASH 8 octobre 2004 24. Discrimination === k ^^ k N )Y/X(E )kY/X(E)kY/X(EN N 1 o et = == n kY n k ^ n IX N 1)kY/X(E = = n kY k n IN Sminaire SMASH 8 octobre 2004 25. Ferr, Villa (2005) Sminaire SMASH 8 octobre 2004 Exemples (en discrimination) 1) Donnes simules : waveform data 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 Classe 1 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 10 Classe 2 2 4 6 8 10 12 14 16 18 20 -4 -2 0 2 4 6 8 Classe 3 uh1(t)+(1-u)h2(t)+(t) uh1(t)+(1-u)h3(t)+(t) uh2(t)+(1-u)h3(t)+(t) h1(t) = max(6-|t-11|,0) h2(t) = h1(t-4) h3(t) = h1(t+4) 26. Mthodes compares : SIR rgularise + Noyau SIR projete + Noyau SIR inverse gnralis (Ferr, Yao 2004) + Noyau Ridge-PDA (Hastie, Buja, Tibschirani) NPCD PCA (Ferraty, Vieu) Protocole exprimental : Sur 50 chantillons alatoires, on effectue la discrimination sur un chantillon dapprentissage et on calcule le taux derreur sur un chantillon de test. Sminaire SMASH 8 octobre 2004 27. Sminaire SMASH 8 octobre 2004 14 % 19 % 18 % 17 % 16 % 15 % RPDA SIR-Nr SIR-Np NPCD-PCA SIR2-N 28. Sminaire SMASH 8 octobre 2004 2) Donnes relles : les phonmes Mthodes compares : SIR rgularise + Noyau SIR projete + Noyau SIR pseudo-inverse (Ferr, Yao 2004) + Noyau Ridge-PDA (Hastie, Buja, Tibschirani) NPCD PCA (Ferraty, Vieu) Protocole exprimental : Idem. 29. Sminaire SMASH 8 octobre 2004 8 % 9 % 10 % 11 % SIR-Nr SIR-Np SIR2-N RPDA NPCD-PCA 30. Projection sur les deux premiers vecteurs propres SIR rgularise Projection sur les deux premiers vecteurs propres SIR projete Sminaire SMASH 8 octobre 2004 31. 50 100 150 200 250 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 50 100 150 200 250 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 Espace EDR pour SIR rgularise Espace EDR pour SIR projete 32. Sminaire SMASH 8 octobre 2004 SIRSIR--NNNN O lon reparle de rseau de neurones 33. X SIR {< X,aj N >} (Projection des donnes sur lespace EDR estim) Perceptron multi-couches Y Sminaire SMASH 8 octobre 2004 SIR-NN : Le principe 34. Thorme : (Consistance) Sous les hypothses du thorme prcdent et un certain nombre dhypothses techniques (qui sont, par exemple, vrifies par un perceptron avec comme fonction de transfert sur la couche cache la fonction sigmode et comme fonction derreur, lerreur quadratique moyenne), les poids permettant dobtenir lerreur empirique minimum convergent en probabilit vers les poids thoriques optimaux lorsque le nombre dobservations tend vers +. Sminaire SMASH 8 octobre 2004 Ferr, Villa (2004) 35. Avantages Le jeu de donnes est simplifi ; La base de projection dpend des donnes (procdure automatique de dtermination) ; La base de projection tient compte de la cible : cest la projection optimale des donnes pour le problme de discrimination ; Un rsultat de convergence est dmontr pour lestimation de la base (FIR) et pour lestimation des poids du rseau. Sminaire SMASH 8 octobre 2004 36. Simulations et exemples 1) Donnes de phonmes Sminaire SMASH 8 octobre 2004 Mthodes compares : SIR rgularise + NN SIR rgularise + Noyau SIR projete + NN Ridge-PDA (Hastie, Buja, Tibschirani) NPCD PCA (Ferraty, Vieu) Protocole exprimental : Idem. 37. SIRr-NN SIR-Noyau SIRp-NN R-PDA NPCD-PCA 0.07 0.075 0.08 0.085 0.09 0.095 0.1 0.105 0.11 Sminaire SMASH 8 octobre 2004 38. 2) Donnes de spectromtrie Sminaire SMASH 8 octobre 2004 Mthodes compares : SIR rgularise + NN SIR pseudo-inverse + NN ACP + NN ( Thodberg) NNf (Rossi, mthode projection sur Spline) SIR + Linaire Protocole exprimental : Idem. 39. Sminaire SMASH 8 octobre 2004 ACP-NN NNf SIR-NNr SIR-NNn SIR-l 40. Sminaire SMASH 8 octobre 2004 Merci de votre attentionMerci de votre attention