Analyse canonique généralisée (ACG) partielle d'un flux de...

39
Sommaire Présentation Outil mathématique : l’approximation stochastique (a.s.) Mise en oeuvre Cas où l’espérance varie dans le temps Conclusion Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps Bar Romain, Jean-Marie Monnez Université de Lorraine, IECL, INRIA: projet BIGS Dijon, Séminaire SPAN, Octobre 2012 Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variab

Transcript of Analyse canonique généralisée (ACG) partielle d'un flux de...

Page 1: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Analyse canonique généralisée (ACG) partielle d’unflux de données d’espérance variable dans le temps

Bar Romain, Jean-Marie Monnez

Université de Lorraine, IECL, INRIA: projet BIGS

Dijon, Séminaire SPAN, Octobre 2012

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 2: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Sommaire

1 Sommaire2 Présentation

Avant-proposl’ACGProblématiqueChoix de la méthode

3 Outil mathématique : l’approximation stochastique (a.s.)Théorème et exempleA.S de vecteurs directeurs des axes principaux

4 Mise en oeuvrePrincipeRésultats

5 Cas où l’espérance varie dans le tempsModèle généralCas particulierSimulations

6 Conclusion

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 3: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

1 Sommaire2 Présentation

Avant-proposl’ACGProblématiqueChoix de la méthode

3 Outil mathématique : l’approximation stochastique (a.s.)Théorème et exempleA.S de vecteurs directeurs des axes principaux

4 Mise en oeuvrePrincipeRésultats

5 Cas où l’espérance varie dans le tempsModèle généralCas particulierSimulations

6 Conclusion

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 4: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

Sommaire

1 Sommaire2 Présentation

Avant-proposl’ACGProblématiqueChoix de la méthode

3 Outil mathématique : l’approximation stochastique (a.s.)Théorème et exempleA.S de vecteurs directeurs des axes principaux

4 Mise en oeuvrePrincipeRésultats

5 Cas où l’espérance varie dans le tempsModèle généralCas particulierSimulations

6 Conclusion

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 5: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

Avant-propos

Contexte actuel :

I flux de données =⇒ exploitation incomplète des données

I données de grande dimension =⇒ calculs considérablement ralentis

C’est au carrefour de ces deux nouvelles problématiques que vient sepositionner notre étude.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 6: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

l’ACG

1 - L’analyse canonique :

Le contexte dans lequel on utilise cette méthode est le suivant :

On observe sur N individus non seulement R caractères quantitatifs, mais enplus, S autres caractères également quantitatifs.

Les premiers sont considérés comme explicatifs les autres comme étantà expliquer par les premiers (dans ce sens l’analyse canonique généralise lanotion de régression).

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 7: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

2 - Exemple d’application :

• variables explicatives : différents indices donnant l’état d’une commune(nombre d’habitants, nombre de bureaux, longueur des voies rapides,...)

• variables à expliquer : différents taux de pollution (taux de SO2, nombrede malades chroniques des voies respiratoires,...)

3 - L’ACG généralise l’AC dans le sens où on observe q groupes decaractères quantitatifs (q≥ 2).

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 8: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

Problématique

On suppose d’abord que des vecteurs de données pouvant être de grandedimension et arrivant séquentiellement dans le temps sous la forme d’unflux, sont des observations i.i.d. d’un vecteur aléatoire.

On propose alors une méthode d’estimation en ligne de vecteurs directeursdes r premiers axes principaux de l’ACG de ce vecteur aléatoire.

Remarques :

I L’étude peut être prolongée au cas où l’espérance et/ou la matrice decovariance des observations varie dans le temps.

I La méthode peut être appliquée dans le cas où l’on dispose d’un grandtableau de données (fixe) à analyser (cadre déterministe).

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 9: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

I On peut aussi estimer en ligne les valeurs propres, les facteurs, lescorrélations entre variables et facteurs,...

Principe :

On modélise l’arrivée des données par les réalisations indépendantes(z1,z2, ...,zn, ...) successives d’un vecteur aléatoire Z de (Rp) dont lescomposantes sont divisées en q groupes de variables aléatoires

(Z k1, ...,Z k mk ),k = 1, ...,q avecq∑

k=1mk = p.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 10: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

On considère alors le problème suivant :

Pour l = 1, ..., r , on cherche :

une combinaison linéaire des composantes centrées de Z ,Ul = (θl )

′(Z −E[Z ]), de variance 1 et non corrélée avec lesprécédentes

pour k = 1, ...,q, une combinaison linéaire des composantes centréesde Z k , V k

l = (ηkl )′(Z k −E[Z k ]), de variance 1

telles queq∑

k=1ρ2(Ul ,V k

l ) soit maximal.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 11: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

En notant C et Ck les matrices de covariance de Z et Z k respectivement,on définit :

M =

(C1)−1

..

.(Cq)−1

.

θl , appelé l ième facteur général, est vecteur propre de la matrice MC associéà la l ième plus grande valeur propre.

On peut interpréter ce résultat de la façon suivante : θl est le l ième facteur del’ACP de Z dans Rp muni de la métrique M.

Dans la suite, on cherche à estimer vl = M−1θl , vecteur directeur du l ième

axe principal de cette ACP, vecteur propre de B = CM.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 12: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

Choix de la méthode

Ainsi, au temps n, lorsqu’on prend en compte une nouvelle donnée, on peut,par des méthodes classiques, mettre à jour les matrices empiriques Mn et Cn

puis calculer vln vecteur propre de Bn = MnCn, estimation de vl .

De manière alternative, l’approximation stochastique fournit une nouvelleestimation actualisée, au temps n, des vecteurs vl .

La méthode à privilégier est celle qui réalisera le meileur compromis entrerapidité et précision.

En terme de rapidité de calcul, l’a.s. est de loin la meilleure méthode,d’autant plus, d’ailleurs, que la dimension est élevée.

En revanche, l’a.s. utilise davantage de données que les méthodesclassiques pour arriver à la même précision.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 13: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

Dans les faits, on remarque que le temps de traitement d’une donnée peutêtre bien supérieur à la période séparant l’arrivée de deux donnéessuccessives.

Ainsi, en considérant une seule donnée à chaque étape, l’analyse prendradu retard par rapport au nombre de données observées (éventuellementstockées), et jamais on ne rattrapera ce retard si le flux est ”infini“.

=⇒ nombreuses données inexploitées et donc perte d’information.

En outre,Dimension↗ =⇒ Temps de traitement↗

=⇒ le phénomène est encore accru.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 14: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Avant-proposl’ACGProblématiqueChoix de la méthode

Une solution envisagée est la prise en compte à chaque étape de plusieursdonnées à la fois (on parlera de bloc de données), permettant de rattraper,au moins partiellement, le retard accumulé (i.e. toutes les nouvelles donnéesstockées) depuis la dernière analyse.

Remarque :

Cette analyse par blocs peut également être utile dans le cas où les donnéessont transmises par blocs (images satellites,...)

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 15: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

Sommaire

1 Sommaire2 Présentation

Avant-proposl’ACGProblématiqueChoix de la méthode

3 Outil mathématique : l’approximation stochastique (a.s.)Théorème et exempleA.S de vecteurs directeurs des axes principaux

4 Mise en oeuvrePrincipeRésultats

5 Cas où l’espérance varie dans le tempsModèle généralCas particulierSimulations

6 Conclusion

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 16: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

Un théorème bien utile...

Théorème de Robbins-Monro/Gladyshev :

Soit Y (x) un vecteur aléatoire dans Rk de loi inconnue mais observable pourtout x dans Rk .Le problème est alors d’estimer x∗, unique solution de E[Y (x)] = M(x) = 0.

On définit alors le processus (Xn) tel que : Xn+1 = Xn−anYn où Yn est uneobservation de Y (Xn).

Alors, sous certaines hypothèses, Xn→ x∗ p.s. et dans L2

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 17: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

Exemple

On cherche à estimer E[Y ] = x où Y est une v.a. de loi inconnue maisobservable.

E[Y ] est solution de x−E[Y ] = 0,

l’algorithme s’écrit alors : Xn+1 = Xn−an(Xn−Yn).

Sous des hypothèses raisonnables, Xn→ x p.s et dans L2.

En particulier, si an = 1n , Xn+1 = Y1+...+Yn

n et on retrouve la loi forte desgrands nombres (on a la convergence en moyenne quadratique en prime).

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 18: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

A.S de vecteurs directeurs des axes principaux

On suppose qu’au temps n, on dispose d’un bloc de rn nouvelles

observations i.i.d de Z , zRn−1+1, . . . ,zRn , avec Rn =n∑

j=1rj et sup

jrj < ∞.

On note In = {Rn−1 + 1, . . . ,Rn}.

Pour définir le processus d’approximation stochastique, on utilise au temps nun estimateur convergent Mn de M, obtenu à partir des observationsZ1, . . . ,ZRn−1 .

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 19: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

Soit le vecteur aléatoire Z k1 de dimension mk + 1, obtenu en ajoutant au

vecteur Z k une dernière composante égale à 1.

Soit J la matrice (mk + 1,mk ) obtenue en ajoutant à la matrice-identitéd’ordre mk une dernière ligne de zéros.

On établit que la matrice (mk + 1,mk ) : X k =

((Ck )−1

−(E[Z k ])′(Ck )−1

)

est solution des équations en X :

E[Z k1 (Z k

1 )′X − J] = 0 et E[( 1rn ∑

l∈InZ k

1l (Z k1l )′)X − J] = 0.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 20: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

On définit alors récursivement le processus (Mk1n) d’approximation

stochastique de X k , de type Robbins-Monro :

Mk1,n+1 = Mk

1n−an((1rn

∑l∈In

Z k1l (Z k

1l )′)Mk

1n− J),

an > 0,∞

∑1

an = ∞,∞

∑1

(an)2 < ∞.

Soit Mkn la matrice obtenue à partir de Mk

1n en enlevant la dernière ligne ; ondéfinit comme estimateur de M au pas n la matrice diagonale par blocs Mn

qui a pour k ième bloc diagonal Mkn .

Remarque : dans le cas où chaque bloc est formé d’une seule observation,on peut utiliser des formules récursives exactes pour estimer M.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 21: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

Soit x1 le vecteur propre de B associé à la plus grande valeur propre λ1.

Alors, x1 = argmaxx

<Bx ,x>M<x ,x>M

= argmaxx

F(x) et <Bx1,x1>M<x1,x1>M

= λ1

On écrit alors que le gradient s’annule en x1, on simplifie et on trouve :

(B−F(x1)I)x1 = 0

On peut alors définir un processus de gradient stochastique d’estimation dex1, ou plus généralement un processus d’a.s. de x1, en remarquant queE[(B−F(x1)I)x1] = 0 :

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 22: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

En suivant Bouamaine et Monnez (1998), on définit alors le processusd’approximation stochastique (gradient stochastique) (Xn) = ((X 1

n , . . . ,X rn))

de (v1, . . . ,vr ) :

Bn = ( 1rn ∑

l∈InZlZ ′l −Z Rn Z ′Rn

)Mn,

Fn(X ln) =

<BnX ln,X l

n>Mn||X l

n||2Mn,

Y ln+1 = X l

n + an(Bn−Fn(X ln)I)X l

n, l = 1, . . . , r ,Xn+1 = orthMn (Yn+1).

Théorème :

Avec un choix adéquat du pas an, pour l = 1, . . . , r , X ln converge p.s. vers vl ,

vecteur directeur du lième axe principal de l’ACG.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 23: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Théorème et exempleA.S de vecteurs directeurs des axes principaux

Remarque :

On peut aussi utiliser au temps n toutes les observations faites jusqu’à cepas inclus en prenant Bn = CnMn avec :

Cn = 1n

n∑

i=1ZiZ ′i −Z nZ ′n

Mn le processus d’a.s. tel que Mkn+1 = Mk

n −an(Ckn Mk

n − I)

où Ckn = 1

n

n∑

i=1Z k

i (Z ki )′−Z k

n(Z kn)′ est la matrice de covariance empirique

d’ordre n du k-ième groupe.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 24: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

PrincipeRésultats

Sommaire

1 Sommaire2 Présentation

Avant-proposl’ACGProblématiqueChoix de la méthode

3 Outil mathématique : l’approximation stochastique (a.s.)Théorème et exempleA.S de vecteurs directeurs des axes principaux

4 Mise en oeuvrePrincipeRésultats

5 Cas où l’espérance varie dans le tempsModèle généralCas particulierSimulations

6 Conclusion

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 25: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

PrincipeRésultats

Principe

On considère que des données (resp. bloc de données) arrivent avec unecertaine fréquence (constante ou variable) et que l’on peut stocker cesdonnées dans une certaine limite (espace mémoire fini).

1) On fixe les paramètres du programme en choisissant la règle d’arrêt del’algorithme , la dimension du vecteur Z dont on observe des réalisations, lenombre r de vecteurs à estimer et la taille maximale de l’espace mémoire.

2) Initialisation : on prend en compte un ”petit“ nombre d’observations afin decalculer une première estimation de la matrice de covariance C, C0, de lamétrique M, M0, et de vecteurs directeurs v1, . . . ,v r des axes principaux,v1

0 , . . . ,v r0.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 26: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

PrincipeRésultats

3) Mise à jour au pas n (3 programmes) :

Dans les deux premiers programmes, on introduit UN vecteur d’observationspuis on met à jour la matrice de covariance empirique Cn et la métriqueempirique Mn à l’aide de formules récursives exactes.

Ensuite,

I Dans le 1er programme, on calcule grâce à une méthode directe(tridiagonalisation + QR) les r premiers vecteurs propres de la matriceCnMn, estimations des vl .

I Dans le 2ème, on calcule grâce à un algorithme de type Lanczos cesmêmes vecteurs propres.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 27: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

PrincipeRésultats

Dans le 3ème programme, on introduit TOUS les vecteurs d’observationsdepuis le pas précédent et on utilise le processus défini dans la deuxièmepartie (en utilisant toutes les observations faites jusqu’au pas n) pour obtenir,pour l = 1, . . . , r , une estimation de vl .

4) Pour un même temps d’exécution, on compare alors la précision des troisméthodes via la valeur du cosinus de l’angle formé par les vecteurs estimé etthéorique, en fonction du temps.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 28: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

PrincipeRésultats

Résultats

Axes : 3Dimension : 190Durée : 800 s

FIG.: Précision des 3 méthodes en fonction du temps

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 29: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

PrincipeRésultats

1er vecteur directeur :cos1 = 0.966angle1 = 15°cos2 = 0.942angle2 = 19.6°cos3 = 0.986angle3 = 9.6°

2ème vecteur directeur :cos1 = 0.907angle1 = 24.9 °cos2 = 0.87angle2 = 29.5°cos3 = 0.986angle3 = 9.6°

3ème vecteur directeur :cos1 = 0.926angle1 = 22.2°cos2 = 0.83angle2 = 33.9°cos3 = 0.975angle3 = 12.8°

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 30: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Modèle généralCas particulierSimulations

Sommaire

1 Sommaire2 Présentation

Avant-proposl’ACGProblématiqueChoix de la méthode

3 Outil mathématique : l’approximation stochastique (a.s.)Théorème et exempleA.S de vecteurs directeurs des axes principaux

4 Mise en oeuvrePrincipeRésultats

5 Cas où l’espérance varie dans le tempsModèle généralCas particulierSimulations

6 Conclusion

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 31: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Modèle généralCas particulierSimulations

Modèle général

pour tout n, on observe zn, réalisation d’un vecteur aléatoire Zn dansRp, d’espérance mathématique θn variable dans le temps ;

les vecteurs aléatoires Zn sont mutuellement indépendants ;

les vecteurs aléatoires Z̃n = Zn−θn constituent un échantillon i.i.d d’unvecteur aléatoire Z̃ d’espérance nulle et de matrice de covariance nedépendant pas de n ;

le vecteur aléatoire Z̃ est partitionné en sous-vecteurs Z̃ 1, . . . , Z̃ q ; pourk = 1, . . . ,q, Z̃ k est un vecteur aléatoire dans Rmk , de composantesZ̃ k1, . . . , Z̃ kmk ; on a m1 + · · ·+ mq = p.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 32: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Modèle généralCas particulierSimulations

On suppose qu’au temps n, on dispose d’un bloc de rn nouvellesobservations zRn−1+1, . . . ,zRn et d’estimateurs (ΘRn−1+1, . . . ,ΘRn ) de(θRn−1+1, . . . ,θRn ).

On note In = {Rn−1 + 1, . . . ,Rn}.

On définit ensuite le processus d’approximation stochastique de (Ck )−1,(Mk

n ), par : Mkn+1 = Mk

n −a1n (( 1rn ∑

i∈In(Z k

i −Θki )(Z k

i )′)Mkn − I)

L’estimateur de M au pas n sera la matrice diagonale par blocs Mn qui a pourkième bloc diagonal Mk

n .

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 33: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Modèle généralCas particulierSimulations

Enfin, on définit récursivement un processus d’approximation stochastique(Xn) = ((X 1

n , . . . ,X rn)) de (v1, . . . ,vr ) par :

Bn = ( 1rn ∑

i∈In(Zi −Θi )Z ′i )Mn,

Fn(X ln) =

<BnX ln,X l

n>Mn||X l

n||2Mn,

Y ln+1 = X l

n + a2n (Bn−Fn(X ln)I)X l

n, l = 1, . . . , r ,Xn+1 = orthMn (Yn+1).

Sous les conditions adéquates, on établit la convergence presque sûre de(Xn).

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 34: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Modèle généralCas particulierSimulations

Remarques :

I Comme dans le cas où l’espérance est fixe, on peut aussi utiliser autemps n toutes les observations faites jusqu’à ce pas inclus.

I Différences et similitudes par rapport aux processus définis dans le casoù l’espérance est fixe.

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 35: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Modèle généralCas particulierSimulations

Cas particulier d’un modèle linéaire de variation del’espérance

Pour i = 1, . . . ,p, on suppose qu’il existe un vecteur βi inconnu de Rni et,pour tout n, un vecteur U i

n de Rni connu au temps n tels que la ième

composante réelle de θn, θin, soit égale à < βi ,U i

n >.

Si l’on note Z in, resp. R i

n, la ime composante de Zn, resp.Z̃n, on a alors lemodèle de régression linéaire :

Z in = 〈βi ,U

in〉+ Z̃ i

n pour i = 1, . . . ,p.

On définit le proc. d’a.s. (Bin) de βi tq : Bi

n+1 = Bin−anU i

n((U in)′Bi

n−Z in).

On définit aussi Θin =< Bi

n,Uin >, Θn = (Θ1

n, . . . ,Θpn)′ que l’on introduit dans

la définition des processus d’approximation stochastique des vecteurs vl .

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 36: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Modèle généralCas particulierSimulations

Simulations

Pour simplifier, on choisit : ∀i,ni = 1 ce qui signifie que les βi et les U in sont

unidimensionnels :

Pour i = 5 :

β1 = 1β2 = 0.5β3 = 5β4 = 3.14β5 = 4

U1n = 2

U2n = cos(n ∗pi/16)

U3n = 1 + exp(−n/1000)

U4n = rnorm(1,1,1)

U5n = runif (1,min = 0,max = 1)

θin = βi ∗U i

n

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 37: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Modèle généralCas particulierSimulations

Résultats

FIG.: Estimation des βi

FIG.: Estimation des θin

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 38: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Sommaire

1 Sommaire2 Présentation

Avant-proposl’ACGProblématiqueChoix de la méthode

3 Outil mathématique : l’approximation stochastique (a.s.)Théorème et exempleA.S de vecteurs directeurs des axes principaux

4 Mise en oeuvrePrincipeRésultats

5 Cas où l’espérance varie dans le tempsModèle généralCas particulierSimulations

6 Conclusion

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps

Page 39: Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Conclusion

On remarque que dans le cas d’un flux de données de grande dimension,l’outil d’approximation stochastique s’avère très efficace pour mettre enoeuvre des méthodes d’analyse de données dans le cas i.i.d.

On a étendu cette étude au cas où l’espérance des observations varie dansle temps.

Un travail en cours s’intéresse au cas où la matrice de covariance desobservations varie aussi dans le temps.

Merci pour votre attention

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps