Post on 08-Aug-2020
Statistique pour données fonctionnelles.Chapitre 1. Introduction
Gaëlle ChagnyCNRS, Labo. de Maths. R. Salem, Univ. Rouen,
Université Paris Dauphine – Executive Master Statistique et Big data, 2020
1 / 24
Plan
Introduction et exemples
Modélisation mathématique
Historiques - références
Suite du cours
2 / 24
Introduction et exemples
Plan
Introduction et exemples
Modélisation mathématique
Historiques - références
Suite du cours
3 / 24
Introduction et exemples
But du cours
• Cadre de la statistique “classique” : observations = réalisations de variablesaléatoires réelles ou vecteurs aléatoires.
• Cadre du cours : observations = réalisations de fonctions aléatoires (courbesaléatoires, images)• données de dimension infinie,• données de plus en plus fréquentes,• données apparaissant dans de nombreux domaines : biologie, climatologie, chimie,
économétrie.
• Utilisation du package fda de R, et des jeux de données associés.(Ramsay et Silverman)
4 / 24
Introduction et exemples
Exemples (1) - Données longitudinales
−→ données concernant un même phénomène mesuré quantitativement à différents tempsde mesure.
Données CanadianWeather du package fda
Temp
eratur
e moy
enne
(deg
C)
−30
−20
−10
0
10
20
j F m A M J J A S O N D
11
1
1
1
1
1 1
1
1
1
1
22
2
2
2
2
22
2
2
2
2
3
3
3
3
3
3
33
3
3
3
3
4 4
4
4
4
4
4
4
4
4
4
4
Pr. Rupert
Montreal
Edmonton
Resolute
0 100 200 300
−1.0
−0.5
0.00.5
1.0
Précipitations au Canada
Jours (du 1er juillet au 30 juin)
log en
base
10 de
s préc
ipitat
ions
St Johns
London
Regina
Courbes de température. Courbes de précipitation.
5 / 24
Introduction et exemples
Exemples (2) - Données longitudinales
Données du CEA
0 1000 2000 3000 4000 5000
05
01
00
15
02
00
25
03
00
time
tem
pe
ratu
re
Simulations de l’évolution de la température dans un réacteur nucléaire lors d’un accidentde type perte de réfrigérant primaire.
6 / 24
Introduction et exemples
Exemples (3) - Données longitudinales
Données growth du package fda
5 10 15
8010
012
014
016
018
0
Courbes de croissance
Age (annees)
Taille
(cm)
Courbes de croissance de 10 filles, de 1 à 18 ans.
7 / 24
Introduction et exemples
Exemples (4) - Données longitudinales
Données pinch du package fda (biomécanique)
0.00 0.05 0.10 0.15 0.20 0.25 0.30
24
68
1012
Données de force du groupe Pouce−Index
Temps (sec.)
Force
(New
ton)
20 enregistrements de l’évolution au cours d’une manipulation de la force exercée entre lepouce et l’index d’un sujet .
8 / 24
Introduction et exemples
Exemples (5) - Autres données
Données spectrométriques (chimie) : absorbance de la lumière en fonction de la longueurd’onde dans un matériau.
850 900 950 1000 1050
2.02.5
3.03.5
4.04.5
5.05.5
Donnees spectrometriques
longueur d onde (nm)
absorb
ance
Trajectoires observées d’un spectre d’absorbance de 100 canaux mesurés parspectrophotomètre dans des échantillons de viande.https://www.math.univ-toulouse.fr/ ferraty/SOFTWARES/NPFDA/npfda-datasets.html
9 / 24
Introduction et exemples
Exemples (6) - Autres données
Données fonctionnelles bivariées (images)
Données handwrit du package fda
−0.04 −0.03 −0.02 −0.01 0.00 0.01 0.02 0.03
−0.04
−0.02
0.00
0.02
0.04
Echantillons d écriture à la main
x
y
0 500 1000 1500 2000
−0.04
−0.03
−0.02
−0.01
0.00
0.01
0.02
0.03
Representation d une des coordonnees
Temps (ms.)
Absc
isse d
ecritu
re
20 tracés courbes d’évolution des(unité de l’axe des abscisses : cm.) abscisses au cours du temps (20 courbes)
10 / 24
Introduction et exemples
Exemples (7) - Autres données
Cas d’une seule réalisation d’une courbe aléatoire.
Données refinery du package fda
0 50 100 150 200
01
23
4
Donnees de production du niveau 47 de la raffinerie
Temps (min.)
Quan
tité de
petro
le pro
duit
0 50 100 150 200
−0.5
−0.4
−0.3
−0.2
−0.1
0.00.1
Temps (min.)
Flux d
e vap
eur a
u nive
au 47
quantité de pétrole produit flux de vapeurà un certain niveau de la colonne de distillation dans cette même colonne
en fonction du temps en fonction du temps
11 / 24
Introduction et exemples
Exemples (8) - Autres données
Cas d’une seule réalisation d’une courbe aléatoire.
Données melanoma du package fda
1935 1940 1945 1950 1955 1960 1965 1970
12
34
Taux d incidence du melanome
Temps (années)
Taux
Évolution du taux d’incidence du mélanome dans un échantillon de la population desÉtats-Unis. 12 / 24
Modélisation mathématique
Plan
Introduction et exemples
Modélisation mathématique
Historiques - références
Suite du cours
13 / 24
Modélisation mathématique
Définition des données fonctionnelles• (Ω,A,P) espace probabilisé (Ω ensemble, A tribu sur cet ensemble, et P mesure de
probabilité sur A),• F espace de fonctions (espace de Banach séparable).
Définition
• Variable aléatoire fonctionnelle : variable aléatoire qui prend ses valeurs dans unespace vectoriel de dimension infinie,
X : Ω → F .
• Donnée fonctionnelle : une réalisation d’une variable fonctionnelle X.
Exemple. Si F ⊂ f : T → R, X : Ω × T → R,• ∀ω ∈ Ω fixé, X(ω, ·) : T → R trajectoire de X (fonction déterministe),• ∀t ∈ T fixé, X(·, t) : Ω → R variable aléatoire réelle.
• Cas particuliers.• T ⊂ R −→ courbes aléatoires,• T ⊂ R2 −→ surfaces aléatoires.
14 / 24
Modélisation mathématique
Données fonctionnelles - Observations
• Cas 1. Observation d’une fonction aléatoire unique X
X : Ω × T → R,
• Cas 2. Observation d’un échantillon de fonctions aléatoires X1, . . . ,Xn
Xi : Ω × T → R, i ∈ 1, . . . , n
Dans ce cours : (Xi)i∈1,...,n i.i.d..
• Conventions usuelles :• omission des indices ω et t ;• identification des variables aléatoires et de leurs réalisations.
15 / 24
Modélisation mathématique
Données fonctionnelles - Observations
Xi : Ω × T → R, i ∈ 1, . . . , n
• Observation de toute une trajectoire impossible : Xi(t), t ∈ T jamais entièrementobservé.
• Observations discrétisées : accès à n vecteurs
(Xi(ti,1), . . . ,Xi(ti,p)), i ∈ 1, . . . , n
avec ti,1, . . . , ti,p ⊂ T grilles de discrétisation.
−→ présentation des données sous forme vectorielle.
Question. Pourquoi ne pas les voir comme des réalisations de vecteurs aléatoires etappliquer les outils classiques de stat. multivariée?
−→ différence d’approche...
16 / 24
Modélisation mathématique
Avantages de l’approche fonctionnelle (1)
• Prise en compte de la structure intrinsèque des données.• corrélation importante entre 2 observations rapprochées d’un même phénomène continu
(X(tj) et X(tj+1) nécessairement liés).−→ prise en compte de la régularité des phénomènes continus, des aspects géométriques−→ approche fonctionnelle permet de supposer les fonctions “lisses” (régulières) et deconsidérer des opérations comme la dérivation (étude de la vitesse et de l’accélération duphénomène en plus du phénomène lui-même)
• intégration d’informations a priori sur les courbes (périodicité...).
• Prise en compte de grilles d’enregistrement possiblement différentes.atténuation des effets de la non-correspondance des instants d’observation (utilisationd’approximations continues).
• Prise en compte des problématiques liées à la grande dimension. p taille de lagrille et n taille de l’échantillon.
p >> n.
−→ “malédiction de la dimension” (curse of dimensionality).
17 / 24
Modélisation mathématique
Avantages de l’approche fonctionnelle (2)
Exemple. Données growth du package fda
Modélisation. ∀i ∈ 1, . . . , 10, Xi(tj) = taille de l’individu i à l’instant de mesure tj , pourtj ∈ 1, 1.25, 1.5, 1.75, 2, 3, 4, . . . , 8, 8.5, 9, 9.5, . . . , 18.
5 10 15
8010
012
014
016
018
0
Courbes de croissance
Age (annees)
Taille
(cm)
5 10 15
−4−3
−2−1
01
2
Acceleration pour les courbes de croissance
Age (années)
Accc
elerat
ion
Courbes Xi Accélération X ′′i (cm/an2)
18 / 24
Modélisation mathématique
Avantages de l’approche fonctionnelle (2)
• Approche fonctionnelle vs. approche multivariée
−→ 2 façons de voir des données possiblement similaires
• Cas où l’approche fonctionnelle donne des résultats supérieurs à l’approcheclassique
• données observées représentant un phénomène régulier (croissance, évolution destempératures, etc... ),
• données observées à un bruit près, donc pouvant paraitre irrégulières, mais représentantun phénomène supposé régulier (précipitations...).
19 / 24
Historiques - références
Plan
Introduction et exemples
Modélisation mathématique
Historiques - références
Suite du cours
20 / 24
Historiques - références
Quelques éléments d’historique
• Apparition des données fonctionnelles.probablement en chimie, biologie.
• Premières études mathématiques• Deville (1974)• Dauxois et Pousse (1976), Dauxois, Pousse et Romain (1982)• Besse et Ramsay (1986)
• Popularisation et développement de l’analyse de données fonctionnelles.• Communauté scientifique américaine : Ramsay et Silverman... (1999, 2002, 2005, 2009...)• Communauté française : Cardot, Ferraty, Romain, Sarda, Vieu, Mas... (1999, 2002, 2006...)• Communauté espagnole : Goia, Gonzalez-Manteiga, Valderrama... (2007, 2016...)
−→ développement de versions “fonctionnelles” pour les outils statistiques classiques (ACP,modèle linéaire, stat. non-paramétrique,...).
21 / 24
Historiques - références
Quelques références
• Ramsay J.O. et Silverman B.W.• Functional Data Analysis• Applied Functional Data Analysis• Functional Data Analysis with R and Matlab
• Ferraty, F. et Vieu, P.• Richesse et complexité des données fonctionnelles• Functional nonparametric statistics
• Ferraty, F. et Romain, Y.• The Oxford Handbook of Functional Data Analysis
22 / 24
Suite du cours
Plan
Introduction et exemples
Modélisation mathématique
Historiques - références
Suite du cours
23 / 24
Suite du cours
Plan
• Chapitre 2. Bases mathématiques (probabilité et analyse fonctionnelle)
• Chapitre 3. Des données fonctionnelles aux fonctions lisses
• Chapitre 4. Statistique descriptive et exploratoire pour données fonctionnelles
• Chapitre 5. Modélisation pour données fonctionnelles (régression)
24 / 24
Suite du cours
Plan
• Chapitre 2. Bases mathématiques (probabilité et analyse fonctionnelle)
• Chapitre 3. Des données fonctionnelles aux fonctions lisses
• Chapitre 4. Statistique descriptive et exploratoire pour données fonctionnelles
• Chapitre 5. Modélisation pour données fonctionnelles (régression)
24 / 24