Thse
pour obtenir le grade de
Docteur de l'Universit de Grenoble
Spcialit Statistique
Arrt ministriel : 7 aot 2006
Prsente et soutenue publiquement par
Fethi Madani
le (//2012)
Aspects thoriques et pratiques dans l'estimation
non paramtrique de la densit conditionnelle
pour des donnes fonctionnelles
JURY
Jacques Demongeot Univ. Joseph Fourier, Grenoble Prsident
Pascal Sarda Universit Le Mirail, Toulouse Rapporteur
Elias Ould-Sad Univ. du Littoral Cte d'Opale, France Rapporteur
Mustapha Rachdi Univ. P. Mends France, Grenoble Directeur de thse
Ali Laksaci Univ. D. Liabs Sidi Bel Abbs, Algrie Examinateur
Idir Ouassou ENSA, Marrakech, Maroc Examinateur
Sophie Lambert-Lacroix Univ. P. Mends France, Grenoble Examinateur
Thse prpare au sein du laboratoire AGe Imagerie et Modlisation (AGIM) dans l'cole
Doctorale Mathmatiques, Sciences et Technologies de l'Information, Informatique.
2
Table des matires
Table des matires 3
0.1 Description et Contribution de cette thse . . . . . . . . . . . . . . . . . . . . 9
0.2 Contexte bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1 Introduction aux donnes fonctionnelles et l'estimation de la densit
conditionnelle 15
1.1 Donnes fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Donnes fonctionnelles vs semi-mtrique . . . . . . . . . . . . . . . . . . . . . 18
1.2.1 Probabilits des petites boules . . . . . . . . . . . . . . . . . . . . . . 21
1.2.2 Champs d'application des donnes fonctionnelles . . . . . . . . . . . . 22
1.3 Quelques rsultats sur l'estimation non-paramtrique pour des modles fonc-
tionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.1 Notations et hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.2 Estimation de la loi conditionnelle . . . . . . . . . . . . . . . . . . . . 29
1.3.3 Estimateur noyau de la densit conditionnelle . . . . . . . . . . . . . 30
1.3.4 Estimation du mode conditionnel . . . . . . . . . . . . . . . . . . . . . 31
2 Kernel conditional density estimation when the regressor is valued in a
semi-metric space 35
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Global and local bandwidth selection rules . . . . . . . . . . . . . . . . . . . . 38
2.3 Main Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.1 Assumptions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.2 Some interpretations and examples on our hypotheses . . . . . . . . . 41
2.3.3 Two theorems on global and local criteria . . . . . . . . . . . . . . . . 43
2.4 Discussion and applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.1 On the applicability of the method . . . . . . . . . . . . . . . . . . . . 44
2.4.2 On the nite-sample performance of the method . . . . . . . . . . . . 47
2.4.3 A real data application . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.5 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.6 Appendix : Proofs of technical lemmas . . . . . . . . . . . . . . . . . . . . . . 56
3
4Bibliography 62
3 Functional data : Local linear estimation of the conditional density and
its application 67
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3 Pointwise almost complete convergence . . . . . . . . . . . . . . . . . . . . . . 69
3.4 Uniform almost complete convergence . . . . . . . . . . . . . . . . . . . . . . 71
3.5 Application : Conditional mode estimation . . . . . . . . . . . . . . . . . . . . 73
3.6 Appendix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Bibliography 85
4 A fast functional locally modeled of the conditional density and mode in
functional time series 87
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2 Main results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.3 Concludes remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.4 Appendix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Bibliography 102
5 On the quadratic error of the functional local linear estimate of the condi-
tional density 107
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.2 The model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.3 Main results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.4 Some comments and discussion . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.5 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Bibliography 119
6 Estimation locale linaire des paramtres conditionnels pour des donnes
fonctionnelles : Application sur des donnes simules et relles 121
6.1 Illustration du mode conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.2 Illustration de la densit conditionnelle . . . . . . . . . . . . . . . . . . . . . . 126
6.3 Application sur des donnes relles . . . . . . . . . . . . . . . . . . . . . . . . 127
7 Conclusion et Perspectives 133
7.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8 Bibliographie gnrale 135
5Rsum
Dans cette thse, nous nous intressons l'estimation non paramtrique de la den-
sit conditionnelle d'une variable rponse relle conditionne par une variable explicative
fonctionnelle de dimension ventuellement nie.
Dans un premier temps, nous considrons l'estimation de ce modle par la mthode
double noyaux. Nous proposons une mthode de slection pour le choix du paramtre de
lissage (global ou local) des paramtres de lissage et nous montrons son optimalit asymp-
totique dans le cas o les observations sont indpendantes et identiquement distribues. Le
critre adopt est issu du principe de validations croises. Dans cette partie nous comparons
galement les deux types de choix (local et global).
Dans la deuxime partie, nous estimons la densit conditionnelle par la mthode des
polynmes locaux. Sous certaines conditions, nous tablissons des proprits asymptotiques
de cet estimateur tel la convergence presque complte et la convergence en moyenne quadra-
tique dans le cas o les observations sont indpendantes et identiquement distribues. Nous
traitons aussi le cas o les observations sont de type - mlangeantes, dont on montre laconvergence presque complte (avec vitesse) de l'estimateur propos. Les rsultats obtenus
sont galement illustrs par des exemples sur des donnes simules montrant l'applicabilit
rapide et facile de cette mthode d'estimation dans le cadre fonctionnel.
6Summary
In this thesis, we consider the problem of the nonparametric estimation of the conditional
density when the response variable is real and the regressor is valued in a functional space.
In the rst part, we use the double kernels method as a estimation method where we
focus on the choice of the smoothing parameters. We construct data a driven method to select
optimally bandwidths parameters. As main results, we study the asymptotic optimality
of this selection's method in the case where observations are independent and identically
distributed. Our selection rule is based on the classical cross-validation procedure and it
deals with the both (global or local ) choice. The nite sample performance of our approach
is illustrated by some simulation results where we give a comparison between the two types
of choice (local or global).
In the second part, we estimate the conditional density by the local linear method.
Under some general conditions, we establish the almost complete convergence of the proposed
estimator (with rate) in the both cases ( i.i.d. case and the -mixing case) . As application,we use the conditional density estimator to estimate the conditional mode estimation and
we derive the same asymptotic proprieties.
Further, we study the quadratic error of this estimator by giving the asymptotic ex-
pansion of the exact expression involved in the leading in the bias and variance terms.
7Liste des travaux
Publications dans des revues comits de lecture
1. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi. Local Linear estimation of the
conditional density for functional data. C. R., Math., Acad. Sci. Paris, 348, Issues
15-16, Pages 931-934, (2010).
2. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi. Functional data : local linear esti-
mation of the density and its application. Statistics, DOI : 10.1080/02331888.2011.568117
( paratre en 2012).
3. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi (2011). A fast functional locally
modeled conditional density and mode for functional time-series. Recent Advances in
Functional Data Analysis and Related Topics Contributions to Statistics, Physica-
Verlag/Springer, 2011, 85-90, DOI : 10.1007/978-3-7908-2736-1_13
4. A. Laksaci, F. Madani and M. Rachdi. Kernel conditional density estimation when the
regressor is valued in a semi-metric space. Accept pour publication dans : Communi-
cations Statistics-Theory and Methods, 2012.
Communications dans des congrs
1. Local bandwidth selection for kernel conditional density estimation when the regressor
is valued in a semi-metric space. Colloque international de Statistique des processus
et Applications, CISPA 2008, Constantine : 18-19 octobre 2008.
2. Local bandwidth selection for kernel conditional density estimation when the regressor
is valued in a semi-metric space. Journes de Statistique, Modlisation et Application
JSMA'08, Alger : 22-23-24 novembre 2008.
3. Some asymptotics for conditional parameters when the data are curves. International
Conference on Statistics, Theory and Practice, Sidi Bel-Abbs, 10-12 avril 2010.
8
Introduction gnrale
0.1 Description et Contribution de cette thse
La statistique non paramtrique connat un grand essor chez de nombreux auteurs et dans
dirents domaines. En eet, celle-ci possde un champ d'application trs large permettant,
ainsi, l'explication de certains phnomnes mal modliss jusqu' prsent, tels que les sries
chronologiques, et prdire les ralisations futures.
Il faut mentionner, par ailleurs, que les progrs atteints dans les procds de recueil de don-
nes ont permis d'orir la possibilit aux statisticiens de disposer de plus en plus souvent
d'observations de variables dites fonctionnelles, c'est--dire de courbes. Ces donnes sont
modlises comme tant des ralisations d'une variable alatoire prenant ses valeurs dans
un espace abstrait de dimension ventuellement nie. Dans cette thse, nous nous intres-
sons l'estimation non paramtrique de la densit conditionnelle et les paramtres qui en
dcoulent, comme le mode conditionnel, pour des variables alatoires fonctionnelles.
Dans le but de prsenter les travaux que nous avons ralis durant la ralisation de cette
thse, celle-ci est organis comme suit :
Le chapitre suivant, est un chapitre Introductif, qui prsente une tude bibliographique des
problmes lis l'analyse statistique des variables fonctionnelles ainsi qu' l'estimation non
paramtrique des paramtres conditionnels que ce soit dans le cadre de dimension nie ou
innie. Ensuite, dans le chapitre 1, nous abordons l'tat de l'art des variables fonctionnelles
et leurs champs d'application. De plus, an de rendre la lecture de cette thse simple, nous
exposons les rsultats obtenus, dans la littrature, concernant l'estimation de la densit et
du mode conditionnels, tout en fournissant et discutant les hypothses qui ont permis d'ob-
tenir ces rsultats.
Dans le chapitre 2, nous commenons par construire et tudier les proprits asymptotiques
de l'estimateur noyau de la densit conditionnelle quand la variable explicative est va-
leurs dans un espace norm. Ensuite, nous proposons deux critres (le premier global et
le second local) de choix automatique du paramtre de lissage an de rendre ecace notre
9
10 Chapitre 0. Introduction gnrale
estimation. Enn, nous tablissons les rsultats thoriques ainsi que pratiques d'optimalit
asymptotique du paramtre slectionn.
Une suite logique de ce chapitre veut que l'on amliore les rsultats obtenus. C'est pour-
quoi le chapitre 3 est consacr l'tude d'une mthode d'estimation non paramtrique de
la densit conditionnelle d'une variable scalaire Y sachant une variable fonctionnelle X i.e.,une variable valeurs dans un espace semi-mtrique. Cette mthode est base sur une esti-
mation par polynmes locaux. Une fois la construction de notre estimateur, l'image de ce
qui se fait en dimesnion nie, est acheve, nous nous sommes attel tablir sous certaines
conditions, les convergences ponctuelle et uniforme presques compltes ainsi que les vitesses
de convergence de cet estimateur. Nous avons utilis, ensuite, les rsultats obtenus an de
dterminer les proprits asymptotiques de l'estimateur local linaire du mode conditionnel.
Le chapitre 4 quant lui, est destin l'tude, sous certaines conditions de dpendance
faible (mlange fort), de la convergence forte de l'estimateur du chapitre prcdent, ainsi
qu' la prvision d'une srie temporelle par l'estimation du mode conditionnel.
Tandis que dans le chapitre 5, nous avons tabli les vitesses de convergence dans l'estima-
tion en moyenne quadratique de l'estimateur tudi dans les deux chapitres prcdents, le
chapitre 6 est consacr la mise en application de ces rsultats pour des donnes simules
puis pour des donnes relles.
Enn, dans le chapitre 7 nous exposons des perspectives de recherche permettant d'tendre
et parfois de gnraliser les rsultats de cette thse.
0.2 Contexte bibliographique
L'analyse statistique pour des variables fonctionnelles a pris une ampleur considrable ces
dernires annes. Ce domaine de recherche en statistique connat actuellement un grand
succs auprs de la commuaut des statisticiens. La preuve de cet intrt est la publication
de nombreuses publications scientiques sur ce sujet ainsi que les nombreuses applications
pratiques auquelles ces donnes s'y prtent. C'est le cas, notamment, lorsque l'on s'int-
resse aux techniques d'estimation quand les donnes sont fonctionnelles (cf. Kneip et Gasser
(1992), Ramsay et Li (1996), Rice et Silverman (1991)). Il existe, en fait, deux principales
raisons l'engouement suscit par le traitement statistique des variables fonctionnelles : (1)
cela permet d'utiliser et de dvelopper des outils thoriques performants, (2) cela ore un
norme potentiel en terme d'applications, notamment, en imagerie, en agro-alimentaire, en
reconnaissance de formes, en gophysique, en conomtrie, en environnement, : : :. De plus,cette thmatique de recherche couvre tous les domaines concerns par la comunaut de sta-
tisticiens : des plus appliqus aux plus thoriques sans prdominance de l'une sur l'autre.
D'abord, signalons les eorts considrables qui ont t dploys pour la gnralisation des
0.2. Contexte bibliographique 11
rsultats connus et tablis en dimension nie grce l'ouvrage de Ferraty et Vieu (2006).
Celui-ci est devenu une rfrence en statistique non-paramtrique pour des donnes fonc-
tionnelles. Notons que, l'analyse des donnes statistiques fait toujours intervenir le facteur
dimension dans le comportement asymptotique des estimateurs tablis. D'autant plus qu'il
est connu que les vitesses de convergence se dgradent au fur et mesure que la dimension
augmente. Rappelons ici que les mthodes bases sur la dicrtisation des donnes fonction-
nelles ont t adoptes pour adapter les rsultats de la statistique non-paramtrique au cas
de donnes multivaries.
Vu l'avance qu'a connu l'outil informatique dans la faon de rcolter les donnes, d'autres
alternatives sont devenues obligatoires an de surmonter cette dicult et d'tudier les don-
nes dans leurs propre dimensions.
D'ailleurs, le traitement des donnes en tant que courbes remonte aux annes soixantes
lorsque plusieurs tudes dans direntes disciplines se sont confrontes des observations
sous forme de trajectoires (cf. entre autres, Holmstrom (1961) en climatologie, Deville (1974)
en dmographie, Molenaar et Boomsma (1987) puis Kirkpatrick (1989) en gntique,...)
Il est bien connu qu'en statistique, le modle de rgression (paramtrique ou non-paramtrique)
en dimension nie, constitue un champ de recherche et d'application trs important, nous
renvoyons ici aux travaux de Collomb (1981, 1985) qui ds le dbut des annes quatre-vingt
font dj tat de nombreux dveloppements varis sur ce thme. Il convient, galement, de
se rfrer aux ouvrages de Hrdle (1990), Bosq et Lecoutre (1987) et Schimek (2000) qui
dressent un bilan presque exhaustif sur les diverses techniques en la matire. Ces champs
de la recherche en statistique sont encore potentiellement porteurs la fois au niveau des
dveloppements thoriques et cause des multiples possibilits d'application.
Par ailleurs, les applications lies au modle de rgression ont une place trs importante
dans la prvision des sries chronologiques issues de direntes disciplines telles que la com-
munication, les systmes de contrle, la climatologie ainsi que l'conomtrie. Il s'agit, donc,
de domaines de prvision pour lesquels les premiers rsultats consquents furent implants
par Collomb (1981) et Robinson (1983). Ce domaine de la statistique connat des dvelop-
pements continus, comme en tmoignent les nombreuses ralisations (cf. Gyet al. (1989),
Yoshihara (1994), Hrdle et al. (1997) et Bosq (1991),...)
Commenons par signaler que, l'estimation de la loi de probabilit ou de la fonction de
distribution joue un rle important dans l'estimation d'autres paramtres fonctionnels. Les
premiers travaux concernant l'estimation de la loi de probabilit des variables fonctionnelles
ont t raliss par Geroy (1974), Gasser et al. (1998). Notons aussi que, Cadre (2001) s'est
intress l'tude de la mdiane d'une distribution pour une variable fonctionnelle valeurs
dans un espace de Banach.
12 Chapitre 0. Introduction gnrale
Nous faisons remarquer que les paramtres conditionnels, tels que la distribution condition-
nelle, la densit conditionnelle, le mode conditionnel, le quantile conditionnel et la fonction
de hasard conditionnelle, sont largement tudis en dimension nie. A travers ces para-
mtres, la prvision dans les modles non-paramtriques ore une vritable alternative
la rgression non paramtrique. Il faut dire qu'en dimension nie, il existe une litrature
abondante pour ces paramtres conditionnels. Roussas (1968) fut le premier tablir des
proprits asymptotiques pour l'estimateur noyau de la distribution conditionnelle, pour
des donnes markoviennes, pour lesquelles il a montr la convergence en probabilit. Youndj
(1993) quant lui, il s'est intress l'tude de la densit conditionnelle pour des donnes
dpendantes ou indpendantes. On peut, notamment, citer le travail men par Laksaci et
Yousfate (2002) et dans lequel ils ont tabli, pour un processus markovien stationnaire, la
convergence en norme Lp de l'estimateur noyau de la densit conditionnelle.
Vu l'intrt que revt l'estimation du mode et du mode conditionnel dans le domaine de
la prvision, plusieurs auteurs s'en sont intresss. Nous pouvons citer par exemple, Perzen
(1962) qui a t l'un des premiers considrer le probme de l'estimation du mode d'une
densit de probabilit univarie. Il a montr que, sous certaines conditions, l'estimateur du
mode obtenu en maximisant un estimateur noyau est convergent et est asymptotiquement
normal quand les donnes sont indpendantes et identiquement distribues (i.i.d). Les tech-
niques de base qu'il a developp pour cette tude ont t reprises par de nombreux auteurs
dans le cas de la densit de probabilit ou de la rgression. Nous n'avons mentionn ici que
les principales contributions, en ayant essentiellement en vue la normalit asymptotique.
Notons aussi que Nadaraya (1965) et VanRyzin (1969) ont dmontr la convergente forte de
l'estimateur du mode mis en place par Perzen, alors que Samanta (1973) et Konakov (1974)
ont tudi des versions multivaries de cet estimateur. Les travaux d'Eddy (1980 et 1982),
quant eux, ils ont permis d'aaiblir les conditions susantes de normali asymptotique qui
aurait t donnes initialement. Par ailleurs, grce des conditions locales, Romano (1980),
a aaibli les hypothses prcedentes. Notons aussi que Vieu (1996) a compar deux estima-
teurs noyau du mode dont le premier est dni partir du maximun d'un estimateur de la
densit de probabilit et le second partir du zero d'un estimateur de la drive de celle-ci.
Ce travail a t repris par Rachdi et Sabre (2000) an d'estimer le mode de la densit de
probabilit quand les donnes sont entaches d'erreurs additives (les problmes de dconvo-
lution). Il y a aussi, entre autres, Louani (1998) qui a tabli la normalit asymptotique pour
la densit et ses drives avec application au mode.
Concernant le mode conditional, les proprits de convergence et de normalit asympto-
tiques ont t tablies par Samanta et Thaavaneswaran (1990) dans le cadre de donnes
indpendantes et identiquement distribues, alors que des conditions de convergence dans
le cas de donnes -mlangeantes ont t tablies par Collomb et al. (1987), dans le casde donnes -mlangeantes par Ould-Sad (1993), dans le cas de donnes ergodiques parRosa (1993) et Ould-Sad (1997). De leur cot, Quintela et Vieu (1997) ont estim le mode
conditionnel comme tant le point annulant la drive d'ordre un de l'estimateur de la den-
sit conditionnelle et ils ont tabli la convergence presque complte de cet estimateur sous
0.2. Contexte bibliographique 13
la condition d'-mlangeance. Berlinet et al. (1998), quant eux, ils ont prsent des r-sultats sur la normalit asymptotique des estimateurs convergents du mode conditionnel,
indpendamment de la structure de dpendance des donnes avec une application au cas
d'un processus stationnaire -mlangeant. Tandis que Louani et Ould-Sad (1999) ont ta-bli la normalit asymptotique dans le cas de donnes fortement mlageantes et dans le cas
de donnes censures. Ould-Sad et Cai (2005), quant eux, ils ont tabli la convergence
uniforme sur un compact.
Par ailleurs, dans le cadre de donnes valeurs dans un espace de dimension eventuellement
nie, les travaux de Ramsay et Silverman (2002 et 2005) constituent un recueil important de
mthodes statistiques, principalement du point de vue pratique, mais des dveloppements
thoriques peuvent tre trouvs dans Bosq (2000) et Ferraty et Vieu (2006).
Une contribution qui s'avre importante dans la construction de l'estimateur des paramtres
dans le modle de rgression linaire est celle qui est due Cardot et al. (1999). Elle consiste
en la construction d'un estimateur pour l'oprateur de rgression partir des proprits
spectrales de l'estimateur empirique de l'oprateur de covariance de la variable explicative
fonctionnelle. Ils ont tabli, galement, les convergences en probabilit et presque sre de
l'estimateur construit. Ce travail a t revisit dans Cuevas et al. (2002). Dans celui-ci,
une tude des proprits asymptotiques de l'estimateur de l'oprateur de rgression linaire
quand la variable explicative est fonctionnelle dterministe et la rponse est fonctionnelle
alatoire a t conduite. Cardot et al. (2004a, 2004b et 2005) ont propos et tudi des
mthodes d'estimation linaire de l'oprateur de rgression par quantiles conditionnels. Une
autre mthode d'estimation des quantiles conditionnels partir de l'estimation noyau de
la fonction de rpartition conditionnelle a galement t propose et tudie par Ferraty et
al. (2005), Ferraty et al. (2006), Ferraty et Vieu (2006a) et Ezzahrioui (2007). D'autres m-
thodes ont t proposes an d'estimer la rgression par le mode conditionnel. Celles-ci sont
bases sur l'estimation de la densi conditionnelle par des estimateurs noyau (cf. Ferraty
et al. (2005), Ferraty et Vieu (2006a), Ferraty et al. (2006), Dabo-Niang et Laksaci (2006)
et Ezzahrioui (2007)).
Donc, l'estimation de la densit conditionnelle en dimension ventuellement nie a connu
un grand intrt en statistique. Ce paramtre fonctionnel intervient pour l'estimation des
quantiles, du mode ou de la fonction de hasard.
Signalons, qu'en dimension innie, le mode conditionnel a connu tout rcemment un intrt
croissant, malgr le peu de rsultats disponibles dans la littrature. Dans ce contexte, les
premiers travaux ont t raliss par Ferraty et al. (2006). Ils ont montr, sous des conditions
de rgularit de la densit conditionnelle, la convergence presque complte des estimateurs
noyau de la densit conditionnelle et du mode conditionnel et ont tabli leurs vitesses de
convergence. Notons aussi qu'une application de leurs rsultats aux donnes issues de l'in-
dustrie agro-alimentaire a t prsente. Dans le mme contexte, Dabo-Niang et al. (2004)
ont tudi un estimateur non paramtrique du mode de la densit d'une variable explicative
14 Chapitre 0. Introduction gnrale
valeurs dans un espace vectoriel semi-norm, de dimension eventuellement nie. Ils ont
tabli la convergence presque sre avec une application de ce rsulat au cas o la mesure
de probabilit de la variable explicative vrie une condition de concentration. On trouve
aussi dans Dabo-Niang et Laksaci (2007) l'tude d'un estimateur noyau du mode de la
distribution d'une variable relle Y conditionne par une variable explicative X, valeursdans un espace semi-mtrique. Ils ont tabli la convergence en norme Lp de l'estimateur etils ont montr que les rsultats asymptotiques tablis sont lis aux probabilits des petites
boules de la loi de la variable explicative ainsi que la rgularit de la densit conditionnelle.
Notons galement, qu'il y a deux autres paramtres fonctionnels qui sont d'une grande im-
portance savoir, le quantile et le quantile conditionnel. Ces paramtres proposent une
alternative majeure dans la prvision, grce leur caractre robuste (cf. par exemple, les
travaux de Cardot et al. (2004a, 2004b, 2005 et 2006), Ferraty et al. (2005b) et (2006)).
Pour terminer ce rapide tour d'horizon, non exhaustif, armons que d'un point de vue
thorique, l'utilisation de variables alatoires fonctionnelles introduit une dicult
supplmentaire puisqu'on ne peut plus se permettre de manipuler la fonction de densit
de probabilit aussi facilement que dans le cas rel ou encore dans le cas vectoriel. On est
donc amen donner une criture probabiliste qui nous conduit des hypothses agissant
directement sur la distribution de la variable alatoire fonctionnelle plutt que sur la densit,
comme dans le cas de dimension nie.
Chapitre 1
Introduction aux donnes
fonctionnelles et l'estimation de la
densit conditionnelle
Dans ce chapitre, nous prsentons, d'abord, quelques notions sur l'analyse des donnes fonc-
tionnelles et son champ d'application, et puis, les rsultats existants dans la littrature sur
l'estimation de la densit conditionnelle.
1.1 Donnes fonctionnelles
Au cours de ces dernires annes, la branche de la statistique consacre l'analyse des
donnes fonctionnelles a connu un rel essor tant en termes des dveloppements thoriques
et mthodologiques que de la diversication des domaines d'application. Ceci revient aux
progrs qu' connu l'outil informatique au niveau des capacits de stockage qui permettent
d'enregistrer des donnes de plus en plus volumineuses. Ainsi, un trs grand nombre de va-
riables peuvent tre observes pour l'tude d'un mme phnomne.
Une fois la ralit des variables fonctionnelles est prsente, on s'intresse aux aspects de
modlisation les concernant. Dans ce but, nous donnons quelques dnitions permettant de
xer un vocabulaire. Rappelons, tout d'abord, qu'une variable alatoire fonctionnelle est
tout simplement une variable alatoire valeurs dans un espace de dimension ventuelle-
ment nie que nous noterons F . Par exemple, cet espace F peut tre un espace de fonctions,d'oprateur linaires, : : :. Selon la terminologie en vigueur dans la littrature, on parle aussibien de variables alatoires fonctionnelles que de donnes fonctionnelles, ce qui englobe no-
tamment tout ce qui concerne l'analyse statistique de courbes.
15
16 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
Dnition 1.1.1. On appelle modle fonctionnels, tout modle prenant en compte au moins
une variable alatoire fonctionnelle (v.a.f).
Dnition 1.1.2. Un modle fonctionnel est dit paramtrique si C est indexable par un
nombre ni de paramtres appartenant F , o C n'est qu'un sous-ensemble de IFF 0F (IFF0
Fl'ensemble des fonctions dnies sur l'espace fonctionnel F et valeurs dans l'espace F 0).Un modle fonctionnel est dit non-paramtrique dans le cas contraire.
De nombreux travaux ont t ddis l'tude des modles impliquant des variables ala-
toires multivaries. Ce domaine de la statistique connait encore une activit de recherche
soutenue. Cependant, les rcentes innovations ralises sur les appareils de mesure et les m-
thodes d'acquisition ainsi que l'utilisation de moyens informatique perfectionns permettent
souvent de rcolter des donnes discrtises sur des grilles de plus en plus nes, ce qui les
rend fondamentalement fonctionnelles : c'est par exemple le cas en mtorologie, en m-
decine, en imagerie satellite et dans de nombreux autre domaines d'tudes. C'est une des
raisons pour lesquelles un nouveau champ de la statistique ddi l'tude de donnes fonc-
tionnelles, a soulev un grand d au dbut des annes quatre-vingt, sous l'impulsion des
travaux de Grennder (1981), Dauxois et al. (1982) et Ramsay (1982). En fait, ce domaine
a t popularis par Ramsay et Silverman (1997), puis par les dirents ouvrages de Bosq
(2000), Ramsay et Silverman (2002, 2005) et Ferraty et Vieu (2006). Notons que c'est un des
domaines de la statistique qui est en plein essor comme en tmoignent les travaux publis
et/ou cits dans des revues de premiers rangs, , etc.
De plus, mme si les donnes dont dispose le statisticien ne sont pas de nature fonctionnelle,
celui-ci peut tre amen tudier des variables fonctionnelles construites partir de son
chantillon initial. Un exemple classique est celui o l'on observe plusieurs chantillons de
donnes relles indpendantes et o l'on est ensuite amens comparer les densits de ces
dirents chantillons ou bien considrer des modles o elles interviennent (cf. Ramsay et
Silverman, 2002). Dans le contexte particulier de l'tude des sries temporelles, l'approche
introduite par Bosq (1991) fait apparatre une suite de donnes fonctionnelles dpendantes
qui modlisent la srie chronologique observe. Cette approche consiste tout d'abord consi-
drer le processus non pas travers sa forme discrtise mais comme tant un processus
temps continu puis le dcouper en un chantillon de courbes successives.
1.1. Donnes fonctionnelles 17
Remarquons que la principale source de dicult, que ce soit d'un point de vue thorique
que pratique, provient du fait que les observations de ce type de variables sont supposes
appartenir un espace de dimension innie.
Les tous premiers travaux dans lesquels nous retrouvons l'ide de considrer les donnes
fonctionnelles sont relativement anciens. Rao (1958) et Tucker (1958) ont envisag l'analyse
en composantes principales et l'analyse factorielle pour des donnes fonctionnelles, en consi-
drant explicitement les donnes fonctionnelles comme un type particulier de donnes. Par
la suite, Ramsay (1982) a dgag la notion de donnes fonctionnelles et a soulev la question
de l'adaptation des mthodes utilises en analyse statistique de donnes multivaries (en
dimension nie) au cadre fonctionnel.
A partir de l, les travaux portant sur la statistique des donnes fonctionnelles ont commenc
se multiplier pour nalement aboutir, aujourd'hui, des ouvrages devenus des rfrences en
la matire. Par exemple, les monographies de Ramsay et Silverman (2002 et 2005), Ferraty
et Vieu (2006) prsentent une collection importante de mthodes statistiques spciques
aux variables fonctionnelles dans les cadres linaire et non linaire. De mme, Bosq (1991)
a contribu au dveloppement de mthodes statistiques permettant l'analyse de variables
alatoires fonctionnelles dpendantes (processus autorgressifs hilbertiens). Citons aussi, les
travaux de Cuevas et al. (2002) qui se sont intresss au problme de la rgression linaire
d'une variable fonctionnelle sur un ensemble de donnes fonctionnelles dterministes xed
functional design. D'autre part, Benhenni et al. (2010) ont considr le problme d'estima-
tion de l'oprateur de rgression quand les donnes fonctionnelles sont dterministes et les
erreurs sont corrles. Cardot et al. (2005) quant eux, ils ont propos un estimateur non
paramtrique de l'oprateur de rgression quand le facteur prdictif est rel et la variable
rponse est une courbe.
Par ailleurs, l'tude du modle de rgression non linaire est beaucoup plus rcente que celle
du cas linaire. Ferraty et Vieu (2000) ont tabli les premiers rsultats sur l'estimation non
paramtrique de l'oprateur de rgression non linaire. Ces rsultats ont ensuite t prolon-
gs par Ferraty et al. (2002) en traitant le cas de donnes dpendantes et en tablissant des
convergences fortes de l'estimateur noyau de la rgression.
A leur tour, Niang et Rhomari (2003) ont tudi la convergence en norme Lp de l'estimateurde l'oprateur de rgression et ont exprimont leur rsultats la discrimination et la
classication de courbes. Rachdi et al. (2008) ont trait le problme d'estimation non pa-
ramtrique de l'oprateur de rgression quand les erreurs vrient des proprits de longue
mmoire. Ils ont tabli aussi la convergence en probablilit ponctuelle puis uniforme de l'es-
timateur noyau opratoriel. Une autre contribution base sur la construction d'un critre
de choix automatique et optimal du paramtre de lissage pour l'estimateur de la rgression
quand le rgresseur est de type fonctionnel a t mene par Rachdi et Vieu (2005, 2007).
Tandis qu'El Methni et Rachdi (2011) ont tabli l'estimation locale d'une moyenne pond-
res de l'oprateur de rgression pour des donnes fonctionnelles dterministes. Ouassou et
18 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
Rachdi (2010) ont amlior ensuite cette estimation par l'estimateur de Stein.
Rappelons que, le au de la dimension rend les vitesses de convergence trs faibles. Une
manire de tenter de remdier cela est de chercher une topologie qui restitue de faon
pertinente les proximits entre les donnes. Cela peut tre fait, par exemple, l'aide d'une
semi-mtrique de projection base sur les composantes principales fonctionnelles, les dcom-
positions selon une base de Fourier, d'ondelettes, de splines, : : :. Lorsque la variable expli-cative est valeurs dans un espace de Hilbert sparable, Ferraty et Vieu (2006a, Lemme
13-6) ont montr que l'on peut dnir de manire gnrale une semi-mtrique de projec-
tion qui permet de se ramener des probabilits de petites boules de type fractal (i.e.
9C; > 0; Fx(h) Cxh quand h ! 0). On condense ainsi les donnes en rduisant leurdimension et on contourne ainsi le au de la dimension. En eet, on revient des vitesses
de convergence en puissance de n. Dans d'autres situations, on peut tre confront desdonnes trs lisses (comme les courbes spectromtriques de masse donnes dans la Figure
1.2). Dans ce cas de gure, il peut tre intressant d'utiliser plutt des semi-mtriques ba-
ses sur les drives (cf. Ferraty et Vieu, 2006a). Ces semi-mtriques peuvent galement tre
utiles lorsque les donnes prsentent un shift vertical articiel (i.e non informatif vis--vis
des rponses). Elles ont alors pour eet d'liminer ces dcalages verticaux qui nuisent la
qualit de la prdiction. Enn, on peut envisager d'autres types de phnomnes comme,
titre d'exemple, les dcalages horizontaux (cf. Dabo-Niang et al., 2006).
Face la grande diversit des semi-mtriques qu'on peut construire, on peut se poser la
question sur comment choisir la semi-mtrique la mieux adapte au donnes. Ceci va motiver
l'tude du problme de construction d'une semi-norme sur F .
1.2 Donnes fonctionnelles vs semi-mtrique
D'une faon gnrale, l'analyse de tout type de donnes ncessite la dnition de la notion
de distance entre celles-ci. Il est bien connu que dans un espace vectoriel de dimension nie
toutes les mtriques sont quivalentes. Ceci n'est plus le cas quand l'espace d'observations
est de dimension innie. C'est pourquoi le choix de la mtrique (et donc de la topologie
associe) est un lment crucial pour l'tude des variables alatoires fonctionnelles.
De nombreux auteurs dnissent ou tudient les variables fonctionnelles comme tant des
variables alatoires de carrs intgrables c'est--dire valeurs dans L2(0; 1) (cf. notamment,Crambes et al., 2007) ou plus gnralement dans un espace de Hilbert (cf. par exemple,
Preda, 2007), ou de Banach (cf. Cuevas et Fraiman, 2004) ou mtrique (cf. Dabo-Niang et
Rhomari, 2003). Notons d'ailleurs que Bosq (2000), quant lui, il a considr des chantillons
de variables fonctionnelles dpendantes et valeurs dans un espace de Hilbert ou de Banach.
Ces observations fonctionnelles ont t obtenues suite au dcoupage d'un mme processus
temps continu. De plus, parmi les semi-mtriques, disponibles dans la littrature, il est
souvent plus intressant de considrer des semi-mtriques permettant un ventail plus large
1.2. Donnes fonctionnelles vs semi-mtrique 19
de topologies possibles que l'on pourra choisir en fonction de la nature des donnes et du
problme traiter.
Signalons que, l'intrt d'utiliser une semi-mtrique plutt qu'une mtrique est que cela peut
constituer une alternative aux problmes lis la grande dimension des donnes. En eet,
on peut considrer une semi-mtrique qui soit dnie partir d'une projection de nos don-
nes fonctionnelles sur un espace de dimension plus petite : (1) que ce soit en ralisant une
analyse en composantes principales fonctionnelles de nos donnes (cf. Dauxois et al. (1982),
Besse et Ramsay (1986), Hall et Hosseini-Nasab (2006) et Yao et Lee (2006)) ou (2) en les
projetant sur une base de cardinal ni (ondelettes, splines, : : :). Cela permet de rduire ladimension des donnes et ainsi d'augmenter la vitesse de convergence des mthodes utilises
tout en prservant la nature fonctionnelle des donnes. D'ailleurs, on peut choisir la base sur
laquelle on projette en fonction des connaissances que l'on a de la nature de la donne fonc-
tionnelle. Par exemple, on pourrait choisir la base de Fourier si on suppose que la variable
fonctionnelle observe est priodique. On peut se rfrer, pour cela, Ramsay et Silverman
(1997 et 2005) ou Rossi et al. (2005) pour une discussion plus complte sur les direntes
mthodes d'approximation par projection de donnes fonctionnelles. Aussi, une discussion
plus approfondie de l'intrt d'utiliser dirents types de semi-mtriques est prsente dans
le livre de Ferraty et Vieu (2006) (paragraphes 3 et 4) ainsi que dans le travail ralis par
Benhenni et al. (2007).
Pour ces direntes raisons, nous prsentons ici quelque pistes (cf. Ferraty et Vieu, 2006)
permettant de construire une semi-mtrique. En fait, nous prsentons, dans ce qui suit,
seulement deux familles de semi-mtriques mais, naturellement, beaucoup d'autres peuvent
tre construites : la premire est bien adapte aux courbes dites bruites et aux courbes
irrgulires tandis que la deuxime sera plutt employe pour le traitement de courbes tout
fait lisses (ou rgulires).
Pour ce faire, nous commenons par considrer un chantillon de n courbes X1; : : : ; Xn in-dpendantes et identiquement distribues de la variable alatoire fonctionnelle
X = fX(t); t 2 [0; 1]g.
Notons que, l'analyse en composantes principales classique (ACP) est considre comme
tant un outil trs utile pour la description et la visualisation des donnes dans un espace
de dimension plus petite. Cette technique a t prolonge aux donnes fonctionnelles et plus
rcemment employe pour dirents buts statistiques. Nous verrons que le FPCA (Functional
Principal Components Analysis) est devenue un bon outil pour calculer des proximits entre
les courbes dans un espace de dimension rduite. Ainsi, partir de la semi-mtrique classique
L2, nous pouvons construire une classe paramtrique de semi-normes, que nous noteronsSMPCA (Semi-Mtrique base sur l'ACP), de la manire suivante :
kxkACPq =vuut qX
k=1
Zx(t)vk(t)
2dt pour tout x 2 F
20 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
o v1; :::; vq sont les fonctions propres orthonormales de l'oprateur de covariance :
X(s; t) = E(X(t)X(s))
associes aux valeurs propres 1 2 q.
Signalons aussi que, l'entier q n'est pas un paramtre de lissage, mais plutt un paramtrede rglage indiquant le niveau de rsolution auquel le problme est considr.
On en dduit une famille de semi-mtriques comme suit :
dACPq (Xi; x) =
vuut qXk=1
Z(Xi(t) x(t))vk(t) dt
2(1)
Notons que, l'approximation de l'intgrale dans la formule (1) peut se faire comme suit (cf
Castro et al., 1986) :Z 10(Xi(t) x(t))vk(t)dt w
JXj=1
wj(Xi(tj) x(tj))vk(tj)
o les poids wj = tj tj1 et la grille (t1; :::; tJ) est constitue de J valeurs quidistantesdans [0,1].
Si nous discrtisons deux courbes xi et xi0 alors, la quantit dACPq (xi; xi0) sera approximepar sa version empirique :
dACPq (xi; xi0) =
vuuut qXk=1
0@ JXj=1
wj(xi(tj) xi0(tj))vk(tj)1A2
o fxi = (xi(t1); :::; xi(tJ))t)gi=1;:::;n et fxi0 = (xi0(t1); :::; xi0(tJ))t)gi0=1;:::;n
En eet, cette famille de semi-mtriques peut tre utilise seulement si les donnes sont
quilibres (les courbes sont observes aux mmes points). Ceci pourrait apparatre comme
un inconvnient pour l'usage d'un tel genre de semi-mtriques mais, leur principal avantage
est d'tre utilis mme si les courbes son irrgulires. En prenant l'exemple de la prvision
de la concentration maximale de l'ozone au ple nord pendant une journe sur quatre an-
nes successives (de 2000 2004), tant donn la courbe de cette concentration pendant la
journe prcdente (cf. Figure 1.4), nous avons choisi la norme L21;24 calcule, en utilisant cegenre de semi- mtriques.
Une autre manire de construire une autre famille de semi-mtriques est base sur les dri-
ves, que nous allons noter par SMD (Semi-Mtrique base sur la Drive). Elle est dnie
1.2. Donnes fonctionnelles vs semi-mtrique 21
de la manire suivante :
dSMDq (xi; xi0) =
sZ 10(x
(q)i (t) x(q)i0 (t))2dt (2)
pour deux courbes observes xi et xi0 , o x(q)dsigne la drive d'ordre q de x.Notons, par ailleurs, que dSMD0 (x; 0) concide avec la norme classique sur l'espace L
2de x.
De plus, on peut aussi utiliser l'approximation de chaque courbe par des B-splines (cf. De
Boor (1978) ou Schumaker (1981)) et ainsi les drives successives seront directement cal-
cules en direnciant plusieurs fois leurs formes analytiques. Ainsi, le calcul de l'intgrale
dans (2) peut tre eectu en utilisant la mthode de Gauss (cf. Lanczoz, 1956). Dans la
pratique, cette classe de semi-mtriques sera bien adapte et employe quand on a aaire
des courbes lisses, comme les donnes spectromtriques de masse (cf. Figure 1.2).
A ce stade, on pense que l'ensemble des donnes, lui-mme, devrait tre mis en avant an
de choisir la semi-mtrique employer.
En conclusion, chacune des deux familles discutes ci-dessus est adapte un certain genre
de donnes : la SMPCA est prvue pour des donnes irrgulires, tandis que, la SMD est
adapte aux donnes lisses.
On peut donc armer, sans hsitation, que le choix de la semi-mtrique permet la fois
de prendre en compte des situations plus varies et de pouvoir contourner le au de la
dimension. Ce choix ne doit cependant pas tre pris la lgre mais, doit prendre en compte,
non seulement la nature des donnes mais aussi la nature du problme tudi.
1.2.1 Probabilits des petites boules
Le problme du au de la dimension est un phnomne bien connu dans le cas de modles
de rgression multivarie non paramtrique. Il est bien connu que ce problme provoque une
dcroissance exponentielle des vitesses de convergence des estimateurs non paramtriques en
fonction de la dimension (cf. Stone, 1982). Par consquent, il est lgitime de penser que les
mthodes non paramriques dans l'tude des modles variables fonctionnelles risque d'avoir
une vitesse de convergence trs lente. Dans le cas o la variable explicative est multivarie
(i.e. valeurs dans un espace de dimension ventuellement nie (F ; d)), les vitesses deconvergence de l'estimateur noyau sont exprimes en fonction d'un terme de la forme hdn;provenant de la valeur de la probabilit que la variable explicative appartienne la boule
de centre x et de rayon hn. Dans le cas d'une variable explicative fonctionnelle les rsultatsasymptotiques sont exprims partir de quantits plus gnrales appeles probabilits des
petites boules et qui sont dnies par :
Fx(hn) := IP(d(X;x) hn) o hn ! 0
22 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
Au travers des dirents rsultats de convergence concernant l'estimateur tudi dans ce m-
moire (de type Nadaraya-Watson et/ou local linaire), on observe que la vitesse de conver-
gence est fonction de la manire dont dcroissent ces probabilits de petite boules. Il existe
dans la littrature un nombre assez important de rsultats probabilistes qui tudient la ma-
nire dont ces probabilits des petites boules tendent vers 0 quand d est une norme (cf. parexemple, Li et Shao (2001), Lifshits et al. (2006) et Gao et Li (2007)). On pourra galement
se rferer au travail de Dereich (2003, Chapitre 7) qui est consacr au comportement des
probabilits des petites boules dont les centres sont alatoires. Au travers de ces travaux
on peut voir, par exemple, que dans le cas de processus non-lisses tels que le mouvement
brownien ou le processus d'Ornstein-Uhlenbeck, ces probabilits des petites boules sont de
forme exponentielle (par rapport hn) et que par consquent la vitesse de convergence denos estimateurs est en puissance de ln(n) (cf. Ferraty et al. (2006), paragraphe 5 et Ferratyet Vieu (2006a), paragraphe 13.3.2, pour une discussion plus approfondie sur ce sujet).
Dans ce qui suit, nous allons prsenter un aperu sur l'utilit de l'analyse des donnes
fonctionnelles dans les applications.
1.2.2 Champs d'application des donnes fonctionnelles
Depuis plusieurs dcennies, nombreux sont les statisticiens qui ont dvelopp des applica-
tions permettant le traitement de variables alatoires fonctionnelles. D'une part, ce traite-
ment permet d'utiliser ou de dvelopper des outils thoriques performants, et d'autre part,
il ore un norme potentiel en terme d'applications (en imagerie, agro-industrie, gologie,
conomtrie,...). Nous exposons ci-dessous quelques exemples concrets.
Dans le domaine de la linguistique : le problme de la reconnaissance vocale est un sujet
d'actualit. L'objectif est de pouvoir retranscrire phontiquement des mots et des phrases
prononcs par un individu. Les donnes sont des courbes correspondant des enregistrements
de phonmes prononcs par dirents individus. Des travaux ont t, galement, raliss,
notamment concernant la reconnaissance vocale. On peut citer par exemple Hastie et al.
(1995), Berlinet et al. (2005) ou encore Ferraty et Vieu (2003).
Etude du phnomne d'El Nio : il s'agit d'un jeu de donnes provenant de l'tude d'un
phnomne climatologique assez important. Ce phnomne est couramment appel El Nio.
C'est un grand courant marin qui survient de manire exceptionnelle (en moyenne une
deux fois par dcennie) le long des ctes pruviennes la n de l'hiver. Ce courant
provoque des drglements climatiques l'chelle de la plante. Le jeu de donnes est
constitu de relevs de tempratures mensuelles de la surface ocanique eectus depuis
1950 dans une zone situe au large du nord du Prou (de coordonnes 0-10
Sud, 80-90
Ouest) dans laquelle peut apparatre le courant marin El Nio. Ces donnes et leur des-
cription sont disponibles sur le site internet du centre de prvision du climat amricain :
http : ==www:cpc:ncep:noaa:gov=data=indices=. Il faut noter que l'volution des tempra-tures au cours du temps est rellement un phnomne continu. Le nombre de mesures permet
1.2. Donnes fonctionnelles vs semi-mtrique 23
Figure 1.1 Les courbes correspondant au courant d'El Nno
de prendre en considration la nature fonctionnelle des donnes (cf. Figure 1.1). A partir de
ces donnes, on peut s'intresser la prdiction de l'volution du phnomne partir des
donnes recueillies lors des annes prcdentes.
En industrie alimentaire : Ferraty et Vieu (2002, 2003) se sont intresss des donnes
spectromtriques de masse. Ces donnes proviennent d'un problme de contrle de qualit
en industrie alimentaire. Ils ont tudi la contenance en graisse dans les morceaux de viande
tant donn les courbes d'absorption de ces morceaux de viande (cf. pour ceci Figure 1.2).
Ces donnes relles ont t utilises dans le cas o les variables sont indpendantes.
Consommation d'lectricit aux USA : dans le cadre des donnes dpendantes, on peut consi-
drer l'exemple d'une srie chronologique qui concerne la consommation annuelle
24 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
0 20 40 60 80 100
2.02.5
3.03.5
4.04.5
5.05.5
Index
CURVES
[1, ]
Figure 1.2 Les courbes spectromtriques
d'lectricit, aux USA, par des secteurs rsidentiels et commerciaux de janvier 1973 jusqu'en
fvrier 2001 (338 mois). Le but de cette tude est de prvoir la consommation d'lectricit de
l'anne suivante sachant la consommation d'lectricit de toute l'anne prcdente. L'chan-
tillon se compose de 28 donnes comme le montre la Figure 1.3. Cette srie chronologiquepeut tre regarde comme tant un ensemble de donnes fonctionnelles dpendantes (c'est-
-dire, une population de 28 courbes : chaque anne correspond 1 courbe).
Donnes de pollution : Un autre exemple de variables alatoires fonctionnelles dpendantes
portant sur l'tude de phnomnes lis l'environnement est le problme de pollution. Il
s'agit d'tudier la courbe de concentration d'ozone au Ple Nord sur quatre annes suc-
cessives (de 2000 2004). L'objectif est de prvoir la concentration de l'ozone dans une
journe tant donn la courbe de concentration de l'ozone de la veille. En procdant par
un dcoupage journalier de la courbe de concentration annuelle de l'ozone, on obtient les
courbes reprsentes dans Figure 1.4. Notons que plusieurs auteurs se sont intresss aux
phnomnes lis l'environnement, on peut citer entre autres, Damon et Guillas (2002),
Aneiros-Perez et al. (2004), Cardot et al. (2004, 2006), Meiring (2005).
Bref, de nombreux autres domaines d'application o l'on peut tre confront des donnes
de natures fonctionnelles existent et/sinon auent. Vu l'normit des exemples que l'on
peut citer, nous sommes incapable de prsenter dans cette thse une liste exhaustive de ces
applications. Sinon, nous nous contentons, dans la suite de ce paragraphe, d'un rapide tour
d'horizon de ces champs d'application.
En biologie : pour l'tude des variations des courbes de croissance (cf. Rao, 1958 et Figure
1.5), et plus rcemment, pour l'tude des variations de l'angle du genou durant la marche
1.2. Donnes fonctionnelles vs semi-mtrique 25
2 4 6 8 10 12
0.2
0.1
0.00.1
0.2
Index
electr
icityc
onsu
mptio
n[1, ]
Figure 1.3 Les courbes annuelles de consommation d'lectricit aux USA
5 10 15 20
020
4060
8010
0
20002004
Heure
pollu
tion
Figure 1.4 Les courbes de pollution au Ple Nord
26 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
Figure 1.5 Courbes de croissance
(cf. Ramsay et Silverman, 2002). Notons qu'un norme nombre de donnes fonctionnelles est
produit et ne demande qu' avoir la mthodologie adquate pour son traitement, notamment
les donnes spectromtriques de masse (cf. pour le cancer Figure 1.6).
En biologie animal : des tudes sur la ponte de mouches mditerranennes ont t eectues
et rsumes par des courbes donnant, pour chaque mouche, la quantit d'oeufs pondus en
fonction du temps (cf. Figure 1.7).
En conomtrie : on est souvent confronts de nombreux phnomnes que l'on peut mo-
dliser par des variables fonctionnelles. Parmi ces phnomnes on peut citer la volatilit des
marchs nanciers (cf. Mller et al., 2007), le rendement d'une entreprise (cf. Kawassaki et
Ando, 2004), le commerce lectronique (cf. Jank et Shmueli, 2006) ou l'intensit des tran-
sactions nancires (cf. Laukaitis et Rackauskas, 2002). On peut se rferer Kneip et Utikal
(2001), Benko (2006) et Benko et al. (2006) pour des rfrences supplmentaires. Par ailleurs,
nous pouvons aussi citer un exemple qui consiste l'observation des uctuations d'un indice
boursier en fonction du temps : il s'agit typiquement d'une srie temporelle qu'on dcoupe
selon des sous-intervalles de l'espace temps (cf. Bosq, 2002).
En graphologie : l'apport des techniques de la statistique fonctionnelle a aussi trouv une
application en graphologie. Parmi les travaux raliss sur cette problmatique on peut citer,
titre d'exemple, ceux de Hastie et al. (1995) et Ramsay (2000). Ce dernier a modlis
la position du stylo (abscisses et ordonnes en fonction du temps) l'aide d'un systme
d'quations direntielles de paramtres fonctionnels.
1.2. Donnes fonctionnelles vs semi-mtrique 27
Figure 1.6 Courbes spectromtriques de masse sur des cellules cancereuses
Figure 1.7 Une courbe du nombre d'oeufs journaliers pondus par une mouche
28 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
Les mesures et notamment les images recueillies par satellites sont galement des donnes
dont l'tude peut tre ectue partir des mthodologies de la statistique fonctionnelle. On
peut citer, par exemple, les travaux de Vidakovic (2001) dans le domaine de la mtorologie
ou ceux de Dabo-Niang et al. (2004b, 2007) dans le domaine de la gophysique. Dans ces
travaux, on s'intresse la classication des courbes recueillies par le satellite dirents
endroits de l'amazonie, ce qui permettrait d'identier la nature du sol. Enn, citons Cardot
et al. (2003) et Cardot et Sarda (2006) qui ont tudi l'volution de la vgtation partir
de donnes satellitaires.
1.3 Quelques rsultats sur l'estimation non-paramtrique pour
des modles fonctionnels
Nous rappelons, dans ce paragraphe et dans un premier temps quelques hypothses
et notations qui paraissent importantes pour la suite de ce travail de thse. Ensuite, les
rsultats obtenus par Ferraty et al. (2006) et brivement ceux obtenus par Laksaci (2005)et
Ezzahrioui (2007) sur l'estimation de quelques paramtres conditionnels.
1.3.1 Notations et hypothses
Considrons le couple de variables alatoire (X;Y ) o Y est valeurs dans R et Xest valeurs dans un espace semi-mtrique (F ; d) qui peut tre de dimension ventuellementnie. Pour x 2 F , la distribution de probabilit de Y sachant X est dnie par :
8y 2 R; F x(y) = IP(Y yjX = x)
ou cette distribution est absolument continue par rapport la mesure de Lebesgue sur R.Notons par fx (respectivement fx(j)) la densit conditionnelle (respectivement sa drived'ordre j) de Y sachant X = x. Par la suite on dsignera par x le point xe de F , Vx unvoisinage de x et SIR un sous-ensemble compact de R. Notons aussi par : B(x; h) = fx0 2Fjd(x0; x) < hg la boule de centre x et de rayon h.
Voici quelques hypothses dont nous avons besoin dans les enoncs des rsultats prli-
minaires.
(H1) P (X 2 B(x; h)) = x(h) > 0
Pour la fonction de rpartition conditionnelle, celle-ci sera suppose vrier la condition
suivante :
(H2) 8(y1; y2) 2 SS; 8(x1; x2) 2 VxVx; jF x1(y1)F x2(y2)j Cxd(x1; x2)
b1 + jy1 y2jb2
1.3. Quelques rsultats sur l'estimation non-paramtrique pour des modles fonctionnels29
et pour certain j 0;
Concernant la densit conditionnelle fx, on la supposera de classe Cj et telle que :(H3) 8(y1; y2) 2 SS; 8(x1; x2) 2 VxVx; jfx1(j)(y1)fx2(j)(y2)j Cx
d(x1; x2)
b1 + jy1 y2jb2La condition de concentration (H1) joue un rle important. Ce genre de condition est li
la semi-mtrique d. Elle quantie et contrle les probabilites des petites boules.
(H4) =
8>>>:8(y1; y2) 2 R2; jH(y1)H(y2)j Cjy1 y2j
RR jtjb2H(1)(t)dt < +1(H5) Le noyau K est support dans (0; 1), tel que, 0 < C1 < K(t) < C2, oC1 et C2 sont deux constantes strictement positives,
(H6) limn!1hK = 0 et limn!1
log n
nx(hK)= 0,
(H7)- limn!1hH = 0 et limn!1n
hH =1, pour un certain rel > 0.
o H est un noyau, hK = hK;n (respectivement, hH = hH;n) est une suite de nombresrels positifs tendant vers 0 quand n tend vers l'inni.
1.3.2 Estimation de la loi conditionnelle
Dans ce paragraphe, nous donnons un rsultat de convergence de l'estimateur noyau
de la loi conditionnelle. tant donn un lment x x de F et soit (Xi; Yi)i=1;:::;n un chan-tillon de couples de variables alatoires indpendantes valeurs dans RF , l'estimateur noyau de la loi conditionelle F x(:) est dni par :
F^ x(y) =
Pni=1K
d(x;Xi)hK
HyYihH
Pn
i=1Kd(x;Xi)hK
; 8y 2 RLe thorme suivant donne la convergence
1
(p.co.) prsque complte de l'estimateur F^ x(y)
1. soit (zn)n2N une suite de variables alatoires. On dit que zn converge presque compltement (p.co.)vers 0 si, et seulement si, 8 > 0, P1n=1 IP (jznj > 0) < 1. De plus, soit (un)n2N une suite de nombresrels positifs. On dit que zn = O(un) p.co. si, et seulement si, 9 > 0, P1n=1 IP (jznj > un) < 1 : ce typede convergence implique la convergence presque sure et la convergence en probabilit (cf. [13] pour plus de
dtails).
30 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
Thorme 1.3.1. (Ferraty et al. 2006). Sous les hypothses H1-H6, ona :
supy2S
jIFxn(y) F x(y)j = Ohb1K
+O
hb2H
+O
slog n
nx(hK)
!; p:co:
1.3.3 Estimateur noyau de la densit conditionnelle
Dans ce pragraphe, nous prsentons un estimateur noyau de la drive d'ordre j dela densit conditionnelle et un rsultat sur le comportement asymptotique de cet estimateur.
Cet estimateur f^x(j) de fx(j) est donn par :
f^ (j)(yjx) =hj1H
Pni=1K
d(x;Xi)hK
H(j+1)
yYihH
Pn
i=1Kd(x;Xi)hK
; 8y 2 R
Notons que, cet estimateur est analogue celui introduit par Rosenblatt (1969) dans le
cas o X est une variable alatoire relle. Il est aussi largement tudi depuis ce temps (cf.Youndj, 1996). An d'tablir quelques rsultats de convergence, les hypothses suivantes
seront ncessaires :
(H8)
8>>>>>>>>>>>>>>>:
8(y1; y2) 2 R2; jH(j+1)(y1)H(j+1)(y2)j Cjy1 y2j
9 > 0; 8j0 j + 1; limy!1 jyj
1+ jH(j+1)(y)j = 0
H(j+1) est born
(H9) limn!1hK = 0 avec limn!1
log n
nh2j+1H x(hK)= 0:
Le thorme suivant concerne le comportement asymptotique de l'estimateur fonctionnel
noyau f^x(j).
1.3. Quelques rsultats sur l'estimation non-paramtrique pour des modles fonctionnels31
Thorme 1.3.2. (Ferraty et al., 2006). Sous les hypothses H1, H3, H4 et H6-H9,
ona :
supy2S
jfx(j)n (y) fx(j)(y)j = Ohb1K
+O
hb2H
+O
slog n
nh2j+1H x(hK)
!; p:co:
o S une sous-ensemble compact de R
1.3.4 Estimation du mode conditionnel
Cas o les donnes sont i.i.d.
Ce paragraphe prsente un estimateur du mode conditionnel not par ^. Notons que,l'ensemble compact S est choisi de telle sorte qu'il n'y ait qu'un unique mode . Cet esti-mateur est bas sur la prcdente estimation fonctionnelle de la densit conditionnelle.
Dans la suite de ce paragraphe, on utilise S = [ ; + ] comme ensemble compact.L'estimateur ^ du mode conditionnel est dnie comme.
f^x(^) = supy2S
f^x(y)
Notons que, l'estimateur ^ n'est pas ncessairement unique, pour assur cette unicit et laconvergence de ^n, on suppose :
(H10) 9 > 0, fx % dans [ ; ] et fx & dans [; + ].
(H11) fx est j-fois continment direntiable par rapport y sur [ ; + ],
et
(H12)
8>>>:fx(l)() = 0; si 1 l < j
jfx(j)()j > 0 sinonSignalons que ces conditions ont une grande inuence sur la vitesse de convergence de l'es-
timateur ^ (cf. le thorme ci-dessous). De plus la convergence de cet estimateur peut treobtenue par l'hypothse (H10) (cf. Laksaci (2005), Lemme 2.4.1).
32 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
Thorme 1.3.3. (Laksaci , 2005). Si les hypothses du Thorme 1.3.2 et H10-H12 sont
vries, alors :
^ = Ohb1j
K
+O
hb2j
H
+O
logn
nhHx(hK)
12j
; p:co:
Cas o les donnes sont -mlangeantes
Les rsultats obtenus dans le cas des variables alatoires fonctionnelles indpendantes
et identiquement distribues (i.i.d.) ont t prolongs au cas des variables fortement mlan-
geantes. Un rsultat (cf. Thorme 1.3.4) s'annonce dans ce cadre grce des hypothses
faites dans le cas i.i.d. Ces hypothses ont t renforces par des conditions de concentration
de la loi conjointe des couples (X;Y ) et quelques hypothses sur les coecients de mlange.
Deux exemples d'application sont tudis. Le premier correspond au cas i.i.d. Il concerne
l'industrie agro-alimentaire (courbes spectromtriques de masse). L'autre exemple corres-
pond au cas dpendant. Celui-ci concerne un problme de pollution (les courbes de la concen-
tration de l'ozone sur le ple nord) (cf. Laksaci , 2005 pour plus de dtails).
Les hypothses suivantes sont ncessaires dans l'enonc du Thorme 1.3.4 :
(H13) supi6=j P ((Xi; Xj)) 2 B(x; r)XB(x; r) = x(r) x(r) > 0,
(H14) Les coecients de -mlange de la suite (Xi; Yi) vrient la condition :
9a > (5 +p17)=2; 9c > 0telsque8n; n cna
,
(H15) limn!1hH = 0 et 91
4
(a+ 1)(a 2) tel que limn!1n1 hH =1,
(H16)
8>>>>>:limn!1hK = 0; limn!1
logn
nhH x(hK)= 0:
et
92 > 0; c1 > 0; c2 > 0; c2n(3aa+1
)+2 x(hK) c1n1
1a :
o
x(hK) dsigne le maximum de la concentration entre la loi marginale et les lois conjointesde chaque couple d'observations fonctionnelles dans la boules de centre x et de rayon hK .
1.3. Quelques rsultats sur l'estimation non-paramtrique pour des modles fonctionnels33
Thorme 1.3.4. (Laksaci, 2005). Si les hypothses (H1), (H3)-(H5) et (H10)-(H16) sont
vries, alors :
^ = Ohb1j
K
+O
hb2j
H
+O
logn
nhHx(hK)
12j
!; p:co:
o b1 et b2 deux rels strictement positifs.
34 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles
Chapitre 2
Kernel conditional density estimation
when the regressor is valued in a
semi-metric space
Ali Laksaci
1
, Fethi Madani
2and Mustapha Rachdi
2; 3
( paratre dans Communications Statistics- Theory and Methods, 2012)
Abstract.This paper deals with the conditional density estimation when the explanatory variable is
functional. In fact, nonparametric kernel type estimator of the conditional density has been recently
introduced when the regressor is valued in a semi-metric space. This estimator depends on a smoo-
thing parameter which controls its behavior. Thus, we aim to construct and study the asymptotic
properties of a data-driven criterion for choosing automatically and optimally this smoothing pa-
rameter. This criterion can be formulated in terms of a functional version of cross-validation ideas.
Under mild assumptions on the unknown conditional density, it is proved that this rule is asymp-
totically optimal. Finally, a simulation study and an application on real data are carried out to
illustrate, for nite samples, the behavior of our method. Finally, mention our results can also be
considered as novel in the nite dimensional setting and several other open questions are raised in
this article.
Keywords. Cross-validation, functional data, kernel estimator, nonparametric model, band-
width selection, small balls probability
1. Universit Djillali Liabs, BP. 89, Sidi Bel-Abbs 22000, Algeria. E-mail : [email protected]
2. Laboratoire AGIM FRE 3405 CNRS, Equipe TIMB, Universit P. Mends France (Grenoble 2),UFR SHS, BP. 47, 38040 Grenoble Cedex 09, France. E-mails : [email protected] and
3. Corresponding author
35
36 2. Choix de la largeur de fentre
AMS Subject Classication. Primary : 62G05, Secondary : 62G07, 62G08, 62G35, 62G20.
2.1 Introduction
Conditional density estimation is a statistical technique that allows for a better understan-
ding of the relationship between a response variable and a set of covariates, in comparison
with usual regression methods. Therefore, this technique is of great importance in many
scientic elds where knowledge about conditional means, obtained by regression methods,
is not enough to draw valuable conclusions about the problem at hand. Moreover, conditio-
nal density functions arise in a variety of areas. One of the more useful applications involves
density forecasting, where the probability density of the forecast of a time series, such as the
rate of ination, can be used to make probability statements regarding the future course of
that series. However, the probability density, and its resulting interpretation, is conditional
on the hypothesis that the model used to produce the forecasts is correctly specied.
Recall that, if g(x; y) denotes the joint density of (X;Y ) and h(x) denotes the marginaldensity of X, then the conditional density of Y given X = x is obtained by f(x; y) =g(x; y)=h(x). The standard nonparametric regression does not allow the analysis of changesin modality, and standard density estimation does not allow conditioning on an explanatory
variable. Notice also that conditional density estimation is, in some ways, a generalization
of both nonparametric regression and standard univariate density estimation. The kernel
conditional density estimation was rst considered by Rosenblatt (1969) who studied the
problem of estimating the density of Y given X = x where X is an univariate randomvariable.
On the other hand, estimators of the conditional mode, the conditional distribution and
the conditional median can be derived directly from estimators of f(x; y). For instance inCollomb et al. (1987) it is shown how one can get an estimator of the conditional mode
and how such an estimator can be used for forecasting problems (cf. to cite a few, Hrdle
(1990), Gannoun (1990), Youndj (1993 and 1996) and the references therein). Moreover, It
is important to mention that estimators of conditional modes are of particular interest for
prediction (cf. Collomb et al. (1987) and Ferraty et al. (2005)).
Furthermore, the problem of the conditional density estimation appears to have lain free of
scrutiny until it was revisited and some improved estimators were proposed (cf. Hyndman
et al. (1996), and references therein for some developments). Indeed, the following modied
form of Rosenblatt's estimator was considered :
bf(a;b)(x; y) = b1Pnj=1K(a1jjxXj jjx)K(b1jjy Yj jjy)Pnj=1K(a
1jjxXj jjx) (1)
where (X1; Y1); : : : ; (Xn; Yn) is a sample of independent observations from the distributionof (X;Y ) and jj:jjx and jj:jjy are metrics on the spaces values of X and Y , respectively.
2.1. Introduction 37
The kernel function, K(u), is assumed satisfying some specic conditions. Popular choicesof K(u) are dened in terms of univariate and unimodal probability density functions. Mo-reover, Youndj (1993 and 1996), Hyndman et al. (1996) and others give the bias, variance,
mean squared error (MSE) and convergence properties of the estimator (1) and proposed
also an alternative kernel estimator with smaller MSE than the standard estimator in some
commonly occurring situations. On the other, we can not continue our introduction without
mentioning the work by Fan et al. (1996), who proposed an alternative conditional density
estimator by generalizing Rosenblatt's estimator using local polynomial techniques. Then,
Hyndman and Yao (1998) introduced two further local parametric estimators which improve
on the estimators given by Fan et al. (1996). Stone (1994), meanwhile, followed a dierent
path by using tensor products of polynomial splines to obtain conditional log density es-
timators. For other studies on the nonparametric estimation of the conditional density we
refer also to Gannoun (1990), Youndj (1993 and 1996), Hall et al. (1999), Hrdle et al.
(1991), Bashtannyk and Hyndman (2001), Gannoun et al. (2003), El Ghouch and Genton
(2009) and the references therein.
In this paper, we are interested in the ecient estimation of the conditional probability
density when the explanatory variables are of functional type. It should be noticed that,
these questions in the innite dimensional framework are particularly interesting, at once
for the fundamental problems they formulate, but also for many applications they may allow
(cf. Bosq (2000), Ramsay and Silverman (2005), Ferraty and Vieu (2006) and references
therein). In fact, in this conditional context, the rst results were obtained by Ferraty and
Vieu (2005) and Ferraty et al. (2006). They established the almost-complete consistency,
in both cases i.i.d. and strongly mixing data, of the kernel estimators of the conditional
distribution function and of the conditional probability density. Moreover, they presented
some applications of their results on both the conditional mode and on conditional quantiles.
Among the lot of papers which are concerned with the nonparametric modelization related
to the conditional distribution of a real variable given a random variable taking values in
innite dimensional spaces, we refer only to Dabo-Niang and Laksaci (2007) for the conditio-
nal mode estimation, and to Laksaci (2007) for the asymptotic expression of leading terms
in the quadratic error of conditional density kernel estimators.
On the other hand, it is well known that kernel estimators have some nice asymptotic pro-
perties when the curse of dimensionality is controlled by means of suitable considerations
on the small ball probabilities of the functional variable (cf. Ferraty and Vieu 2006 and
references therein). However it is also well-known that, as in the standard nite dimensional
framework, the smoothing parameter has to be selected suitably for insuring good practical
performances (cf. Laksaci, 2007). Notice that, some papers, (cf. for instance, Youndj et al.,
1993), have treated the problem of the smoothing parameter selection in the nonparametric
estimation of the conditional density, by using some techniques quite dierent from ours, but
only in the nite dimensional setup. Furthermore, the selection of the smoothing parameter
in the innite dimensional setting is much more complicated. In particular, the so-called
scatterplot which is a graphical tool for exploring the relationship between the explanatory
variables and the scalar response is not available, and hence it becomes very hard to have
some informations on the shape of the relationship between the functional variable and the
38 2. Choix de la largeur de fentre
scalar response. Therefore, various areas with dierent (low/high) concentrations can appear
in such a relationship even though it does not appear in the functional data sample (cf. for
instance, the simulated curves in Section 2.4.2). It is also clear, in the innite dimensional
setup, that the concentration of the distribution of the functional explanatory variable will
have an inuence on the value of some appropriate bandwidth (the variance of the estimator
increases when the concentration of the distribution of the functional covariates decreases
which is the case when the bandwidth value's decreases (cf. conditions (17) and (14)). Mo-
reover, in areas where the functional covariates have low concentration, the bandwidth has
to be taken suciently large to include enough data curves, while a smaller bandwidth can
be used in areas where the functional covariates have high concentration. It should, thus, be
noted that Rachdi and Vieu (2007) (respectively Benhenni et al., 2007) proposed a global
(respectively a local adaptive) cross-validation procedure for the regression operator estima-
tion for functional data, which has inspired this work.
The main aim of this paper is then the construction of both global and local functional cross-
validation procedures. We remark that a local bandwidth choice can signicantly improve
the precision of the prediction in the functional setting than the global one. In section 2, the
data-driven methods are dened. The main hypotheses and results are enounced in section 3.
In section 4, we propose a simulation study showing how an optimal local bandwidth choice
improves the usual global selection rule for some irregular functional covariates. Finally,
asymptotic theoretical support is given in section 5, and the proofs of the auxiliary results
are relegated to the Appendix.
2.2 Global and local bandwidth selection rules
Let us introduce a sample of independent pairs (Xi; Yi)1in identically distributed as (X;Y )which is valued in FR, where (F ; d) is a semi-metric space equipped with a semi-metric d.Assume that there exists a regular version of the conditional probability of Y given X, whichis absolutely continuous with respect to the Lebesgue measure on the real line R. Let f(x; )denote the conditional probability density of the random variable Y given X = x 2 F ,which we have to estimate. For this aim, we dene the kernel estimator
bf(a;b) of f as in (1),but by considering two dierent kernel functions as follows :
8x 2 F and 8y 2 R; bf(a;b)(x; y) = b1Pni=1K(a1d(x;Xi))H(b1(y Yi))Pni=1K(a
1d(x;Xi))(2)
where K is a kernel and a = aK;n (respectively b = bH;n) is a sequence of positive realnumbers. Notice that the estimator (2) has been used by Roussas (1968) in the real case
and by Ferraty et al. (2006) in the functional case.
The main goal of this paper is to construct and study the asymptotic behavior of a data dri-
ven method which optimally selects the smoothing parameters (a; b). To do that, we proposeto use a rule which is based on the classical leave-out-one-curve cross-validation procedure
and to study its asymptotic behavior in the mean squared sense. Indeed, commonly with the
2.2. Global and local bandwidth selection rules 39
majority of the earlier works on the bandwidth selection, our rule is based on the minimiza-
tion of the integrated squared error which is weighted by the probability measure, dPX(x),of the functional variable X and some nonnegative weight functions W1 and W2 :
d1( bf(a;b); f) = Z Z bf(a;b)(x; y) f(x; y)2W1(x)W2(y) dPX(x) dy (3)A discrete approximation of (3) is the averaged squared error given by :
d2( bf(a;b); f) = 1nnXi=1
bf(a;b)(Xi; Yi) f(Xi; Yi)2 W1(Xi)W2(Yi)f(Xi; Yi) (4)or, also, the mean integrated squared error :
d3( bf(a;b); f) = Z Z IE bf(a;b)(x; y) f(x; y)2W1(x)W2(y)dPX(x)dy (5)However, these loss functions depend on the conditional density f , so the smoothing para-meter that minimizes these errors is not computable in practice. Thus, we must nd another
loss function which is asymptotically equivalent to the quadratic distances (3), (4) and (5).
Following the same ideas as in Youndj (1996) for the real case, we can write that :
d1( bf(a;b); f) = A+B 2Cwhere
A =
Z Z bf2(a;b)(x; y)W1(x)W2(y)dPX(x)dyB =
Z Zf2(x; y)W1(x)W2(y)dPX(x)dy
C =
Z Z bf(a;b)(x; y)f(x; y)W1(x)W2(y)dPX(x)dySince the second termB is independent of (a; b), the problem of minimizing d1 is equivalent tothat of minimizing A2C. A straightforward way to construct a computational procedure toselect the optimal bandwidths (a; b) with respect to the error measure d1 is to estimator theboth quantities A and C. For this aim, as mentioned above, we adopt the standard leave-out-one-curve technique as in Rudemo (1982) for the probability density estimation and
Rachdi and Vieu (2007) for the regression operator estimation, by considering the following
criteria :
GCV (a; b) =1
n
nXi=1
W1(Xi)
Z bfi2(a;b)(Xi; y)W2(y)dy 2nnXi=1
bfi(a;b)(Xi; Yi)W1(Xi)W2(Yi) (6)and respectively, for a xed y 2 R :
LCVx;y(a; b) =1
n
nXi=1
W1;x(Xi)
Z bfi2(a;b)(Xi; z)W2;y(z)dz 2nnXi=1
bfi(a;b)(Xi; Yi)W1;x(Xi)W2;y(Yi)(7)
40 2. Choix de la largeur de fentre
where W2;x (respectively W2;y) is some positive local weight function around x (respectivelyy), and for any i = 1; : : : ; n :
bfi(a;b)(x; y) = b1Pn
j 6=iK(a1d(x;Xj))H(b1(y Yj))Pn
j 6=iK(a1d(x;Xj)): (8)
These criteria are obtained by using the fact that
C =
Z Z bf(a;b)(x; y)f(x; y)W1(x)W2(y)dPX(x)dy=
Z Z bf(a;b)(x; y)W1(x)W2(y)dPY jX=x(y)dPX(x)=
Z Z bf(a;b)(x; y)W1(x)W2(y)dP(X;Y )(x; y)= IE(X;Y )
bf(a;b)(X;Y )W1(X)W2(Y )and
A = IEX
Z bf2(a;b)(X; y)W1(X)W2(y)dywhere IEZ denotes the expectation with respect to the distribution of the random variableZ.
Finally, our global (respectively, local) cross-validation procedure consists in choosing the
bandwidths (a; b) which minimize GCV (a; b) (respectively, LCVx;y(a; b)) on a given setHn IR+2 (respectively, Hn(x; y) IR+2).
2.3 Main Results
2.3.1 Assumptions
In order to deduce the asymptotic optimality of the bandwidth selected by the rule GCV(respectively, LCVx;y), we will assume that the weight function W1 (respectively W2) isbounded with support in some subset SX of F (respectively on a compact subset SY of IR)and the conditional density f(; ) is bounded on SX SY . In the sequel of this paper, whenno confusion is possible, we will denote by C and C 0 some strictly positive generic constantsand we will make the following assumptions :
The weight functions are taken, for each curve x, such that for some positive real w :
w = a for 0 < < 1 and W1;x is bounded and supported in B(x;w) (9)
where B(x; h) denotes the closed ball with center x and radius the real h > 0,
8x 2 SX ; 0 < C(h) IP (X 2 B(x; h)) C 0(h) (10)
2.3. Main Results 41
where (h) is a positive real function such that limh!0
(h) = 0.
There exist some strictly positive constants b1, b2 and , such that : 8(x0; y0) 2 SX SY ,8(x1; x2) 2 SX SX and 8(y1; y2) 2 SY SY , we have :
f(x0; y0) > and jf(x1; y1) f(x2; y2)j Cdb1(x1; x2) + jy1 y2jb2
(11)
The kernel K is a bounded and Lipschitzian kernel on its support (0; 1), and there existsome positive constants C and C 0 such that :
0 < C < K(t) < C 0 >>:9C > 0; 90 > 0; 8 < 0; 0() < Cand if K(1) = 0; the function (:) has to fulll the additional condition :
9C > 0; 90 > 0; 80 < < 0;Z 0(u) du > C ()
(14)
For n large enough, the Kolmogorov's -entropy of SX denoted by SX (cf. for instance,Kolmogorov and Tikhomiros (1959) and Theodoros and Yannis (1997)) satises, for some
2 (0; 1) :1Xn=1
n(3+1)=2 exp
(1 ) SX
log n
n
1 (15)
and for all (a; b) 2 Hn we have :lim
n!+1n
b =1 and (a) Cn for some 2 (0; 2 2) (16)
2.3.2 Some interpretations and examples on our hypotheses
It is worth observing that these conditions are not very restrictive. The hypotheses (10)-(14)
are very standard in the functional nonparametric setting. More precisely :
The hypothesis (10) is a simple uniformization of the concentration property of the
probability measure on the small balls. This assumption is satised for a large family
of random functional variables. Indeed, in many examples, the small ball probability
function IP (X 2 B(x; h)) can be written approximatively as the product of two inde-pendent functions g(x) and (h), as in the following examples, which can be found inFerraty et al. (2007) :
42 2. Choix de la largeur de fentre
(i) IP (X 2 B(x; h)) = g(x)h for some > 0(ii) IP (X 2 B(x; h)) = g(x)h exp
Chp
for some > 0 and p > 0
(iii) IP (X 2 B(x; h)) = g(x)j log(h)jThus, condition (10) is automatically veried if the function g satises :
0 < C < infx2SX
g(x) supx2SX
g(x) < C 0
2.3. Main Results 43
2. The unit ball of the Cameron-Martin space associated to the standard stationary
Ornstein-Uhlenbeck process viewed as a map in the Sobolev space W 12 (0; 1) withthe covariance operator :
C(s; t) = exp (ajs tj) ; for a > 0
For this subset, we have :
SX
log n
n
= O(log n)
3. The closed ball B(0; r) in the Sobolev space dened by the class of functions x(t)on T = [0; 2p), such that :
1
2
Z 20
x2(t)dt+1
2
Z 20
x(m)2(t)dt r
where x(m)() denotes the mth derivative of x. In this case :
SX
log n
n
= O(n1=m)
4. The compact subsets in the nite dimensional spaces, or in the projection semi-
metric in Hilbert spaces where :
SX
log n
n
= O(log n)
Notice that, the inequality (H5b) in Ferraty et al. (2010) is not necessary here because
such assumption is used to precise the convergence rate of the uniform consistency
which is not necessary. In other words, the uniform consistency of the kernel estimator
of the conditional density (without any precision on the convergence rate) is sucient
to show our results.
Conditions (9) and (16) are equivalent to those used by Rachdi and Vieu (2007) and
Benhenni et al. (2007) for the global and local cross-validation procedures in the
operatorial regression estimation. In fact, these hypotheses are the functional versions
of those used by Hrdle and Marron (1985) and Youndj (1996) in the usual real case.
The condition (9) on the weight function is similar to that in Vieu (1991), and allows
to give more importance to observations around the curve x.
2.3.3 Two theorems on global and local criteria
Theorem 2.3.1. Under hypotheses (10)-(16), if the set Hn of bandwidths (a; b) is nitewith :
#(Hn) = O(n) for some > 0; where # denotes the cardinality (17)
44 2. Choix de la largeur de fentre
then, we have for k = 1; 2; 3, that :
dk( bf(a1;b1); f)dk( bf(a0;b0); f) ! 1 almost surely (a.s.), as n! +1 (18)where
(a0; b0) = (a0K;n ; b0H;n) = arg inf(a;b)2Hn
dk( bf(a;b); f)and (a1; b1) = (a1K;n ; b1H;n) = arg inf
(a;b)2HnGCV (a; b)
On the local framework, we suppose that (15) is veried for SX = B(x;w) and we deducethe same optimality results, for the local criterion.
Theorem 2.3.2. Under hypotheses (9)-(16), if the set Hn(x; y) of bandwidths (a; b) is nitewith :
#(Hn(x; y)) = O(n(x;y)) for some (x; y) > 0; (19)
then, we have for k = 1; 2; 3, that :
dk( bf(a1;b1); f)dk( bf(a0;b0); f) ! 1; a.s., as n! +1 (20)where
(a0; b0) = (a0K;n ; b0H;n) = arg inf(a;b)2Hn(x;y)
dk( bf(a;b); f)and (a1; b1) = (a1K;n ; b1H;n) = arg inf
(a;b)2Hn(x;y)LCVx;y(a; b)
2.4 Discussion and applications
2.4.1 On the applicability of the method
It is well know that, the estimation of the conditional probability density is an important
tool permitting the analysis of the input-output relation in nonparametric statistics. Such
nonparametric model provides a broader range of relevant information on the covariation
between two random variables. Moreover, if a conditional density estimator is available, it is
easy to make the prediction via the conditional mode estimator, to derive prediction intervals
or to determine the probabilities of extreme values. So, the optimality of all these statistical
studies is closely linked to the construction of the optimal estimator of the conditional
density. In order to emphasize the practical aspects of our study, we discuss in the rest of
this section the applicability of our bandwidth selection approach on some nonparametric
models, frequently used in practice, for which this question of the bandwidth selection is
inherent to derive their best properties.
2.4. Discussion and applications 45
The conditional mode estimation : often, the prediction of the values of the response variable
knowing an explained one is obtained by estimating the conditional expectation. However,
the latter may not be suciently informative, when the conditional distribution possesses
mu