Download - These Madani

Thse

pour obtenir le grade de

Docteur de l'Universit de Grenoble

Spcialit Statistique

Arrt ministriel : 7 aot 2006

Prsente et soutenue publiquement par

Fethi Madani

le (//2012)

Aspects thoriques et pratiques dans l'estimation

non paramtrique de la densit conditionnelle

pour des donnes fonctionnelles

JURY

Jacques Demongeot Univ. Joseph Fourier, Grenoble Prsident

Pascal Sarda Universit Le Mirail, Toulouse Rapporteur

Elias Ould-Sad Univ. du Littoral Cte d'Opale, France Rapporteur

Mustapha Rachdi Univ. P. Mends France, Grenoble Directeur de thse

Ali Laksaci Univ. D. Liabs Sidi Bel Abbs, Algrie Examinateur

Idir Ouassou ENSA, Marrakech, Maroc Examinateur

Sophie Lambert-Lacroix Univ. P. Mends France, Grenoble Examinateur

Thse prpare au sein du laboratoire AGe Imagerie et Modlisation (AGIM) dans l'cole

Doctorale Mathmatiques, Sciences et Technologies de l'Information, Informatique.

Table des matires

Table des matires 3

0.1 Description et Contribution de cette thse . . . . . . . . . . . . . . . . . . . . 9

0.2 Contexte bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1 Introduction aux donnes fonctionnelles et l'estimation de la densit

conditionnelle 15

1.1 Donnes fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2 Donnes fonctionnelles vs semi-mtrique . . . . . . . . . . . . . . . . . . . . . 18

1.2.1 Probabilits des petites boules . . . . . . . . . . . . . . . . . . . . . . 21

1.2.2 Champs d'application des donnes fonctionnelles . . . . . . . . . . . . 22

1.3 Quelques rsultats sur l'estimation non-paramtrique pour des modles fonc-

tionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.3.1 Notations et hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.3.2 Estimation de la loi conditionnelle . . . . . . . . . . . . . . . . . . . . 29

1.3.3 Estimateur noyau de la densit conditionnelle . . . . . . . . . . . . . 30

1.3.4 Estimation du mode conditionnel . . . . . . . . . . . . . . . . . . . . . 31

2 Kernel conditional density estimation when the regressor is valued in a

semi-metric space 35

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.2 Global and local bandwidth selection rules . . . . . . . . . . . . . . . . . . . . 38

2.3 Main Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.3.1 Assumptions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.3.2 Some interpretations and examples on our hypotheses . . . . . . . . . 41

2.3.3 Two theorems on global and local criteria . . . . . . . . . . . . . . . . 43

2.4 Discussion and applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.4.1 On the applicability of the method . . . . . . . . . . . . . . . . . . . . 44

2.4.2 On the nite-sample performance of the method . . . . . . . . . . . . 47

2.4.3 A real data application . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.5 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.6 Appendix : Proofs of technical lemmas . . . . . . . . . . . . . . . . . . . . . . 56

3

4Bibliography 62

3 Functional data : Local linear estimation of the conditional density and

its application 67

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.2 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.3 Pointwise almost complete convergence . . . . . . . . . . . . . . . . . . . . . . 69

3.4 Uniform almost complete convergence . . . . . . . . . . . . . . . . . . . . . . 71

3.5 Application : Conditional mode estimation . . . . . . . . . . . . . . . . . . . . 73

3.6 Appendix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

Bibliography 85

4 A fast functional locally modeled of the conditional density and mode in

functional time series 87

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.2 Main results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.3 Concludes remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.4 Appendix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

Bibliography 102

5 On the quadratic error of the functional local linear estimate of the condi-

tional density 107

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.2 The model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.3 Main results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.4 Some comments and discussion . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.5 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

Bibliography 119

6 Estimation locale linaire des paramtres conditionnels pour des donnes

fonctionnelles : Application sur des donnes simules et relles 121

6.1 Illustration du mode conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . 121

6.2 Illustration de la densit conditionnelle . . . . . . . . . . . . . . . . . . . . . . 126

6.3 Application sur des donnes relles . . . . . . . . . . . . . . . . . . . . . . . . 127

7 Conclusion et Perspectives 133

7.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

8 Bibliographie gnrale 135

5Rsum

Dans cette thse, nous nous intressons l'estimation non paramtrique de la den-

sit conditionnelle d'une variable rponse relle conditionne par une variable explicative

fonctionnelle de dimension ventuellement nie.

Dans un premier temps, nous considrons l'estimation de ce modle par la mthode

double noyaux. Nous proposons une mthode de slection pour le choix du paramtre de

lissage (global ou local) des paramtres de lissage et nous montrons son optimalit asymp-

totique dans le cas o les observations sont indpendantes et identiquement distribues. Le

critre adopt est issu du principe de validations croises. Dans cette partie nous comparons

galement les deux types de choix (local et global).

Dans la deuxime partie, nous estimons la densit conditionnelle par la mthode des

polynmes locaux. Sous certaines conditions, nous tablissons des proprits asymptotiques

de cet estimateur tel la convergence presque complte et la convergence en moyenne quadra-

tique dans le cas o les observations sont indpendantes et identiquement distribues. Nous

traitons aussi le cas o les observations sont de type - mlangeantes, dont on montre laconvergence presque complte (avec vitesse) de l'estimateur propos. Les rsultats obtenus

sont galement illustrs par des exemples sur des donnes simules montrant l'applicabilit

rapide et facile de cette mthode d'estimation dans le cadre fonctionnel.

6Summary

In this thesis, we consider the problem of the nonparametric estimation of the conditional

density when the response variable is real and the regressor is valued in a functional space.

In the rst part, we use the double kernels method as a estimation method where we

focus on the choice of the smoothing parameters. We construct data a driven method to select

optimally bandwidths parameters. As main results, we study the asymptotic optimality

of this selection's method in the case where observations are independent and identically

distributed. Our selection rule is based on the classical cross-validation procedure and it

deals with the both (global or local ) choice. The nite sample performance of our approach

is illustrated by some simulation results where we give a comparison between the two types

of choice (local or global).

In the second part, we estimate the conditional density by the local linear method.

Under some general conditions, we establish the almost complete convergence of the proposed

estimator (with rate) in the both cases ( i.i.d. case and the -mixing case) . As application,we use the conditional density estimator to estimate the conditional mode estimation and

we derive the same asymptotic proprieties.

Further, we study the quadratic error of this estimator by giving the asymptotic ex-

pansion of the exact expression involved in the leading in the bias and variance terms.

7Liste des travaux

Publications dans des revues comits de lecture

1. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi. Local Linear estimation of the

conditional density for functional data. C. R., Math., Acad. Sci. Paris, 348, Issues

15-16, Pages 931-934, (2010).

2. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi. Functional data : local linear esti-

mation of the density and its application. Statistics, DOI : 10.1080/02331888.2011.568117

( paratre en 2012).

3. J. Demongeot, A. Laksaci, F. Madani and M. Rachdi (2011). A fast functional locally

modeled conditional density and mode for functional time-series. Recent Advances in

Functional Data Analysis and Related Topics Contributions to Statistics, Physica-

Verlag/Springer, 2011, 85-90, DOI : 10.1007/978-3-7908-2736-1_13

4. A. Laksaci, F. Madani and M. Rachdi. Kernel conditional density estimation when the

regressor is valued in a semi-metric space. Accept pour publication dans : Communi-

cations Statistics-Theory and Methods, 2012.

Communications dans des congrs

1. Local bandwidth selection for kernel conditional density estimation when the regressor

is valued in a semi-metric space. Colloque international de Statistique des processus

et Applications, CISPA 2008, Constantine : 18-19 octobre 2008.

2. Local bandwidth selection for kernel conditional density estimation when the regressor

is valued in a semi-metric space. Journes de Statistique, Modlisation et Application

JSMA'08, Alger : 22-23-24 novembre 2008.

3. Some asymptotics for conditional parameters when the data are curves. International

Conference on Statistics, Theory and Practice, Sidi Bel-Abbs, 10-12 avril 2010.

Introduction gnrale

0.1 Description et Contribution de cette thse

La statistique non paramtrique connat un grand essor chez de nombreux auteurs et dans

dirents domaines. En eet, celle-ci possde un champ d'application trs large permettant,

ainsi, l'explication de certains phnomnes mal modliss jusqu' prsent, tels que les sries

chronologiques, et prdire les ralisations futures.

Il faut mentionner, par ailleurs, que les progrs atteints dans les procds de recueil de don-

nes ont permis d'orir la possibilit aux statisticiens de disposer de plus en plus souvent

d'observations de variables dites fonctionnelles, c'est--dire de courbes. Ces donnes sont

modlises comme tant des ralisations d'une variable alatoire prenant ses valeurs dans

un espace abstrait de dimension ventuellement nie. Dans cette thse, nous nous intres-

sons l'estimation non paramtrique de la densit conditionnelle et les paramtres qui en

dcoulent, comme le mode conditionnel, pour des variables alatoires fonctionnelles.

Dans le but de prsenter les travaux que nous avons ralis durant la ralisation de cette

thse, celle-ci est organis comme suit :

Le chapitre suivant, est un chapitre Introductif, qui prsente une tude bibliographique des

problmes lis l'analyse statistique des variables fonctionnelles ainsi qu' l'estimation non

paramtrique des paramtres conditionnels que ce soit dans le cadre de dimension nie ou

innie. Ensuite, dans le chapitre 1, nous abordons l'tat de l'art des variables fonctionnelles

et leurs champs d'application. De plus, an de rendre la lecture de cette thse simple, nous

exposons les rsultats obtenus, dans la littrature, concernant l'estimation de la densit et

du mode conditionnels, tout en fournissant et discutant les hypothses qui ont permis d'ob-

tenir ces rsultats.

Dans le chapitre 2, nous commenons par construire et tudier les proprits asymptotiques

de l'estimateur noyau de la densit conditionnelle quand la variable explicative est va-

leurs dans un espace norm. Ensuite, nous proposons deux critres (le premier global et

le second local) de choix automatique du paramtre de lissage an de rendre ecace notre

9

10 Chapitre 0. Introduction gnrale

estimation. Enn, nous tablissons les rsultats thoriques ainsi que pratiques d'optimalit

asymptotique du paramtre slectionn.

Une suite logique de ce chapitre veut que l'on amliore les rsultats obtenus. C'est pour-

quoi le chapitre 3 est consacr l'tude d'une mthode d'estimation non paramtrique de

la densit conditionnelle d'une variable scalaire Y sachant une variable fonctionnelle X i.e.,une variable valeurs dans un espace semi-mtrique. Cette mthode est base sur une esti-

mation par polynmes locaux. Une fois la construction de notre estimateur, l'image de ce

qui se fait en dimesnion nie, est acheve, nous nous sommes attel tablir sous certaines

conditions, les convergences ponctuelle et uniforme presques compltes ainsi que les vitesses

de convergence de cet estimateur. Nous avons utilis, ensuite, les rsultats obtenus an de

dterminer les proprits asymptotiques de l'estimateur local linaire du mode conditionnel.

Le chapitre 4 quant lui, est destin l'tude, sous certaines conditions de dpendance

faible (mlange fort), de la convergence forte de l'estimateur du chapitre prcdent, ainsi

qu' la prvision d'une srie temporelle par l'estimation du mode conditionnel.

Tandis que dans le chapitre 5, nous avons tabli les vitesses de convergence dans l'estima-

tion en moyenne quadratique de l'estimateur tudi dans les deux chapitres prcdents, le

chapitre 6 est consacr la mise en application de ces rsultats pour des donnes simules

puis pour des donnes relles.

Enn, dans le chapitre 7 nous exposons des perspectives de recherche permettant d'tendre

et parfois de gnraliser les rsultats de cette thse.

0.2 Contexte bibliographique

L'analyse statistique pour des variables fonctionnelles a pris une ampleur considrable ces

dernires annes. Ce domaine de recherche en statistique connat actuellement un grand

succs auprs de la commuaut des statisticiens. La preuve de cet intrt est la publication

de nombreuses publications scientiques sur ce sujet ainsi que les nombreuses applications

pratiques auquelles ces donnes s'y prtent. C'est le cas, notamment, lorsque l'on s'int-

resse aux techniques d'estimation quand les donnes sont fonctionnelles (cf. Kneip et Gasser

(1992), Ramsay et Li (1996), Rice et Silverman (1991)). Il existe, en fait, deux principales

raisons l'engouement suscit par le traitement statistique des variables fonctionnelles : (1)

cela permet d'utiliser et de dvelopper des outils thoriques performants, (2) cela ore un

norme potentiel en terme d'applications, notamment, en imagerie, en agro-alimentaire, en

reconnaissance de formes, en gophysique, en conomtrie, en environnement, : : :. De plus,cette thmatique de recherche couvre tous les domaines concerns par la comunaut de sta-

tisticiens : des plus appliqus aux plus thoriques sans prdominance de l'une sur l'autre.

D'abord, signalons les eorts considrables qui ont t dploys pour la gnralisation des

0.2. Contexte bibliographique 11

rsultats connus et tablis en dimension nie grce l'ouvrage de Ferraty et Vieu (2006).

Celui-ci est devenu une rfrence en statistique non-paramtrique pour des donnes fonc-

tionnelles. Notons que, l'analyse des donnes statistiques fait toujours intervenir le facteur

dimension dans le comportement asymptotique des estimateurs tablis. D'autant plus qu'il

est connu que les vitesses de convergence se dgradent au fur et mesure que la dimension

augmente. Rappelons ici que les mthodes bases sur la dicrtisation des donnes fonction-

nelles ont t adoptes pour adapter les rsultats de la statistique non-paramtrique au cas

de donnes multivaries.

Vu l'avance qu'a connu l'outil informatique dans la faon de rcolter les donnes, d'autres

alternatives sont devenues obligatoires an de surmonter cette dicult et d'tudier les don-

nes dans leurs propre dimensions.

D'ailleurs, le traitement des donnes en tant que courbes remonte aux annes soixantes

lorsque plusieurs tudes dans direntes disciplines se sont confrontes des observations

sous forme de trajectoires (cf. entre autres, Holmstrom (1961) en climatologie, Deville (1974)

en dmographie, Molenaar et Boomsma (1987) puis Kirkpatrick (1989) en gntique,...)

Il est bien connu qu'en statistique, le modle de rgression (paramtrique ou non-paramtrique)

en dimension nie, constitue un champ de recherche et d'application trs important, nous

renvoyons ici aux travaux de Collomb (1981, 1985) qui ds le dbut des annes quatre-vingt

font dj tat de nombreux dveloppements varis sur ce thme. Il convient, galement, de

se rfrer aux ouvrages de Hrdle (1990), Bosq et Lecoutre (1987) et Schimek (2000) qui

dressent un bilan presque exhaustif sur les diverses techniques en la matire. Ces champs

de la recherche en statistique sont encore potentiellement porteurs la fois au niveau des

dveloppements thoriques et cause des multiples possibilits d'application.

Par ailleurs, les applications lies au modle de rgression ont une place trs importante

dans la prvision des sries chronologiques issues de direntes disciplines telles que la com-

munication, les systmes de contrle, la climatologie ainsi que l'conomtrie. Il s'agit, donc,

de domaines de prvision pour lesquels les premiers rsultats consquents furent implants

par Collomb (1981) et Robinson (1983). Ce domaine de la statistique connat des dvelop-

pements continus, comme en tmoignent les nombreuses ralisations (cf. Gyet al. (1989),

Yoshihara (1994), Hrdle et al. (1997) et Bosq (1991),...)

Commenons par signaler que, l'estimation de la loi de probabilit ou de la fonction de

distribution joue un rle important dans l'estimation d'autres paramtres fonctionnels. Les

premiers travaux concernant l'estimation de la loi de probabilit des variables fonctionnelles

ont t raliss par Geroy (1974), Gasser et al. (1998). Notons aussi que, Cadre (2001) s'est

intress l'tude de la mdiane d'une distribution pour une variable fonctionnelle valeurs

dans un espace de Banach.


Nous faisons remarquer que les paramtres conditionnels, tels que la distribution condition-

nelle, la densit conditionnelle, le mode conditionnel, le quantile conditionnel et la fonction

de hasard conditionnelle, sont largement tudis en dimension nie. A travers ces para-

mtres, la prvision dans les modles non-paramtriques ore une vritable alternative

la rgression non paramtrique. Il faut dire qu'en dimension nie, il existe une litrature

abondante pour ces paramtres conditionnels. Roussas (1968) fut le premier tablir des

proprits asymptotiques pour l'estimateur noyau de la distribution conditionnelle, pour

des donnes markoviennes, pour lesquelles il a montr la convergence en probabilit. Youndj

(1993) quant lui, il s'est intress l'tude de la densit conditionnelle pour des donnes

dpendantes ou indpendantes. On peut, notamment, citer le travail men par Laksaci et

Yousfate (2002) et dans lequel ils ont tabli, pour un processus markovien stationnaire, la

convergence en norme Lp de l'estimateur noyau de la densit conditionnelle.

Vu l'intrt que revt l'estimation du mode et du mode conditionnel dans le domaine de

la prvision, plusieurs auteurs s'en sont intresss. Nous pouvons citer par exemple, Perzen

(1962) qui a t l'un des premiers considrer le probme de l'estimation du mode d'une

densit de probabilit univarie. Il a montr que, sous certaines conditions, l'estimateur du

mode obtenu en maximisant un estimateur noyau est convergent et est asymptotiquement

normal quand les donnes sont indpendantes et identiquement distribues (i.i.d). Les tech-

niques de base qu'il a developp pour cette tude ont t reprises par de nombreux auteurs

dans le cas de la densit de probabilit ou de la rgression. Nous n'avons mentionn ici que

les principales contributions, en ayant essentiellement en vue la normalit asymptotique.

Notons aussi que Nadaraya (1965) et VanRyzin (1969) ont dmontr la convergente forte de

l'estimateur du mode mis en place par Perzen, alors que Samanta (1973) et Konakov (1974)

ont tudi des versions multivaries de cet estimateur. Les travaux d'Eddy (1980 et 1982),

quant eux, ils ont permis d'aaiblir les conditions susantes de normali asymptotique qui

aurait t donnes initialement. Par ailleurs, grce des conditions locales, Romano (1980),

a aaibli les hypothses prcedentes. Notons aussi que Vieu (1996) a compar deux estima-

teurs noyau du mode dont le premier est dni partir du maximun d'un estimateur de la

densit de probabilit et le second partir du zero d'un estimateur de la drive de celle-ci.

Ce travail a t repris par Rachdi et Sabre (2000) an d'estimer le mode de la densit de

probabilit quand les donnes sont entaches d'erreurs additives (les problmes de dconvo-

lution). Il y a aussi, entre autres, Louani (1998) qui a tabli la normalit asymptotique pour

la densit et ses drives avec application au mode.

Concernant le mode conditional, les proprits de convergence et de normalit asympto-

tiques ont t tablies par Samanta et Thaavaneswaran (1990) dans le cadre de donnes

indpendantes et identiquement distribues, alors que des conditions de convergence dans

le cas de donnes -mlangeantes ont t tablies par Collomb et al. (1987), dans le casde donnes -mlangeantes par Ould-Sad (1993), dans le cas de donnes ergodiques parRosa (1993) et Ould-Sad (1997). De leur cot, Quintela et Vieu (1997) ont estim le mode

conditionnel comme tant le point annulant la drive d'ordre un de l'estimateur de la den-

sit conditionnelle et ils ont tabli la convergence presque complte de cet estimateur sous

0.2. Contexte bibliographique 13

la condition d'-mlangeance. Berlinet et al. (1998), quant eux, ils ont prsent des r-sultats sur la normalit asymptotique des estimateurs convergents du mode conditionnel,

indpendamment de la structure de dpendance des donnes avec une application au cas

d'un processus stationnaire -mlangeant. Tandis que Louani et Ould-Sad (1999) ont ta-bli la normalit asymptotique dans le cas de donnes fortement mlageantes et dans le cas

de donnes censures. Ould-Sad et Cai (2005), quant eux, ils ont tabli la convergence

uniforme sur un compact.

Par ailleurs, dans le cadre de donnes valeurs dans un espace de dimension eventuellement

nie, les travaux de Ramsay et Silverman (2002 et 2005) constituent un recueil important de

mthodes statistiques, principalement du point de vue pratique, mais des dveloppements

thoriques peuvent tre trouvs dans Bosq (2000) et Ferraty et Vieu (2006).

Une contribution qui s'avre importante dans la construction de l'estimateur des paramtres

dans le modle de rgression linaire est celle qui est due Cardot et al. (1999). Elle consiste

en la construction d'un estimateur pour l'oprateur de rgression partir des proprits

spectrales de l'estimateur empirique de l'oprateur de covariance de la variable explicative

fonctionnelle. Ils ont tabli, galement, les convergences en probabilit et presque sre de

l'estimateur construit. Ce travail a t revisit dans Cuevas et al. (2002). Dans celui-ci,

une tude des proprits asymptotiques de l'estimateur de l'oprateur de rgression linaire

quand la variable explicative est fonctionnelle dterministe et la rponse est fonctionnelle

alatoire a t conduite. Cardot et al. (2004a, 2004b et 2005) ont propos et tudi des

mthodes d'estimation linaire de l'oprateur de rgression par quantiles conditionnels. Une

autre mthode d'estimation des quantiles conditionnels partir de l'estimation noyau de

la fonction de rpartition conditionnelle a galement t propose et tudie par Ferraty et

al. (2005), Ferraty et al. (2006), Ferraty et Vieu (2006a) et Ezzahrioui (2007). D'autres m-

thodes ont t proposes an d'estimer la rgression par le mode conditionnel. Celles-ci sont

bases sur l'estimation de la densi conditionnelle par des estimateurs noyau (cf. Ferraty

et al. (2005), Ferraty et Vieu (2006a), Ferraty et al. (2006), Dabo-Niang et Laksaci (2006)

et Ezzahrioui (2007)).

Donc, l'estimation de la densit conditionnelle en dimension ventuellement nie a connu

un grand intrt en statistique. Ce paramtre fonctionnel intervient pour l'estimation des

quantiles, du mode ou de la fonction de hasard.

Signalons, qu'en dimension innie, le mode conditionnel a connu tout rcemment un intrt

croissant, malgr le peu de rsultats disponibles dans la littrature. Dans ce contexte, les

premiers travaux ont t raliss par Ferraty et al. (2006). Ils ont montr, sous des conditions

de rgularit de la densit conditionnelle, la convergence presque complte des estimateurs

noyau de la densit conditionnelle et du mode conditionnel et ont tabli leurs vitesses de

convergence. Notons aussi qu'une application de leurs rsultats aux donnes issues de l'in-

dustrie agro-alimentaire a t prsente. Dans le mme contexte, Dabo-Niang et al. (2004)

ont tudi un estimateur non paramtrique du mode de la densit d'une variable explicative


valeurs dans un espace vectoriel semi-norm, de dimension eventuellement nie. Ils ont

tabli la convergence presque sre avec une application de ce rsulat au cas o la mesure

de probabilit de la variable explicative vrie une condition de concentration. On trouve

aussi dans Dabo-Niang et Laksaci (2007) l'tude d'un estimateur noyau du mode de la

distribution d'une variable relle Y conditionne par une variable explicative X, valeursdans un espace semi-mtrique. Ils ont tabli la convergence en norme Lp de l'estimateur etils ont montr que les rsultats asymptotiques tablis sont lis aux probabilits des petites

boules de la loi de la variable explicative ainsi que la rgularit de la densit conditionnelle.

Notons galement, qu'il y a deux autres paramtres fonctionnels qui sont d'une grande im-

portance savoir, le quantile et le quantile conditionnel. Ces paramtres proposent une

alternative majeure dans la prvision, grce leur caractre robuste (cf. par exemple, les

travaux de Cardot et al. (2004a, 2004b, 2005 et 2006), Ferraty et al. (2005b) et (2006)).

Pour terminer ce rapide tour d'horizon, non exhaustif, armons que d'un point de vue

thorique, l'utilisation de variables alatoires fonctionnelles introduit une dicult

supplmentaire puisqu'on ne peut plus se permettre de manipuler la fonction de densit

de probabilit aussi facilement que dans le cas rel ou encore dans le cas vectoriel. On est

donc amen donner une criture probabiliste qui nous conduit des hypothses agissant

directement sur la distribution de la variable alatoire fonctionnelle plutt que sur la densit,

comme dans le cas de dimension nie.

Chapitre 1

Introduction aux donnes

fonctionnelles et l'estimation de la

densit conditionnelle

Dans ce chapitre, nous prsentons, d'abord, quelques notions sur l'analyse des donnes fonc-

tionnelles et son champ d'application, et puis, les rsultats existants dans la littrature sur

l'estimation de la densit conditionnelle.

1.1 Donnes fonctionnelles

Au cours de ces dernires annes, la branche de la statistique consacre l'analyse des

donnes fonctionnelles a connu un rel essor tant en termes des dveloppements thoriques

et mthodologiques que de la diversication des domaines d'application. Ceci revient aux

progrs qu' connu l'outil informatique au niveau des capacits de stockage qui permettent

d'enregistrer des donnes de plus en plus volumineuses. Ainsi, un trs grand nombre de va-

riables peuvent tre observes pour l'tude d'un mme phnomne.

Une fois la ralit des variables fonctionnelles est prsente, on s'intresse aux aspects de

modlisation les concernant. Dans ce but, nous donnons quelques dnitions permettant de

xer un vocabulaire. Rappelons, tout d'abord, qu'une variable alatoire fonctionnelle est

tout simplement une variable alatoire valeurs dans un espace de dimension ventuelle-

ment nie que nous noterons F . Par exemple, cet espace F peut tre un espace de fonctions,d'oprateur linaires, : : :. Selon la terminologie en vigueur dans la littrature, on parle aussibien de variables alatoires fonctionnelles que de donnes fonctionnelles, ce qui englobe no-

tamment tout ce qui concerne l'analyse statistique de courbes.

15

16 Chapitre 1. Revue bibliographique sur l'analyse des donnes fonctionnelles

Dnition 1.1.1. On appelle modle fonctionnels, tout modle prenant en compte au moins

une variable alatoire fonctionnelle (v.a.f).

Dnition 1.1.2. Un modle fonctionnel est dit paramtrique si C est indexable par un

nombre ni de paramtres appartenant F , o C n'est qu'un sous-ensemble de IFF 0F (IFF0

Fl'ensemble des fonctions dnies sur l'espace fonctionnel F et valeurs dans l'espace F 0).Un modle fonctionnel est dit non-paramtrique dans le cas contraire.

De nombreux travaux ont t ddis l'tude des modles impliquant des variables ala-

toires multivaries. Ce domaine de la statistique connait encore une activit de recherche

soutenue. Cependant, les rcentes innovations ralises sur les appareils de mesure et les m-

thodes d'acquisition ainsi que l'utilisation de moyens informatique perfectionns permettent

souvent de rcolter des donnes discrtises sur des grilles de plus en plus nes, ce qui les

rend fondamentalement fonctionnelles : c'est par exemple le cas en mtorologie, en m-

decine, en imagerie satellite et dans de nombreux autre domaines d'tudes. C'est une des

raisons pour lesquelles un nouveau champ de la statistique ddi l'tude de donnes fonc-

tionnelles, a soulev un grand d au dbut des annes quatre-vingt, sous l'impulsion des

travaux de Grennder (1981), Dauxois et al. (1982) et Ramsay (1982). En fait, ce domaine

a t popularis par Ramsay et Silverman (1997), puis par les dirents ouvrages de Bosq

(2000), Ramsay et Silverman (2002, 2005) et Ferraty et Vieu (2006). Notons que c'est un des

domaines de la statistique qui est en plein essor comme en tmoignent les travaux publis

et/ou cits dans des revues de premiers rangs, , etc.

De plus, mme si les donnes dont dispose le statisticien ne sont pas de nature fonctionnelle,

celui-ci peut tre amen tudier des variables fonctionnelles construites partir de son

chantillon initial. Un exemple classique est celui o l'on observe plusieurs chantillons de

donnes relles indpendantes et o l'on est ensuite amens comparer les densits de ces

dirents chantillons ou bien considrer des modles o elles interviennent (cf. Ramsay et

Silverman, 2002). Dans le contexte particulier de l'tude des sries temporelles, l'approche

introduite par Bosq (1991) fait apparatre une suite de donnes fonctionnelles dpendantes

qui modlisent la srie chronologique observe. Cette approche consiste tout d'abord consi-

drer le processus non pas travers sa forme discrtise mais comme tant un processus

temps continu puis le dcouper en un chantillon de courbes successives.

1.1. Donnes fonctionnelles 17

Remarquons que la principale source de dicult, que ce soit d'un point de vue thorique

que pratique, provient du fait que les observations de ce type de variables sont supposes

appartenir un espace de dimension innie.

Les tous premiers travaux dans lesquels nous retrouvons l'ide de considrer les donnes

fonctionnelles sont relativement anciens. Rao (1958) et Tucker (1958) ont envisag l'analyse

en composantes principales et l'analyse factorielle pour des donnes fonctionnelles, en consi-

drant explicitement les donnes fonctionnelles comme un type particulier de donnes. Par

la suite, Ramsay (1982) a dgag la notion de donnes fonctionnelles et a soulev la question

de l'adaptation des mthodes utilises en analyse statistique de donnes multivaries (en

dimension nie) au cadre fonctionnel.

A partir de l, les travaux portant sur la statistique des donnes fonctionnelles ont commenc

se multiplier pour nalement aboutir, aujourd'hui, des ouvrages devenus des rfrences en

la matire. Par exemple, les monographies de Ramsay et Silverman (2002 et 2005), Ferraty

et Vieu (2006) prsentent une collection importante de mthodes statistiques spciques

aux variables fonctionnelles dans les cadres linaire et non linaire. De mme, Bosq (1991)

a contribu au dveloppement de mthodes statistiques permettant l'analyse de variables

alatoires fonctionnelles dpendantes (processus autorgressifs hilbertiens). Citons aussi, les

travaux de Cuevas et al. (2002) qui se sont intresss au problme de la rgression linaire

d'une variable fonctionnelle sur un ensemble de donnes fonctionnelles dterministes xed

functional design. D'autre part, Benhenni et al. (2010) ont considr le problme d'estima-

tion de l'oprateur de rgression quand les donnes fonctionnelles sont dterministes et les

erreurs sont corrles. Cardot et al. (2005) quant eux, ils ont propos un estimateur non

paramtrique de l'oprateur de rgression quand le facteur prdictif est rel et la variable

rponse est une courbe.

Par ailleurs, l'tude du modle de rgression non linaire est beaucoup plus rcente que celle

du cas linaire. Ferraty et Vieu (2000) ont tabli les premiers rsultats sur l'estimation non

paramtrique de l'oprateur de rgression non linaire. Ces rsultats ont ensuite t prolon-

gs par Ferraty et al. (2002) en traitant le cas de donnes dpendantes et en tablissant des

convergences fortes de l'estimateur noyau de la rgression.

A leur tour, Niang et Rhomari (2003) ont tudi la convergence en norme Lp de l'estimateurde l'oprateur de rgression et ont exprimont leur rsultats la discrimination et la

classication de courbes. Rachdi et al. (2008) ont trait le problme d'estimation non pa-

ramtrique de l'oprateur de rgression quand les erreurs vrient des proprits de longue

mmoire. Ils ont tabli aussi la convergence en probablilit ponctuelle puis uniforme de l'es-

timateur noyau opratoriel. Une autre contribution base sur la construction d'un critre

de choix automatique et optimal du paramtre de lissage pour l'estimateur de la rgression

quand le rgresseur est de type fonctionnel a t mene par Rachdi et Vieu (2005, 2007).

Tandis qu'El Methni et Rachdi (2011) ont tabli l'estimation locale d'une moyenne pond-

res de l'oprateur de rgression pour des donnes fonctionnelles dterministes. Ouassou et


Rachdi (2010) ont amlior ensuite cette estimation par l'estimateur de Stein.

Rappelons que, le au de la dimension rend les vitesses de convergence trs faibles. Une

manire de tenter de remdier cela est de chercher une topologie qui restitue de faon

pertinente les proximits entre les donnes. Cela peut tre fait, par exemple, l'aide d'une

semi-mtrique de projection base sur les composantes principales fonctionnelles, les dcom-

positions selon une base de Fourier, d'ondelettes, de splines, : : :. Lorsque la variable expli-cative est valeurs dans un espace de Hilbert sparable, Ferraty et Vieu (2006a, Lemme

13-6) ont montr que l'on peut dnir de manire gnrale une semi-mtrique de projec-

tion qui permet de se ramener des probabilits de petites boules de type fractal (i.e.

9C; > 0; Fx(h) Cxh quand h ! 0). On condense ainsi les donnes en rduisant leurdimension et on contourne ainsi le au de la dimension. En eet, on revient des vitesses

de convergence en puissance de n. Dans d'autres situations, on peut tre confront desdonnes trs lisses (comme les courbes spectromtriques de masse donnes dans la Figure

1.2). Dans ce cas de gure, il peut tre intressant d'utiliser plutt des semi-mtriques ba-

ses sur les drives (cf. Ferraty et Vieu, 2006a). Ces semi-mtriques peuvent galement tre

utiles lorsque les donnes prsentent un shift vertical articiel (i.e non informatif vis--vis

des rponses). Elles ont alors pour eet d'liminer ces dcalages verticaux qui nuisent la

qualit de la prdiction. Enn, on peut envisager d'autres types de phnomnes comme,

titre d'exemple, les dcalages horizontaux (cf. Dabo-Niang et al., 2006).

Face la grande diversit des semi-mtriques qu'on peut construire, on peut se poser la

question sur comment choisir la semi-mtrique la mieux adapte au donnes. Ceci va motiver

l'tude du problme de construction d'une semi-norme sur F .

1.2 Donnes fonctionnelles vs semi-mtrique

D'une faon gnrale, l'analyse de tout type de donnes ncessite la dnition de la notion

de distance entre celles-ci. Il est bien connu que dans un espace vectoriel de dimension nie

toutes les mtriques sont quivalentes. Ceci n'est plus le cas quand l'espace d'observations

est de dimension innie. C'est pourquoi le choix de la mtrique (et donc de la topologie

associe) est un lment crucial pour l'tude des variables alatoires fonctionnelles.

De nombreux auteurs dnissent ou tudient les variables fonctionnelles comme tant des

variables alatoires de carrs intgrables c'est--dire valeurs dans L2(0; 1) (cf. notamment,Crambes et al., 2007) ou plus gnralement dans un espace de Hilbert (cf. par exemple,

Preda, 2007), ou de Banach (cf. Cuevas et Fraiman, 2004) ou mtrique (cf. Dabo-Niang et

Rhomari, 2003). Notons d'ailleurs que Bosq (2000), quant lui, il a considr des chantillons

de variables fonctionnelles dpendantes et valeurs dans un espace de Hilbert ou de Banach.

Ces observations fonctionnelles ont t obtenues suite au dcoupage d'un mme processus

temps continu. De plus, parmi les semi-mtriques, disponibles dans la littrature, il est

souvent plus intressant de considrer des semi-mtriques permettant un ventail plus large

1.2. Donnes fonctionnelles vs semi-mtrique 19

de topologies possibles que l'on pourra choisir en fonction de la nature des donnes et du

problme traiter.

Signalons que, l'intrt d'utiliser une semi-mtrique plutt qu'une mtrique est que cela peut

constituer une alternative aux problmes lis la grande dimension des donnes. En eet,

on peut considrer une semi-mtrique qui soit dnie partir d'une projection de nos don-

nes fonctionnelles sur un espace de dimension plus petite : (1) que ce soit en ralisant une

analyse en composantes principales fonctionnelles de nos donnes (cf. Dauxois et al. (1982),

Besse et Ramsay (1986), Hall et Hosseini-Nasab (2006) et Yao et Lee (2006)) ou (2) en les

projetant sur une base de cardinal ni (ondelettes, splines, : : :). Cela permet de rduire ladimension des donnes et ainsi d'augmenter la vitesse de convergence des mthodes utilises

tout en prservant la nature fonctionnelle des donnes. D'ailleurs, on peut choisir la base sur

laquelle on projette en fonction des connaissances que l'on a de la nature de la donne fonc-

tionnelle. Par exemple, on pourrait choisir la base de Fourier si on suppose que la variable

fonctionnelle observe est priodique. On peut se rfrer, pour cela, Ramsay et Silverman

(1997 et 2005) ou Rossi et al. (2005) pour une discussion plus complte sur les direntes

mthodes d'approximation par projection de donnes fonctionnelles. Aussi, une discussion

plus approfondie de l'intrt d'utiliser dirents types de semi-mtriques est prsente dans

le livre de Ferraty et Vieu (2006) (paragraphes 3 et 4) ainsi que dans le travail ralis par

Benhenni et al. (2007).

Pour ces direntes raisons, nous prsentons ici quelque pistes (cf. Ferraty et Vieu, 2006)

permettant de construire une semi-mtrique. En fait, nous prsentons, dans ce qui suit,

seulement deux familles de semi-mtriques mais, naturellement, beaucoup d'autres peuvent

tre construites : la premire est bien adapte aux courbes dites bruites et aux courbes

irrgulires tandis que la deuxime sera plutt employe pour le traitement de courbes tout

fait lisses (ou rgulires).

Pour ce faire, nous commenons par considrer un chantillon de n courbes X1; : : : ; Xn in-dpendantes et identiquement distribues de la variable alatoire fonctionnelle

X = fX(t); t 2 [0; 1]g.

Notons que, l'analyse en composantes principales classique (ACP) est considre comme

tant un outil trs utile pour la description et la visualisation des donnes dans un espace

de dimension plus petite. Cette technique a t prolonge aux donnes fonctionnelles et plus

rcemment employe pour dirents buts statistiques. Nous verrons que le FPCA (Functional

Principal Components Analysis) est devenue un bon outil pour calculer des proximits entre

les courbes dans un espace de dimension rduite. Ainsi, partir de la semi-mtrique classique

L2, nous pouvons construire une classe paramtrique de semi-normes, que nous noteronsSMPCA (Semi-Mtrique base sur l'ACP), de la manire suivante :

kxkACPq =vuut qX

k=1

Zx(t)vk(t)

2dt pour tout x 2 F


o v1; :::; vq sont les fonctions propres orthonormales de l'oprateur de covariance :

X(s; t) = E(X(t)X(s))

associes aux valeurs propres 1 2 q.

Signalons aussi que, l'entier q n'est pas un paramtre de lissage, mais plutt un paramtrede rglage indiquant le niveau de rsolution auquel le problme est considr.

On en dduit une famille de semi-mtriques comme suit :

dACPq (Xi; x) =

vuut qXk=1

Z(Xi(t) x(t))vk(t) dt

2(1)

Notons que, l'approximation de l'intgrale dans la formule (1) peut se faire comme suit (cf

Castro et al., 1986) :Z 10(Xi(t) x(t))vk(t)dt w

JXj=1

wj(Xi(tj) x(tj))vk(tj)

o les poids wj = tj tj1 et la grille (t1; :::; tJ) est constitue de J valeurs quidistantesdans [0,1].

Si nous discrtisons deux courbes xi et xi0 alors, la quantit dACPq (xi; xi0) sera approximepar sa version empirique :

dACPq (xi; xi0) =

vuuut qXk=1

0@ JXj=1

wj(xi(tj) xi0(tj))vk(tj)1A2

o fxi = (xi(t1); :::; xi(tJ))t)gi=1;:::;n et fxi0 = (xi0(t1); :::; xi0(tJ))t)gi0=1;:::;n

En eet, cette famille de semi-mtriques peut tre utilise seulement si les donnes sont

quilibres (les courbes sont observes aux mmes points). Ceci pourrait apparatre comme

un inconvnient pour l'usage d'un tel genre de semi-mtriques mais, leur principal avantage

est d'tre utilis mme si les courbes son irrgulires. En prenant l'exemple de la prvision

de la concentration maximale de l'ozone au ple nord pendant une journe sur quatre an-

nes successives (de 2000 2004), tant donn la courbe de cette concentration pendant la

journe prcdente (cf. Figure 1.4), nous avons choisi la norme L21;24 calcule, en utilisant cegenre de semi- mtriques.

Une autre manire de construire une autre famille de semi-mtriques est base sur les dri-

ves, que nous allons noter par SMD (Semi-Mtrique base sur la Drive). Elle est dnie


de la manire suivante :

dSMDq (xi; xi0) =

sZ 10(x

(q)i (t) x(q)i0 (t))2dt (2)

pour deux courbes observes xi et xi0 , o x(q)dsigne la drive d'ordre q de x.Notons, par ailleurs, que dSMD0 (x; 0) concide avec la norme classique sur l'espace L

2de x.

De plus, on peut aussi utiliser l'approximation de chaque courbe par des B-splines (cf. De

Boor (1978) ou Schumaker (1981)) et ainsi les drives successives seront directement cal-

cules en direnciant plusieurs fois leurs formes analytiques. Ainsi, le calcul de l'intgrale

dans (2) peut tre eectu en utilisant la mthode de Gauss (cf. Lanczoz, 1956). Dans la

pratique, cette classe de semi-mtriques sera bien adapte et employe quand on a aaire

des courbes lisses, comme les donnes spectromtriques de masse (cf. Figure 1.2).

A ce stade, on pense que l'ensemble des donnes, lui-mme, devrait tre mis en avant an

de choisir la semi-mtrique employer.

En conclusion, chacune des deux familles discutes ci-dessus est adapte un certain genre

de donnes : la SMPCA est prvue pour des donnes irrgulires, tandis que, la SMD est

adapte aux donnes lisses.

On peut donc armer, sans hsitation, que le choix de la semi-mtrique permet la fois

de prendre en compte des situations plus varies et de pouvoir contourner le au de la

dimension. Ce choix ne doit cependant pas tre pris la lgre mais, doit prendre en compte,

non seulement la nature des donnes mais aussi la nature du problme tudi.

1.2.1 Probabilits des petites boules

Le problme du au de la dimension est un phnomne bien connu dans le cas de modles

de rgression multivarie non paramtrique. Il est bien connu que ce problme provoque une

dcroissance exponentielle des vitesses de convergence des estimateurs non paramtriques en

fonction de la dimension (cf. Stone, 1982). Par consquent, il est lgitime de penser que les

mthodes non paramriques dans l'tude des modles variables fonctionnelles risque d'avoir

une vitesse de convergence trs lente. Dans le cas o la variable explicative est multivarie

(i.e. valeurs dans un espace de dimension ventuellement nie (F ; d)), les vitesses deconvergence de l'estimateur noyau sont exprimes en fonction d'un terme de la forme hdn;provenant de la valeur de la probabilit que la variable explicative appartienne la boule

de centre x et de rayon hn. Dans le cas d'une variable explicative fonctionnelle les rsultatsasymptotiques sont exprims partir de quantits plus gnrales appeles probabilits des

petites boules et qui sont dnies par :

Fx(hn) := IP(d(X;x) hn) o hn ! 0


Au travers des dirents rsultats de convergence concernant l'estimateur tudi dans ce m-

moire (de type Nadaraya-Watson et/ou local linaire), on observe que la vitesse de conver-

gence est fonction de la manire dont dcroissent ces probabilits de petite boules. Il existe

dans la littrature un nombre assez important de rsultats probabilistes qui tudient la ma-

nire dont ces probabilits des petites boules tendent vers 0 quand d est une norme (cf. parexemple, Li et Shao (2001), Lifshits et al. (2006) et Gao et Li (2007)). On pourra galement

se rferer au travail de Dereich (2003, Chapitre 7) qui est consacr au comportement des

probabilits des petites boules dont les centres sont alatoires. Au travers de ces travaux

on peut voir, par exemple, que dans le cas de processus non-lisses tels que le mouvement

brownien ou le processus d'Ornstein-Uhlenbeck, ces probabilits des petites boules sont de

forme exponentielle (par rapport hn) et que par consquent la vitesse de convergence denos estimateurs est en puissance de ln(n) (cf. Ferraty et al. (2006), paragraphe 5 et Ferratyet Vieu (2006a), paragraphe 13.3.2, pour une discussion plus approfondie sur ce sujet).

Dans ce qui suit, nous allons prsenter un aperu sur l'utilit de l'analyse des donnes

fonctionnelles dans les applications.

1.2.2 Champs d'application des donnes fonctionnelles

Depuis plusieurs dcennies, nombreux sont les statisticiens qui ont dvelopp des applica-

tions permettant le traitement de variables alatoires fonctionnelles. D'une part, ce traite-

ment permet d'utiliser ou de dvelopper des outils thoriques performants, et d'autre part,

il ore un norme potentiel en terme d'applications (en imagerie, agro-industrie, gologie,

conomtrie,...). Nous exposons ci-dessous quelques exemples concrets.

Dans le domaine de la linguistique : le problme de la reconnaissance vocale est un sujet

d'actualit. L'objectif est de pouvoir retranscrire phontiquement des mots et des phrases

prononcs par un individu. Les donnes sont des courbes correspondant des enregistrements

de phonmes prononcs par dirents individus. Des travaux ont t, galement, raliss,

notamment concernant la reconnaissance vocale. On peut citer par exemple Hastie et al.

(1995), Berlinet et al. (2005) ou encore Ferraty et Vieu (2003).

Etude du phnomne d'El Nio : il s'agit d'un jeu de donnes provenant de l'tude d'un

phnomne climatologique assez important. Ce phnomne est couramment appel El Nio.

C'est un grand courant marin qui survient de manire exceptionnelle (en moyenne une

deux fois par dcennie) le long des ctes pruviennes la n de l'hiver. Ce courant

provoque des drglements climatiques l'chelle de la plante. Le jeu de donnes est

constitu de relevs de tempratures mensuelles de la surface ocanique eectus depuis

1950 dans une zone situe au large du nord du Prou (de coordonnes 0-10

Sud, 80-90

Ouest) dans laquelle peut apparatre le courant marin El Nio. Ces donnes et leur des-

cription sont disponibles sur le site internet du centre de prvision du climat amricain :

http : ==www:cpc:ncep:noaa:gov=data=indices=. Il faut noter que l'volution des tempra-tures au cours du temps est rellement un phnomne continu. Le nombre de mesures permet


Figure 1.1 Les courbes correspondant au courant d'El Nno

de prendre en considration la nature fonctionnelle des donnes (cf. Figure 1.1). A partir de

ces donnes, on peut s'intresser la prdiction de l'volution du phnomne partir des

donnes recueillies lors des annes prcdentes.

En industrie alimentaire : Ferraty et Vieu (2002, 2003) se sont intresss des donnes

spectromtriques de masse. Ces donnes proviennent d'un problme de contrle de qualit

en industrie alimentaire. Ils ont tudi la contenance en graisse dans les morceaux de viande

tant donn les courbes d'absorption de ces morceaux de viande (cf. pour ceci Figure 1.2).

Ces donnes relles ont t utilises dans le cas o les variables sont indpendantes.

Consommation d'lectricit aux USA : dans le cadre des donnes dpendantes, on peut consi-

drer l'exemple d'une srie chronologique qui concerne la consommation annuelle


0 20 40 60 80 100

2.02.5

3.03.5

4.04.5

5.05.5

Index

CURVES

[1, ]

Figure 1.2 Les courbes spectromtriques

d'lectricit, aux USA, par des secteurs rsidentiels et commerciaux de janvier 1973 jusqu'en

fvrier 2001 (338 mois). Le but de cette tude est de prvoir la consommation d'lectricit de

l'anne suivante sachant la consommation d'lectricit de toute l'anne prcdente. L'chan-

tillon se compose de 28 donnes comme le montre la Figure 1.3. Cette srie chronologiquepeut tre regarde comme tant un ensemble de donnes fonctionnelles dpendantes (c'est-

-dire, une population de 28 courbes : chaque anne correspond 1 courbe).

Donnes de pollution : Un autre exemple de variables alatoires fonctionnelles dpendantes

portant sur l'tude de phnomnes lis l'environnement est le problme de pollution. Il

s'agit d'tudier la courbe de concentration d'ozone au Ple Nord sur quatre annes suc-

cessives (de 2000 2004). L'objectif est de prvoir la concentration de l'ozone dans une

journe tant donn la courbe de concentration de l'ozone de la veille. En procdant par

un dcoupage journalier de la courbe de concentration annuelle de l'ozone, on obtient les

courbes reprsentes dans Figure 1.4. Notons que plusieurs auteurs se sont intresss aux

phnomnes lis l'environnement, on peut citer entre autres, Damon et Guillas (2002),

Aneiros-Perez et al. (2004), Cardot et al. (2004, 2006), Meiring (2005).

Bref, de nombreux autres domaines d'application o l'on peut tre confront des donnes

de natures fonctionnelles existent et/sinon auent. Vu l'normit des exemples que l'on

peut citer, nous sommes incapable de prsenter dans cette thse une liste exhaustive de ces

applications. Sinon, nous nous contentons, dans la suite de ce paragraphe, d'un rapide tour

d'horizon de ces champs d'application.

En biologie : pour l'tude des variations des courbes de croissance (cf. Rao, 1958 et Figure

1.5), et plus rcemment, pour l'tude des variations de l'angle du genou durant la marche


2 4 6 8 10 12

0.2

0.1

0.00.1

0.2

Index

electr

icityc

onsu

mptio

n[1, ]

Figure 1.3 Les courbes annuelles de consommation d'lectricit aux USA

5 10 15 20

020

4060

8010

0

20002004

Heure

pollu

tion

Figure 1.4 Les courbes de pollution au Ple Nord


Figure 1.5 Courbes de croissance

(cf. Ramsay et Silverman, 2002). Notons qu'un norme nombre de donnes fonctionnelles est

produit et ne demande qu' avoir la mthodologie adquate pour son traitement, notamment

les donnes spectromtriques de masse (cf. pour le cancer Figure 1.6).

En biologie animal : des tudes sur la ponte de mouches mditerranennes ont t eectues

et rsumes par des courbes donnant, pour chaque mouche, la quantit d'oeufs pondus en

fonction du temps (cf. Figure 1.7).

En conomtrie : on est souvent confronts de nombreux phnomnes que l'on peut mo-

dliser par des variables fonctionnelles. Parmi ces phnomnes on peut citer la volatilit des

marchs nanciers (cf. Mller et al., 2007), le rendement d'une entreprise (cf. Kawassaki et

Ando, 2004), le commerce lectronique (cf. Jank et Shmueli, 2006) ou l'intensit des tran-

sactions nancires (cf. Laukaitis et Rackauskas, 2002). On peut se rferer Kneip et Utikal

(2001), Benko (2006) et Benko et al. (2006) pour des rfrences supplmentaires. Par ailleurs,

nous pouvons aussi citer un exemple qui consiste l'observation des uctuations d'un indice

boursier en fonction du temps : il s'agit typiquement d'une srie temporelle qu'on dcoupe

selon des sous-intervalles de l'espace temps (cf. Bosq, 2002).

En graphologie : l'apport des techniques de la statistique fonctionnelle a aussi trouv une

application en graphologie. Parmi les travaux raliss sur cette problmatique on peut citer,

titre d'exemple, ceux de Hastie et al. (1995) et Ramsay (2000). Ce dernier a modlis

la position du stylo (abscisses et ordonnes en fonction du temps) l'aide d'un systme

d'quations direntielles de paramtres fonctionnels.


Figure 1.6 Courbes spectromtriques de masse sur des cellules cancereuses

Figure 1.7 Une courbe du nombre d'oeufs journaliers pondus par une mouche


Les mesures et notamment les images recueillies par satellites sont galement des donnes

dont l'tude peut tre ectue partir des mthodologies de la statistique fonctionnelle. On

peut citer, par exemple, les travaux de Vidakovic (2001) dans le domaine de la mtorologie

ou ceux de Dabo-Niang et al. (2004b, 2007) dans le domaine de la gophysique. Dans ces

travaux, on s'intresse la classication des courbes recueillies par le satellite dirents

endroits de l'amazonie, ce qui permettrait d'identier la nature du sol. Enn, citons Cardot

et al. (2003) et Cardot et Sarda (2006) qui ont tudi l'volution de la vgtation partir

de donnes satellitaires.

1.3 Quelques rsultats sur l'estimation non-paramtrique pour

des modles fonctionnels

Nous rappelons, dans ce paragraphe et dans un premier temps quelques hypothses

et notations qui paraissent importantes pour la suite de ce travail de thse. Ensuite, les

rsultats obtenus par Ferraty et al. (2006) et brivement ceux obtenus par Laksaci (2005)et

Ezzahrioui (2007) sur l'estimation de quelques paramtres conditionnels.

1.3.1 Notations et hypothses

Considrons le couple de variables alatoire (X;Y ) o Y est valeurs dans R et Xest valeurs dans un espace semi-mtrique (F ; d) qui peut tre de dimension ventuellementnie. Pour x 2 F , la distribution de probabilit de Y sachant X est dnie par :

8y 2 R; F x(y) = IP(Y yjX = x)

ou cette distribution est absolument continue par rapport la mesure de Lebesgue sur R.Notons par fx (respectivement fx(j)) la densit conditionnelle (respectivement sa drived'ordre j) de Y sachant X = x. Par la suite on dsignera par x le point xe de F , Vx unvoisinage de x et SIR un sous-ensemble compact de R. Notons aussi par : B(x; h) = fx0 2Fjd(x0; x) < hg la boule de centre x et de rayon h.

Voici quelques hypothses dont nous avons besoin dans les enoncs des rsultats prli-

minaires.

(H1) P (X 2 B(x; h)) = x(h) > 0

Pour la fonction de rpartition conditionnelle, celle-ci sera suppose vrier la condition

suivante :

(H2) 8(y1; y2) 2 SS; 8(x1; x2) 2 VxVx; jF x1(y1)F x2(y2)j Cxd(x1; x2)

b1 + jy1 y2jb2

1.3. Quelques rsultats sur l'estimation non-paramtrique pour des modles fonctionnels29

et pour certain j 0;

Concernant la densit conditionnelle fx, on la supposera de classe Cj et telle que :(H3) 8(y1; y2) 2 SS; 8(x1; x2) 2 VxVx; jfx1(j)(y1)fx2(j)(y2)j Cx

d(x1; x2)

b1 + jy1 y2jb2La condition de concentration (H1) joue un rle important. Ce genre de condition est li

la semi-mtrique d. Elle quantie et contrle les probabilites des petites boules.

(H4) =

8>>>:8(y1; y2) 2 R2; jH(y1)H(y2)j Cjy1 y2j

RR jtjb2H(1)(t)dt < +1(H5) Le noyau K est support dans (0; 1), tel que, 0 < C1 < K(t) < C2, oC1 et C2 sont deux constantes strictement positives,

(H6) limn!1hK = 0 et limn!1

log n

nx(hK)= 0,

(H7)- limn!1hH = 0 et limn!1n

hH =1, pour un certain rel > 0.

o H est un noyau, hK = hK;n (respectivement, hH = hH;n) est une suite de nombresrels positifs tendant vers 0 quand n tend vers l'inni.

1.3.2 Estimation de la loi conditionnelle

Dans ce paragraphe, nous donnons un rsultat de convergence de l'estimateur noyau

de la loi conditionnelle. tant donn un lment x x de F et soit (Xi; Yi)i=1;:::;n un chan-tillon de couples de variables alatoires indpendantes valeurs dans RF , l'estimateur noyau de la loi conditionelle F x(:) est dni par :

F^ x(y) =

Pni=1K

d(x;Xi)hK

HyYihH

Pn

i=1Kd(x;Xi)hK

; 8y 2 RLe thorme suivant donne la convergence

1

(p.co.) prsque complte de l'estimateur F^ x(y)

1. soit (zn)n2N une suite de variables alatoires. On dit que zn converge presque compltement (p.co.)vers 0 si, et seulement si, 8 > 0, P1n=1 IP (jznj > 0) < 1. De plus, soit (un)n2N une suite de nombresrels positifs. On dit que zn = O(un) p.co. si, et seulement si, 9 > 0, P1n=1 IP (jznj > un) < 1 : ce typede convergence implique la convergence presque sure et la convergence en probabilit (cf. [13] pour plus de

dtails).


Thorme 1.3.1. (Ferraty et al. 2006). Sous les hypothses H1-H6, ona :

supy2S

jIFxn(y) F x(y)j = Ohb1K

+O

hb2H

+O

slog n

nx(hK)

!; p:co:

1.3.3 Estimateur noyau de la densit conditionnelle

Dans ce pragraphe, nous prsentons un estimateur noyau de la drive d'ordre j dela densit conditionnelle et un rsultat sur le comportement asymptotique de cet estimateur.

Cet estimateur f^x(j) de fx(j) est donn par :

f^ (j)(yjx) =hj1H

Pni=1K

d(x;Xi)hK

H(j+1)

yYihH

Pn

i=1Kd(x;Xi)hK

; 8y 2 R

Notons que, cet estimateur est analogue celui introduit par Rosenblatt (1969) dans le

cas o X est une variable alatoire relle. Il est aussi largement tudi depuis ce temps (cf.Youndj, 1996). An d'tablir quelques rsultats de convergence, les hypothses suivantes

seront ncessaires :

(H8)

8>>>>>>>>>>>>>>>:

8(y1; y2) 2 R2; jH(j+1)(y1)H(j+1)(y2)j Cjy1 y2j

9 > 0; 8j0 j + 1; limy!1 jyj

1+ jH(j+1)(y)j = 0

H(j+1) est born

(H9) limn!1hK = 0 avec limn!1

log n

nh2j+1H x(hK)= 0:

Le thorme suivant concerne le comportement asymptotique de l'estimateur fonctionnel

noyau f^x(j).


Thorme 1.3.2. (Ferraty et al., 2006). Sous les hypothses H1, H3, H4 et H6-H9,

ona :

supy2S

jfx(j)n (y) fx(j)(y)j = Ohb1K

+O

hb2H

+O

slog n

nh2j+1H x(hK)

!; p:co:

o S une sous-ensemble compact de R

1.3.4 Estimation du mode conditionnel

Cas o les donnes sont i.i.d.

Ce paragraphe prsente un estimateur du mode conditionnel not par ^. Notons que,l'ensemble compact S est choisi de telle sorte qu'il n'y ait qu'un unique mode . Cet esti-mateur est bas sur la prcdente estimation fonctionnelle de la densit conditionnelle.

Dans la suite de ce paragraphe, on utilise S = [ ; + ] comme ensemble compact.L'estimateur ^ du mode conditionnel est dnie comme.

f^x(^) = supy2S

f^x(y)

Notons que, l'estimateur ^ n'est pas ncessairement unique, pour assur cette unicit et laconvergence de ^n, on suppose :

(H10) 9 > 0, fx % dans [ ; ] et fx & dans [; + ].

(H11) fx est j-fois continment direntiable par rapport y sur [ ; + ],

et

(H12)

8>>>:fx(l)() = 0; si 1 l < j

jfx(j)()j > 0 sinonSignalons que ces conditions ont une grande inuence sur la vitesse de convergence de l'es-

timateur ^ (cf. le thorme ci-dessous). De plus la convergence de cet estimateur peut treobtenue par l'hypothse (H10) (cf. Laksaci (2005), Lemme 2.4.1).


Thorme 1.3.3. (Laksaci , 2005). Si les hypothses du Thorme 1.3.2 et H10-H12 sont

vries, alors :

^ = Ohb1j

K

+O

hb2j

H

+O

logn

nhHx(hK)

12j

; p:co:

Cas o les donnes sont -mlangeantes

Les rsultats obtenus dans le cas des variables alatoires fonctionnelles indpendantes

et identiquement distribues (i.i.d.) ont t prolongs au cas des variables fortement mlan-

geantes. Un rsultat (cf. Thorme 1.3.4) s'annonce dans ce cadre grce des hypothses

faites dans le cas i.i.d. Ces hypothses ont t renforces par des conditions de concentration

de la loi conjointe des couples (X;Y ) et quelques hypothses sur les coecients de mlange.

Deux exemples d'application sont tudis. Le premier correspond au cas i.i.d. Il concerne

l'industrie agro-alimentaire (courbes spectromtriques de masse). L'autre exemple corres-

pond au cas dpendant. Celui-ci concerne un problme de pollution (les courbes de la concen-

tration de l'ozone sur le ple nord) (cf. Laksaci , 2005 pour plus de dtails).

Les hypothses suivantes sont ncessaires dans l'enonc du Thorme 1.3.4 :

(H13) supi6=j P ((Xi; Xj)) 2 B(x; r)XB(x; r) = x(r) x(r) > 0,

(H14) Les coecients de -mlange de la suite (Xi; Yi) vrient la condition :

9a > (5 +p17)=2; 9c > 0telsque8n; n cna

,

(H15) limn!1hH = 0 et 91

4

(a+ 1)(a 2) tel que limn!1n1 hH =1,

(H16)

8>>>>>:limn!1hK = 0; limn!1

logn

nhH x(hK)= 0:

et

92 > 0; c1 > 0; c2 > 0; c2n(3aa+1

)+2 x(hK) c1n1

1a :

o

x(hK) dsigne le maximum de la concentration entre la loi marginale et les lois conjointesde chaque couple d'observations fonctionnelles dans la boules de centre x et de rayon hK .


Thorme 1.3.4. (Laksaci, 2005). Si les hypothses (H1), (H3)-(H5) et (H10)-(H16) sont

vries, alors :

^ = Ohb1j

K

+O

hb2j

H

+O

logn

nhHx(hK)

12j

!; p:co:

o b1 et b2 deux rels strictement positifs.

Chapitre 2

Kernel conditional density estimation

when the regressor is valued in a

semi-metric space

Ali Laksaci

1

, Fethi Madani

2and Mustapha Rachdi

2; 3

( paratre dans Communications Statistics- Theory and Methods, 2012)

Abstract.This paper deals with the conditional density estimation when the explanatory variable is

functional. In fact, nonparametric kernel type estimator of the conditional density has been recently

introduced when the regressor is valued in a semi-metric space. This estimator depends on a smoo-

thing parameter which controls its behavior. Thus, we aim to construct and study the asymptotic

properties of a data-driven criterion for choosing automatically and optimally this smoothing pa-

rameter. This criterion can be formulated in terms of a functional version of cross-validation ideas.

Under mild assumptions on the unknown conditional density, it is proved that this rule is asymp-

totically optimal. Finally, a simulation study and an application on real data are carried out to

illustrate, for nite samples, the behavior of our method. Finally, mention our results can also be

considered as novel in the nite dimensional setting and several other open questions are raised in

this article.

Keywords. Cross-validation, functional data, kernel estimator, nonparametric model, band-

width selection, small balls probability

1. Universit Djillali Liabs, BP. 89, Sidi Bel-Abbs 22000, Algeria. E-mail : [email protected]

2. Laboratoire AGIM FRE 3405 CNRS, Equipe TIMB, Universit P. Mends France (Grenoble 2),UFR SHS, BP. 47, 38040 Grenoble Cedex 09, France. E-mails : [email protected] and

[email protected]

3. Corresponding author

35

36 2. Choix de la largeur de fentre

AMS Subject Classication. Primary : 62G05, Secondary : 62G07, 62G08, 62G35, 62G20.

2.1 Introduction

Conditional density estimation is a statistical technique that allows for a better understan-

ding of the relationship between a response variable and a set of covariates, in comparison

with usual regression methods. Therefore, this technique is of great importance in many

scientic elds where knowledge about conditional means, obtained by regression methods,

is not enough to draw valuable conclusions about the problem at hand. Moreover, conditio-

nal density functions arise in a variety of areas. One of the more useful applications involves

density forecasting, where the probability density of the forecast of a time series, such as the

rate of ination, can be used to make probability statements regarding the future course of

that series. However, the probability density, and its resulting interpretation, is conditional

on the hypothesis that the model used to produce the forecasts is correctly specied.

Recall that, if g(x; y) denotes the joint density of (X;Y ) and h(x) denotes the marginaldensity of X, then the conditional density of Y given X = x is obtained by f(x; y) =g(x; y)=h(x). The standard nonparametric regression does not allow the analysis of changesin modality, and standard density estimation does not allow conditioning on an explanatory

variable. Notice also that conditional density estimation is, in some ways, a generalization

of both nonparametric regression and standard univariate density estimation. The kernel

conditional density estimation was rst considered by Rosenblatt (1969) who studied the

problem of estimating the density of Y given X = x where X is an univariate randomvariable.

On the other hand, estimators of the conditional mode, the conditional distribution and

the conditional median can be derived directly from estimators of f(x; y). For instance inCollomb et al. (1987) it is shown how one can get an estimator of the conditional mode

and how such an estimator can be used for forecasting problems (cf. to cite a few, Hrdle

(1990), Gannoun (1990), Youndj (1993 and 1996) and the references therein). Moreover, It

is important to mention that estimators of conditional modes are of particular interest for

prediction (cf. Collomb et al. (1987) and Ferraty et al. (2005)).

Furthermore, the problem of the conditional density estimation appears to have lain free of

scrutiny until it was revisited and some improved estimators were proposed (cf. Hyndman

et al. (1996), and references therein for some developments). Indeed, the following modied

form of Rosenblatt's estimator was considered :

bf(a;b)(x; y) = b1Pnj=1K(a1jjxXj jjx)K(b1jjy Yj jjy)Pnj=1K(a

1jjxXj jjx) (1)

where (X1; Y1); : : : ; (Xn; Yn) is a sample of independent observations from the distributionof (X;Y ) and jj:jjx and jj:jjy are metrics on the spaces values of X and Y , respectively.

2.1. Introduction 37

The kernel function, K(u), is assumed satisfying some specic conditions. Popular choicesof K(u) are dened in terms of univariate and unimodal probability density functions. Mo-reover, Youndj (1993 and 1996), Hyndman et al. (1996) and others give the bias, variance,

mean squared error (MSE) and convergence properties of the estimator (1) and proposed

also an alternative kernel estimator with smaller MSE than the standard estimator in some

commonly occurring situations. On the other, we can not continue our introduction without

mentioning the work by Fan et al. (1996), who proposed an alternative conditional density

estimator by generalizing Rosenblatt's estimator using local polynomial techniques. Then,

Hyndman and Yao (1998) introduced two further local parametric estimators which improve

on the estimators given by Fan et al. (1996). Stone (1994), meanwhile, followed a dierent

path by using tensor products of polynomial splines to obtain conditional log density es-

timators. For other studies on the nonparametric estimation of the conditional density we

refer also to Gannoun (1990), Youndj (1993 and 1996), Hall et al. (1999), Hrdle et al.

(1991), Bashtannyk and Hyndman (2001), Gannoun et al. (2003), El Ghouch and Genton

(2009) and the references therein.

In this paper, we are interested in the ecient estimation of the conditional probability

density when the explanatory variables are of functional type. It should be noticed that,

these questions in the innite dimensional framework are particularly interesting, at once

for the fundamental problems they formulate, but also for many applications they may allow

(cf. Bosq (2000), Ramsay and Silverman (2005), Ferraty and Vieu (2006) and references

therein). In fact, in this conditional context, the rst results were obtained by Ferraty and

Vieu (2005) and Ferraty et al. (2006). They established the almost-complete consistency,

in both cases i.i.d. and strongly mixing data, of the kernel estimators of the conditional

distribution function and of the conditional probability density. Moreover, they presented

some applications of their results on both the conditional mode and on conditional quantiles.

Among the lot of papers which are concerned with the nonparametric modelization related

to the conditional distribution of a real variable given a random variable taking values in

innite dimensional spaces, we refer only to Dabo-Niang and Laksaci (2007) for the conditio-

nal mode estimation, and to Laksaci (2007) for the asymptotic expression of leading terms

in the quadratic error of conditional density kernel estimators.

On the other hand, it is well known that kernel estimators have some nice asymptotic pro-

perties when the curse of dimensionality is controlled by means of suitable considerations

on the small ball probabilities of the functional variable (cf. Ferraty and Vieu 2006 and

references therein). However it is also well-known that, as in the standard nite dimensional

framework, the smoothing parameter has to be selected suitably for insuring good practical

performances (cf. Laksaci, 2007). Notice that, some papers, (cf. for instance, Youndj et al.,

1993), have treated the problem of the smoothing parameter selection in the nonparametric

estimation of the conditional density, by using some techniques quite dierent from ours, but

only in the nite dimensional setup. Furthermore, the selection of the smoothing parameter

in the innite dimensional setting is much more complicated. In particular, the so-called

scatterplot which is a graphical tool for exploring the relationship between the explanatory

variables and the scalar response is not available, and hence it becomes very hard to have

some informations on the shape of the relationship between the functional variable and the


scalar response. Therefore, various areas with dierent (low/high) concentrations can appear

in such a relationship even though it does not appear in the functional data sample (cf. for

instance, the simulated curves in Section 2.4.2). It is also clear, in the innite dimensional

setup, that the concentration of the distribution of the functional explanatory variable will

have an inuence on the value of some appropriate bandwidth (the variance of the estimator

increases when the concentration of the distribution of the functional covariates decreases

which is the case when the bandwidth value's decreases (cf. conditions (17) and (14)). Mo-

reover, in areas where the functional covariates have low concentration, the bandwidth has

to be taken suciently large to include enough data curves, while a smaller bandwidth can

be used in areas where the functional covariates have high concentration. It should, thus, be

noted that Rachdi and Vieu (2007) (respectively Benhenni et al., 2007) proposed a global

(respectively a local adaptive) cross-validation procedure for the regression operator estima-

tion for functional data, which has inspired this work.

The main aim of this paper is then the construction of both global and local functional cross-

validation procedures. We remark that a local bandwidth choice can signicantly improve

the precision of the prediction in the functional setting than the global one. In section 2, the

data-driven methods are dened. The main hypotheses and results are enounced in section 3.

In section 4, we propose a simulation study showing how an optimal local bandwidth choice

improves the usual global selection rule for some irregular functional covariates. Finally,

asymptotic theoretical support is given in section 5, and the proofs of the auxiliary results

are relegated to the Appendix.

2.2 Global and local bandwidth selection rules

Let us introduce a sample of independent pairs (Xi; Yi)1in identically distributed as (X;Y )which is valued in FR, where (F ; d) is a semi-metric space equipped with a semi-metric d.Assume that there exists a regular version of the conditional probability of Y given X, whichis absolutely continuous with respect to the Lebesgue measure on the real line R. Let f(x; )denote the conditional probability density of the random variable Y given X = x 2 F ,which we have to estimate. For this aim, we dene the kernel estimator

bf(a;b) of f as in (1),but by considering two dierent kernel functions as follows :

8x 2 F and 8y 2 R; bf(a;b)(x; y) = b1Pni=1K(a1d(x;Xi))H(b1(y Yi))Pni=1K(a

1d(x;Xi))(2)

where K is a kernel and a = aK;n (respectively b = bH;n) is a sequence of positive realnumbers. Notice that the estimator (2) has been used by Roussas (1968) in the real case

and by Ferraty et al. (2006) in the functional case.

The main goal of this paper is to construct and study the asymptotic behavior of a data dri-

ven method which optimally selects the smoothing parameters (a; b). To do that, we proposeto use a rule which is based on the classical leave-out-one-curve cross-validation procedure

and to study its asymptotic behavior in the mean squared sense. Indeed, commonly with the

2.2. Global and local bandwidth selection rules 39

majority of the earlier works on the bandwidth selection, our rule is based on the minimiza-

tion of the integrated squared error which is weighted by the probability measure, dPX(x),of the functional variable X and some nonnegative weight functions W1 and W2 :

d1( bf(a;b); f) = Z Z bf(a;b)(x; y) f(x; y)2W1(x)W2(y) dPX(x) dy (3)A discrete approximation of (3) is the averaged squared error given by :

d2( bf(a;b); f) = 1nnXi=1

bf(a;b)(Xi; Yi) f(Xi; Yi)2 W1(Xi)W2(Yi)f(Xi; Yi) (4)or, also, the mean integrated squared error :

d3( bf(a;b); f) = Z Z IE bf(a;b)(x; y) f(x; y)2W1(x)W2(y)dPX(x)dy (5)However, these loss functions depend on the conditional density f , so the smoothing para-meter that minimizes these errors is not computable in practice. Thus, we must nd another

loss function which is asymptotically equivalent to the quadratic distances (3), (4) and (5).

Following the same ideas as in Youndj (1996) for the real case, we can write that :

d1( bf(a;b); f) = A+B 2Cwhere

A =

Z Z bf2(a;b)(x; y)W1(x)W2(y)dPX(x)dyB =

Z Zf2(x; y)W1(x)W2(y)dPX(x)dy

C =

Z Z bf(a;b)(x; y)f(x; y)W1(x)W2(y)dPX(x)dySince the second termB is independent of (a; b), the problem of minimizing d1 is equivalent tothat of minimizing A2C. A straightforward way to construct a computational procedure toselect the optimal bandwidths (a; b) with respect to the error measure d1 is to estimator theboth quantities A and C. For this aim, as mentioned above, we adopt the standard leave-out-one-curve technique as in Rudemo (1982) for the probability density estimation and

Rachdi and Vieu (2007) for the regression operator estimation, by considering the following

criteria :

GCV (a; b) =1

n

nXi=1

W1(Xi)

Z bfi2(a;b)(Xi; y)W2(y)dy 2nnXi=1

bfi(a;b)(Xi; Yi)W1(Xi)W2(Yi) (6)and respectively, for a xed y 2 R :

LCVx;y(a; b) =1

n

nXi=1

W1;x(Xi)

Z bfi2(a;b)(Xi; z)W2;y(z)dz 2nnXi=1

bfi(a;b)(Xi; Yi)W1;x(Xi)W2;y(Yi)(7)


where W2;x (respectively W2;y) is some positive local weight function around x (respectivelyy), and for any i = 1; : : : ; n :

bfi(a;b)(x; y) = b1Pn

j 6=iK(a1d(x;Xj))H(b1(y Yj))Pn

j 6=iK(a1d(x;Xj)): (8)

These criteria are obtained by using the fact that

C =

Z Z bf(a;b)(x; y)f(x; y)W1(x)W2(y)dPX(x)dy=

Z Z bf(a;b)(x; y)W1(x)W2(y)dPY jX=x(y)dPX(x)=

Z Z bf(a;b)(x; y)W1(x)W2(y)dP(X;Y )(x; y)= IE(X;Y )

bf(a;b)(X;Y )W1(X)W2(Y )and

A = IEX

Z bf2(a;b)(X; y)W1(X)W2(y)dywhere IEZ denotes the expectation with respect to the distribution of the random variableZ.

Finally, our global (respectively, local) cross-validation procedure consists in choosing the

bandwidths (a; b) which minimize GCV (a; b) (respectively, LCVx;y(a; b)) on a given setHn IR+2 (respectively, Hn(x; y) IR+2).

2.3 Main Results

2.3.1 Assumptions

In order to deduce the asymptotic optimality of the bandwidth selected by the rule GCV(respectively, LCVx;y), we will assume that the weight function W1 (respectively W2) isbounded with support in some subset SX of F (respectively on a compact subset SY of IR)and the conditional density f(; ) is bounded on SX SY . In the sequel of this paper, whenno confusion is possible, we will denote by C and C 0 some strictly positive generic constantsand we will make the following assumptions :

The weight functions are taken, for each curve x, such that for some positive real w :

w = a for 0 < < 1 and W1;x is bounded and supported in B(x;w) (9)

where B(x; h) denotes the closed ball with center x and radius the real h > 0,

8x 2 SX ; 0 < C(h) IP (X 2 B(x; h)) C 0(h) (10)

2.3. Main Results 41

where (h) is a positive real function such that limh!0

(h) = 0.

There exist some strictly positive constants b1, b2 and , such that : 8(x0; y0) 2 SX SY ,8(x1; x2) 2 SX SX and 8(y1; y2) 2 SY SY , we have :

f(x0; y0) > and jf(x1; y1) f(x2; y2)j Cdb1(x1; x2) + jy1 y2jb2

(11)

The kernel K is a bounded and Lipschitzian kernel on its support (0; 1), and there existsome positive constants C and C 0 such that :

0 < C < K(t) < C 0 >>:9C > 0; 90 > 0; 8 < 0; 0() < Cand if K(1) = 0; the function (:) has to fulll the additional condition :

9C > 0; 90 > 0; 80 < < 0;Z 0(u) du > C ()

(14)

For n large enough, the Kolmogorov's -entropy of SX denoted by SX (cf. for instance,Kolmogorov and Tikhomiros (1959) and Theodoros and Yannis (1997)) satises, for some

2 (0; 1) :1Xn=1

n(3+1)=2 exp

(1 ) SX

log n

n

1 (15)

and for all (a; b) 2 Hn we have :lim

n!+1n

b =1 and (a) Cn for some 2 (0; 2 2) (16)

2.3.2 Some interpretations and examples on our hypotheses

It is worth observing that these conditions are not very restrictive. The hypotheses (10)-(14)

are very standard in the functional nonparametric setting. More precisely :

The hypothesis (10) is a simple uniformization of the concentration property of the

probability measure on the small balls. This assumption is satised for a large family

of random functional variables. Indeed, in many examples, the small ball probability

function IP (X 2 B(x; h)) can be written approximatively as the product of two inde-pendent functions g(x) and (h), as in the following examples, which can be found inFerraty et al. (2007) :


(i) IP (X 2 B(x; h)) = g(x)h for some > 0(ii) IP (X 2 B(x; h)) = g(x)h exp

Chp

for some > 0 and p > 0

(iii) IP (X 2 B(x; h)) = g(x)j log(h)jThus, condition (10) is automatically veried if the function g satises :

0 < C < infx2SX

g(x) supx2SX

g(x) < C 0

2.3. Main Results 43

2. The unit ball of the Cameron-Martin space associated to the standard stationary

Ornstein-Uhlenbeck process viewed as a map in the Sobolev space W 12 (0; 1) withthe covariance operator :

C(s; t) = exp (ajs tj) ; for a > 0

For this subset, we have :

SX

log n

n

= O(log n)

3. The closed ball B(0; r) in the Sobolev space dened by the class of functions x(t)on T = [0; 2p), such that :

1

2

Z 20

x2(t)dt+1

2

Z 20

x(m)2(t)dt r

where x(m)() denotes the mth derivative of x. In this case :

SX

log n

n

= O(n1=m)

4. The compact subsets in the nite dimensional spaces, or in the projection semi-

metric in Hilbert spaces where :

SX

log n

n

= O(log n)

Notice that, the inequality (H5b) in Ferraty et al. (2010) is not necessary here because

such assumption is used to precise the convergence rate of the uniform consistency

which is not necessary. In other words, the uniform consistency of the kernel estimator

of the conditional density (without any precision on the convergence rate) is sucient

to show our results.

Conditions (9) and (16) are equivalent to those used by Rachdi and Vieu (2007) and

Benhenni et al. (2007) for the global and local cross-validation procedures in the

operatorial regression estimation. In fact, these hypotheses are the functional versions

of those used by Hrdle and Marron (1985) and Youndj (1996) in the usual real case.

The condition (9) on the weight function is similar to that in Vieu (1991), and allows

to give more importance to observations around the curve x.

2.3.3 Two theorems on global and local criteria

Theorem 2.3.1. Under hypotheses (10)-(16), if the set Hn of bandwidths (a; b) is nitewith :

#(Hn) = O(n) for some > 0; where # denotes the cardinality (17)


then, we have for k = 1; 2; 3, that :

dk( bf(a1;b1); f)dk( bf(a0;b0); f) ! 1 almost surely (a.s.), as n! +1 (18)where

(a0; b0) = (a0K;n ; b0H;n) = arg inf(a;b)2Hn

dk( bf(a;b); f)and (a1; b1) = (a1K;n ; b1H;n) = arg inf

(a;b)2HnGCV (a; b)

On the local framework, we suppose that (15) is veried for SX = B(x;w) and we deducethe same optimality results, for the local criterion.

Theorem 2.3.2. Under hypotheses (9)-(16), if the set Hn(x; y) of bandwidths (a; b) is nitewith :

#(Hn(x; y)) = O(n(x;y)) for some (x; y) > 0; (19)

then, we have for k = 1; 2; 3, that :

dk( bf(a1;b1); f)dk( bf(a0;b0); f) ! 1; a.s., as n! +1 (20)where

(a0; b0) = (a0K;n ; b0H;n) = arg inf(a;b)2Hn(x;y)

dk( bf(a;b); f)and (a1; b1) = (a1K;n ; b1H;n) = arg inf

(a;b)2Hn(x;y)LCVx;y(a; b)

2.4 Discussion and applications

2.4.1 On the applicability of the method

It is well know that, the estimation of the conditional probability density is an important

tool permitting the analysis of the input-output relation in nonparametric statistics. Such

nonparametric model provides a broader range of relevant information on the covariation

between two random variables. Moreover, if a conditional density estimator is available, it is

easy to make the prediction via the conditional mode estimator, to derive prediction intervals

or to determine the probabilities of extreme values. So, the optimality of all these statistical

studies is closely linked to the construction of the optimal estimator of the conditional

density. In order to emphasize the practical aspects of our study, we discuss in the rest of

this section the applicability of our bandwidth selection approach on some nonparametric

models, frequently used in practice, for which this question of the bandwidth selection is

inherent to derive their best properties.

2.4. Discussion and applications 45

The conditional mode estimation : often, the prediction of the values of the response variable

knowing an explained one is obtained by estimating the conditional expectation. However,

the latter may not be suciently informative, when the conditional distribution possesses

mu