1ère École d’été en Statistique et Science des Données ... · ticiens de la SFdS auquel est...

1ère École d’été en Statistique et Sciencedes Données pour les jeunes chercheurs

d’Afrique francophone

M’Bour, Sénégal

1–5 juillet 2019

Bienvenue !

Le comité d’organisation de la première école d’été en Statistique et science desdonnées est ravi de vous accueillir au centre AIMS (African Institute for Mathema-tical Sciences) Sénégal de M’bour. Cette manifestation scientifique a été initiée parles membres de la cellule internationale du groupe Jeunes Statisticiens de la SociétéFrançaise de Statistique (SFdS) de concert avec la Présidence de AIMS-Sénégal.

AIMS est un réseau panafricain de centres d’excellence pour la formation post-universitaire, la recherche et l’engagement public en Sciences mathématiques et sesapplications. AIMS-Sénégal abrite par ailleurs un centre de recherche qui superviseet finance la recherche doctorale et post-doctorale des africains sous la tutelle d’uneprestigieuse Chaire de Recherche en Mathématiques et ses Applications.Le groupe Jeunes Statisticiens est une sous structure de la SFdS qui se donne pourmissions, d’une part, d’encourager les échanges scientifiques entre les jeunes sta-tisticiens et experts en sciences des données que ce soit à l’échelle nationale ouinternationale et, d’autre part, de les aider à mettre en place un réseau profes-sionnel. Ces missions s’intègrent quant à elles dans les missions plus globales de laSFdS : promouvoir l’utilisation et la compréhension des statistiques et encouragerses développements méthodologiques.

Dans le cadre de leurs missions respectives, la SFdS à travers sa cellule interna-tionale du groupe jeunes statisticiens et AIMS-Sénégal en partenariat avec la Chairede Mathématiques et ses Applications co-organisent cette école d’été pour les jeuneschercheurs d’Afrique francophone. Leur volonté est de donner aux jeunes chercheursafricains évoluant dans le domaine des sciences de données un cadre d’échange au-tour des travaux de recherche innovants. Au cours de la semaine, trois cours descience des données seront proposés, ainsi que des présentations de conférenciersinvités et enfin des exposés d’une partie des participants eux-mêmes.

Ce livret contient les résumés des cours, conférences et communications sélec-tionnées par le comité scientifique. Nous remercions tous les participants pour avoirsoumis leurs résumés de travaux de recherche ainsi que les membres du comité scien-tifique pour son travail de sélection. Nous sommes également reconnaissants enverstous les professeurs et conférenciers invités qui ont accepté notre invitation et pré-paré des cours et conférences riches et de haut niveau sur des thèmes porteurs enAfrique et suscitant un engouement dans nos communautés de recherche.

La préparation de cette école s’est en partie déroulée à AIMS Sénégal, institutde rattachement de la moitié des membres du comité d’organisation. Elle a aussibénéficié du soutien humain et logistique des membres du groupe Jeunes Statis-

3

ticiens de la SFdS auquel est rattachée la seconde moitié des membres du comitéd’organisation. Par ailleurs, l’événement n’aurait pu avoir lieu sans le soutien detous nos partenaires et sponsors sans oublier les conseils bienveillants de chercheursexpérimentés de la SFdS. Nous adressons à tous nos chaleureux remerciements.

Nous vous souhaitons une semaine très enrichissante sur le plan scientifique etun séjour agréable à M’Bour au Sénégal.

L’ensemble des membres du comité d’organisation.

4

Comités d’organisationLe comité scientifique et d’organisation de la première école d’été en statistique etscience des données est constitué de membres suivants :

— Mouhamad M. Allaya (Docteur en Mathématiques appliquées à l’Universitéde Paris 1 Pantheon-Sorbonne et Tuteur à l’African Institute for Mathema-tical Sciences (AIMS) du Sénégal)

— Aurore Archimbaud (Docteure en Statistique, Data Scientist - Statisticiennechez ippon innovation, membre du groupe Jeunes Statisticiens de la SociétéFrançaise de Statistique (SFdS))

— Emilie Devijver (Docteure en Statistique, chargée de Recherche CNRS auLaboratoire d’Informatique de Grenoble et à l’Université Grenoble Alpes,membre du groupe Jeunes Statisticiens de la Société Française de Statistique(SFdS))

— Modibo Diabaté (Doctorant au Laboratoire Jean Kuntzmann et à l’Univer-sité Grenoble Alpes, membre du groupe Jeunes Statisticiens de la SociétéFrançaise de Statistique (SFdS))

— Charlotte Dion (Maître de conférences au laboratoire de Probabilités, Statis-tique et Modélisation et à Sorbonne Université, membre du groupe JeunesStatisticiens de la Société Française de Statistique (SFdS))

— Mame Diarra Fall (Maître de conférences à l’Institut Denis Poisson et à l’Uni-versité d’Orléans)

— Mouhamed Moustapha Fall (Professeur de Mathématiques et Chaire en Ma-thématiques et ses applications à l’African Institute for Mathematical Sciences(AIMS) du Sénégal)

— Franck Kalala Mutombo (Professeur associé à l’Universite de Lubumbashi(DRC) et Directeur Académique de l’African Institute for Mathematical Sciences(AIMS) du Sénégal)

— Oumy Niass (Docteure en Statistique appliquée à l’Université Gaston Ber-ger de Saint-Louis et Tutrice à l’African Institute for Mathematical Sciences(AIMS) du Sénégal)

— Myriam Tami (Enseignante chercheuse à CentraleSupélec, membre du groupeJeunes Statisticiens de la Société Française de Statistique (SFdS))

— Amidou Traoré (Etudiant en Master 2 aux méthodes statistiques et écono-métriques à l’Université Cheikh Anta Diop (UCAD) de Dakar)

5

Table des matières

Bienvenue ! 3

Résumés des cours 1Cours 1 - Introduction au Deep Learning (Pr. Thierry Artières) . . . . . . 1Cours 2 - Analyse de données spatiales massives. Applications à la santé,

à l’hydro-météorologie et à l’océanologie. (Pr. Sophie Dabo-Niang) . . 1Cours 3 - Introduction à l’apprentissage ciblé (Pr. Antoine Chambaz ) . . . 2

Résumés des présentations des invités 3Inférence statistique des mesures de risques extrêmes et Applications (Dr.

El Hadji Deme) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Prévision des séries temporelles multivariées par des réseaux de neurones

quasi-aléatoires (Dr. Thierry Moudiki) . . . . . . . . . . . . . . . . . 4Statistique bayésienne en imagerie (Dr. Mame-Diarra Fall) . . . . . . . . . 4Session spéciale structures invitées () . . . . . . . . . . . . . . . . . . . . . 5Table ronde : “Que faire après des études en Statistique au Sénégal ?" () . . 5

Résumés des présentations des participants 7Normalité asymptotique des statistiques de tests des indices relatifs de

dispersion et de variation (Toure Aboubacar Yacouba, Dossou-GbétéSimplice, Kokonendji Célestin C.) . . . . . . . . . . . . . . . . . . . . 7

Robust estimation in multivariate nonlinear regression with multilayer per-ceptron neural networks (Hounmenou Gbememali Castro, Gneyou E.Kossi and Glele KakaÏ L. Romain) . . . . . . . . . . . . . . . . . . . 7

Longitudinal data analysis : fitting an optimal variance-covariance struc-ture under linear mixed effects models framework. (Amagnide AubinGuénolé, Gbeha Micheline, Glèlè Kakaï Romain) . . . . . . . . . . . 8

Block clustering of Binary Data with Gaussian Co-variables (Sylla SeydouNourou, Iovleff Serge, Loucoubar Cheikh) . . . . . . . . . . . . . . . . 9

Kernel based method for the k-sample problem (Balogoun Armando Sos-thène Kali, Nkiet Guy Martial, Ogouyandjou Carlos) . . . . . . . . . 9

Essai sur les modèles financiers appliqués à la BRVM : cas de Fama etFrench (Alhassane Garba Abdoulaziz ) . . . . . . . . . . . . . . . . . . 9

Inference in a Marginalized zero-inflated binomial regression model (Ali Es-soham, Aliou Diop and Jean-Franc[Pleaseinsertintopreamble]ois Du-puy) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

7

Modélisation des effets spatiaux du divorce au Sénégal à travers le modèlede Durbin spatial : une approche par maximum de vraisemblance.(Aw Alassane) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Improving Value at Risk and expected shortfall estimation with time va-rying unconditional variance models (Ben Hajria Raja) . . . . . . . . 11

Estimation récursive de l’indice des valeurs extrêmes (Ben Khadher Fatma,Yousri Slaoui) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Statistical comparison between the distributions of some jumps models andthe dynamic of the market stock index price S&P 500 (Frihi ZahrateEl Oula) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Construction de surface de volatilités implicites en utilisant une méthodede la statistique spatiale : le krigeage. (Gueye Djibril) . . . . . . . . . 13

Consistent model selection criteria for affine causal processes and goodness-of-fit test (Kamila Karé) . . . . . . . . . . . . . . . . . . . . . . . . . 13

On change-point detection in volatile series using GARCH models (Kat-chekpele Edoh, Kossi Gneyou and Abdou Kâ Diongue) . . . . . . . . 14

Les méthodes duales d’analyse factorielle d’un multi-tableau horizontal(Moulogho Issayaba Lavie Phanie) . . . . . . . . . . . . . . . . . . . . 14

Improved Laplace Approximation EM algorithm for fitting nonlinear mixedeffects models : empirical performance (Honfo Sewanou Hermann,Tovissode Chénangnon, Glèlè Kakaï Romain ) . . . . . . . . . . . . . 15

Nonparametric estimation of the failure rate in a model of lifetimes (Agbo-kou Komi, Gneyou Kossi) . . . . . . . . . . . . . . . . . . . . . . . . 16

Logos des sponsors et soutiens 17

Index des auteurs 19

8

Résumés des cours

Cours 1 - Introduction au Deep LearningPr. Thierry Artières1

1 Ecole Centrale Marseille et Université d’Aix-Marseille - Laboratoire d’Informatique etSystèmes (LIS)

Ce cours est un cours d’introduction au Deep Learning. Le Deep Learning est undomaine du Machine Learning qui s’intéresse à l’apprentissage de représentations età l’apprentissage de modèles de type réseaux de neurones. Ces modèles ont permisdes avancées spectaculaires pour des données structurées variées de type images,vidéos, sons, textes et séquences.Le cours introduira tout d’abord les architectures neuronales classiques, percep-trons multicouches, réseaux conventionnels et réseaux récurrents, et illustrera lefonctionnement de ces modèles sur des jeux de données classiques en empruntantdes exemples aux architectures classiques publiées ces dernières années. Il s’atta-chera à montrer le rôle de la profondeur dans les architectures neuronales profondeset passera en revue les stratégies algorithmiques et structurelles employées pourdépasser les problèmes d’optimisation posés par ces modèles. Le cours abordera es-sentiellement l’apprentissage supervisé, à travers des tâches de classification, et l’ap-prentissage non supervisé, via des stratégies d’adversarial learning. Enfin le coursévoquera des thématiques récentes explorées dans le domaine de l’apprentissage pro-fond, notamment l’explicabilité, l’adaptation de domaine et l’apprentissage à partirde peu de données.

Cours 2 - Analyse de données spatiales massives.Applications à la santé, à l’hydro-météorologie et à

l’océanologie.Pr. Sophie Dabo-Niang1

1Université Charles de Gaulle (Lille 3) - Laboratoire Lille Economie Management (LEM),(France)

La statistique spatiale regroupe des techniques statistiques qui étudient des phéno-mènes observés sur des ensembles spatiaux. Ces phénomènes se manifestent dansde nombreux domaines tels que l’épidémiologie, les sciences de l’environnement etbien d’autres. La modélisation de ce type de données figure parmi les sujets de re-cherche les plus intéressants en analyse de données dépendantes. Ceci est motivé par

1

le nombre croissant de situations provenant de différents domaines où les donnéessont de nature spatiale.Nous nous intéressons dans ce cours à introduire la méthodologie et l’application demodèles statistiques spatiaux à de jeunes chercheurs et étudiants en doctorat. Plusprécisément, l’objectif de ce cours est de fournir une introduction à la statistiquespatiale, d’apprendre à modéliser et à intégrer les dépendances spatiales dans lesanalyses de données spatiales. Le cours couvrira des sujets tels que :

— L’analyse exploratoire des données spatiales— Les modèles de régression et prédiction spatiales— Les méthodes d’estimation— Les choix et spécification des modèles

Certains des modèles et méthodes spatiaux vus dans le cours seront appliqués enhydro-météorologie, océanologie et santé. Cette partie pratique se fera avec le logicielR.Références :

1. Anselin L. (1988), Spatial econometrics : Methods and models. Kluwer Academic-Publishers.

2. Chilés J-P et Delfiner, P. (2012), Geostatistics : Modeling Spatial Uncertainty,2nd Edition, Wiley.

3. Cressie, N et Wikle, C-K. (2011), Statistics for spatio-temporal data. Wiley.4. Cressie, N. (2015), Statistics for spatial data. Revised Edition. Wiley.

Cours 3 - Introduction à l’apprentissage cibléPr. Antoine Chambaz1

1 Université Paris Descartes, Laboratoire Mathématiques Appliquées Paris 5 (France)

Ce cours introduit les rudiments de l’apprentissage ciblé, au croisement du "ma-chine learning" et de la statistique semi-paramétrique. Un package R dédié permetd’illustrer et d’étayer la théorie, et facilite le développement d’une intuition. Desrudiments de programmation R sont donc bienvenus, quoique non indispensables.Le plan est le suivant :

1. Introduction2. Le paramètre d’intérêt3. Régularité4. Double-robustesse5. Inférence6. Une stratégie inférentielle simple7. Paramètres de nuisance8. Analyse d’estimateurs de substitution9. Corrections à un pas10. Inférence par minimisation ciblée de pertes

2

Résumés des présentations desinvités

Inférence statistique des mesures de risques extrêmes etApplications Mardi

2 Juillet14h30-15h30Dr. El Hadji Deme1

1UFR des Sciences Appliquées et Technologie de l’Université Gaston Berger de SaintLouis

Les compagnies de réassurance assurent un rôle économique essentiel par la four-niture d’une couverture de risques assumés pour leurs clients. Les risques extrêmesse définissent comme des risques dont on ne sait pas si le système d’assurance seracapable de les supporter, par exemple les ouragans, les incendies, les tremblementsde terre, les attentats terroristes etc. et sont généralement responsables de la grandepartie des indemnités versées par les compagnies de réassurance. Ainsi, l’attentiondes actuaires se porte en priorité sur ces risques qualifiés de majeurs et caractériséspar une faible fréquence et une extrême gravité sur les dommages qu’ils provoquent.Ceux pour lesquels la survenance d’un sinistre, que l’on peut qualifier d’exception-nel, aurait une incidence sur le taux de prime pure moyen des sous portefeuilles etmettrait à mal les résultats de la société d’assurance. On pourra se référer à Griseldaet Guillaume (2006) et Centeno et Guerra (2010). Un exemple de tel problème a étédiscuté dans Ceberián et al. (2003) sur les montants de revendications d’assurancemédicale.

Pour cela, les statistiques traditionnelles notamment le théorème central limite,la loi des grands nombres qui étudient un phénomène à travers son comportementmoyen, caractérisent mal ces extrêmes. Elles fournissent uniquement des indicationssur la distribution générale d’un phénomène, et donc elles ne donnent que très peud’informations sur la queue de distribution. Cette méthode peut ne pas fonctionnercorrectement si le portefeuille contient des risques hétérogènes. C’est ainsi que lesactuaires trouvent que le secteur entier de la réassurance est une application trèsimportante de la théorie des valeurs extrêmes, puisqu’on doit toujours sauvegarderune compagnie d’assurance contre les revendications excessives qui peuvent mettreen danger la solvabilité du portefeuille (voir par exemple Ceberián et al. (2003)).McNeil (1997) et Rootzen et Tajvidin (1997) montrent que l’application de la théoriedes valeurs extrêmes donne un cadre plus systématique, rigoureux et cohérent queles méthodes classiques. En effet, cette méthode permet de déduire la distributiondes extrêmes à partir de la distribution totale, sans traiter séparément les extrêmesdes risques récurrents. Ces événements appartiennent à ce que l’on appelle la « queue

3

de distribution », ce qui veut dire que l’on dispose de très peu d’observations pourcaractériser les distributions de probabilité. Donc, il est important de bien modéliserles queues de distributions pour éviter les erreurs grossières de tarification. La modé-lisation de ces observations par la distribution normale a été longtemps utilisée dansla gestion du risque. Cependant, les études empiriques concluent que les donnéesfinancières et actuarielles présentent des déviations systématiques de la normalitéet leurs distributions ont généralement une queue plus lourde que celle du modèleGaussien.

Prévision des séries temporelles multivariées par des réseauxde neurones quasi-aléatoiresJeudi

4 Juillet14h30-15h30 Dr. Thierry Moudiki1

1Laboratoire de sciences actuarielles et financières (LSAF) de l’université Lyon 1 (France)

Nous nous intéressons à des modèles hybrides entre régression linéaire pénalisée, etréseaux de neurones à une couche cachée. Ces types de modèles, en plus de leurcapacité à produire des prévisions non-linéaires, ont pour avantages d’être rapidesà entraîner et relativement simples à interpréter. Une application à la prévision deséries temporelles multivariées est présentée.

Statistique bayésienne en imagerieVendredi5 Juillet

14h30-15h30 Dr. Mame-Diarra Fall11Université d’Orléans (France)

On s’intéresse à divers problèmes de traitement et de reconstruction d’images dansun cadre statistique dit bayésien. L’approche bayésienne permet de prendre encompte la connaissance a priori sur les paramètres du modèle et d’inférer sur leurslois a posteriori. À travers divers exemples, on montrera comment la statistiquebayésienne est incontournable en imagerie.

4

Session spéciale structures invitées Jeudi4 Juillet15h30-17h30

Dans la session spéciale, nous aurons le plaisir d’accueillir les structures suivantes :

— ANSD : http://www.ansd.sn/ de 15h30 à 16h— ENSAE : http://www.ensae.sn/ de 16h à 16h30— IREMPT : https://irempt.ucad.sn/ de 16h30 à 17h— Senegal FlyingLab : https://flyinglabs.org/senegal/ de 17h à 17h30

Chacune de ces structures fera une présentation sur l’usage des sciences des don-nées dans leurs activités et éventuellement l’insertion de futur diplômés en statistiquedans le marché de l’emploi. Il sera également le lieu d’échanger avec les participantsdans leur domaine respectif de recherche afin de susciter d’éventuelles perspectivesde collaboration ou d’embauche.

Table ronde : “Que faire après des études en Statistique auSénégal ?" Jeudi

4 Juillet17h30-18h30

L’objectif de cette table ronde est de permettre un échange autour des perspectivesprofessionnelles au Sénégal suite à l’obtention de diplômes en Statistique.

5

http://www.ansd.sn/

http://www.ensae.sn/

https://irempt.ucad.sn/

https://flyinglabs.org/senegal/

Résumés des présentations desparticipants

Normalité asymptotique des statistiques de tests des indicesrelatifs de dispersion et de variation Lundi

1 Juillet12h00-12h30Toure Aboubacar Yacouba1, Dossou-Gbété Simplice2, Kokonendji Célestin C.3

1Université Bourgogne Franche-Comté (France), 2Université Bourgogne Franche-Comté(France), 3Université de Pau et des Pays de l’Adour (France)

A partir des indices de dispersion relatives aux lois de Poisson et binomiale pour lesdonnées de comptage et, récemment, de l’indice de variation exponentielle pour lesdonnées continues positives, nous introduisons d’abord la définition unifiée à l’in-dice de variabilité relative à une famille exponentielle naturelle positive à traverssa fonction variance. Ensuite, nous montrons la normalité asymptotique des statis-tiques de tests correspondantes et donnons des exemples applicables. Des études desimulations ont mis en évidence de bons comportements de ces statistiques de testsasymptotiques. Des remarques finales sont faites avec de possibles extensions.Mots Clés. Loi continue, loi de comptage, famille exponentielle, fonction variance.

Robust estimation in multivariate nonlinear regression withmultilayer perceptron neural networks Lundi

1 Juillet12h30-13hHounmenou Gbememali Castro1, Gneyou E. Kossi2 and Glele KakaÏ L. Romain3

1 Laboratoire de Biomathématiques et d’Estimations Forestières, 2 Institut desMathématiques et des Sciences Physiques, Université d’Abomey-Calavi, (Bénin), Facultédes Sciences (FDS), Université de Lomé (Togo), 3Laboratoire de Biomathématiques et

d’Estimations Forestières, Université d’Abomey-Calavi (Bénin)

Multilayer perceptron neural networks (MLP) are a very rich family of nonlinearfunctions whose main characteristic is to allow a great modeling flexibility amongthe nonlinear regression functions. For empirical data involving a high proportionof contaminated observations with errors whose magnitude and structure may bearbitrary, robust estimators in the breaking point sense are generally defined asthe overall minimum of some non-convex measure of errors. Thus, the problem ofglobal optimization of learning algorithms used in MLP arises. The taking intoaccount of noises in the learning process, most of the time is supposed to have a

7

standard normal distribution as considered by Badran et al. (2002) in their work,using Bayesian approach. This hypothesis is arbitrary if not false due to the nature ofsome data or certain field applications. In this paper, we give an extension their workbased on a multivariate distribution as hypothesis, which allowing for a multiplecontinuous variation from normality to non-normality. The main goal of this workto build a determinist model in order to find the "real" relationship which bindsinputs to outputs variables ; to defined a new algorithm based on back propagation ofgradient of errors for learning of these types of dataset and to showed the asymptoticbehavior of parameters estimated of the non-linear regression function. At the last,we presented an application case.Mots Clés. Nonlinear regression., learning algorithm, imprecise data, Multilayerperceptron.

Longitudinal data analysis : fitting an optimalvariance-covariance structure under linear mixed effects

models framework.Lundi1 Juillet

16h00-16h30 Amagnide Aubin Guénolé1, Gbeha Micheline2, Glèlè Kakaï Romain3

1Laboratoire de Biomathématiques et d’Estimations Forestières (LABEF) (Bénin),2Département de Mathématiques, Faculté des Sciences et Techniques, Université

d’Abomey-Calavi, République du Bénin (Bénin), 3Laboratoire de Biomathématiques etd’Estimations Forestières (LABEF) (Bénin)

In this study, we (i) assessed the performance of 5 fit statistics (AIC, BIC, HQIC,CAIC and AICC) to determine the correct within-subject covariance structure (WSCS)in longitudinal data analysis and (ii) investigated the consequence of misspecifica-tion of WSCS. Firstly, a simulation study was achieved in 192 cases taking intoaccount six characteristics of the data sample (sample size, measurement periods,magnitude of growth parameter, size of G matrices, covariance structure and distri-bution of the within-subject error). For each combination of these parameters, 500replications were generated using Monte Carlo procedure and the hit rate of eachof the 5 search statistics is computed and help to compare their performance. At asecond step, based on 32 restricted simulation conditions, the effect of misspecifica-tion in WSCS was assessed by computing the mean relative bias and mean relativeerrors of the coefficients of fixed effects and random components. Results showed anoverall best performance of the HQIC, BIC and CAIC for searching first order auto-regressive [AR(1)] and first order moving average [MA(1)] covariance structures.Mots Clés. Fit statistics, subject covariance structure, within, Repeated measure-ments, misspecification, Monte Carlo experiments.

8

Block clustering of Binary Data with Gaussian Co-variables Lundi1 Juillet18h-18h30Sylla Seydou Nourou1, Iovleff Serge2, Loucoubar Cheikh3

1Institut Pasteur, Dakar (Sénégal), 2UMR 8524 - INRIA, Univerité Lille 1 (France),3Institut Pasteur (Sénégal)

The simultaneous grouping of rows and columns is an important technique thatis increasingly used in large-scale data analysis. In this paper, we present a novelco-clustering method using co-variables in its construction. It is based on a latentblock model taking into account the problem of grouping variables and clusteringindividuals by integratin information given by sets of co-variables. Numerical expe-riments on simulated data sets and an application on real genetic data highlight theinterest of this approach.Mots Clés. Model based, coclustering, block mixture model, BEM, coclusteringwith covariables.

Kernel based method for the k-sample problem Mardi2 Juillet10h-10h30Balogoun Armando Sosthène Kali1, Nkiet Guy Martial2, Ogouyandjou Carlos3

1Institut de Mathématiques et de Sciences Physique (IMSP) de Dangbo (Bénin) (Bénin),2Université des Sciences et Techniques de Masuku, Franceville, Gabon (Gabon), 3Institut

de Mathématiques et de Sciences Physiques (IMSP) de Dangbo (Bénin) (Bénin)

In this presentation we deal with the problem of testing for the equality of k pro-bability distributions dened on (X ; B), where X is a metric space and B is thecorresponding Borel -eld. We introduce a test statistic based on reproducing ker-nel Hilbert space embeddings and derive its asymptotic distribution under the nullhypothesis. Simulations show that the introduced procedure outperforms known me-thods.Mots Clés. Hypothesis testing, k sample problem, Reproducing kernel Hilbertspace, Asymptotic distribution.

Essai sur les modèles financiers appliqués à la BRVM : cas deFama et French Mardi

2 Juillet10h30-11hAlhassane Garba Abdoulaziz1

1Laboratoire de Mathématique de la Décision et d’Analyse Numérique (Sénégal)

Dans le présent papier, il est question d’étudier les rendements des actions en s’inté-ressant particulièrement à la catégorisation des actions. En effet, nous nous sommesintéressées à l’application de cinq modèles, à savoir le MEDAF1, le modèle de Born-holt, le Downside Risk MEDAF (2002), les deux modèles de Fama et French de 1993et 2015, pour évaluer les actions de la BRVM. On a utilisé aussi, une technique d’es-timation, le Quantile Régression (QR) vu que les données ne sont pas gaussiennes.Ainsi, il ressort de ces estimations que globalement toutes les régressions débouchent

9

sur des meilleurs modèles. Mais, lorsqu’on considère uniquement la statistique de R-deux, manifestement, les deux modèles de Fama-French (93, 2015) se démarquent dulot. Et, s’il faut choisir entre les cinq modèles, le modèle à trois facteurs de Fama etFrench semble être le meilleur modèle optimal pour le cas des actions de la BRVM,dans lequel le facteur bêta de marché est considéré comme un facteur de rentabilité,de même que SMB pour les portefeuilles SL, SM et SH. Toutefois, on constaté queselon les résultats du modèle de Fama-French (93 et 2015), les portefeuilles à petitecapitalisation boursières (Small) sont plus rentables que les grandes capitalisation(Big).Mots Clés. Fama, French, Bornholt, Downside Risk MEDAF, MEDAF, QR etBRVM.

Inference in a Marginalized zero-inflated binomial regressionmodelMardi

2 Juillet15h30-16h Ali Essoham1, Aliou Diop1 and Jean-Francois Dupuy2

1University of Gaston Berger, Saint-Louis, LERSTAD, Senegal2 University of Rennes, INSA Rennes ,CNRS, IRMAR - UMR 6625, France

Data sets with excess zeroes are frequently analyzed in many disciplines. A com-mon framework used to analyze such data is the zero-inflated (ZI) regression model.Marginal zero-inflated binomial regression (MZIB) model was recently proposed todirectly model the mean of the reponse variable. The details of maximum likelihoodestimation via the EM algorithm are presented and simulations suggest that the re-sulting estimates behave well. However, theoritical properties of the MLE in MZIBregression have not yet been rigorously established. Such results are however essentialfor ensuring reliable statistical inference and decision-making. This paper presentsa marginalized ZIB model to directly model the mean of the mixture distributionconsisting of "susceptible" individuals and excess zeroes, providing straightforwardinference for overall exposure effects.. Consistency and asymptotic normality of theMLE in MZIB regression are proved. A simulation study is conducted to assessfinite-sample behaviour of the estimator. Finally, an analysis of a data set in thefield of health economics illustrates the paper.Mots Clés. Marginalized Models, Count data, large-sample properties, Zero-inflation,simulations.

10

Modélisation des effets spatiaux du divorce au Sénégal àtravers le modèle de Durbin spatial : une approche par

maximum de vraisemblance. Mardi2 Juillet16h-16h30Aw Alassane1

1Laboratoire de Mathématiques et Applications et Agence Nationale de la Statistique etde la Démographie du Sénégal (Sénégal)

Le modèle de Durbin spatial (SDM) fait partie de la famille des modèles autoré-gressifs spatiaux. Dans cette communication, nous utilisons le modèle SDM pourmesurer les effets spatiaux du divorce au Sénégal. La variable d’intérêt est le tauxde divorce et les variables explicatives sont le taux d’analphabétisme et l’âge moyenau mariage. Les paramètres du modèle sont estimés par la technique du maximum devraisemblance. L’estimation du paramètre autorégressif spatial est réalisée à l’aidede l’optimisation numérique de la log-vraisemblance concentrée du modèle SDM. Lesrésultats obtenus ont montré que le taux d’analphabétisme et l’âge moyen au ma-riage ont un impact réel sur le taux de divorce au Sénégal. Nous notons égalementque les départements du pays qui sont géographiquement proches sont plus sem-blables que les départements qui sont éloignés par rapport aux données de divorce.Les effets directs et indirects ont été utilisés pour mesurer les changements dans ledivorce induits par les variations du taux d’analphabétisme et de l’âge moyen aumariage.Mots Clés. Modèle de Durbin spatial, Estimation par maximum de vraisemblance,Mesures d’impact.

Improving Value at Risk and expected shortfall estimationwith time varying unconditional variance models Mardi

2 Juillet18h-18h30Ben Hajria Raja1

1LGM-ENIM, Faculty of Sciences, University of Monastir (Tunisie)

This paper studies two advanced models in Value at Risk and expected shortfallestimation with time-varying unconditional variance. In particular, we compare themodeling performance of a time-varying autoregressive conditional heteroscedastic(tv-ARCH) model having non-constant unconditional variance, with a fully deter-ministic specification of the non-constant variance model. Simulation experimentshighlight the importance of applying a pre-test for ARCH effects, before fitting anARCH model to the data, to obtain an accurate estimation of the Value at Risk andthe expected shortfall. Applications to financial returns data are included.Mots Clés. Unconditionally heteroscedastic errors, ARCH models, Value at Risk,Expected shortfall.

11

Estimation récursive de l’indice des valeurs extrêmesMercredi3 Juillet

10h-10h30 Ben Khadher Fatma1, Yousri Slaoui21Laboratoire d’analyse, géométrie et Applications, Faculté des sciences de Monastir,Université de Monastir (Tunisie), 2Laboratoire de Mathématiques et Applications,

Université de Poitiers, Centre National de la Recherche Scientifique : UMR7348 (France)

L’objectif de ce travail est d’appliquer les méthodes d’approximations stochastiquesà l’estimation de la fonction d’indice des valeurs extrêmes. Cette méthode nouspermet de construire toute une classe d’estimateurs récursifs à noyau de la fonc-tion d’indice des valeurs extrêmes. Ensuite, nous étudions les différentes propriétésasymptotiques de ces estimateurs afin de comparer la performance de notre estima-teur récursive avec celle non-récursive de Goegebeur. Nous montrons que, avec unchoix optimal de paramètres, l’estimateur récursif proposé par la méthode d’approxi-mation stochastique est très efficace en termes de gain de temps de calcul. Enfin,nous confirmons ces résultats théoriques à l’aide des simulations.Mots Clés. Indice des valeurs extrêmes, paramétrique, estimation non, Algorithmed’approximation stochastique, distribution de type Pareto.

Statistical comparison between the distributions of somejumps models and the dynamic of the market stock index

price S&P 500Mercredi3 Juillet

10h30-11h Frihi Zahrate El Oula1

1Université Badji Mokhtar - Annaba (Algérie)

In order to see which of the two jumps diffusion models (Merton and Kou) is thebest fit for the S&P 500. We will analyze the index real data distribution. Afterthat, we use the maximum likelihood estimation to determined the parameters ofthe previous models. Finally, we use Matlab to compare the densities of the S&P500 log-returns to the densities of the simulated data from both models.Mots Clés. Jumps diffusion models, S&P 500 index, Normality test, maximumlikelihood estimation, goodness of fit.

12

Construction de surface de volatilités implicites en utilisantune méthode de la statistique spatiale : le krigeage. Jeudi

4 Juillet10h-10h30Gueye Djibril1

1Institut de Recherche Mathématique Avancée (France)

Nous présentons un premier travail qui porte sur la construction de surfaces de vo-latilité implicite respectant une condition de non-arbitrage. Ces surfaces permettentpar exemple d’estimer à partir du prix d’options liquides, la valeur des produitsfinanciers dont les caractéristiques sont non-standards et dont le prix n’est pas ob-servé sur le marché. La construction de telles surfaces est une étape importantedans certains processus de gestion des risques. Elle permet également de tarifier desactifs non-liquides. Nous adaptons une technique de krigeage contraint utilisée parCousin, Maatouk et Rullière (2016) au contexte de la construction de surface de vo-latilité. Cette technique se base sur l’approximation fini-dimensionnelle développéepar Maatouk (2017). Une attention particulière porte sur la simulation des coeffi-cients aléatoires gaussiens quand les contraintes sont saturées. En effet, la saturationdes contraintes réduit l’efficacité des simulations, à la fois pour l’algorithme de rejetautour du mode de Maatouk et Bay(2016) et l’algorithme de Monte Carlo Hamilto-nien utilisé par Lopez et al. (2017). Cependant, nous proposons une approche baséesur une grille adaptée aux observations et aux contraintes de marché afin d’améliorerces algorithmes. Nous montrons la robustesse de cette approche en construisant unesurface de volatilité implicite répondant aux conditions de non arbitrage du marché.La construction des surfaces intègre également l’incertitude associé au prix des op-tions observées.Mots Clés. Conditions d’arbitrage du marché., volatilités implicites, krigeage.

Consistent model selection criteria for affine causal processesand goodness-of-fit test Jeudi

4 Juillet10h30-11hKamila Karé1

1Statistique, Analyse et Modélisation Multidisciplinaire (SAmos-Marin Mersenne)(France)

Time series analysis is a very active research subject in statistics, probability, financeetc and it is widely used in engineering, meteorology, and in many other fields.Model selection, which is also another relevant research topic, particularly in timeseries analysis, plays a very important role. The Bayesian Information Criterion well-known as BIC has long been used as a panacea for consistent model selection issue.In this paper, we study the model selection problem in a general framework whichincludes both the ARMA or AR(∞) processes, as well as the GARCH or ARCH(∞)processes, APARCH processes, ARMA-GARCH processes, . . .. We provide sufficientconditions depending on the Lipschitzian coefficients to ensure that the procedureselection will lead to the choice of the "true" model with probability approachingone. These conditions clearly show that the penalty log n does not always guaranteethe consistency. We also propose a tool for diagnosing the adequacy of the chosen

13

model based on the Portmanteau Test. Numerical simulations and an illustrativeexample on the FTSE index are performed to highlight the obtained asymptoticresults including an example of order selection of an AR(p) processes with ARCH(∞)white noise such as the BIC does not lead to the consistency.Mots Clés. Consistency, model selection, BIC, affine causal processes, PortmanteauTest.

On change-point detection in volatile series using GARCHmodelsVendredi

5 Juillet10h-10h30 Katchekpele Edoh1, Kossi Gneyou1 and Abdou Kâ Diongue2

1Université de Lomé (Togo), 2Université Gaston Berger de Saint-Louis Sénégal (Sénégal)

We study a Cumulative Sum (CUSUM)-type test to detect a change in the un-conditional variance of GARCH models. We show that, under the null hypothesis(no change), the CUSUM test statistic converges to the supremum of a standardBrownian bridge. Using Monte Carlo simulation, we demonstrate that the asymp-totic power of the test is almost the unity and compare the test result with existingresults in the literature. Finally, the test procedure is applied to real-world situa-tion namely the Standard and Poor (S&P) 500 stock market returns (09/16/1980to 01/31/2008) where we are able to detect a change in the unconditional varianceat a very early stage of the financial crisis in comparison to other previous analysesof the same dataset.Mots Clés. Brownian bridge, Squared cusum test, point, Change, GARCH model,Weak convergence.

Les méthodes duales d’analyse factorielle d’un multi-tableauhorizontalVendredi

5 Juillet10h30-11h Moulogho Issayaba Lavie Phanie1

1Laboratoire de Statistique et Analyse des Données (LABSAD) (Congo-Brazzaville)

Les méthodes de liens entre deux tableaux et leurs extensions à plusieurs couples detableaux appariés en lignes ont fait l’objet de nombreuses applications en analyse desdonnées. En revanche, la question sur les méthodes dont les tableaux sont appariésen colonnes a été moins abordée. Uniquement quelques méthodes ont été proposées(STATISD, AFMD ... ). Dans cette optique, nous proposons des nouvelles méthodesduales d’analyse factorielle basées sur la matrice des inter-produits scalaires quipermet de décrire les proximités entre individus des tableaux deux à deux. Elles ontpour principe l’optimisation des critères sous contraintes, en construisant des basesorthonormées des espaces vectoriels afin de représenter graphiquement les données(individus et variables) . Etant donné que le développement de nouvelles méthodesen analyse des données n’a de l’intérêt que si elles sont appliquées aux données réelles,nous avons appliqué ces méthodes pour montrer leur intérêt pratique et servir debase de comparaison.Mots Clés. Méthodes duales, STATIS duale, AFM duale, multi, tableau vertical,analyse de co, inertie duale.

14

Improved Laplace Approximation EM algorithm for fittingnonlinear mixed effects models : empirical performance Vendredi

5 Juillet15h30-16hHonfo Sewanou Hermann1, Tovissode Chénangnon1, Glèlè Kakaï Romain 2

1 Laboratoire de Biomathématiques et d’Estimations Forestières (Bénin), 2Laboratory ofBiomathematics and Forest Estimations (Bénin)

Background : Nonlinear mixed effects models have gained interests in recent de-cades for modeling applied sciences’ phenomena. The good performance of thesemodels rely on the accuracy of maximum likelihood estimation methods of parame-ters. Available algorithms such as EM algorithm still need improvement for providingmore accurate estimations. The present study has proposed an extension of the EMalgorithm using the Improved Laplace Approximation for obtaining restricted maxi-mum likelihood estimates in nonlinear mixed effects models.Methods : Four simulation studies have been conducted to assess the accuracy ofthe proposed EM algorithm and to compare it with regard to the standard Laplaceapproximation and the fully exponential Laplace approximation algorithms. Theorange tree data has been used to assess the performance of the algorithm on realdata.Results : The proposed EM algorithm provided significantly unbiased estimatesfor all fixed effects and variance-covariance components. The 95% confidence inter-vals often covered the true parameters’ values. Though, it reached convergence afterconsiderable iterations. Concluding remarks Using the Improved Laplace approxi-mation in the E-step for approximating conditional expectations of the completedata sufficient statistics, has improved the estimation accuracy of both fixed andrandom effects of a nonlinear mixed effects models. Though, the proposed algorithmmain drawback that needs to be fixed by upcoming studies was the time it takesbefore convergence.Mots Clés. Nonlinear mixed effects models, EM algorithm, Improved Laplace Ap-proximation, Maximum Likelihood Estimation.References :- Dempster AP, Laird NM, Rubin DB (1977) Maximum likelihood from incompletedata via the em algorithm. Journal of the royal statistical society Series B (metho-dological) pp 1-38- Fu L, Wang M, Lei Y, Tang S (2014) Parameter estimation of two-level non-linearmixed effects models using first order conditional linearization and the em algorithm.Computational Statistics & Data Analysis 69 :173-183- Kuhn E, Lavielle M (2005) Maximum likelihood estimation in nonlinear mixedeffects models. Computational Statistics & Data Analysis 49(4) :1020-1038- Lindstrom MJ, Bates DM (1990) Nonlinear mixed effects models for repeated mea-sures data. Biometrics pp 673-687- Pinheiro JC, Bates DM (1995) Approximations to the log-likelihood function inthe nonlinear mixed-effects model. Journal of computational and Graphical Statis-tics 4(1) :12-35- Ruli E, Sartori N, Ventura L, et al (2016) Improved laplace approximation formarginal likelihoods. Electronic Journal of Statistics 10(2) :3986-4009- Wang J (2007) Em algorithms for nonlinear mixed effects models. Computational

15

statistics & data analysis 51(6) :3244-3256- Wolfinger R (1993) Laplace’s approximation for nonlinear mixed models. Biome-trika 80(4) :791-795- Zhou M (2009) Fully exponential laplace approximation em algorithm for nonlinearmixed effects models

Nonparametric estimation of the failure rate in a model oflifetimesVendredi

5 Juillet16h-16h30 Agbokou Komi1, Gneyou Kossi1

1Université de Lomé (Togo)

In survival analysis, it is often necessary to model the link between the survival func-tion and a number of factors called explanatory variables or covariates. In the contextof the analysis of a clinical trial, for example, it may be necessary to study data called"censored". Mathematically, a lifetime is nothing more than a non-negative randomvariable. This type of variable is common, particularly in medicine, epidemiology,finance, actuarial science and reliability. Our presentation is devoted to the intro-duction to survival analysis with a reminder of some basic notions about incompletedata and non-parametric estimation as well as the main estimators of the“failurerate" (again called “hazard rate" or “instant risk ") based on censored and / or trun-cated data in the presence of covariates. Then it deals with the strong representationof the kernel estimator of the conditional hazard rate for right-censored and / orleft-truncated data with simulationsMots Clés. Nonparametric estimation, maximum conditional failure rate, censoreddata, truncated data, functional variable, strong representation.

16

Logos des sponsors et soutiens

Nous remercions aussi très chaleureu-sement Pr. Ismael Castillo de l’InstitutUniversitaire de France pour son soutienà cette manifestation scientifique.

17

Index des auteurs

Alhassane Garba Abdoulaziz, 9Ali , 10Amagnide Aubin Guénolé, 8Artières Thierry, 1Aw Alassane, 11

Balogoun Armando, 9Ben Hajria Raja, 11Ben Khadher Fatma, 12

Chambaz Antoine, 2

Dabo-Niang Sophie, 1

El Hadji Deme, 3

Fall Mame-Diarra, 4

Frihi Zahrate El Oula, 12

Gueye Djibril, 13

Hounmenou Gbêmêmali Castro, 7

Kamila Karé, 13Katchekpele Edoh, 14Komi Agboko, 16

Moudiki Thierry, 4Moulogho Issayaba Lavie Phanie, 14

Sewanou Hermann Honfo, 15Sylla Seydou Nourou, 9

Toure Aboubacar Yacouba, 7

19

1ère École d’été en Statistique et Science des Données ... · ticiens de la SFdS auquel est...

Documents

Transcript of 1ère École d’été en Statistique et Science des Données ... · ticiens de la SFdS auquel est...