Traitement des données manquantes et aberrantes sous R

72
Exploration de donn´ ees Types de donn´ ees manquantes ethodes de traitement de donn´ ees manquantes Valeurs aberrantes : Outliers Sommaire Exploration et traitement de donn´ ees Traitement des valeurs manquantes et aberrantes sous R Mohamed Ali KHOUAJA IFELab www.emi.ac.ma/ifelab LERMA, EMI Universit´ e Mohamed V Rabat - Maroc eminaire, 5/5/2016 Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Transcript of Traitement des données manquantes et aberrantes sous R

Page 1: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exploration et traitement de donneesTraitement des valeurs manquantes et aberrantes sous R

Mohamed Ali KHOUAJA

IFELab www.emi.ac.ma/ifelabLERMA, EMI

Universite Mohamed VRabat - Maroc

Seminaire, 5/5/2016

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 2: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Plan

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 3: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 4: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Data mining process

Figure – Data mining process, Datacamp.com

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 5: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Data cleaning in statistical analysis

Figure – Statistical analysis value chain, voir [1]Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 6: Traitement des données manquantes et aberrantes sous R

Etapes d’elaboration d’un modele predictif

Figure – Etapes d’elaboration d’un modele predictif

Page 7: Traitement des données manquantes et aberrantes sous R

Etapes d’elaboration d’un modele predictif

Figure – Etapes d’elaboration d’un modele predictif

Page 8: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 9: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Motivation

Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.

Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 10: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Motivation

Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.

Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 11: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Motivation

Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.

Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 12: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Motivation

Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.

Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 13: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Motivation

Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.

Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 14: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Motivation

Les donnees manquantes constituent un probleme majeur,puisque l’information a disposition est incomplete et doncmoins fiable.

Parmi les causes :Il peut etre impossible de contacter une personne selectionneepour faire partie d’une enquete (non reponse totale)Ou un repondant peut refuser de repondre a une ou plusieursquestions (non-reponse partielle).Une mauvaise saisie de l’information peut egalement genererdes DM.Donnees aberrantes

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 15: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Problematique Generale des Donnees NA

L’ensemble des donnees avec lequel on doit travailler n’est pastoujours complet (NA)

Donnees manquantes :Variable a expliquerVariable(s) explicative(s)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 16: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Problematique Generale des Donnees NA

L’ensemble des donnees avec lequel on doit travailler n’est pastoujours complet (NA)

Donnees manquantes :Variable a expliquerVariable(s) explicative(s)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 17: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Problematique Generale des Donnees NA

Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)

Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 18: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Problematique Generale des Donnees NA

Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)

Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 19: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Problematique Generale des Donnees NA

Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)

Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 20: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Problematique Generale des Donnees NA

Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)

Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 21: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Traitements preliminairesPourquoi le traitement des donnees manquantes

Problematique Generale des Donnees NA

Impact Perte d’information non pertinente et/ou noninformative (Impact Nul)Perte d’information pertinente et/ou informative(Impact fonction du taux de NA + Biais possibledans l’estimation de la precision et de l’exactitude)

Solution Ne rien faire (Lorsque la proportion de NA del’echantillon est faible <5%)Utiliser une procedure adaptee de remplacement desNA

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 22: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Sommaire

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 23: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Types de donnees manquantes

Typologie de donnees manquantes, selon Little Rubin (1987), 3categories :

MCAR (”Missing completely at random”)

MAR (”Missing at random”)

MNAR (”Missing not at random”)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 24: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 25: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MCARMissing Completely At Random

La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1,qu’elles soient manquantes ou pas.

Il n’est donc pas possible de definir un profil des individusayant des valeurs manquantes, la probabilite de ces donneesest uniforme.

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant)

De maniere generale, ce type de DM est tres rare.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 26: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MCARMissing Completely At Random

La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1,qu’elles soient manquantes ou pas.

Il n’est donc pas possible de definir un profil des individusayant des valeurs manquantes, la probabilite de ces donneesest uniforme.

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant)

De maniere generale, ce type de DM est tres rare.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 27: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MCARMissing Completely At Random

La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1,qu’elles soient manquantes ou pas.

Il n’est donc pas possible de definir un profil des individusayant des valeurs manquantes, la probabilite de ces donneesest uniforme.

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant)

De maniere generale, ce type de DM est tres rare.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 28: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MCARMissing Completely At Random

La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1,qu’elles soient manquantes ou pas.

Il n’est donc pas possible de definir un profil des individusayant des valeurs manquantes, la probabilite de ces donneesest uniforme.

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant)

De maniere generale, ce type de DM est tres rare.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 29: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 30: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MARMissing At Random

La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1

manquantes, mais de leurs valeurs observees.

Exemple : Il existe une difference de non-reponse entre leshommes et les femmes concernant la question du revenu, maisparmi les hommes entre eux ou parmi les femmes entre elles,la probabilite d’avoir des non-reponses est identique quel quesoit le niveau du revenu

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xijobserve)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 31: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MARMissing At Random

La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1

manquantes, mais de leurs valeurs observees.

Exemple : Il existe une difference de non-reponse entre leshommes et les femmes concernant la question du revenu, maisparmi les hommes entre eux ou parmi les femmes entre elles,la probabilite d’avoir des non-reponses est identique quel quesoit le niveau du revenu

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xijobserve)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 32: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MARMissing At Random

La probabilite qu’une valeur de la variable X1 soit manquantene depend pas des valeurs prises par les autres variables Xj 6=1

manquantes, mais de leurs valeurs observees.

Exemple : Il existe une difference de non-reponse entre leshommes et les femmes concernant la question du revenu, maisparmi les hommes entre eux ou parmi les femmes entre elles,la probabilite d’avoir des non-reponses est identique quel quesoit le niveau du revenu

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xijobserve)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 33: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 34: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MNARMissing Not At Random

La donnee est manquante pour une raison precise voulue.

La probabilite qu’une valeur de la variable x soit manquantene depend pas des valeurs prises par les autres variables Xj 6=i

observees, mais de leurs valeurs manquantes

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xmanquant)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 35: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MNARMissing Not At Random

La donnee est manquante pour une raison precise voulue.

La probabilite qu’une valeur de la variable x soit manquantene depend pas des valeurs prises par les autres variables Xj 6=i

observees, mais de leurs valeurs manquantes

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xmanquant)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 36: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Donnees MNARMissing Not At Random

La donnee est manquante pour une raison precise voulue.

La probabilite qu’une valeur de la variable x soit manquantene depend pas des valeurs prises par les autres variables Xj 6=i

observees, mais de leurs valeurs manquantes

P(xi1manquant |xijobserve , xijmanquant) = P(xi1manquant |xmanquant)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 37: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Typologie de donnees manquantesChoix de types de donnees

Malheureusement

On ne peut generalement pas dire, a partir des donnees, quelest le mechanisme de manque (MCAR, MAR, MNAR)

Dans le cas MNAR, il est rare que l’on connaisse le modeleassocie au manquement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 38: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Donnees MCARDonnees MARDonnees MNARChoix de types de donnees manquantes

Typologie de donnees manquantesChoix de types de donnees

Malheureusement

On ne peut generalement pas dire, a partir des donnees, quelest le mechanisme de manque (MCAR, MAR, MNAR)

Dans le cas MNAR, il est rare que l’on connaisse le modeleassocie au manquement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 39: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Sommaire

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 40: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 41: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Exclure les DM

List Wise Deletion Toutes les observations ayant au moins unedonnee manquante, cela permet d’effectuer desanalyses sur des cas dont toutes les donnees sontconnues. En plus elle est peu efficiente, car beaucoupd’observations peuvent disparaitre,

Pair Wise Deletion On performe notre analyse avec toutes lescases dont les variables en question sont presentes.Son desaventage est d’utiliser differentes taillesd’echantillons pour les differentes variables.

Valide seulement en cas de MCAR

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 42: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Exclure les DM

List Wise Deletion Toutes les observations ayant au moins unedonnee manquante, cela permet d’effectuer desanalyses sur des cas dont toutes les donnees sontconnues. En plus elle est peu efficiente, car beaucoupd’observations peuvent disparaitre,

Pair Wise Deletion On performe notre analyse avec toutes lescases dont les variables en question sont presentes.Son desaventage est d’utiliser differentes taillesd’echantillons pour les differentes variables.

Valide seulement en cas de MCAR

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 43: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Exclure les DM

List Wise Deletion Toutes les observations ayant au moins unedonnee manquante, cela permet d’effectuer desanalyses sur des cas dont toutes les donnees sontconnues. En plus elle est peu efficiente, car beaucoupd’observations peuvent disparaitre,

Pair Wise Deletion On performe notre analyse avec toutes lescases dont les variables en question sont presentes.Son desaventage est d’utiliser differentes taillesd’echantillons pour les differentes variables.

Valide seulement en cas de MCAR

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 44: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 45: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation simple

Principe : remplacer chaque donnee manquante par une valeurplausible. Cela peut etre : la moyenne ou mediane pour lesattributs quantis ou le mode pour les attributs qualis.Cette methode peut comprendre deux types :

Generalized Imputation On calcule la moyenne/mediane de touteles valeurs non manquantes que prend la variable,puis on remplace les DM par la valeur de lamoyenne/mediane ou le mode pour les attributsqualis.

Similar case Imputation qui remplace les donnees manquantes pardes valeurs provenant d’individus similaires pourlesquels toute l’information a ete observee, (voirl’exemple en slide suivante)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 46: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation simple

Principe : remplacer chaque donnee manquante par une valeurplausible. Cela peut etre : la moyenne ou mediane pour lesattributs quantis ou le mode pour les attributs qualis.Cette methode peut comprendre deux types :

Generalized Imputation On calcule la moyenne/mediane de touteles valeurs non manquantes que prend la variable,puis on remplace les DM par la valeur de lamoyenne/mediane ou le mode pour les attributsqualis.

Similar case Imputation qui remplace les donnees manquantes pardes valeurs provenant d’individus similaires pourlesquels toute l’information a ete observee, (voirl’exemple en slide suivante)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 47: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation simpleExemple de Similar case Imputation

Gender Manpower Sales

1 M 25.00 343.002 F 280.003 M 33.00 332.004 M 272.005 F 25.006 M 29.00 326.007 26.00 259.008 M 32.00 297.00

Table – Jeu de donnees avec DM

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 48: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation simpleExemple de Similar case Imputation

Gender Manpower Sales

1 M 25.00 343.002 F NA 280.003 M 33.00 332.004 M NA 272.005 F 25.00 NA6 M 29.00 326.007 NA 26.00 259.008 M 32.00 297.00

Table – Jeu de donnees avec DM

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 49: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation simpleExemple de Similar case Imputation

On calcule la moyenne (en variable Manpower) pour le genre(Man) :

> mean(ListDM[Gender==c("M"),]$Manpower, na.rm = TRUE)

[1] 29.75

et (Female), pour les valeurs non manquantes :

> mean(ListDM[Gender==c("F"),]$Manpower, na.rm = TRUE)

[1] 25

Ensuite on remplace les DM, pour ”M”par 29.75 et pour ”F”par 25.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 50: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation simpleRatio Imputation

Ici, la valeur est estimee xi par un ratio multiplie par la valeurconjuguee de covariant yi .

xi = Ryi

Implementation sur R :

> x=ListDM[,2]

> y=ListDM[,3]

> I= is.na(x)

> R=sum(x[!I])/sum(y[!I & !is.na(y)])

> x[I]=R*y[I]

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 51: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Modele de prediction

Ici,

On construit un modele de prediction pour estimer les valeursavec lesquelles on substitue les DM.

xi = β0 + β1y1,i + ...+ βkyk,i

On peut utiliser : Regression, ANOVA, Regression logistiqueA noter que les packages Hmisc, VIM, mi et mice,implementent des methodes d’imputation utilisant de formesde regression

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 52: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Imputation KNN

Dans cette methode :

Les DM d’un attribut sont imputes en utilisant les attributsles plus similaires a celui en question.

La similatite entre deux attributs est determinee en utilisantune fonction de distance.

Le package VIM de R, utilise une fonction appelee kNN quiimplemente une distance de Gowers pour determiner les Kproches voisins

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 53: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Imputation KNNExemple sous R

> library(VIM)

> data(iris)

> n <- nrow(iris)

> # provide some empty values (10 in each column, randomly)

> for (i in 1:ncol(iris)) {

+ iris[sample(1:n, 10, replace = FALSE), i] <- NA

+ }

> iris2 <- kNN(iris)

Time difference of 0.058038 secs

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 54: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Autres methodes d’imputation

Hot deck imputation Imputer la valeur manquante avec une valeurobservee de la meme BDD aleatoirement (sous R, lafonction impute du package Hmisc implementecette methode en ajoutant le parametre ”random”)

Exemple : Soit ”height” les tailles extraites du jeu de donnees”women” :

> height <- women$height> height[c(6,9)]<-NA #Ajouter des DM> height<-Hmisc::impute(height, "random")> height

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1558 59 60 61 62 65* 64 65 61* 67 68 69 70 71 72

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 55: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 56: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation multiple

Principe : proceder a m > 1 imputations afin d’obtenir m valeurspour chaque donnee manquante, et a combiner ensuite lesstatistiques calculees independamment sur les m jeux de donnees.les resultats peuvent varier selon les logiciels et les modelesSouvent, on opte pour l’imputation multiple et cela revient aplusieurs raisons :

Sous l’hypothese MAR, MI produit des estimations nonbiaisees ainsi que des variances non biaisees

Methode tres flexible

Large disponibilite des techniques de MI dans les logiciels destatistique

Les packages mice et mi implementent de tels methodes

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 57: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation multiple

Etape 1 : on remplace chaque valeur manquante par M (>1)valeurs tirees d’une distribution appropriee.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 58: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation multiple

Etape 2 : on realise des analyses independantes, mais avec lameme methode, de M bases imputees.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 59: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation multiple

Etape 3 : on combine les resultats de ces analyses afin de refleterla variabilite supplementaire due aux donnees manquantes.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 60: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation multipleExemple sous R

> summary(iris) #Apres generation des DM sur le jeu de donnees "iris"

Sepal.Length Sepal.Width Petal.Length Petal.Width

Min. :4.400 Min. :2.000 Min. :1.000 Min. :0.100

1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.575 1st Qu.:0.375

Median :5.900 Median :3.000 Median :4.350 Median :1.300

Mean :5.911 Mean :3.042 Mean :3.773 Mean :1.215

3rd Qu.:6.500 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800

Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

NA's :17 NA's :20 NA's :18 NA's :18

Species

setosa :45

versicolor:44

virginica :41

NA's :20

Pour imputer les valeurs manquantes :

> imputed.data <- mice(iris.mis, m=5, maxit = 50, method = 'pmm', seed = 100);

m represente 5 jeux de donnees imputes

maxit designe le nombre d’iterations pris pour imputer les DM

method designe la methode d’imputation utilisee (ici ; Predective Mean Matching)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 61: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation multipleExemple sous R

> summary(imputed.data)

Multiply imputed data setCall:mice(data = iris.mis, m = 5, method = "pmm", maxit = 50, seed = 100)Number of multiple imputations: 5Missing cells per column:Sepal.Length Sepal.Width Petal.Length Petal.Width

17 20 18 18Imputation methods:Sepal.Length Sepal.Width Petal.Length Petal.Width

"pmm" "pmm" "pmm" "pmm"VisitSequence:Sepal.Length Sepal.Width Petal.Length Petal.Width

1 2 3 4PredictorMatrix:

Sepal.Length Sepal.Width Petal.Length Petal.WidthSepal.Length 0 1 1 1Sepal.Width 1 0 1 1Petal.Length 1 1 0 1Petal.Width 1 1 1 0Random generator seed value: 100

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 62: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Exclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

L’imputation multipleExemple sous R

Pour selectionner un jeu de donnees des 5 imputes, on utilise la fonction complete()

> completeData <- complete(imputed.data, 2)> summary(completeData)

Sepal.Length Sepal.Width Petal.Length Petal.WidthMin. :4.400 Min. :2.000 Min. :1.000 Min. :0.1001st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.325Median :5.800 Median :3.000 Median :4.250 Median :1.300Mean :5.864 Mean :3.054 Mean :3.749 Mean :1.2023rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 63: Traitement des données manquantes et aberrantes sous R

Les methodes d’imputations en packages de R

Figure – Les methodes d’imputations en packages de R [1]

Page 64: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

DefinitionTraitement

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 65: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

DefinitionTraitement

OutliersDefinition

Une valeur aberrante est une valeur extreme de la distributiond’une variable, c’est-a-dire qui differe significativement del’ensemble des grandeurs d’une variable donnee.

Pour les reperer : Boxplot Elle definit les valeurs extremescomme les valeurs superieures ou inferieures a I (=1.5generalement) fois l’ecart interquartile [3]

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 66: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

DefinitionTraitement

Detection des OutliersLes boites a moustaches

Figure – Detection des valeurs extremes avec les boıtes a moustaches [3]

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 67: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

DefinitionTraitement

Detection des OutliersLes boites a moustaches

> x <- c(1:10, 20, 30)

> boxplot.stats(x)$out

[1] 20 30

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 68: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

DefinitionTraitement

Outline

1 Exploration de donneesTraitements preliminairesPourquoi le traitement des donnees manquantes

2 Types de donnees manquantesDonnees MCARDonnees MARDonnees MNAR

3 Methodes de traitement de donnees manquantesExclure les Donnees Manquantes DML’imputation simpleL’imputation multiple

4 Valeurs aberrantes : OutliersDefinitionTraitement

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 69: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

DefinitionTraitement

Traitement des Outliers

Les valeurs aberrantes peuvent ne pas etre des erreurs, maisbel et bien reveler des situations extraordinaires

(etude de comportements frauduleux ou d’evenements rares).

Dans le cas des erreurs (valeurs aberrantes), on procede parles methodes d’imputation des NA

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 70: Traitement des données manquantes et aberrantes sous R

Exploration de donneesTypes de donnees manquantes

Methodes de traitement de donnees manquantesValeurs aberrantes : Outliers

Sommaire

Sommaire

Les jeux de donnees a analyser peuvent contenir des valeursmanquantes.

Si possible, on va chercher a les remplacer par une valeurplausible.

Differentes methodes statistiques existent pour cela. L’une desplus utilisees est l’imputation multiple.

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 71: Traitement des données manquantes et aberrantes sous R

Annexe References

References I

De Jong, E., Van der Loo, M. : An Introduction to DataCleaning with R. Statistics Netherlands, The Hauge (2013)

Kabacoff, R. R in Action, Data analysis and graphics with R -Manning Publications (2015)

Biernat, E. and Lutz, M. Data science : fondamentaux etetudes de cas, EYROLLES (2011)

Zumel, N. and Mount, J. Practical Data Science with R -Manning Publications (2014)

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Page 72: Traitement des données manquantes et aberrantes sous R

Annexe References

References II

analyticsvidhya.com/blogA Comprehensive guide to Data Exploration.Tutorial on 5 Powerful R Packages used for imputing missingvalues

Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R