Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m...
Transcript of Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m...
Les donnees manquantes en bio-statistique
Pr N. MEYER
Laboratoire de Biostatistique - Faculte de Medecine
Dep. Sante Publique CHU - STRASBOURG
Master Statistiques et Applications—
10 mars 2011
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Importance du probleme
Les donnees
Toute etude ⇒ recueillir des donnees
Les variables sont qualitatives ou quantitatives
La plannification de l’etude ⇒ on espere recueillir toutes lesdonnees necessaires
= Toutes les donnees pour toutes les variables pour tous lessujets
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Importance du probleme
Les donnees manquantes
Donnees manquantes (DM) : donnees que l’on voulaitrecueillir mais qui ne l’ont pas ete.
Donnees qui devaient etre recueillies mais dont la vraie valeurest inconnue
Exemples :sujet qui ne repond qu’a certaines questions d’un sondageabsence de reponse a l’une des vagues d’une enquetelongitudinale
DM sont tres frequentes : 95% des jeux de donnees sontincomplets (au moins une DM)
Prevalence plus ou moins importante : de quelques unes a plusde 50% de DM
Semblent pratiquement inevitables
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Donnee manquante
Definition :
Soit une variable aleatoire X quelconque. Une DM xm est unedonnee pour laquelle la valeur X = x est inconnue. On ne disposepas de la valeur de X pour le sujet i .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Classification methodologique des DM
Origine materielle des DM :
La valeur de xi n’a pas ete mesuree (oubli...)
la valeur : mesuree mais perdue ou non notee
la valeur : mesuree, notee, mais consideree comme nonutilisable : donnee jugee aberrante / erreur manifeste
la donnee : mesuree mais pas disponible : (( Ne Sait Pas ))
idem : cas particuliers de donnees censurees.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Classification methodologique des DM
Des cas particuliers ou la donnee est mesuree mais n’est pasdisponible → donnee connue partiellement mais pas totalementmanquante
censure (1) : la valeur < ou > limites de detection de l’outil
HIV : nombre de copies du virus sous la limite de detectionD-dimeres : si > 20000 : 20000 et la vraie valeur est inconnue
censure (2) : des etudes de survie
duree de survie : superieure a une duree d
donnees (( non encore manquantes )) : indice CAO → si dentnon sortie, CAO sur ensemble incomplet
distinguer la DM et le zero d’echantillonage
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Classification par rapport a l’unite statistique
La donnee est manquante en raison de :
non reponse de l’unite statistique : aucune mesure n’estobtenue pour l’unite statistique
non reponse pour l’item : seule manque la mesure sur lavariable X consideree.
en general, DM non intentionnellement (tous les casprecedent)
manquant intentionnel : sondage par bloc de variable
→ probleme du data matching
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Les DM d’un point de vue statistique
En analysant des donnees incompletes, on souhaite avoir desresultats valides malgre les DM
Valides : i.e. p-valeurs, intervalles de confiances et estimationsponctuelles (moyenne, variance, proportions, parametres deregression, etc) correctes ou encore des distributionsa posteriori correctes
Ceci n’est possible que dans des conditions assez restrictives.La plupart du temps, il faut faire des hypotheses que l’on nepeut pas verifier.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Les DM d’un point de vue statistique
Ceci implique le mecanisme aboutissant a une DM : lemecanisme des manquants et si ce mecanisme depend d’autrevariables (mesurees ou non). Ce mecanisme des manquantsest generalement inconnu d’un point de vue pratique
mais il existe une classification theorique
⇒ Classification statistique des donnees manquantes (Little &Rubin)
⇒ Important : Differentes situations → differentes methodesstatistiques
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Un exemple sur une variable
variable X , n-echantillon dont m valeurs manquantes
↘ taille de l’echantillon de n a n −m = np , de m/n %
on peut estimer m et s2 sur les n −m presents
valide que si np valeurs : sous-echantillon aleatoire des nle fait d’etre manquant ne depend pas de la valeur(manquante)
Pr(xi : ∗) = p,∀i .
sinon il y a un biais
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Effet des manquants : Un exemple (1)
Biais et Perte de Puissance
on tire 1000 valeurs d’une v.a. gaussienne centree reduite
on verifie sa moyenne et sa variance et on trace l’histogrammedes valeurs
on supprime aleatoirement 250 valeurs sur l’ensemble desvaleurs du vecteur
on verifie que la moyenne et la variance du sous-echantillonsont proches des valeurs de l’echantillon de depart
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Effet des manquants : Un exemple (2)
On retire ensuite des valeurs surtout dans les valeurs basses del’echantillon : on retire 225 valeurs parmi les valeurs basses et25 parmi les valeurs hautes.
on calcule la moyenne et la variance de l’echantillon et ontrace son histogramme. On verifie que les estimations desparametres sont biaises.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Autres exemple
Voir simulations sur R. modifications des parametres selon les
manquants.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
la forme de la distribution obervee sur les donnees completesn’est pas forcement la forme de la distribution complete.
en presence de donnees manquantes : biais ? importance ?
la distribution observee sur le sous-echantillon complet est-ellerepresentative de la forme de la distribution dans lapopulation ?
si on observe une distribution asymetrique, est-elleasymetrique ou bien le mecanisme des manquants estnon-aleatoire ?
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
si les DM sont manquantes aleatoirement : le mecanisme est(( ignorable ))
si les DM sont manquantes non aleatoirement (i.e. si la probaque xi soit manquant depend de la valeur de xi , le mecanismen’est pas (( ignorable )), et les analyses sur le sous-echantillonsont sujettes a biais.
si censure complete au dela d’un seuil, par exemple 0 :
Pr(Ri = 1|yi) = Pr(yi obs|yi) = 1 si yi < 0, 0 sinon.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Classification des manquants
Classification introduite par Little et Rubin (1976, Biometrika) ;
encore appele (( distribution of missingness ))
Pr(ri |xi ; yi ;φ) : Probabilite que xi soit manquant
introduit non pas pour le modeliser
car en general l’information est insuffisante pour le modelisercorrectement
mais pour savoir dans quelle conditions on peut l’ignorer
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Classification des manquants
Situation bivariee : les elements
Soit deux V.A. X et Y , n realisations.
X est completement observee
Y comporte des valeurs manquantes
les deux V.A. X et Y soit qualitative(s) soit quantitative(s)sans perte de generalite.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Situation bivariee
sujet X Y
1 x1 y1
. . . . . . . . .ii xi yi
. . . . . . . . .i + 1 xi+1 *
. . . . . . . . .n xn *
Tab.: Classification de Little & Rubin
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Les trois cas possibles
(1) La probabilite d’avoir une valeur manquante est independantede X et de Y
Pr(D : Mqt |obs,mqt) = Pr(D : Mqt)
(2) La probabilite d’avoir une valeur manquante depend de Xmais pas de Y
Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs)
(3) La probabilite d’avoir une valeur manquante depend de X etde Y
Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs,mqt)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Les trois cas possibles
soit Y = {Yij } un jeu de donnees compose de deux parties :
Y = (Yobs ,Ymqt)soit une indicatrice Rij telle que Rij = 1 si Yij est manquantet Rij = 0 sinon
le mecanisme des manquants est specifie par un modele pourla probabilite de reponse :
Pr(R = r |Y = y , θ) = fR/Y (r |yobs , ymqt , θ)
le mecanisme est donc la distribution de R sachant Y .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Les trois cas possibles
(1) La situation MCAR : R et Y sont independant, la distributionde R ne depend pas des donnees
fR/Y (r |yobs , ymqt , θ) = fR(r |θ)(2) Situation MAR : la connaissance de Ymiss ne donne pas
d’information supplementaire sur R si Yobs est deja connu. Ladistribution de R ne depend pas des manquants
fR/Y (r |yobs , ymqt , θ) = fR(r |yobs , θ)
(3) La distribution de R depend de la valeur (inconnue) desmanquants
fR/Y (r |yobs , ymqt , θ) = fR(r |yobs , ymqt , θ)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Premier cas : MCAR
La probabilite d’avoir une valeur manquante est independante deX et de Y
les valeurs manquantes sont Manquantes AleatoirementMissing at random : MAR
les donnees observees sont Observees AleatoirementObserved at random : OAR
↪→ les donnees sont manquantes completement aleatoirementMissing Completely at Random : MCAR
les valeurs Y observees : sous-echantillon aleatoire de Y
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
0.0 0.2 0.4 0.6 0.8 1.0
−0.
50.
00.
51.
01.
5
MCAR : Missing Completely At Random
X : continuous variable
Y :
cate
goric
al v
aria
ble
x x x
x x x
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Deuxieme cas : MAR
La probabilite d’avoir une valeur manquante depend de X mais pasde Y
on dit que le donnees sont manquantes aleatoirementMissing at Random : MAR
les valeurs observees de Y ne sont pas forcement unsous-echantillon aleatoire des valeurs echantillonnees de Ymais elles sont un sous-echantillon aleatoire de Y dans dessous-classes definies par les valeurs de X .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
0.0 0.2 0.4 0.6 0.8 1.0
−0.
50.
00.
51.
01.
5
MAR : Missing At Random
X : continuous variable
Y :
cate
goric
al v
aria
ble
x x xxxx
x x xxx x
Yobs est un sous-echantillon aleatoire / representatif de Y dansdes categories de X .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
0.0 0.2 0.4 0.6 0.8 1.0
−0.
50.
00.
51.
01.
5
MAR : Missing At Random
X : continuous variable
Y :
cate
goric
al v
aria
ble
x x xxxx
x x xxx x
Yobs est un sous-echantillon aleatoire / representatif de Y dansdes categories de X .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Troisieme cas : MNAR
La probabilite d’avoir une valeur manquante depend de X et de Y
les valeurs ne sont ni manquantes aleatoirement (non MAR)
ni obervees aleatoirement (non OAR)
les donnees sont manquantes non aleatoires : M Not AR(MNAR)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
0.0 0.2 0.4 0.6 0.8 1.0
−0.
50.
00.
51.
01.
5
MNAR : Missing Not At Random
X : continuous variable
Y :
cate
goric
al v
aria
ble
x x x
xxxxxx
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Consequences
Si MCAR et MAR le mecanisme des manquants peut etreignore pour les methodes d’inference basees sur lavraisemblance
Dans le cas MCAR, le mecanisme peut-etre ignore a la foispour les approches basees sur la vraisemblance et pour lesapproches basees sur l’echantillonage
Dans le cas MNAR le mecanisme ne peut pas etre ignore
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Quelques exemples
le cafe sur la feuille de releve
la panne d’appareil de mesure
le dosage impossible pour raisons liees au sujet
coagulation du tube de sang avant dosagesi dosage lie a un trouble de la coagulation : MNARsi dosage autre : MCAR
dossier medical incomplet
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Quelques exemples
les aidants des personnes agees dependantes, pour savoir si lapersonne aidee represente une charge, la presence d’unereponse depend de la valeur de la reponse
consommation d’alcool est souvent d’autant plus minimiseeque cette consommation est forte
dans les dossiers medicaux, la probabilite qu’un symptomenegatif soit note est plus faible que la probabilite qu’unsymptome positif soit note.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Quelques exemples (2)
Soit deux V.A. continues, une est sujette a non-reponse. Lavariable X completement observee est l’age et la variable Yincompletement observee est le revenu
Si la probabilite que le revenu soit manquant est independantede l’age et du revenu du sujet, alors les donnees sont de typeMCAR (OAR + MAR).
Si la probabilite que le revenu soit manquant depend de l’agede la personne interrogee mais pas de son revenu, alors lesDM sont manquantes aleatoirement (ne dependent pas durevenu) mais elles ne sont pas observees aleatoirement(dependent de l’age) : elles sont donc de type MAR
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Quelques exemples (3)
Si la probabilite que le revenu soit manquant depend de l’agede la personne et de son revenu, les DM ne sont pasmanquantes aleatoirement (dependent du revenu) et ne sontpas observees aleatoirement (dependent de l’age) : elles sontdonc de type MNAR.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Quelques exemples (4)
un animal meurt au decours d’une experience avant le recueilde y
ex. application de goudron sur la peau d’un rat : test cutane dupouvoir cancerigene
cause du deces ?
mort naturelle ?passage transcutane de constituant du goudron ?et donc toxicite (cardiaque, autre) du goudron ?
lien avec les analyses de survie
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Quelques exemples (5)
Etudes longitudinales
cas de la survie et de la censure
le sujet quitte l’etudedeces ? lie a l’etude ?
etude longitudinale
le sujet ne se presente pas a la visite vi , i < imax
le sujet ne se presente pas aux visites vi et suivantedeces ? lie a l’etude ?
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
L’interet de cette classification
Prendre en compte le mecanisme des manquants dansl’analyse
Si on s’interesse uniquement a la distribution marginale de X(l’age), les donnees de Y et le mecanisme des manquants n’aaucune importance
Si on souhaite avoir une estimation conditionnelle de la valeurde Y sachant X (par exemple la repartition des revenus enfonction de l’age), alors l’analyse sur les n −m valeurscompletes est satisfaisante si les donnees sont MAR ou si ellessont MCAR
Si on s’interesse a la distribution marginale de Y (moyennedes revenus), alors une analyse basee sur les unites completesest biaisee sauf si les donnees sont de type MCAR.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Si donnees MNAR, les estimations portant sur la distributionmarginale de Y et sur la distribution conditionnelle de Y sachantX sont biaisees et necessitent une modelisation des valeursmanquantes
Dans les autres cas, la modelisation n’est pas necessaire meme sides methodes adaptees a l’analyse statistique en presence de DMdoivent etre utilisees.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
reprendre les exemples sur l’impact des manquants dans R.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Commentaires
Le probleme principal est que lorsque l’on a des donneesincompletes, il est tres difficile de savoir quelle est la vraiedistribution des donnees et donc de savoir quel est le mecanismedes manquants ou au moins lequel est le plus probable ! Il y a unepart d’avis subjectif dans le choix mais ce peut-etre un avis eclaire !
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Pertinence de cette classification
Permet de prendre en compte le mecanisme des manquantslors de l’analyse
Si on l’interesse a la distribution marginale des revenus, lesresultats sont biaises sauf si les donnees sont MCAR
Si l’on s’interesse a la distribution conditionnelle du revenu enfonction de l’age, c.-a-d. pour des classes d’ages donnees, uneanalyse basee sur les unites statistiques completes estsatisfaisante si les DM sont MAR
Si les DM sont MNAR, les estimations basees sur ladistribution marginale du revenu ou sur la distributionconditionnelle du revenu selon l’age sont biaisees et necessiteune modelisation explicite des MD.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
DM et donnees longitudinales
Dans le cas de donnees longitudinales (rappel), la classification estmodifiee (voir Schafer).
MCAR le mecanisme ne depend ni des covariables xi ni de YPr(ri |xi ; yi ;φ) = Pr(ri |φ)
CD Covariate-dependent (CD) missingness : le mecanisme peutdependre de xi mais pas de Y : Pr(ri |xi ; yi ;φ) = Pr(ri |xi ;φ)
MAR le mecanisme peut dependre des cov. xi et des Y observes :Pr(ri |xi ; yi ;φ) = Pr(ri |xi ; yi(obs);φ)
MNAR tous les autres cas : le mecanisme depend encore de ymqt
meme apres prise en compte des xi , et des yobs .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
DM et donnees longitudinales
En cas de sortie d’etude (avant fin de suivi), signification :
MCAR la Pr. de sortie ne depend pas des caracteristiques du sujets
CD la Pr. de sortie peut etre liee a des covariables mais pas a lamesure d’interet
MAR la Pr. de sortie peut etre liee a des covariables et la valeur dela mesure d’interet avant la sortie d’etude
MNAR la Pr. de sortie peut etre liee a la mesure d’interet au momentde la sortie et parfois a la mesure apres la sortie de l’etude :cas souvent credible
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
DM et donnees longitudinales
Que peut-on dire des donnees ?
comme on observe xi , ri et yobs on peut souvent rejeterMCAR et CD
on ne peut pas rejeter MAR en faveur de MNAR car onn’observe pas ymqt
tester MAR suppose des hypotheses inverifiables
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
DM et donnees longitudinales
les donnees ne sont pas MCAR car sorties differentes dansTMT et controle
pas seulement CD car complets et sortie ont des trajectoiresdifferentes
MAR ou MNAR, on ne peut pas savoir
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
L’(( ignorabilite )) des donnees
Les donnees sont (( ignorables )) si :
1 les donnees sont MAR
2 les parametres grouvernant le mecanisme des manquants nesont pas relies aux parametres que l’on veut estimer
Cela signifie que :
pas necessaire de modeliser le mecanisme des manquantscomme une part de l’estimation des parametres
mais necessite quand meme des methodes particulieres
en pratique, toujours : ignorable (condition (2) ci-dessustoujours remplie)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
L’(( ignorabilite )) des donnees
Les donnees sont (( non-ignorables )) si les donnees ne sont pasMAR.
implique de modeliser le mecanisme des manquants pour avoirune bonne estimation des parametres
implique des hypotheses fortes et non verifiables sur lemecanisme
donc d’applicabilite limitee
car resultats tres dependants des hypotheses sur lesmanquants
et implique un modele pour chaque cas particulier
donc, bien qu’evident, tres peu utilise
nous ne verrons que le cas ignorable
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Un cas particulier
le (( missing plot )) dans un plan factoriel
issu de l’agronomie, quand un plot est un manquant
methodes a part dediees a ce probleme
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Les donnees monotones
Une repartition de donnees manquantes est dit monotone si :
les variables peuvent etre arrangees d’une maniere telle quepour chaque observation de l’echantillon, si Xj est manquant,alors Xj+j ′ est aussi manquant, avec j ′ entier positif etj + j ′ ≤ pdonc si pour un sujet i , les donnees sont manquantes a partird’une certaine variable
qui peut changer d’un sujet a l’autre
frequent dans les donnees longitudinales (abandont du sujet apartir d’une date donnee)
si une seule variable, forcement monotone
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
--> 1 A 2 8 9 8 8 7--> 2 A 3 4 9 1 2 *--> 3 B 4 7 6 3 * *--> 1 A 2 8 9 * * *--> 2 A 3 4 4 * * *--> 3 B 4 7 6 * * *
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Deux autres types de repartition
Une repartition de donnees manquantes peut prendre d’autresformes :
une repartition quelconque
une repartition tres structuree
parfois volontaire
ou resultant de l’histoire des donnees comme dans la fusion dedonnees : deux (( demi-sondages )) ou sondages a deux epoquesdifferentes
un cas tres particulier : les variables latentes ou toutes lesvaleurs d’une variables sont a retrouver, comme en analysefactorielle
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
--> 1 A 2 8 9 8 8 7--> 2 A 3 * 9 1 2 7--> 3 B * 7 6 3 9 *--> 1 A 2 8 9 * 3 *--> 2 A * * 4 8 2 *--> 3 B 4 7 6 * 1 6
Il s’agit ici d’une repartition arbitraire
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
--> 1 A 2 8 9 *--> 2 A 3 4 9 *--> 3 B 4 7 6 *--> 1 A 2 8 9 *--> 2 A 3 4 4 *--> 3 B 4 7 6 *
Il s’agit ici d’une variable latente
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Le data fusion
Le data fusion (et le data matching, implique par le DF) :
l’ensemble des donnees sur un sujets ne sont pas forcementdans une seule base de donnees
Def : Combinaison de donnees, provenant de sourcesdifferentes, pour obtenir un seul jeu de donnees dans lequeltoutes les variables sont renseignees (presence obligatoire devariables communes)
fusionne des variables provenant d’un dataset avec desvariables d’un second dataset, en appariant les observationspar paires a partir de variables communes appelees (( variablesd’appariement )) ((( match variables ))).
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
Le data fusion
Le data fusion (suite) :
Il n’est pas necessaire que les observations soient identiquesdans les deux datasets, c.-a-d. que toutes les observationsdans un dataset ne doivent pas forcement figurer dans l’autre.
par appariement d’individu (plus proche voisin) ou parprediction de variables
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin
--> 1 A 2 8 9 8 8 * *--> 2 A 3 4 9 1 2 * *--> 3 B 4 7 6 3 9 * *--> 1 A 2 8 9 * * 2 1--> 2 A 3 4 4 * * 3 5--> 3 B 4 7 6 * * 6 9
Il s’agit ici de fusionner les donnees en remplacant les donneesmanquantes.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Que faire en presence de DM ?
Avant tout, il faut decrire les donnees, c.-a-d. les donneesmanquantes et les donnees non manquantes
Combien de DM ?
Combien de DM par variable ?
Ou sont les DM ?
Certaines variables seulement ? Toutes les variables ?certains sujets seulement ? Tous les sujets ?
Calculer le nombre et la proportion de donnees manquantes(la plupart des logiciels le font automatiquement)
Decrire graphiquement les donnees et les donnees manquantes
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
typetrav Denom. DenCum % % Cum1 448 448 63.55 63.552 60 508 8.51 72.063 197 705 27.94 100.00N= 705*= 94
declench Denom. DenCum % % Cum0 645 645 91.49 91.491 60 705 8.51 100.00N= 705*= 94
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L138
L186
R19
8
L204
R22
1
R32
3
L333
L346
R34
9
L352
L358
R38
1
L410
L448
R45
0
L451
L477
R48
7
L543
L551
L584
R59
0
L592
L599
L636
R63
8
L651
L673
R68
1
L686
L758
L773
L786
L811
L797
R81
3
R82
7
D2S138
D18S61
D16S422
D17S794
D6S264
D14S65
D18S53
D17S790
D1S225
D3S1282
D9S179
D5S430
D8S283
D11S916
D2S159
D16S408
D5S346
D10S191
D13S173
D6S275
D15S127
D1S305
D4S394
D20S107
D1S197
D1S207
D10S192
D3S1283
D4S414
D8S264
D22S928
TP53
D9S171
L138
L186
R19
8
L204
R22
1
R32
3
L333
L346
R34
9
L352
L358
R38
1
L410
L448
R45
0
L451
L477
R48
7
L543
L551
L584
R59
0
L592
L599
L636
R63
8
L651
L673
R68
1
L686
L758
L773
L786
L811
L797
R81
3
R82
7
D2S138
D18S61
D16S422
D17S794
D6S264
D14S65
D18S53
D17S790
D1S225
D3S1282
D9S179
D5S430
D8S283
D11S916
D2S159
D16S408
D5S346
D10S191
D13S173
D6S275
D15S127
D1S305
D4S394
D20S107
D1S197
D1S207
D10S192
D3S1283
D4S414
D8S264
D22S928
TP53
D9S171
man
quan
tsN
orm
.A
I
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L138
L186
R19
8
L204
R22
1
R32
3
L333
L346
R34
9
L352
L358
R38
1
L410
L448
R45
0
L451
L477
R48
7
L543
L551
L584
R59
0
L592
L599
L636
R63
8
L651
L673
R68
1
L686
L758
L773
L786
L811
L797
R81
3
R82
7
D2S138
D18S61
D16S422
D17S794
D6S264
D14S65
D18S53
D17S790
D1S225
D3S1282
D9S179
D5S430
D8S283
D11S916
D2S159
D16S408
D5S346
D10S191
D13S173
D6S275
D15S127
D1S305
D4S394
D20S107
D1S197
D1S207
D10S192
D3S1283
D4S414
D8S264
D22S928
TP53
D9S171
L138
L186
R19
8
L204
R22
1
R32
3
L333
L346
R34
9
L352
L358
R38
1
L410
L448
R45
0
L451
L477
R48
7
L543
L551
L584
R59
0
L592
L599
L636
R63
8
L651
L673
R68
1
L686
L758
L773
L786
L811
L797
R81
3
R82
7
D2S138
D18S61
D16S422
D17S794
D6S264
D14S65
D18S53
D17S790
D1S225
D3S1282
D9S179
D5S430
D8S283
D11S916
D2S159
D16S408
D5S346
D10S191
D13S173
D6S275
D15S127
D1S305
D4S394
D20S107
D1S197
D1S207
D10S192
D3S1283
D4S414
D8S264
D22S928
TP53
D9S171
Man
quan
tsP
rése
nts
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Data missing by block (intended or not)G
PV
Age
Sex
e
Poi
ds
Tai
lle
BM
I
tab
Jeun CT
CH
DL
CLD
L
TG
Gly
PF
4
Ddi
m
TA
T
Num
Plq
GB
GR
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300
GP
V
Age
Sex
e
Poi
ds
Tai
lle
BM
I
tab
Jeun
CT
CH
DL
CLD
L
TG
Gly
PF
4
Ddi
m
TA
T
Num
Plq
GB
GR
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300
Man
quan
tsP
rése
nts
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Determination du mecanisme des manquants
Le caractere manquant d’une donnee peut-etre etudie
D devient Yfaire un modele pour etudier les causes des manquants
facile a faire
probleme circulaire : en general, DM sur plusieurs variables(donc X incomplets)
difficile a interpreter
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Que faire apres la description
La plupart des logiciels decident tout seul ce qu’il faut faireavec les donnees manquantes
Les logiciels courants utilisent des methodes de mauvaisesqualites (SPSS notamment) ou rien (MINITAB)
Rares sont les logiciels qui permettent une analyse correcte :S+/R, SAS et WinBUGS
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
methode du cas complet
X deux V.A. X1 et X2, n-echantillon.
m1 et m2 valeurs mqt. sur X1 et X2.
Le nombre m de sujets ayant au moins une donnee manquante
max (m1,m2) ≤ m ≤ m1 + m2
Le nombre nc de sujets complets est egale a n −m.
Donc en general nc < nombre de sujets complets pour X1 oupour X2 et :
la plupart du temps on perd plus de valeurs que le nombre reelde valeurs manquantes
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
--> 1 A 3 4 * 56 H 1--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0
--> 1 * * * * * * *--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0
--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Methode du cas complet : avantages
facilite les comparaisons entre analyses uni- et multivariees
mais seulement si on retire les memes sujets d’une analyse al’autre
pas-a-pas ascendants : le logiciel retire d’emblee les sujetsincomplets sur toutes les variables candidates meme si in finetoutes ne sont pas retenues dans le modele
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Methode du cas complet : inconvenients
biais evident sauf si MCAR
perte de puissance
perte de cas rapidement considerable
si 10 variables avec 10% de manquants (sur des sujetsdifferents)
0, 910 cas complets = 34,8%
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Methode du cas disponible
on utilise pour chaque sous-analyse ou chaque sous-partie del’analyse l’ensemble des cas complets
avantage : nb max de sujets a chaque analyse / chaque partie
inconvenients : nb variables d’une analyse / partie a l’autre
Y = α1 + βX1 et Y = α1 + βX2
portent sur des sujets differents
ACP : matrice de covariance mal conformee
pas-a-pas : certains logiciels excluent les sujets incomplets achaque etape et pas d’emblee
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Ajustement sur dummy variable
Une methode simple et intuitive proposee par Cohen en 1985.
soit un modele de regression Y = f (X )soit une V.A. X explicative incomplete
on cree une V. indicatrice D , D = 1 si X manquant, D = 0sinon
autre solution
on cree une V. indicatrice D∗, D∗ = c si X manquant,D∗ = X sinon
ou c est une constante quelconque
le coefficient de X est invariant a c
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Ajustement sur dummy variable
ce qui change selon c, c’est le coefficient de D∗
pour faciliter l’interpretation : c = m(X = Xobs)alors : βD = valeur predite de Y pour les sujets incompletsmoins la valeur predite de Y pour les individus a la moyennede Xmais la methode est biaisee
et donc les estimations ne sont pas valides
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Ajustement sur dummy variable
Cependant :
la methode permet d’utiliser tous les sujets disponibles
y compris ceux qui sont incomplets
donc on evite la perte de puissance : meilleure precision desestimateurs (et donc choisir entre biais et precision)
on peut egalement tester des interactions entre D ou D∗ et Xj
pour detecter un mecanisme particulier pour les manquants
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Les methodes d’imputation
methodes tres nombreuses
consiste a substituer a la valeur manquante une valeur choisiede maniere (( pertinente )).
methodes (( seduisantes et dangereuses )) (Rubin)
Deux grands types :1 imputation simple2 imputation multiple
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Les methodes d’imputation simple
(... et mauvaises)
LOCF : Last Observation Caried Forward
ajouter une categorie pour les DM
moyenne non conditionnelle
moyenne conditionnelle (Buck) (par bloc ou pas)
imputation + alea
simples mais inconvenients +++ / overfitting /ad hoc
estimations d’IC tres difficiles
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Ajout d’une categorie pour les DM
Soit X une variable aleatoire categorielle et incomplete
On cree une categorie suplementaire designant la DM
On fait le modele avec cette variable multinomiale
interpretation ? Delicate !
Bais + + et augmente le nb de ddl
Difficile a utiliser pour des variables ordinales ou continues
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Last Observation Carried Forward : LOCF (1)
tres prisee dans l’industrie pharmaceutique
consiste a remplacer une valeur manquante par la valeur qui laprecede dans le fichier ( !)
tres facile a realiser
aucune justification theorique
suppose que le fichier n’est pas trie et donc les sujets ont unordre aleatoire independant du mecanisme des manquants
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Premiere variante : d’un sujet a l’autre
--> 1 A 2 8 9 47 F 1--> 2 A 3 4 * 56 H 1--> 3 B 4 7 6 55 F 0
--> 1 A 2 8 9 47 F 1--> 2 A 3 4 |9| 56 H 1--> 3 B 4 7 6 55 F 0
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Seconde variante : d’un temps a l’autre pour un meme sujet dansune etude longitudinale
--> 1 A 2 8 9--> 2 A 3 4 *--> 3 B 4 7 6
--> 1 A 2 8 9--> 2 A 3 4 |4|--> 3 B 4 7 6
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Last Observation Carried Forward : LOCF (1)
connait des variantes interessantes par exemple pour desdonnees continues
on prend la valeur precedente plus un alea ε suivant une loipertinente
peut s’envisager avec des raffinements dans de l’imputationmultiples
a ne jamais utiliser sinon
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Les methodes dans les enquetes
Quelques methodes classiques :
cold deck : source exterieur, limites + + +
substitution : tirage au sort d’une nouvelle unite
difficile si stratification a posteriori
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Les methodes dans les enquetes
Une methodes a part :
le hot deck
on remplace la valeur manquante par une valeur prise chez unsujet similaire sur un certain nombre de variables
difficile en partique car impose une mesure de distance qui estdelicate a definir
biais et impact sur la puissance des analyses car diminutiondes variances
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Le (( worst case )) et ses variantes (1)
Une methode facile a utiliser pour des variables categorielles :imputer les valeurs qui defavorisent (cliniquement) le resultatattendu
soit a estimer une proportion p sur N sujets dont n sontmanquants
on peut attribuer l’une des modalites (VIH+) a tous les nmanquants et estimer pexemple : VIH au Kenya : N = 787, n = 36, r+ = 52on obtient par le (( worst case )) : p = 88/787on peut faire un intervalle (( worst case - best case )) (ou lecontraire selon contexte) qui sert de point de depart a lamodelisation
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Le (( worst case )) et ses variantes (2)
Variantes dans les essais therapeutiques
on veut comparer l’effet de deux traitements sur un resultatclinique
souvent la mesure d’interet est absente (deces, guerison carperdu de vue ou autre)
l’estimation de l’effet du traitement est biaise par les DM
on se met dans une situation defavorable au nouveau TMT
si la difference existe quand meme, on peut valider le nouveautraitement
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Etude de sensibilite : Shadish
Stent: % of missing allocated to good outcome (n=24)
Ang
iopl
asty
: % o
f mis
sing
allo
cate
d to
goo
d ou
tcom
e (n
=30
)
0 20 40 60 80 100
020
4060
8010
0
Extreme favouring S
Extreme favouring A All allocated to good
All allocated to poor
Significant difference (p<0.05)
No significant difference (p>0.05)N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Methode de Delucchi
Pour des donnees qualitatives : table 2× 2si on a m valeurs manquantes dans l’une des deux variables
on peut imputer les valeurs marginales de m + 1 manieres
puis dans chaque cellules a partir de la marge
(m1. + 1)× (m2. + 1) possibilites
pour chacune des m + 1 combinaisons marginales
a partir desquelles on conclut
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Solutions a part
litterature + + + ad hoc + + +
algorithme NIPALS : voir modeles PLS
qui suppose quand meme des hypotheses fortes sur les DM
! ne pas avoir de DM ! !
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM
Principe (tres general) :
Interdependance entre parametres θ et Ymqt
Ymqt contient de l’information utile pour estimer θ
et θ permet d’obtenir des valeurs pertinentes pour Ymqt
On remplit les manquants a partir d’une estimation de θ
puis on re-estime θ a partir de Yobs et Ymqt
et on repete jusqu’a convergence
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM
Les donnees completes (i.e. obs + mqt) peuvent etre mise sous laforme suivante :
Pr(Y |θ) = Pr(Yobs |θ)Pr(Ymqt |Yobs , θ)d’ou :
L(θ|Y ) = L(θ|Yobs) + log Pr(Ymqt |Yobs , θ) + cavec : L(θ|Y ) = log Pr(Y |θ) vraisemblance des donneescompletes
et : L(θ|Yobs) = log Pr(Yobs |θ) vraisemblance des donneesobservees
Pr(Ymqt |Yobs , θ) : distrib. predictive des DM sachant θ
fait le lien entre θ et les DM
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM
Soit θ(t) l’estimation courante de θ. Les estimations se font ensuiteen deux etapes :
E Expectation etape qui donne la log-vraisemblance
Q(θ|θ(t)) =∫L(θ|Y )Pr(Ymqt |Yobs , θ = θ(t))dYmqt
M Maximization etape qui determine θ(t+1) en maximisant cettelog-vraisemblance
Q(θ(t+1)|θ(t)) ≥ Q(θ|θ(t))
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM
Un resultat de Dempster, Laird et Rubin (1977) montre que :
si θ(t+1) est la valeur de θ qui maximise Q(θ|θ(t))alors θ(t+1) est une meilleure estimation que θ(t)
car la vraisemblance des donnees observees pour θ(t+1) est aumoins aussi grande que celle pour θ(t)
L(θ(t+1)|Yobs) ≥ L(θ(t)|Yobs)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM : exemple
Illustre sur une table 2× 2on suppose deux variables Y1 et Y2, variables dichotomiques
toutes les deux incompletes
le tableau croise des deux variables : distribution multinomiale
x = {x11, x12, x21, x22}de parametres : θ = {θ11, θ12, θ21, θ22}avec θij proba qu’un sujet ait Y1 = i et Y2 = jalors la vraisemblance s’ecrit :
L(θ|x ) = x11logθ11 + x12logθ12 + x21logθ21 + x22logθ22
les MLE obtenus par : xij = nθij
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM : exemple
Soit la table suivante :
sujet Y2 = 1 Y2 = 2 Y2 = mqt
Y1 = 1 xA11 xA
12 xB1+
Y1 = 2 xA21 xA
22 xB2+
Y1 = mqt xC+1 xC
+2
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM : exemple
Les deux etapes de l’algorithme :
etape E remplace les valeurs inconnues xBij et xC
ij par leuresperance conditionnelles
E (xij |Yobs , θ) = E (xAij + xB
ij + xCij |Yobs , θ)
= xAij + xB
i+θij /θi+ + xC+j θij /θ+j
etape M θij = E (xij |Yobs , θ)/nen combinant les deux etapes en une seule, on obtient :
θ(t+1)ij = n−1
[xAij + xB
i+
(θ(t)ij
θ(t)i+
)+ xC
+j
(θ(t)ij
θ(t)+j
)]
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM : exemple
Soit la table suivante :
sujet Non victimes t2 Victimes t2 Non-reponses
Non victimes t1 392 55 33Victimes t1 76 38 9
Non-reponses 31 7
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’algorithme EM : exemple
Iterations de l’EM :
t θ(t)11 θ
(t)12 θ
(t)21 θ
(t)22
0 0,2500 0,2500 0,2500 0,25001 0,6615 0,1170 0,1498 0,0718... ... ... ... ...4 0,6971 0,0987 0,1358 0,06845 0,6971 0,0987 0,1358 0,0685
∞ 0,6971 0,0987 0,1358 0,0685
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’Imputation Multiple : la star !
Repris de JL Schafer :
Single-imputation strategies designed to precisely predict themissing values tend to distort estimates of populationquantities
The goal of the missing-data procedure is to draw accurateinferences about population quantities (e.g. mean change overtime), not to accurately predict the missing values
With imputation, the best way to achieve that goal is topreserve all aspects of the data distribution (means, trends,within- and between-subject variation, etc.)
Ad hoc imputation methods inevitably preserve some aspectsbut distort others
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’Imputation Multiple : la star !
l’imputation simple est ... unique
la donnee imputee est considere comme une donnee observee
ne tient pas compte de l’incertitude sup. liee aux manquants
d’ou l’idee de faire plusieurs imputations differentes
on substitue plusieurs valeurs a chaque DM
on analyse en tenant compte de cette multiplicite
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Les etapes d’une imputation multiple
on analyse la matrice des donnees pour en deduire un modelepour les DM
on realise entre M = 3 et 10 imputations
pour obtenir 3 a 10 jeux de donnees completes
on calcule le parametre d’interet pour chaque jeu
on combine les M imputations pour avoir une inferencequi tienne compte de l’incertitude supplementaire liee aux DM
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Formules pour l’IM
M estimations ponctuelles pour le vecteur de parametre θ
Si gaussien, moyenne et ecart-type :¯Q (t) = Q(Yobs ,Y
(t)miss), t = 1, . . . ,m
etU (t) = U (t)(Yobs ,Y
(t)miss), t = 1, . . . ,m
On calcule ensuite :
¯Q =1m
m∑t=1
Q (t)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Formules pour l’IM (suite)
La Var. globale a deux composantes :(1) variance intra-imputation
U =1m
m∑t=1
U (t)
(2) La variance inter-imputation vaut :
B =1
m − 1
m∑t=1
( ¯Q (t) − Q)2
La variance totale vaut :
T = U + (1 + m−1)B
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Formules pour l’IM (suite)
A partir de ces equations, on peut realiser des tests :
Q − Q√T 2
; tν
avec :
ν = (m − 1)[1 +
U(1 + m−1)B
]2
→ intervalles de confiances.Ces statistiques tiennent compte de l’incertitude suppl. liees auxDM.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Un exemple simple
Exemple : voir feuille Excel
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Obtention des imputations
Pour faire de l’IM, il faut generer les valeurs simulees :
a partir de la distribution a posteriori des valeurs de Ymqt
on definit donc un modele pour les manquants
en analysant la matrice R
et en simulant en general sous un modele multinormal
on tire m valeur de Pr(Ymqt |Yobs)
Pr(Ymqt |Yobs) =∫
Pr(Ymqt |Yobs , θ)Pr(θ|Yobs)dθ
soit distribution predictive de Ymqt sachant θ moyenne sur ladistribution a posteriori de θ
ce qui reflete l’incertitude sur Ymqt sachant les parametres dumodele des donnees completes.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Obtention des imputations
Autre methode, sur des variables quantitatives (( approximatebayesian bootstrap )) :
reg. logistique pour predire si X est manquant ou pas
calculer proba de manquer = propensity score
on trie par prop. score puis quintiles
dans chaque quintile, r cas complets et m mqt
parmi les r complets, on tire avec remise un ech. aleatoire detaille rpour chaque mqt, on tire avec remise une valeur dans l’ech.precedent
derniere etape repetee M fois puis combinaison des Mparametres
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’IM : avantages
souple + +
donne des resultats valides
robuste aux ecarts de specification du modele
M peut etre faible : 3, 5, pas plus de 10.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
L’IM : inconvenients (limites)
⇒ le recours a des logiciels
repose sur le modele (mais les autres methodes aussi)
si les effectifs sont faibles → variantes particulieres
Par ailleurs
aspects bayesiens → utiliser WinBUGS
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
l’IM par MICE (1)
MICE : Multiple Imputation Chained Equation
egalement le nom d’un package R.
recent : 2000
obtention des imputations par le chainage d’equation
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
l’IM par MICE (2)
Principe de la methode :
soit une matrice X de taile n × p, avec m valeursmanquantes, et j variables incompleteson impute chaque valeur manquante des j variablesincompletes une fois a partir des donnees observeeson prend une premiere variable dont on retire les valeursimputees(donc on reprend la variable dans son etat initial, incompletes)on impute les valeurs manquantes a partir des autres variablescompleteeson passe a la variable suivante : on predit les valeursincompletes a partir des autreson fait un tour complet sur l’ensemble des variablesincompleteson procede a M tours pour obtenir M jeux de donneesimputees
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
l’IM par MICE (3)
Avantages et limites de la methode
facile a faire
gere tous les types de donnees dans un meme (( modele ))
plus facile a faire sur de tres grand jeux de donnees que IMclassique
peu de fondements theoriques
convergence non assuree
mais empiriquement efficace
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Retour sur les MNAR
Si les donnees sont MNAR :
implique de modeliser le mecanisme des manquants pour avoirune bonne estimation des parametres
implique des hypotheses fortes et non verifiables sur lemecanisme
or souvent on peut raisonnablement suspecter MNAR
on peut les modeliser mais complexe, au cas par cas
et ne peuvent que difficilement etre teste (depend ducontexte)
donc pas de methode generale possible type IM
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Une methode a part : l’algorithme NIPALS
Cree dans les annees 1960 pour l’ACP
a la particularite de pouvoir fournir les composantes de l’ACPsi l’on travaille sur les donnees complete
fournit un resultat si donnees incompletes
sans supprimer de sujetssans supprimer de variablesans estimer les donnees manquantes !sans imputation !
peut etre utilise a l’envers pour estimer ou imputer les DM
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Une methode a part : l’algorithme NIPALS
Algorithme iteratif, utilisable en regression
soit y et X, centree reduite
on ajuste de maniere iterative y = aXj + ε
faisable sur donnees incompletes
puis construction de composantes
normer le vecteur a1 : w1 = a1/‖a1‖.calculer la composante t1 = 1/(tw1w1)Xw1.iteration → hexprimer la composante th en termes de predicteurs X :th = Xw∗
h .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Une autre methode a part : les modeles mixtes
Crees pour analyser des donnees longitudinales ou multi-niveaux,repetees etc.
permet de travailler sur des donnees incompletes
et avec des sujets n’ayant qu’une valeur sur jsupprime quand meme les sujets n’ayant que des donneesmanquantes
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
une autre question : Y ou X ?
Les problemes de DM se posent surtout lorsque X estincomplet
Lorsque Y est incomplet → estimer Yi a partir du modele
Donc le probleme est moins grave mais il existe quand meme
S’ecrit naturellement dans WinBUGS (en fait il est inutile del’ecrire !)
Probleme serieux dans le domaine medical ou le problemen’est pas que statistique !
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
La solution bayesienne
Les donnees manquantes sont issues d’une distribution a priori
souplesse + + +
⇒ faire des hypotheses sur les DM
mais toute les methodes en font
similitudes avec les donnees aberrantes
voir exemple de prog. Bugs
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Les logiciels
MINITAB : rien pour les DM
SPSS : module mais pas dans la base
SAS : differentes fonctions + PROC MI
S+ / R : CAT,MIX, NORM
A part : SIMCA : cartographie des manquants / R
WinBUGS
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Les packages de R
on trouve dans R plusieurs package qui gerent plus ou moins lesdonnees manquantes :
mitools fait de l’IMmice imputation multivariee par equations en chainesmvnmle estimation du max. vrais. pour des donneesgaussiennes multivarieesnorm IM pour donnees continues par EM et dataaugmentationcat IM pour donnees categorielles par EM, data augmentationet simulations de parametremix la meme chose pour melange de qualitatives etquantitativepan IM pour donnees longitudinalesameliaII pour les sondages, les series chronologiques,
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Package Hmisc
dans le package Hmisc :
na.delete Row-wise Deletion na.action
na.detail.response Detailed Response Variable Information
na.keep Do-nothing na.action
na.pattern Variable Clustering
na.retain Summarize Data for Making Tables and Plots
naclus Variable Clustering
naplot Variable Clustering
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple
Le package Hmisc : suite
aregImpute() Multiple Imputation using Additive Regression,Bootstrapping, and Predictive Mean Matchingtranscan() Transformations/Imputations using CanonicalVariatesarrayImpute Missing imputation for microarray dataarrayMissPattern Exploratory analysis of Missing patterns formicroarray dataEMV Estimation of Missing Values for a Data Matrixmlmmm ML estimation under multivariate linear mixedmodels with missing valuesmonomvn Estimation for multivariate normal data withmonotone missingnessNestedCohort Survival Analysis for Cohorts with MissingCovariate Informationsplus2R Insightful package providing missing S-PLUSfunctionality in Rimpute impute : Imputation for microarray datayaImpute yaImpute : An R Package for k-NN Imputation
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Conclusion
DM : un vrai probleme sans (( vraie )) solution (pratique)
il faut toujours faire des hypotheses
ou faire une etude de sensibilite
qui ne conclut pas
le mieux : IM
encore mieux : bayesien
encore encore mieux : ne pas avoir de DM
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les ouvrages de references
Little RJA, Rubin DB : Statistical analysis with missing data,2nd edition. John Wiley & Sons, New York 2002. Editionrecente : IM ++
Schafer JL. Analysis of Incomplete Multivariate DataChapman & Hall CRC 1997.
Allison PD. Missing Data Thousand Oaks, CA : Sage. 2002.
N. MEYER Donnees manquantes