Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m...

119
Les donn´ ees manquantes en bio-statistique Pr N. MEYER Laboratoire de Biostatistique - Facult´ e de M´ edecine ep. Sant´ e Publique CHU - STRASBOURG Master Statistiques et Applications 10 mars 2011 N. MEYER Donn´ ees manquantes

Transcript of Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m...

Page 1: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

Les donnees manquantes en bio-statistique

Pr N. MEYER

Laboratoire de Biostatistique - Faculte de Medecine

Dep. Sante Publique CHU - STRASBOURG

Master Statistiques et Applications—

10 mars 2011

N. MEYER Donnees manquantes

Page 2: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Importance du probleme

Les donnees

Toute etude ⇒ recueillir des donnees

Les variables sont qualitatives ou quantitatives

La plannification de l’etude ⇒ on espere recueillir toutes lesdonnees necessaires

= Toutes les donnees pour toutes les variables pour tous lessujets

N. MEYER Donnees manquantes

Page 3: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Importance du probleme

Les donnees manquantes

Donnees manquantes (DM) : donnees que l’on voulaitrecueillir mais qui ne l’ont pas ete.

Donnees qui devaient etre recueillies mais dont la vraie valeurest inconnue

Exemples :sujet qui ne repond qu’a certaines questions d’un sondageabsence de reponse a l’une des vagues d’une enquetelongitudinale

DM sont tres frequentes : 95% des jeux de donnees sontincomplets (au moins une DM)

Prevalence plus ou moins importante : de quelques unes a plusde 50% de DM

Semblent pratiquement inevitables

N. MEYER Donnees manquantes

Page 4: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Donnee manquante

Definition :

Soit une variable aleatoire X quelconque. Une DM xm est unedonnee pour laquelle la valeur X = x est inconnue. On ne disposepas de la valeur de X pour le sujet i .

N. MEYER Donnees manquantes

Page 5: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Classification methodologique des DM

Origine materielle des DM :

La valeur de xi n’a pas ete mesuree (oubli...)

la valeur : mesuree mais perdue ou non notee

la valeur : mesuree, notee, mais consideree comme nonutilisable : donnee jugee aberrante / erreur manifeste

la donnee : mesuree mais pas disponible : (( Ne Sait Pas ))

idem : cas particuliers de donnees censurees.

N. MEYER Donnees manquantes

Page 6: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Classification methodologique des DM

Des cas particuliers ou la donnee est mesuree mais n’est pasdisponible → donnee connue partiellement mais pas totalementmanquante

censure (1) : la valeur < ou > limites de detection de l’outil

HIV : nombre de copies du virus sous la limite de detectionD-dimeres : si > 20000 : 20000 et la vraie valeur est inconnue

censure (2) : des etudes de survie

duree de survie : superieure a une duree d

donnees (( non encore manquantes )) : indice CAO → si dentnon sortie, CAO sur ensemble incomplet

distinguer la DM et le zero d’echantillonage

N. MEYER Donnees manquantes

Page 7: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Classification par rapport a l’unite statistique

La donnee est manquante en raison de :

non reponse de l’unite statistique : aucune mesure n’estobtenue pour l’unite statistique

non reponse pour l’item : seule manque la mesure sur lavariable X consideree.

en general, DM non intentionnellement (tous les casprecedent)

manquant intentionnel : sondage par bloc de variable

→ probleme du data matching

N. MEYER Donnees manquantes

Page 8: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Les DM d’un point de vue statistique

En analysant des donnees incompletes, on souhaite avoir desresultats valides malgre les DM

Valides : i.e. p-valeurs, intervalles de confiances et estimationsponctuelles (moyenne, variance, proportions, parametres deregression, etc) correctes ou encore des distributionsa posteriori correctes

Ceci n’est possible que dans des conditions assez restrictives.La plupart du temps, il faut faire des hypotheses que l’on nepeut pas verifier.

N. MEYER Donnees manquantes

Page 9: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Les DM d’un point de vue statistique

Ceci implique le mecanisme aboutissant a une DM : lemecanisme des manquants et si ce mecanisme depend d’autrevariables (mesurees ou non). Ce mecanisme des manquantsest generalement inconnu d’un point de vue pratique

mais il existe une classification theorique

⇒ Classification statistique des donnees manquantes (Little &Rubin)

⇒ Important : Differentes situations → differentes methodesstatistiques

N. MEYER Donnees manquantes

Page 10: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Un exemple sur une variable

variable X , n-echantillon dont m valeurs manquantes

↘ taille de l’echantillon de n a n −m = np , de m/n %

on peut estimer m et s2 sur les n −m presents

valide que si np valeurs : sous-echantillon aleatoire des nle fait d’etre manquant ne depend pas de la valeur(manquante)

Pr(xi : ∗) = p,∀i .

sinon il y a un biais

N. MEYER Donnees manquantes

Page 11: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Effet des manquants : Un exemple (1)

Biais et Perte de Puissance

on tire 1000 valeurs d’une v.a. gaussienne centree reduite

on verifie sa moyenne et sa variance et on trace l’histogrammedes valeurs

on supprime aleatoirement 250 valeurs sur l’ensemble desvaleurs du vecteur

on verifie que la moyenne et la variance du sous-echantillonsont proches des valeurs de l’echantillon de depart

N. MEYER Donnees manquantes

Page 12: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Effet des manquants : Un exemple (2)

On retire ensuite des valeurs surtout dans les valeurs basses del’echantillon : on retire 225 valeurs parmi les valeurs basses et25 parmi les valeurs hautes.

on calcule la moyenne et la variance de l’echantillon et ontrace son histogramme. On verifie que les estimations desparametres sont biaises.

N. MEYER Donnees manquantes

Page 13: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Autres exemple

Voir simulations sur R. modifications des parametres selon les

manquants.

N. MEYER Donnees manquantes

Page 14: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

la forme de la distribution obervee sur les donnees completesn’est pas forcement la forme de la distribution complete.

en presence de donnees manquantes : biais ? importance ?

la distribution observee sur le sous-echantillon complet est-ellerepresentative de la forme de la distribution dans lapopulation ?

si on observe une distribution asymetrique, est-elleasymetrique ou bien le mecanisme des manquants estnon-aleatoire ?

N. MEYER Donnees manquantes

Page 15: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

si les DM sont manquantes aleatoirement : le mecanisme est(( ignorable ))

si les DM sont manquantes non aleatoirement (i.e. si la probaque xi soit manquant depend de la valeur de xi , le mecanismen’est pas (( ignorable )), et les analyses sur le sous-echantillonsont sujettes a biais.

si censure complete au dela d’un seuil, par exemple 0 :

Pr(Ri = 1|yi) = Pr(yi obs|yi) = 1 si yi < 0, 0 sinon.

N. MEYER Donnees manquantes

Page 16: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Classification des manquants

Classification introduite par Little et Rubin (1976, Biometrika) ;

encore appele (( distribution of missingness ))

Pr(ri |xi ; yi ;φ) : Probabilite que xi soit manquant

introduit non pas pour le modeliser

car en general l’information est insuffisante pour le modelisercorrectement

mais pour savoir dans quelle conditions on peut l’ignorer

N. MEYER Donnees manquantes

Page 17: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Classification des manquants

Situation bivariee : les elements

Soit deux V.A. X et Y , n realisations.

X est completement observee

Y comporte des valeurs manquantes

les deux V.A. X et Y soit qualitative(s) soit quantitative(s)sans perte de generalite.

N. MEYER Donnees manquantes

Page 18: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Situation bivariee

sujet X Y

1 x1 y1

. . . . . . . . .ii xi yi

. . . . . . . . .i + 1 xi+1 *

. . . . . . . . .n xn *

Tab.: Classification de Little & Rubin

N. MEYER Donnees manquantes

Page 19: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Les trois cas possibles

(1) La probabilite d’avoir une valeur manquante est independantede X et de Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt)

(2) La probabilite d’avoir une valeur manquante depend de Xmais pas de Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs)

(3) La probabilite d’avoir une valeur manquante depend de X etde Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs,mqt)

N. MEYER Donnees manquantes

Page 20: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Les trois cas possibles

soit Y = {Yij } un jeu de donnees compose de deux parties :

Y = (Yobs ,Ymqt)soit une indicatrice Rij telle que Rij = 1 si Yij est manquantet Rij = 0 sinon

le mecanisme des manquants est specifie par un modele pourla probabilite de reponse :

Pr(R = r |Y = y , θ) = fR/Y (r |yobs , ymqt , θ)

le mecanisme est donc la distribution de R sachant Y .

N. MEYER Donnees manquantes

Page 21: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Les trois cas possibles

(1) La situation MCAR : R et Y sont independant, la distributionde R ne depend pas des donnees

fR/Y (r |yobs , ymqt , θ) = fR(r |θ)(2) Situation MAR : la connaissance de Ymiss ne donne pas

d’information supplementaire sur R si Yobs est deja connu. Ladistribution de R ne depend pas des manquants

fR/Y (r |yobs , ymqt , θ) = fR(r |yobs , θ)

(3) La distribution de R depend de la valeur (inconnue) desmanquants

fR/Y (r |yobs , ymqt , θ) = fR(r |yobs , ymqt , θ)

N. MEYER Donnees manquantes

Page 22: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Premier cas : MCAR

La probabilite d’avoir une valeur manquante est independante deX et de Y

les valeurs manquantes sont Manquantes AleatoirementMissing at random : MAR

les donnees observees sont Observees AleatoirementObserved at random : OAR

↪→ les donnees sont manquantes completement aleatoirementMissing Completely at Random : MCAR

les valeurs Y observees : sous-echantillon aleatoire de Y

N. MEYER Donnees manquantes

Page 23: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

5

MCAR : Missing Completely At Random

X : continuous variable

Y :

cate

goric

al v

aria

ble

x x x

x x x

N. MEYER Donnees manquantes

Page 24: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Deuxieme cas : MAR

La probabilite d’avoir une valeur manquante depend de X mais pasde Y

on dit que le donnees sont manquantes aleatoirementMissing at Random : MAR

les valeurs observees de Y ne sont pas forcement unsous-echantillon aleatoire des valeurs echantillonnees de Ymais elles sont un sous-echantillon aleatoire de Y dans dessous-classes definies par les valeurs de X .

N. MEYER Donnees manquantes

Page 25: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

5

MAR : Missing At Random

X : continuous variable

Y :

cate

goric

al v

aria

ble

x x xxxx

x x xxx x

Yobs est un sous-echantillon aleatoire / representatif de Y dansdes categories de X .

N. MEYER Donnees manquantes

Page 26: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

5

MAR : Missing At Random

X : continuous variable

Y :

cate

goric

al v

aria

ble

x x xxxx

x x xxx x

Yobs est un sous-echantillon aleatoire / representatif de Y dansdes categories de X .

N. MEYER Donnees manquantes

Page 27: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Troisieme cas : MNAR

La probabilite d’avoir une valeur manquante depend de X et de Y

les valeurs ne sont ni manquantes aleatoirement (non MAR)

ni obervees aleatoirement (non OAR)

les donnees sont manquantes non aleatoires : M Not AR(MNAR)

N. MEYER Donnees manquantes

Page 28: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

5

MNAR : Missing Not At Random

X : continuous variable

Y :

cate

goric

al v

aria

ble

x x x

xxxxxx

N. MEYER Donnees manquantes

Page 29: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Consequences

Si MCAR et MAR le mecanisme des manquants peut etreignore pour les methodes d’inference basees sur lavraisemblance

Dans le cas MCAR, le mecanisme peut-etre ignore a la foispour les approches basees sur la vraisemblance et pour lesapproches basees sur l’echantillonage

Dans le cas MNAR le mecanisme ne peut pas etre ignore

N. MEYER Donnees manquantes

Page 30: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Quelques exemples

le cafe sur la feuille de releve

la panne d’appareil de mesure

le dosage impossible pour raisons liees au sujet

coagulation du tube de sang avant dosagesi dosage lie a un trouble de la coagulation : MNARsi dosage autre : MCAR

dossier medical incomplet

N. MEYER Donnees manquantes

Page 31: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Quelques exemples

les aidants des personnes agees dependantes, pour savoir si lapersonne aidee represente une charge, la presence d’unereponse depend de la valeur de la reponse

consommation d’alcool est souvent d’autant plus minimiseeque cette consommation est forte

dans les dossiers medicaux, la probabilite qu’un symptomenegatif soit note est plus faible que la probabilite qu’unsymptome positif soit note.

N. MEYER Donnees manquantes

Page 32: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Quelques exemples (2)

Soit deux V.A. continues, une est sujette a non-reponse. Lavariable X completement observee est l’age et la variable Yincompletement observee est le revenu

Si la probabilite que le revenu soit manquant est independantede l’age et du revenu du sujet, alors les donnees sont de typeMCAR (OAR + MAR).

Si la probabilite que le revenu soit manquant depend de l’agede la personne interrogee mais pas de son revenu, alors lesDM sont manquantes aleatoirement (ne dependent pas durevenu) mais elles ne sont pas observees aleatoirement(dependent de l’age) : elles sont donc de type MAR

N. MEYER Donnees manquantes

Page 33: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Quelques exemples (3)

Si la probabilite que le revenu soit manquant depend de l’agede la personne et de son revenu, les DM ne sont pasmanquantes aleatoirement (dependent du revenu) et ne sontpas observees aleatoirement (dependent de l’age) : elles sontdonc de type MNAR.

N. MEYER Donnees manquantes

Page 34: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Quelques exemples (4)

un animal meurt au decours d’une experience avant le recueilde y

ex. application de goudron sur la peau d’un rat : test cutane dupouvoir cancerigene

cause du deces ?

mort naturelle ?passage transcutane de constituant du goudron ?et donc toxicite (cardiaque, autre) du goudron ?

lien avec les analyses de survie

N. MEYER Donnees manquantes

Page 35: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Quelques exemples (5)

Etudes longitudinales

cas de la survie et de la censure

le sujet quitte l’etudedeces ? lie a l’etude ?

etude longitudinale

le sujet ne se presente pas a la visite vi , i < imax

le sujet ne se presente pas aux visites vi et suivantedeces ? lie a l’etude ?

N. MEYER Donnees manquantes

Page 36: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

L’interet de cette classification

Prendre en compte le mecanisme des manquants dansl’analyse

Si on s’interesse uniquement a la distribution marginale de X(l’age), les donnees de Y et le mecanisme des manquants n’aaucune importance

Si on souhaite avoir une estimation conditionnelle de la valeurde Y sachant X (par exemple la repartition des revenus enfonction de l’age), alors l’analyse sur les n −m valeurscompletes est satisfaisante si les donnees sont MAR ou si ellessont MCAR

Si on s’interesse a la distribution marginale de Y (moyennedes revenus), alors une analyse basee sur les unites completesest biaisee sauf si les donnees sont de type MCAR.

N. MEYER Donnees manquantes

Page 37: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Si donnees MNAR, les estimations portant sur la distributionmarginale de Y et sur la distribution conditionnelle de Y sachantX sont biaisees et necessitent une modelisation des valeursmanquantes

Dans les autres cas, la modelisation n’est pas necessaire meme sides methodes adaptees a l’analyse statistique en presence de DMdoivent etre utilisees.

N. MEYER Donnees manquantes

Page 38: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

reprendre les exemples sur l’impact des manquants dans R.

N. MEYER Donnees manquantes

Page 39: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Commentaires

Le probleme principal est que lorsque l’on a des donneesincompletes, il est tres difficile de savoir quelle est la vraiedistribution des donnees et donc de savoir quel est le mecanismedes manquants ou au moins lequel est le plus probable ! Il y a unepart d’avis subjectif dans le choix mais ce peut-etre un avis eclaire !

N. MEYER Donnees manquantes

Page 40: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Pertinence de cette classification

Permet de prendre en compte le mecanisme des manquantslors de l’analyse

Si on l’interesse a la distribution marginale des revenus, lesresultats sont biaises sauf si les donnees sont MCAR

Si l’on s’interesse a la distribution conditionnelle du revenu enfonction de l’age, c.-a-d. pour des classes d’ages donnees, uneanalyse basee sur les unites statistiques completes estsatisfaisante si les DM sont MAR

Si les DM sont MNAR, les estimations basees sur ladistribution marginale du revenu ou sur la distributionconditionnelle du revenu selon l’age sont biaisees et necessiteune modelisation explicite des MD.

N. MEYER Donnees manquantes

Page 41: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

DM et donnees longitudinales

Dans le cas de donnees longitudinales (rappel), la classification estmodifiee (voir Schafer).

MCAR le mecanisme ne depend ni des covariables xi ni de YPr(ri |xi ; yi ;φ) = Pr(ri |φ)

CD Covariate-dependent (CD) missingness : le mecanisme peutdependre de xi mais pas de Y : Pr(ri |xi ; yi ;φ) = Pr(ri |xi ;φ)

MAR le mecanisme peut dependre des cov. xi et des Y observes :Pr(ri |xi ; yi ;φ) = Pr(ri |xi ; yi(obs);φ)

MNAR tous les autres cas : le mecanisme depend encore de ymqt

meme apres prise en compte des xi , et des yobs .

N. MEYER Donnees manquantes

Page 42: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

DM et donnees longitudinales

En cas de sortie d’etude (avant fin de suivi), signification :

MCAR la Pr. de sortie ne depend pas des caracteristiques du sujets

CD la Pr. de sortie peut etre liee a des covariables mais pas a lamesure d’interet

MAR la Pr. de sortie peut etre liee a des covariables et la valeur dela mesure d’interet avant la sortie d’etude

MNAR la Pr. de sortie peut etre liee a la mesure d’interet au momentde la sortie et parfois a la mesure apres la sortie de l’etude :cas souvent credible

N. MEYER Donnees manquantes

Page 43: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

DM et donnees longitudinales

Que peut-on dire des donnees ?

comme on observe xi , ri et yobs on peut souvent rejeterMCAR et CD

on ne peut pas rejeter MAR en faveur de MNAR car onn’observe pas ymqt

tester MAR suppose des hypotheses inverifiables

N. MEYER Donnees manquantes

Page 44: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

DM et donnees longitudinales

les donnees ne sont pas MCAR car sorties differentes dansTMT et controle

pas seulement CD car complets et sortie ont des trajectoiresdifferentes

MAR ou MNAR, on ne peut pas savoir

N. MEYER Donnees manquantes

Page 45: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

L’(( ignorabilite )) des donnees

Les donnees sont (( ignorables )) si :

1 les donnees sont MAR

2 les parametres grouvernant le mecanisme des manquants nesont pas relies aux parametres que l’on veut estimer

Cela signifie que :

pas necessaire de modeliser le mecanisme des manquantscomme une part de l’estimation des parametres

mais necessite quand meme des methodes particulieres

en pratique, toujours : ignorable (condition (2) ci-dessustoujours remplie)

N. MEYER Donnees manquantes

Page 46: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

L’(( ignorabilite )) des donnees

Les donnees sont (( non-ignorables )) si les donnees ne sont pasMAR.

implique de modeliser le mecanisme des manquants pour avoirune bonne estimation des parametres

implique des hypotheses fortes et non verifiables sur lemecanisme

donc d’applicabilite limitee

car resultats tres dependants des hypotheses sur lesmanquants

et implique un modele pour chaque cas particulier

donc, bien qu’evident, tres peu utilise

nous ne verrons que le cas ignorable

N. MEYER Donnees manquantes

Page 47: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Un cas particulier

le (( missing plot )) dans un plan factoriel

issu de l’agronomie, quand un plot est un manquant

methodes a part dediees a ce probleme

N. MEYER Donnees manquantes

Page 48: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Les donnees monotones

Une repartition de donnees manquantes est dit monotone si :

les variables peuvent etre arrangees d’une maniere telle quepour chaque observation de l’echantillon, si Xj est manquant,alors Xj+j ′ est aussi manquant, avec j ′ entier positif etj + j ′ ≤ pdonc si pour un sujet i , les donnees sont manquantes a partird’une certaine variable

qui peut changer d’un sujet a l’autre

frequent dans les donnees longitudinales (abandont du sujet apartir d’une date donnee)

si une seule variable, forcement monotone

N. MEYER Donnees manquantes

Page 49: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

--> 1 A 2 8 9 8 8 7--> 2 A 3 4 9 1 2 *--> 3 B 4 7 6 3 * *--> 1 A 2 8 9 * * *--> 2 A 3 4 4 * * *--> 3 B 4 7 6 * * *

N. MEYER Donnees manquantes

Page 50: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Deux autres types de repartition

Une repartition de donnees manquantes peut prendre d’autresformes :

une repartition quelconque

une repartition tres structuree

parfois volontaire

ou resultant de l’histoire des donnees comme dans la fusion dedonnees : deux (( demi-sondages )) ou sondages a deux epoquesdifferentes

un cas tres particulier : les variables latentes ou toutes lesvaleurs d’une variables sont a retrouver, comme en analysefactorielle

N. MEYER Donnees manquantes

Page 51: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

--> 1 A 2 8 9 8 8 7--> 2 A 3 * 9 1 2 7--> 3 B * 7 6 3 9 *--> 1 A 2 8 9 * 3 *--> 2 A * * 4 8 2 *--> 3 B 4 7 6 * 1 6

Il s’agit ici d’une repartition arbitraire

N. MEYER Donnees manquantes

Page 52: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

--> 1 A 2 8 9 *--> 2 A 3 4 9 *--> 3 B 4 7 6 *--> 1 A 2 8 9 *--> 2 A 3 4 4 *--> 3 B 4 7 6 *

Il s’agit ici d’une variable latente

N. MEYER Donnees manquantes

Page 53: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Le data fusion

Le data fusion (et le data matching, implique par le DF) :

l’ensemble des donnees sur un sujets ne sont pas forcementdans une seule base de donnees

Def : Combinaison de donnees, provenant de sourcesdifferentes, pour obtenir un seul jeu de donnees dans lequeltoutes les variables sont renseignees (presence obligatoire devariables communes)

fusionne des variables provenant d’un dataset avec desvariables d’un second dataset, en appariant les observationspar paires a partir de variables communes appelees (( variablesd’appariement )) ((( match variables ))).

N. MEYER Donnees manquantes

Page 54: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Le data fusion

Le data fusion (suite) :

Il n’est pas necessaire que les observations soient identiquesdans les deux datasets, c.-a-d. que toutes les observationsdans un dataset ne doivent pas forcement figurer dans l’autre.

par appariement d’individu (plus proche voisin) ou parprediction de variables

N. MEYER Donnees manquantes

Page 55: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

--> 1 A 2 8 9 8 8 * *--> 2 A 3 4 9 1 2 * *--> 3 B 4 7 6 3 9 * *--> 1 A 2 8 9 * * 2 1--> 2 A 3 4 4 * * 3 5--> 3 B 4 7 6 * * 6 9

Il s’agit ici de fusionner les donnees en remplacant les donneesmanquantes.

N. MEYER Donnees manquantes

Page 56: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Que faire en presence de DM ?

Avant tout, il faut decrire les donnees, c.-a-d. les donneesmanquantes et les donnees non manquantes

Combien de DM ?

Combien de DM par variable ?

Ou sont les DM ?

Certaines variables seulement ? Toutes les variables ?certains sujets seulement ? Tous les sujets ?

Calculer le nombre et la proportion de donnees manquantes(la plupart des logiciels le font automatiquement)

Decrire graphiquement les donnees et les donnees manquantes

N. MEYER Donnees manquantes

Page 57: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

typetrav Denom. DenCum % % Cum1 448 448 63.55 63.552 60 508 8.51 72.063 197 705 27.94 100.00N= 705*= 94

declench Denom. DenCum % % Cum0 645 645 91.49 91.491 60 705 8.51 100.00N= 705*= 94

N. MEYER Donnees manquantes

Page 58: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L138

L186

R19

8

L204

R22

1

R32

3

L333

L346

R34

9

L352

L358

R38

1

L410

L448

R45

0

L451

L477

R48

7

L543

L551

L584

R59

0

L592

L599

L636

R63

8

L651

L673

R68

1

L686

L758

L773

L786

L811

L797

R81

3

R82

7

D2S138

D18S61

D16S422

D17S794

D6S264

D14S65

D18S53

D17S790

D1S225

D3S1282

D9S179

D5S430

D8S283

D11S916

D2S159

D16S408

D5S346

D10S191

D13S173

D6S275

D15S127

D1S305

D4S394

D20S107

D1S197

D1S207

D10S192

D3S1283

D4S414

D8S264

D22S928

TP53

D9S171

L138

L186

R19

8

L204

R22

1

R32

3

L333

L346

R34

9

L352

L358

R38

1

L410

L448

R45

0

L451

L477

R48

7

L543

L551

L584

R59

0

L592

L599

L636

R63

8

L651

L673

R68

1

L686

L758

L773

L786

L811

L797

R81

3

R82

7

D2S138

D18S61

D16S422

D17S794

D6S264

D14S65

D18S53

D17S790

D1S225

D3S1282

D9S179

D5S430

D8S283

D11S916

D2S159

D16S408

D5S346

D10S191

D13S173

D6S275

D15S127

D1S305

D4S394

D20S107

D1S197

D1S207

D10S192

D3S1283

D4S414

D8S264

D22S928

TP53

D9S171

man

quan

tsN

orm

.A

I

N. MEYER Donnees manquantes

Page 59: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L138

L186

R19

8

L204

R22

1

R32

3

L333

L346

R34

9

L352

L358

R38

1

L410

L448

R45

0

L451

L477

R48

7

L543

L551

L584

R59

0

L592

L599

L636

R63

8

L651

L673

R68

1

L686

L758

L773

L786

L811

L797

R81

3

R82

7

D2S138

D18S61

D16S422

D17S794

D6S264

D14S65

D18S53

D17S790

D1S225

D3S1282

D9S179

D5S430

D8S283

D11S916

D2S159

D16S408

D5S346

D10S191

D13S173

D6S275

D15S127

D1S305

D4S394

D20S107

D1S197

D1S207

D10S192

D3S1283

D4S414

D8S264

D22S928

TP53

D9S171

L138

L186

R19

8

L204

R22

1

R32

3

L333

L346

R34

9

L352

L358

R38

1

L410

L448

R45

0

L451

L477

R48

7

L543

L551

L584

R59

0

L592

L599

L636

R63

8

L651

L673

R68

1

L686

L758

L773

L786

L811

L797

R81

3

R82

7

D2S138

D18S61

D16S422

D17S794

D6S264

D14S65

D18S53

D17S790

D1S225

D3S1282

D9S179

D5S430

D8S283

D11S916

D2S159

D16S408

D5S346

D10S191

D13S173

D6S275

D15S127

D1S305

D4S394

D20S107

D1S197

D1S207

D10S192

D3S1283

D4S414

D8S264

D22S928

TP53

D9S171

Man

quan

tsP

rése

nts

N. MEYER Donnees manquantes

Page 60: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Data missing by block (intended or not)G

PV

Age

Sex

e

Poi

ds

Tai

lle

BM

I

tab

Jeun CT

CH

DL

CLD

L

TG

Gly

PF

4

Ddi

m

TA

T

Num

Plq

GB

GR

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300

GP

V

Age

Sex

e

Poi

ds

Tai

lle

BM

I

tab

Jeun

CT

CH

DL

CLD

L

TG

Gly

PF

4

Ddi

m

TA

T

Num

Plq

GB

GR

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300

Man

quan

tsP

rése

nts

N. MEYER Donnees manquantes

Page 61: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Determination du mecanisme des manquants

Le caractere manquant d’une donnee peut-etre etudie

D devient Yfaire un modele pour etudier les causes des manquants

facile a faire

probleme circulaire : en general, DM sur plusieurs variables(donc X incomplets)

difficile a interpreter

N. MEYER Donnees manquantes

Page 62: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Que faire apres la description

La plupart des logiciels decident tout seul ce qu’il faut faireavec les donnees manquantes

Les logiciels courants utilisent des methodes de mauvaisesqualites (SPSS notamment) ou rien (MINITAB)

Rares sont les logiciels qui permettent une analyse correcte :S+/R, SAS et WinBUGS

N. MEYER Donnees manquantes

Page 63: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

methode du cas complet

X deux V.A. X1 et X2, n-echantillon.

m1 et m2 valeurs mqt. sur X1 et X2.

Le nombre m de sujets ayant au moins une donnee manquante

max (m1,m2) ≤ m ≤ m1 + m2

Le nombre nc de sujets complets est egale a n −m.

Donc en general nc < nombre de sujets complets pour X1 oupour X2 et :

la plupart du temps on perd plus de valeurs que le nombre reelde valeurs manquantes

N. MEYER Donnees manquantes

Page 64: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

--> 1 A 3 4 * 56 H 1--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0

--> 1 * * * * * * *--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0

--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0

N. MEYER Donnees manquantes

Page 65: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Methode du cas complet : avantages

facilite les comparaisons entre analyses uni- et multivariees

mais seulement si on retire les memes sujets d’une analyse al’autre

pas-a-pas ascendants : le logiciel retire d’emblee les sujetsincomplets sur toutes les variables candidates meme si in finetoutes ne sont pas retenues dans le modele

N. MEYER Donnees manquantes

Page 66: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Methode du cas complet : inconvenients

biais evident sauf si MCAR

perte de puissance

perte de cas rapidement considerable

si 10 variables avec 10% de manquants (sur des sujetsdifferents)

0, 910 cas complets = 34,8%

N. MEYER Donnees manquantes

Page 67: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Methode du cas disponible

on utilise pour chaque sous-analyse ou chaque sous-partie del’analyse l’ensemble des cas complets

avantage : nb max de sujets a chaque analyse / chaque partie

inconvenients : nb variables d’une analyse / partie a l’autre

Y = α1 + βX1 et Y = α1 + βX2

portent sur des sujets differents

ACP : matrice de covariance mal conformee

pas-a-pas : certains logiciels excluent les sujets incomplets achaque etape et pas d’emblee

N. MEYER Donnees manquantes

Page 68: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Ajustement sur dummy variable

Une methode simple et intuitive proposee par Cohen en 1985.

soit un modele de regression Y = f (X )soit une V.A. X explicative incomplete

on cree une V. indicatrice D , D = 1 si X manquant, D = 0sinon

autre solution

on cree une V. indicatrice D∗, D∗ = c si X manquant,D∗ = X sinon

ou c est une constante quelconque

le coefficient de X est invariant a c

N. MEYER Donnees manquantes

Page 69: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Ajustement sur dummy variable

ce qui change selon c, c’est le coefficient de D∗

pour faciliter l’interpretation : c = m(X = Xobs)alors : βD = valeur predite de Y pour les sujets incompletsmoins la valeur predite de Y pour les individus a la moyennede Xmais la methode est biaisee

et donc les estimations ne sont pas valides

N. MEYER Donnees manquantes

Page 70: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Ajustement sur dummy variable

Cependant :

la methode permet d’utiliser tous les sujets disponibles

y compris ceux qui sont incomplets

donc on evite la perte de puissance : meilleure precision desestimateurs (et donc choisir entre biais et precision)

on peut egalement tester des interactions entre D ou D∗ et Xj

pour detecter un mecanisme particulier pour les manquants

N. MEYER Donnees manquantes

Page 71: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Les methodes d’imputation

methodes tres nombreuses

consiste a substituer a la valeur manquante une valeur choisiede maniere (( pertinente )).

methodes (( seduisantes et dangereuses )) (Rubin)

Deux grands types :1 imputation simple2 imputation multiple

N. MEYER Donnees manquantes

Page 72: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Les methodes d’imputation simple

(... et mauvaises)

LOCF : Last Observation Caried Forward

ajouter une categorie pour les DM

moyenne non conditionnelle

moyenne conditionnelle (Buck) (par bloc ou pas)

imputation + alea

simples mais inconvenients +++ / overfitting /ad hoc

estimations d’IC tres difficiles

N. MEYER Donnees manquantes

Page 73: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Ajout d’une categorie pour les DM

Soit X une variable aleatoire categorielle et incomplete

On cree une categorie suplementaire designant la DM

On fait le modele avec cette variable multinomiale

interpretation ? Delicate !

Bais + + et augmente le nb de ddl

Difficile a utiliser pour des variables ordinales ou continues

N. MEYER Donnees manquantes

Page 74: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Last Observation Carried Forward : LOCF (1)

tres prisee dans l’industrie pharmaceutique

consiste a remplacer une valeur manquante par la valeur qui laprecede dans le fichier ( !)

tres facile a realiser

aucune justification theorique

suppose que le fichier n’est pas trie et donc les sujets ont unordre aleatoire independant du mecanisme des manquants

N. MEYER Donnees manquantes

Page 75: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Premiere variante : d’un sujet a l’autre

--> 1 A 2 8 9 47 F 1--> 2 A 3 4 * 56 H 1--> 3 B 4 7 6 55 F 0

--> 1 A 2 8 9 47 F 1--> 2 A 3 4 |9| 56 H 1--> 3 B 4 7 6 55 F 0

N. MEYER Donnees manquantes

Page 76: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Seconde variante : d’un temps a l’autre pour un meme sujet dansune etude longitudinale

--> 1 A 2 8 9--> 2 A 3 4 *--> 3 B 4 7 6

--> 1 A 2 8 9--> 2 A 3 4 |4|--> 3 B 4 7 6

N. MEYER Donnees manquantes

Page 77: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Last Observation Carried Forward : LOCF (1)

connait des variantes interessantes par exemple pour desdonnees continues

on prend la valeur precedente plus un alea ε suivant une loipertinente

peut s’envisager avec des raffinements dans de l’imputationmultiples

a ne jamais utiliser sinon

N. MEYER Donnees manquantes

Page 78: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Les methodes dans les enquetes

Quelques methodes classiques :

cold deck : source exterieur, limites + + +

substitution : tirage au sort d’une nouvelle unite

difficile si stratification a posteriori

N. MEYER Donnees manquantes

Page 79: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Les methodes dans les enquetes

Une methodes a part :

le hot deck

on remplace la valeur manquante par une valeur prise chez unsujet similaire sur un certain nombre de variables

difficile en partique car impose une mesure de distance qui estdelicate a definir

biais et impact sur la puissance des analyses car diminutiondes variances

N. MEYER Donnees manquantes

Page 80: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Le (( worst case )) et ses variantes (1)

Une methode facile a utiliser pour des variables categorielles :imputer les valeurs qui defavorisent (cliniquement) le resultatattendu

soit a estimer une proportion p sur N sujets dont n sontmanquants

on peut attribuer l’une des modalites (VIH+) a tous les nmanquants et estimer pexemple : VIH au Kenya : N = 787, n = 36, r+ = 52on obtient par le (( worst case )) : p = 88/787on peut faire un intervalle (( worst case - best case )) (ou lecontraire selon contexte) qui sert de point de depart a lamodelisation

N. MEYER Donnees manquantes

Page 81: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Le (( worst case )) et ses variantes (2)

Variantes dans les essais therapeutiques

on veut comparer l’effet de deux traitements sur un resultatclinique

souvent la mesure d’interet est absente (deces, guerison carperdu de vue ou autre)

l’estimation de l’effet du traitement est biaise par les DM

on se met dans une situation defavorable au nouveau TMT

si la difference existe quand meme, on peut valider le nouveautraitement

N. MEYER Donnees manquantes

Page 82: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Etude de sensibilite : Shadish

Stent: % of missing allocated to good outcome (n=24)

Ang

iopl

asty

: % o

f mis

sing

allo

cate

d to

goo

d ou

tcom

e (n

=30

)

0 20 40 60 80 100

020

4060

8010

0

Extreme favouring S

Extreme favouring A All allocated to good

All allocated to poor

Significant difference (p<0.05)

No significant difference (p>0.05)N. MEYER Donnees manquantes

Page 83: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Methode de Delucchi

Pour des donnees qualitatives : table 2× 2si on a m valeurs manquantes dans l’une des deux variables

on peut imputer les valeurs marginales de m + 1 manieres

puis dans chaque cellules a partir de la marge

(m1. + 1)× (m2. + 1) possibilites

pour chacune des m + 1 combinaisons marginales

a partir desquelles on conclut

N. MEYER Donnees manquantes

Page 84: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Solutions a part

litterature + + + ad hoc + + +

algorithme NIPALS : voir modeles PLS

qui suppose quand meme des hypotheses fortes sur les DM

! ne pas avoir de DM ! !

N. MEYER Donnees manquantes

Page 85: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM

Principe (tres general) :

Interdependance entre parametres θ et Ymqt

Ymqt contient de l’information utile pour estimer θ

et θ permet d’obtenir des valeurs pertinentes pour Ymqt

On remplit les manquants a partir d’une estimation de θ

puis on re-estime θ a partir de Yobs et Ymqt

et on repete jusqu’a convergence

N. MEYER Donnees manquantes

Page 86: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM

Les donnees completes (i.e. obs + mqt) peuvent etre mise sous laforme suivante :

Pr(Y |θ) = Pr(Yobs |θ)Pr(Ymqt |Yobs , θ)d’ou :

L(θ|Y ) = L(θ|Yobs) + log Pr(Ymqt |Yobs , θ) + cavec : L(θ|Y ) = log Pr(Y |θ) vraisemblance des donneescompletes

et : L(θ|Yobs) = log Pr(Yobs |θ) vraisemblance des donneesobservees

Pr(Ymqt |Yobs , θ) : distrib. predictive des DM sachant θ

fait le lien entre θ et les DM

N. MEYER Donnees manquantes

Page 87: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM

Soit θ(t) l’estimation courante de θ. Les estimations se font ensuiteen deux etapes :

E Expectation etape qui donne la log-vraisemblance

Q(θ|θ(t)) =∫L(θ|Y )Pr(Ymqt |Yobs , θ = θ(t))dYmqt

M Maximization etape qui determine θ(t+1) en maximisant cettelog-vraisemblance

Q(θ(t+1)|θ(t)) ≥ Q(θ|θ(t))

N. MEYER Donnees manquantes

Page 88: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM

Un resultat de Dempster, Laird et Rubin (1977) montre que :

si θ(t+1) est la valeur de θ qui maximise Q(θ|θ(t))alors θ(t+1) est une meilleure estimation que θ(t)

car la vraisemblance des donnees observees pour θ(t+1) est aumoins aussi grande que celle pour θ(t)

L(θ(t+1)|Yobs) ≥ L(θ(t)|Yobs)

N. MEYER Donnees manquantes

Page 89: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM : exemple

Illustre sur une table 2× 2on suppose deux variables Y1 et Y2, variables dichotomiques

toutes les deux incompletes

le tableau croise des deux variables : distribution multinomiale

x = {x11, x12, x21, x22}de parametres : θ = {θ11, θ12, θ21, θ22}avec θij proba qu’un sujet ait Y1 = i et Y2 = jalors la vraisemblance s’ecrit :

L(θ|x ) = x11logθ11 + x12logθ12 + x21logθ21 + x22logθ22

les MLE obtenus par : xij = nθij

N. MEYER Donnees manquantes

Page 90: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM : exemple

Soit la table suivante :

sujet Y2 = 1 Y2 = 2 Y2 = mqt

Y1 = 1 xA11 xA

12 xB1+

Y1 = 2 xA21 xA

22 xB2+

Y1 = mqt xC+1 xC

+2

N. MEYER Donnees manquantes

Page 91: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM : exemple

Les deux etapes de l’algorithme :

etape E remplace les valeurs inconnues xBij et xC

ij par leuresperance conditionnelles

E (xij |Yobs , θ) = E (xAij + xB

ij + xCij |Yobs , θ)

= xAij + xB

i+θij /θi+ + xC+j θij /θ+j

etape M θij = E (xij |Yobs , θ)/nen combinant les deux etapes en une seule, on obtient :

θ(t+1)ij = n−1

[xAij + xB

i+

(θ(t)ij

θ(t)i+

)+ xC

+j

(θ(t)ij

θ(t)+j

)]

N. MEYER Donnees manquantes

Page 92: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM : exemple

Soit la table suivante :

sujet Non victimes t2 Victimes t2 Non-reponses

Non victimes t1 392 55 33Victimes t1 76 38 9

Non-reponses 31 7

N. MEYER Donnees manquantes

Page 93: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’algorithme EM : exemple

Iterations de l’EM :

t θ(t)11 θ

(t)12 θ

(t)21 θ

(t)22

0 0,2500 0,2500 0,2500 0,25001 0,6615 0,1170 0,1498 0,0718... ... ... ... ...4 0,6971 0,0987 0,1358 0,06845 0,6971 0,0987 0,1358 0,0685

∞ 0,6971 0,0987 0,1358 0,0685

N. MEYER Donnees manquantes

Page 94: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’Imputation Multiple : la star !

Repris de JL Schafer :

Single-imputation strategies designed to precisely predict themissing values tend to distort estimates of populationquantities

The goal of the missing-data procedure is to draw accurateinferences about population quantities (e.g. mean change overtime), not to accurately predict the missing values

With imputation, the best way to achieve that goal is topreserve all aspects of the data distribution (means, trends,within- and between-subject variation, etc.)

Ad hoc imputation methods inevitably preserve some aspectsbut distort others

N. MEYER Donnees manquantes

Page 95: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’Imputation Multiple : la star !

l’imputation simple est ... unique

la donnee imputee est considere comme une donnee observee

ne tient pas compte de l’incertitude sup. liee aux manquants

d’ou l’idee de faire plusieurs imputations differentes

on substitue plusieurs valeurs a chaque DM

on analyse en tenant compte de cette multiplicite

N. MEYER Donnees manquantes

Page 96: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Les etapes d’une imputation multiple

on analyse la matrice des donnees pour en deduire un modelepour les DM

on realise entre M = 3 et 10 imputations

pour obtenir 3 a 10 jeux de donnees completes

on calcule le parametre d’interet pour chaque jeu

on combine les M imputations pour avoir une inferencequi tienne compte de l’incertitude supplementaire liee aux DM

N. MEYER Donnees manquantes

Page 97: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Formules pour l’IM

M estimations ponctuelles pour le vecteur de parametre θ

Si gaussien, moyenne et ecart-type :¯Q (t) = Q(Yobs ,Y

(t)miss), t = 1, . . . ,m

etU (t) = U (t)(Yobs ,Y

(t)miss), t = 1, . . . ,m

On calcule ensuite :

¯Q =1m

m∑t=1

Q (t)

N. MEYER Donnees manquantes

Page 98: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Formules pour l’IM (suite)

La Var. globale a deux composantes :(1) variance intra-imputation

U =1m

m∑t=1

U (t)

(2) La variance inter-imputation vaut :

B =1

m − 1

m∑t=1

( ¯Q (t) − Q)2

La variance totale vaut :

T = U + (1 + m−1)B

N. MEYER Donnees manquantes

Page 99: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Formules pour l’IM (suite)

A partir de ces equations, on peut realiser des tests :

Q − Q√T 2

; tν

avec :

ν = (m − 1)[1 +

U(1 + m−1)B

]2

→ intervalles de confiances.Ces statistiques tiennent compte de l’incertitude suppl. liees auxDM.

N. MEYER Donnees manquantes

Page 100: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Un exemple simple

Exemple : voir feuille Excel

N. MEYER Donnees manquantes

Page 101: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Obtention des imputations

Pour faire de l’IM, il faut generer les valeurs simulees :

a partir de la distribution a posteriori des valeurs de Ymqt

on definit donc un modele pour les manquants

en analysant la matrice R

et en simulant en general sous un modele multinormal

on tire m valeur de Pr(Ymqt |Yobs)

Pr(Ymqt |Yobs) =∫

Pr(Ymqt |Yobs , θ)Pr(θ|Yobs)dθ

soit distribution predictive de Ymqt sachant θ moyenne sur ladistribution a posteriori de θ

ce qui reflete l’incertitude sur Ymqt sachant les parametres dumodele des donnees completes.

N. MEYER Donnees manquantes

Page 102: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Obtention des imputations

Autre methode, sur des variables quantitatives (( approximatebayesian bootstrap )) :

reg. logistique pour predire si X est manquant ou pas

calculer proba de manquer = propensity score

on trie par prop. score puis quintiles

dans chaque quintile, r cas complets et m mqt

parmi les r complets, on tire avec remise un ech. aleatoire detaille rpour chaque mqt, on tire avec remise une valeur dans l’ech.precedent

derniere etape repetee M fois puis combinaison des Mparametres

N. MEYER Donnees manquantes

Page 103: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’IM : avantages

souple + +

donne des resultats valides

robuste aux ecarts de specification du modele

M peut etre faible : 3, 5, pas plus de 10.

N. MEYER Donnees manquantes

Page 104: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

L’IM : inconvenients (limites)

⇒ le recours a des logiciels

repose sur le modele (mais les autres methodes aussi)

si les effectifs sont faibles → variantes particulieres

Par ailleurs

aspects bayesiens → utiliser WinBUGS

N. MEYER Donnees manquantes

Page 105: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

l’IM par MICE (1)

MICE : Multiple Imputation Chained Equation

egalement le nom d’un package R.

recent : 2000

obtention des imputations par le chainage d’equation

N. MEYER Donnees manquantes

Page 106: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

l’IM par MICE (2)

Principe de la methode :

soit une matrice X de taile n × p, avec m valeursmanquantes, et j variables incompleteson impute chaque valeur manquante des j variablesincompletes une fois a partir des donnees observeeson prend une premiere variable dont on retire les valeursimputees(donc on reprend la variable dans son etat initial, incompletes)on impute les valeurs manquantes a partir des autres variablescompleteeson passe a la variable suivante : on predit les valeursincompletes a partir des autreson fait un tour complet sur l’ensemble des variablesincompleteson procede a M tours pour obtenir M jeux de donneesimputees

N. MEYER Donnees manquantes

Page 107: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

l’IM par MICE (3)

Avantages et limites de la methode

facile a faire

gere tous les types de donnees dans un meme (( modele ))

plus facile a faire sur de tres grand jeux de donnees que IMclassique

peu de fondements theoriques

convergence non assuree

mais empiriquement efficace

N. MEYER Donnees manquantes

Page 108: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Retour sur les MNAR

Si les donnees sont MNAR :

implique de modeliser le mecanisme des manquants pour avoirune bonne estimation des parametres

implique des hypotheses fortes et non verifiables sur lemecanisme

or souvent on peut raisonnablement suspecter MNAR

on peut les modeliser mais complexe, au cas par cas

et ne peuvent que difficilement etre teste (depend ducontexte)

donc pas de methode generale possible type IM

N. MEYER Donnees manquantes

Page 109: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Une methode a part : l’algorithme NIPALS

Cree dans les annees 1960 pour l’ACP

a la particularite de pouvoir fournir les composantes de l’ACPsi l’on travaille sur les donnees complete

fournit un resultat si donnees incompletes

sans supprimer de sujetssans supprimer de variablesans estimer les donnees manquantes !sans imputation !

peut etre utilise a l’envers pour estimer ou imputer les DM

N. MEYER Donnees manquantes

Page 110: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Une methode a part : l’algorithme NIPALS

Algorithme iteratif, utilisable en regression

soit y et X, centree reduite

on ajuste de maniere iterative y = aXj + ε

faisable sur donnees incompletes

puis construction de composantes

normer le vecteur a1 : w1 = a1/‖a1‖.calculer la composante t1 = 1/(tw1w1)Xw1.iteration → hexprimer la composante th en termes de predicteurs X :th = Xw∗

h .

N. MEYER Donnees manquantes

Page 111: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Une autre methode a part : les modeles mixtes

Crees pour analyser des donnees longitudinales ou multi-niveaux,repetees etc.

permet de travailler sur des donnees incompletes

et avec des sujets n’ayant qu’une valeur sur jsupprime quand meme les sujets n’ayant que des donneesmanquantes

N. MEYER Donnees manquantes

Page 112: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

une autre question : Y ou X ?

Les problemes de DM se posent surtout lorsque X estincomplet

Lorsque Y est incomplet → estimer Yi a partir du modele

Donc le probleme est moins grave mais il existe quand meme

S’ecrit naturellement dans WinBUGS (en fait il est inutile del’ecrire !)

Probleme serieux dans le domaine medical ou le problemen’est pas que statistique !

N. MEYER Donnees manquantes

Page 113: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

La solution bayesienne

Les donnees manquantes sont issues d’une distribution a priori

souplesse + + +

⇒ faire des hypotheses sur les DM

mais toute les methodes en font

similitudes avec les donnees aberrantes

voir exemple de prog. Bugs

N. MEYER Donnees manquantes

Page 114: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Les logiciels

MINITAB : rien pour les DM

SPSS : module mais pas dans la base

SAS : differentes fonctions + PROC MI

S+ / R : CAT,MIX, NORM

A part : SIMCA : cartographie des manquants / R

WinBUGS

N. MEYER Donnees manquantes

Page 115: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Les packages de R

on trouve dans R plusieurs package qui gerent plus ou moins lesdonnees manquantes :

mitools fait de l’IMmice imputation multivariee par equations en chainesmvnmle estimation du max. vrais. pour des donneesgaussiennes multivarieesnorm IM pour donnees continues par EM et dataaugmentationcat IM pour donnees categorielles par EM, data augmentationet simulations de parametremix la meme chose pour melange de qualitatives etquantitativepan IM pour donnees longitudinalesameliaII pour les sondages, les series chronologiques,

N. MEYER Donnees manquantes

Page 116: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Package Hmisc

dans le package Hmisc :

na.delete Row-wise Deletion na.action

na.detail.response Detailed Response Variable Information

na.keep Do-nothing na.action

na.pattern Variable Clustering

na.retain Summarize Data for Making Tables and Plots

naclus Variable Clustering

naplot Variable Clustering

N. MEYER Donnees manquantes

Page 117: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Le package Hmisc : suite

aregImpute() Multiple Imputation using Additive Regression,Bootstrapping, and Predictive Mean Matchingtranscan() Transformations/Imputations using CanonicalVariatesarrayImpute Missing imputation for microarray dataarrayMissPattern Exploratory analysis of Missing patterns formicroarray dataEMV Estimation of Missing Values for a Data Matrixmlmmm ML estimation under multivariate linear mixedmodels with missing valuesmonomvn Estimation for multivariate normal data withmonotone missingnessNestedCohort Survival Analysis for Cohorts with MissingCovariate Informationsplus2R Insightful package providing missing S-PLUSfunctionality in Rimpute impute : Imputation for microarray datayaImpute yaImpute : An R Package for k-NN Imputation

N. MEYER Donnees manquantes

Page 118: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Conclusion

DM : un vrai probleme sans (( vraie )) solution (pratique)

il faut toujours faire des hypotheses

ou faire une etude de sensibilite

qui ne conclut pas

le mieux : IM

encore mieux : bayesien

encore encore mieux : ne pas avoir de DM

N. MEYER Donnees manquantes

Page 119: Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m ethodologique des DM Impact des donn ees manquantes E et des manquants Classi cation

IntroductionDefinitions

Les methodes d’analyseConclusion

Les ouvrages de references

Little RJA, Rubin DB : Statistical analysis with missing data,2nd edition. John Wiley & Sons, New York 2002. Editionrecente : IM ++

Schafer JL. Analysis of Incomplete Multivariate DataChapman & Hall CRC 1997.

Allison PD. Missing Data Thousand Oaks, CA : Sage. 2002.

N. MEYER Donnees manquantes