Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m...

Les donnees manquantes en bio-statistique

Pr N. MEYER

Laboratoire de Biostatistique - Faculte de Medecine

Dep. Sante Publique CHU - STRASBOURG

Master Statistiques et Applications—

10 mars 2011

N. MEYER Donnees manquantes

IntroductionDefinitions

Les methodes d’analyseConclusion

Importance du probleme

Les donnees

Toute etude ⇒ recueillir des donnees

Les variables sont qualitatives ou quantitatives

La plannification de l’etude ⇒ on espere recueillir toutes lesdonnees necessaires

= Toutes les donnees pour toutes les variables pour tous lessujets




Importance du probleme

Les donnees manquantes

Donnees manquantes (DM) : donnees que l’on voulaitrecueillir mais qui ne l’ont pas ete.

Donnees qui devaient etre recueillies mais dont la vraie valeurest inconnue

Exemples :sujet qui ne repond qu’a certaines questions d’un sondageabsence de reponse a l’une des vagues d’une enquetelongitudinale

DM sont tres frequentes : 95% des jeux de donnees sontincomplets (au moins une DM)

Prevalence plus ou moins importante : de quelques unes a plusde 50% de DM

Semblent pratiquement inevitables




Classification methodologique des DMImpact des donnees manquantesEffet des manquantsClassification de Little et Rubin

Donnee manquante

Definition :

Soit une variable aleatoire X quelconque. Une DM xm est unedonnee pour laquelle la valeur X = x est inconnue. On ne disposepas de la valeur de X pour le sujet i .





Classification methodologique des DM

Origine materielle des DM :

La valeur de xi n’a pas ete mesuree (oubli...)

la valeur : mesuree mais perdue ou non notee

la valeur : mesuree, notee, mais consideree comme nonutilisable : donnee jugee aberrante / erreur manifeste

la donnee : mesuree mais pas disponible : (( Ne Sait Pas ))

idem : cas particuliers de donnees censurees.





Classification methodologique des DM

Des cas particuliers ou la donnee est mesuree mais n’est pasdisponible → donnee connue partiellement mais pas totalementmanquante

censure (1) : la valeur < ou > limites de detection de l’outil

HIV : nombre de copies du virus sous la limite de detectionD-dimeres : si > 20000 : 20000 et la vraie valeur est inconnue

censure (2) : des etudes de survie

duree de survie : superieure a une duree d

donnees (( non encore manquantes )) : indice CAO → si dentnon sortie, CAO sur ensemble incomplet

distinguer la DM et le zero d’echantillonage





Classification par rapport a l’unite statistique

La donnee est manquante en raison de :

non reponse de l’unite statistique : aucune mesure n’estobtenue pour l’unite statistique

non reponse pour l’item : seule manque la mesure sur lavariable X consideree.

en general, DM non intentionnellement (tous les casprecedent)

manquant intentionnel : sondage par bloc de variable

→ probleme du data matching





Les DM d’un point de vue statistique

En analysant des donnees incompletes, on souhaite avoir desresultats valides malgre les DM

Valides : i.e. p-valeurs, intervalles de confiances et estimationsponctuelles (moyenne, variance, proportions, parametres deregression, etc) correctes ou encore des distributionsa posteriori correctes

Ceci n’est possible que dans des conditions assez restrictives.La plupart du temps, il faut faire des hypotheses que l’on nepeut pas verifier.





Les DM d’un point de vue statistique

Ceci implique le mecanisme aboutissant a une DM : lemecanisme des manquants et si ce mecanisme depend d’autrevariables (mesurees ou non). Ce mecanisme des manquantsest generalement inconnu d’un point de vue pratique

mais il existe une classification theorique

⇒ Classification statistique des donnees manquantes (Little &Rubin)

⇒ Important : Differentes situations → differentes methodesstatistiques





Un exemple sur une variable

variable X , n-echantillon dont m valeurs manquantes

↘ taille de l’echantillon de n a n −m = np , de m/n %

on peut estimer m et s2 sur les n −m presents

valide que si np valeurs : sous-echantillon aleatoire des nle fait d’etre manquant ne depend pas de la valeur(manquante)

Pr(xi : ∗) = p,∀i .

sinon il y a un biais





Effet des manquants : Un exemple (1)

Biais et Perte de Puissance

on tire 1000 valeurs d’une v.a. gaussienne centree reduite

on verifie sa moyenne et sa variance et on trace l’histogrammedes valeurs

on supprime aleatoirement 250 valeurs sur l’ensemble desvaleurs du vecteur

on verifie que la moyenne et la variance du sous-echantillonsont proches des valeurs de l’echantillon de depart





Effet des manquants : Un exemple (2)

On retire ensuite des valeurs surtout dans les valeurs basses del’echantillon : on retire 225 valeurs parmi les valeurs basses et25 parmi les valeurs hautes.

on calcule la moyenne et la variance de l’echantillon et ontrace son histogramme. On verifie que les estimations desparametres sont biaises.





Autres exemple

Voir simulations sur R. modifications des parametres selon les

manquants.





la forme de la distribution obervee sur les donnees completesn’est pas forcement la forme de la distribution complete.

en presence de donnees manquantes : biais ? importance ?

la distribution observee sur le sous-echantillon complet est-ellerepresentative de la forme de la distribution dans lapopulation ?

si on observe une distribution asymetrique, est-elleasymetrique ou bien le mecanisme des manquants estnon-aleatoire ?





si les DM sont manquantes aleatoirement : le mecanisme est(( ignorable ))

si les DM sont manquantes non aleatoirement (i.e. si la probaque xi soit manquant depend de la valeur de xi , le mecanismen’est pas (( ignorable )), et les analyses sur le sous-echantillonsont sujettes a biais.

si censure complete au dela d’un seuil, par exemple 0 :

Pr(Ri = 1|yi) = Pr(yi obs|yi) = 1 si yi < 0, 0 sinon.





Classification des manquants

Classification introduite par Little et Rubin (1976, Biometrika) ;

encore appele (( distribution of missingness ))

Pr(ri |xi ; yi ;φ) : Probabilite que xi soit manquant

introduit non pas pour le modeliser

car en general l’information est insuffisante pour le modelisercorrectement

mais pour savoir dans quelle conditions on peut l’ignorer





Classification des manquants

Situation bivariee : les elements

Soit deux V.A. X et Y , n realisations.

X est completement observee

Y comporte des valeurs manquantes

les deux V.A. X et Y soit qualitative(s) soit quantitative(s)sans perte de generalite.





Situation bivariee

sujet X Y

1 x1 y1

. . . . . . . . .ii xi yi

. . . . . . . . .i + 1 xi+1 *

. . . . . . . . .n xn *

Tab.: Classification de Little & Rubin





Les trois cas possibles

(1) La probabilite d’avoir une valeur manquante est independantede X et de Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt)

(2) La probabilite d’avoir une valeur manquante depend de Xmais pas de Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs)

(3) La probabilite d’avoir une valeur manquante depend de X etde Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs,mqt)






soit Y = {Yij } un jeu de donnees compose de deux parties :

Y = (Yobs ,Ymqt)soit une indicatrice Rij telle que Rij = 1 si Yij est manquantet Rij = 0 sinon

le mecanisme des manquants est specifie par un modele pourla probabilite de reponse :

Pr(R = r |Y = y , θ) = fR/Y (r |yobs , ymqt , θ)

le mecanisme est donc la distribution de R sachant Y .






(1) La situation MCAR : R et Y sont independant, la distributionde R ne depend pas des donnees

fR/Y (r |yobs , ymqt , θ) = fR(r |θ)(2) Situation MAR : la connaissance de Ymiss ne donne pas

d’information supplementaire sur R si Yobs est deja connu. Ladistribution de R ne depend pas des manquants

fR/Y (r |yobs , ymqt , θ) = fR(r |yobs , θ)

(3) La distribution de R depend de la valeur (inconnue) desmanquants

fR/Y (r |yobs , ymqt , θ) = fR(r |yobs , ymqt , θ)





Premier cas : MCAR

La probabilite d’avoir une valeur manquante est independante deX et de Y

les valeurs manquantes sont Manquantes AleatoirementMissing at random : MAR

les donnees observees sont Observees AleatoirementObserved at random : OAR

↪→ les donnees sont manquantes completement aleatoirementMissing Completely at Random : MCAR

les valeurs Y observees : sous-echantillon aleatoire de Y





0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

5

MCAR : Missing Completely At Random

X : continuous variable

Y :

cate

goric

al v

aria

ble

x x x

x x x





Deuxieme cas : MAR

La probabilite d’avoir une valeur manquante depend de X mais pasde Y

on dit que le donnees sont manquantes aleatoirementMissing at Random : MAR

les valeurs observees de Y ne sont pas forcement unsous-echantillon aleatoire des valeurs echantillonnees de Ymais elles sont un sous-echantillon aleatoire de Y dans dessous-classes definies par les valeurs de X .





0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

5

MAR : Missing At Random


Y :

cate

goric

al v

aria

ble

x x xxxx

x x xxx x

Yobs est un sous-echantillon aleatoire / representatif de Y dansdes categories de X .





Troisieme cas : MNAR

La probabilite d’avoir une valeur manquante depend de X et de Y

les valeurs ne sont ni manquantes aleatoirement (non MAR)

ni obervees aleatoirement (non OAR)

les donnees sont manquantes non aleatoires : M Not AR(MNAR)





0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

5

MNAR : Missing Not At Random


Y :

cate

goric

al v

aria

ble

x x x

xxxxxx





Consequences

Si MCAR et MAR le mecanisme des manquants peut etreignore pour les methodes d’inference basees sur lavraisemblance

Dans le cas MCAR, le mecanisme peut-etre ignore a la foispour les approches basees sur la vraisemblance et pour lesapproches basees sur l’echantillonage

Dans le cas MNAR le mecanisme ne peut pas etre ignore





Quelques exemples

le cafe sur la feuille de releve

la panne d’appareil de mesure

le dosage impossible pour raisons liees au sujet

coagulation du tube de sang avant dosagesi dosage lie a un trouble de la coagulation : MNARsi dosage autre : MCAR

dossier medical incomplet





Quelques exemples

les aidants des personnes agees dependantes, pour savoir si lapersonne aidee represente une charge, la presence d’unereponse depend de la valeur de la reponse

consommation d’alcool est souvent d’autant plus minimiseeque cette consommation est forte

dans les dossiers medicaux, la probabilite qu’un symptomenegatif soit note est plus faible que la probabilite qu’unsymptome positif soit note.





Quelques exemples (2)

Soit deux V.A. continues, une est sujette a non-reponse. Lavariable X completement observee est l’age et la variable Yincompletement observee est le revenu

Si la probabilite que le revenu soit manquant est independantede l’age et du revenu du sujet, alors les donnees sont de typeMCAR (OAR + MAR).

Si la probabilite que le revenu soit manquant depend de l’agede la personne interrogee mais pas de son revenu, alors lesDM sont manquantes aleatoirement (ne dependent pas durevenu) mais elles ne sont pas observees aleatoirement(dependent de l’age) : elles sont donc de type MAR






Si la probabilite que le revenu soit manquant depend de l’agede la personne et de son revenu, les DM ne sont pasmanquantes aleatoirement (dependent du revenu) et ne sontpas observees aleatoirement (dependent de l’age) : elles sontdonc de type MNAR.






un animal meurt au decours d’une experience avant le recueilde y

ex. application de goudron sur la peau d’un rat : test cutane dupouvoir cancerigene

cause du deces ?

mort naturelle ?passage transcutane de constituant du goudron ?et donc toxicite (cardiaque, autre) du goudron ?

lien avec les analyses de survie






Etudes longitudinales

cas de la survie et de la censure

le sujet quitte l’etudedeces ? lie a l’etude ?

etude longitudinale

le sujet ne se presente pas a la visite vi , i < imax

le sujet ne se presente pas aux visites vi et suivantedeces ? lie a l’etude ?





L’interet de cette classification

Prendre en compte le mecanisme des manquants dansl’analyse

Si on s’interesse uniquement a la distribution marginale de X(l’age), les donnees de Y et le mecanisme des manquants n’aaucune importance

Si on souhaite avoir une estimation conditionnelle de la valeurde Y sachant X (par exemple la repartition des revenus enfonction de l’age), alors l’analyse sur les n −m valeurscompletes est satisfaisante si les donnees sont MAR ou si ellessont MCAR

Si on s’interesse a la distribution marginale de Y (moyennedes revenus), alors une analyse basee sur les unites completesest biaisee sauf si les donnees sont de type MCAR.





Si donnees MNAR, les estimations portant sur la distributionmarginale de Y et sur la distribution conditionnelle de Y sachantX sont biaisees et necessitent une modelisation des valeursmanquantes

Dans les autres cas, la modelisation n’est pas necessaire meme sides methodes adaptees a l’analyse statistique en presence de DMdoivent etre utilisees.





reprendre les exemples sur l’impact des manquants dans R.





Commentaires

Le probleme principal est que lorsque l’on a des donneesincompletes, il est tres difficile de savoir quelle est la vraiedistribution des donnees et donc de savoir quel est le mecanismedes manquants ou au moins lequel est le plus probable ! Il y a unepart d’avis subjectif dans le choix mais ce peut-etre un avis eclaire !





Pertinence de cette classification

Permet de prendre en compte le mecanisme des manquantslors de l’analyse

Si on l’interesse a la distribution marginale des revenus, lesresultats sont biaises sauf si les donnees sont MCAR

Si l’on s’interesse a la distribution conditionnelle du revenu enfonction de l’age, c.-a-d. pour des classes d’ages donnees, uneanalyse basee sur les unites statistiques completes estsatisfaisante si les DM sont MAR

Si les DM sont MNAR, les estimations basees sur ladistribution marginale du revenu ou sur la distributionconditionnelle du revenu selon l’age sont biaisees et necessiteune modelisation explicite des MD.





DM et donnees longitudinales

Dans le cas de donnees longitudinales (rappel), la classification estmodifiee (voir Schafer).

MCAR le mecanisme ne depend ni des covariables xi ni de YPr(ri |xi ; yi ;φ) = Pr(ri |φ)

CD Covariate-dependent (CD) missingness : le mecanisme peutdependre de xi mais pas de Y : Pr(ri |xi ; yi ;φ) = Pr(ri |xi ;φ)

MAR le mecanisme peut dependre des cov. xi et des Y observes :Pr(ri |xi ; yi ;φ) = Pr(ri |xi ; yi(obs);φ)

MNAR tous les autres cas : le mecanisme depend encore de ymqt

meme apres prise en compte des xi , et des yobs .






En cas de sortie d’etude (avant fin de suivi), signification :

MCAR la Pr. de sortie ne depend pas des caracteristiques du sujets

CD la Pr. de sortie peut etre liee a des covariables mais pas a lamesure d’interet

MAR la Pr. de sortie peut etre liee a des covariables et la valeur dela mesure d’interet avant la sortie d’etude

MNAR la Pr. de sortie peut etre liee a la mesure d’interet au momentde la sortie et parfois a la mesure apres la sortie de l’etude :cas souvent credible






Que peut-on dire des donnees ?

comme on observe xi , ri et yobs on peut souvent rejeterMCAR et CD

on ne peut pas rejeter MAR en faveur de MNAR car onn’observe pas ymqt

tester MAR suppose des hypotheses inverifiables






les donnees ne sont pas MCAR car sorties differentes dansTMT et controle

pas seulement CD car complets et sortie ont des trajectoiresdifferentes

MAR ou MNAR, on ne peut pas savoir





L’(( ignorabilite )) des donnees

Les donnees sont (( ignorables )) si :

1 les donnees sont MAR

2 les parametres grouvernant le mecanisme des manquants nesont pas relies aux parametres que l’on veut estimer

Cela signifie que :

pas necessaire de modeliser le mecanisme des manquantscomme une part de l’estimation des parametres

mais necessite quand meme des methodes particulieres

en pratique, toujours : ignorable (condition (2) ci-dessustoujours remplie)





L’(( ignorabilite )) des donnees

Les donnees sont (( non-ignorables )) si les donnees ne sont pasMAR.

implique de modeliser le mecanisme des manquants pour avoirune bonne estimation des parametres

implique des hypotheses fortes et non verifiables sur lemecanisme

donc d’applicabilite limitee

car resultats tres dependants des hypotheses sur lesmanquants

et implique un modele pour chaque cas particulier

donc, bien qu’evident, tres peu utilise

nous ne verrons que le cas ignorable





Un cas particulier

le (( missing plot )) dans un plan factoriel

issu de l’agronomie, quand un plot est un manquant

methodes a part dediees a ce probleme





Les donnees monotones

Une repartition de donnees manquantes est dit monotone si :

les variables peuvent etre arrangees d’une maniere telle quepour chaque observation de l’echantillon, si Xj est manquant,alors Xj+j ′ est aussi manquant, avec j ′ entier positif etj + j ′ ≤ pdonc si pour un sujet i , les donnees sont manquantes a partird’une certaine variable

qui peut changer d’un sujet a l’autre

frequent dans les donnees longitudinales (abandont du sujet apartir d’une date donnee)

si une seule variable, forcement monotone





--> 1 A 2 8 9 8 8 7--> 2 A 3 4 9 1 2 *--> 3 B 4 7 6 3 * *--> 1 A 2 8 9 * * *--> 2 A 3 4 4 * * *--> 3 B 4 7 6 * * *





Deux autres types de repartition

Une repartition de donnees manquantes peut prendre d’autresformes :

une repartition quelconque

une repartition tres structuree

parfois volontaire

ou resultant de l’histoire des donnees comme dans la fusion dedonnees : deux (( demi-sondages )) ou sondages a deux epoquesdifferentes

un cas tres particulier : les variables latentes ou toutes lesvaleurs d’une variables sont a retrouver, comme en analysefactorielle





--> 1 A 2 8 9 8 8 7--> 2 A 3 * 9 1 2 7--> 3 B * 7 6 3 9 *--> 1 A 2 8 9 * 3 *--> 2 A * * 4 8 2 *--> 3 B 4 7 6 * 1 6

Il s’agit ici d’une repartition arbitraire





--> 1 A 2 8 9 *--> 2 A 3 4 9 *--> 3 B 4 7 6 *--> 1 A 2 8 9 *--> 2 A 3 4 4 *--> 3 B 4 7 6 *

Il s’agit ici d’une variable latente





Le data fusion

Le data fusion (et le data matching, implique par le DF) :

l’ensemble des donnees sur un sujets ne sont pas forcementdans une seule base de donnees

Def : Combinaison de donnees, provenant de sourcesdifferentes, pour obtenir un seul jeu de donnees dans lequeltoutes les variables sont renseignees (presence obligatoire devariables communes)

fusionne des variables provenant d’un dataset avec desvariables d’un second dataset, en appariant les observationspar paires a partir de variables communes appelees (( variablesd’appariement )) ((( match variables ))).





Le data fusion

Le data fusion (suite) :

Il n’est pas necessaire que les observations soient identiquesdans les deux datasets, c.-a-d. que toutes les observationsdans un dataset ne doivent pas forcement figurer dans l’autre.

par appariement d’individu (plus proche voisin) ou parprediction de variables





--> 1 A 2 8 9 8 8 * *--> 2 A 3 4 9 1 2 * *--> 3 B 4 7 6 3 9 * *--> 1 A 2 8 9 * * 2 1--> 2 A 3 4 4 * * 3 5--> 3 B 4 7 6 * * 6 9

Il s’agit ici de fusionner les donnees en remplacant les donneesmanquantes.




La description des donneesApres la description, l’analyseLes methodes sans modelisationImputation simpleL’algorithme EMImputation Multiple

Que faire en presence de DM ?

Avant tout, il faut decrire les donnees, c.-a-d. les donneesmanquantes et les donnees non manquantes

Combien de DM ?

Combien de DM par variable ?

Ou sont les DM ?

Certaines variables seulement ? Toutes les variables ?certains sujets seulement ? Tous les sujets ?

Calculer le nombre et la proportion de donnees manquantes(la plupart des logiciels le font automatiquement)

Decrire graphiquement les donnees et les donnees manquantes





typetrav Denom. DenCum % % Cum1 448 448 63.55 63.552 60 508 8.51 72.063 197 705 27.94 100.00N= 705*= 94

declench Denom. DenCum % % Cum0 645 645 91.49 91.491 60 705 8.51 100.00N= 705*= 94





L138

L186

R19

8

L204

R22

1

R32

3

L333

L346

R34

9

L352

L358

R38

1

L410

L448

R45

0

L451

L477

R48

7

L543

L551

L584

R59

0

L592

L599

L636

R63

8

L651

L673

R68

1

L686

L758

L773

L786

L811

L797

R81

3

R82

7

D2S138

D18S61

D16S422

D17S794

D6S264

D14S65

D18S53

D17S790

D1S225

D3S1282

D9S179

D5S430

D8S283

D11S916

D2S159

D16S408

D5S346

D10S191

D13S173

D6S275

D15S127

D1S305

D4S394

D20S107

D1S197

D1S207

D10S192

D3S1283

D4S414

D8S264

D22S928

TP53

D9S171

L138

L186

R19

8

L204

R22

1

R32

3

L333

L346

R34

9

L352

L358

R38

1

L410

L448

R45

0

L451

L477

R48

7

L543

L551

L584

R59

0

L592

L599

L636

R63

8

L651

L673

R68

1

L686

L758

L773

L786

L811

L797

R81

3

R82

7

D2S138

D18S61

D16S422

D17S794

D6S264

D14S65

D18S53

D17S790

D1S225

D3S1282

D9S179

D5S430

D8S283

D11S916

D2S159

D16S408

D5S346

D10S191

D13S173

D6S275

D15S127

D1S305

D4S394

D20S107

D1S197

D1S207

D10S192

D3S1283

D4S414

D8S264

D22S928

TP53

D9S171

man

quan

tsN

orm

.A

I





L138

L186

R19

8

L204

R22

1

R32

3

L333

L346

R34

9

L352

L358

R38

1

L410

L448

R45

0

L451

L477

R48

7

L543

L551

L584

R59

0

L592

L599

L636

R63

8

L651

L673

R68

1

L686

L758

L773

L786

L811

L797

R81

3

R82

7

D2S138

D18S61

D16S422

D17S794

D6S264

D14S65

D18S53

D17S790

D1S225

D3S1282

D9S179

D5S430

D8S283

D11S916

D2S159

D16S408

D5S346

D10S191

D13S173

D6S275

D15S127

D1S305

D4S394

D20S107

D1S197

D1S207

D10S192

D3S1283

D4S414

D8S264

D22S928

TP53

D9S171

L138

L186

R19

8

L204

R22

1

R32

3

L333

L346

R34

9

L352

L358

R38

1

L410

L448

R45

0

L451

L477

R48

7

L543

L551

L584

R59

0

L592

L599

L636

R63

8

L651

L673

R68

1

L686

L758

L773

L786

L811

L797

R81

3

R82

7

D2S138

D18S61

D16S422

D17S794

D6S264

D14S65

D18S53

D17S790

D1S225

D3S1282

D9S179

D5S430

D8S283

D11S916

D2S159

D16S408

D5S346

D10S191

D13S173

D6S275

D15S127

D1S305

D4S394

D20S107

D1S197

D1S207

D10S192

D3S1283

D4S414

D8S264

D22S928

TP53

D9S171

Man

quan

tsP

rése

nts





Data missing by block (intended or not)G

PV

Age

Sex

e

Poi

ds

Tai

lle

BM

I

tab

Jeun CT

CH

DL

CLD

L

TG

Gly

PF

4

Ddi

m

TA

T

Num

Plq

GB

GR

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300

GP

V

Age

Sex

e

Poi

ds

Tai

lle

BM

I

tab

Jeun

CT

CH

DL

CLD

L

TG

Gly

PF

4

Ddi

m

TA

T

Num

Plq

GB

GR

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300

Man

quan

tsP

rése

nts





Determination du mecanisme des manquants

Le caractere manquant d’une donnee peut-etre etudie

D devient Yfaire un modele pour etudier les causes des manquants

facile a faire

probleme circulaire : en general, DM sur plusieurs variables(donc X incomplets)

difficile a interpreter





Que faire apres la description

La plupart des logiciels decident tout seul ce qu’il faut faireavec les donnees manquantes

Les logiciels courants utilisent des methodes de mauvaisesqualites (SPSS notamment) ou rien (MINITAB)

Rares sont les logiciels qui permettent une analyse correcte :S+/R, SAS et WinBUGS





methode du cas complet

X deux V.A. X1 et X2, n-echantillon.

m1 et m2 valeurs mqt. sur X1 et X2.

Le nombre m de sujets ayant au moins une donnee manquante

max (m1,m2) ≤ m ≤ m1 + m2

Le nombre nc de sujets complets est egale a n −m.

Donc en general nc < nombre de sujets complets pour X1 oupour X2 et :

la plupart du temps on perd plus de valeurs que le nombre reelde valeurs manquantes





--> 1 A 3 4 * 56 H 1--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0

--> 1 * * * * * * *--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0

--> 2 A 2 8 9 47 F 1--> 3 B 4 7 6 55 F 0





Methode du cas complet : avantages

facilite les comparaisons entre analyses uni- et multivariees

mais seulement si on retire les memes sujets d’une analyse al’autre

pas-a-pas ascendants : le logiciel retire d’emblee les sujetsincomplets sur toutes les variables candidates meme si in finetoutes ne sont pas retenues dans le modele





Methode du cas complet : inconvenients

biais evident sauf si MCAR

perte de puissance

perte de cas rapidement considerable

si 10 variables avec 10% de manquants (sur des sujetsdifferents)

0, 910 cas complets = 34,8%





Methode du cas disponible

on utilise pour chaque sous-analyse ou chaque sous-partie del’analyse l’ensemble des cas complets

avantage : nb max de sujets a chaque analyse / chaque partie

inconvenients : nb variables d’une analyse / partie a l’autre

Y = α1 + βX1 et Y = α1 + βX2

portent sur des sujets differents

ACP : matrice de covariance mal conformee

pas-a-pas : certains logiciels excluent les sujets incomplets achaque etape et pas d’emblee





Ajustement sur dummy variable

Une methode simple et intuitive proposee par Cohen en 1985.

soit un modele de regression Y = f (X )soit une V.A. X explicative incomplete

on cree une V. indicatrice D , D = 1 si X manquant, D = 0sinon

autre solution

on cree une V. indicatrice D∗, D∗ = c si X manquant,D∗ = X sinon

ou c est une constante quelconque

le coefficient de X est invariant a c






ce qui change selon c, c’est le coefficient de D∗

pour faciliter l’interpretation : c = m(X = Xobs)alors : βD = valeur predite de Y pour les sujets incompletsmoins la valeur predite de Y pour les individus a la moyennede Xmais la methode est biaisee

et donc les estimations ne sont pas valides






Cependant :

la methode permet d’utiliser tous les sujets disponibles

y compris ceux qui sont incomplets

donc on evite la perte de puissance : meilleure precision desestimateurs (et donc choisir entre biais et precision)

on peut egalement tester des interactions entre D ou D∗ et Xj

pour detecter un mecanisme particulier pour les manquants





Les methodes d’imputation

methodes tres nombreuses

consiste a substituer a la valeur manquante une valeur choisiede maniere (( pertinente )).

methodes (( seduisantes et dangereuses )) (Rubin)

Deux grands types :1 imputation simple2 imputation multiple





Les methodes d’imputation simple

(... et mauvaises)

LOCF : Last Observation Caried Forward

ajouter une categorie pour les DM

moyenne non conditionnelle

moyenne conditionnelle (Buck) (par bloc ou pas)

imputation + alea

simples mais inconvenients +++ / overfitting /ad hoc

estimations d’IC tres difficiles





Ajout d’une categorie pour les DM

Soit X une variable aleatoire categorielle et incomplete

On cree une categorie suplementaire designant la DM

On fait le modele avec cette variable multinomiale

interpretation ? Delicate !

Bais + + et augmente le nb de ddl

Difficile a utiliser pour des variables ordinales ou continues





Last Observation Carried Forward : LOCF (1)

tres prisee dans l’industrie pharmaceutique

consiste a remplacer une valeur manquante par la valeur qui laprecede dans le fichier ( !)

tres facile a realiser

aucune justification theorique

suppose que le fichier n’est pas trie et donc les sujets ont unordre aleatoire independant du mecanisme des manquants





Premiere variante : d’un sujet a l’autre

--> 1 A 2 8 9 47 F 1--> 2 A 3 4 * 56 H 1--> 3 B 4 7 6 55 F 0

--> 1 A 2 8 9 47 F 1--> 2 A 3 4 |9| 56 H 1--> 3 B 4 7 6 55 F 0





Seconde variante : d’un temps a l’autre pour un meme sujet dansune etude longitudinale

--> 1 A 2 8 9--> 2 A 3 4 *--> 3 B 4 7 6

--> 1 A 2 8 9--> 2 A 3 4 |4|--> 3 B 4 7 6





Last Observation Carried Forward : LOCF (1)

connait des variantes interessantes par exemple pour desdonnees continues

on prend la valeur precedente plus un alea ε suivant une loipertinente

peut s’envisager avec des raffinements dans de l’imputationmultiples

a ne jamais utiliser sinon





Les methodes dans les enquetes

Quelques methodes classiques :

cold deck : source exterieur, limites + + +

substitution : tirage au sort d’une nouvelle unite

difficile si stratification a posteriori





Les methodes dans les enquetes

Une methodes a part :

le hot deck

on remplace la valeur manquante par une valeur prise chez unsujet similaire sur un certain nombre de variables

difficile en partique car impose une mesure de distance qui estdelicate a definir

biais et impact sur la puissance des analyses car diminutiondes variances





Le (( worst case )) et ses variantes (1)

Une methode facile a utiliser pour des variables categorielles :imputer les valeurs qui defavorisent (cliniquement) le resultatattendu

soit a estimer une proportion p sur N sujets dont n sontmanquants

on peut attribuer l’une des modalites (VIH+) a tous les nmanquants et estimer pexemple : VIH au Kenya : N = 787, n = 36, r+ = 52on obtient par le (( worst case )) : p = 88/787on peut faire un intervalle (( worst case - best case )) (ou lecontraire selon contexte) qui sert de point de depart a lamodelisation





Le (( worst case )) et ses variantes (2)

Variantes dans les essais therapeutiques

on veut comparer l’effet de deux traitements sur un resultatclinique

souvent la mesure d’interet est absente (deces, guerison carperdu de vue ou autre)

l’estimation de l’effet du traitement est biaise par les DM

on se met dans une situation defavorable au nouveau TMT

si la difference existe quand meme, on peut valider le nouveautraitement





Etude de sensibilite : Shadish

Stent: % of missing allocated to good outcome (n=24)

Ang

iopl

asty

: % o

f mis

sing

allo

cate

d to

goo

d ou

tcom

e (n

=30

)

0 20 40 60 80 100

020

4060

8010

0

Extreme favouring S

Extreme favouring A All allocated to good

All allocated to poor

Significant difference (p<0.05)

No significant difference (p>0.05)N. MEYER Donnees manquantes




Methode de Delucchi

Pour des donnees qualitatives : table 2× 2si on a m valeurs manquantes dans l’une des deux variables

on peut imputer les valeurs marginales de m + 1 manieres

puis dans chaque cellules a partir de la marge

(m1. + 1)× (m2. + 1) possibilites

pour chacune des m + 1 combinaisons marginales

a partir desquelles on conclut





Solutions a part

litterature + + + ad hoc + + +

algorithme NIPALS : voir modeles PLS

qui suppose quand meme des hypotheses fortes sur les DM

! ne pas avoir de DM ! !





L’algorithme EM

Principe (tres general) :

Interdependance entre parametres θ et Ymqt

Ymqt contient de l’information utile pour estimer θ

et θ permet d’obtenir des valeurs pertinentes pour Ymqt

On remplit les manquants a partir d’une estimation de θ

puis on re-estime θ a partir de Yobs et Ymqt

et on repete jusqu’a convergence





L’algorithme EM

Soit θ(t) l’estimation courante de θ. Les estimations se font ensuiteen deux etapes :

E Expectation etape qui donne la log-vraisemblance

Q(θ|θ(t)) =∫L(θ|Y )Pr(Ymqt |Yobs , θ = θ(t))dYmqt

M Maximization etape qui determine θ(t+1) en maximisant cettelog-vraisemblance

Q(θ(t+1)|θ(t)) ≥ Q(θ|θ(t))





L’algorithme EM

Un resultat de Dempster, Laird et Rubin (1977) montre que :

si θ(t+1) est la valeur de θ qui maximise Q(θ|θ(t))alors θ(t+1) est une meilleure estimation que θ(t)

car la vraisemblance des donnees observees pour θ(t+1) est aumoins aussi grande que celle pour θ(t)

L(θ(t+1)|Yobs) ≥ L(θ(t)|Yobs)





L’algorithme EM : exemple

Illustre sur une table 2× 2on suppose deux variables Y1 et Y2, variables dichotomiques

toutes les deux incompletes

le tableau croise des deux variables : distribution multinomiale

x = {x11, x12, x21, x22}de parametres : θ = {θ11, θ12, θ21, θ22}avec θij proba qu’un sujet ait Y1 = i et Y2 = jalors la vraisemblance s’ecrit :

L(θ|x ) = x11logθ11 + x12logθ12 + x21logθ21 + x22logθ22

les MLE obtenus par : xij = nθij






Soit la table suivante :

sujet Y2 = 1 Y2 = 2 Y2 = mqt

Y1 = 1 xA11 xA

12 xB1+

Y1 = 2 xA21 xA

22 xB2+

Y1 = mqt xC+1 xC

+2






Les deux etapes de l’algorithme :

etape E remplace les valeurs inconnues xBij et xC

ij par leuresperance conditionnelles

E (xij |Yobs , θ) = E (xAij + xB

ij + xCij |Yobs , θ)

= xAij + xB

i+θij /θi+ + xC+j θij /θ+j

etape M θij = E (xij |Yobs , θ)/nen combinant les deux etapes en une seule, on obtient :

θ(t+1)ij = n−1

[xAij + xB

i+

(θ(t)ij

θ(t)i+

)+ xC

+j

(θ(t)ij

θ(t)+j

)]






Soit la table suivante :

sujet Non victimes t2 Victimes t2 Non-reponses

Non victimes t1 392 55 33Victimes t1 76 38 9

Non-reponses 31 7






Iterations de l’EM :

t θ(t)11 θ

(t)12 θ

(t)21 θ

(t)22

0 0,2500 0,2500 0,2500 0,25001 0,6615 0,1170 0,1498 0,0718... ... ... ... ...4 0,6971 0,0987 0,1358 0,06845 0,6971 0,0987 0,1358 0,0685

∞ 0,6971 0,0987 0,1358 0,0685





L’Imputation Multiple : la star !

Repris de JL Schafer :

Single-imputation strategies designed to precisely predict themissing values tend to distort estimates of populationquantities

The goal of the missing-data procedure is to draw accurateinferences about population quantities (e.g. mean change overtime), not to accurately predict the missing values

With imputation, the best way to achieve that goal is topreserve all aspects of the data distribution (means, trends,within- and between-subject variation, etc.)

Ad hoc imputation methods inevitably preserve some aspectsbut distort others





L’Imputation Multiple : la star !

l’imputation simple est ... unique

la donnee imputee est considere comme une donnee observee

ne tient pas compte de l’incertitude sup. liee aux manquants

d’ou l’idee de faire plusieurs imputations differentes

on substitue plusieurs valeurs a chaque DM

on analyse en tenant compte de cette multiplicite





Les etapes d’une imputation multiple

on analyse la matrice des donnees pour en deduire un modelepour les DM

on realise entre M = 3 et 10 imputations

pour obtenir 3 a 10 jeux de donnees completes

on calcule le parametre d’interet pour chaque jeu

on combine les M imputations pour avoir une inferencequi tienne compte de l’incertitude supplementaire liee aux DM





Formules pour l’IM

M estimations ponctuelles pour le vecteur de parametre θ

Si gaussien, moyenne et ecart-type :¯Q (t) = Q(Yobs ,Y

(t)miss), t = 1, . . . ,m

etU (t) = U (t)(Yobs ,Y

(t)miss), t = 1, . . . ,m

On calcule ensuite :

¯Q =1m

m∑t=1

Q (t)





Formules pour l’IM (suite)

La Var. globale a deux composantes :(1) variance intra-imputation

U =1m

m∑t=1

U (t)

(2) La variance inter-imputation vaut :

B =1

m − 1

m∑t=1

( ¯Q (t) − Q)2

La variance totale vaut :

T = U + (1 + m−1)B





Formules pour l’IM (suite)

A partir de ces equations, on peut realiser des tests :

Q − Q√T 2

; tν

avec :

ν = (m − 1)[1 +

U(1 + m−1)B

]2

→ intervalles de confiances.Ces statistiques tiennent compte de l’incertitude suppl. liees auxDM.





Un exemple simple

Exemple : voir feuille Excel





Obtention des imputations

Pour faire de l’IM, il faut generer les valeurs simulees :

a partir de la distribution a posteriori des valeurs de Ymqt

on definit donc un modele pour les manquants

en analysant la matrice R

et en simulant en general sous un modele multinormal

on tire m valeur de Pr(Ymqt |Yobs)

Pr(Ymqt |Yobs) =∫

Pr(Ymqt |Yobs , θ)Pr(θ|Yobs)dθ

soit distribution predictive de Ymqt sachant θ moyenne sur ladistribution a posteriori de θ

ce qui reflete l’incertitude sur Ymqt sachant les parametres dumodele des donnees completes.





Obtention des imputations

Autre methode, sur des variables quantitatives (( approximatebayesian bootstrap )) :

reg. logistique pour predire si X est manquant ou pas

calculer proba de manquer = propensity score

on trie par prop. score puis quintiles

dans chaque quintile, r cas complets et m mqt

parmi les r complets, on tire avec remise un ech. aleatoire detaille rpour chaque mqt, on tire avec remise une valeur dans l’ech.precedent

derniere etape repetee M fois puis combinaison des Mparametres





L’IM : avantages

souple + +

donne des resultats valides

robuste aux ecarts de specification du modele

M peut etre faible : 3, 5, pas plus de 10.





L’IM : inconvenients (limites)

⇒ le recours a des logiciels

repose sur le modele (mais les autres methodes aussi)

si les effectifs sont faibles → variantes particulieres

Par ailleurs

aspects bayesiens → utiliser WinBUGS





l’IM par MICE (1)

MICE : Multiple Imputation Chained Equation

egalement le nom d’un package R.

recent : 2000

obtention des imputations par le chainage d’equation





l’IM par MICE (2)

Principe de la methode :

soit une matrice X de taile n × p, avec m valeursmanquantes, et j variables incompleteson impute chaque valeur manquante des j variablesincompletes une fois a partir des donnees observeeson prend une premiere variable dont on retire les valeursimputees(donc on reprend la variable dans son etat initial, incompletes)on impute les valeurs manquantes a partir des autres variablescompleteeson passe a la variable suivante : on predit les valeursincompletes a partir des autreson fait un tour complet sur l’ensemble des variablesincompleteson procede a M tours pour obtenir M jeux de donneesimputees





l’IM par MICE (3)

Avantages et limites de la methode

facile a faire

gere tous les types de donnees dans un meme (( modele ))

plus facile a faire sur de tres grand jeux de donnees que IMclassique

peu de fondements theoriques

convergence non assuree

mais empiriquement efficace





Retour sur les MNAR

Si les donnees sont MNAR :

implique de modeliser le mecanisme des manquants pour avoirune bonne estimation des parametres

implique des hypotheses fortes et non verifiables sur lemecanisme

or souvent on peut raisonnablement suspecter MNAR

on peut les modeliser mais complexe, au cas par cas

et ne peuvent que difficilement etre teste (depend ducontexte)

donc pas de methode generale possible type IM





Une methode a part : l’algorithme NIPALS

Cree dans les annees 1960 pour l’ACP

a la particularite de pouvoir fournir les composantes de l’ACPsi l’on travaille sur les donnees complete

fournit un resultat si donnees incompletes

sans supprimer de sujetssans supprimer de variablesans estimer les donnees manquantes !sans imputation !

peut etre utilise a l’envers pour estimer ou imputer les DM





Une methode a part : l’algorithme NIPALS

Algorithme iteratif, utilisable en regression

soit y et X, centree reduite

on ajuste de maniere iterative y = aXj + ε

faisable sur donnees incompletes

puis construction de composantes

normer le vecteur a1 : w1 = a1/‖a1‖.calculer la composante t1 = 1/(tw1w1)Xw1.iteration → hexprimer la composante th en termes de predicteurs X :th = Xw∗

h .





Une autre methode a part : les modeles mixtes

Crees pour analyser des donnees longitudinales ou multi-niveaux,repetees etc.

permet de travailler sur des donnees incompletes

et avec des sujets n’ayant qu’une valeur sur jsupprime quand meme les sujets n’ayant que des donneesmanquantes





une autre question : Y ou X ?

Les problemes de DM se posent surtout lorsque X estincomplet

Lorsque Y est incomplet → estimer Yi a partir du modele

Donc le probleme est moins grave mais il existe quand meme

S’ecrit naturellement dans WinBUGS (en fait il est inutile del’ecrire !)

Probleme serieux dans le domaine medical ou le problemen’est pas que statistique !





La solution bayesienne

Les donnees manquantes sont issues d’une distribution a priori

souplesse + + +

⇒ faire des hypotheses sur les DM

mais toute les methodes en font

similitudes avec les donnees aberrantes

voir exemple de prog. Bugs





Les logiciels

MINITAB : rien pour les DM

SPSS : module mais pas dans la base

SAS : differentes fonctions + PROC MI

S+ / R : CAT,MIX, NORM

A part : SIMCA : cartographie des manquants / R

WinBUGS





Les packages de R

on trouve dans R plusieurs package qui gerent plus ou moins lesdonnees manquantes :

mitools fait de l’IMmice imputation multivariee par equations en chainesmvnmle estimation du max. vrais. pour des donneesgaussiennes multivarieesnorm IM pour donnees continues par EM et dataaugmentationcat IM pour donnees categorielles par EM, data augmentationet simulations de parametremix la meme chose pour melange de qualitatives etquantitativepan IM pour donnees longitudinalesameliaII pour les sondages, les series chronologiques,





Package Hmisc

dans le package Hmisc :

na.delete Row-wise Deletion na.action

na.detail.response Detailed Response Variable Information

na.keep Do-nothing na.action

na.pattern Variable Clustering

na.retain Summarize Data for Making Tables and Plots

naclus Variable Clustering

naplot Variable Clustering





Le package Hmisc : suite

aregImpute() Multiple Imputation using Additive Regression,Bootstrapping, and Predictive Mean Matchingtranscan() Transformations/Imputations using CanonicalVariatesarrayImpute Missing imputation for microarray dataarrayMissPattern Exploratory analysis of Missing patterns formicroarray dataEMV Estimation of Missing Values for a Data Matrixmlmmm ML estimation under multivariate linear mixedmodels with missing valuesmonomvn Estimation for multivariate normal data withmonotone missingnessNestedCohort Survival Analysis for Cohorts with MissingCovariate Informationsplus2R Insightful package providing missing S-PLUSfunctionality in Rimpute impute : Imputation for microarray datayaImpute yaImpute : An R Package for k-NN Imputation




Conclusion

DM : un vrai probleme sans (( vraie )) solution (pratique)

il faut toujours faire des hypotheses

ou faire une etude de sensibilite

qui ne conclut pas

le mieux : IM

encore mieux : bayesien

encore encore mieux : ne pas avoir de DM




Les ouvrages de references

Little RJA, Rubin DB : Statistical analysis with missing data,2nd edition. John Wiley & Sons, New York 2002. Editionrecente : IM ++

Schafer JL. Analysis of Incomplete Multivariate DataChapman & Hall CRC 1997.

Allison PD. Missing Data Thousand Oaks, CA : Sage. 2002.


Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m...

Documents

Transcript of Pr N. MEYER - unistra.frudsmed.u-strasbg.fr/labiostat/IMG/pdf/Cours_master... · Classi cation m...