Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population...

161
Données Manquantes dans les Enquêtes Guillaume Chauvet École Nationale de la Statistique et de l’Analyse de l’Information 27 avril 2015 1/160

Transcript of Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population...

Page 1: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Données Manquantes dans les Enquêtes

Guillaume Chauvet

École Nationale de la Statistique et de l’Analyse de l’Information

27 avril 2015

1/160

Page 2: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Panorama du cours

1 Introduction et rappels2 Traitement de la non-réponse totale3 Traitement de la non-réponse partielle

2/160

Page 3: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Objectifs du cours

Expliquer le phénomène de non-réponse, et ses conséquencessur l’estimation.Décrire les méthodes de correction de la non-réponse totale dansles enquêtes.Décrire les méthodes de correction de la non-réponse partielledans les enquêtes.

3/160

Page 4: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Type de non-réponseDans le contexte des enquêtes, on distingue deux types de non-réponse :

la non-réponse totale ("unit non-response") : aucune informa-tion n’est relevée pour une unité,la non-réponse partielle ("item non-response") : une partie seule-ment de l’information est relevée pour une unité.

y1 y2 y3 y4 … … … … … yp

* * * * * * * * * *

* * * * * * * * * *

* * * * * * * * * *

* * * * * * * * * *

« « « « « « « « « «

« « « « « « « « « «

« « « « « « « « « «

* * « * « * « * * «

« * * * « * « * * «

* * * * * * * * « «

« « « * * « * * * *

Réponse totale

Non-réponse totale

Non-réponse partielle

4/160

Page 5: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Introduction et rappels

5/160

Page 6: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Les étapes d’une enquête (Haziza, 2011)

1 Planification : objectifs, concepts, champ de l’enquête, ...2 Constitution de la base de sondage3 Conception du questionnaire4 Conception du plan de sondage et tirage de l’échantillon5 Collecte des données6 Traitement des données7 Estimation ponctuelle et estimation de variance

6/160

Page 7: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Les étapes d’une enquête (Haziza, 2011)

1 Planification : objectifs, concepts, champ de l’enquête, ...2 Constitution de la base de sondage3 Conception du questionnaire4 Conception du plan de sondage et tirage de l’échantillon5 Collecte des données6 Traitement des données7 Estimation ponctuelle et estimation de variance

6/160

Page 8: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Rappels sur l’échantillonnage enpopulation finie

7/160

Page 9: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Plan de sondage

On se place dans le cadre d’une population finie d’individus, notéeU . On s’intéresse à une variable d’intérêt y (éventuellement vecto-rielle), qui prend la valeur yk sur l’individu k de U .

Les valeurs prises par la variable y sont collectées sur un échantillonS. L’objet de la Théorie des Sondages est d’utiliser cette informationafin d’estimer des paramètres définis sur la population entière.

L’échantillon S est sélectionné dans U au moyen d’un plan de son-dage p(·), i.e. d’une loi de probabilité (supposée connue) sur l’en-semble des parties de U .

8/160

Page 10: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Plan de sondage

On suppose en particulier connues les probabilités d’appartenanceà l’échantillon de chaque unité k :

πk = Pr(k ∈ S).

Si toutes les πk sont > 0, le total ty =∑

k∈U yk est estimé sansbiais par l’estimateur de Horvitz-Thompson

tyπ =∑k∈S

ykπk

=∑k∈S

dk yk (1)

avec dk = 1/πk le poids de sondage de l’unité k.

Remarque : les mêmes poids peuvent être utilisés pour toutes lesvariables d’intérêt.

9/160

Page 11: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Plan de sondage

La forme générale de variance est donnée par la formule de Horvitz-Thompson (1953)

Vp[tyπ]

=∑k,l∈U

ykπk

ylπl

∆kl

avec ∆kl = πkl − πkπl.

On peut l’estimer sans biais par

vHT[tyπ]

=∑k,l∈S

ykπk

ylπl

∆kl

πkl

si tous les πkl sont > 0.

10/160

Page 12: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Le tirage poissonienChaque individu k est tiré dans l’échantillon avec une probabilité πk,indépendamment des autres individus.

Le π-estimateur

tyπ =∑k∈S

ykπk

a pour variance

Vp[tyπ]

=∑k∈U

(ykπk

)2

πk(1− πk),

et on l’estime sans biais par

vHT[tyπ]

=∑k∈S

(ykπk

)2

(1− πk).

11/160

Page 13: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Plan de taille fixe

Si le plan de sondage p(·) est de taille fixe égale à n, la variancedu π-estimateur peut être alternativement obtenue par la formule deSen-Yates-Grundy (1954)

Vp[tyπ]

= −1

2

∑k 6=l∈U

(ykπk− ylπl

)2

∆kl.

Un estimateur sans biais est donné par

vY G[tyπ]

= −1

2

∑k 6=l∈S

(ykπk− ylπl

)2 ∆kl

πkl.

si tous les πkl sont > 0.

12/160

Page 14: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Sondage aléatoire simpleSondage aléatoire simple (SRS) de taille n : plan de taille fixe, où tousles échantillons de taille n ont la même probabilité d’être sélectionnés.

Le π-estimateur se réécrit

tyπ =N

n

∑k∈S

yk = Ny.

Sa variance est donnée par

Vp[tyπ]

= N2(1− f)S2y

n,

et on l’estime sans biais par

vY G[tyπ]

= N2(1− f)s2yn.

13/160

Page 15: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

SRS stratifiéLa population est partitionnée en H strates U1, . . . , UH . On effectueun SRS(nh) indépendamment dans chaque strate.

Le π-estimateur se réécrit

tyπ =

H∑h=1

Nhyh.

Sa variance est donnée par

Vp[tyπ]

=

H∑h=1

N2h(1− fh)

S2yh

nh,

et on l’estime sans biais par

vY G[tyπ]

=

H∑h=1

N2h(1− fh)

s2yhnh

.

14/160

Page 16: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Exemple : enquêtes entreprisesLes échantillons pour les enquêtes auprès des entreprises sont sou-vent tirés selon des plans de sondages aléatoires simples stratifiés. Lastratification est obtenue en croisant :

un critère d’activité (nomenclature d’activités française NAF),un critère de taille (tranches d’effectifs salariés et/ou tranchesde chiffres d’affaires).

Par exemple (voir Demoly et al., 2014), l’enquête sur les technolo-gies de l’information et de la communication (TIC) a été tirée enstratifiant selon :

le secteur d’activité,la tranche d’effectif de l’entreprise (10-19, 20-49, 50-249, 250-499, 500 et +),le chiffre d’affaires,

avec un seuil d’exhaustivité pour les plus grandes tranches d’effectifet les plus gros chiffres d’affaires.

15/160

Page 17: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Sources d’erreur dansl’estimation

16/160

Page 18: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Erreur associée à l’estimateur

Soit θ l’estimateur d’un paramètre θ. La précision de cet estimateurpeut être mesurée par :

son biais : B(θ) = E(θ − θ),sa variance : V (θ) = E(θ − E θ)2

son EQM : EQM(θ) = B(θ)2 + V (θ).

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●●

●●

● ● ●

●●●●

●●

●●

●●

●●●

●●

● ●

●●

●●

● ●

●●●

●●

●●●

●●

●●

●●

● ●●

●●

● ●

● ●

●●

●●●

●● ●

●●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

●●●●

●●

● ●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●● ●

●● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

50 60 70 80 90 100

130

140

150

160

170

180

190

200

poids

taill

e

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●●

●●

● ● ●

●●●●

●●

●●

●●

●●●

●●

● ●

●●

●●

● ●

●●●

●●

●●●

●●

●●

●●

● ●●

●●

● ●

● ●

●●

●●●

●● ●

●●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

●●●●

●●

● ●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●● ●

●● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

50 60 70 80 90 100

130

140

150

160

170

180

190

200

poids

taill

e

50 60 70 80 90 100

130

140

150

160

170

180

190

200

poids

taill

e

17/160

Page 19: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Sources d’erreur

En pratique, l’erreur totale de l’estimateur, mesurée par

θ − θ,

dépend des erreurs réalisées à toutes les étapes de l’enquêtes.

Ceci inclut :les erreurs de couverture,l’erreur d’échantillonnage,l’erreur due à la non-réponse,les erreurs de mesure.

18/160

Page 20: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Erreurs de couverture

Les erreurs de couverture proviennent du fait que la base de sondageet la population-cible ne coincident pas. On distingue :

la sous-couverture (des individus de la population-cible sont ab-sents de la base de sondage) :

nouvelles entreprises pas encore inscrites dans le répertoire SI-RUS,enquête téléphonique auprès de ménages, en utilisant une listed’abonnés à une ligne fixe,difficulté de couvrir la population-cible (enquête auprès de SDF).

la sur-couverture (la base de sondage contient des individus quine sont pas dans la population-cible) :

échantillonnage de logements, dont le statut (RP/RS/LO/LV)n’est pas connu au moment du tirage, en vue d’une enquête enrésidence principale.

19/160

Page 21: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Erreurs d’échantillonnage et de non-réponseL’erreur d’échantillonnage provient du fait que l’information n’estcollectée que sur une partie de la population : cette erreur est vo-lontaire et planifiée.

L’erreur de non-réponse provient du fait que l’information n’est ob-servée que sur une partie de l’échantillon uniquement : cette erreurest subie et non maîtrisée.

La non-réponse a des conséquencessur le biais des estimateurs : les individus répondant peuventprésenter un profil particulier par rapport à l’enquête (biais deNR),sur la variance des estimateurs : la taille effective de l’échantillondiminue (variance de NR). De plus, une imputation aléatoirepeut introduire une variabilité additionnelle (variance d’imputa-tion).

20/160

Page 22: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Erreurs de mesure

Les erreurs de mesure proviennent du fait que les valeurs obtenuessont différentes des vraies valeurs de la variables d’intérêt.

Parmi les causes des erreurs de mesure :questionnaire mal conçu,problème d’enquêteur,appel à la mémoire des enquêtés,erreur de codage.

Dans ce qui suit, on supposera que les erreurs de couverture et demesure peuvent être négligées. On se focalisera sur l’erreur due àl’échantillonnage et sur l’erreur due à la non-réponse.

21/160

Page 23: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Les types de non-réponse

22/160

Page 24: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Type de non-réponseDans le contexte des enquêtes, on distingue deux types de non-réponse :

la non-réponse totale ("unit non-response") : aucune informa-tion n’est relevée pour une unité,la non-réponse partielle ("item non-response") : une partie seule-ment de l’information est relevée pour une unité.

y1 y2 y3 y4 … … … … … yp

* * * * * * * * * *

* * * * * * * * * *

* * * * * * * * * *

* * * * * * * * * *

« « « « « « « « « «

« « « « « « « « « «

« « « « « « « « « «

* * « * « * « * * «

« * * * « * « * * «

* * * * * * * * « «

« « « * * « * * * *

Réponse totale

Non-réponse totale

Non-réponse partielle

23/160

Page 25: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Type de non-réponseLa correction de la non-réponse (partielle ou totale) passe par laconnaissance d’information auxiliaire connue sur l’ensemble de l’échan-tillon S, et qui soit

explicative de la probabilité de répondre,et/ou explicative de la variable d’intérêt.

z1 z2 … zq y1 y2 y3 … … yp

* * * * * * * * * *

* * * * * * * * * *

* * * * * * * * * *

* * * * * * * * * *

* * * * ∅ ∅ ∅ ∅ ∅ ∅

* * * * ∅ ∅ ∅ ∅ ∅ ∅

* * * * ∅ ∅ ∅ ∅ ∅ ∅

* * * * * * ∅ * * ∅

* * * * ∅ * * * * ∅

* * * * * * * * ∅ ∅

* * * * ∅ ∅ ∅ * * *

Réponse totale

Non-réponse totale

Non-réponse partielle

Variables d’intérêt Variables auxiliaires 24/160

Page 26: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Traitement de la non-réponse dans les enquêtes

La non-réponse totale est habituellement traitée par une méthodede repondération :

on supprime du fichier les non-répondants totaux,on augmente les poids des répondants pour compenser de lanon-réponse totale.

La non-réponse partielle est habituellement traitée par imputation :une valeur manquante est remplacée par une valeur plausible.

L’objectif prioritaire est de réduire autant que possible le biais denon-réponse : cela passe par une recherche des facteurs explicatifsde la non-réponse.

25/160

Page 27: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Quelques facteurs de non-réponse totale (Haziza, 2011)

Mauvaise qualité de la base de sondage,Impossibilité de joindre l’individu,Type d’enquête (obligatoire ou volontaire),Fardeau de réponse,Méthode de collecte (interview, téléphone, courrier, ...),Durée de collecte,Suivi (et relance) des non-répondants,Formation des enquêteurs.

26/160

Page 28: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Quelques facteurs de non-réponse partielle (Haziza, 2011)

Questionnaire mal conçu,Fardeau de réponse,Questions délicates,Formation des enquêteurs,Appel à la mémoire des enquêtés.

La prévention (ou la correction) de la non-réponse se fait à toutesles étapes de la collecte des données.

27/160

Page 29: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Traitement de la non-réponsetotale

28/160

Page 30: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Le problème

La non-réponse totale ("unit non-response") survient lorsqu’aucuneinformation (autre que celle de la base de sondage) n’est relevée pourune unité.

On va traiter ce problème par repondération : on fait porter aux ré-pondants le poids des non-répondants. Cette repondération se justifiesous une modélisation du mécanisme de non-réponse.

Cette modélisation permet d’estimer les probabilités de réponse àl’enquête, pour obtenir les poids corrigés de la non-réponse totale.

29/160

Page 31: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Les étapes du traitement de la non-réponse totale

1 Identification des non-répondants,2 Modélisation du mécanisme de non-réponse (recherche des fac-

teurs explicatifs),3 Estimation des probabilités de réponse,4 Calcul des poids corrigés de la non-réponse totale.

30/160

Page 32: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Identification desnon-répondants

31/160

Page 33: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Identification des non-répondantsUn point important : la distinction entre individus hors-champ etindividus non-répondants. Le champ de l’enquête désigne l’ensembledes individus statistiques auxquels on s’intéresse. Certains individusde l’échantillon sont hors-champ, et ne sont donc pas pris en comptedans l’estimation.

Les individus non-répondants font partie du champ de l’enquête,mais leur réponse n’est pas observée (refus de répondre, impossibleà joindre, perte de questionnaire, ...) et doit être compensée.

Exemple : Enquête Logement 2006. Champ de l’enquête : loge-ments résidences principales en 2006 (par opposition aux résidencessecondaires, occasionnelles et aux logements vacants). On disposaitde deux sources pour accéder à ces logements :

Le Recensement de 1999,Les bases complémentaires de logements construits depuis 1999(BSLN, issue du fichier SITADEL des permis de construire).

32/160

Page 34: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Schéma récapitulatif

33/160

Page 35: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Schéma récapitulatif

34/160

Page 36: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Schéma récapitulatif

35/160

Page 37: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Schéma récapitulatif

36/160

Page 38: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Schéma récapitulatif

37/160

Page 39: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Modélisation du mécanisme denon-réponse

38/160

Page 40: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Echantillonnage en deux phases

Dans le cadre d’une enquête, on peut être amené à sélectionnerl’échantillon en deux temps :

On sélectionne tout d’abord un gros sur-échantillon S selon unplan de sondage p(·).On tire ensuite dans S un sous-échantillon S0 selon un plan desondage q(·|S).

On parle d’échantillonnage en deux phases. Cette méthode est parexemple utilisée pour cibler une population spécifique.

Exemple : Enquête Vie Quotidienne et Santé, utilisée comme fil-trage pour l’enquête Handicaps-Incapacités-Dépendances (Joinville,2002).

39/160

Page 41: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Modélisation du mécanisme de non-réponse

En situation de non-réponse totale :le mécanisme de sélection de l’échantillon S est connu,le mécanisme de non-réponse qui conduit au sous-échantillon derépondants Sr est en revanche inconnu.

On a recours à une modélisation du mécanisme aléatoire conduisantà Sr sous la forme d’un échantillonnage en deux phases :

la 1ère phase correspond à la sélection de l’échantillon S,la 2nde phase correspond à la "sélection" du sous-échantillonde répondants Sr⇒ mécanisme de non-réponse

40/160

Page 42: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Population U

Page 43: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

p(.)

Plan de sondage

Population U

Page 44: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

p(.)

Plan de sondage

Population U

Echantillon S

Page 45: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

p(.)

Plan de sondage

q(.|S)Mécanisme de réponsePopulation U

Echantillon S

Page 46: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

p(.)

Plan de sondage

q(.|S)Mécanisme de réponsePopulation U

Echantillon S

Echantillon de répondants Sr

Page 47: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Mécanisme de non-réponseOn note rk la variable indicatrice de réponse pour l’individu k, valant1 si l’individu a répondu à l’enquête et 0 sinon.

On note pk|S ≡ pk la probabilité de réponse pour l’unité k :

pk = Pr(k ∈ Sr|S)

= Pr(rk = 1|S).

On fait l’hypothèse que :toutes les probabilités de réponse vérifient 0 < pk ≤ 1 : pas denon-répondants irréductibles,les individus répondent indépendamment les uns des autres :

Pr(k, l ∈ Sr|S) ≡ pkl = pkpl.

Cette dernière hypothèse peut être affaiblie (Haziza et Rao, 2003 ;Skinner et D’Arrigo, 2011).

46/160

Page 48: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Types de mécanisme

On distingue schématiquement trois types de mécanisme de non-réponse :

uniforme (ou MCAR),ignorable (ou MAR),non-ignorable (ou NMAR).

Le mécanisme est dit uniforme (ou Missing Completely At Random)quand pk = p, i.e. quand tous les individus ont la même probabilitéde réponse. C’est une hypothèse généralement peu réaliste.

Exemple : non-réponse provenant de la perte de questionnaires.

47/160

Page 49: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Types de mécanisme

On parle de mécanisme de non-réponse ignorable (ou Missing AtRandom) quand les probabilités de réponse peuvent être expliquéesà l’aide de l’information auxiliaire disponible :

Pr(rk = 1|yk, zk) = Pr(rk = 1|zk),

avecyk la variable d’intérêt,zk le vecteur des valeurs prises par un vecteur z de variablesauxiliaires pour l’individu k de S.

Exemple : enquête sur le revenu + non-réponse expliquée par lesexe des individus.

48/160

Page 50: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Un exemple de non-réponse MAR

Probabilité de réponse pk

Revenu yk

FemmesHommes

49/160

Page 51: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Types de mécanisme

Un mécanisme de non-réponse qui n’est pas ignorable est dit non-ignorable (ou Non Missing At Random). Cela signifie que la non-réponse dépend de la variable d’intérêt, même une fois que l’on apris en compte les variables auxiliaires.

Il est très difficile de corriger de la non-réponse non ignorable, oumême de la détecter. Dans la suite, nous supposerons être dans lecas d’un mécanisme MAR.

Exemple : enquête sur le revenu + non-réponse expliquée par lecroisement sexe × revenu.

50/160

Page 52: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Un exemple de non-réponse NMAR

Probabilité de réponse pk

Revenu yk

FemmesHommes

51/160

Page 53: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Exemple sur données simulées

On considère une population artificielle contenant 250 femmes et 250hommes, et une variable d’intérêt y (revenu) générée selon le modèle

yk =

{50 + 10 εk pour les femmes,100 + 10 εk pour les hommes,

avec les εk générés selon une loi Normale(0, 1).

On considère deux jeux de probabilités de réponse :mécanisme MAR : p1k = 0.8 pour les femmes et p1k = 0.4 pourles hommes,

mécanisme NMAR : p1k =exp8.5−0.1×y

1 + exp8.5−0.1×y .

On obtient une probabilité de réponse moyenne de 0.60 environ danschaque cas.

52/160

Page 54: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des revenus par sexe

Hommes Femmes

4060

8010

012

0

53/160

Page 55: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Mécanismes de réponse

●●● ●● ●●●●● ● ●●●● ●●● ● ● ●● ● ●●●● ● ●● ●● ●● ●● ●● ●● ●●●● ●● ●●●● ●●● ● ●●● ●● ●● ● ●●● ●●● ●●●●● ●● ●●●● ●● ●●●● ●● ●●● ●●● ●●● ●●● ● ●● ● ●● ● ●● ●●● ●●● ●● ●● ● ●●● ●● ●●● ●● ● ●● ●●● ●●● ●● ●●●● ●●● ●● ●●● ●● ●●●● ●●● ●●● ●●● ●●●●●● ●●● ●●● ●● ● ●●●● ●●●● ●● ●●● ●● ●●● ●● ●●● ● ●●● ● ●● ●●● ●● ●●● ●● ●● ●●● ● ●●● ●● ●●●●●● ● ●●●●●●●●● ●

0 50 100 150

0.0

0.2

0.4

0.6

0.8

1.0

Mécanisme MAR

Revenu

Pro

babi

lité

● ● ● ●●●● ● ●●● ● ●● ● ●● ●●● ●● ●● ●● ●● ●●● ●●●● ●● ●● ●● ● ●●●● ●●●●●●● ● ●● ● ●●●● ●● ● ●●● ●● ● ●●●●●● ●●● ●●● ●● ● ●● ●● ●●●● ●● ●●●● ●● ●● ●●●●●● ●● ● ●●●● ●● ● ●●●● ●● ●● ●●● ●● ●● ●●●● ● ●● ● ●● ●● ●●●● ●● ●●●●●● ●●●● ●●● ●● ●●●● ●● ●● ● ●●●●● ●●●● ●● ●●●● ●●● ●● ● ●●● ●● ●● ●● ●● ● ●● ● ●●● ● ●●●● ● ●●● ●●● ●● ●●●● ● ●●● ●● ●● ●● ●● ●●● ●●

●●●

●●

●●●●

●●●●●

●●

●●

●● ●

●●

●●

●●●●

●●●●●

● ●

●●

●●

●●

●●

●●

●●●●

●●●

●●●

●●●

●●●

●●

●●

●●

●●●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●●

●●●●

●●

●●●

●●

●●

●●

●●

●●

● ●●●●

●●

●●

●●●●●●

●●●●●●●●

0 50 100 150

0.0

0.2

0.4

0.6

0.8

1.0

Mécanisme NMAR

Revenu

Pro

babi

lité

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

54/160

Page 56: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation sous un mécanisme MAR

●●● ●● ●●●●● ● ●●●● ●●● ● ● ●● ● ●●●● ● ●● ●● ●● ●● ●● ●● ●●●● ●● ●●●● ●●● ● ●●● ●● ●● ● ●●● ●●● ●●●●● ●● ●●●● ●● ●●●● ●● ●●● ●●● ●●● ●●● ● ●● ● ●● ● ●● ●●● ●●● ●● ●● ● ●●● ●● ●●● ●● ● ●● ●●● ●●● ●● ●●●● ●●● ●● ●●● ●● ●●●● ●●● ●●● ●●● ●●●●●● ●●● ●●● ●● ● ●●●● ●●●● ●● ●●● ●● ●●● ●● ●●● ● ●●● ● ●● ●●● ●● ●●● ●● ●● ●●● ● ●●● ●● ●●●●●● ● ●● ●●●●●●● ●

0 50 100 150

0.0

0.4

0.8

Distribution dans la population

Revenu

Pro

babi

lité

● ● ● ●●●● ● ●●● ● ●● ● ●● ●●● ●● ●● ●● ●● ● ●● ●●●● ●● ●● ●● ● ●●●● ●● ●●●●● ● ●● ● ●●●● ●● ● ●●● ●● ● ●●●●●● ●●● ●●● ●● ● ●● ●● ●●●● ●● ●●●● ●● ●● ●●●●●● ●● ● ●●●● ●● ● ●●●● ●● ●● ●●● ●● ●● ●●●● ● ●● ● ●● ●● ●●●● ●● ●●●●●● ●●●● ●●● ●● ●●●● ●● ●● ● ●●●●● ●●●● ●● ●●●● ●●● ●● ● ●●● ●● ●● ●● ●● ● ●● ● ●●● ● ●●●● ● ●●● ●●● ●● ●●●● ● ●●● ●● ●● ●● ●● ●●● ●●

●●● ●● ●●●●● ● ●●●● ●●● ● ● ●● ●●●● ● ●● ●● ●● ●●● ●● ●●●● ●● ●●● ●● ● ●●● ● ●● ●●● ●●● ●●●●● ●●● ●● ●● ●●● ●●● ●●● ●● ●● ●● ● ●● ●●●● ●●● ● ●●● ●● ●● ●● ●●●● ● ●●● ● ●●● ●●●●● ●● ●●● ●●● ●●●●●●●● ●●●● ● ●●●● ●●●● ●● ●●● ● ●●● ●● ● ●●● ● ●● ●● ●●●● ●● ●● ●● ● ●●● ● ●●●●● ● ●● ●●●●

0 50 100 150

0.0

0.4

0.8

Distribution dans l'échantillon

Revenu

Pro

babi

lité

●● ●●● ●●● ●● ● ●● ● ●●●●● ●● ● ●●● ● ● ●● ●● ●●● ●● ●●● ●●●● ● ●● ●● ●● ● ●● ●● ●●●●● ●●● ● ●●● ●●●● ●● ●● ●●●● ●● ●●●

55/160

Page 57: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation sous un mécanisme NMAR

●●● ●●●

●●●● ●●

●●● ●●● ●

● ● ●●●● ●●

● ●●

● ●●

●● ●●●● ●●●

●●● ●●● ●

●●●● ●

● ● ●●●

●●● ●●●●● ●●

●●●●

●●

●●●

● ●●●●●●

●●● ●●● ●

● ● ●●

●●

● ●●●●

●● ●● ●●●

●● ●●

●●● ●● ●

●●

●●●● ●

●●●

●●

● ●●●

●●

● ●●●● ●●●●●●

●●●

●●●●●● ●●●

●●

● ● ●●●● ●●●●●

●●

●●

●● ●● ●●● ●

●● ● ●● ●●●

●● ●●● ●● ●● ●●●

●●

●●

● ●●●●●● ●

● ●●●●●●● ●

0 50 100 150

0.0

0.4

0.8

Distribution dans la population

Revenu

Pro

babi

lité

●●

●●

●●

●● ● ●

●●

●●●

●●

●●●

●●

●● ●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●●●

●●

●●

●●

●●

●●

●●

●●●

●●●●●

●●●●

●●●

●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●● ●●●

●●●● ●●

●●● ●●● ●

● ● ●●●● ●●

● ●●

● ●●

●● ●●●● ●●●

●●● ●●● ●

●●●● ●

● ●●●

●●● ●●●●● ●●

●●●●

●●●●

● ●●●●●●

●●● ●●● ●● ● ●

●●

●● ●●●

●●● ●● ●●

●● ●●

●●● ●● ●

●●

●●●● ●

●●●

●●

● ●●●

●●

● ●●●● ●●●●●●

●●●

●●●●●● ●●●

●●

● ● ●●●● ●●●●●

●●

●●

●● ●● ●●● ●

●● ● ●● ●●●

●● ●●● ●● ●● ●●●

●●

●● ● ●●●●●● ●

● ●●●●●●● ●

0 50 100 150

0.0

0.4

0.8

Distribution dans l'échantillon

Revenu

Pro

babi

lité

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

56/160

Page 58: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation d’un totalCas de probabilités de réponse

connues

57/160

Page 59: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation par expansionSi les probabilités pk sont connues, on se trouve dans le cas d’unéchantillonnage en deux phases. On peut utiliser l’estimateur parexpansion

tye =∑k∈Sr

ykπk pk

=∑k∈U

yk Ik rkπk pk

.

Sous la modélisation utilisée, le mécanisme de non-réponse est vucomme un plan poissonien dans l’échantillon d’origine S.

Remarque : il ne s’agit pas de l’estimateur de Horvitz-Thompson.Les probabilités d’inclusion finales

Pr(k ∈ Sr) =∑

s⊂U ; k∈sp(s)pk|s

sont généralement impossibles à calculer.58/160

Page 60: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateur par expansionL’estimateur par expansion est sans biais pour le total ty :

E(tye) = EpEq(tye|S)

= Ep(tyπ) = ty.

La variance de l’estimateur par expansion est donnée par :

V (tye) = VpEq(tye|S) + EpVq(tye|S)

= Vp(tyπ) + Ep

[∑k∈S

1− pkpk

(ykπk

)2]

=∑k,l∈U

ykπk

ylπl

(πkl − πkπl)︸ ︷︷ ︸Variance Echantillonnage

+Ep

[∑k∈S

1− pkpk

(ykπk

)2]

︸ ︷︷ ︸Variance Non Réponse

.

Elle est donc toujours plus grande qu’en situation de réponse com-plète.

59/160

Page 61: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation par expansionSi on utilise un plan de taille fixe pour sélectionner l’échantillon S,la variance peut se réécrire :

V (tye) = −1

2

∑k 6=l∈U

(ykπk− ylπl

)2

(πkl − πkπl)

+ Ep

[∑k∈S

1− pkpk

(ykπk

)2].

On peut l’estimer sans biais par :

v(tye) = −1

2

∑k 6=l∈Sr

(ykπk− ylπl

)2 πkl − πkπlπkl pk pl

+∑k∈Sr

1− pkp2k

(ykπk

)2

.

60/160

Page 62: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation par expansion : cas d’un SRSDans le cas particulier d’un échantillon S tiré selon un SRS(n), onobtient :

V (tye) =N2

n

[(1− f)S2

y + Ep

(1

n

∑k∈S

y2k(1− pk)pk

)],

que l’on peut estimer par

v[tye]

=N2

n

(1− f)s2yr +1

n

∑k∈Sr

y2k(1− pk)p2k

,avec

s2yr =1

2n(n− 1)

∑k 6=l∈Sr

(yk − yl)2

pk pl

un estimateur sans biais de S2y calculé sur l’échantillon de répondants

Sr.61/160

Page 63: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation d’un totalCas de probabilités de réponse

inconnues

62/160

Page 64: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation des probabilités de réponseEn pratique, les probabilités de réponse pk sont inconnues et doiventêtre estimées. On postule alors un modèle de réponse de la forme

pk = f(zk, β0), avec

zk un vecteur de variables auxiliaires connu sur S,f(·, ·) une fonction connue,β0 un paramètre inconnu.

Le choix (couramment utilisé en pratique)

f(zk, β) =exp

(z>k β

)1 + exp

(z>k β

)correspond au modèle logistique, avec logit(pk) = z>k β0.

D’autres fonctions de lien sont possibles. On peut également utiliserune modélisation non paramétrique (Da Silva et Opsomer, 2006 et2009).

63/160

Page 65: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation des probabilités de réponse

On peut obtenir (par exemple, à l’aide de la PROC LOGISTIC deSAS) un estimateur du paramètre β0 en résolvant l’équation esti-mante : ∑

k∈S[rk − f(zk, β)]zk = 0.

On note β la solution de cette équation. On a

β − β0 '

[∑k∈S

pk(1− pk)zkz>k

]−1∑k∈S

(rk − pk)zk. (2)

On peut alors remplacer les probabilités inconnues pk = f(zk, β0)par leurs estimations pk = f(zk, β).

64/160

Page 66: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateur du totalOn obtient l’estimateur corrigé de la non-réponse totale

tyr =∑k∈Sr

ykπk pk

,

que l’on peut réécrire sous la forme :

tyr = tye +∑k∈S

rkykπk

(1

pk− 1

pk

)

' tye −

[∑k∈S

1− pkπk

z>k yk

]>[β − β0] (3)

' γ>∑k∈S

pkzk +∑k∈S

rkpk

(ykπk− pkγ>zk

), (4)

avec

γ =

[∑k∈S

pk(1− pk)zkz>k

]−1∑k∈S

1− pkπk

zkyk. (5)

65/160

Page 67: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Propriétés de l’estimateur du total

En utilisant les expressions (2) et (3), on obtient

Eq(tyr|S) ' Eq(tye|S) = tyπ, (6)

et l’estimateur tyr est approximativement sans biais pour ty.

En utilisant les expressions (4) et (6), on obtient

V (tyr) = VpEq(tyr|S) + EpVq(tyr|S)

' Vp(tyπ) + Ep

[∑k∈S

1− pkpk

(ykπk− pkγ>zk

)2].

Cette variance est généralement plus faible que celle de l’estimateurpar expansion, utilisant les vraies probabilités de réponse.

66/160

Page 68: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Propriétés de l’estimateur du total

Si on utilise un plan de taille fixe pour sélectionner l’échantillon S,la variance peut se réécrire :

V (tyr) ' −1

2

∑k 6=l∈U

(ykπk− ylπl

)2

(πkl − πkπl) + Ep

[∑k∈S

1− pkpk

(ykπk− pkγ>zk

)2].

On peut l’estimer approximativement sans biais par :

v(tyr) = −1

2

∑k 6=l∈Sr

(ykπk− ylπl

)2πkl − πkπl

πkl pk pl+∑k∈Sr

1− pkp2k

(ykπk− pkγ>r zk

)2

avec

γr =

[∑k∈Sr

(1− pk)zkz>k

]−1 ∑k∈Sr

1− pkπk pk

zkyk. (7)

67/160

Page 69: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas des groupes homogènes deréponse

68/160

Page 70: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas des groupes homogènes de réponse

Un modèle de non-réponse couramment utilisé en pratique consisteà supposer que la probabilité de réponse pk est constante au sein degroupes S1, . . . , SC partitionnant l’échantillon S :

∀k ∈ Sc pk = pc.

On les appelle les groupes homogènes de réponse (GHR). Cettemodélisation a l’avantage :

d’être simple à mettre en oeuvre,d’offrir une certaine robustesse contre une mauvaise spécifica-tion du modèle de non-réponse.

Exemple : enquête sur le revenu + GHR définis en croisant sexe ettranche d’âge.

69/160

Page 71: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Détermination des GHR

En pratique, on peut constituer ces groupes de la façon suivante :1 On effectue une régression logistique afin d’expliquer les proba-

bilités de réponse en fonction de l’information auxiliaire dispo-nible.

2 On peut ensuite :soit ordonner les individus k selon les pk (méthode des scores),puis diviser l’échantillon en groupes de tailles approximativementégales (méthode des quantiles égaux) ;soit utiliser les variables qui resortent de façon significative dansla régression logistique, et les croiser pour définir les groupes(méthode par croisement).

70/160

Page 72: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas des groupes homogènes de réponseAu sein de chaque GHR Sc, la probabilité pc est estimée par

pc =nrcnc,

en notantnc le nombre d’individus dans Sc,nrc le nombre de répondants dans Sc.

Sr

Sm

S

71/160

Page 73: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas des groupes homogènes de réponseAu sein de chaque GHR Sc, la probabilité pc est estimée par

pc =nrcnc,

en notantnc le nombre d’individus dans Sc,nrc le nombre de répondants dans Sc.

S1 S2 S3 S4

72/160

Page 74: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas des groupes homogènes de réponseAu sein de chaque GHR Sc, la probabilité pc est estimée par

pc =nrcnc,

en notantnc le nombre d’individus dans Sc,nrc le nombre de répondants dans Sc.

n1=12

nr1=6

11

ˆ2

p =

nr4=7

n4=12

47

ˆ12

p =… … …

73/160

Page 75: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

EstimationAvec le modèle correspondant aux GHR, on a :

zk = [1(k ∈ S1), . . . , 1(k ∈ SC)]>,

β =[β1, . . . , βC

]>avec βc = ln

(nrcnmc

),

pk = pc = nrcnc

pour k ∈ Sc,γ = [γ1, . . . , γC ]> avec γc = 1

nc

∑k∈Sc

ykπk pc

,

γr = [γr1, . . . , γrC ]> avec γrc = 1nrc

∑k∈Src

ykπk pc

.

On obtient tyr =

C∑c=1

ncnrc

∑k∈Src

ykπk

, et si on utilise un plan de taille

fixe pour sélectionner S :

v(tyr) = −1

2

∑k 6=l∈Sr

(ykπk− ylπl

)2 πkl − πkπlπkl pk pl

+

C∑c=1

1− pc(pc)2

∑k∈Src

ykπk− 1

nrc

∑l∈Src

ylπl

2

.

Page 76: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateur redressé de la non-réponse : cas d’un SRSDans le cas particulier d’un échantillon S tiré selon un SRS(n), onobtient :

tyr = N

C∑c=1

ncnyrc avec yrc =

1

nrc

∑k∈Src

yk.

Sa variance peut être estimée par

v(tyr) =N2

n

[(1− f)s2yr +

C∑c=1

1− pc(pc)2

× nrc − 1

ns2y,rc

],

avec

s2yr =1

2n(n− 1)

∑k 6=l∈Sr

(yk − yl)2

pk pl,

s2y,rc =1

nrc − 1

∑k∈Src

(yk − yrc)2.

75/160

Page 77: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

En résumé

1 Identification des non-répondants⇒ séparation des individus hors-champ et des non-répondants

2 Recherche des facteurs explicatifs de la non-réponse⇒ e.g., régression logistique pour identifier les zk explicatifs

3 Estimation des probabilités de réponse⇒ e.g., méthode des scores ou méthode par croisement pourdéfinir les GHR

4 Calcul des poids corrigés de la non-réponse totale5 Calage des estimateurs.

76/160

Page 78: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Exemple sur données réelles

On considère une population de N = 10, 000 individus extraite del’enquête canadienne sur la santé (CCHS). On s’intéresse à l’estima-tion de la taille moyenne et du poids moyen des individus.

On dispose des variables auxiliaires :âge : 3 modalités (12-17, 18-64, 65 et +),sexe : 2 modalités,statut matrimonial : 4 modalités (married, common law, wi-dow/sep/div, single/never married),province : 11 modalités,consommation d’alcool : 4 modalités (regular, occasional, for-mer, never drank).

77/160

Page 79: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Exemple sur données réelles (2)

On sélectionne un échantillon de taille n = 500 selon un SRS. Onconsidère le mécanisme de réponse (inconnu) :

+0.70(stk = 4)−0.05(ak = 3) −0.50(stk = 3)

−0.60(sk = 2) +0.15(ak = 2) +0.50(stk = 2)logit(p1k) = 0.80 +0.60(sk = 1) −0.10(ak = 1) −0.70(stk = 1)

La probabilité de réponse moyenne est égale à 0.62 environ.

78/160

Page 80: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des estimateurs

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●●

Est. Horvitz−Thompson Est. par expansion Est. avec probas estimées

7072

7476

78

Estimation du poids moyen

Page 81: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des estimateurs

●●

●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

Est. Horvitz−Thompson Est. par expansion Est. avec probas estimées

1.67

1.68

1.69

1.70

1.71

Estimation de la taille moyenne

Page 82: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Ecart-type estimé en fonction de l’estimateur

● ●● ●●●● ● ● ●●●

●●

● ●●● ●● ●

●●● ●●● ● ● ● ●●● ●●● ●● ●●

● ●● ● ●●● ● ●●●● ●● ● ●● ●● ●● ●● ● ●● ●●● ●

●● ●● ●●●

●●●● ● ●●●

● ●●● ●●

● ● ●●

● ●

●●● ●●

●●●●

●●●

●●● ● ●●● ●●

●●

● ●● ● ● ●●●●

● ●● ●

●●●●

●● ● ●● ●●● ●

● ● ●●

● ●●●

●●●● ●

●●●● ●●

●●● ●

●●● ● ●●●

● ●● ●

●●

●● ●

●●●

●● ●● ●●

● ● ● ●●●●

● ● ●● ●●● ●●

●●●●●●

●●●● ● ●●

●●● ● ●● ●●●

●● ● ●●

●●● ●●

●●●●●

● ●●●

●●● ●● ●●●

●●● ● ●●● ●● ● ●●●●●

●● ●●●●●

●●●

● ●● ●●● ●●●

●●●

●●

● ●● ●● ● ●●● ●

●●● ●

●●

●●●●●

● ●●● ● ● ●

●●●●

●●● ● ●●

●● ●●

●●

●● ●●

● ● ●●

● ●●●●

● ● ●●

●●●

● ● ●● ●●●● ●● ●●

● ● ●●● ● ●●●● ●●● ● ●● ●

●● ●

● ●●

●●●● ●

●●● ●● ●

●●●● ●

●●

●● ●●●● ●

●●● ●● ●●●● ●● ●

●●

●●

●●●●●

●● ●●

●●

●●● ●●

●●● ●●●

● ●●● ●●

●● ●● ●●● ●● ●

●●● ●● ●

● ● ● ●● ● ●●●

●● ●●

●● ●●●

●● ● ●●

● ● ●●●

●● ●●● ●

●●● ●●

● ●●● ●● ●● ●● ●

●●● ●

●●●

●● ●● ● ●● ●● ●

●● ●●

●●

●● ●

●●●

●● ●● ●●

●● ● ●● ●● ●●●

●●●

●● ● ●

●●

●● ●●●●●

● ● ●●● ●● ●● ● ●●●

● ● ●●●●

●●●● ●●●●

● ● ●●●●

●●● ●●

●● ●●

●●

●●●● ● ●

●●

●● ●● ●

●●● ● ●●

● ●●

●● ●

●●● ●●● ● ●● ●●●●●● ●

●●

●● ● ●●

● ●●●●

●●●● ●

●●● ●

●●

● ●● ● ●● ●●

●●

● ● ●●● ●●● ● ●●

●●

● ●● ●●

● ●●● ●●●

●●●●●

●●

● ●●

●●

●● ● ●

●●● ●● ●

●● ●●

●●● ●●● ●●

●●● ●●

●●

● ●● ● ●● ●●

●●●●● ●● ●

●●

●●●●

●● ●● ●● ● ●

● ●●●● ●● ●●

● ●● ●● ●●

●● ● ●● ●●●●●● ●

●● ●●● ●●

●●● ●● ●

● ● ●● ●●●

●● ●●●●●●

●●

●● ●●●

● ●● ●● ● ●●● ●●●●● ●● ●

●● ●

●●●

● ●● ●● ●●●

●● ●● ●● ●●● ●● ●● ● ●●●

●● ●●

●● ●

●● ●●●●●

●●

●●

●●●

●●●

●● ●● ● ●●●● ●

●●● ● ●●● ●●● ● ●● ●●● ●

●●●

●●

●●● ● ●●●

● ●● ●●●

● ●●●

70 72 74 76 78 80

0.6

1.0

1.4

Estimation de Horvitz−Thompson

Estimateur

Eca

rt−

type

est

imé

●●

● ●●●●

●● ● ●

●●

●●●● ●

●● ●●● ● ●●● ● ● ●● ●●

●● ● ●

●●●●●

● ●●● ●● ●●

● ● ●● ●●● ●

●●

●●●

● ●●●

●● ●● ● ●●● ●●● ●● ●●

●● ● ●●

●●

●●●●

●●●

●● ●●

●●●

●● ●●

●●● ● ●●●● ●

●●●

●●● ●●

●●

● ● ●● ●

●●●

●●● ●● ●

●●●●●

●●●● ●

●●

●● ●

●●●

●●●

●● ●● ●●

●●●

●● ● ●●●

● ●●

●●

●● ●● ●

●●●

● ●●

●●

● ●●●

●● ●

●● ●● ●●

●●●● ●●●

● ●● ●●

●●● ● ●

●●●

● ● ●●●

●●

● ● ●●

●●●● ●● ●●

● ●● ● ●●

● ●●

●●

●●●

● ●●●

●● ●●

●●●●

●●●●● ●

●● ●● ● ●● ●●● ●●● ●●●

● ●●●● ● ●

●●

●●● ●● ●

●●●●

●●●● ● ●● ●

● ●●●

●● ●● ●●●

●● ●

● ●● ●

●●●●

●● ● ●●

●●

● ●●● ●●

● ●●

●●

● ●●●● ●●●● ●●

●●●

●●

● ●

●●●

●● ●●●

●●● ●●

●●

●● ●●

●●

●● ●

●●● ●● ●● ●

●●● ●

●●●● ●● ●●●● ●●●

●●

●●●●

●● ●●

●●●● ●

●● ●● ●● ●

●● ●

●●

●●

●●

●●

●●

● ● ●●● ●● ●

●● ●

●● ●

●● ●●

●●●

●●

●●● ●

● ●● ●●

● ●●

● ●●● ●

●●● ●

●● ●● ●●

●●●

●●●●●

●● ●●●●

●● ●●●●● ●●

●●●

● ● ●● ●

●●● ●

●●●

●●●

●● ●● ● ●●

● ●●● ●

●●

●●●● ●●●

●●

●●●●

● ●●● ●

●● ● ●●●

●●

●●

●●● ●●

● ●●

●●● ●

●● ●

●● ●●●

●●●

●●

●●

● ●●

●● ●● ●●●●●● ● ● ●●

● ●● ●● ●

●● ● ●●

● ●●

●●● ●● ●

●● ● ● ●●●● ● ●● ● ● ● ●● ●

●●● ●●

●●●

● ●●● ●●●●● ●●●●●●

●● ●●● ●● ● ●● ● ●

● ●

●●

●● ●●● ●

● ●●

● ●● ●●●●

●●

● ●●

●●

●●● ● ●●●

●● ●●●●

● ●

●● ● ●

● ●● ●●

●●●

●● ●●

● ●●●

●● ●

●●

●●●

●●●

●●

●●●

● ●●●●

●● ●●●

●● ●●●●● ●

●● ●●●

●●● ●

● ●● ●●

●●

●●

●●

●●

●● ● ●● ●● ●● ●

●● ●●●● ● ●●●●

●●● ● ●●● ●●●● ●● ● ●●

● ●● ●●● ●● ●● ● ●●

● ●

●●● ●

● ●●

● ●●

● ●●●●

● ● ●●●●● ●●

●●

●●●

●●

●●

●●●● ●●

●●● ● ●

●●● ●● ●

● ● ●● ● ● ●●●● ● ●●

● ●● ●● ●●●

●●● ●●●●● ●●● ● ●● ● ●●

●●

●●

●●●

● ●●●

1.65 1.66 1.67 1.68 1.69 1.70 1.71

0.00

40.

006

0.00

8

Estimation de Horvitz−Thompson

Estimateur

Eca

rt−

type

est

imé

●●●

●●●●●

●●●●

● ●●●

●●

●●

● ●●●

● ●●●●

● ●●

●●● ●

●●●●●

●●●

●●

● ●●

●●

● ●●

●●●

●●●●●

●●

●●●

●●●

●● ●●

●●

●●

● ●●

●●●

● ●

●●●

●●

● ●

●●

●●

● ●●

●●●

●●●●

●●

●●●

● ●●●

●●

● ●

●●

● ●

●●

● ●●

● ●●

●●●

●●

●●

● ●●

●●● ● ●

●●

● ●●

● ●●

●● ●

●●●●

●●

●●

● ●●

●●●

●● ●● ●

●● ●

●●

● ●● ●● ●

● ●● ● ●

●●

●● ●

●●

●●

●●

● ●

●●● ●

●●●

●●●

●●

●● ●

● ●●

●●●

● ●●

●●

● ●● ●●●

●●

●●

●●

● ●●●

●●

●● ●

●●

●● ●●

● ●●

●●

●●

●●

● ●

●●● ●●

●●● ●●● ● ●

●●

●●

●●●

●●

●●●

●●●●

●● ●

●●

● ●●●●●

●●

●●● ●

●●●

●●●

● ●●

● ●●●

● ●●

●●

●●

●●

●●●

●●

●●●

●● ●

●●● ●

●● ●●●

●● ●

●●

●●●

●●

●●

●●● ●

●●

●●●

●●

● ●

● ●●●

● ●

● ●●

●●●

●●

●● ●●●

●●

●●

●● ●

● ●

●●

● ●

● ●●

● ●●

●●

●● ●●

●●●

●●

●●

●●

●● ●

●●

●● ●

●● ●●

●●

●●

● ● ●

●●

● ●●

●●

●●●●

● ●●● ●● ●●

● ●

● ●● ●

●●

●●

●● ●●●

●● ●

●●●● ●

●●

●●●

●● ●● ●●●●

●●●

● ● ●● ●

●●

●●

●●●

●●

●●

●● ●●

●● ● ●● ● ●

●●

●●

●●

●●

●●

●●●

●●●

● ●● ●

●● ●● ●

● ●●

● ●● ●●● ●

● ●

●●●●

●●

●●

●●

● ● ●

● ● ●●

●●

●● ●

●●●

●●

● ●●

●●●

●●

●●●

●●

●●

●● ●● ●●●●

●●

●●

●●

●●

●● ●●

●● ●

●● ● ●●●

●●●

● ●● ●●

●●

●●

●●● ●

●●

●●●

●●

●● ●

● ●●●●

● ●●

●●

●●●

●●

●●●

● ●●

●●●

●●

●●● ●●

●●

●● ●

●●

●●

●● ●

●●

● ●

●●●

●●● ●●

●●

●●

●●

●●●

● ●●

●●●

● ●

● ●●●

●●

●●

●●

●● ●

●●●

●● ●

●● ●●●● ●

●● ●●

● ●●

●●

●●

●●

●● ●

● ●●●●● ●

●●

●●

●● ●

●●●

●●

●●

●●

●●●

●●

● ●● ●●

● ●●

70 72 74 76 78 80

0.6

1.0

1.4

Estimateur par expansion

Estimateur

Eca

rt−

type

est

imé

●●●

●●

●●

●●

● ●

● ●●

●●●

●●

●●

● ● ●●●

●●● ●●

●●●●●

●●

●●

● ●

●●●

●●

●●

●●●

● ●●

●●

●●

●●

●●●●

● ●●

●●

●●

●●

● ●●●

●●●●

●● ● ●

●● ●

●● ●

●●

● ● ●●

●●

●●

●●

●●● ●

● ●●●

●●

●●

●●●

●●●●● ●

●● ●

●● ●

● ●●

●●

●● ● ●

● ●●

●●

●●

●● ●●

●● ●

●●●

●●

●●

●●●

● ●●

●●●

●●● ●

●● ●●

●●

●●

●●

●● ●●

●●●

● ●

● ● ●● ●

●●

●●

●●

●● ●●● ●●

●●

●●●●

●●

●●

●● ●

●●●

●●

● ● ●●

●●

●●

●●●

● ●●●

●●

●●

● ●●●

●●

●●

●●

●● ●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

● ●

● ●

●● ●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●● ●

●●

●●●

●● ●●

●● ●

●●

●●●

● ●

●● ●

● ●● ●●●

●● ●

●●

●● ●

● ●●●

●●● ●

● ● ●●

● ●

●● ●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●●

●●

●●●

●●●

● ●

●● ●●●

●● ● ●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●● ●

● ●

●●

●●

●●

●●

●● ●

●●

●●●

●●●

●●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●● ●●

● ●● ●● ●

●●

●●●

●●

● ●

● ●

●●●●

●●

●●● ●

● ●

● ●

●●

● ●● ●● ●

●●

●●

●●● ● ●

●●

●●● ● ●● ●

● ●●

●●●

●●

●●

●●● ●●●

●●

●●●

●● ●

● ●●● ●

●● ●

●●● ● ●

●●

●●

●●

●● ●

●●

●●

● ●● ●

●●●

●●●

●●

● ●●

● ●●●

●●

● ●●

● ●● ●

●●

● ●

● ● ●●●●●●

●●●

●●

●●●

●●

●●

●●

●● ●

●●●

● ●●

●●●

●●

● ●●●

●●

●●

●● ●

●●

●●

●●● ●

●●

● ●●

● ●

●●

●●●

●●

●● ●●

●● ●

● ● ●

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

● ●●

●●

●●●

●●

●● ●

● ●●

●● ●

● ●●

● ●

● ●●●●

●●

● ●●●

●●

●● ●

1.65 1.66 1.67 1.68 1.69 1.70 1.71

0.00

40.

006

0.00

8

Estimateur par expansion

Estimateur

Eca

rt−

type

est

imé

●●

●●

●●●

●●

●●● ●

●●

●● ●●

●●● ●●●

●● ●

●●●

●●● ●●

●●●●●

●●

●●●

●●

●●●

●●● ●●●

●●

●● ●●● ●

●●●

●●● ● ●●●

●●

●●●

●●

●●

●● ●

●● ●

●●

●●●

●●●

● ●●● ● ● ●

●●●

●●

●●●

●●● ●

● ●●●

●●

●●

● ● ●●●

●● ●

●●●●

● ●●

●●

●●

●● ●●

●●●● ●●

●● ●●

●●

●● ●

●● ●

● ●●●

● ●● ●

●● ●

●● ●●●

●●

●●

●●●

●●●●

●●

● ●● ●●

●● ●

●●

●●●● ● ●●

●●

●●● ● ●●

● ●●●●

●●

●●● ● ●●● ●● ●

●● ●

●●

● ●● ●

●●

●●

●●●

●●●

● ●

●●

●● ●● ●●

● ●● ●●

●●

●●

● ● ●●●

●●●●

● ●●

●●

●●● ●

● ●● ● ●

●●●

●●

● ●●

●●

● ●

●●

●●●

●●●

●● ●

●●

●●

●●

●●●

●● ● ●●●●● ●●

●●

●● ●

● ●●

●●

●● ●

●● ●●●

●●● ●

●●

●● ●

●●●

● ● ●●●

●● ●

●● ●●●●●

●●●

●●

●● ●●

●●●●

● ●●

●●●

●● ● ●

●●

●●●

●● ●

●●

●●

●●●

● ●●●

●● ● ●

●● ●●

●● ● ●

● ●● ●

●●

●●

●● ●●

●● ●● ●●

●●

● ● ● ●●●

●●●

●●

●●

●●

●●

●●

● ●●

● ●●

●● ●

● ●●●

●●

● ●●●

● ●●● ●

●●

●●

●●

●●

● ●

●●

●●● ● ●● ●

●● ●● ● ●

●●

●● ●●● ●

●●●

●●●

●●

●●

●●●

●●● ● ● ●

● ●● ●●

●● ●●●

●● ●●

●●●● ●

●● ●

●●

●●

●●

●●

●● ●

● ●●

●●● ●

● ●

●●

●●

●●

●●

●● ●●

●● ● ●●

●●

●●

●●

●● ● ●

●●

●●

●●

●●

● ● ●

●●● ●●●

●●●●

●●●

●●●

●●

●●

●●

● ●●●●

●● ●

●●● ●

● ●●●

●●● ●●

● ●●

●●

● ●●

●● ●●●

●● ●●●

●●●

● ●●● ● ●

●●

●● ●● ●●●

●●●

● ●

●●●

● ● ●

●● ●●

●●

●●● ●● ●●

●●

●●

●●

●●

● ●●●●

●●

●●

●●

● ●●●●

●●●

● ●

●● ●● ●●●●

●●

●●●●

●●

● ●●●● ●

●●●

●●

●●

● ●●

●●●

● ●●

●●

●●

●●

●●

●●●

●●● ●●

●●

●●

●●

●●

●●

●●

● ● ●●●

● ●●

● ●● ●

●● ●

●● ●● ●●

● ●●

●●

●●

●●● ●

●●●

● ●●

●●

● ●●

70 72 74 76 78 80

0.6

1.0

1.4

Estimation avec probas estimées

Estimateur

Eca

rt−

type

est

imé

●●● ●●

● ●

●● ●

●●●

●●

●●

●●

●●●●

●●● ●

●●

●●

●●

●●●●

● ●● ●●

●●

●●

●●

●● ●●

●●

●●

● ●

●●

●●● ●●●

●● ●

●●

●●

●●

●● ●

●●●● ● ●● ●

●●●

●●

● ● ●●

●●●

●●● ●●

●●● ●

●●●

●●

●●

●● ●

●●

●●

●● ●

●●

●●

●●●

●● ●

●●●

●●

●●●● ●

●●

●●●●

●● ●●●

●●●

●●●

●● ●●

●●

●●

●●●

●●

●●

●●

●● ●●

●●

●●

●●

● ●●

●●

●●● ●

●●

●● ● ● ●●●●

● ● ●

●●●

●● ●

● ●●●

●●

●●●

●●

●● ●● ●

●● ● ● ●

●●●●

●●

● ● ●●

● ●●●

●●●

●●

● ●●

● ●

●● ● ●● ●

●●

● ●●●

●●

●●

●●

●● ●● ●

● ●●●●● ●●

●● ●

●●

●●

●●

●●

●●

●●●

●●●

● ●●●

●●

●● ●● ●

● ●●

●●

●●

● ●

●●

●●

●●●

●●

●●●

● ●● ●●

● ●

●● ●●

●● ● ●● ●

●●● ●

●●

●● ●

● ●●● ● ●

●●●

●●●

●●

●●

●●●

●●

●●

●● ●●●●

●● ●

●●●

●●●

●●●

●●

●●

●●●

●● ●

● ●●●

● ●● ●●

●●

●● ●

●●

●●

●●

●● ●● ●

●●

●●●● ●

●● ●●

● ●

● ●●●

●●●

●● ● ●

●●●

●●

●● ●

●●

●●●●

●●● ● ●●

●●● ●

●●

● ●● ●●●●

●●●

●●

● ●

●●

●●

●● ●

● ●●

●●●

●●

● ●●● ●

●●●

● ●●

● ●● ● ●

●●●

●● ●

●●

●●●

●● ●

●●

●● ●●

●●

●● ●

●●● ●

●●

● ●● ●

●●

●●● ● ●

●●

●● ●

●●

●●

●●

● ●●

●●

●● ●

●● ●●● ●●

●●●

●●

● ●● ● ●

● ●●

● ●●

●●

●●

● ●●●

●●

●●

● ●

●●

● ●

● ●●●

●●

●●●

● ●

●● ●● ●● ●●●

●●● ●●

●● ●

●●

●● ●●●●

●●

●●●

●●

● ●●

● ● ●●

●●●

●●●

●● ●

● ●● ● ●●●

●● ●

●● ●

●●

●●

●●

●●

●● ●●

●●

●● ●●

●●

●●●

●●

●●●

●●● ●●

● ●●●

●● ●

●● ●

●●

● ●●●

● ●● ●●

●●●

● ●

●●

●● ●

●●

● ●

●●

●●

●●

●●

●●●

●●● ●

●● ●●●●

●●

●●

●●● ●●

●●

●●●

●● ●● ●● ●●

●●●

●●

●●●

●●● ●●● ●

●●

●●●

●●● ●

1.65 1.66 1.67 1.68 1.69 1.70 1.71

0.00

40.

006

0.00

8Estimation avec probas estimées

Estimateur

Eca

rt−

type

est

imé

81/160

Page 83: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Traitement de la non-réponsepartielle

82/160

Page 84: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Le problème

La non-réponse partielle ("item non-response") survient lorsqu’uneunité répond à l’enquête, mais renseigne une partie des variablesseulement.

On va traiter ce problème par imputation : une valeur manquanteest remplacée par une valeur plausible. Cette imputation se justi-fie sous une modélisation de la variable d’intérêt appelée le modèled’imputation.

L’imputation permet de recréer un fichier de données complet, cequi facilite l’analyse. En revanche, elle perturbe les relations entreles variables et peut donner une impression artificielle de précision sil’imputation n’est pas prise en compte dans les calculs de variance.

83/160

Page 85: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Les étapes du traitement de la non-réponse partielle

1 Identification des valeurs manquantes,2 Choix d’un modèle d’imputation,3 Recherche des facteurs explicatifs de la variable d’intérêt,4 Choix du mécanisme d’imputation,5 Imputation des valeurs manquantes.

84/160

Page 86: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Identification des valeurs manquantes

Deux points importants :distinguer les non-répondants partiels des non-répondants to-taux,distinguer la non-réponse partielle des valeurs manquantes duesà la forme du questionnaire.

Point 1 : l’imputation ne concerne que les individus qui ont réponduglobalement à l’enquête (répondants totaux), mais pas spécifique-ment à la variable d’intérêt y (non-répondant partiel). Les deux mé-canismes de non-réponse sont généralement différents.

Point 2 : ne pas traiter par imputation l’absence d’une valeur yk dueà la forme du questionnaire (question filtre).

85/160

Page 87: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Le modèle d’imputation

86/160

Page 88: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateur imputé

Pour simplifier, nous nous plaçons dans le cas où l’échantillon S neprésente pas de non-réponse totale ; on note dk le poids (éventuelle-ment calé) d’un individu k.

Alternativement, on peut voir S comme le résultat d’un tirage endeux phases (une correspondant au plan de sondage, l’autre au mé-canisme de non-réponse totale).

87/160

Page 89: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateur imputé

Pour simplifier, nous nous plaçons dans le cas où l’échantillon S neprésente pas de non-réponse totale ; on note dk le poids (éventuelle-ment calé) d’un individu k.

Alternativement, on peut voir S comme le résultat d’un tirage endeux phases (une correspondant au plan de sondage, l’autre au mé-canisme de non-réponse totale) :

88/160

Page 90: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateur imputéOn note p(·) le mécanisme de sélection de l’échantillon S. En l’ab-sence de non-réponse partielle pour la variable y, le total ty peut êtreestimé sans biais par

ty =∑k∈S

dkyk.

En situation de non-réponse partielle, deux mécanismes supplémen-taires interviennent :

le mécanisme de réponse à la variable y, noté q(·), avec pkla probabilité que yk soit renseigné ;le mécanisme d’imputation, noté I, qui remplace une valeurmanquante yk par une valeur artificielle y∗k.

On noteSry ≡ Sr le sous-échantillon d’individus ayant renseigné la va-riable y,Smy ≡ Sm le sous-échantillon d’individus n’ayant pas renseignéla variable y.

89/160

Page 91: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateur imputé

L’estimateur imputé est donné par

tyI =∑k∈Sr

dkyk +∑k∈Sm

dky∗k.

L’erreur totale tyI − ty peut se décomposer sous la forme

tyI − ty =(ty − ty

)+(tyI − ty

),

avecty − ty ⇒ erreur d’échantillonnage (+ non-réponse totale),tyI−ty ⇒ erreur due à la non-réponse partielle et à l’imputation.

Au stade de la correction de la non-réponse partielle, le premier termed’erreur est incompressible.

90/160

Page 92: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateur imputé

L’objectif de l’imputation est de limiter au maximum l’erreur due àla non-réponse partielle

tyI − ty =∑k∈Sm

dk(y∗k − yk).

L’erreur d’imputation sera limitée :si les valeurs imputées y∗k sont proches des valeurs réelles yk ;ou si les écarts entre valeurs imputées y∗k et valeurs réelles yk secompensent en moyenne.

Pour créer des valeurs imputées y∗k aussi proches que possible desvaleurs réelles yk, on va mobiliser l’information auxiliaire disponiblesur S pour proposer une modélisation raisonnable de la variabled’intérêt.

91/160

Page 93: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Modèle d’imputationLe mécanisme d’imputation est généralement motivé par un mo-dèle d’imputation (par exemple, un modèle de régression) qui viseà prédire la variable yk à l’aide d’une information auxiliaire zk dispo-nible sur l’ensemble de l’échantillon.

m : yk = z>k β + σ√vkεk pour k ∈ S. (8)

Dans ce modèle :β et σ2 sont des paramètres inconnus,vk est une constante connue,les résidus εk sont des variables aléatoires iid, par exemplecentrées réduites.

Le modèle d’imputation utilisé doit être adapté au type devariable traité. Le mécanisme d’imputation doit être adapté àl’analyse que l’on souhaite réaliser sur l’échantillon.

92/160

Page 94: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

p(.)

q(.|S)

Plan

de sondage

Mécanisme

de non-réponseU

S

Sr93/160

Page 95: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

p(.)

q(.|S)

m

Modèle

d’imputation

Plan

de sondage

Mécanisme

de non-réponseU

S

Sr94/160

Page 96: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

p(.)

q(.|S)

I

m

Modèle

d’imputation

Plan

de sondage

Mécanisme

de non-réponse

Mécanisme

d’imputation

U

S

Sr95/160

Page 97: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Propriétés de l’estimateur imputé

Sous la modélisation utilisée, le biais de l’estimateur imputé s’écrit :

B(tyI) = EmpqI(tyI − ty

)= Emp

(ty − ty

)+ EmpqI

(tyI − ty

)' EmpqI

(tyI − ty

).

Le mécanisme d’imputation utilisé a pour objectif de rendre ce biais(approximativement) nul, sous des hypothèses de modélisation rai-sonnables.

Un objectif secondaire est de limiter la variance de l’estimateur im-puté, en utilisant un mécanisme d’imputation efficace. Pour des pa-ramètres plus complexes (tels que la médiane), il est souvent difficilede limiter à la fois le biais et la variance.

96/160

Page 98: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Méthodes d’imputation

97/160

Page 99: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Types de méthodes

On peut classer les méthodes d’imputation en deux groupes :lesméthodes déterministes : elles conduisent à la même valeurimputée si le mécanisme d’imputation est répété,les méthodes aléatoires : la valeur imputée inclut une compo-sante aléatoire, et peut donc changer si le mécanisme d’impu-tation est répété.

On peut ajouter une troisième famille de méthodes, transversale.Les méthodes d’imputation par donneur consistent à piocher unindividu parmi les répondants, et à utiliser la valeur observée pour lavariable y pour remplacer la valeur manquante.

98/160

Page 100: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation déterministe

99/160

Page 101: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Mécanisme d’imputation par la régressionL’imputation par la régression déterministe s’appuie sur le mo-dèle (8) :

m : yk = z>k β + σ√vkεk

⇒ I : y∗k = z>k βr pour k ∈ Sm,

avec

βr =

∑k∈Sr

ωkv−1k zkz

>k

−1 ∑k∈Sr

ωkv−1k zkyk,

où ωk désigne un poids d’imputation attaché à l’unité k (Haziza,2009). On utilise généralement ωk = 1 (imputation non pondérée)ou ωk = dk (imputation pondérée par les poids de sondage).

L’estimateur imputé est égal à

tyI =∑k∈Sr

dkyk +∑k∈Sm

dk

[z>k βr

].

100/160

Page 102: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Mécanisme d’imputation par la régression

Cet estimateur est approximativement sans biais sous la modélisationutilisée :

B(tyI) ' EmpqI(tyI − ty

)= Empq

∑k∈Sm

dk(y∗k − yk)

' 0.

L’hypothèse fondamentale est que le vecteur zk permette une bonneprédiction y∗k = z>k βr de la valeur manquante.

La précision de l’estimateur peut être évaluée par :la variance totale Vmpq

(tyI − ty

),

la variance anticipée EmVpq(tyI − ty

)= EmVpq

(tyI).

101/160

Page 103: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par la moyenne

L’imputation par la moyenne est un cas particulier d’imputationpar la régression. Elle s’appuie sur le modèle simplifié

m : yk = β + σεk pour k ∈ S, (9)

obtenu avec zk = zk = 1 et vk = 1. On obtient l’estimateur

βr =

∑k∈Sr

ωkyk∑k∈Sr

ωk≡ yωr.

Dans le cas d’une imputation pondérée par les poids de sondage, onobtient :

tyI =

( ∑k∈S dk∑k∈Sr

dk

) ∑k∈Sr

dkyk.

102/160

Page 104: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas favorable

Probabilité de réponse pk

Revenu yk

Femmes

Hommes

Revenu moyen yµ

103/160

Page 105: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas favorable (suite)

Probabilité de réponse pk

Revenu yk

Femmes

Hommes

Revenu moyen yµ

Moyenne des répondantsryω

104/160

Page 106: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas défavorable

Probabilitéde réponse pk

Revenu yk

Femmes

Hommes

Revenu moyen ym

105/160

Page 107: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas défavorable (suite)

Probabilitéde réponse pk

Revenu yk

Femmes

Hommes

Revenu moyen ym

Moyenne des répondants ryw

106/160

Page 108: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par la moyenne

Compte-tenu du modèle d’imputation utilisé, l’imputation par la moyenneconduit à une estimation approximativement non biaisée du total sitous les individus de l’échantillon sont peu différents par rap-port à la variable d’intérêt.

En pratique, cette hypothèse est rarement vérifiée sur l’ensemble del’échantillon. On peut en revanche essayer de partitionner l’échan-tillon en classes S1, . . . , SH de façon à ce que au sein de chaqueclasse les individus soient peu différents par rapport à y (même lo-gique que pour la stratification).

On impute alors par la moyenne au sein de chaque classe.

107/160

Page 109: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par la moyenne dans des classes

On parle d’imputation par la moyenne dans les classes d’impu-tation. Cette méthode s’appuie sur le modèle

m : yk = βh + σhεk pour k ∈ Sh. (10)

Exemple : imputation de la variable revenu par la moyenne, dansdes classes définies selon le sexe.

Pour un individu k non-répondant de la classe Sh, on obtient y∗k =

βrh avec

βrh =

∑k∈Srh

ωkyk∑k∈Srh

ωk≡ yωrh,

en notant Srh = Sh ∩ Sr.

108/160

Page 110: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par la moyenne dans des classes

L’imputation par la moyenne conduira également à une estimation(approximativement) non biaisée si le comportement moyen des in-dividus de Sr ne diffère pas du comportement moyen des individusde S, par rapport à la variable y. Ce sera le cas en particulier si lesprobabilités de réponse sont voisines.

Là encore, cette hypothèse est généralement peu réaliste. Une im-putation par la moyenne dans des classes conduira à une estimationapproximativement non biaisée si les probabilités de réponse sontvoisines au sein de chaque classe.

Il faut donc constituer les classes de façon à ce que, au sein de chaqueclasse, les individus soient peu différents par rapport à y et/ou lesprobabilités de réponse soient voisines.

109/160

Page 111: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas favorable 2

Probabilitéde réponse pk

Revenu yk

FemmesHommes

Revenu moyen ym

110/160

Page 112: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Cas favorable 2 (suite)

Probabilitéde réponse pk

Revenu yk

FemmesHommes

Revenu moyen ym

Moyenne des répondants ryw

111/160

Page 113: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Construction des classes d’imputation

En pratique, on peut constituer les classes d’imputation de la façonsuivante :

1 soit en modélisant la variable y :on effectue une régression afin d’obtenir une prédiction yk deyk, en fonction de l’information auxiliaire disponible.on constitue les classes d’imputation en ordonnant les individusselon les yk, ou en croisant les variables qui resortent de façonsignificative.

2 soit en modélisant la probabilité de réponse à la variable y :on effectue une régression logistique afin d’obtenir une prédic-tion des probabilités de réponse pyk.on constitue les classes d’imputation en ordonnant les individusselon les pyk, ou en croisant les variables qui resortent de façonsignificative.

112/160

Page 114: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation aléatoire

113/160

Page 115: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Mécanisme d’imputation par la régressionL’imputation par la régression aléatoire s’appuie sur le modèle(8) :

m : yk = z>k β + σ√vkεk

⇒ I : y∗k = z>k βr + σ√vkε∗k pour k ∈ Sm,

avec

βr =

∑k∈Sr

ωkv−1k zkz

>k

−1 ∑k∈Sr

ωkv−1k zkyk.

On ajoute au terme de prédiction z>k βr un terme aléatoire σ√vkε∗k,

avec :σ un estimateur de σ,ε∗k un résidu aléatoire, centré réduit.

L’estimateur imputé est égal à

tyI =∑k∈Sr

dkyk +∑k∈Sm

dk

[z>k βr + σ

√vkε∗k

].

114/160

Page 116: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Mécanisme d’imputation par la régression

Cet estimateur est approximativement sans biais sous la modélisationutilisée :

B(tyI) ' EmpqI(tyI − ty

)= EmpqI

∑k∈Sm

dk(y∗k − yk)

' 0.

L’hypothèse fondamentale est que le vecteur zk permette une bonneprédiction y∗k = z>k βr de la valeur manquante.

La précision de l’estimateur peut être évaluée par :la variance totale VmpqI

(tyI − ty

),

la variance anticipée EmVpqI(tyI − ty

)= EmVpqI

(tyI).

115/160

Page 117: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par hot-deck

L’imputation par hot-deck est un cas particulier d’imputation parla régression aléatoire. Elle s’appuie sur le modèle simplifié

m : yk = β + σεk pour k ∈ S, (11)

obtenu avec zk = zk = 1 et vk = 1.

La méthode du hot-deck consiste à remplacer une valeur manquanteyk en sélectionnant au hasard et avec remise un donneur yj ∈ Sr,avec des probabilités proportionnelles aux poids d’imputation ωj . Onobtient l’estimateur :

tyI =∑k∈Sr

dkyk +∑k∈Sm

dky∗k.

116/160

Page 118: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par hot-deck

C’est la version aléatoire de l’imputation par la moyenne. Elle s’appuiesur le même modèle d’imputation : on suppose que les individus dela population ont en moyenne le même comportement par rapport àla variable y.

On a

EI(tyI) =∑k∈Sr

dkyk +∑k∈Sm

dkEI(y∗k)

=∑k∈Sr

dkyk +∑k∈Sm

dkyωr.

Le hot-deck a l’avantage d’aller chercher une valeur effectivement ob-servée : en particulier, la méthode est applicable pour une variable ca-tégorielle. En revanche, il s’agit d’une méthode d’imputation aléa-toire : elle conduit donc à une augmentation de la variance.

117/160

Page 119: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par hot-deck dans des classes

Comme l’imputation par la moyenne, l’imputation par hot-deck estgénéralement réalisée au sein de classes d’imputation : une valeurmanquante yk est remplacée en sélectionnant au hasard un donneurparmi les répondants de la même classe.

Le modèle d’imputation est le même que pour l’imputation par lamoyenne dans des classes. L’estimateur imputé sera approximative-ment non biaisé :

si les individus d’une même classe sont peu différents par rapportà y ;ou : si les probabilités de réponse sont voisines au sein d’unemême classe.

118/160

Page 120: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par donneur

Le hot-deck est un cas particulier des méthodes d’imputation pardonneur. On peut également utiliser :

l’imputation par la valeur précédente : une valeur manquanteyk,t est remplacée par la valeur observée à une date précédenteyk,t−1,⇒ efficace si la variable mesurée évolue peu dans le temps,l’imputation par le plus proche voisin : une valeur manquanteyk est remplacée en choisissant le donneur le plus proche du non-répondant k, au sens d’une fonction de distance à définir (enfonction des variables auxiliaires disponibles)

119/160

Page 121: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par donneur

Les méthodes par donneurs ont l’avantaged’imputer des valeurs effectivement observées,de pouvoir être utilisées pour les variables catégorielles,de permettre d’imputer plusieurs variables à la fois (aide à pré-server le lien entre les variables).

Pour plus de détails sur les méthodes d’imputation possibles, voirHaziza (2009,2011).

120/160

Page 122: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Quelle méthode d’imputation utiliser ?

Dans le cas considèré ici (estimation d’un total), les méthodes d’im-putation déterministes sont préférables car elles ne conduisent pasà une augmentation de la variance. Si le modèle d’imputation estcorrectement spécifié, l’imputation conduira à une estimation ap-proximativement non biaisée du total.

Dans le cas général, la méthode d’imputation utilisée dépend du typede variable (quanti/quali), et de l’analyse que l’on souhaite faire :estimation d’un total, calcul d’une régression, d’une médiane, ...

Si on s’intéresse à la distribution de la variable imputée, les méthodesd’imputation déterministes ne sont généralement pas adaptées. Parexemple, l’imputation par la moyenne "écrase" de façon artificielle lavariable imputée au niveau de sa valeur moyenne.

121/160

Page 123: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Problèmes liés à la non-réponse

L’imputation ne crée pas d’information : elle peut donner une fausseimpression de précision, car elle conduit à un fichier de données com-plet, "comme si" on n’observait aucune non-réponse partielle.

L’imputation tend à perturber les relations entre les variables. Si l’ob-jet de l’analyse est par exemple d’étudier une régression entre deuxvariables, l’imputation des données manquantes doit être réalisée defaçon à préserver la relation entre ces variables.

122/160

Page 124: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation de paramètres aprèsimputation

123/160

Page 125: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Objectifs

Etudier dans le cadre de données simulées les conséquences de lanon-réponse sur l’estimation d’un paramètre univarié (moyenne) oumultivarié (ajustement d’une régression).

Etudier les conséquences de l’imputation sur :

le biais des estimateurs,la variance des estimateurs,la préservation des relations entre les variables.

124/160

Page 126: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Le cadre

On considère une population artificielle de taille N = 10, 000 conte-nant deux variables x et y. La variable x a été générée selon une loiGamma(2, 5). La variable y est générée selon le modèle

yk = β0 + β1 xk + εk,

avec les εk générés selon une loi Normale(0, σ2).

Le R2 du modèle est égal à 0.5. Les paramètres d’intérêt sont :le vecteur des coefficients de régression β = (β0, β1) = (10, 1)

la moyenne µy = 19.98

125/160

Page 127: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Les données

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

● ●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

●● ●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●● ●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●

● ●

● ●●

●●

●●●

● ●

●●

● ●●

● ●

● ●

●●

● ●

● ●

●●

●●

● ●

● ●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●●

●●

● ●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

● ●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●●

●●

● ●

● ●●

●●

● ●

● ●

● ●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●●

●●

●● ●

●●

● ●

● ●

●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●● ●

●●

●●

●●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●● ●

●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

●●

● ●●

●●

● ●

●●

●●

●●●

● ●

●●

● ●● ●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●●

●●●

●●

● ●

●● ●

● ●

●●

●●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●●

●●

●●●

●●

●●

●●

● ● ●

● ● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●● ●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

● ●

● ●

● ●

●● ●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

● ●

● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●●

●●

● ●

●●

●●●

●● ●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●● ●

●●

●●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

● ●

●●

● ●

●●●

●●

●●

● ●

● ●

● ●

●●

● ●

●●

●●

●●

●●

● ●

●●

● ●

● ●

●●

●●

● ●

●●

● ●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●●●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●●

●●

●●

● ● ●●

●●●

●●

●●

●●

● ● ●

●●

●●

●●●

●●

●●●

●●

●●

● ●

● ●●

●●

● ●

●●

● ●

●●

●●●

●●

● ●●

●●

●●

●● ●●

●●

●●

●● ●

●● ●

● ●

● ●●●

●● ●

●●

●● ●

●●

●●

●●●

●●

● ●●

●●●●

●●

● ●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

● ●

● ●

●●

●●

●●

●●

● ●

● ●

●●

●●

● ●

●●

● ●

●● ●

●●

● ●

●●

●●

●●

●●

● ●

●●

● ●

● ●

●●

● ●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

● ●

● ●

●●

● ●

●●

●●

● ●

●●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

● ●

● ●

● ●

●●

●●

● ●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

● ●

● ●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●● ●

●●

● ●

● ●

● ●

● ●

●●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●●

●●

● ●

●●

●●

0 10 20 30 40 50 60

020

4060

Distribution des variables dans la population

x

y

126/160

Page 128: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation sur données nonimputées

127/160

Page 129: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation en situation de réponse complète

On sélectionne un échantillon S de taille n = 500 selon un SRS. Lamoyenne µy peut être estimée sans biais par

y =1

n

∑k∈S

yk.

Le vecteur β est estimé approximativement sans biais par

βπ =

(∑k∈S

dkxkx>k

)−1∑k∈S

dkxkyk

=

(∑k∈S

xkx>k

)−1∑k∈S

xkyk

avec xk = (1, xk)> et dk = N/n le poids de sondage.

128/160

Page 130: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

●●

● ●

●●

●●

●●

●●

●●●

●●

● ●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

●●

● ●

● ●

●●

●●

●● ●

●●

●●

●●

●●

●●

0 10 20 30 40 50 60

020

4060

Distribution des variables dans un échantillon

x

y

129/160

Page 131: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Simulations

On répète B = 1, 000 fois la procédure de sélection et d’estimationdes paramètres.

On obtient une estimation de la distributionde l’estimateur de moyenne y (boxplot),de l’estimateur βπ des coefficients de régression (nuage de points).

130/160

Page 132: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution de l’estimateur y

●●

19.0

19.5

20.0

20.5

21.0

21.5

131/160

Page 133: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des coefficients de régression estimés βπ

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●●

●●

●● ●

● ●

●●

●●

●●

● ●

●●●

●●

●●

● ●

●● ●●

●●

● ●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

●● ●●

● ●

●● ●●

● ●

●●

●●

●● ●

●●

●●

●●

●● ●●

● ●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●●

●●

●●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

● ●●

●●

● ●

●●

●●

●●

●●● ●

●●

●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●● ●

●●

●●

●●

● ●●●

●●

●●●

●●

●●

● ●

● ●

●●

●●●

●● ●

●●●

● ●●●

●●

●●

●●

● ●

●● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

● ●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

● ●

● ●●

●●

●● ●

●●

●●

●●●

●●

●●

●●

●●

●●

● ● ●

8 9 10 11 12

0.6

0.8

1.0

1.2

1.4

beta0

beta

1

132/160

Page 134: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation en situation de non-réponse partielle

On suppose maintenant :que la variable x est renseignée pour chaque individu k ∈ S,que la variable y est affectée par de la non-réponse partielle, etn’est observée que sur un sous-échantillon de répondants Sr.

Ici, chaque individu de l’échantillon renseigne la variable y avec uneprobabilité p. Il s’agit donc d’un mécanisme MCAR. Dans ce qui suit,on considère p = 0.8, 0.6 et 0.4.

133/160

Page 135: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation en situation de non-réponse partielle

On utilise les estimateurs basés sur les répondants

yr =1

nr

∑k∈Sr

yk,

βr =

∑k∈Sr

xkx>k

−1 ∑k∈Sr

xkyk.

On obtient là aussi une estimation de la distribution des estimateursyr et βr en simulant B = 1, 000 fois le plan de sondage + le méca-nisme de non-réponse.

134/160

Page 136: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Données échantillonnées

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

● ● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

0 10 20 30 40−

1010

3050

p=0.8

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

● ● ●●

●●

●●

● ●

0 10 20 30 40

−10

1030

50

p=0.6

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

0 10 20 30 40

−10

1030

50

p=0.4

x

y

135/160

Page 137: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution de l’estimateur yr

●●

●●

p=1.0 p=0.8 p=0.6 p=0.4

1819

2021

22

136/160

Page 138: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des coefficients de régression estimés βr

●●

●●●

●●●

●● ●

●●● ●

●●

●●

●●

●●

●●

● ●●●

●●●●

●●●●

●●

●● ●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●● ●

●●

●●●●●●

● ●

●●

● ●

●●●

●●●

● ●● ●●●

●●

●●

●●● ● ●

●●

● ●

●● ●● ●

●●●

●●

●●●

● ●

●●●●

●●

●●

●●

●●

● ●●●

●● ●● ● ●

●● ●

●●

●●●

●●●

●● ●

●●●

●●

●●●

●●●

●●

●●

●●●

●●●

●●

●●

● ●●●

●●●

●●●●

●●

●● ●●●

● ●●●

●●●●● ●

● ●●●

●●●

●●● ●

●●●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●● ●●●●●

● ●●●●

●●

●●

●●

●●

●●

●●

●●●●

● ●

● ●

●● ● ●●

●●●

●●●

●●●

●●●

●●●

●●

●●

●●●●

●●

●●

●●●

●●

●● ●

●●●

●●● ●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●● ●

●●

●●

●●●

●● ●●

●●

●●●

●●

●●

●●●

● ●●

●●●

●●●

●●●

●●

● ●●●

●●

●●●

●●

●●●

●●

● ●

●●

●● ●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

● ●●

●●●

●●

●●●

●●

● ●● ●● ●

●●

●●

● ●

●●

●●●

●●

●●●● ●

●●

●● ● ●●●

●●

●●●

●●

●●

●● ●●●

● ●● ●

●●

● ●

●●● ●

●●

●●

●●●

●●

●●●●

●●

●●

● ●●●

●●●

●● ● ●

●●

● ●●

●●●

●●

● ●

●●

●●●

● ●

●● ●●●●

●●

●●

●●

● ●●

●● ●●

●●● ●● ●

●●●

●● ●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●● ●

●●

● ● ●●●

●●●●● ●

● ●●● ●●●

● ●

●● ●

● ●●

●●

●●●

● ●● ● ●●

●●● ●

●●

●●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

●● ●●

●● ●

●●●

● ●●

●●●

●●

● ● ●●●

●● ●●

●●●●

●●

●● ●

●●●

● ●

●●

● ●● ● ● ●●

●●● ●

●●●

●●●● ●

●●

●●

● ●● ●●●

● ●

● ●●

●● ●●

●●

●●

● ●●

●●

●●

●●

●●

● ●●

●●

●●● ●

●●

●●

●●

●●●

●●●●

●●

● ●

● ●●●

8 9 10 11 12

0.6

0.8

1.0

1.2

1.4

p=1.0

Beta0

Bet

a1●

●●● ●●

●●

●●●

●●

●●

● ●

●●

●●

●●●

● ●

●●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●● ● ●

●●●

●●

● ●●

● ●

●● ●

●●● ●

●●

● ●

●●

●●

●● ●●

●●●

●●

●●

●●

●●● ●

●●

●●

●●

●●●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●●

●●●

●●

●● ●●

● ●

● ●●●●

●●●●

●●

●●

●●●● ●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

● ●●

● ●

●●●

●●●

●●

●●

● ●●●

●●●

●●

●●

● ●●

● ●●

●●

●●

●●

●●

●● ●

●● ●●●

●● ●

●● ●

●●

●● ●

●●

●●

●●●

●●

●●●

●●

●●

●●●

● ●

●●

●●●

●●

●●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●●● ●

●● ●●

● ● ●●

●●

●●

● ● ●●

●●

●●

●●

● ●●●

●●

●●

●●

●●

●●

●● ●

●●●

●●

● ●●

●●

●●

●●

●●

●●●

● ●

● ●●

● ●

●●●

●●

●●

● ●

●●

●●

●●

●● ●●●●

●●● ●

●●

●●

●●

●●●

●●

●●

●● ●

●● ●●

●●

●●●● ●

● ●●

●●

●●

● ●●

●●

● ●●

●●●

●●

●●

●●

●●

●● ●

●●● ●● ●

●●

●●

● ●●

●●

●●

●●

●● ●●●●

●●●

●●●●

●●

●● ●

●●●

●●

● ●●●

●●

●●

●●

● ● ●● ●

●●●

● ●

●●●

●●●●

●●

●●●

●●

● ●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

● ●

● ●●

●● ●●

●●

●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

● ●● ●

●●

●●

●● ●●

●●● ● ●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●● ●

●●

● ●● ●●●

●●●

● ●

●●

●●●

●●

●●

●●●●●

●●

●●

●●●●

●●●

●●●●

●●

●● ●●

● ●●

●●

●●

●●●

●●

●● ●

●●●●● ●●

●●

●●●●

●● ●

●● ●●

● ●● ●●

●●● ●

● ●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ● ●●●

●● ●

●●

●●● ●●

●●

●●

●●●

8 9 10 11 12

0.6

0.8

1.0

1.2

1.4

p=0.8

Beta0

Bet

a1●

● ●●

●●

●●

●●

● ●●

●● ●

●●●

●●

●●

●●●● ●

●●

●●●

●● ●

● ●

●●

●●●

●●

●● ●

●●

●●

●●●

●●● ●

● ●●

● ●● ●●

●●

●●●●

●●● ●

●●

●●

●●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●

●●

●●

●● ●

●●●

●●

●●

●● ●

●●

●●

●● ●

●●●

● ●●●

●●

● ●

● ●

● ● ●●●

●●

●●

● ●

● ●

● ●

●●

●●

● ●●

●●

●●

●●

●●●

●●●

●● ●●●

● ●

●● ●

●●●

●●

●●

●● ●

●●

● ●

● ●●

●●●

●●

●●● ●

●● ●

●●

●●

●●●

●●

● ●●●

●●

●●●●

●●

●● ●

●●●

●●

●●●● ●

●●

●●

● ●

●●

● ●

●●●

●●●

● ●●

●●

●●●

●● ●●

●●

●● ●

●●

● ●●●

● ●●

● ●

●●

●●

●●

●●

●●

●●●●

●● ●

●●

●● ●

● ●

●● ●

●●

●●

●●●

●● ●● ●

● ●●

●●

●●

●● ●

●●●●

●●

●●

●●●●

●● ●

●● ●●

●●●

●●

●●

●●

●●●

●●● ●

●●

●●

●●

●●●

●●

●●

●●●

●●●● ●

●●

●●

●● ●

●● ●

● ●●

●●

●●

●●

●●●● ●●

●●

●●

●●●

●●●

●●

●● ●●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●● ●●

●●●

●●

● ●●

●●

●●●

●●

● ●

●●

●●

●●

●●

●●

● ●●

● ●●

●●

● ●

●●

●●

● ●

●● ●

●●

●●●●●

●●● ●● ●

●●

●● ●● ●

●●● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

●●●

●●●

●●

●●

●●

●●

●●

●●

●● ●●

● ●●

●●●

●● ● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●● ●

●●

●●

● ●●

● ●●●

● ●●

●●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●●

●●●

●● ●

●●

●●

●●

●● ●

● ●●

● ●

●●

● ●

●●● ●

8 9 10 11 12

0.6

0.8

1.0

1.2

1.4

p=0.6

Beta0

Bet

a1 ●● ●

●●

● ●

●●

●● ●

●●

●●

●●● ●

●●

●● ●

● ●

●●●

●●

●●

● ●

●●

● ●

●●

●●●

●●

●●

● ●●

●●

●● ●●● ●●

●●

●●

●●

● ●●

●●●●

●●

● ●

●●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●● ●●

● ●

●●

● ●

●●

●● ●

● ●

●●

● ●● ●

●●

●●

●● ●●

●●

● ●

●● ●

● ●

●●

●●● ●

● ●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

● ●●

●●

●●

●●

● ●

●●●

●●●●

●●

●●

●●

●●

● ●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●● ●

●●●

●●

●●

● ●

●●

●●

●●●● ●●

●●

●●

●●

●●

●●

●●

● ●● ●

● ●

●●

●●

●●

●●●

●●

●●● ●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●● ●

●●

●● ●●

●●

●●●

●●

●●

● ●●●●

●●●

● ●

●●

●● ●●●

●●

●●

●●

●●

●●

●●●

●● ●●

● ●●

●●

●●●

●●● ●

●●

●●●

●●

●●

●●

●●

●●

●●● ●

●●

● ●

● ●

●●

● ●

●●●

●●●

● ●

● ●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

● ●●

●●

●●

● ●●●

●●

●●●●

●●●

●●● ●

●●

● ●●

●●

●●

●●

●●●

●●

●● ●●

●●●

●●●

●●

●●

●●

●●

● ●●●

●●

●●

●●

●●

● ●

●●●

●●

●●●● ●

●●

●●●

●●

●●

● ●

●●

●●● ●●

●●● ●

●●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●●●

●●

●●

● ●

●●

● ●●

●●

●●

●●

●● ●

●●

●●

●●

●● ●●

●●

●●

●●●

●●

● ●●●

●● ●

●●

●●

8 9 10 11 12

0.6

0.8

1.0

1.2

1.4

p=0.4

Beta0

Bet

a1

137/160

Page 139: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimation sur donnéesimputées

138/160

Page 140: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Estimateurs imputés

Pour un individu k ∈ Sm, soit y∗k la valeur imputée pour remplaceryk. On notera également

yk =

{yk si k ∈ Sr,y∗k si k ∈ Sm.

On obtient alors les estimateurs imputés

yI =1

n

∑k∈S

yk,

βI =

(∑k∈S

xkx>k

)−1∑k∈S

xkyk.

On étudie le comportement de ces estimateurs en simulant B =1, 000 fois : plan de sondage + mécanisme de non-réponse + méca-nisme d’imputation.

139/160

Page 141: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par la moyenne

140/160

Page 142: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Principe

Pour un individu k ∈ Sm, on impute y∗k = yr avec

yr =1

nr

∑k∈Sr

yk.

On obtient en particulier les estimateurs imputés

yI = yr,

βI =

(∑k∈S

xkx>k

)−1∑k∈S

xkyk.

141/160

Page 143: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Données obtenues sur un échantillon

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

0 10 20 30 40−

1010

3050

p=0.8

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

● ●● ●● ● ●● ●●● ●● ●●●●●● ●●● ● ●● ●●● ●● ●● ●●● ●●●●● ●●●● ● ●●● ● ●● ●●● ●● ●● ● ●●●● ●● ●●● ●● ●● ● ●● ● ● ●●● ●● ● ●● ● ●● ● ●●● ●●● ●● ●●●● ●●● ●●● ●● ●

0 10 20 30 40

−10

1030

50

p=0.8

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

0 10 20 30 40

−10

1030

50

p=0.6

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●●● ● ●● ●●●● ●●● ● ●●● ● ●●● ● ● ●●●● ● ●●● ● ●●● ● ●●●● ●● ● ●●● ● ●●●● ●●● ●● ● ●● ● ●● ●● ●● ●● ●●● ●● ●● ● ●● ●●● ● ●● ●● ●●● ●●●●● ● ●● ●● ●● ● ●● ●●● ●● ●●●●●● ●●● ● ●● ●●● ●● ●● ●●● ●●●●● ●●●● ● ●●● ● ●● ●●● ●● ●● ● ●●●● ●● ●●● ●● ●● ● ●● ● ● ●●● ●● ● ●● ● ●● ● ●●● ●●● ●● ●●●● ●●● ●●● ●● ●

0 10 20 30 40

−10

1030

50

p=0.6

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

0 10 20 30 40

−10

1030

50

p=0.4

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●●● ●● ●● ●● ●● ● ●●● ● ●●● ● ●● ●●●●● ●●● ●●●●●● ● ●● ●●●●● ●● ●●● ● ● ● ● ●●● ●●● ● ●●●●●●● ●● ●● ●● ●● ●● ● ● ●●● ● ● ●● ● ●● ●● ●●● ● ●● ●●●● ●●● ● ●●● ● ●●● ● ● ●●●● ● ●●● ● ●●● ● ●●●● ●● ● ●●● ● ●●●● ●●● ●● ● ●● ● ●● ●● ●● ●● ●●● ●● ●● ● ●● ●●● ● ●● ●● ●●● ●●●●● ● ●● ●● ●● ● ●● ●●● ●● ●●●●●● ●●● ● ●● ●●● ●● ●● ●●● ●●●●● ●●●● ● ●●● ● ●● ●●● ●● ●● ● ●●●● ●● ●●● ●● ●● ● ●● ● ● ●●● ●● ● ●● ● ●● ● ●●● ●●● ●● ●●●● ●●● ●●● ●● ●

0 10 20 30 40

−10

1030

50

p=0.4

x

y

Cas complets Données imputées

142/160

Page 144: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution de l’estimateur yI

●●

p=0.8 p=0.6 p=0.4

1819

2021

22

143/160

Page 145: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des coefficients de régression estimés

●●●●

●●● ●● ●

● ●●●● ●

●● ●

●●

●●

●●● ● ●

● ●● ●

●●● ●

●●

●●●

●●●

● ●●

●●

●●

● ●●●

● ●●

●●●

●●● ●●

●● ●●● ●

●●●●● ●

●● ● ●

●●

● ●●●●●

●●

●●●

●●● ●

● ●●● ●●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

●● ●

●● ●

● ●● ●

●●

●●

●●

●● ●●

●●

●●

●●●

●● ●●● ●●●

●●● ●

● ●●●

●●● ●

●●●

● ●

●●●

●●

●●● ●●

●●

●●●● ●

● ●● ●

●●

● ●●●

● ●●

●●●

●●●

●●

●●●● ●● ●

●● ●

●●●

● ●●

● ●● ●

●● ●

●●

●●

●●●

●●●●●

● ●

● ●● ●

●●

●●●●

●●

● ●●

●●● ●●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●● ●●●● ●

●● ●●

●●●

●●

● ●● ● ●

●●

● ●●

●●

●●

●●●●●

●●

●● ●

●●

●●●●

●●

●●

●●

●●●

● ●●●

●● ●●● ●

● ●●

●●● ●● ●● ●

●●● ●●

●● ●●

●●● ●●●● ●● ●

● ●●● ●●

●● ●● ●

● ●●

● ●●● ●

●●

●●

●●

●●

●●●●

●●

●●● ●●

●● ●

●●● ●●●● ●●

●●●●

●●●●

●●

●●●

●● ●●

●●●

●●

●●●●

●●●

● ●●● ●

● ● ●●●

●●●●

●●●●

●●

●●●

●●

●●●

● ● ●

● ●●

●●●

●● ● ●●

●●

●●

●●

●●● ●

●●●● ●

●●

●●●

●●●

●●

● ● ●● ●

●●●

●●

●●●

●●●● ●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●● ●

● ●●●

●●●

●●●●

●●

●●● ●

●●

● ●●

●● ●●●

●● ●●

●●

● ●●●

●● ●

●●

● ●●●●

● ●●●

● ●●●

●●

●●●●

●● ●●●

●● ●●● ●

●●●

●●

●● ●● ●●

●●

●●●

●● ●●

●●●

● ●●●●

●●●

●●

●●

●●●

●● ●●

●● ●

●●●

●●

●●●

● ●●●

● ●●● ●●

●●

●● ●●

● ●●

●●●

●●

●●●●●

●●●● ●

●●

●●

●●●

● ●●

●●

●●

●●●

●●

●●

●●

●●●●

●● ●● ●

●● ●

●●● ●●

●●●

●● ●

●●●

●●

●● ●

● ●●●●●●

●● ● ●

● ●

●● ●●

●●●

●● ●●●

●●

●●●●

●●● ●●

●●●

●●●

●●

●● ●

●●

●●

●●

●●● ●

● ●●

●●

●● ●● ●

●●

●●

●●● ●

●●

● ●● ● ●●

●●

10 12 14 16 18 200.

00.

40.

81.

2

p=0.8

Beta0

Bet

a1

●● ● ●●

●● ● ●●

●●

●●

●● ●●

● ●

●●

●● ●

●●●

●●●

● ●●

●●

●●● ●

●●

● ●●●●

● ●

●●●●●

● ●●● ●● ● ●●

●●●● ●●●

●● ●

● ●●

●● ● ●● ●● ●

● ●●

●● ●

● ● ●●

●●● ● ●

●●

●●●

●●●

●●●

●●●

● ●●

●●

●●●

●●●

●●● ●

● ●● ●

● ●

● ●●

●●

●●

●●

●●● ●

●●● ●● ●

●●

●●

●●● ●

●●●

●●

● ●●●

●●

●●●

●●

●● ●●●●●

●●

●●● ●

● ●●

●●●

●●●

●● ●

●●

● ●●

● ●●

●● ●

●● ●

●●

●● ●●●● ●●

●● ●●

●●

●●

● ●●●

● ●●

●●●●●●

●●

●● ●

●●

●●

●●●● ●●

●● ●●

●●●

●●●●

●●

● ●●●

●●

●●●

●● ●●

●● ●●

● ●

● ●●●

● ●●

●●

●●

● ●● ●

● ●●

●●

●●

●●●● ●

●● ●● ●

●● ●

● ●● ●

● ●●●●

● ●●

●●

●●● ● ●

●●●● ●●

●● ●

● ●

●●

●●

●●●

●●

●●

●●●

●●

●●●● ● ●●

● ●

●●● ●● ● ●

●●

● ●● ●

●●

●●

●● ●●

● ●● ●●●

●●●

●●

●●●

●●

● ●●

●● ●

●●●

●●

●●

●●

● ●●

●●● ●

●●

●●

●●●

●● ●●

● ●●

●●●

●●

●●●●

●● ●● ● ●●●●

●●

●●

●●

● ●●●●● ●●●

●●

●●

●●●

●●

●●● ●

● ●

●●●

●●

●●●

●●

●●● ●

●●

● ●●● ●● ●

●●

●●

●●● ● ●

●●

●●●●

●●

●●

●●

● ●●

●● ●●

● ●●

● ●

●●

●●●

●●

●●

●●

●●

●●● ●●●

●●

●● ●

●● ●

● ●●●●

●●●

●●●

● ●●

● ●●● ●

●●

●●●

● ● ●●●

●●

●● ●●

●●

●● ●

● ●●

●●

●●

●●

●●● ●

●●

●●

● ● ●●● ●● ●

●●● ● ●●

●● ●●●●●

● ● ●●● ●

●●

●●● ●

● ●●

●●

●●

●●

● ●●

● ●

●●●

●● ●

●●

●●

●●●

●●

● ● ●●● ●●●

●●●●●●

●●

●● ●

●●

● ●●

●●● ●

●● ●

●●●●● ● ●

●●● ● ●● ●

●● ●

● ●●●●

●●●

●●

●●●

●●

●● ● ● ●

●●●

●●●

● ●

●●

●●

●●

●●

●●●

● ●●

●● ●

●●

●●

● ●●

● ●●

●●● ●

●●

●● ●●●●

● ●

●●

●●

●●

●●

●●

●●● ●

●●

●●

●● ●●●

●●

●●

●● ●

●●

●●

●●● ●

10 12 14 16 18 20

0.0

0.4

0.8

1.2

p=0.6

Beta0

Bet

a1

●●●●

●●●● ●

●●

●●

●●●

●●

●● ●●

●● ●●

●●

●●● ●●

●●

● ●●● ●

●● ●

●●

●●●

●●●● ●

●●●

●● ●

●●

●●●

●●

●● ●

●● ●

●●

●● ● ●●●

●●● ●

● ●● ●● ●●●

● ●●● ●

●● ●●●●

● ●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●● ●

● ●●

●●

● ●● ●●●●

●●●●

●●●

●● ●●● ●●●

●●

● ●●

●●●

●●

● ● ●●●

●● ●● ●

●●● ●

●●

●● ●●●

●●

● ●●● ●●

●●● ●

●●

●●

●●

● ●●●

● ●●

●●●●

● ●●● ●

●●

● ●● ●●

●●●

●● ●●

● ●●●

●● ●● ● ●●●● ●●

●●

●●

● ●●●

●●

● ●

●●

● ●

●●

●●●●●

●●

●● ●

●●

●●● ● ●

●●

●● ● ●

●●●

● ●●

●●

●●

●●

●●●

●●

●● ● ●

●●● ●

● ●

●●● ● ● ●● ● ● ●●

● ●●

●●

●●

●● ●● ●

● ●● ●●

●●

●●

●●●● ● ●

●●

●●●●

●●

● ●●●

●●

● ●●

●● ● ● ●●

●●

●●●

● ●● ●

● ●● ●

●●●●●

● ●

●● ●

●●

●● ●●

●●

●●●●● ●

●●● ● ●

●● ●●

●●

●●●

●● ●●

●●

●●●

●● ●

●●

● ●●●

● ●

● ●●

●●

●●

●● ●●●

●●

●●

●●

●●●

●● ●●●

●●

●● ●

● ●●●● ●

● ●● ●●

●●

●● ●●●

● ● ●●

● ●●●

●●

●●

● ●● ●●

●●●

● ●● ●●●

●●

●●●●●

● ● ●●

● ●●

●●

●●●

●●●

● ● ●●

● ●●●● ●

● ●

●●

●● ●

●●

●●

●●

● ●●●

●●

● ●●● ●

● ●●●

●●

●● ●●

● ●●●

●●●

●●●

●● ●

●●●●● ●

●●

●●

● ●●

●●

●●●●●

●●●● ●

● ●●

●●

●● ●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●● ●●●

● ● ●●

● ●●

● ● ●●

●●

●● ●

● ●●

●● ●

●●● ●

●● ●●

●●

● ●●

● ●● ●● ●●

●●

●●

● ●● ●●

●● ●

●●●

●●

●● ●●

●●●

●●●

●● ●●●●●

●●● ●

● ●●

●●

●●

● ●● ●●

●●

●●● ●●

●●●

● ●●

●●●● ● ● ●

● ●● ●

●● ●

● ●●●

●●

●●● ●● ●● ●

●●

●●●

●●

●● ●●

●● ●

● ●●

●●

●●●●

● ●●

●●●

●●

●●●

●●

●●●

● ●●●

●●●● ●●

●●● ●●

●●

●●

● ●●

●●● ●

●●

●●

●●

●●

●●●

●●

●● ●●●

●●● ●

●●●

10 12 14 16 18 20

0.0

0.4

0.8

1.2

p=0.4

Beta0

Bet

a1

144/160

Page 146: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par hot-deck

145/160

Page 147: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Principe

Pour un individu k ∈ Sm, la valeur yk est remplacée en tirant auhasard et avec remise un donneur y(j) ∈ Sr, avec des probabilités detirage égales.

La valeur imputée peut encore se réécrire

y∗k = yr +[y(j) − yr

].

Interprétation : une valeur manquante est remplacée par la moyenneyr des répondants, à laquelle on ajoute un résidu aléatoire (de moyennenulle).

146/160

Page 148: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Données obtenues sur un échantillon

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

0 10 20 30 40−

1010

3050

p=0.8

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●●

● ●

●●

●●

●●

●●

0 10 20 30 40

−10

1030

50

p=0.8

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

0 10 20 30 40

−10

1030

50

p=0.6

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●● ●

●●

●● ●●

●●

●●

● ●

●●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●● ●

●●

●● ●

●●

●● ●●

●●● ●

●●

● ●

●●

● ●

●●

●●

●●

●●

0 10 20 30 40

−10

1030

50

p=0.6

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

0 10 20 30 40

−10

1030

50

p=0.4

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●

●●

●●

● ●●

● ●●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●● ●

●●

● ●●

●●

●●

● ●

●●

●●

●●

●●

●● ● ●

●●●

●●

●●

● ●

●●●

●●

● ●

●●

● ●● ●

●●● ●

● ●

●●

●●

●●

●● ●

●●

●● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

● ●●●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

0 10 20 30 40

−10

1030

50

p=0.4

x

y

Cas complets Données imputées

147/160

Page 149: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution de l’estimateur yI

●●

●●

p=0.8 p=0.6 p=0.4

1819

2021

22

148/160

Page 150: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des coefficients de régression estimés

●● ● ●●

● ●●●

● ●●

●● ●

● ●● ●

●●

● ●●●

● ●● ●

●●● ●

●● ●

●●● ●

● ●●

●●● ●

●●●

●●

●●

●●

●●● ●

●● ●●● ●●●

●●●● ●

●● ●●

●●●

●●● ●

● ●●

● ●●

●●

● ●

●●●

●●● ● ●●

●●

●●

● ●

●●●

●●

●●●

●●

●●

● ●●

● ● ●

●●

●●

● ●●

●●

● ●●●

●●

●● ●●

●●●

●●●●● ●

●● ●

●●●

●● ●●●●

●●

● ●

●●● ●

● ●

●●●

●●

● ●● ●

● ●

●●

● ● ●●●

●●

●● ●

●●

● ●●

●●

●●

●●●

● ●●

●●

● ●● ●

●●● ●

●●●

●●

● ●●

●●●

●●

● ●●●

●●●● ●● ●

● ●●

●●

●●

●●●

●●●

●●●

●●●

● ●

●●●

●●

●●

●●

●●

● ●

● ●●

●●

●● ●

●●

●●

●● ●●●

● ●

●●● ●●

● ●●●

●● ●●

● ●

● ●●

● ●●● ● ● ●●

●●

●●●

●●●

● ●●●●

●●

● ●●

●●

●●●

●●

● ●

●●

●● ●●●●● ●

● ●●●●

●● ●

●●●

●● ●●

●● ●● ●● ●● ●

● ●●●

●●●

●●●

●● ●● ●

●●●●

● ●●

●●●●

●●

● ●●●● ●

●●●

●●

●●●

●● ●

●●● ●●●● ●

●●●

●● ●●●

●●

●●●

● ●●

●●●

●● ●●

●●●

●●

●● ●● ● ●●

●●

●●● ●

●●●

● ●

●●●●

●●

●● ●

● ●●

●●

●●●

●●

● ●●●●

●●

●●

●● ●

●●●

●●●

● ●● ●

●●

●●

●●

●●●● ●●

●●●● ●

●●

●●

●●●

●●

●●

●●

●●

● ●●

●●

●● ●

●●●

●●●

●●●

●●

●● ●● ●●

●●

●●●●

●●

●●

●●

● ●●●

●●

●●

● ●● ●

●● ●

●●

● ● ●●

● ●●●● ●

●●

●●

●●

●●●

● ● ●●

●● ●

●● ●

●● ●●●

● ●●

●●●●

●●

●●

●● ●●●

●●●

● ●

●●

●●

●●

●● ●●

●● ●●

●●●

●●

●●

● ●●● ●

●●

● ●●

●●●

●●

●●

●●

●●●●●

●●● ●

●●

● ●●●

● ●●

●●

●●

●●

●●●

●●

●●

●● ●● ●●

●●● ●

●●

●● ●

●●● ●● ●●

●● ●● ●

●●●●

● ●●●

● ● ●

●●

●● ●●

● ●● ●●

●●●●

●●

●●●

●●● ●●

●●●

● ●●●

●●●●

● ●

●●

●●

●●

●● ●

●●●

● ●

●●

●●●

●●

● ●●●

●●●● ● ●● ●

10 12 14 16 18 200.

00.

40.

81.

2

p=0.8

Beta0

Bet

a1

●●●

●●●

●● ●

●●●

●●

●● ●

●●● ●

● ●●

●●

●●

● ●

●●●

●●

●●

●● ● ●●●

●●

●●●●●

● ●●●

●● ● ●●

●●●

●●

●● ●

● ●●

●●● ●

● ●● ●

●●●

● ●

●●

●●

● ●●

●●

●●●

●●

●●

● ●●● ●●

● ●●

● ●●

●●

●●

●●

●●

●●●●

●●●

●● ●●

●●●

●●●●

●●●

●●●

●●

●●

●●

●●

● ●● ●●

●●

●●

●● ●●

●● ● ●●

●●

●●

●●

●●

● ●●

●●●

●●●

●● ●

●●

●●●

● ●●

● ●●●

●●

●●

● ●●●● ●

●●

● ●●

●●●

●● ●

●●

●●● ●

●● ●

●●

●●● ●

●●

● ●●

●●●

●●●●

●●

●●

●● ●

●●●

● ●●

●●

●●●

●●

●●●

● ●●

●●

●●●●● ●

●●

●●

●●

●●

●●

●●

●●●

● ●●

● ●●●

●● ●

●●●

●●●●

●●●

● ●●

●●

●●

●●

●●● ●●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●● ●● ●

●●● ●

●●●

●●

● ●

●●●

● ●●●

●●

●●● ●

●●●

●●●

●●●●

●●

●● ●●●

●●

●●

● ● ●● ●

●●

●●● ● ●

●●●

●●● ●

●●

●●

●●

●●●

●● ●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

● ●●

● ●●

●● ● ●●●

●●●

●●●

●●

● ●

●●

●●●

●●● ●● ●●●●

●●● ●

● ● ●●●●

●●●●

●●

●●● ●●

●● ●●

● ●●

● ●

●●●

● ●●

● ●● ●●

●●

●●●

●●● ●

● ●●

●● ●

●●

●● ●●● ●● ●

●●

●●● ●

●●●

●●

●●

●●

●●●

●● ●

●● ●●

●● ●

●●

●● ●

●●

●●

●●

● ●

●●● ●

●●●

●●●●

● ●●●●

●●

●●

●●● ●

●●

●● ●

●●●

● ●●

●●

●●●

● ●

●●

●●

●●●

●●

●●●

●● ●●

● ●●

●●

●●

●●

●●●

●●

●●

●●●

● ●●

●●

●● ●

●●

●●●

●●

●●

●●

● ●●

●● ●

●● ●●

●●●

●●

●● ●● ●

●●●

●●●

●●● ●

● ●

●●●

●●

●●

● ●●●●

●●

●●

● ●●●●

●●

●●

●● ●

●●●

● ●

●● ●● ●●● ●●

●●

●●

● ●

●●

●●●

●●●

●●

●●●●

●●● ●●

●●

●●●

10 12 14 16 18 20

0.0

0.4

0.8

1.2

p=0.6

Beta0

Bet

a1

●●●

●●

●●●●

● ●

●●

●● ●

● ● ●●

●●

●●

●●

●●

●● ● ●●

●●●●

● ●●

●●

●●●

● ●

●●

●● ●

●●

●● ●●●

●●●

●●●

●●

●●

●●

●●

● ● ●●●●

●● ●●● ●●

●●

●●●

● ●●

● ●●

●● ●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●● ●● ●●●

●●

●●

●●

● ●

●●

●●

● ●●●

●●● ●● ● ●

● ●●

●●

●●

●● ●

●● ●

●●

●●●●

●●

●● ●● ●●

●● ●

●●

●●

●●● ●

● ●●

●●●●

●●

● ●●

●●●

● ●●

●●

●●●

●●● ●

● ●● ● ●●

●● ●●●●

●●

●● ●●

●●

● ●

●●

● ●

●●

●●

●●● ●

●● ●

●●●

●● ●●

● ●●

●●

●●

●●●

●●

●●

● ●

● ●●●

●●● ●

●●

●●

●● ●

●●

●●

●●

● ● ●●

●● ●●● ●

●●

●●

●●

●●

● ●● ● ● ●

● ●●●

●●

●●

●●

●●●

●●

●●

● ●●

●● ●●●

●●●●

●●

●● ●

●●

●●● ●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

● ● ●●

●●

● ●●●

●●●

●●

●●

●●

●● ●●●

● ●

●● ● ●

● ●●

●●

●●

●●● ● ●●

● ●

●●● ●

●●●

●●

●● ●

●●

● ●●●●

● ●●

●●

●●

●● ●

● ● ●●

●●

●●●

●●

●●

●● ●●

●●

● ●

●●

●●

● ●●●

●●

●● ●

●●●

● ●

●●●

●● ●

● ●●●● ●● ●

●●

●●

●●

●●●

● ●●

●●●

● ●●●

●●● ●

●● ●

●●

●● ●

●●

●●●

●● ●

●●●

●● ●●● ●

●●

●● ●

●● ●

●●

●●

●●

●●●

●● ●

● ●● ●

●●

● ●●●

●●●

● ●●

● ●●

●●

●●

● ● ●

●●

●●● ● ●●

● ●

●●

●●

●●

●●●

●●

●●

● ●●●●

●●

●●

● ●

●●●

●●

● ●●●

●●

●●

●●

●●

●●● ●●●

●●

●●

●● ●

● ●●

●●

●● ● ●●

●● ●●● ●

● ●

● ●●

●●

●●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

● ●● ●●

● ●●

●●●●

●●

●●

●●

●●

● ●●

●●

●●

●●●●

●●●●

●●

● ●●●●

●●

● ●

●●

● ●● ●

●● ● ●

●●

●●

●●

●●

●●●

● ● ●

●● ●

●● ●●

●● ●

●●

●●●●

●● ●

10 12 14 16 18 20

0.0

0.4

0.8

1.2

p=0.4

Beta0

Bet

a1

149/160

Page 151: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par la régressiondéterministe

150/160

Page 152: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Principe

Pour un individu k ∈ Sm, la valeur yk est remplacée par la prédictiony∗k = x>k βr, avec

βr =

∑k∈Sr

xkx>k

−1 ∑k∈Sr

xkyk

le coefficient de régression estimé sur les répondants.

On obtient alors les estimateurs imputés

yI =1

n

∑k∈S

yk,

βI = βr.

151/160

Page 153: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Données obtenues sur un échantillon

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

0 10 20 30 40−

1010

3050

p=0.8

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●●●● ●

●●

●●

●●

●● ●

●●●

●●

●●

●●

●●

●●

● ● ●●

● ●

●●●

●●

●●●

●●

●●

●●

0 10 20 30 40

−10

1030

50

p=0.8

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

0 10 20 30 40

−10

1030

50

p=0.6

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●●

● ●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●● ●●●

●●

●●

●●●

●●●●●

●● ●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●●●● ●

●●

●●

●●

●● ●

●●●

●●

●●

●●

●●

●●

● ● ●●

● ●

●●●

●●

●●●

●●

●●

●●

0 10 20 30 40

−10

1030

50

p=0.6

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

0 10 20 30 40

−10

1030

50

p=0.4

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●

●●

●●● ●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●● ●

● ● ●●

●●● ●

●●●●●

● ●●

●●

●●

●●

●●

● ●

●●

● ●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●● ●●●

●●

●●

●●●

●●●●●

●● ●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●●●● ●

●●

●●

●●

●● ●

●●●

●●

●●

●●

●●

●●

● ● ●●

● ●

●●●

●●

●●●

●●

●●

●●

0 10 20 30 40

−10

1030

50

p=0.4

x

y

Cas complets Données imputées

152/160

Page 154: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution de l’estimateur yI

●●

●●

●●●

p=0.8 p=0.6 p=0.4

18.5

19.0

19.5

20.0

20.5

21.0

21.5

153/160

Page 155: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des coefficients de régression estimés

●●●● ●●●●● ●

●●●●● ●

● ●● ● ●●● ● ●●●●●● ●● ●● ●

●●

●● ● ●● ● ● ● ●● ●

●●●●●● ●

● ●●● ●●

●●● ●●

● ●● ● ●● ●● ●● ● ●●●

●●

● ●●● ●

●● ●● ● ●●●

● ●●

●●● ●

●●

●● ●●●

●●●●

●●● ● ●●

● ● ● ●● ● ●●

●●

●●●●

● ● ●●●

● ●●

● ●●●

● ●●●

●●

●● ●

●●●

●●

●●●● ●

●● ●● ● ●●●●

●● ●●

● ●●

●● ● ●● ●● ●● ●●● ●●●●●

●● ●● ●●

●●

● ●● ● ●● ● ●●

●●

●● ●●

● ●●

● ●●●

●● ●●●

● ●●

●● ●● ●● ●●

●● ● ● ●● ●●

●●

●● ●●● ●

● ●●● ● ●● ●

●●

●● ●●●

●●●● ●●● ●●

● ●● ●●●

●● ●●

● ●●● ●●

●● ●●●● ● ●●●● ●

●●● ●

●● ●●●

●● ● ●●● ●●

●●●● ●●●

●● ●● ●

●●● ●●● ●●● ● ●● ●

●● ●● ● ●

●● ●

●●● ●● ●● ●● ●●● ●●● ●● ●● ● ● ●● ●

●●●

● ● ●● ●●● ●●● ● ●●●●

●● ●●●

●●●●

●●●● ●

●●● ● ●

●● ●●●

●●● ●

● ●●● ●●

● ● ●●●● ●

● ● ●●●

●● ●● ●●

● ●●● ●●●●

●●●

● ● ● ●●●

●● ● ●●

●●● ●●● ●● ●● ●

●●●

●●●

●● ● ● ●

●●

●●●●

● ●●

●● ●● ●●● ● ●

●●●● ●●● ●● ●●

●●●●

●●● ●● ● ● ●

● ● ●●● ●●● ●●●

●●●● ●●● ●●●● ●● ●● ●

●●● ●● ●●

●●●●●

●●●

●● ●● ● ●●

● ● ●●●● ● ● ●● ●●● ●

●●●● ● ● ●

●●

● ●● ●●●●● ●

●●●● ● ●● ●

● ● ●●

● ●●●● ●

●●

●●● ●●●

● ●● ●●● ●● ●●

●●●● ●●

●●●●

● ●●

●● ●● ●

●●

●●●● ●

●●●

●●

●●

●● ●

●●

● ●●●● ●●●●●

●●● ● ●● ● ● ●

●● ● ●●

●●●

● ●● ● ●●●

●● ● ●● ●●● ●● ● ●● ●● ●●● ● ● ●● ●

●●

●●

●●

●●● ●

● ●●

● ● ●

●●●●

●●●● ●● ●● ●● ●●

●●

● ●●● ●●

●● ●

●●

●●●

●●●●● ●●

●● ●● ● ●●●

●●

● ●● ●●●● ● ●● ●●● ●●● ●

●●●

●●● ●● ● ●● ●

●●●

●●●

●●●●● ●● ●

●●●●●● ●

●● ●● ●●● ● ●●●

●● ●●● ● ●

●●● ● ●

● ●● ●● ●●●●●

●● ●● ●● ●●●● ●●

●● ●● ●●●●● ●

● ●●●●

● ●●

●●●●●●●●

●●●●●

●●●●

●●●●

●●

●● ●

● ● ●● ● ●●●

●● ●●

● ●●●●

●●● ● ●● ●

●● ●●

● ●●●● ● ●

8 9 10 11 120.

00.

51.

01.

52.

0

p=0.8

Beta0

Bet

a1

●● ● ●● ●●●●

●●

●●●● ●●

●● ●●

●●

● ●●● ●● ● ●● ● ● ●●

●●●

●●●● ● ● ●● ●

●●● ●●● ●● ●

●● ●●

●●●●

●●

●● ●●● ●● ●●

● ●●●

● ● ● ●●● ●

●● ●●● ●●● ● ●

●●● ●●

●●● ●●●

●●●●

●●● ● ●

●●

●●●● ● ●● ●

●●●

●●● ●●●

●● ●

● ●●● ● ●

●● ●●

●● ●

●●●

●●

●●● ●

●● ●●

●●

●●●●

● ●● ● ●

●● ●● ●● ●● ●

● ●●● ●●●● ●

●● ●● ●

●●

●●● ● ●● ●

●●

●● ● ● ●

● ●● ● ●

● ●

● ●● ●● ●●●●

● ●●● ●

●●

●●

●● ●

● ●●●● ●

●● ●● ●●

● ● ●● ● ●●

●● ●●●●

●●●

●●● ● ●

● ●● ●

● ●● ●●

●● ●●

● ●●● ● ● ●

●● ● ●●●

● ●

●● ● ●● ●●●

●● ●●●

● ●●●●●● ●

●●

●● ● ●●●

●●● ●●●● ●● ●●●

●●

●●●

● ●●

●●

●● ● ●● ●● ●● ●●● ●●

●●●●

●● ● ●● ●●●●

●●

●● ● ●●

●●●

● ●●●●●

● ●●●

●● ●

●●

●●●●●

●● ●●

●●●●

●●

●●

● ● ●● ●● ●● ●●● ● ●●

● ●●

●●

●●● ●

●●

●●● ●●●●

●● ●● ●● ●●

●●

●●●●

●●● ●●

● ●● ●●●●

●●●●

●●

● ● ●●●

●● ●●● ● ● ●

●●● ●● ● ●

●●

● ●●

●●● ●● ●●

●●● ●● ●

● ●●

●●●

●● ●●

●●

●●● ●●

●●●●

● ●●● ●●●●● ●● ● ●

●●

●●● ●●

●● ●●●

●●●

●●●●●●

● ●●● ●● ●●●●

●●● ●

●●● ● ●

● ●●

●● ●●●●

●●● ● ●●●

●●●●●

● ●●●● ●

●●●●

●●●

●●● ●●●

●● ●●

● ●● ●●

●●●●● ●

●●●

● ●●

●● ●●

●●

●●●●● ●

●●●

●●

●● ●● ●●●

● ● ●●●

●●

●●●

● ●● ● ●

● ●● ●

●● ●●

●●

●●●

●● ● ●●●●● ● ●● ●

●●●

● ● ●● ●●●●● ● ● ●

●●

●●

●●

●●

● ● ● ●●●●

●● ●

●● ●●● ●

●● ● ●●●●

●●

●●

●● ● ●

●● ●

●● ●

●●

● ●●●

●●●● ●●

●● ●● ● ●

●●●●●●●

●●●● ● ●● ● ●

●●●●

●●●●

●●●

●● ●●●

●●●

●●

●●● ●●

● ●●●

●●●● ● ● ●● ●

●● ●●●

●●●●● ●

●●● ● ●●

●●●

●● ●●

●● ●●

●● ●●●

● ●●

● ●●●● ●●●● ●●●

●●●● ●● ●●

●●

● ●●

●●●●●●●

●● ●● ●

●●●

●●●● ●●

●●● ●

● ● ●● ●●

●●●

● ●●

● ● ●● ●

●●● ● ●● ●

●● ●●

● ●●

●●● ●

8 9 10 11 12

0.0

0.5

1.0

1.5

2.0

p=0.6

Beta0

Bet

a1

●● ●●

●●

● ●● ●

●●●

●●●● ●

●●

●● ●●●

● ● ●● ●●

●●

●●●

● ●● ● ●

●●●

●●

● ●● ●●

●●

●● ●

●●● ●●

●●

●●

●●

●●

●●●● ●

●●

●● ●●

●● ●

●●

●●● ●● ●●●

●●●

●●● ●●● ●●

● ●● ● ●●

●●

● ●●

●● ●●●

● ●

●●

●● ●

●●●● ● ●●

● ●●●●

● ● ●●●

● ●●●●

●● ●●

●● ●●● ●● ●

●●

● ●●

● ●●●●

●●● ●

●●

●● ●

●●

● ● ●● ●● ●

●● ●●

●●●

●●

●●

●● ●●●

●●●

● ●●

●●● ● ●

● ●

●●●●

●●●● ●

● ●●●

●●

●●

●●

● ●● ●●●●● ●●●

●● ●

●● ● ●

● ●● ●

● ●●

●● ● ●

●●

●● ● ●

●●● ●

● ●●

● ●●●

●●●

● ●●

●●

●● ●

●●

●●

●●

● ●●●

●●●

● ●●●● ●● ●●●

●●

●●

●●

●●● ●● ●● ●

●●● ●● ●●

● ●

●●●

● ●●

●●

●● ●●● ●●

●●●

●● ● ●● ●●

●●●

●●● ● ●●● ●

●●● ●

●●

●●

●● ●●

●●●

●●●

●● ●

●●

●●

●● ●●

●●

●●

●●

●●

●● ● ●● ●● ●● ● ●● ●

●● ●

●●

●●

●●● ●

●●

●●●

●●●

● ●● ●●

● ●●

●●

●●

●●● ●●

● ●● ● ●●●

●●● ●

●●

● ●● ●●

●●

●●●

●●● ●●

●●

●● ● ●●●

●●

●●● ●● ● ● ●●

●● ●●●

●●

● ●

●●●●●

●●● ●

●●

●●●● ●●● ●

●●

●● ● ● ●● ●

●●

●● ●● ●●●

● ●●

●●●●

●●

●●

● ●●

● ● ●●●● ●●●

● ● ●●

●●

●●● ●●● ●

●●

● ●● ●●

●●●●

●●● ●● ●

●● ●

●●●●

● ●●

●● ●

●●●● ●

●●

● ●●

● ●● ●●

●● ●

●●●●

●●

●● ●●

●●

●●

●● ●

● ●● ●

●●●

●●

●● ●●

●●●

●● ●●

●●

●● ●

●●

●● ●●●● ● ●

● ●●●

●●●

●●● ● ●●● ●●

● ●●●●● ●●● ● ● ●● ● ●● ●● ●

●●

●●

●●●

● ●●

●● ●●

● ● ●

●● ●●●

●●● ● ●●●

●●●

●● ●●●

●●● ●●●

●● ●

●●●●

●●

●●

●●

●● ●

●●● ●

●●● ●●●

● ●●● ●●

●● ●

●● ●● ●

●●●

●● ●

● ●●

●●

●●● ●● ●●●●● ●

●●●● ●

●●● ●

● ● ●●●

●●● ●

● ●●● ●●

●●● ●●

●●

●●

●●● ●

●●●

●● ●●●●

●● ●●●● ●●●

● ●●● ●

● ●●●

● ●●

●●●

●● ● ●● ●

●●●●

●● ●

●● ● ●●

●●

●●●

● ● ●●●

●● ●● ●

●● ● ●●

●●

●●● ●

●●

●●●

●●●●

8 9 10 11 12

0.0

0.5

1.0

1.5

2.0

p=0.4

Beta0

Bet

a1

154/160

Page 156: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Imputation par la régressionaléatoire

155/160

Page 157: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Principe

Pour un individu k ∈ Sm, la valeur yk est remplacée par la prédictionx>k βr, à laquelle on ajoute un résidu aléatoire η(j).

Ce résidu aléatoire est tiré, avec remise et à probabilités égales, parmiles résidus effectivement observés

ηj = yj − x>j βr pour j ∈ Sr.

On obtient pour k ∈ Sm la valeur imputée

y∗k = x>k βr + η(j).

On impute donc "au plus près" du modèle (en tenant compte de sesimperfections).

156/160

Page 158: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Données obtenues sur un échantillon

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

0 10 20 30 40−

1010

3050

p=0.8

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

●●● ● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

● ●

● ●●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ●●

● ●

●●

●●

●● ●

● ●●

● ●

●●

●●

●●

0 10 20 30 40

−10

1030

50

p=0.8

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

0 10 20 30 40

−10

1030

50

p=0.6

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●● ●

●●

●●●

●●

●●

●●●● ●

●●

●●

● ●

●●

●●

● ●

●●

●●●●

●● ●●

●●

●●

● ●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●●

● ●

●●

● ●●

● ●

●●

●●

●●

●●

●●

● ●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●● ●

●●

●●

● ●

●●

●●

●●

●●

0 10 20 30 40

−10

1030

50

p=0.6

x

y

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

0 10 20 30 40

−10

1030

50

p=0.4

x

y ●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●●●

●●

●● ●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ● ●

● ●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

● ●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

●● ●

●●

● ●●

●●

●●

●●

●●

●●

●●

● ●

● ●●

●●

●●

●●

●●

●●

●●●

● ●●

●●

●●

●●● ●

●●

●●

● ●●

●●

●●

●●

● ●●●

●● ●

●● ●

●●

●●

0 10 20 30 40

−10

1030

50

p=0.4

x

y

Cas complets Données imputées

157/160

Page 159: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution de l’estimateur yI

●●

●●

●●

●●●●

●●●●

●●●●

p=0.8 p=0.6 p=0.4

1920

21

158/160

Page 160: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Distribution des coefficients de régression estimés

●● ●● ● ●

●●● ●

●●●

●● ●●●● ● ● ●

● ● ●● ●●● ● ●● ●● ●

●●●● ●

●● ●● ●●

● ●●●

● ● ●●●● ●

●●●●●

●●●●

●●●● ●

● ●● ●●● ●●

●●

●● ●●● ●

●● ●● ●

●●● ●●

● ●●

● ●● ●●● ●●●

●●● ●●●

●●●●

● ● ●●●● ●

●●

● ●●●●● ●●●

●● ●

●● ●

●●●●

●●●●

●● ● ●

●● ●●

●●●● ●●●

● ●● ●●

●●●● ●● ● ●

●●●● ●● ●

● ●●●●

● ●●●●

●● ●● ●●

●●

● ● ●● ●● ●●●

●●● ●●●

● ●● ●

●●●

●● ●●

●● ●

● ●●●

● ●●●●●

●● ● ●● ●

●●

●●●●

●● ●●

●●● ● ●●●

●● ●● ● ●●

●● ● ●●● ●●

● ●● ●●

●● ● ●● ● ●●● ● ●●● ●●●● ● ● ●

●●●

●●● ●●● ●

●●

●● ●

●● ●●●

●●● ●●

●●

●● ●● ●

●●● ●●● ●●● ● ●● ● ●● ●● ●●

●● ●

●●

● ●●● ● ●● ●●● ●●● ●●

●●● ●

●● ●

●●●●● ●●

●●● ●●● ● ●●●

●●● ●●

●●● ●

● ●●●● ●

●●

●●●

●● ●●●

●●

●●

● ●●● ●●

● ● ● ●●

●●

● ● ●●●

●● ●● ●●

● ●●● ●

●●●●●●● ● ● ●

●●●

● ●● ●●

●● ● ●●● ●● ●● ●

●●●

●●●

●●● ● ●

●●

●●● ●● ●●

●● ●●●●● ● ●

●●●● ●● ● ●● ●●

●●

●●●●

● ●● ● ● ●● ● ●●● ●●

●●●●

●●●●● ●● ●●

●●● ●● ●● ●

●●

●●● ●● ●●

●●●

●●

●●●

●● ●● ●● ●

● ● ●● ●●● ● ●● ●●● ●

●●●

●● ● ●

●●● ●● ●● ●●● ●

●●●● ● ●● ●

● ●●●● ●

●●● ●

●●●

●●●●●

●●

● ●●● ●● ●●●●●

● ●●●

●●●● ●●

●●

●● ●

●●●●

●●●

●●

●●●

●●

●●●

●● ●

●● ● ●● ●●●

●●● ● ●

●● ● ●●● ●

●●

●● ● ● ●● ● ●●● ●● ● ●

● ●● ● ●

●●●● ●● ●

●● ● ●

●●

●●● ●

●●

●●

● ● ● ●● ●●

● ● ●●

●●●●

●●●● ●●●● ●● ● ●

●● ●

●● ●●

●● ●●

●●

●●●●●

●● ●●

●● ●● ● ●●●

●●

●● ● ●●●● ● ●●● ●

● ● ●●

●●●●

●●● ●●

●● ●●

●●●

●●●

●●●●

●●● ●

●●●● ●● ●●

●●● ●● ● ●●●●● ● ●●●● ●

●●●

●●● ● ●●● ●●●

●●●● ●● ●● ●

●●● ●●

● ●●

●●●●● ●

● ●●●●

● ●●

●●● ●●● ●●

●● ●●●

●●

●●● ●●●●

●●● ●●

● ●

● ● ●●●

●● ●

● ●●●

●●

●●● ● ● ● ●●● ●

● ●●●●● ● ●

8 9 10 11 120.

00.

51.

01.

52.

0

p=0.8

Beta0

Bet

a1

●● ●

●● ●●

●●●

●●●●

● ●●

●● ●●

●●

●●●

●●●● ●●

●● ●●●●●

●●●● ● ● ●

● ●

●● ● ●●●

● ●

●● ●●

●●●●●

●●● ● ●●

●●●●

● ●●

●●●

●●● ●

●● ●●● ●● ● ● ●

●●●

●● ●●● ●●

●●● ●

●●●

●● ●

●●● ●● ●

● ●●

●●●●

● ● ● ●●●

● ●●

●●● ● ●

●● ●● ●● ● ●

●●●

●●●

●● ●●

● ●●●

●●

●●●

●●●● ●

● ●● ●●

● ● ● ●●●●● ●

● ●● ●

●● ●

● ●

●●

●●

●● ●● ●●

●●● ● ●

●●● ●

● ●

●●● ●

● ●●●

●●

● ●● ● ●●

●●

●●

● ●● ●●

●● ●

●● ●● ●●●●

●● ● ●●

●●●●

●●

●● ● ●●● ●

●●

●●●

● ●● ●

●●

●●●

● ●●

●●● ●●● ● ● ●●

● ●

●●● ●●

●●●

●● ● ●●

● ●●●●●●

●●

●● ● ●

● ●● ●●

●●●●●● ●●● ●

● ●●● ●

●● ●

●●● ●●● ● ●● ●●●

● ●● ●

●●

●● ●●● ●●

● ● ●●

●●● ●

●●

●●● ●●●● ●

● ●●●

●● ● ● ●●●

●●

●●

● ●●

●●●●

●●

●●

●● ●●

●● ●● ●● ●●●

● ● ●●

●●

● ●● ●●● ● ●● ●

●● ●●

● ●● ● ●●● ●●

● ●●●

●●● ●

●●●●

●●●●

●●●

●●

● ● ● ●●

●●● ●●

● ●● ●●●● ●

● ●●

●● ● ●

●●●

●●●

●●

●●● ●●●

●●●

●●

●●●●

●●

●●●●● ●

●● ●

● ● ●●●●

●●● ●● ● ●

●●●

●●●●

● ●●● ● ●

●●●

●●●

●●● ●●● ●●●●

●●●●

●●● ●●

● ●●

●● ●● ●●

●●● ●●●●● ●

●●●

● ●●●● ●

●●●

●● ●●

● ●●●

●●●●● ●

●●●●●

● ●●●●

●●●●●

●●

●●

●●

●●●

●●● ●

●●●

●●

●● ●● ●● ●

●● ●●

●●●●●

●● ●

●●●

●● ● ●

●● ●

●●

●●●●●

●●●●

● ●●

●● ●●●

●●●●● ●●●●● ● ●

●● ●

●● ●●

● ●●●●

●●

●●

●●●●

● ●●

●● ●●● ●

●●

●●● ●

●●●●● ●

●●● ●● ●

●●●●●●

●● ●●●●

●●● ●

● ●● ●●●● ● ●● ● ●●

●●

● ●●●

●●●

● ● ●●

●●●●

●●●

●● ●●● ●

●●

●●●●

●● ●

● ●

●● ●●●

●●●●● ●●●

●● ●

●●

●●

●●

●● ●●●●

● ● ●●●

● ●●●●

●● ● ●●● ●

●●● ●●●●

● ●●●

●●

●●

●●●●

●●

● ●●●● ●

●●● ●●

●● ●●●

●● ● ●● ●

●●

●●

● ● ●●

●● ● ● ● ●

●● ● ●● ●

●●

●●

● ●●

● ●●●

8 9 10 11 12

0.0

0.5

1.0

1.5

2.0

p=0.6

Beta0

Bet

a1

●● ●●

●●● ●

● ●

●●

●●● ●

●● ●

●●●●●●● ● ●● ●

●●

●●● ● ●●●

●● ●

●●●

● ●●●●

●●

●● ●●●● ●

●●●

●● ●●●

●●

●●●

●●●

●●●

●●

● ● ●● ●●● ●● ●●

●●

●●●

●● ●●● ●

● ●●●●●

●●

●● ●●

●● ●

●●●

●●●●

●●

●●●●

● ●●

●●●

●●

● ● ●● ●

● ● ●

●●●

● ●●●● ●●● ● ● ●

●● ●●● ●●

●●●

●●● ●

●●

●●

●●

●● ●

● ●●●

●●

●●●

●●

●●

● ●● ● ●

●● ●

● ●● ●

●●● ●●

●●

●●●●

●●● ●●

● ●● ●

●●

●●

●●

●● ●● ● ●●

●● ●●●

●●

●● ● ●

● ●● ●

● ●●

●●●

●●

●● ●●

●●● ● ●

● ●●●●

●●●

●●

●●

●●●● ●

● ●

● ●●●

●● ●● ●●●●

●● ●●

●●

●● ●

●●

●●● ●

●●● ●● ●

●●

●●●

● ●

●● ●● ●

●●

●●

●●●●●●●

●●●●

●● ●●

●●●●

●●●● ● ●

●● ●●

●●●●

●●●

● ● ●●

●●

●●

●● ●● ●

●●

● ●● ● ●

●●

● ●●

●●

●●

● ●●

● ●●●● ● ●●● ●● ● ●

●●

●●

●● ●

●●● ●

●● ● ●●●●

●●● ●

●●●

●●

●● ●● ●●● ● ●

●●● ●● ●

● ●●

●●●

●●

●●●●●●

●●●

●● ● ●●●●●

●●● ●● ●

● ●●● ● ●●

●●

●●

● ●●●

●●

●●

●●●

●●●● ●

●●●

●● ●

● ●● ●● ●

●●

●●● ●●●

●●

●● ●

●●●●

●● ● ●

● ● ● ●●●

● ●●●

● ●●●

●●●●

●●● ●

●●

●●● ●

●●●

●●●

● ●●

● ●●

●●

●● ●●

● ●●

●● ●

●●● ● ●

●●

●● ●

●●●

● ●●

●●● ●● ●

●●

●● ●●

●●

●●

●●

●● ●

● ●●

●●● ●●

●●●●

●●

●● ●●

●●

●●

●● ●

●●

●●●

●●●

●●●

●●

●●

●●●

●● ●● ●●●

●● ●●●● ●● ● ●●● ● ●●

●● ●

●●

●●

●● ●

● ●●

● ●● ●●

●●

●● ●●●

●●● ●●●

●●●

● ●●●

●●●

●●●

●● ●●●

●●● ● ●

●●

●●

●●●●

●●●

●●●

● ●●● ●●

●●

●●

● ●●●

●●●

●● ●

●●

●●●

●●●●● ●●

●●● ●

●●●● ● ● ●

● ●●

● ●●● ●● ●

●● ●●● ●● ●

●● ●●●

●●

●●

●●●●

●● ●

●● ●● ●

●●●●●● ●● ● ● ●

●●●

● ●●

●●

●●

●●

●●●

●● ●● ●●● ●

● ●●●

● ●●

●●

●●●

● ● ●

● ●

●●

●●● ●

●●

●●●

●●● ●●

●● ●●

●●●●

8 9 10 11 12

0.0

0.5

1.0

1.5

2.0

p=0.4

Beta0

Bet

a1

159/160

Page 161: Données Manquantes dans les Enquêtes...Plandesondage On se place dans le cadre d’une population finie d’individus, notée U.Ons’intéresseàunevariabled’intérêty(éventuellementvecto-rielle),quiprendlavaleury

Bibliographie

Ardilly, P. (2006), Les Techniques de Sondage, Technip, Paris.Da Silva, D.N., et Opsomer, J.D. (2006). A kernel smoothing method to adjustfor unit nonresponse in sample surveys. Canadian Journal of Statistics, 34, 563-579.Da Silva, D.N., et Opsomer, J.D. (2009). Nonparametric propensity weightingfor survey nonresponse through local polynomial regression. Survey Methodology,35, 165-176.Haziza, D. (2009). Imputation and inference in the presence of missing data,Handbook of Statistics, vol. 29, chap. 10.Haziza, D. (2011). Traitement de la non-réponse totale et partielle dans lesenquêtes. FCDA, Ensai.Haziza, D., et Rao, J.N.K. (2003). Inference for population means under un-weighted imputation for missing survey data. Survey Methodology, 29, 81-90.Skinner, C.J., et D’Arrigo, J. (2011). Inverse probability weighting for clusterednonresponse. Biometrika, 98, 953-966.

160/160