Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la...

86
Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université d’Örebro Statistique Suède 2012-11-06 7e Colloque francophone sur les sondages Rennes , 2012

Transcript of Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la...

Page 1: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Réponse équilibrée et ajustement des estimations:

Deux étapes dans le traitement de la non-réponse

Carl-Erik Särndal

Université d’Örebro

Statistique Suède

2012-11-06

7e Colloque francophone sur les sondagesRennes , 2012

Page 2: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Face à la non-réponse :

deux types d’activités

(a) au « stade collecte (des données) »

(b) au « stade estimation », collecte ayant été terminée

Les étapes (a) et (b) ne sont pas indépendantes . Nous examinerons les deux, et leur interaction

Page 3: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

• Collecte des données: Évolue sur une période de temps (des jours, semaines). Aspect dynamique. Objectif: obtenir à la fin un ensemble de répondants bien équilibré

• Estimation: Objectif: Ajustement pour réduire le biais qui affecte néanmoins les estimations (malgré un certain équilibrage).

Page 4: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

• Collecte des données• Estimation

Les deux activités dépendent intégralement de l’accès aux variables auxiliaires

Plus on en a, mieux c’est

En Scandinavie, on est bien équipé

Page 5: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Les idées pour cette présentation

Collecte adaptive (Responsive design, USA, Canada) Europe:

Statistics Netherlands (projet RISQ; représentativité) Statistics Sweden (réponse équilibrée) : projet en collaboration avec Peter Lundquist

Page 6: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Points de départ:

Les variables d’intérêt (variables y) : affectées par une non-réponse non-aléatoire (même conditionnellement sur vecteur auxiliaire x)

• Estimations plus ou moins baisées• Le biais ne sera jamais entièrement éliminé• La non-réponse ignorable (MAR) n’existe pas.

Page 7: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Points de départ:

Les variables auxiliaires (variables x) jouent un rôle primordial. Connues pour les unités de l’échantillon s (répondants et non-répondants), peut-être pour toute la population

Vecteur x multivarié

Page 8: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Points de départ: En Scandinavie, aux Pays-Bas et de plus en plus ailleurs

Une multitude de variables auxiliaires disponibles ,

surtout pour les enquêtes sur ménages et individus :

Sources : Les registres administratifs

Nécessité de choisir “les meilleures”.

Page 9: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Exemple, Suède :

• Pays d’origine• Revenu• Age• Sexe• Statut civil• Région• Taille de ménage• Périodes sans emploi• Urbain/rural• Occupation et beaucoup d’autres

Enquête sur ménages et individus, parmi les variables auxiliaires potentielles:

Page 10: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Je vous présente une théorie pour ce qui est pour nous, en Scandinavie, une réalité,

chez vous, c’est peut-être différent …

Page 11: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Les étapes de ma présentation

1. La notion de maléquilibre (ang.: imbalance) 2. Stade collecte : surveiller et intervenir 3. Partager le travail et les ressources :

collecte vis-à-vis estimation4. Stade estimation : réduction du biais

Page 12: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Population U = {1, …, k , ..., N}

Échantillon probabiliste s (s U)

1. La notion de mal-équilibre

.

Proba d’inclusion de l’unité k :

Poids d’échantillonnage de k :

kkd π/1

Page 13: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Population U = {1, …, k , ..., N} Échantillon probabiliste s Ensemble des répondants r r s U

Sélectionnés mais non-répondants: s – r

La non-réponse arrive

r s kk ddP /Taux de réponse

pondéré : dk = 1/k

Page 14: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

La (les) variable(s) d’intérêt y

continue ou catégorique

Usrrkyk ;pourOn observe valeur

.

emploisans si1 kyk sinon0; ky

par exemple

Page 15: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

r yd kk

k θ

1

Pondération désirable mais hypothétique

Y

Serait sans biais pour le total de y, mais inutilisable

proba de réponse k inconnu, tout unité k :

.

Page 16: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Introduisons

Les concepts d’équilibre et de distance reposant sur des variables auxiliaires

(Mais la variable d’intérêt yk pour k r seulement)

r s U

Vecteur auxiliaire xk de dimension J 1

connu k s, ou bien pour

tout k U

Page 17: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

;

),,...,...,(:vecteurEn 1 Jj DDDD

jsjrj xxD

moyennerépondants

Contraster les répondants avec l’échantillon entier

Pour la variable xj , calculer

moyenneéchantillon entier

Page 18: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

sr xxD

;

Comparer répondants avec l’échantillon entier

Le vecteur des différences , dim. J 1

r kr kkr dd /xx

s ks kks dd /; xx

pondéré : dk = 1/k

Page 19: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Répondants égaux (en moyenne) à l’échantillon tout entier

Réponse équilibrée :

0xxD

nechantillorepondantssr

Désirable, mais difficile à réaliser entièrement

Objectif pour la collecte : un niveau d’équilibre élevé

néanmoins, au stade estimation, un ajustement s’impose

.

Page 20: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

: réponse mal équilibrée

D étant vectoriel, on forme une mesure uni-variée du maléquilibre (ang: imbalance)

s ks kkks dd /xxΣ

DΣD 1 s )()( 1srssr xxΣxx

,

Matrice J J de pondération, non-singulier :

0xxD sr,tNormalemen

Page 21: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Exemple, la Suède :

• Pays d’origine• Revenu• Age• Sexe• Statut civil• Région• Taille de ménage• Période(s) sans emploi• Urbain/rural• Occupation

Vecteur x composé de :

dimension souvent 40 ou plus

Page 22: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Notation :

IMB = imbalance = maléquilibre

DΣD 1 sIMB

IMB est une mesure descriptive - parmi d’autres également possibles -

de l’ensemble r des répondants, tel qu’il se présente à un certain moment

de la collecte des données.

.

)()( 1srssr xxΣxx

Page 23: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Remarquer :

dépend de

(i) la composition du vecteur auxiliaire xk

(ii) la composition de r , étant donné s

DΣD 1 sIMB

),( srIMB kx serait notation plus complète

Mais par simplicité, utilisons IMB tout court

)()( 1srssr xxΣxx

Page 24: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Propriété : Pour réponse r et échantillon s fixés ,

ajouter plus de variables au vecteur x

fera augmenter IMB

Un vecteur x plus grand donne plus de maléquilibre, naturellement, car davantage de variables pour lesquelles les moyennes doivent concorder.

Le vecteur trivial xk = 1 donne IMB = 0

mais c’est un vecteur dépourvu d’intérêt

.

Page 25: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

La pondération avec s

nous permet de poser une borne supérieure simple pour

le maléquilibre DΣD 1 sIMB

Page 26: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Pour toute réalisation (s, r) et vecteur xk ,

11

0 P

IMB

20% non-response : 0 IMB 0.25

50% non-response : 0 IMB 1

IMB n’est pas numériquement grand

Mais IMB = 0.20 indique maléquilibre considérable comparablement à IMB = 0 (équilibre parfait)

P = taux de réponse

Page 27: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

La notion de distance

entre répondants r and non-répondants nr = s - r

Relation simple avec maléquilibre IMB :

2/11 )}(){( rsrsrsrnrrdist

xxΣxx

IMBP

dist nrr

1

1

P = taux de réponse

Page 28: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

La distance

Par exemple, 40% non-réponse, et maléquilibre 16.0IMB

1 nrrdist

IMBP

dist nrr

1

1

Page 29: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

)1(

1

PPdist nrr

peu importe r, s et choix de vecteur x

Par ex., non-réponse 50% dist 2

Pour nos données, dist rarement 0.5

mais varie selon le choix du vecteur x

Propritété :

Page 30: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

2. Stade collecte: surveiller et intervenir(un aspect de « Responsive Design »)

Optique dynamique : Surveiller la collecte des données, vue en fonction du temps (les jours, les tentatives de contact);

Envisager des interventions ou altérations dans un plan original.

Page 31: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Surveiller et modifier la collecte

Optique dynamique : Une série d’ensembles de répondants emboités, fonctions du point temporel a

...... )()2()1( arrr

Pour simplicité r dénotera n’importe lequel de ces ensembles

Page 32: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Tirage aléatoire simple de personnes dans le registre de la population suédoise.Interviews par téléphone.Les tentatives de contact sont enregistrées par le dispositif WinDATINous analysons ici un sous-échantillon de taille 8,220

Exemple d’application:

Enquête sur les Conditions de Vie , Suède 2009

ECV2009

tributaire du EU-SILC

.

Page 33: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Tentatives de contact enregistrées par WinDATI.

Période collecte ordinaire: 3 semaines; pour beaucoup d’unités, > 30 tentatives; à la fin de cette période, taux de réponse P = 60.4 %

Période des suivis (follow-up), 3 semaines , taux de réponse ultime P = 67.4%

Enquête sur les conditions de vie, Suède 2009(ECV2009)

.

Page 34: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Collecte ordinaire> 30 tentatives pour bon nombre d’unités

Collecte suiviesouvent > 10 tentatives

Toutes ces tentatives … 53258, au total Est-que cela vaut la peine ? Fortement douteux.

.

Page 35: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

)()( 1srssr xxΣxx

Pour le fichier ECV2009, calculonsle maléquilibre

et la distance rép/non-rép

DΣD 1sIMB

2/11 )}(){( rsrsrsrnrrdist

xxΣxx

IMBP

1

1

sur vecteur x = (educ owner origin); dim = 23 = 8

Page 36: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

3 variables binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)

x = (educ owner origin); dim = 2 2 2 = 8

Page 37: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Fichier ECV2009 tel quel

Tentative Taux rép.

100 Pdistr/nr

100 IMB

no.1 ordin 12.8 0.233 4.13

no. 5 ordin 44.3 0.310 2.99

no.12 ordin 57.7 0.394 2.78

Fin ordin 60.4 0.417 2.72

no. 1 fol-up 61.4 0.418 2.61

no.4 fol-up 64.6 0.435 2.37

Final 67.4 0.471 2.36

La distance augmente sans cesse. Comment est-ce possible ?

Page 38: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Fichier ECV2009 :

La distance augmente

de 0.310 tentative no. 5à 0.471 fin collecte

Répondants de moins en moins semblables aux non-répondants ...

C’est troublant …Mais dites-vous, cela dépend du vecteur x choisi …

IMBP

dist nrr

1

1

Page 39: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Durant la phase collecte, comment réduire le maléquilibre ?

Quelles interventions pouvons nous apporter à la collecte?

Quelles modifications dans un plan original, pour pouvoir terminer avec

un ensemble de répondants plus approprié?

Page 40: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Pour répondre à ces questions , il faudrait effectuer des expériences dans la collecte des données de la ECV.

.

Page 41: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Faute d’ expériences réelles, nous effectuons des “expériences rétrospectives” dans le fichier ECV2009

On considère la collecte terminée dans un sous-groupe ayant atteint un certain taux de réponse

comme 55% ou 60% ou 65%

Cela possible avec le fichier ECV2009

.

.

Page 42: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Ainsi, dans ces expériences, on rejette volontairement une partie des données du fichier ECV2009 (pour que le reste soit plus équilibré et avoir un IMB moindre)

.

.

Page 43: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Les groupes définis par le vecteur connu k s

x = (educ owner origin)de dimension = 2 2 2 = 8

On sait que ces groupes diffèrent dans leur disposition à répondre

ECV2009

.

Page 44: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Résultats d’une de ces expériences rétrospectives: Considérer collecte terminée dans un group ayant atteint un taux de réponse de 60%

les 23 = 8 groupes définis par le vecteurx = (educ owner origin)

ECV2009

.

Page 45: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Expérience rétrospective : collecte terminée dans un groupe si son taux réponse > 60%

Tentative Taux rép.

100 Pdistr/nr

100 IMB

7 ordin 50.9 0.357 3.07

8 ordin 52.5 0.353 2.81

9 ordin 53.8 0.341 2.49

15 ordin 56.0 0.287 1.59

3 fol-up 58.6 0.252 1.09

Final 58.9 0.220 0.82

La distance maintenant décroissante, comme on souhaite

Page 46: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Comparaison au point Final (collecte terminée)

Moins de réponses (58.9% vs. 67.4%) Mais distance très réduite (0.22 vs. 0.42)

.

ECV tel quel 67.4 2.36 0.417

Expérience 58.9 0.82 0.220(interventionpar groupes)

Taux rép.100 P 100 IMB distance

Page 47: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Non seulement économise-t-on sur le nombre de tentatives (réduction d’environ 15%)mais la distance diminue aussi (répondants et non-répondants plus semblables)

.

.

Page 48: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

3. Collecte vis-à-vis estimation Comment partager les ressources ?

Quelle utilisation doit-on faire de l’information auxiliaire disponible?

Quand faut-il agir, et dans quelle mesure ?• stade collecte ou bien• stade estimation ou les deux ?

Page 49: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

On se rend compte alors que les variables auxiliaires (nombreuses)

doivent être regroupés en deux catégories :

• Celles qu’on utilise lors du stade collecte, pour une surveillance• Celles qu’on utilise, la collecte terminée,

lors du stade estimation

Page 50: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Le vecteur surveillance xa

contient les variables x destinées à surveiller

et diriger la collecte de données,

pour s’assurer à la fin d’un ensemble de répondants bien équilibré, qui

ressemble fortement à l’échantillon probabiliste s.

Page 51: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

D’autres variables auxiliaires, quoique disponibles, demeurent inactives lors de la collecte ;

Ce vecteur supplémentaire xb

prend de l’importance au stade estimation

pour calculer les poids de calage.

Page 52: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

C’est un fait : Certaines unités faciles à rejoindre ou à faire participer,

d’autres plus dures, et cela dépendamment de leurs caractéristiques

observables (leurs données auxiliaires)

.

Page 53: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.Le contexte dynamique:

A tout point de la collecte, toute unité k s est caractérisée par son

Intensité de réponse (ang.: Response Propensity)

par rapport au vecteur surveillance choisi xa

s s akakakkakkkak dIdP xxxx 1)()(ˆ

Interprétation : Régression de l’indicateur de réponse Ik = 1 si réponse ; 0 sinon, sur xak

Page 54: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Intensité de réponse

Peut se calculer à n’importe quel point de la collecte, pour k s

sak

ks k P

Pd

d2

2

)1ˆ

(1

:)variationde(coeffrelativevariance

s s akakakkakkkak dIdP xxxx 1)()(ˆ

Pd

d

d

PdP

s k

r k

s k

s akkas

ˆ

ˆ:moyenne

P étant le taux de réponse réussi à ce point de la collecte

Page 55: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

où IMBa est le mal-équilibre de xa

c’est-à-dire la valeur de

calculée sur x = xa

On découvre une relation entre maléquilibre et

intensité de réponse

s s akakakkakkkak dIdP xxxx 1)()(ˆ

)()( 1srssrIMB xxΣxx

aak IMBP )ˆ(variationde coeff.

.

Page 56: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

La relation :

entre intensité de réponse et maléquilibre est logique :

Plus les intensités de réponse varient, plus il doit y avoir maléquilibre,

à un moment donné de la collecte.

.

aak IMBP )ˆ(variationcoeff

Page 57: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Note mathématique: Nous considérons ici la famille de

vecteurs x tels que :

On peut spécifier vecteur tel que

)1,....,1,1(prendre

skk allfor1xμ

)0,1(prendre,),1(Si kk xx

)0,...,1,...,0(Si kx

La majorité des vecteurs d’importance sont de cette espèce, par exemple

OO

Page 58: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Disponible pour ECV2009 :

multitude variables auxiliaires potentielles

Prenons un exemple

Retour à l’Enquête Conditions de Vie, Suède (ECV2009)

.

Page 59: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Exemple : On a retenu les variables auxiliaires suivantes (toutes catégoriques) :

.

Binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)Phone (téléphone ou non)Civil (marié ou non)Sexe (homme ou femme)

Par 4 groupes :Age

Page 60: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

))(( SexeCivilAgePhoneOriginOwnEduc x

Préalablement analyser le fichier ECV2009 tel quel, pour maléquilibre et distance ,avec le vecteur (de toutes les variables de la liste)

.

.

dim(x) = 23+ 1 + (4 – 1) + 1 + 1 = 14

Page 61: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Fichier ECV2009 tel quel (aucune intervention)

TentativeTaux rép.

100×Pdistr|nr 100×IMB

8 ordinaire 53.0 0.515 5.85

Fin ordin. 60.4 0.552 4.79

3 follow-up 63.8 0.581 4.43

Final 67.4 0.623 4.14

La distance rép/non-rép augmente sans cesse

))(( SexeCivilAgePhoneOriginOwnEduc x

Page 62: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Faire mieux: Expériences rétrospectives

Préciser un vecteur xa de surveillance pour

effectuer des interventions « après coup » dans ECV2009 :

Considérer les tentatives de contact terminées

pour des unités « ne valant plus la peine d’être poursuivies »

Page 63: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Procédure

Arrêter les efforts de contact pour les unités ayant intensité élevée.

Du coup, quand on continue avec celles qui restent, ils vont successivement atteindre une intensité de réponse plus élevée.

akP

Page 64: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

.

.

Vecteur de surveillance : Comment le choisir ?

Options :• Affecter toutes les variables de la liste

au vecteur xa de surveillance

• Affecter une partie des variables à la surveillance, laisser les autres pour l’estimation

Page 65: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Liste des variables auxiliaires retenues :

.

Binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)Phone (téléphone ou non)Civil (marié ou non)Sexe (homme ou femme)

Par 4 groupes :Age

Page 66: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

.

))(( SexeCivilAgePhoneOriginOwnerEduca x

Dim(xa ) = 23+1 + 3 + 1 + 1 = 14

Nombre de valeurs possibles de xa = nombre de

propriétés reconnues chez les unités = 256

Affecter toutes les variables à la surveillance

1bx

Page 67: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Procédure

A chacun de J points définis à l’avance, mettre de côté (ne plus poursuivre) une partie, 1/(J+1), des unités,

celles ayant des valeurs élevées de l’intensité akP

OO

Page 68: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

xa de dim.14 (toutes les var. x) , aucun xb

TentativeTaux rép.

100×Pdistr|nr

100×

IMBa 

8 ordinaire 53.0 0.515 5.85  

Fin ordin. 58.6 0.473 3.85  

3 follow-up 60.0 0.446 3.18  

Final 60.5 0.418 2.72  

Reduction du nombre de tentatives : 16.1%

Distance diminue ; bon signe.

Page 69: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Alternativement,affecter seulement une partie des variables

à la surveillance ; retenir les autres pour l’estimation (inactives au stade collecte)

82dim);( 3 OriginOwnEducax

.

7dim);( SexeCivilAgePhonebx

.

Conséquence : IMB et distr/nr plus élevés,

comparativement à la surveillance sur toutes les variables x de la liste.

Page 70: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Donnéesfinales

taux rép. 100P

distr/nr IMBab

ECV2009tel quel; aucunesurveillance

67.4 0.623 4.14

Surveiller

sur une partie xa

de dim 8

60.8 0.513 3.45

Surveillersur toutes

xa de dim 14

60.5 0.418 2.72

.

Comparaison, 3 différentes collectes de données

Surveillance plus serrée distance diminue

Page 71: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Donnéesfinales

IMBab

(total)

IMBb

(marg)

IMBa/b

(cond)ECV2009tel quel ; aucunesurveillance

4.14 2.77 1.37

Surveillersur une partie

xa de dim 8

3.45 3.04 0.41

Surveillersur toutes

xa de dim 14

2.72 2.17 0.55

.

Maléquilibre total, marginal , conditionnel

)( SexeCivilAgePhoneb x

Page 72: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

4. Stade estimation : ajustement pour non-réponse

yk disponible k r seulement

La situation est changée : r est désormais fixé plus possible d’améliorer sa composition ; faut l’accepter tel quel pour l’estimation

Objectif: Construire un vecteur x puissant

r s Uréponse échantillon population

Page 73: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Disponible : Liste de variables auxiliaires (nombreux)

Objectif: construire un vecteur x pour un calcul des poids de calage

réduire autant que possible le biais des estimations

car il y en a, malgré un certain équilibrage lors du collecte des données

Page 74: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Comment choisir, dans une manière « stepwise » ou autrement, les variables x à retenir ?

« Prendre les meilleurs d'abord » est une solution.

Les variables y sont nombreuses, ce qui complique le choix des variables x . Celles qui sont bonnes pour une certaine y ne l’est peut-être pas pour les autres.

Pour la théorie nous examinons une seule variable y.

OO

Page 75: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

U s r population échantillon répondants

yk observé k r seulement

Estimateurs de

r kkkCAL ymdY par calage; moins biaisé

s kkFUL ydY sans biais mais irréalisable

par expansion; tres biaisédrs kEXP ydY ;)(ˆ

U kyY

Page 76: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

r kkk ymdCALY

Estimateur calage de

avec poids de calage

Propriété calage des poids dkmk

colonnerangee

xxxx ks r kkkkkk ddm

1))(

s kkr kkk dmd xx

U kyY

Page 77: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

0 FULY

Quand xk devient plus puissant, étant donne r et s :

ajustement

EXPCAL YY ˆˆ

CALEXP YY ˆˆ

EXPY

.

Ajustement

s’éloigne de l’estimation rudimentaire CALY

grandit

Page 78: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

0

FULY

CALYEXPYs’éloigne de

pour se rapprocher de

EXPYCALYFULY

(très biaisé)

(sans biais)

diminuantFULEXP

CALEXP

YY

YYˆˆ

ˆˆ1biaisduratio

Pour r et s fixés :

La tendance lorsque x devient plus puissant :

OO

Page 79: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

L’intuition nous dit : plus il y a du maléquilibre, plus il faudra ajuster les estimations. C’est ainsi.

.

.

Page 80: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Ajustement standardisé :

y

CALEXP

SN

YYStAdj

ˆˆ

Sy = écart-type de y, calculé sur la réponse r

Page 81: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

ou IMB est le maléquilibre

Ry,x et RDC des coefficients de corrélation

y

CALEXP

SN

YYStAdj

ˆ

ˆˆ

CDy RRIMB ,, x

Une analyse montre que StAdj se décompose en 3 facteurs :

Page 82: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

L’importance de l’ajustement dépend (en partie) du maléquilibre IMB subsistant encore malgré les efforts de l’équilibrage au stade collecte)

Pas de maléquilibre pas d’ajustement

y

CALEXP

SN

YYStAdj

ˆ

ˆˆCDy RRIMB ,, x

Page 83: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

1avonsNous , xyR 1; D,C

R

3.00souventet IMB

%82.08.05.0

yEXPCAL SN

Y

N

Y 08.0

ˆ

ˆ

ˆ

ˆ

StAdjex.Par

CDy RRIMBStAdj ,, x

OO

ajustement = 0.08 écarts-type

Estimation ajustée

Page 84: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Conclusion:

Comment « optimiser » le partage d’une quantité de variables x , entre les deux étapes, surveillance de la collecte et estimation.

Serait-ce possible ? .

.

Page 85: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

.

Bibliographie

Groves, R.M. and Heeringa, S.G. (2006). Responsive design for household surveys: tools for actively controlling survey errors and costs. Journal of the Royal Statistical Society: Series A, 169.

Bethlehem, J., Cobben, F. and Schouten, B. (2011). Handbook of Nonresponse in Household Surveys. New York: Wiley.

Schouten, B., Cobben, F. and Bethlehem, J. (2009). Indicators for the representativeness of survey response. Survey Methodology, 35, 101-113.

Schouten, B., Shlomo, N. and Skinner, C. (2011). Indicators for monitoring and improving representativeness of response. Journal of Official Statistics, 27, 231-253.

Särndal, C.E. and Lundström, S. (2005). Estimation in Surveys with Nonresponse. New York: Wiley.Särndal, C.E. (2011a). Dealing with Survey Nonresponse in Data Collection, in Estimation (Morris Hansen

lecture). Journal of Official Statistics, 27, 1-21.Särndal, C.E. (2011b). Three factors to signal nonresponse bias, with applications to categorical auxiliary

variables. International Statistical Review, 79, 233-254.Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design with applications to the Swedish Living

Conditions Survey. Report 2011:1, Statistics Sweden

Page 86: Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Merci de votre attention

.