Évaluations aléatoires Comment déterminer la taille de l ... - Comment... · TRADUIRE LA...

TRADUIRE LA RECHERCHE EN ACTIONpovertyactionlab.org

Évaluations aléatoires : Comment déterminer la taille de

l’échantillon ?Bruno Crépon

CREST / ENSAE ParisJ‐PAL Europe

TRADUIRE LA RECHERCHE EN ACTION

Plan de la semaine

1. Pourquoi évaluer ?2. Comment mesurer l’impact ?3. Pourquoi tirer au sort ?4. Comment tirer au sort ?5. Comment déterminer la taille de l’échantillon ?6. Risques et solutions7. Une évaluation de A à Z8. Analyses coût‐efficacité et généralisation


• Introduction à la méthode scientifique• Fluctuations d’échantillonnage• La signification statistique• La puissance• Les facteurs qui influencent la puissance

Plan du cours


• Les expérimentations ont une capacité de détection• Elles peuvent parfois détecter de tous petits effets • Elles peuvent aussi parfois ne détecter que des effets de

grande taille• Si elles sont de ce type alors on peut se trouver dans la

situation dans laquelle à l’issue de l’expérimentation on va dire :

le programme n’a pas d’effet• Alors qu’en fait

Le programme a un effet

Les points essentiels


• Dans ce cas on n’a pas été capable de détecter l’effet du programme

• La puissance d’une expérimentation est sa capacité de détection• Les expériences sont des outils de mesures• Comme tout outil de mesure elles ont des caractéristiques

techniques• Considérons un microscope : il y a des microscopes de différentes

puissance– Des microscopes capables de voir des toute petites choses– Des microscopes plus grossiers qui ne permettent de voir que de gros

objets• Pour les expérimentations c’est pareil. Il y a des expérimentations

qui vont permettre de voir de tous petits effets et des expérimentations qui ne permettront de détecter que de gros effets

Les points essentiels


• Il est important d’avoir des expérimentations ayant une capacité de détection suffisante ou appropriée

• Le design influence directement la puissance: – nombre d’unités tirées (100, 200, 1000), – type d’unités tirées (classes, individus, villages…), – le taux d’entrée dans le dispositif

• On peut calculer la puissance d’une expérimentation• Il est central d’effectuer ces calculs avant de se lancer dans

une expérimentation : faut‐il considérer 2000 individus ou seulement 500 sont suffisants?

Capacité de détection d’une expérience


Fluctuations d’échantillonnage


• On applique une méthode scientifique aux sciences sociales

• Cette méthode scientifique implique :1) que l’on propose une hypothèse

• Le programme n’a pas d’effet2) Que l’on élabore une étude expérimentale

• Protocole : groupe traitement et contrôle d’une taille donnée3) Que l’on décide sur la base des observations récoltées si l’hypothèse est compatible ou non avec les observations ou si au contraire on doit rejeter cette hypothèse

Une méthode scientifique


• Le principe de base est celui de la loi des grands nombres• La loi des grands nombre dit que lorsque l’on tire un

échantillon d’une taille N donnée dans la population et que l’on prend la moyenne on observe– Un résultat qui dépend de l’échantillon– On change d’échantillon, on change de moyenne– Ces différences qu’on appelle « fluctuations d’échantillonnage »

deviennent de plus en plus petites lorsque la taille de l’échantillon augmente

– Elles sont négligeables lorsque la taille de l’échantillon est très grande– Si on prend des échantillons de 100.000 observations il n’y a plus de

différences si on change d’échantillon

Comment ca marche


• Les évaluations que l’on effectue considère– Un échantillon traitement– Un échantillon contrôle

• Elles sont basées sur la comparaison entre la moyenne dans le groupe traitement et la moyenne dans le groupe contrôle

• En se basant sur le slide précédent, on s’attend à ce que la différence que l’on mesure puisse avoir deux explications possibles– Il y a un effet du traitement : les traitements et les contrôles sont

différents parce qu’il y a eu le traitement – Les différences observées ne sont que le résultat de l’échantillonnage.

D’autres échantillons conduiraient à des résultats différents voir opposés• On veut mettre en place un moyen de s’assurer qu’on est dans le

premier cas et pas dans le second

Comment ca marche


Le programme Balsakhi de Pratham


0

50

100

150

200

250

300

350

400

450

500

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores

Enquête initiale : résultats aux examens dans la zone de Vadodara


0

20

40

60

80

100

120

140

160

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores

Enquête finale : résultats aux examens


0

20

40

60

80

100

120

140

160

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores

control

treatment

Résultats à l’examen : groupe Test et groupe Témoin


0

20

40

60

80

100

120

140

160

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores

control

treatment

control μ

treatment μ

Différence moyenne : 6 points


• Est‐ce que cette différence de 6 points entre le groupe de traitement et le groupe de contrôle est– Due au programme– Due au fait qu’on a des échantillons différents

• En d’autres termes : – si on recommençait l’expérimentation avec d’autres

échantillons, est‐ce qu’on aurait une différence comparable, ou est‐ce que les résultats pourraient être très différents

Notre question


La significativité statistique


• La question importante : est‐ce que les différences observées entre les deux échantillons traitement et contrôle sont dues au programme ou le fait du hasard?

• Pour répondre à cette question nous devrons nous baser sur la combinaison :

• du protocole de la méthode aléatoire– Garantit que l’on est parti de populations similaires

• des propriétés statistiques– Même si les populations sont similaires, les moyennes les moyennes peuvent présenter des différences et être trompeuses

• Comment décide‐t‐on si les différences sont le fruit du hasard des échantillons?

D’où viennent les différences


• Le moyen que l’on utilise est le suivant : • On considère la différence entre les moyennes dans le traitement et

le contrôleD=différence des moyennes

• On normalise cette différence par une quantité très importante sur laquelle on va amplement revenir

• Cette quantité s’appelle l’écart‐type : S

• On considère le ratioD/S

• Si ce ratio est « grand » alors on décide que le programme a un effet

• Si le ratio est petit on considère décide que le programme n’a pas d’effet

Comment ca marche


• Les tests partent d’hypothèses entre lesquelles on veut choisir• Il y a l’hypothèse nulle : H0

– le programme n’a pas d’effet

• Il y a l’hypothèse alternative H1– Le programme a un effet

• Faire un test c’est juste décider si l’hypothèse nulle est compatible avec les données qu’on a récoltées ou si à l’inverse c’est l’hypothèse alternative qui est compatible

Les tests


• Supposons qu’il n’y ait pas d’effet : H0 est la vérité• Dans la population totale, la situation d’un groupe traitement

infiniment grand et d’un groupe contrôle infiniment grand seraient identiques

• On n’a que des échantillons de taille finie : par exemple un contrôle et un traitement de 100 individus

• Les différences « normalisées » que l’on peut mesurer vont en général être petites mais elles peuvent être grandes à cause des fluctuations d’échantillonnage

• C’est peu probable mais cela peut arriver

Les tests : la règle de décision


• Les calculs statistiques montrent que lorsque l’effet du programme est nul, la différence entre la moyenne D dans le groupe traitement et le groupe contrôle, normalisée par la quantité S :

D/S• A très peu de chance d’être au dessus de 1,96 : cela peut

arriver mais dans 5% des cas seulement• La règle de décision est que si le ratio est plus grand que 1,96

on rejette l’hypothèse nulle et on décide que le programme a un effet

Les tests : la règle de décision


Niveau de signification :on rejette H0 dans la zone critique


• Si on a rejeté l’hypothèse d’absence d’effet, est‐on sur qu’il y a un effet?– Non avec les tests statistiques on n’est jamais sur d’avoir pris la bonne

décision – Le test est fait de telle sorte que le risque que l’on a de se tromper en

décidant que le programme a un effet alors qu’il n’en a pas est de 5%

• Ca veut dire que si un programme n’a pas d’effet et qu’on recommence un très grand nombre de fois l’expérience avec à chaque fois des échantillons différents, alors dans 5% des cas on va prendre la décision à tort que le programme a un effet et dans 95% des cas on prendra la bonne décision

Les tests : le risque de type I


C’est ce que l’on appelle le risque de type I : Décider

le programme marche alors qu’en fait il ne marche pas

Les tests : le risque de type I


• Que se passe‐t‐il si on est en deça de la valeur seuil de 1,96?– Nous ne pouvons rejeter l’hypothèse nulle : on décide le programme

n’a pas d’impact– Sommes‐nous 100 % sûrs qu’il n’y a pas d’impact ?

• Non, nous n’avons simplement pas atteint le seuil statistique qui nous permette de parvenir à une autre conclusion.

– Peut‐être qu’en réalité, il n’y a pas d’impact– Ou peut‐être y a‐t‐il un impact,

• Mais l’échantillon n’était pas suffisant pour le détecter• Ou cette fois‐ci, nous n’avons vraiment pas eu de chance avec notre échantillon

• Comment pouvons‐nous réduire cette erreur ?

Tester les hypothèses : conclusions

grâce à la puissance statistique !


La puissance statistique


• Lorsque nous utilisons la règle du ratio D/S >1,96

• Pour décider de l’existence d’un effet• Quelles sont les chances que l’on a effectivement de détecter un effet lorsqu’il existe

• C’est ce qu’on appelle la

PUISSANCE STATISTIQUE

Tester les hypothèses : conclusions


VOTRE CONCLUSION

Efficace Aucun Effet

LA VÉRITÉ

Efficace Erreur de Type II (puissance faible)

Aucun Effet

Erreur de Type I(5% du temps)

Tester les hypothèses

Intervalle de confiance 95 %


• Si l’effet du programme est différent de zéro• La différence entre le groupe de traitement et le groupe de

contrôle ne va plus être distribuée autour de zéro• Si on reprend le cas hypothétique dans lequel on

recommencerait un très grand nombre de fois l’expérimentation, les fluctuations d’échantillonnage vont encore produire des résultats qui seront différents d’une expérience à l’autre mais à la différence du cas précédent, ils ne seront plus autour de zéro

• Ils seront autour de la vraie différence liée au programme

La puissance statistique : comprendre les idées


Niveau de signification :on rejette H0 dans la zone critique


La vraie distribution de l’effet est la courbe rouge

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6

control

treatment

significance


Puissance : quand rejeter H0 ?

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6

control

treatment

significance


Il y a une probabilité d’être au dessus du seuil

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6

control

treatment

power

Il s’agit de la surface hachurée en violet


• La puissance est justement cette probabilité de rejeter l’hypothèse nulle lorsque effectivement l’hypothèse nulle est fausse

• On voit que cette probabilité ici n’est pas égale à 1 et de loin!

• En fait elle est de l’ordre de 25%• Cela veut dire que dans 25% des cas seulement on va

décider que le programme a un effet• Dans 75% des cas on va décider que le programme n’a pas

d’effet• On est passé à côté• L’expérience n’avait pas la puissance suffisante pour cela

LLa puissance


Puissance : si l’effet que l’on cherche a detcter est plus grand que ce passe‐t‐il

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6

control

treatment

significance


Puissance : 91 %

L'hypothèse nulle serait rejetée 91% du temps


• La puissance dans ce cas est beaucoup plus importante

• On voit un point central concernant la capacité de détection d’une expérimentation

• Plus l’effet que l’on cherche à détecter est grand et plus on aura de chance de le détecter

• Si on veut détecter un tout petit effet : le programme fait passer la moyenne des élèves de 50 à 50,1 ca va être beaucoup plus difficile que si le programme fait passer la moyenne des élèves de 50 à 70

La puissance


• La puissance d’une expérimentation est bien résumée par une quantité centrale

L’Effet Minimum Détectable• Il s’agit en fait de la capacité de détection de l’expérimentation

• C’est la quantité qui va résumer si l’expérimentation a de bonne chances de détecter de petits effets ou si seulement de grands effet seront détectables

La puissance et l’effet minimum détectable


• Il s’agit de l’ampleur de l’effet que doit avoir au moins le programme pour que l’on puisse le détecter dans 80% des cas

• Plus le MDE est élevé moins l’expérience est puissante

• La formule du MDEMDE = 2,8 x S

• Où S est l’écart‐type (la quantité qui intervient dans le ratio D/S)



• Dans ce cas la puissance est de 80% et on exprime l’effet que l’on peut détecter pour une puissance donnée

• Le même idée peut être exprimée différemment : on se donne la taille de l’effet que l’on veut détecter et on exprime la puissance, c’est à dire la probabilité de détecter l’effet

• C’est ce que fait le logiciel OD



• Le point important est que de nombreuses caractéristiques du design joue un rôle centrale sur S et donc sur la puissance– Le nombre d’unités N– Le type de tirage (grappe ou non) le nombre d’individus par

grappe m et leur degrés de corrélation– Le taux d’entrée dans le programme– L’écart‐type de la variable d’outcome

• Il est central avant de se lancer dans l’expérimentation de faire les calculs de puissance

• Trouver des valeurs raisonnables des paramètres inconnus• Essayer différentes valeurs pour les paramètres que l’on

peut choisir

Dans tous les cas le facteur S joue un rôle central


Les facteurs influençant la puissance statistique


• Le logiciel OD permet de faire des simulations pour déterminer la capacité de détection de l’expérimentation

• Il faut systématiquement faire ces simulations• Le risque est de se lancer dans une expérimentation compliquée et longue mais sans capacité de détection

Dans tous les cas le facteur S joue un rôle central


• Quel est le plus petit effet qui justifierait que le programme soit adopté ?

• Si l’effet est inférieur, il pourrait tout aussi bien être égal à zéro : quel intérêt ?

• A l’inverse, si tout effet supérieur justifie l’adoption du programme, nous devons calibrer l’expérimentation pour être en mesure de le distinguer de zéro

Choisir une taille d'effet


• Si la variable de résultat sous‐jacente est fortement dispersée alors il sera difficile de détecter un effet

• Il sera difficile de séparer l’effet systématique du programme de l’hétérogénéité des situations des individus qui composent l’échantillon

La dispersion un déterminant naturel


• On a coutume d’exprimer la capacité de détection en fonction de l’écart‐type de la variable de résultat

• L’importance en taille d’un effet que vous allez pouvoir détecter à partir d’un échantillon donné va dépendre de la variance du résultat

• La taille d’effet standardisée est la taille de l’effet divisée par l’écart type du résultat

• Tailles d’effets courantes

Tailles d’effets standardisées


Un effet de taille….

est considéré… … et signifie que…

0.2 Petit ‐modeste que le membre moyen du groupe test a obtenu un meilleur résultat que le 58ème

percentile du groupe témoin

0.5 Modeste important Que le membre moyen du groupe test a obtenu un meilleur résultat que le 69ème


0.8 important Que le membre moyen du groupe test a obtenu un meilleur résultat que le 79ème


Taille d'effet standardisé


• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier

• Le type d'hypothèses qui sont testées

Les paramètres du protocole qui influencent la puissance


• Si N augmente S diminue et donc l’expérience gagne en puissance

• Conclusion directe de la loi des grands nombres– Faire une moyenne sur un grand nombre d’individus conduit a des fluctuations d’échantillonnage de plus en plus faibles

– On est de plus en plus prés de la vraie différence et de moins en moins dépendant des échantillons tirés

Le nombre d’unités


Effet de la taille de l’échantillon sur S

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 200 400 600 800 1000 1200 1400 1600 1800 2000


• Un autre élément qui détermine S est le type de tirage

• On peut faire des tirages dits en grappes– On tire des unités comme des classes C et on suit des individus dans les classes m individus par classes

• Par rapport au cas précédent il y a perte d’information

• Ce qui compte est d’avantage le nombre de grappe que le nombre total d’individus

Tirages en grappes


• Vous voulez savoir à quel point le résultat de la prochaine élection nationale sera serré ?

• Méthode 1 : on sélectionne de manière aléatoire 50 personnes dans toute la population de l’Inde

• Méthode 2: on sélectionne de manière aléatoire 5 familles et on demande leur opinion à 10 membres de chacune des familles

Protocole en grappe : quelle est l’intuition


• Si la réponse est corrélée au sein d’un groupe, vous allez obtenir moins d’informations en mesurant plusieurs personnes dans le groupe

• Vous obtiendrez plus d’informations en mesurant des personnes qui n’ont aucune relation

• On obtient moins d’informations en mesurant des personnes qui sont similaires

Protocole en grappe : quelle est l’intuition


• Dans une évaluation aléatoire en grappe, ce sont des unités sociales (ou grappes) qui sont affectées de manière aléatoire aux groupes, plutôt que des personnes

• L’unité de tirage au sort (par exemple, l’école) est plus grande que l’unité de l’analyse (par exemple, les élèves).

• Cela signifie que l’on tire au sort au niveau de l’école mais que l’on utilise les examens des élèves comme unité d’analyse

Protocole en grappe


• Les résultats pour toutes les personnes au sein d’une unité peuvent être corrélés

• La corrélation entre les unités au sein d’une même grappe est appelée r(rho).

Impact du regroupement en grappes


• A l’instar des pourcentages, r doit se situer entre 0 et 1• Lorsque l’on travaille sur des évaluations en grappe, il est souhaitable que la valeur de r soit petite

• La valeur de r est souvent petite (0, 0,05, 0,08) mais elle peut être supérieure (0,62)

Valeurs de r (rho)

Madagascar Math + Langue 0.5

Busia, Kenya Math + Langue 0.22

Udaipur, Inde Math + langue 0.23

Mumbai, Inde Math + Langue 0.29

Vadodara, Inde Math + Langue 0.28

Busia, Kenya Math 0.62


Études Groupes Test /Témoin

Nombre total de grappes

Taille de l'échantillon

Autonomisation des femmes

2 Rajasthan: 100Bengale Occ.: 161

1996 enquêtés2813 enquêtés

Pratham: "Read India" 4 280 villages 17,500 enfants

Pratham: "Balsakhi" 2 Mumbai: 77 écolesVadodara: 122 écoles

10,300 enfants12,300 enfants

Kenya: "professeur supplémentaire"

8 210 écoles 10,000 enfants

Déparasitage 3 75 écoles 30,000 enfants

Quelques exemples de tailles d'échantillon


• Analyse : Il faudra ajuster les erreurs standards pour tenir compte du fait que les observations au sein d’une grappe sont corrélées

• Facteur d’ajustement pour une taille totale d’échantillon donnée Cm : C grappes avec des grappes de taille m, une corrélation intra‐grappe de r, la taille d’effet la plus petite que nous pouvons détecter augmente de par comparaison à un design sans grappe

• Protocole : nous devons tenir compte du protocole en grappe lorsque nous prévoyons notre taille d’échantillon

Conséquences sur l'analyse et sur le protocole

)1(*1 m


Effet du nombre d’individus m par grappe sur S en fonction de C

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 100 200 300 400 500 600 700 800 900 1000

m=5 rho=0,3 m=50 rho=0,3 m=5 rho=0,8 m=50 rho=0,8


• Une enquête initiale a deux intérêts :– Permet de vérifier que les groupes tests et témoins sont bien comparables avant le

programme– Réduit la taille de l'échantillon nécessaire, mais impose de faire l'enquête avant de

lancer le programme : augmente le coût de l'évaluation et diminue le disponible pour l'intervention

– Pour calculer la puissance :– Il faut connaitre la corrélation entre deux mesures subséquentes du résultat (par

ex. Corrélation entre les résultats aux examens avant et après le programme)– Plus la corrélation est forte, meilleur est le gain– Des gains importants pour un résultat continu comme des résultats d'examen (Very

big gains for very persistent outcomes such as tests scores)

• Utiliser OD– Le test initial sera utilisé comme covariable, r2 est sa corrélation dans le temps

(Pre‐test score will be used as a covariate, r2 is it correlation over tim.)

La possibilité de faire une enquête initiale


• La stratification permet de réduire la taille de l'échantillon nécessaire pour obtenir une puissance donnée (vous l'avez vu dans l'exercice Balsakhi).

• C'est parce qu'elle réduit la variance du résultat d'intérêt de chaque strate (et donc augmente la taille de l'effet standard pour toute taille d'effet donnée)

• Exemple : si vous tirez au sort au sein de l'école et de chaque niveau quelle classe sera test ou témoin :– la variance des résultats aux examens diminue parce qu'on contrôle

pour l'âge• Variables de stratification habituelles :

– Les valeurs de l'enquête initiale quand c'est possible– Nous supposons que l'effet du programme va varier selon les groupes

Échantillons stratifiés


• Êtes vous intéressé par la différence entre 2 versions du programme et aux différences entre groupes test et témoin ?

• Etes vous intéressé par les interactions entre 2 versions d'un programme ?

• Etes vous intéressé par tester si les effets sont différents selon les sous‐populations ?

• Ce protocole n'implique t il qu'une conformité partielle (Encouragement) ?

Les hypothèses testées


• Le calcul de puissance comporte une part de travail de devinettes…

• Il implique aussi quelques tests pilotes avant que l'expérimentation réelle ne démarre

• Cela vous permettra de savoir :– De combien d'unités test vous aurez besoin– Quel compromis entre plus de grappes et plus d'observations par grappe

– Si c'est possible ou non– Il est fondamental de faire du mieux que vous pouvez: une expérimentation avec une puissance trop faible est une perte de temps et d'argent

Conclusions

Évaluations aléatoires Comment déterminer la taille de l ... - Comment... · TRADUIRE LA...

Documents

Transcript of Évaluations aléatoires Comment déterminer la taille de l ... - Comment... · TRADUIRE LA...