Évaluations aléatoires Comment déterminer la taille de l ... - Comment... · TRADUIRE LA...

68
povertyactionlab.org Évaluations aléatoires : Comment déterminer la taille de l’échantillon ? Bruno Crépon CREST / ENSAE Paris JPAL Europe

Transcript of Évaluations aléatoires Comment déterminer la taille de l ... - Comment... · TRADUIRE LA...

TRADUIRE LA RECHERCHE EN ACTIONpovertyactionlab.org

Évaluations aléatoires : Comment déterminer la taille de 

l’échantillon ?Bruno Crépon

CREST / ENSAE ParisJ‐PAL Europe

TRADUIRE LA RECHERCHE EN ACTION

Plan de la semaine

1. Pourquoi évaluer ?2. Comment mesurer l’impact ?3. Pourquoi tirer au sort ?4. Comment tirer au sort ?5. Comment déterminer la taille de l’échantillon ?6. Risques et solutions7. Une évaluation de A à Z8. Analyses coût‐efficacité et généralisation

TRADUIRE LA RECHERCHE EN ACTION

• Introduction à la méthode scientifique• Fluctuations d’échantillonnage• La signification statistique• La puissance• Les facteurs qui influencent la puissance

Plan du cours

TRADUIRE LA RECHERCHE EN ACTION

• Les expérimentations ont une capacité de détection• Elles peuvent parfois détecter de tous petits effets • Elles peuvent aussi parfois ne détecter que des effets de 

grande taille• Si elles sont de ce type alors on peut se trouver dans la 

situation dans laquelle à l’issue de l’expérimentation on va dire : 

le programme n’a pas d’effet• Alors qu’en fait 

Le programme a un effet

Les points essentiels

TRADUIRE LA RECHERCHE EN ACTION

• Dans ce cas on n’a pas été capable de détecter l’effet du programme 

• La puissance d’une expérimentation est sa capacité de détection• Les expériences sont des outils de mesures• Comme tout outil de mesure elles ont des caractéristiques 

techniques• Considérons un microscope : il y a des microscopes de différentes 

puissance– Des microscopes capables de voir des toute petites choses– Des microscopes plus grossiers qui ne permettent de voir que de gros 

objets• Pour les expérimentations c’est pareil. Il y a des expérimentations 

qui vont permettre de voir de tous petits effets et des expérimentations qui ne permettront de détecter que de gros effets 

Les points essentiels

TRADUIRE LA RECHERCHE EN ACTION

• Il est important d’avoir des expérimentations ayant une capacité de détection suffisante ou appropriée

• Le design influence directement la puissance: – nombre d’unités tirées (100, 200, 1000), – type d’unités tirées (classes, individus, villages…), – le taux d’entrée dans le dispositif 

• On peut calculer la puissance d’une expérimentation• Il est central d’effectuer ces calculs avant de se lancer dans 

une expérimentation : faut‐il considérer 2000 individus ou seulement 500 sont suffisants?

Capacité de détection d’une expérience 

TRADUIRE LA RECHERCHE EN ACTION

Fluctuations d’échantillonnage

TRADUIRE LA RECHERCHE EN ACTION

• On applique une méthode scientifique aux sciences sociales

• Cette méthode scientifique implique :1) que l’on propose une hypothèse

• Le programme n’a pas d’effet2) Que l’on élabore une étude expérimentale

• Protocole : groupe traitement et contrôle d’une taille donnée3) Que l’on décide sur la base des observations récoltées si l’hypothèse est compatible ou non avec les observations ou si au contraire on doit rejeter cette hypothèse

Une méthode scientifique

TRADUIRE LA RECHERCHE EN ACTION

• Le principe de base est celui de la loi des grands nombres• La loi des grands nombre dit que lorsque l’on tire un 

échantillon d’une taille N donnée dans la population et que l’on prend la moyenne on observe– Un résultat qui dépend de l’échantillon– On change d’échantillon, on change de moyenne– Ces différences qu’on appelle « fluctuations d’échantillonnage » 

deviennent de plus en plus petites lorsque la taille de l’échantillon augmente

– Elles sont négligeables lorsque la taille de l’échantillon est très grande– Si on prend des échantillons de 100.000 observations il n’y a plus de 

différences si on change d’échantillon

Comment ca marche

TRADUIRE LA RECHERCHE EN ACTION

• Les évaluations que l’on effectue considère– Un échantillon traitement– Un échantillon contrôle

• Elles sont basées sur la comparaison entre la moyenne dans le groupe traitement et la moyenne dans le groupe contrôle

• En se basant sur le slide précédent, on s’attend à ce que la différence que l’on mesure puisse avoir deux explications possibles– Il y a un effet du traitement : les traitements et les contrôles sont 

différents parce qu’il y a eu le traitement – Les différences observées ne sont que le résultat de l’échantillonnage. 

D’autres échantillons conduiraient à des résultats différents voir opposés• On veut mettre en place un moyen de s’assurer qu’on est dans le 

premier cas et pas dans le second

Comment ca marche

TRADUIRE LA RECHERCHE EN ACTION

Le programme Balsakhi de Pratham

TRADUIRE LA RECHERCHE EN ACTION

0

50

100

150

200

250

300

350

400

450

500

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores

Enquête initiale : résultats aux examens dans la zone de Vadodara

TRADUIRE LA RECHERCHE EN ACTION

0

20

40

60

80

100

120

140

160

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores

Enquête finale : résultats aux examens 

TRADUIRE LA RECHERCHE EN ACTION

0

20

40

60

80

100

120

140

160

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores

control

treatment

Résultats à l’examen : groupe Test et groupe Témoin 

TRADUIRE LA RECHERCHE EN ACTION

0

20

40

60

80

100

120

140

160

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores

control

treatment

control μ

treatment μ

Différence moyenne : 6 points

TRADUIRE LA RECHERCHE EN ACTION

• Est‐ce que cette différence de 6 points entre le groupe de traitement et le groupe de contrôle est– Due au programme– Due au fait qu’on a des échantillons différents

• En d’autres termes : – si on recommençait l’expérimentation avec d’autres 

échantillons, est‐ce qu’on aurait une différence comparable, ou est‐ce que les résultats pourraient être très différents 

Notre question

TRADUIRE LA RECHERCHE EN ACTION

La significativité statistique

TRADUIRE LA RECHERCHE EN ACTION

• La question importante : est‐ce que les différences observées entre les deux échantillons traitement et contrôle sont dues au programme ou le fait du hasard?

• Pour répondre à cette question nous devrons nous baser sur la combinaison :

• du protocole de la méthode aléatoire– Garantit que l’on est parti de populations similaires

• des propriétés statistiques– Même si les populations sont similaires, les moyennes les moyennes peuvent présenter des différences et être trompeuses

• Comment décide‐t‐on si les différences sont le fruit du hasard des échantillons?

D’où viennent les différences

TRADUIRE LA RECHERCHE EN ACTION

• Le moyen que l’on utilise est le suivant : • On considère la différence entre les moyennes dans le traitement et 

le contrôleD=différence des moyennes

• On normalise cette différence par une quantité très importante sur laquelle on va amplement revenir

• Cette quantité s’appelle l’écart‐type : S

• On considère le ratioD/S

• Si ce ratio est « grand » alors on décide que le programme a un effet

• Si le ratio est petit  on considère décide que le programme n’a pas d’effet

Comment ca marche

TRADUIRE LA RECHERCHE EN ACTION

• Les tests partent d’hypothèses entre lesquelles on veut choisir• Il y a l’hypothèse nulle : H0

– le programme n’a pas d’effet

• Il y a l’hypothèse alternative H1– Le programme a un effet

• Faire un test c’est juste décider si l’hypothèse nulle est compatible avec les données qu’on a récoltées ou si à l’inverse c’est l’hypothèse alternative qui est compatible

Les tests

TRADUIRE LA RECHERCHE EN ACTION

• Supposons qu’il n’y ait pas d’effet : H0 est la vérité• Dans la population totale, la situation d’un groupe traitement 

infiniment grand et d’un groupe contrôle infiniment grand seraient identiques

• On n’a que des échantillons de taille finie : par exemple un contrôle et un traitement de 100 individus

• Les différences « normalisées » que l’on peut mesurer vont en général être petites mais elles peuvent être grandes à cause des fluctuations d’échantillonnage

• C’est peu probable mais cela peut arriver

Les tests : la règle de décision

TRADUIRE LA RECHERCHE EN ACTION

• Les calculs statistiques montrent que lorsque l’effet du programme est nul, la différence entre la moyenne D dans le groupe traitement et le groupe contrôle, normalisée par la quantité S :

D/S• A très peu de chance d’être au dessus de 1,96 : cela peut 

arriver mais dans 5% des cas seulement• La règle de décision est que si le ratio est plus grand que 1,96 

on rejette l’hypothèse nulle et on décide que le programme a un effet

Les tests : la règle de décision

TRADUIRE LA RECHERCHE EN ACTION

Niveau de signification :on rejette H0 dans la zone critique

TRADUIRE LA RECHERCHE EN ACTION

• Si on a rejeté l’hypothèse d’absence d’effet, est‐on sur qu’il y a un effet?– Non avec les tests statistiques on n’est jamais sur d’avoir pris la bonne 

décision  – Le test est fait de telle sorte que le risque que l’on a de se tromper en 

décidant que le programme  a un effet alors qu’il n’en a pas est de 5%

• Ca veut dire que si un programme n’a pas d’effet et qu’on recommence un très grand nombre de fois l’expérience avec à chaque fois des échantillons différents, alors dans 5% des cas on va prendre la décision à tort que le programme a un effet et dans 95% des cas on prendra la bonne décision 

Les tests : le risque de type I

TRADUIRE LA RECHERCHE EN ACTION

C’est ce que l’on appelle le risque de type I : Décider

le programme marche alors qu’en fait il ne marche pas

Les tests : le risque de type I

TRADUIRE LA RECHERCHE EN ACTION

• Que se passe‐t‐il si on est en deça de la valeur seuil de 1,96?– Nous ne pouvons rejeter l’hypothèse nulle :  on décide le programme 

n’a pas d’impact– Sommes‐nous 100 % sûrs qu’il n’y a pas d’impact ?

• Non, nous n’avons simplement pas atteint le seuil statistique qui nous permette de parvenir à une autre conclusion.

– Peut‐être qu’en réalité, il n’y a pas d’impact– Ou peut‐être y a‐t‐il un impact, 

• Mais l’échantillon n’était pas suffisant pour le détecter• Ou cette fois‐ci, nous n’avons vraiment pas eu de chance avec notre échantillon

• Comment pouvons‐nous réduire cette erreur ?

Tester les hypothèses : conclusions

grâce à la puissance statistique !

TRADUIRE LA RECHERCHE EN ACTION

La puissance statistique

TRADUIRE LA RECHERCHE EN ACTION

• Lorsque nous utilisons la règle du ratio D/S >1,96

• Pour décider de l’existence d’un effet• Quelles sont les chances que l’on a effectivement de détecter un effet lorsqu’il existe

• C’est ce qu’on appelle la 

PUISSANCE STATISTIQUE

Tester les hypothèses : conclusions

TRADUIRE LA RECHERCHE EN ACTION

VOTRE CONCLUSION

Efficace Aucun Effet

LA VÉRITÉ

Efficace Erreur de Type II (puissance faible)

Aucun Effet

Erreur de Type I(5% du temps)

Tester les hypothèses 

Intervalle de confiance 95 %

TRADUIRE LA RECHERCHE EN ACTION

• Si l’effet du programme est différent de zéro• La différence entre le groupe de traitement et le groupe de 

contrôle ne va plus être distribuée autour de zéro• Si on reprend le cas hypothétique dans lequel on 

recommencerait un très grand nombre de fois l’expérimentation, les fluctuations d’échantillonnage vont encore produire des résultats qui seront différents d’une expérience à l’autre mais à la différence du cas précédent, ils ne seront plus autour de zéro

• Ils seront autour de la vraie différence liée au programme

La puissance statistique : comprendre les idées

TRADUIRE LA RECHERCHE EN ACTION

Niveau de signification :on rejette H0 dans la zone critique

TRADUIRE LA RECHERCHE EN ACTION

La vraie distribution de l’effet est la courbe rouge

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6

control

treatment

significance

TRADUIRE LA RECHERCHE EN ACTION

Puissance : quand rejeter H0 ?

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6

control

treatment

significance

TRADUIRE LA RECHERCHE EN ACTION

Il y a une probabilité d’être au dessus du seuil

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6

control

treatment

power

Il s’agit de la surface hachurée en violet

TRADUIRE LA RECHERCHE EN ACTION

• La puissance est justement cette probabilité de rejeter l’hypothèse nulle lorsque effectivement l’hypothèse nulle est fausse

• On voit que cette probabilité ici n’est pas égale à 1 et de loin!

• En fait elle est de l’ordre de 25%• Cela veut dire que dans 25% des cas seulement on va 

décider que le programme a un effet• Dans 75% des cas on va décider que le programme n’a pas 

d’effet• On est passé à côté• L’expérience n’avait pas la puissance suffisante pour cela

LLa puissance

TRADUIRE LA RECHERCHE EN ACTION

Puissance : si l’effet que l’on cherche a detcter est plus grand que ce passe‐t‐il

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6

control

treatment

significance

TRADUIRE LA RECHERCHE EN ACTION

Puissance : 91 %

L'hypothèse nulle serait rejetée 91% du temps

TRADUIRE LA RECHERCHE EN ACTION

• La puissance dans ce cas est beaucoup plus importante

• On voit un point central concernant la capacité de détection d’une expérimentation

• Plus l’effet que l’on cherche à détecter est grand et plus on aura de chance de le détecter

• Si on veut détecter un tout petit effet : le programme fait passer la moyenne des élèves de 50 à 50,1 ca va être beaucoup plus difficile que si le programme fait passer la moyenne des élèves de 50 à 70 

La puissance

TRADUIRE LA RECHERCHE EN ACTION

• La puissance d’une expérimentation est bien résumée par une quantité centrale

L’Effet Minimum Détectable• Il s’agit en fait de la capacité de détection de l’expérimentation

• C’est la quantité qui va résumer si l’expérimentation a de bonne chances de détecter de petits effets ou si seulement de grands effet seront détectables

La puissance et l’effet minimum détectable

TRADUIRE LA RECHERCHE EN ACTION

• Il s’agit de l’ampleur de l’effet que doit avoir au moins le programme pour que l’on puisse le détecter dans 80% des cas

• Plus le MDE est élevé moins l’expérience est puissante

• La formule du MDEMDE = 2,8 x S

• Où S est l’écart‐type (la quantité qui intervient dans le ratio D/S)

La puissance et l’effet minimum détectable

TRADUIRE LA RECHERCHE EN ACTION

• Dans ce cas la puissance est de 80% et on exprime l’effet que l’on peut détecter pour une puissance donnée

• Le même idée peut être exprimée différemment : on se donne la taille de l’effet que l’on veut détecter et on exprime la puissance, c’est à dire la probabilité de détecter l’effet

• C’est ce que fait le logiciel OD

La puissance et l’effet minimum détectable

TRADUIRE LA RECHERCHE EN ACTION

• Le point important est que de nombreuses caractéristiques du design joue un rôle centrale sur S et donc sur la puissance– Le nombre d’unités N– Le type de tirage (grappe ou non) le nombre d’individus par 

grappe m et leur degrés de corrélation– Le taux d’entrée dans le programme– L’écart‐type de la variable d’outcome

• Il est central avant de se lancer dans l’expérimentation de faire les calculs de puissance

• Trouver des valeurs raisonnables des paramètres inconnus• Essayer différentes valeurs pour les paramètres que l’on 

peut choisir 

Dans tous les cas le facteur S joue un rôle central

TRADUIRE LA RECHERCHE EN ACTION

Les facteurs influençant la puissance statistique

TRADUIRE LA RECHERCHE EN ACTION

• Le logiciel OD permet de faire des simulations pour déterminer la capacité de détection de l’expérimentation

• Il faut systématiquement faire ces simulations• Le risque est de se lancer dans une expérimentation compliquée et longue mais sans capacité de détection

Dans tous les cas le facteur S joue un rôle central

TRADUIRE LA RECHERCHE EN ACTION

• Quel est le plus petit effet qui justifierait que le programme soit adopté ?

• Si l’effet est inférieur, il pourrait tout aussi bien être égal à zéro : quel intérêt ?

• A l’inverse, si tout effet supérieur justifie l’adoption du programme, nous devons calibrer l’expérimentation pour être en mesure de le distinguer de zéro

Choisir une taille d'effet

TRADUIRE LA RECHERCHE EN ACTION

• Si la variable de résultat sous‐jacente est fortement dispersée alors il sera difficile de détecter un effet

• Il sera difficile de  séparer l’effet systématique du programme de l’hétérogénéité des situations des individus qui composent l’échantillon

La dispersion un déterminant naturel

TRADUIRE LA RECHERCHE EN ACTION

• On a coutume d’exprimer la capacité de détection en fonction de l’écart‐type de la variable de résultat

• L’importance en taille d’un effet que vous allez pouvoir détecter à partir d’un échantillon donné va dépendre de la variance du résultat

• La taille d’effet standardisée est la taille de l’effet divisée par l’écart type du résultat

• Tailles d’effets courantes

Tailles d’effets standardisées

TRADUIRE LA RECHERCHE EN ACTION

Un effet de taille….

est considéré… … et signifie que…

0.2 Petit ‐modeste que le membre moyen du groupe test a obtenu un meilleur résultat que le 58ème

percentile du groupe témoin

0.5 Modeste important Que le membre moyen du groupe test a obtenu un meilleur résultat que le 69ème

percentile du groupe témoin

0.8 important Que le membre moyen du groupe test a obtenu un meilleur résultat que le 79ème

percentile du groupe témoin

Taille d'effet standardisé

TRADUIRE LA RECHERCHE EN ACTION

• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier

• Le type d'hypothèses qui sont testées

Les paramètres du protocole qui influencent la puissance

TRADUIRE LA RECHERCHE EN ACTION

• Si N augmente S diminue et donc l’expérience gagne en puissance

• Conclusion directe de la loi des grands nombres– Faire une moyenne sur un grand nombre d’individus conduit a des fluctuations d’échantillonnage de plus en plus faibles

– On est de plus en plus prés de la vraie différence et de moins en moins dépendant des échantillons tirés

Le nombre d’unités

TRADUIRE LA RECHERCHE EN ACTION

Effet de la taille de l’échantillon sur S

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 200 400 600 800 1000 1200 1400 1600 1800 2000

TRADUIRE LA RECHERCHE EN ACTION

• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier

• Le type d'hypothèses qui sont testées

Les paramètres du protocole qui influencent la puissance

TRADUIRE LA RECHERCHE EN ACTION

• Un autre élément qui détermine S est le type de tirage

• On peut faire des tirages dits en grappes– On tire des unités comme des classes C et on suit des individus dans les classes m individus par classes

• Par rapport au cas précédent il y a perte d’information

• Ce qui compte est d’avantage le nombre de grappe que le nombre total d’individus

Tirages en grappes

TRADUIRE LA RECHERCHE EN ACTION

• Vous voulez savoir à quel point le résultat de la prochaine élection nationale sera serré ?

• Méthode 1 : on sélectionne de manière aléatoire 50 personnes dans toute la population de l’Inde

• Méthode 2: on sélectionne de manière aléatoire 5 familles et on demande leur opinion à 10 membres de chacune des familles

Protocole en grappe : quelle est l’intuition

TRADUIRE LA RECHERCHE EN ACTION

• Si la réponse est corrélée au sein d’un groupe, vous allez obtenir moins d’informations en mesurant plusieurs personnes dans le groupe

• Vous obtiendrez plus d’informations en mesurant des personnes qui n’ont aucune relation

• On obtient moins d’informations en mesurant des personnes qui sont similaires

Protocole en grappe : quelle est l’intuition

TRADUIRE LA RECHERCHE EN ACTION

• Dans une évaluation aléatoire en grappe, ce sont des unités sociales (ou grappes) qui sont affectées de manière aléatoire aux groupes, plutôt que des personnes

• L’unité de tirage au sort (par exemple, l’école) est plus grande que l’unité de l’analyse (par exemple, les élèves).

• Cela signifie que l’on tire au sort au niveau de l’école mais que l’on utilise les examens des  élèves comme unité d’analyse

Protocole en grappe

TRADUIRE LA RECHERCHE EN ACTION

• Les résultats pour toutes les personnes au sein d’une unité peuvent être corrélés

• La corrélation entre les unités au sein d’une même grappe est appelée r(rho).

Impact du regroupement en grappes

TRADUIRE LA RECHERCHE EN ACTION

• A l’instar des pourcentages, r doit se situer entre 0 et 1• Lorsque l’on travaille sur des évaluations en grappe, il est souhaitable que la valeur de r soit petite

• La valeur de r est souvent petite (0, 0,05, 0,08) mais elle peut être supérieure (0,62)

Valeurs de r (rho)

Madagascar Math + Langue 0.5

Busia, Kenya Math + Langue 0.22

Udaipur, Inde Math + langue 0.23

Mumbai, Inde Math + Langue 0.29

Vadodara, Inde Math + Langue 0.28

Busia, Kenya Math 0.62

TRADUIRE LA RECHERCHE EN ACTION

Études Groupes Test /Témoin

Nombre total de grappes

Taille de l'échantillon

Autonomisation des femmes

2 Rajasthan: 100Bengale Occ.: 161

1996 enquêtés2813 enquêtés

Pratham: "Read India" 4 280 villages 17,500 enfants

Pratham: "Balsakhi" 2 Mumbai: 77 écolesVadodara: 122 écoles

10,300 enfants12,300 enfants

Kenya: "professeur supplémentaire"

8 210 écoles 10,000 enfants

Déparasitage 3 75 écoles 30,000 enfants

Quelques exemples de tailles d'échantillon

TRADUIRE LA RECHERCHE EN ACTION

• Analyse : Il faudra ajuster les erreurs standards pour tenir compte du fait que les observations au sein d’une grappe sont corrélées

• Facteur d’ajustement pour  une taille totale d’échantillon donnée Cm : C grappes avec des grappes de taille m, une corrélation intra‐grappe de r, la taille d’effet la plus petite que nous pouvons détecter augmente de par comparaison à un design sans grappe

• Protocole : nous devons tenir compte du protocole en grappe lorsque nous prévoyons notre taille d’échantillon

Conséquences sur l'analyse et sur le protocole

)1(*1 m

TRADUIRE LA RECHERCHE EN ACTION

Effet du nombre d’individus m par grappe sur S en fonction de C

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 100 200 300 400 500 600 700 800 900 1000

m=5 rho=0,3 m=50 rho=0,3 m=5  rho=0,8 m=50  rho=0,8

TRADUIRE LA RECHERCHE EN ACTION

• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier

• Le type d'hypothèses qui sont testées

Les paramètres du protocole qui influencent la puissance

TRADUIRE LA RECHERCHE EN ACTION

• Une enquête initiale a deux intérêts :– Permet de vérifier que les groupes tests et témoins sont bien comparables avant le 

programme– Réduit la taille de l'échantillon nécessaire, mais impose de faire l'enquête avant de 

lancer le programme : augmente le coût de l'évaluation et diminue le disponible pour l'intervention 

– Pour calculer la puissance :– Il faut connaitre la corrélation entre deux mesures subséquentes du résultat (par 

ex. Corrélation entre les résultats aux examens avant et après le programme)– Plus la corrélation est forte, meilleur est le gain– Des gains importants pour un résultat continu comme des résultats d'examen (Very

big gains for very persistent outcomes such as tests scores)

• Utiliser OD– Le test initial sera utilisé comme covariable, r2 est sa corrélation dans le temps 

(Pre‐test score will be used as a covariate, r2 is it correlation over tim.)

La possibilité de faire une enquête initiale

TRADUIRE LA RECHERCHE EN ACTION

• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier

• Le type d'hypothèses qui sont testées

Les paramètres du protocole qui influencent la puissance

TRADUIRE LA RECHERCHE EN ACTION

• La stratification permet de réduire la taille de l'échantillon nécessaire pour obtenir une puissance donnée (vous l'avez vu dans l'exercice Balsakhi). 

• C'est parce qu'elle réduit la variance du résultat d'intérêt de chaque strate (et donc augmente la taille de l'effet standard pour toute taille d'effet donnée)

• Exemple : si vous tirez au sort au sein de l'école et de chaque niveau quelle classe sera test ou témoin :– la variance des résultats aux examens diminue parce qu'on contrôle 

pour l'âge• Variables de stratification habituelles :

– Les valeurs de l'enquête initiale quand c'est possible– Nous supposons que l'effet du programme va varier selon les groupes

Échantillons stratifiés

TRADUIRE LA RECHERCHE EN ACTION

• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier

• Le type d'hypothèses qui sont testées

Les paramètres du protocole qui influencent la puissance

TRADUIRE LA RECHERCHE EN ACTION

• Êtes vous intéressé par la différence entre 2 versions du programme et aux différences entre groupes test et témoin ?

• Etes vous intéressé par les interactions entre 2 versions d'un programme ?

• Etes vous intéressé par tester si les effets sont différents selon les sous‐populations ?

• Ce protocole n'implique t il qu'une conformité partielle (Encouragement) ? 

Les hypothèses testées

TRADUIRE LA RECHERCHE EN ACTION

• Le calcul de puissance comporte une part de travail de devinettes… 

• Il implique aussi quelques tests pilotes avant que l'expérimentation réelle ne démarre

• Cela vous permettra de savoir :– De combien d'unités test vous aurez besoin– Quel compromis entre plus de grappes et plus d'observations par grappe

– Si c'est possible ou non– Il est fondamental de faire du mieux que vous pouvez: une expérimentation avec une puissance trop faible est une perte de temps et d'argent

Conclusions