Évaluations aléatoires Comment déterminer la taille de l ... - Comment... · TRADUIRE LA...
-
Upload
nguyenphuc -
Category
Documents
-
view
213 -
download
0
Transcript of Évaluations aléatoires Comment déterminer la taille de l ... - Comment... · TRADUIRE LA...
TRADUIRE LA RECHERCHE EN ACTIONpovertyactionlab.org
Évaluations aléatoires : Comment déterminer la taille de
l’échantillon ?Bruno Crépon
CREST / ENSAE ParisJ‐PAL Europe
TRADUIRE LA RECHERCHE EN ACTION
Plan de la semaine
1. Pourquoi évaluer ?2. Comment mesurer l’impact ?3. Pourquoi tirer au sort ?4. Comment tirer au sort ?5. Comment déterminer la taille de l’échantillon ?6. Risques et solutions7. Une évaluation de A à Z8. Analyses coût‐efficacité et généralisation
TRADUIRE LA RECHERCHE EN ACTION
• Introduction à la méthode scientifique• Fluctuations d’échantillonnage• La signification statistique• La puissance• Les facteurs qui influencent la puissance
Plan du cours
TRADUIRE LA RECHERCHE EN ACTION
• Les expérimentations ont une capacité de détection• Elles peuvent parfois détecter de tous petits effets • Elles peuvent aussi parfois ne détecter que des effets de
grande taille• Si elles sont de ce type alors on peut se trouver dans la
situation dans laquelle à l’issue de l’expérimentation on va dire :
le programme n’a pas d’effet• Alors qu’en fait
Le programme a un effet
Les points essentiels
TRADUIRE LA RECHERCHE EN ACTION
• Dans ce cas on n’a pas été capable de détecter l’effet du programme
• La puissance d’une expérimentation est sa capacité de détection• Les expériences sont des outils de mesures• Comme tout outil de mesure elles ont des caractéristiques
techniques• Considérons un microscope : il y a des microscopes de différentes
puissance– Des microscopes capables de voir des toute petites choses– Des microscopes plus grossiers qui ne permettent de voir que de gros
objets• Pour les expérimentations c’est pareil. Il y a des expérimentations
qui vont permettre de voir de tous petits effets et des expérimentations qui ne permettront de détecter que de gros effets
Les points essentiels
TRADUIRE LA RECHERCHE EN ACTION
• Il est important d’avoir des expérimentations ayant une capacité de détection suffisante ou appropriée
• Le design influence directement la puissance: – nombre d’unités tirées (100, 200, 1000), – type d’unités tirées (classes, individus, villages…), – le taux d’entrée dans le dispositif
• On peut calculer la puissance d’une expérimentation• Il est central d’effectuer ces calculs avant de se lancer dans
une expérimentation : faut‐il considérer 2000 individus ou seulement 500 sont suffisants?
Capacité de détection d’une expérience
TRADUIRE LA RECHERCHE EN ACTION
• On applique une méthode scientifique aux sciences sociales
• Cette méthode scientifique implique :1) que l’on propose une hypothèse
• Le programme n’a pas d’effet2) Que l’on élabore une étude expérimentale
• Protocole : groupe traitement et contrôle d’une taille donnée3) Que l’on décide sur la base des observations récoltées si l’hypothèse est compatible ou non avec les observations ou si au contraire on doit rejeter cette hypothèse
Une méthode scientifique
TRADUIRE LA RECHERCHE EN ACTION
• Le principe de base est celui de la loi des grands nombres• La loi des grands nombre dit que lorsque l’on tire un
échantillon d’une taille N donnée dans la population et que l’on prend la moyenne on observe– Un résultat qui dépend de l’échantillon– On change d’échantillon, on change de moyenne– Ces différences qu’on appelle « fluctuations d’échantillonnage »
deviennent de plus en plus petites lorsque la taille de l’échantillon augmente
– Elles sont négligeables lorsque la taille de l’échantillon est très grande– Si on prend des échantillons de 100.000 observations il n’y a plus de
différences si on change d’échantillon
Comment ca marche
TRADUIRE LA RECHERCHE EN ACTION
• Les évaluations que l’on effectue considère– Un échantillon traitement– Un échantillon contrôle
• Elles sont basées sur la comparaison entre la moyenne dans le groupe traitement et la moyenne dans le groupe contrôle
• En se basant sur le slide précédent, on s’attend à ce que la différence que l’on mesure puisse avoir deux explications possibles– Il y a un effet du traitement : les traitements et les contrôles sont
différents parce qu’il y a eu le traitement – Les différences observées ne sont que le résultat de l’échantillonnage.
D’autres échantillons conduiraient à des résultats différents voir opposés• On veut mettre en place un moyen de s’assurer qu’on est dans le
premier cas et pas dans le second
Comment ca marche
TRADUIRE LA RECHERCHE EN ACTION
0
50
100
150
200
250
300
350
400
450
500
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores
Enquête initiale : résultats aux examens dans la zone de Vadodara
TRADUIRE LA RECHERCHE EN ACTION
0
20
40
60
80
100
120
140
160
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores
Enquête finale : résultats aux examens
TRADUIRE LA RECHERCHE EN ACTION
0
20
40
60
80
100
120
140
160
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores
control
treatment
Résultats à l’examen : groupe Test et groupe Témoin
TRADUIRE LA RECHERCHE EN ACTION
0
20
40
60
80
100
120
140
160
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100test scores
control
treatment
control μ
treatment μ
Différence moyenne : 6 points
TRADUIRE LA RECHERCHE EN ACTION
• Est‐ce que cette différence de 6 points entre le groupe de traitement et le groupe de contrôle est– Due au programme– Due au fait qu’on a des échantillons différents
• En d’autres termes : – si on recommençait l’expérimentation avec d’autres
échantillons, est‐ce qu’on aurait une différence comparable, ou est‐ce que les résultats pourraient être très différents
Notre question
TRADUIRE LA RECHERCHE EN ACTION
• La question importante : est‐ce que les différences observées entre les deux échantillons traitement et contrôle sont dues au programme ou le fait du hasard?
• Pour répondre à cette question nous devrons nous baser sur la combinaison :
• du protocole de la méthode aléatoire– Garantit que l’on est parti de populations similaires
• des propriétés statistiques– Même si les populations sont similaires, les moyennes les moyennes peuvent présenter des différences et être trompeuses
• Comment décide‐t‐on si les différences sont le fruit du hasard des échantillons?
D’où viennent les différences
TRADUIRE LA RECHERCHE EN ACTION
• Le moyen que l’on utilise est le suivant : • On considère la différence entre les moyennes dans le traitement et
le contrôleD=différence des moyennes
• On normalise cette différence par une quantité très importante sur laquelle on va amplement revenir
• Cette quantité s’appelle l’écart‐type : S
• On considère le ratioD/S
• Si ce ratio est « grand » alors on décide que le programme a un effet
• Si le ratio est petit on considère décide que le programme n’a pas d’effet
Comment ca marche
TRADUIRE LA RECHERCHE EN ACTION
• Les tests partent d’hypothèses entre lesquelles on veut choisir• Il y a l’hypothèse nulle : H0
– le programme n’a pas d’effet
• Il y a l’hypothèse alternative H1– Le programme a un effet
• Faire un test c’est juste décider si l’hypothèse nulle est compatible avec les données qu’on a récoltées ou si à l’inverse c’est l’hypothèse alternative qui est compatible
Les tests
TRADUIRE LA RECHERCHE EN ACTION
• Supposons qu’il n’y ait pas d’effet : H0 est la vérité• Dans la population totale, la situation d’un groupe traitement
infiniment grand et d’un groupe contrôle infiniment grand seraient identiques
• On n’a que des échantillons de taille finie : par exemple un contrôle et un traitement de 100 individus
• Les différences « normalisées » que l’on peut mesurer vont en général être petites mais elles peuvent être grandes à cause des fluctuations d’échantillonnage
• C’est peu probable mais cela peut arriver
Les tests : la règle de décision
TRADUIRE LA RECHERCHE EN ACTION
• Les calculs statistiques montrent que lorsque l’effet du programme est nul, la différence entre la moyenne D dans le groupe traitement et le groupe contrôle, normalisée par la quantité S :
D/S• A très peu de chance d’être au dessus de 1,96 : cela peut
arriver mais dans 5% des cas seulement• La règle de décision est que si le ratio est plus grand que 1,96
on rejette l’hypothèse nulle et on décide que le programme a un effet
Les tests : la règle de décision
TRADUIRE LA RECHERCHE EN ACTION
• Si on a rejeté l’hypothèse d’absence d’effet, est‐on sur qu’il y a un effet?– Non avec les tests statistiques on n’est jamais sur d’avoir pris la bonne
décision – Le test est fait de telle sorte que le risque que l’on a de se tromper en
décidant que le programme a un effet alors qu’il n’en a pas est de 5%
• Ca veut dire que si un programme n’a pas d’effet et qu’on recommence un très grand nombre de fois l’expérience avec à chaque fois des échantillons différents, alors dans 5% des cas on va prendre la décision à tort que le programme a un effet et dans 95% des cas on prendra la bonne décision
Les tests : le risque de type I
TRADUIRE LA RECHERCHE EN ACTION
C’est ce que l’on appelle le risque de type I : Décider
le programme marche alors qu’en fait il ne marche pas
Les tests : le risque de type I
TRADUIRE LA RECHERCHE EN ACTION
• Que se passe‐t‐il si on est en deça de la valeur seuil de 1,96?– Nous ne pouvons rejeter l’hypothèse nulle : on décide le programme
n’a pas d’impact– Sommes‐nous 100 % sûrs qu’il n’y a pas d’impact ?
• Non, nous n’avons simplement pas atteint le seuil statistique qui nous permette de parvenir à une autre conclusion.
– Peut‐être qu’en réalité, il n’y a pas d’impact– Ou peut‐être y a‐t‐il un impact,
• Mais l’échantillon n’était pas suffisant pour le détecter• Ou cette fois‐ci, nous n’avons vraiment pas eu de chance avec notre échantillon
• Comment pouvons‐nous réduire cette erreur ?
Tester les hypothèses : conclusions
grâce à la puissance statistique !
TRADUIRE LA RECHERCHE EN ACTION
• Lorsque nous utilisons la règle du ratio D/S >1,96
• Pour décider de l’existence d’un effet• Quelles sont les chances que l’on a effectivement de détecter un effet lorsqu’il existe
• C’est ce qu’on appelle la
PUISSANCE STATISTIQUE
Tester les hypothèses : conclusions
TRADUIRE LA RECHERCHE EN ACTION
VOTRE CONCLUSION
Efficace Aucun Effet
LA VÉRITÉ
Efficace Erreur de Type II (puissance faible)
Aucun Effet
Erreur de Type I(5% du temps)
Tester les hypothèses
Intervalle de confiance 95 %
TRADUIRE LA RECHERCHE EN ACTION
• Si l’effet du programme est différent de zéro• La différence entre le groupe de traitement et le groupe de
contrôle ne va plus être distribuée autour de zéro• Si on reprend le cas hypothétique dans lequel on
recommencerait un très grand nombre de fois l’expérimentation, les fluctuations d’échantillonnage vont encore produire des résultats qui seront différents d’une expérience à l’autre mais à la différence du cas précédent, ils ne seront plus autour de zéro
• Ils seront autour de la vraie différence liée au programme
La puissance statistique : comprendre les idées
TRADUIRE LA RECHERCHE EN ACTION
La vraie distribution de l’effet est la courbe rouge
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6
control
treatment
significance
TRADUIRE LA RECHERCHE EN ACTION
Puissance : quand rejeter H0 ?
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6
control
treatment
significance
TRADUIRE LA RECHERCHE EN ACTION
Il y a une probabilité d’être au dessus du seuil
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6
control
treatment
power
Il s’agit de la surface hachurée en violet
TRADUIRE LA RECHERCHE EN ACTION
• La puissance est justement cette probabilité de rejeter l’hypothèse nulle lorsque effectivement l’hypothèse nulle est fausse
• On voit que cette probabilité ici n’est pas égale à 1 et de loin!
• En fait elle est de l’ordre de 25%• Cela veut dire que dans 25% des cas seulement on va
décider que le programme a un effet• Dans 75% des cas on va décider que le programme n’a pas
d’effet• On est passé à côté• L’expérience n’avait pas la puissance suffisante pour cela
LLa puissance
TRADUIRE LA RECHERCHE EN ACTION
Puissance : si l’effet que l’on cherche a detcter est plus grand que ce passe‐t‐il
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
‐4 ‐3 ‐2 ‐1 0 1 2 3 4 5 6
control
treatment
significance
TRADUIRE LA RECHERCHE EN ACTION
• La puissance dans ce cas est beaucoup plus importante
• On voit un point central concernant la capacité de détection d’une expérimentation
• Plus l’effet que l’on cherche à détecter est grand et plus on aura de chance de le détecter
• Si on veut détecter un tout petit effet : le programme fait passer la moyenne des élèves de 50 à 50,1 ca va être beaucoup plus difficile que si le programme fait passer la moyenne des élèves de 50 à 70
La puissance
TRADUIRE LA RECHERCHE EN ACTION
• La puissance d’une expérimentation est bien résumée par une quantité centrale
L’Effet Minimum Détectable• Il s’agit en fait de la capacité de détection de l’expérimentation
• C’est la quantité qui va résumer si l’expérimentation a de bonne chances de détecter de petits effets ou si seulement de grands effet seront détectables
La puissance et l’effet minimum détectable
TRADUIRE LA RECHERCHE EN ACTION
• Il s’agit de l’ampleur de l’effet que doit avoir au moins le programme pour que l’on puisse le détecter dans 80% des cas
• Plus le MDE est élevé moins l’expérience est puissante
• La formule du MDEMDE = 2,8 x S
• Où S est l’écart‐type (la quantité qui intervient dans le ratio D/S)
La puissance et l’effet minimum détectable
TRADUIRE LA RECHERCHE EN ACTION
• Dans ce cas la puissance est de 80% et on exprime l’effet que l’on peut détecter pour une puissance donnée
• Le même idée peut être exprimée différemment : on se donne la taille de l’effet que l’on veut détecter et on exprime la puissance, c’est à dire la probabilité de détecter l’effet
• C’est ce que fait le logiciel OD
La puissance et l’effet minimum détectable
TRADUIRE LA RECHERCHE EN ACTION
• Le point important est que de nombreuses caractéristiques du design joue un rôle centrale sur S et donc sur la puissance– Le nombre d’unités N– Le type de tirage (grappe ou non) le nombre d’individus par
grappe m et leur degrés de corrélation– Le taux d’entrée dans le programme– L’écart‐type de la variable d’outcome
• Il est central avant de se lancer dans l’expérimentation de faire les calculs de puissance
• Trouver des valeurs raisonnables des paramètres inconnus• Essayer différentes valeurs pour les paramètres que l’on
peut choisir
Dans tous les cas le facteur S joue un rôle central
TRADUIRE LA RECHERCHE EN ACTION
• Le logiciel OD permet de faire des simulations pour déterminer la capacité de détection de l’expérimentation
• Il faut systématiquement faire ces simulations• Le risque est de se lancer dans une expérimentation compliquée et longue mais sans capacité de détection
Dans tous les cas le facteur S joue un rôle central
TRADUIRE LA RECHERCHE EN ACTION
• Quel est le plus petit effet qui justifierait que le programme soit adopté ?
• Si l’effet est inférieur, il pourrait tout aussi bien être égal à zéro : quel intérêt ?
• A l’inverse, si tout effet supérieur justifie l’adoption du programme, nous devons calibrer l’expérimentation pour être en mesure de le distinguer de zéro
Choisir une taille d'effet
TRADUIRE LA RECHERCHE EN ACTION
• Si la variable de résultat sous‐jacente est fortement dispersée alors il sera difficile de détecter un effet
• Il sera difficile de séparer l’effet systématique du programme de l’hétérogénéité des situations des individus qui composent l’échantillon
La dispersion un déterminant naturel
TRADUIRE LA RECHERCHE EN ACTION
• On a coutume d’exprimer la capacité de détection en fonction de l’écart‐type de la variable de résultat
• L’importance en taille d’un effet que vous allez pouvoir détecter à partir d’un échantillon donné va dépendre de la variance du résultat
• La taille d’effet standardisée est la taille de l’effet divisée par l’écart type du résultat
• Tailles d’effets courantes
Tailles d’effets standardisées
TRADUIRE LA RECHERCHE EN ACTION
Un effet de taille….
est considéré… … et signifie que…
0.2 Petit ‐modeste que le membre moyen du groupe test a obtenu un meilleur résultat que le 58ème
percentile du groupe témoin
0.5 Modeste important Que le membre moyen du groupe test a obtenu un meilleur résultat que le 69ème
percentile du groupe témoin
0.8 important Que le membre moyen du groupe test a obtenu un meilleur résultat que le 79ème
percentile du groupe témoin
Taille d'effet standardisé
TRADUIRE LA RECHERCHE EN ACTION
• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier
• Le type d'hypothèses qui sont testées
Les paramètres du protocole qui influencent la puissance
TRADUIRE LA RECHERCHE EN ACTION
• Si N augmente S diminue et donc l’expérience gagne en puissance
• Conclusion directe de la loi des grands nombres– Faire une moyenne sur un grand nombre d’individus conduit a des fluctuations d’échantillonnage de plus en plus faibles
– On est de plus en plus prés de la vraie différence et de moins en moins dépendant des échantillons tirés
Le nombre d’unités
TRADUIRE LA RECHERCHE EN ACTION
Effet de la taille de l’échantillon sur S
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
0 200 400 600 800 1000 1200 1400 1600 1800 2000
TRADUIRE LA RECHERCHE EN ACTION
• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier
• Le type d'hypothèses qui sont testées
Les paramètres du protocole qui influencent la puissance
TRADUIRE LA RECHERCHE EN ACTION
• Un autre élément qui détermine S est le type de tirage
• On peut faire des tirages dits en grappes– On tire des unités comme des classes C et on suit des individus dans les classes m individus par classes
• Par rapport au cas précédent il y a perte d’information
• Ce qui compte est d’avantage le nombre de grappe que le nombre total d’individus
Tirages en grappes
TRADUIRE LA RECHERCHE EN ACTION
• Vous voulez savoir à quel point le résultat de la prochaine élection nationale sera serré ?
• Méthode 1 : on sélectionne de manière aléatoire 50 personnes dans toute la population de l’Inde
• Méthode 2: on sélectionne de manière aléatoire 5 familles et on demande leur opinion à 10 membres de chacune des familles
Protocole en grappe : quelle est l’intuition
TRADUIRE LA RECHERCHE EN ACTION
• Si la réponse est corrélée au sein d’un groupe, vous allez obtenir moins d’informations en mesurant plusieurs personnes dans le groupe
• Vous obtiendrez plus d’informations en mesurant des personnes qui n’ont aucune relation
• On obtient moins d’informations en mesurant des personnes qui sont similaires
Protocole en grappe : quelle est l’intuition
TRADUIRE LA RECHERCHE EN ACTION
• Dans une évaluation aléatoire en grappe, ce sont des unités sociales (ou grappes) qui sont affectées de manière aléatoire aux groupes, plutôt que des personnes
• L’unité de tirage au sort (par exemple, l’école) est plus grande que l’unité de l’analyse (par exemple, les élèves).
• Cela signifie que l’on tire au sort au niveau de l’école mais que l’on utilise les examens des élèves comme unité d’analyse
Protocole en grappe
TRADUIRE LA RECHERCHE EN ACTION
• Les résultats pour toutes les personnes au sein d’une unité peuvent être corrélés
• La corrélation entre les unités au sein d’une même grappe est appelée r(rho).
Impact du regroupement en grappes
TRADUIRE LA RECHERCHE EN ACTION
• A l’instar des pourcentages, r doit se situer entre 0 et 1• Lorsque l’on travaille sur des évaluations en grappe, il est souhaitable que la valeur de r soit petite
• La valeur de r est souvent petite (0, 0,05, 0,08) mais elle peut être supérieure (0,62)
Valeurs de r (rho)
Madagascar Math + Langue 0.5
Busia, Kenya Math + Langue 0.22
Udaipur, Inde Math + langue 0.23
Mumbai, Inde Math + Langue 0.29
Vadodara, Inde Math + Langue 0.28
Busia, Kenya Math 0.62
TRADUIRE LA RECHERCHE EN ACTION
Études Groupes Test /Témoin
Nombre total de grappes
Taille de l'échantillon
Autonomisation des femmes
2 Rajasthan: 100Bengale Occ.: 161
1996 enquêtés2813 enquêtés
Pratham: "Read India" 4 280 villages 17,500 enfants
Pratham: "Balsakhi" 2 Mumbai: 77 écolesVadodara: 122 écoles
10,300 enfants12,300 enfants
Kenya: "professeur supplémentaire"
8 210 écoles 10,000 enfants
Déparasitage 3 75 écoles 30,000 enfants
Quelques exemples de tailles d'échantillon
TRADUIRE LA RECHERCHE EN ACTION
• Analyse : Il faudra ajuster les erreurs standards pour tenir compte du fait que les observations au sein d’une grappe sont corrélées
• Facteur d’ajustement pour une taille totale d’échantillon donnée Cm : C grappes avec des grappes de taille m, une corrélation intra‐grappe de r, la taille d’effet la plus petite que nous pouvons détecter augmente de par comparaison à un design sans grappe
• Protocole : nous devons tenir compte du protocole en grappe lorsque nous prévoyons notre taille d’échantillon
Conséquences sur l'analyse et sur le protocole
)1(*1 m
TRADUIRE LA RECHERCHE EN ACTION
Effet du nombre d’individus m par grappe sur S en fonction de C
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 100 200 300 400 500 600 700 800 900 1000
m=5 rho=0,3 m=50 rho=0,3 m=5 rho=0,8 m=50 rho=0,8
TRADUIRE LA RECHERCHE EN ACTION
• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier
• Le type d'hypothèses qui sont testées
Les paramètres du protocole qui influencent la puissance
TRADUIRE LA RECHERCHE EN ACTION
• Une enquête initiale a deux intérêts :– Permet de vérifier que les groupes tests et témoins sont bien comparables avant le
programme– Réduit la taille de l'échantillon nécessaire, mais impose de faire l'enquête avant de
lancer le programme : augmente le coût de l'évaluation et diminue le disponible pour l'intervention
– Pour calculer la puissance :– Il faut connaitre la corrélation entre deux mesures subséquentes du résultat (par
ex. Corrélation entre les résultats aux examens avant et après le programme)– Plus la corrélation est forte, meilleur est le gain– Des gains importants pour un résultat continu comme des résultats d'examen (Very
big gains for very persistent outcomes such as tests scores)
• Utiliser OD– Le test initial sera utilisé comme covariable, r2 est sa corrélation dans le temps
(Pre‐test score will be used as a covariate, r2 is it correlation over tim.)
La possibilité de faire une enquête initiale
TRADUIRE LA RECHERCHE EN ACTION
• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier
• Le type d'hypothèses qui sont testées
Les paramètres du protocole qui influencent la puissance
TRADUIRE LA RECHERCHE EN ACTION
• La stratification permet de réduire la taille de l'échantillon nécessaire pour obtenir une puissance donnée (vous l'avez vu dans l'exercice Balsakhi).
• C'est parce qu'elle réduit la variance du résultat d'intérêt de chaque strate (et donc augmente la taille de l'effet standard pour toute taille d'effet donnée)
• Exemple : si vous tirez au sort au sein de l'école et de chaque niveau quelle classe sera test ou témoin :– la variance des résultats aux examens diminue parce qu'on contrôle
pour l'âge• Variables de stratification habituelles :
– Les valeurs de l'enquête initiale quand c'est possible– Nous supposons que l'effet du programme va varier selon les groupes
Échantillons stratifiés
TRADUIRE LA RECHERCHE EN ACTION
• La taille de l’échantillon• Un protocole en grappe• La possibilité de faire une enquête initiale• La possibilité d'avoir des variables de contrôle et de stratifier
• Le type d'hypothèses qui sont testées
Les paramètres du protocole qui influencent la puissance
TRADUIRE LA RECHERCHE EN ACTION
• Êtes vous intéressé par la différence entre 2 versions du programme et aux différences entre groupes test et témoin ?
• Etes vous intéressé par les interactions entre 2 versions d'un programme ?
• Etes vous intéressé par tester si les effets sont différents selon les sous‐populations ?
• Ce protocole n'implique t il qu'une conformité partielle (Encouragement) ?
Les hypothèses testées
TRADUIRE LA RECHERCHE EN ACTION
• Le calcul de puissance comporte une part de travail de devinettes…
• Il implique aussi quelques tests pilotes avant que l'expérimentation réelle ne démarre
• Cela vous permettra de savoir :– De combien d'unités test vous aurez besoin– Quel compromis entre plus de grappes et plus d'observations par grappe
– Si c'est possible ou non– Il est fondamental de faire du mieux que vous pouvez: une expérimentation avec une puissance trop faible est une perte de temps et d'argent
Conclusions