1. Le khi2 et la mesure des écarts à l’indépendance. Word - mod6-cap1.docx Created Date...

8
1 MODULE 6 : Deux variables sont-elles liées ? Nous avons vu précédemment comment composer un tableau de contingence, permettant de visualiser l’interaction entre deux variables. A priori, vous savez même comment lire ce genre de tableaux, non pas uniquement en comparant ligne par ligne ou colonne par colonne, mais bien en vérifiant si le comportement de chaque cellule est conforme à celui de l’ensemble de l’échantillon. Mais avant de lire un tableau, il est intéressant de savoir si, en toute rigueur, la distribution de chacune des variables qui y est représentée est due au hasard ou non. Si c’est le cas, il n’y aura pas d’interaction entre les variables. Plus exactement, il y a des risques qu’une interprétation ne soit pas possible avec une assez grande fiabilité. Il existe différents tests permettant de s’assurer de cette fiabilité et de l’interaction entre deux variables, sans même avoir à regarder le tableau dans son ensemble. Le plus célèbre de ces tests porte le nom de « Khi2 ». Il permet de tester l’interaction de deux ou trois variables dans un tableau et donc de savoir s’il vaut la peine d’être étudié ou bien s’il faut essayer de le recomposer différemment. Cela est très pratique lorsqu’il y a beaucoup de tableaux à analyser dans une enquête. Imaginez en effet que vous posiez 50 questions dans une enquête. Ces 50 questions débouchent sur un nombre supérieur de variables. Disons 70. Si vous croisez ces 70 variables entre elles (ce qui, reconnaissons-le, n’aurait pas toujours du sens), vous obtiendriez 70x70=4900 tableaux ! Supprimons tous ceux qui n’auraient aucun sens. Vous auriez tout de même plusieurs centaines de tableaux dignes d’intérêt. Pour commencer à les trier et à organiser votre travail le test du khi2 est précieux. On l’assorti généralement d’un autre test, le test de Cramer, qui permet quant à lui de connaître l’intensité d’une relation entre les variables d’un tableau croisé. Pour faire simple, disons que le test du Khi2 permet de savoir si des variables agissent les unes sur les autres, et que le test de Cramer permet de mesurer l’intensité de ces effets. Regardons cela dans le détail. 1. Le khi2 et la mesure des écarts à l’indépendance. Pour comprendre le test du khi2, il faut imaginer ce qui se passerait dans un tableau de contingence… s’il ne s’y passait rien. Si les deux variables qui y sont exposées étaient totalement indépendantes l’une de l’autre. Valider le test du khi2 revient à « écarter l’hypothèse de l’indépendance entre les variables ». Examinons cela avec un exemple.

Transcript of 1. Le khi2 et la mesure des écarts à l’indépendance. Word - mod6-cap1.docx Created Date...

1

MODULE 6 : Deux variables sont-elles liées ?

Nousavonsvuprécédemmentcommentcomposeruntableaudecontingence,permettantdevisualiser l’interactionentredeuxvariables.Apriori,voussavezmêmecommentlirecegenredetableaux,nonpasuniquementencomparantligneparligneoucolonneparcolonne,maisbienenvérifiantsilecomportementdechaquecelluleestconformeàceluidel’ensembledel’échantillon.Maisavantdelireuntableau,ilestintéressantdesavoirsi,entouterigueur,ladistributiondechacunedesvariablesquiyestreprésentéeestdueauhasardounon.Sic’estlecas,iln’yaurapasd’interactionentre lesvariables.Plusexactement, ilyadesrisquesqu’uneinterprétationnesoitpaspossibleavecuneassezgrandefiabilité.Ilexistedifférentstestspermettantdes’assurerdecettefiabilitéetdel’interactionentredeuxvariables,sansmêmeavoiràregarderletableaudanssonensemble.Lepluscélèbredecestestsportelenomde«Khi2».Ilpermetdetesterl’interactiondedeuxoutroisvariablesdansuntableauetdoncdesavoirs’ilvautlapeined’êtreétudiéoubiens’ilfautessayerdelerecomposerdifféremment.Celaesttrèspratiquelorsqu’ilyabeaucoupdetableauxàanalyserdansuneenquête.Imaginezeneffetquevousposiez50questionsdansuneenquête.Ces 50 questions débouchent sur un nombre supérieur de variables. Disons 70. Si vous croisez ces 70 variables entre elles (ce qui,reconnaissons-le, n’aurait pas toujours du sens), vous obtiendriez 70x70=4900 tableaux! Supprimons tous ceux qui n’auraient aucun sens.Vousaurieztoutdemêmeplusieurscentainesdetableauxdignesd’intérêt.Pourcommenceràlestrieretàorganiservotretravailletestdukhi2estprécieux.Onl’assortigénéralementd’unautretest, letestdeCramer,quipermetquantàluideconnaîtrel’intensitéd’unerelationentrelesvariablesd’untableaucroisé.

Pourfairesimple,disonsqueletestduKhi2permetdesavoirsidesvariablesagissentlesunessurlesautres,etqueletestdeCramerpermetdemesurerl’intensitédeceseffets.

Regardonsceladansledétail.

1 . L e kh i2 e t l a me sure d e s é c art s à l ’ i nd é p endance . Pour comprendre le test du khi2, il faut imaginer ce qui se passerait dans un tableau de contingence… s’il ne s’y passait rien. Si les deuxvariables qui y sont exposées étaient totalement indépendantes l’une de l’autre. Valider le test du khi2 revient à «écarter l’hypothèse del’indépendanceentrelesvariables».

Examinonscelaavecunexemple.

2

TABLEAU1–triscroisésentimentdebonheur/niveauderevenuseneffectifs–situationobservée

Reprenonsnotre tableaucroiséexposant la relationentreniveauderevenusetsentimentdebonheur.Cepremier tableaucorrespondà lasituationobservéedansnotreenquête.

Aquoiressembleraitcetableausiriennesepassait.Pourlesavoir,ilfautcomposeruntableaudit«desituationàl’indépendance».Laplupartdeslogicielsdetraitementsstatistiquesvousproposentdelefaire,maisilestassezaisédelefairesoi-même.Faisonscela,carcelapermetdebiencomprendrelalogiqueducalculdukhi2.

Si la variable«niveaude revenusen3»n’agissaitpas sur la variable«niveaudebonheur»,ondevraitobserverunedistributionde cettedernièreanaloguedanschacunedeslignesderevenus.

3

Prenons la ligne«Jusqu’à1900euros».Nousavons271 individusà répartirdans les4 colonnesde la variable«sentimentsdebonheur».Commenousavons188individusautotalquisedéclarent«trèsheureux»,pourconnaîtrelarépartitionprobabled’enavoirparmiceuxquigagnent1900euros,ilfautappliquerlaformulemathématiquesuivante:188*271/826.Celanousdonneuneffectifde62.Entoutelogiques,nous devrions avoir 62 individus se déclarant très heureux parmi ceux qui gagnent jusqu’à 1900 euros, au lieu de 44 individus observés.Appliquonscettelogiquesurl’ensembledutableau.

4

TABLEAU2–triscroisésentimentdebonheur/niveauderevenuseneffectifs–situationàl’indépendance

Onobservedesbiendesécartsensituationobservéeetsituationà l’indépendanceauseindechacunedescellules.Letestdukhi2estunemesuredel’ensembledecesécarts.Afindemesureraussibienlesécartspositifsquenégatifs,onélèvetouscesécartsaucarré.

5

TABLEAU3–triscroisésentimentdebonheur/niveauderevenuseneffectifs–écartsàl’indépendanceélevésaucarré

6

Enfin, on rapporte cette différence à l’effectif théorique (celui qui correspond l’indépendance) de chaque cellule en le divisant. Le tableauobtenus’appelle«tableaudescontributionsabsolues»

TABLEAU4–triscroisésentimentdebonheur/niveauderevenuseneffectifs–contributionsabsolues

7

Lekhi2correspondàl’additiondetouscesécartsàl’indépendanceélevésaucarréetdivisésparl’effectifthéorique.Autrementdit,lekhi2estlasommedetouteslescellulesdenotretableau.Mettezsurpause,sortezvotrecalculatriceetadditionnez:vousobtiendrezlechiffrede69.Cechiffrecorrespondau«khi2calculé»,soitàlasommedescontributionsabsolues.

8

Jevousindiquelaformuledukhi2pourplusdeclarté,mêmesitousleslogicielsdetraitementsstatistiquesvouspermettentdeleproduireenunquartdesecondes.