théorie des réponses aux items - IRDP :: Institut de ...

20
Groupe-Edumétrie Qualité de la mesure en éducation A propos de la théorie des réponses aux items (TRI IRT) II. Le cas d’items polytomiques Gianreto PINI Août 2012

Transcript of théorie des réponses aux items - IRDP :: Institut de ...

Page 1: théorie des réponses aux items - IRDP :: Institut de ...

Groupe-Edumétrie

Qualité de la mesure en éducation

A propos de la

théorie des réponses aux items

(TRI – IRT)

II. Le cas d’items polytomiques

Gianreto PINI

Août 2012

Page 2: théorie des réponses aux items - IRDP :: Institut de ...

1

1. Présentation de la problématique

2

2. Le cas d'échelles nominales: le modèle nominal de Bock 5

2.1 Le modèle mathématique 5

2.2 Un exemple concret 5

2.3 Interprétation des résultats 6

2.4 Courbes caractéristiques et fonctionnement des items

7

3. Le cas d'échelles ordinales: le modèle gradué de Samejima 9

3.1 Le modèle mathématique 9

3.2 Un exemple concret 11

2.3 Interprétation des résultats 12

2.4 Courbes caractéristiques et fonctionnement des items

12

4. Courbes d'information et erreur standard de la mesure

14

5. Les paramètres des individus

17

6. Ajustement du modèle aux données 19

Références bibliographiques utiles Bertrand, R. & Blais, J.-G. (2004).

Modèles de mesure. L’apport de la théorie des réponses aux items.

Sainte-Foy, Presses de l’Université du Québec, 376 p. Baker, F.B. & Kim, S.H. (2004).

Item Response Theory. Parameter Estimation Techniques.

New York – Basel, Marcel Dekker, Inc., 2e Ed., 495 p.

De Ayala, R.J. (2009).

The Theory and Practice of Item Response Theory.

New York – London, The Guilford Press, 448 p.

Page 3: théorie des réponses aux items - IRDP :: Institut de ...

2

1. Présentation de la problématique Développée dans la deuxième moitié du 20e siècle, la théorie des réponses aux items (TRI) est un modèle statistique qui s'est rapidement imposé comme l'une des méthodes les plus efficaces pour traiter les problèmes de la mesure tels qu'ils se posent aux chercheurs en sciences humaines et sociales. S'appliquant le plus souvent à des instruments constitués par un certain nombre d'items, la TRI a progressivement élaboré des approches permettant d'analyser deux grandes catégories de données: d'une part, celles qui sont produites par des items dichotomiques (dont la réponse est du type: juste – faux, réussite – échec, etc.) 1 et, d'autre part, celles qui concernent des items polytomiques (dont la réponse peut comporter un nombre de catégories – d’options – supérieur à deux). Dans un grand nombre de situations où l'objectif est d'évaluer les compétences d'une popu-lation d'individus (élèves ou étudiants par exemple), les méthodes qui s'appliquent à des items dichotomiques sont parfaitement adaptées, car, dans ce genre de situation, les ré-ponses fournies par les personnes interrogées peuvent souvent être ramenées à la dichoto-mie classique que nous venons d'évoquer (juste – faux; réussi – échoué; satisfaisant – insa-tisfaisant, etc.). C'est d'ailleurs pour cette raison que ces modèles ont connu un succès con-sidérable et sont abondamment utilisées dans toute sorte de contextes et de domaines. Il existe toutefois de nombreuses situations où le fait d'exprimer les résultats individuels par une simple appréciation binaire n'est pas possible ou n'est pas souhaitable. Ceci est déjà le cas dans le cadre de l'évaluation pédagogique usuelle, comme nous allons le préciser dans un instant. Mais ceci est surtout le cas lorsqu'on souhaite appréhender des traits autres que des connaissances ou des compétences, comme par exemple des aspects d'ordre affectif ou socio-affectif (attitudes, intérêt, motivation, anxiété, etc.). Les instruments conçus pour étudier des caractéristiques de cette nature ont fréquemment recours à des items qui comportent un certain nombre de réponses possibles (4 ou 5 en général), dont la caractéristique principale est qu'elles sont munies d'une structure d'ordre. Dans la plupart des cas, ces réponses possibles (ou options de réponse) expriment différents degrés d'adhésion ou de rejet, d'acceptation ou de refus concernant l'opinion ou l'affirmation propo-sée par l'énoncé de l'item. Ces options définissent donc les niveaux d'une échelle ordinale, dont l'exemple typique est constitué par le modèle très largement utilisé de Likert, qui as-sume souvent la forme suivante:

Je suis… tout à fait en désaccord

plutôt en désaccord

assez d'accord

tout à fait d'accord

… avec l'opinion exprimée par l'item.

Dans ce genre de situation, la distinction entre une réponse juste et des réponses fausses n'a évidemment aucune pertinence, l'intérêt de la démarche étant plutôt de considérer la réponse du sujet en fonction de la position qu'elle occupe par rapport aux autres options proposées par l'item. C'est notamment pour faire face à de telles situations que le dévelop-pement des modèles polytomiques a été envisagé, ce qui a conduit à l'élaboration de moyens d'analyse adaptés à la nature métrique de ce type de données. Il est toutefois opportun de rappeler que, parfois, le modèle polytomique peut également s'appliquer avec profit aux épreuves classiques d'évaluation des compétences. Il est en effet fréquent que ces épreuves soient confectionnées en utilisant un certain nombre de questions

1 Un premier exposé, disponible sur le Site "Edumétrie", a été consacré au cas d'items dichotomiques.

Au cours de cette présentation nous aurons souvent l'occasion de nous y référer. Nous le ferons en indiquant simplement dans le texte le sigle: TRI_D.

Page 4: théorie des réponses aux items - IRDP :: Institut de ...

3

dites à choix multiples, qui comportent plusieurs options (par exemple quatre), dont l'une correspond à la réponse correcte et les autres (les distracteurs) à des réponses incorrectes. Dans des situations de ce type, le modèle pour items dichotomique 2 distingue simplement la réponse correcte des réponses qui ne le sont pas (englobées dans une seule et même caté-gorie), faisant ainsi implicitement l'hypothèse que, du point de vue de l'information relative à la compétence des élèves, ces dernières sont en tout point équivalentes. Or, il est facile de montrer que dans certains cas, le choix de telle réponse incorrecte peut révéler un niveau de maîtrise plus élevé, ou moins élevé, que le choix de telle autre, l'idée sous-jacente étant que, même lorsqu'elle est objectivement fausse, la réponse fournie par un individu peut traduire un certain niveau de maîtrise de la notion considérée. Pour illustrer cette situation imaginons le cas d’un item demandant aux élèves de calculer l'aire d'un triangle rectangle dont les côté mesurent respectivement 9, 12 et 15 cm. L'item propose les options de réponse que voici (en caractères gras et italiques la réponse correcte):

A B C D

36 cm 54 cm2 21 cm 108 cm2

A propos de cet item, on peut raisonnablement imaginer que (mis à part le cas d'une ré-ponse résultant d'une sélection entièrement aléatoire), le choix de la réponse D révèle pro-bablement une meilleure compréhension de la notion évaluée que celui des options A ou C 3. De ce point de vue, on considère à juste titre que la prise en compte de toute réponse four-nie par le sujet peut apporter une information utile concernant la maîtrise qu'il possède du sujet considéré; et ce, même si l'option choisie ne correspond pas à la réponse correcte. Les deux exemples que nous venons d'évoquer permettent également d'introduire une dis-tinction importante dans le domaine des modèles pour items polytomiques et des méthodes mises au point pour effectuer les analyses nécessaires. En effet, malgré l'apparente simili-tude formelle des deux cas présenté ci-dessus, il existe entre eux une différence fondamen-tale en ce qui concerne les caractéristiques métriques des échelles définies par les items. Dans le premier cas (qui pourrait se référer à un instrument permettant d'étudier la motiva-tion des élèves pour l'apprentissage d'une langue étrangère), l'échelle qu’utilisent les sujets pour exprimer leur opinion est ordinale, car – comme nous l'avons déjà évoqué – les diffé-rentes options de réponse définissent divers degrés d'une même dimension (par exemple, niveau d'accord ou de désaccord à l'égard de l'opinion exprimée par l'item). Dans le deuxième cas, en revanche (calcul de l'aire d'un triangle rectangle), les options de réponse constituent les modalités d'une échelle au sein de laquelle aucun critère ne semble a priori pertinent pour justifier l'introduction d'un ordre autre qu'arbitraire. On est donc en pré-sence d'une échelle purement nominale, qui - comme toujours en statistique - exige l'applica-tion de démarches et de méthodes compatibles avec ses propriétés métriques. Dans la suite de cet exposé nous allons traiter séparément chacun de ces deux cas, en commençant par le deuxième. Signalons à ce propos qu'au cours des dernières années, différentes méthodes ont été développées pour faire face au problème des items polyto-

2 Rappelons à cet égard que ces items peuvent être analysés à l'aide d'un modèle pour items dicho-

tomiques. C'est notamment le cas lorsque, pour chaque item, on se limite à considérer deux catégo-ries de réponses: la réponse correcte d'une part (habituellement codée avec le chiffre 1) et l'ensemble des réponses incorrectes d'autre part (0). 3 Concernant l'option D, on remarque tout d'abord que le choix de l'unité est correct (cm

2). Quant à la

valeur numérique du résultat, elle a probablement été obtenue en faisant le produit des cathètes (comme il le fallait), mais sans diviser ce produit par 2.

Page 5: théorie des réponses aux items - IRDP :: Institut de ...

4

miques 4: des méthodes que l'on peut d'ailleurs classer de différentes façons selon qu'elles s'appliquent à des échelles nominales ou à des échelles ordinales, selon qu'elles appartien-nent ou non à la familles des modèles de Rasch; selon qu'elles s'inscrivent dans la catégo-ries des modèles indirects (de "différence") ou dans celle des modèles directs (de "division par le total"), etc. Deux de ces modèles retiendront plus particulièrement notre attention: d'abord le modèle des réponses nominales de Bock et ensuite le modèle des réponses graduées de Samejima. L'accent sera mis avant tout sur la logique de la démarche ainsi que sur l'exploitation des résultats selon qu'on s'intéresse aux caractéristiques techniques des items ou que l'on se propose de situer les individus sur l'échelle du trait latent (niveau de compétence, d'intérêt, de motivation, d'anxiété que l'instrument est censé appréhender). Pour le reste, ces méthodes reposent sur des principes en partie analogues à ceux que l'on rencontre dans le cas d'items dichotomiques (voir TRI_D). En particulier, on considère tou-jours que la réponse d'un individu à un item (et notamment la probabilité d'opérer tel ou tel autre choix, d'adhérer à telle ou à telle autre catégorie, etc.) est déterminée par deux sortes de facteurs: d'une part, le degré auquel l'individu possède la caractéristique relative au trait latent (compétence, motivation, attitude, etc.) et, d'autre part, les propriétés de l'item lui-même, exprimées mathématiquement par un certain nombre de paramètres. Dans le cas d'items dichotomiques, la relation entre le trait latent et le comportement de l'individu (probabilité de fournir la réponse correcte par exemple) est formalisée par une fonc-tion logistique appropriée (la fonction caractéristique de l'item) et elle est représentée par une courbe ayant la forme d'un S plus ou moins allongé (sigmoïde): la courbe caractéristique de l'item (TRI_D). Dans le cas d'items polytomiques le principe qui vient d'être rappelé (relation entre trait latent et réponse de l'individu) demeure valable: avec, toutefois, une différence importante, car la démarche d'analyse donnera lieu non plus à une seule fonction et à une seule courbe pour l'item dans son ensemble, mais à une fonction et à une courbe distinctes pour chacune des options (modalités ou catégories) que l'item comporte 5. On pourra donc étudier "visuelle-ment" le comportement des différentes options, à partir desquelles on déduira les caractéris-tiques de l'item lui-même: notamment sa "localisation" et son pouvoir de discrimination, sans oublier certaines particularités que l'on interprétera parfois en termes de qualités ou de dé-fauts que l'item (ou certaines de ses composantes) présente(nt) 6. Dans la suite de cet expo-sé on parlera donc de courbes caractéristiques des options et non plus de l'item. Enfin, toujours comme dans le cas d'items dichotomique (TRI_D), on pourra obtenir une courbe caractéristique pour le test ou l'échelle global(e), ainsi que des courbes d'information pour chaque item et pour l'instrument dans son ensemble.

4 Voici une liste de méthodes fréquemment présentées dans la littérature sur le sujet: Modèle des réponses nominales (Nominal response): Bock; Modèle des réponses graduées (Graded response): Samejima; Modèle de l'échelle de réponse (Rating scale): Muraki; Modèle du crédit partiel généralisé (Generalized partial credit): Muraki; Modèle du crédit partiel (Partial credit): Masters; Modèle des inter-valles successifs (Successive intervals): Rost; Modèle du crédit partiel (Rating scale): Andric. 5 On relèvera que, dans le cas d'items dichotomiques, on pourrait également construire une courbe

pour chacune des deux situations possibles (item réussi et items échoué). Toutefois, puisque ces deux courbes sont parfaitement complémentaires, la deuxième n'apporterait aucune information que la première ne serait pas déjà en mesure de donner. On se limite donc à une seule courbe, décrivant la relation entre le trait latent et la probabilité de réussite à l'item. 6 Par exemple, dans le cas d'une épreuve de connaissances: distracteurs ayant une très faible proba-

bilité d'être choisis; réponse correcte nettement moins probable (nettement moins fréquente) que cer-tains distracteurs; réponse correcte ayant à peu près la même probabilité (ou, éventuellement, une probabilité décroissante) tout au long de l'échelle des scores thêta; etc.

Page 6: théorie des réponses aux items - IRDP :: Institut de ...

5

2. Le cas d'échelles nominales: le modèle nominal de Bock

2.1 Le modèle mathématique

Dans ce premier cas, la courbe caractéristique est définie séparément pour chaque option que l'item comporte, car on suppose qu'il n'existe aucune relation particulière entre les mo-dalités de l'échelle. Cette courbe est la représentation graphique d'une fonction reliant la probabilité de choisir l'option considérée aux caractéristiques de l'individu d'une part et aux caractéristiques de l'option elle-même d'autre part, ces dernières étant exprimées par les paramètres α et δ qui apparaissent dans l'équation suivante:

k

)(

)(

jkjkjk

jkjk

e

e)(P

Pjk(θ) probabilité qu'un individu possédant à un certain degré (entre 3 et + 3) la caracté-

ristique choisisse l'option k de l'item j;

e base des logarithmes naturels (népériens): 2.7182...;

αjk paramètre alpha pour l'option k de l'item j (parfois dit de discrimination);

θjk paramètre delta pour l'option k de l'item j.

La somme s'entend pour k = 1 à q si l'item comporte q options de réponse.

De plus, pour assurer l'identification du modèle, les conditions suivantes sont imposées:

k jk 0 et k jk 0 d'où il résulte que: k jkjk 0)(

2.2 Un exemple concret

Paramètres d’un item figurant dans une épreuve de connaissances (deux par option):

Options (catégories)

A B C D

α -0.72 1.16 -0.55 0.11

δ -0.96 0.80 -0.28 0.44

En caractères gras et italiques est indiquée la réponse correcte.

Comme pour le cas d'items dichotomiques (TRI_D), la courbe caractéristique indique, pour chaque valeur de thêta, la probabilité de choisir l'option considérée. On en déduit que, pour

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

A

B

D C

Page 7: théorie des réponses aux items - IRDP :: Institut de ...

6

chaque valeur de thêta, la somme des probabilités relatives aux q modalités que l'item com-porte (ici q = 4) est égale à 1, le choix d'une des options proposées étant certain 7:

k jk 1)(P (pour k = 1 à q)

Ainsi, pour une valeur de thêta égale à -2.0, les quatre probabilités calculées pour l'exemple qui précède sont respectivement: P(A) = 0.424; P(B) = 0.041; P(C) = 0.302; P(D) = 0.233. Il est par ailleurs à remarquer que le modèle de Bock peut également s'appliquer lorsque les items ne comportent pas tous le même nombre de modalités (par exemple: trois options pro-posées par certains items, quatre par d'autres; cinq par d'autres encore, etc.).

2.3 Interprétations des résultats

L'interprétation des paramètres α et δ définis par le modèle n'est pas aussi simple et aussi directe que dans le cas d'items dichotomiques ou, même, dans le cas d'échelles ordinales que nous verrons ultérieurement. La position et la forme des différentes courbes dépendent en effet de la combinaison des paramètres pour l'ensemble des options que l'item comporte. Cette difficulté concerne tout particulièrement le paramètre δ, tandis que le paramètre α est généralement interprété comme une mesure de la pente qui caractérise la courbe, exprimant ainsi le pouvoir discriminatif de l'option. De plus, sa valeur est de signe négatif si la courbe est globalement décroissante (monotone négative: options A et C dans l'exemple qui pré-cède) et de signe positif si la courbe est globalement croissante (monotone positive: B). Par ailleurs, la valeur du paramètre tend à se rapprocher de zéro lorsque l'évolution de la pente n'est pas monotone (par exemple croissante jusqu'à une certaine valeur de thêta et décrois-sante à partir de cette valeur: voir option D). Toutefois, la manière la plus simple, et sans doute la plus instructive, d'interpréter les résul-tats est celle qui consiste à considérer les courbes générées à partir de ces paramètres, ce qui permet d'identifier le "fonctionnement" des différentes options de réponse. Ainsi, dans l'exemple qui vient d'être présenté, on remarque d'abord que le comportement de l'option B (la réponse correcte) est tout à fait conforme aux attentes que l'on peut avoir dans ce genre de situation. Il est en effet normal que la probabilité de réussite à l'item augmente lorsqu'on passe des valeurs les plus faibles aux valeurs les plus élevées de thêta: c'est-à-dire, concrètement, lorsqu'on passe des élèves les moins compétents aux élèves les plus compétents sur l'ensemble de l'épreuve. On constate par ailleurs que, chez les élèves les plus faibles, deux options (A et C) sont as-sez clairement plus probable que les autres. Par la suite, toutefois, les probabilités qui leur sont associées déclinent assez rapidement, se rapprochant de zéro chez les élèves dont le score thêta est supérieur à +1.5. Enfin, l'option D présente une évolution analogue à celle de la réponse correcte sur une partie de l'échelle (probabilité croissante), mais la tendance s'inverse pour les valeurs de thêta supérieures à -0.5, sans toutefois que le choix de cette option ne disparaisse jamais complètement, même chez les 10 % à 15 % d'élèves dont les résultats sont globalement les plus élevés (scores supérieurs à +1.0 et, même, à +1.5). L’analyse montre également que, chez les élèves moyens et forts, le choix de l'option D est clairement plus probable que le choix d'une des deux autres réponses incorrectes (A ou C), contrairement à ce que l'on observe chez les élèves les moins compétents. On peut donc supposer que le choix de la réponse D révèle un niveau de compétence plus élevé que le

7 Cette affirmation suppose naturellement qu'il n'y ait pas de données manquantes (non réponses). On

retiendra à ce propos qu'il est toujours possible de considérer une modalité supplémentaire se réfé-rant précisément aux non réponses.

Page 8: théorie des réponses aux items - IRDP :: Institut de ...

7

choix des deux autres options incorrectes (voir l'exemple d'item géométrique présenté à la page 3). Comme toujours dans le cadre de cette approche méthodologique, les résultats fournis par l'analyse donnent lieu à deux types d’exploitations: d'une part, ils fournissent un certain nombre d'informations sur les caractéristiques des items et, d'autre part, ils permettent de situer les individus sur l'échelle qui définit le trait latent. Dans cet exposé nous nous intéresserons surtout au premier de ces deux aspects, car il présente un intérêt tout particulier lorsqu'on cherche à élaborer des instruments d'évaluation ou de recherche. Concernant le deuxième aspect, nous nous limiterons à fournir quelques indications générales (voir point 5 ci-après), car, pour l'essentiel, la logique de la démarche est analogue à celle qui s'applique dans le cas d'items dichotomiques (TRI_D).

2.4 Courbes caractéristiques et fonctionnement des items

Comme nous venons de le mentionner, l'étude des courbes caractéristiques permet notam-ment de mieux comprendre le comportement des options que l'item comporte lorsque cet item est appliqué à une population d'individus. De ce point de vue, l'analyse fournit des élé-ments souvent très instructifs concernant les qualités et les défauts de l'item, suggérant par là-même divers types de modifications ou de remaniements qui pourraient s'avérer oppor-tuns. Signalons à cet égard qu’il n’est pas toujours aisé de déterminer avec précision la nature d'un problème par une simple inspection des courbes caractéristiques. Il est dès lors oppor-tun de "valider" le diagnostic que ces courbes semblent suggérer en revenant aux données d'origine et en vérifiant dans quelle mesure ce diagnostic est corroboré par la manière dont les réponses se distribuent. A cet effet, il est parfois utile de répartir l'ensemble des individus en un certain nombre de catégories (4 à 10 suivant les cas) sur la base de leur résultat à l'ensemble du test. Pour chaque catégorie d'individus, on pourra alors vérifier comment se distribuent les réponses relatives à l'item considéré 8:

Pourcentage d'individus ayant choisi les options de A à D dans 5 catégories de compétence (ca-tégorie 1: 20 % d'élèves les moins compétents; catégorie 5: 20 % d'élèves les plus compétents).

Niveaux de compétence (catégories)

1 2 3 4 5

A 37 % 24 % 16 % 9 % 3 %

B 8 % 28 % 44 % 62 % 84 %

C 31 % 13 % 8 % 4 % 1 %

D 24 % 35 % 32 % 25 % 12 %

Total: 100 % 100 % 100 % 100 % 100 %

Pour illustrer la démarche d'analyse que l'on peut envisager à partir des courbes caractéris-tiques, nous fournirons ci-après quelques exemples de résultats que l'on observe assez fré-quemment, avec, pour chacun d'entre eux, un bref commentaire. Supposons à ce propos que la méthode soit appliquée aux items à choix multiple (quatre options de réponse désignées par les lettres de A à D) qui figurent dans une épreuve de

8 La "comparaison" des éléments qui figurent dans ce tableau avec les caractéristiques des différentes

courbes permet souvent de mieux comprendre la signification exacte des résultats de l'analyse.

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

A

B

D C

Page 9: théorie des réponses aux items - IRDP :: Institut de ...

8

connaissances destinée à une certaine population d'élèves. Dans les graphiques ci-après, la courbe qui se réfère à la réponse correcte est représentée par un trait plus épais.

Exemple 1 : Exemple 2 :

Chez les individus dont le score thêta (S-θ) est le plus faible, les réponses A et B sont nettement les plus probables. B est l'option la plus probable chez les sujets moyens-faibles tandis que C l'est pour les élèves situés entre 0 et +1.0. La réponse correcte s'impose chez les sujets ayant un S-θ su-périeur à +1.0. On notera par ailleurs que même chez les élèves les plus forts, la ré-ponse C conserve une probabilité assez élevée (~ 0.30 pour un S-θ égal à +2.0).

Trois options sur quatre (les réponses in-correctes) sont à peu près équiprobables chez les individus les plus faibles. Par la suite les options C et D tendent à dispa-raître, tandis que la réponse A est nette-ment la plus probable pour les individus dont le S-θ est inférieur à 0. Enfin, pour les sujets qui occupent la moitié supérieure de l'échelle, la réponse correcte apparaît rapi-dement comme étant de plus en plus pro-bable.

Exemple 3 : Exemple 4 :

Item que l'on peut qualifier de "facile". La réponse correcte est en effet la plus pro-bable sur toute l'étendue de l'échelle du trait latent. De plus, la probabilité qui lui est associée est très proche de 1 pour tous les

sujets ayant un S-θ supérieur à 0. On re-marquera également que l'option D ne joue pratiquement aucun rôle, car elle n'est presque jamais choisie.

Les options A et B sont privilégiées par les sujets situés sur la partie inférieure de l'échelle, tandis que les options C et D sont plutôt choisies par les individus qui se trou-vent sur la partie supérieure. De plus, cet item paraît assez "difficile", la réponse cor-recte ne dépassant pas une probabilité comprise entre 0.6 et 0.7 même chez les

individus dont les S-θ sont les plus élevés.

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

A B C

D

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

A

B

C D

0.0

0.1

0.2

0.30.4

0.50.6

0.7

0.8

0.91.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

A

C B

D 0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

A C D

B

Page 10: théorie des réponses aux items - IRDP :: Institut de ...

9

Exemple 5 : Exemple 6 :

Deux options de réponse sont ici nettement plus probables que les autres: l'option A chez les individus situés sur la partie infé-rieure de l'échelle et l'option D pour les autres. Il semblerait donc que, la plupart du temps, le choix réel se fasse entre deux (et non pas entre quatre) réponses possibles, les distracteurs B et C ne jouant pas le rôle qu'on leur assigne habituellement. Cet item a un pouvoir de discrimination élevé pour les sujets dont le S-θ est situé entre -1.5 et -0.5.

Deux éléments surprenants caractérisent cet item. D'une part, le fait que la réponse correcte, dont la probabilité est déjà d'envi-ron 0.25 à l'extrémité inférieure de l'échelle, dépasse à peine la probabilité de 0.60 à l'extrémité opposée. On constate par ail-leurs que les options A et (surtout) D ont une probabilité constante tout au long de l'échelle des compétences (autour de 0.05 pour la première et entre 0.30 et 0.40 pour la seconde). Cet item est sans doute "pro-blématique".

3. Le cas d'échelles ordinales: le modèle gradué de Samejima

3.1 Le modèle mathématique

Souvent considéré comme une généralisation du modèle dichotomique à deux paramètres 9, le modèle gradué de Samejima est particulièrement adapté pour le traitement des échelles dites de Likert, dont un exemple a été présenté dans la partie introductive de cet exposé (page 2). Par ailleurs, comme celui de Bock, le modèle de Samejima peut également être appliqué lorsque le nombre d'options de réponse varie d'un item à l'autre. Deux types de paramètres interviennent dans la construction des différentes courbes carac-téristiques: un paramètre de discrimination (pente, "slope") qui est le même pour toutes les modalités d'un même item et q - 1 paramètres dit de localisation si q désigne le nombre d'op-tions que l'item comporte: par exemple, trois paramètres pour un item qui présente quatre modalités (ces paramètres sont également appelés seuils ou "thresholds").

Dans la suite de cet exposé, le paramètre de discrimination sera désigné avec les lettres α et les paramètres de localisation avec la lettre δ. Le procédé mathématique qui conduit à la définition des courbes caractéristiques peut être conçu comme une suite de deux opérations successives. La première consiste à calculer,

9 Sur le plan mathématique, on remarquera l’analogie évidente qui existe entre l’algorithme qui définit

le modèle dichotomique à deux paramètres (TRI_D) et celui qui intervient dans la phase initiale de la démarche présentée ci-après.

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

B C

A

D

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

A

B

D

C

Page 11: théorie des réponses aux items - IRDP :: Institut de ...

10

pour chaque valeur de thêta, la probabilité de choisir l'une des options de 2 à q, de 3 à q, de 4 à q,…, et enfin la probabilité de choisir l’option q (sauf la dernière, ce sont des probabilités que l’on dit cumulées). On obtient ainsi q – 1 probabilités, à partir desquelles on détermine, à travers une deuxième opération, la probabilité de choisir chacune des q options que l'item comporte 10. Voici dans les grandes lignes quel est le déroulement de la procédure (les deux opérations évoquées ci-dessus). Comme nous venons de le voir, si l'item comporte q modalités (de terme générique k) on aura q – 1 paramètres ou seuil δ (de terme générique d):

Options : k = 1 k = 2 k = 3 … k = q

Seuils (δjd) : d = 1 d = 2 … d = q - 1

On applique alors la formule suivante q – 1 fois (pour d = 1 à q – 1), une fois pour chaque valeur de δjd:

)()k(j

jdje1

1)(P

P+j(>k) (θ) probabilité de choisir l'une des options supérieures à la k-ième de l'item j pour un

individu possédant à un certain degré (entre 3 et + 3) la caractéristique ;

e base des logarithmes naturels (népériens): 2.7182...;

αj paramètre de discrimination (pente) pour l'item j;

δjd paramètres de localisation (seuils) pour l'item j.

Précisons également que, comme dans le cas d'items dichotomiques, on peut intégrer à la formule une valeur constante, désignée avec la lettre D et qui assume généralement la va-leur 1.7. Il s'agit d'une sorte de facteur d'"échelonnement" apparaissant dans l'exposant de e, qui devient: –D α j (θ + δjd).

En appliquant la formule qui précède on obtient donc q – 1 séries de résultats, qui indiquent, pour chaque valeur de thêta et …:

… pour d = 1 : la probabilité de choisir l'une des options supérieures à 1 (de 2 à q);

… pour d = 2 : la probabilité de choisir l'une des options supérieures à 2 (de 3 à q);

… pour d = q – 1 : la probabilité de choisir l'option supérieure à q – 1 (donc l'option q).

Pour chaque valeur de thêta, on peut alors déterminer la probabilité de choisir l'une ou l'autre des q options que l'item comporte. A cet effet on effectue les opérations suivantes:

10

Dans certains ouvrages, la démarche est présentée de manière quelque peu différente mais les deux approches conduisent aux mêmes résultats.

Page 12: théorie des réponses aux items - IRDP :: Institut de ...

11

Pour k = 1 (première modalité) :

)(P1)(P )1(j)1k(j

Pour k = 2 à q - 1 (q – 2 modalités intermédiaires) :

)(P)(P)(P )k(j)1k(j)qk1(j

Pour k = q (dernière modalité) :

)(P)(P )1q(j)qk(j

On vérifie aisément que, pour les q – 2 modalités intermédiaires, la probabilité est simple-ment la différence de deux probabilités cumulées consécutives, dont l'une contient la proba-bilité de la modalité k considérée (P+

j(>k-1)) et la suivante ne la contient pas (P+j(>k)).

On remarquera par ailleurs que, comme pour le modèle nominal de Bock, la somme des q probabilités relatives à une même valeur de thêta est toujours égale à 1.

3.2 Un exemple concret

Item comportant quatre options de réponse. On a donc un paramètre de discrimination et trois paramètres de localisation. Les options de réponse sur le graphique sont désignées par des chiffres (de 1 à 4) pour souligner leur caractère ordonné.

Paramètres

α 2.0

Seuils d = 1 d = 2 d = 3

δ -1.5 0.0 1.5

Les quatre options de réponse correspondent par exemple aux modalités de l'échelle présentée à la page 2 ci-dessus).

Signalons tout d'abord que, dans un certain nombre de cas, les courbes qui apparaissent dans ce graphique constituent une sorte de situation "idéale" pour des items dont on consi-dère qu'ils fonctionnent convenablement. On s'attend en effet à ce que les individus choisis-sent des options de plus en plus "positives" ou de plus en plus "favorables" que leur score sur l'échelle du trait latent est élevé. Dans l'exemple présenté ici (improbable comme tel en raison de son caractère d'"excessive exemplarité") on constate que les deux options extrêmes (1 et 4) sont les plus probables chez les individus dont le score sur l'échelle du trait latent est respectivement inférieur à -1.5 et supérieur à +1.5. En revanche, les options intermédiaires sont assez nettement privilé-giées par les individus dont les scores thêta sont compris entre les deux limites qui viennent d'être mentionnées. Il convient par ailleurs de se rappeler que (dans ce cas particulier) si la distribution relative au trait latent est proche du modèle théorique de la loi normale, on devrait trouver entre 10 % et 15 % d'individus pour lesquelles l'une des deux options extrêmes est la plus probable, tandis que pour la très grande majorité des sujets (au moins 80 %) c'est l'une des options intermédiaires qui a le plus de chances d'être choisie.

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1 2 3

4

Page 13: théorie des réponses aux items - IRDP :: Institut de ...

12

3.3 Interprétation des résultats

Le paramètre de discrimination (α) décrit les pentes des courbes caractéristiques relatives aux différentes options que l'item comporte. On constate en effet que les courbes sont d'autant plus aplaties et d'autant plus "étalées" que la valeur du paramètre est faible (proche de zé-ro), tandis qu'elles deviennent de plus en plus pointues et de plus en plus ramassées lorsque la valeur du paramètre augmente. A titre d'illustration considérons la situation ci-contre, où (par rapport à l'exemple précédent)

seul le paramètre α a été modifié (α = 1.0 au lieu de 2.0). La comparaison des deux gra-phiques montre très clairement la manière dont

le paramètre de discrimination influe sur la forme générale des courbes caractéristiques. Les paramètres de localisation (seuils), en revanche, s'interprètent de la façon suivante. Le premier (δ1 = -1.5 dans les exemples ci-dessus) indique la valeur de thêta pour laquelle la probabilité d'adhérer à la première option (1) est égale à 0.5 (et donc, la probabilité d'adhérer à l'une des trois options supérieures est également égale à 0.5). Cela signifie notamment que les individus dont le score thêta est inférieur à -1.5 ont une probabilité plus élevée d'adhérer à l'option 1 qu'à l'une des trois options suivantes (on vérifie sur les graphiques que la probabilité définie par la courbe 1 pour une valeur de thêta égale à -1.5 est 0.5).

Le deuxième paramètre (ici δ2 = 0) indique la valeur de l'échelle pour laquelle la probabilité de choisir l'une des deux premières options (1 ou 2) est égale à la probabilité de choisir l'une des options supérieures (p = .50). En procédant avec le même raisonnement pour les valeurs suivantes de ce paramètre, on déduira que la dernière (δ3 = + 1.5 dans cet exemple) indique la valeur de l'échelle pour la-quelle la probabilité de choisir l'une des q - 1 premières options est égale à la probabilité d'adhérer à la dernière (p = 0.50). Au-delà de ce seuil, la probabilité de choisir la q-ième op-tion est donc supérieure à la probabilité de choisir l'une ou l'autre des précédentes. Sur la base de ces éléments on comprend mieux dans quel sens ces seuils permettent de "localiser" les courbes sur l'échelle du trait latent. On peut notamment constater que l'opinion exprimée sera d'autant plus positive (d'autant plus favorable) que, globalement, les q – 1 paramètres ont des valeurs faibles et inversement.

3.4 Courbes caractéristiques et fonctionnement des items

Comme pour le modèle nominal de Bock, l'étude des courbes caractéristiques a essentielle-ment pour but de vérifier le comportement des différents items que l'instrument comporte, en essayant notamment de repérer ceux dont les caractéristiques paraissent surprenantes et, parfois, révélatrices de véritables "anomalies". (A cet égard, la construction et l'analyse de tableaux analogues à celui de la page 7 peuvent souvent se révéler utiles). Concernant les exemples présentés ci-après, imaginons le cas d'un instrument composé d’une série d'items qui comportent quatre options de réponse ordonnées (voir schéma), et dont le but est d’étudier la motivation d'une population d'élèves pour l'apprentissage d'une langue étrangère:

Réponse traduisant un niveau de motivation …

1 2 3 4 … pour l’aspect évoqué par l’item très faible plutôt faible assez élevé très élevé

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

4 1

2 3

Page 14: théorie des réponses aux items - IRDP :: Institut de ...

13

Exemple 1 : Exemple 2 :

Les deux exemples d'items présentés ici comportent une caractéristique commune et une caractéristique qui les différencie assez nettement. En commun, ces deux situations ont le fait que (par rapport à l'échelle qui vient d'être évo-quée) les deux options positives (3 et 4) sont légèrement plus probables (plus souvent choi-sies) que les deux options négatives. Ce qui, en revanche, tend plutôt à distinguer ces deux situations est le fait que, dans le pre-mier cas, les options intermédiaires (2 et 3) sont nettement plus probables que les options extrêmes, tandis que, dans le deuxième cas, la situation est en quelques sorte opposée: le niveau de motivation manifesté par les individus apparaît comme étant très élevés pour les uns et très faibles pour les autres, les options qui expriment une attitude moins tranchée étant relativement peu choisies.

Exemple 3 : Exemple 4 :

Parmi les quatre options que cet item com-porte, trois seulement semblent différencier les individus selon la position qu'ils occu-

pent sur l'échelle des scores thêta (S-θ). La probabilité de l'option 2 demeure faible même là où elle atteint son maximum (0.16 pour un S-θ d'environ -1.5). On peut donc supposer que, globalement, la motivation manifestée par rapport à cet item est supé-rieure au niveau moyen de motivation ob-servé sur l'ensemble de l'instrument.

Comme on le constate aisément, cet item traduit un niveau de motivation très faible à l'égard de l'aspect considéré. L'option la plus négative (1) est en effet la plus pro-bable pour tous les sujets dont le S-θ est inférieur à +1.5 (environ 90 % des individus si la distribution du trait latent est normale). Par ailleurs, la probabilité cumulée de choi-sir les options 3 ou 4 est supérieure à 0.5 uniquement pour les sujets ayant un S-θ qui dépasse +2.2.

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1 2

3 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1

2 3

4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1

2

3 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1

2 3

4

Page 15: théorie des réponses aux items - IRDP :: Institut de ...

14

Exemple 5 : Exemple 6 :

L'option 2 apparaît comme étant la plus probable pour une grande majorité d'indivi-dus (entre -2.5 et +2.0 approximativement sur l'échelle des S-θ). On peut dès lors supposer que cet item induit une sorte de réponse stéréotypée, qui "s'impose" à la plupart des individus quel que soit leur ni-veau global de motivation. Contrairement aux apparences, cet item possède malgré tout un certain pouvoir discriminatif, qui s'exerce surtout aux deux extrémités de

l'échelle des S-θ, permettant de distinguer les sujets qui occupent les positions ex-trêmes (moins de 10 %) de tous les autres.

La situation illustrée par ce graphique est typique d'un item au comportement "peu clair". On constate tout d'abord que les options intermédiaires ont à peu près la même probabilité tout au long de l'échelle des S-θ. De plus, pour les individus dont ce score est proche de 0, les quatre options semblent avoir sensiblement la même pro-babilité d'être choisies. Cet item n'a donc aucun pouvoir discriminatif. Sur le plan technique, les problèmes qu'il présente sont également révélés par le fait qu'il cor-rèle très faiblement avec les autres, ainsi qu'avec l'instrument dans son ensemble 11.

4. Courbes d'information et erreur standard de la mesure Comme dans le cas d'items dichotomiques (TRI_D), la notion d'information joue un rôle es-sentiel dans le cadre des méthodes que nous venons de présenter, car elle permet de dé-terminer – pour chaque item et pour l'instrument dans son ensemble – sur quelle(s) por-tion(s) de l'échelle des scores thêta le pouvoir informatif de l'item (de l'instrument) est plus ou moins élevé. Rappelons à cet égard qu'au sein de cette approche méthodologique, la notion d'information est directement liée à la précision de la mesure. En effet, affirmer que le pouvoir informatif de l'item (de l'instrument) est le plus élevé sur telle zone de l'échelle (par exemple entre -1 et +0.5) signifie en réalité que la précision des mesures qu'il produit est maximale dans la zone délimitée par ces valeurs. Elle l'est en revanche d'autant moins que le pouvoir informatif de l'item (de l'instrument) est faible. Comme à propos des items dichotomique, on peut étudier ce problème en construisant des courbes d'information, pour chacun des items et pour l'instrument dans son ensemble. Dans les lignes qui suivent, nous aborderons brièvement la question en considérant le mo-dèle gradué de Samejima. Sur le plan conceptuel et de l'interprétation (mais non sur celui du

11

Certaines méthodes développées par la théorie classique de la mesure peuvent souvent contribuer utilement à l’étude des caractéristiques d’un instrument ou de certaines de ses parties. Ceci est tout particulièrement le cas pour l’approche "corrélationnelle", dans toutes ses formes et ses applications.

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1

2

3

4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1

2 3

4

Page 16: théorie des réponses aux items - IRDP :: Institut de ...

15

calcul), la situation est analogue pour d'autres modèles (le modèle nominal de Bock notam-ment). L'information associée à chaque item est définie par une fonction dite d'information, à partir de laquelle on établit la courbe du même nom. A titre d'illustration, voici la démarche qui permet de calculer l'information associée à un item qui comporte 4 modalités. On détermine d'abord l'information pour chaque modalité k de l'item j (k = 1 à 4):

Pour k = 1 :

2

1j1j2

1j )(P1)(P)(I

Pour k = 2 :

2

2j1j2j2

2j )(P)(P21)(P)(I

Pour k = 3 :

2

3j2j1j3j2

3j )(P)(P)(P21)(P)(I

Pour k = 4 : 2

4j4j2

4j )(P1)(P)(I

Si la constante D est prise en considération dans l'élaboration du modèle, ces expressions sont également multipliées par D2. Après le signe = on aura donc: D2 x α2 x …

Remarque: Le procédé que nous venons d'illustrer se généralise sans autre à un nombre de modalités quelconque. Ainsi, pour q modalités (q > 4), les trois premières expressions sont les mêmes que dans cet exemple. La quatrième comportera dans la parenthèse intérieure la somme (Pj1 + Pj2 + Pj3); la cinquième, la somme (Pj1 + Pj2 + Pj3 +

Pj4); etc. Enfin, concernant la dernière modalité (q), la probabilité sera celle qui la concerne: Pjq (ou Pj(k = q) dans la troisième formule de la page 11).

L'information qui caractérise l'item j s'obtient alors en additionnant les q résultats partiels calculés pour chaque modalité:

k jkj )(I)(I

Ces éléments définissent la fonction d'information de l'item, à l'aide de laquelle on construit sa courbe d'information. Comme nous l'avons déjà signalé, celle-ci montre notamment dans quelle(s) zone(s) de l'échelle des scores thêta l'item est le plus informatif; ou, de manière équivalente, dans quelle(s) zone(s) de l'échelle la mesure fournie par l'item est la plus pré-cise. Les exemples qui suivent présentent, pour trois items, les courbes caractéristiques et les courbes d'information correspondantes:

Page 17: théorie des réponses aux items - IRDP :: Institut de ...

16

Courbes caractéristiques des options: Courbe d'information de l'item:

Exemple 1:

Exemple 2:

Exemple 3:

Les exemples présentés ici illustrent trois cas assez typiques auxquels l'utilisateur de la mé-thode peut être confronté.

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1 4

2

3

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

-3 -2 -1 0 1 2 3

Info

rmat

ion

Trait latent (thêta)

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1 2

3

4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

-3 -2 -1 0 1 2 3

Info

rmat

ion

Trait latent (thêta)

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

Pro

bab

ilité

Trait latent (thêta)

1 4

3

2 0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

-3 -2 -1 0 1 2 3

Info

rmat

ion

Trait latent (thêta)

Page 18: théorie des réponses aux items - IRDP :: Institut de ...

17

Le premier décrit une situation analogue à celle que l'on rencontre souvent avec des items dichotomiques. On constate en effet que le pouvoir informatif de l'item s'exerce sur une zone particulière de l'échelle des scores thêta: ici entre -2.0 et 0 approximativement. Dans le cas d'items polytomiques, toutefois, il est assez fréquent que le pouvoir informatif de l'item concerne plusieurs zones de l'échelle (deux le plus souvent), comme cela est mis en évidence par l'Exemple 2. Enfin, l'Exemple 3 illustre la situation d'un item dont le pouvoir d'information est particulière-ment faible sur toute l'étendue de l'échelle. Il s'agit donc d'un item qui ne contribue en rien au classement des individus en fonction du degré auquel ils possèdent la caractéristique décrite par le trait latent.

Signalons enfin qu'il suffit d'additionner les valeurs fournies par les courbes d'information des différents items pour obtenir la courbe d'information de l'instrument lui-même. Cette courbe s'interprète de la même manière que celles des items, indiquant les zones de l'échelle dans lesquelles l'instrument a le plus grand pouvoir d'information et, donc, produit les mesures les plus précises (voir schéma ci-après):

j j )(I)(I (pour j = 1 à n si l'instrument comporte n items)

Par ailleurs, nous avons déjà évoqué le fait que, dans le cadre de cette théorie, les notions d'information et de précision de la mesure sont étroitement liées. Rappelons également que la précision (ou, plus exactement, l'imprécision) de la mesure est exprimée par l'erreur standard, calculée pour chaque valeur de thêta [ES(θ)] et dont le lien avec la "quantité" d'information est formalisé par la relation suivante:

)(I

1)(ES

En choisissant des échelles appropriées, on peut dès lors représenter sur un même gra-phique la courbe d'information de l’instrument et la courbe relative à l'erreur standard de la me-sure (voir ci-contre). On constate directement la relation qui existe entre information et erreur standard, celle-ci étant d'autant plus faible que celle-là est élevée. Dans cet exemple, l'erreur de mesure est la plus faible pour les individus dont le score thêta est proche de -2.0 d'une part et compris entre +0.5 et +1.5 d'autre part. (L’échelle sur l’axe vertical n'est évidemment pas la même pour les deux courbes considérées).

5. Les paramètres des individus Comme dans le cas d'items dichotomiques, les paramètres des individus sont généralement établis en appliquant la méthode dite du maximum de vraisemblance. On peut ainsi attribuer à chaque individu un score sur l'échelle qui mesure le trait latent, en fonction des options qu'il a choisies pour les différents items que l'instrument comporte.

-3 -2 -1 0 1 2 3

Trait latent (thêta)

C. Inf. ES(thêta)

Page 19: théorie des réponses aux items - IRDP :: Institut de ...

18

Les principes et les procédés de la démarche étant à bien des égards analogues à ceux qui s'appliquent à des items dichotomiques, nous nous limiterons à présenter ici quelques com-pléments spécifiques au cas d'items polytomiques.

Considérons à cet effet le cas le plus simple, où les paramètres des items sont connus (gé-néralement sur la base d'études antérieures) 12. Les courbes caractéristiques relatives aux options de réponse qu'un item comporte (par exemple 1, 2, 3 ou 4) permettent alors de dé-terminer la probabilité que chaque option a d'être choisie pour différentes valeurs de thêta. Si l'instrument comporte n items, on aura donc n probabilités pour chaque score thêta. Dans ces conditions, on peut calculer la probabilité P(C) qu'une configuration C de réponses se produise en faisant le produit des n probabilités associées aux options qui la composent 13 (pour plus de détails: voir TRI_D):

)O(P)/C(P jj

C : configuration de réponses observée;

Oj : option choisie pour l'item j (1, 2, 3 ou 4).

A titre d'illustration, considérons le cas de la configuration C = (4 3 2 3) pour quatre items (n = 4) comportant chacun 4 modalités (choix de l’options 4 à l'item 1, 3 à l'item 2, etc.).

Supposons par ailleurs que, pour θ = 0, les probabilités associées aux quatre options consi-dérées soient [P(4)1 désigne la probabilité de choisir l'option 4 de l'item 1, etc.]:

P(4)1 = 0.259 P(3)2 = 0.342 P(2)3 = 0.321 P(3)4 = 0.301 Pour θ = 0, la probabilité d'observer la configuration C = (4 3 2 3) sera donc:

P(4 3 2 3 / 0) = 0.259 x 0.342 x 0.321 x 0.301 = 0.0086

Avec ceux que l’on obtient pour les autres valeurs de thêta, ce résultat permet de construire la courbe de vraisemblance pour la configuration C. Il détermine en effet l'ordonnée de la courbe (axe vertical) pour une valeur de θ = 0 (axe horizontal): voir graphique.

La courbe de vraisemblance indique donc la probabilité d'obtenir une certaine confi-guration de réponses [par exemple (4 3 2

3)] pour chaque valeur de thêta. Dès lors, on attribuera à l'individu qui pos-sède cette configuration le score corres-pondant à la valeur de thêta pour laquelle la probabilité P(C) est maximum: maximum de la fonction de vraisemblance.

Dans notre exemple, le score thêta pour C = (4 3 2 3) est +1.0 (schéma).

(Signalons que d'autres méthodes d'esti-mation sont parfois utilisées, parmi les-quelles les méthodes bayesiennes présen-tent des avantages parfois importants).

Courbe de vraisemblance

pour la configuration C = (4 3 2 3)

12

Lorsque les paramètres des items ne sont pas connus, la démarche – nettement plus complexe sur le plan technique – consistera à estimer simultanément les paramètres des items et les paramètres des individus. Nous n'aborderons pas cet aspect du problème dans le cadre du présent exposé. 13

Pour que cette démarche soit légitime il faut naturellement supposer que la condition d'indépen-dance locale est satisfaite (voir TRI_D).

-3 -2 -1 0 1 2 3

Pro

bab

ilité

: P

(C)

Score thêta

0.0086

Page 20: théorie des réponses aux items - IRDP :: Institut de ...

19

6. Ajustement du modèle aux données La qualité de l'ajustement du modèle aux données 14 est un aspect essentiel de la démarche, aussi bien dans le cas d'items dichotomiques que dans le cas d'items polytomiques. En effet, l'application des algorithmes développés pour les différentes situations que l'on peut envisa-ger fournissent toujours une solution, qui permet de construire la ou les courbes caractéris-tique(s) pour chacun des items considérés. De plus, nous savons que la solution ainsi obte-nue constitue en général le meilleur ajustement possible du modèle aux données dont on dispose. Il arrive toutefois que même le meilleur ajustement possible demeure insatisfaisant et objec-tivement de mauvaise qualité, ce qui peut avoir des conséquences fâcheuses au niveau des interprétations que l'on sera amené à formuler. Il est donc nécessaire que cet aspect du pro-blème fasse l'objet d'une étude minutieuse, à l'aide de démarches spécifiquement conçues à cet effet. Une vérification de ce type peut d'ailleurs être envisagée à plusieurs niveaux. On peut en effet considérer l'ajustement global du modèle, l'ajustement pour chaque item et l'ajustement pour chaque individu. En général, lorsqu'on évoque la qualité de l'ajustement sans autres précisions, on se réfère à l'ajustement global du modèle (ajustement pour l'ensemble des items et pour l'ensemble des individus). Dans le cadre de ce bref exposé nous n'entrerons pas dans le détail des procédures de véri-fications auxquelles on peut avoir recours. Signalons simplement que ces procédures sont essentiellement de deux sortes: graphiques les unes et numériques les autres. Les méthodes de vérification graphiques présentent de nombreuses analogies avec celles qu'on utilise dans d'autres domaines de l'analyse statistique (analyse de régression par exemple). Elles consistent pour l'essentiel à comparer les courbes théoriques fournies par le modèle aux résultats empiriques réellement observés (à cet égard, les individus sont sou-vent répartis en un certain nombre de catégories, en fonction de leur position sur l'échelle des scores thêta). Dans cette perspective, les écarts observés dans chaque catégories entre la proportion d'individus qui s'y trouve et la proportion d'individus prédite par le modèle peut faire l'objet de représentations graphiques diverses et fournir des renseignements très ins-tructifs concernant la qualité de l'ajustement. En revanche, les méthodes numériques conduisent à calculer différents indices à partir des écarts (souvent désignés avec le terme de résidus) entre résultats observés et résultats at-tendus. Certains de ces indices possèdent une distribution d'échantillonnage connue. Sui-vant une démarche largement répandue, il est alors possible de tester l'hypothèse nulle se-lon laquelle – mises à part les fluctuations aléatoires dues à l'échantillonnage – il n'y a au-cune différence systématique entre résultats observés et résultats prédits par le modèle. Si l'hypothèse nulle est rejetée aux seuils de signification usuels on considère que l'ajustement du modèle risque de ne pas être satisfaisant. Pour d'autres indices, en revanche, l'interprétation se fait en comparant la valeur calculée à des seuils ou critère de "décision", fixés le plus souvent de manière empirique sur la base de considérations dictés par la pratique et l'expérience (l'ajustement est considéré comme étant satisfaisant si l'indice calculé est inférieur / supérieur à une certaine valeur ou s'il est compris entre telle et telle autre limites).

14

Nous reproduisons ici le texte qui figure également dans l’exposé consacré au cas d’items dichoto-miques (TRI_D).