Construction d’échelles d’items unidimensionnelles en qualité de vie

14 novembre 2005 Soutenance JB Hardouin 1

Construction d’échelles d’items unidimensionnelles en qualité de vie

Jean-Benoit Hardouin

Soutenance de thèse Santé Publique/Biostatistique

Université René Descartes - Paris V

14 Novembre 2005


Plan Contexte La Théorie de Réponse aux Items et le

modèle de Rasch Le modèle multidimensionnel de Rasch

marginalement exhaustif La sélection d’échelles d’items basée sur

le modèle de Rasch Méthodes Raschfit, Raschfit-Fast Comparaison avec d’autres méthodes (simulations)

Outils logiciels : IRT sous SAS et Stata


Vocabulaire en psychométrie

Psychométrie : domaine scientifique s’attachant à la mesure de traits latents

Trait latent : caractéristique (quantitative) non observable des individus

Item : question à réponse binaire ou ordinale

Echelle : ensemble d’items dont les réponses sont influencées par un même trait latent

Score : fonction des réponses aux items d’une échelle dont la valeur est liée à celle du trait latent


Représentation graphique

Item 1

ScoreTrait latent

Item 2

Item 3

Item J

…

Echelle


Domaines d’applications de la psychométrie Sciences de l’éducation : intelligence,

connaissance Psychologie & psychiatrie : présence de

troubles, traits de personnalité Recherche clinique : qualité de vie, état

de santé Toute autre domaine nécessitant une

mesure indirecte d’un caractère non directement mesurable


Constat initial La plupart des échelles sont construites par des

experts du domaine Mise à part l’unidimensionnalité, les propriétés

psychométriques recherchées pour ces échelles ne sont pas toujours prises en compte lors de la phase de construction

Le score proposé est même parfois non mathématiquement justifié

Le statisticien intervient en phase confirmatoire pour vérifier que les échelles construites ont bien les propriétés recherchées

Si non, l’échelle peut être rejetée Est-il possible d’aider les experts à construire des

échelles ayant de bonnes propriétés ?


Contexte A partir de l’ensemble des items définis par

les experts pour mesurer un trait latent, lesquels peuvent former une échelle psychométrique ayant de bonnes propriétés ?

Quelles sont ces propriétés ? Unidimensionnalité Score facile à calculer (Par exemple un score

non pondéré) dont l’usage pourra être justifié

=>Modèle de Rasch


Théorie classique et théorie moderne en psychométrie

Théorie classique : Le score est une mesure directe du trait latent Trait latent=score+erreur

Théorie moderne (Théorie de Réponse aux items - IRT) :

Le score est une mesure non linéaire du trait latent

Trait latent=f(score)+erreur f(x) est une fonction non décroissante

Le modèle de Rasch appartient à l’IRT


Notations

Q : dimension du trait latent j : vecteur de paramètres caractérisant l’item j, j=1…J n=(n1,.., nq,…, nQ) : vecteur de dimension Q représentant

les valeurs du trait latent multidimensionnel pour l’individu n, n=1…N

Xnj : variable aléatoire représentant la réponse de l’individu n à l’item j (de réalisation xnj)

Modalité 0 : la moins favorable au trait latent (réponse négative) Modalités 1 à mj : autres modalités classées (réponses positives)

Pour la suite on se restreindra au cas dichotomique : mj=1


IRT: Hypothèses fondamentales

Unidimensionnalité : les réponses aux items dépendent d’un trait latent unidimensionnel (Q=1, le trait latent est un scalaire)

Monotonicité : la probabilité P(Xnj=1/n, j) est une fonction non décroissante sur le trait latent

Indépendance locale : les variables réponses aux items sont indépendantes conditionnellement au trait latent


Représentation graphique

Item 1 (Xn1)

Score (Sn) Trait latent(n)Item 2 (Xn2)

Item 3 (Xn3)

Item J (XnJ)

…

J

jnjn

J

jnjjn

XS

XS

1

10

:pondérénon Score

: pondéré Score


IRT: Les fonctions de réponse aux items (IRF) et les courbes caractéristiques des items (ICC)

L’IRF de l’item j est la fonction donnant la probabilité de répondre positivement à cet item en fonction du trait latent

Les ICC sont les représentations graphiques des IRF

jν,/1 nnj θXP


Le modèle de Rasch (1960)

jn

jnjnnjXP

exp1

exp,/1

Les items sont caractérisés par un paramètre unique : j =(j)

Les IRF sont des fonctions décroissantes par rapport à j : ce dernier est appelé paramètre de difficulté

Les ICC sont non sécantesLes pentes des ICC aux points d’inflexion

(pouvoir discriminant) sont égales et fixées


Courbes caractéristiques des items dans le cadre du modèle de Rasch

(-2 -1.2 -.5 0.1 .7 1.8 2.5)

0.2

5.5

.75

1P

roba

bilit

y of

a p

ositi

ve r

espo

nse

-4 -2 0 2 4Latent trait


Considération sur le trait latent Le trait latent peut être considéré de

deux manières Soit comme un ensemble de paramètres fixes n,

n=1,…,N Soit comme une variable aléatoire ayant pour

réalisation pour l’individu n la valeur n : le modèle est alors un modèle logistique à effets mixtes (GLMM)

On parle ainsi du modèle de Rasch à effets fixes ou du modèle de Rasch à effet aléatoire


Propriété du modèle de Rasch : exhaustivité du score sur le trait latent

Le score non pondéré est une statistique exhaustive du trait latent (Andersen, 1977)

J

j njn XS1

J

jjn

J

jjnjnn

n

xs

P

1

1

exp1

exp

,/

nn xX

Le modèle de Rasch est le seul modèle de l’IRT à vérifier cette propriété pour le score non pondéré


Représentation graphique de l’exhaustivité du score sur le trait latent

Item 1

Item 2

Item 3

Item J

Score non pondéré

Trait latent

…


Estimation des paramètres Effets fixes :

Maximum de vraisemblance jointe (JML) : méthode naturelle – estimations non consistantes

Maximum de vraisemblance conditionnelle (CML) : on estime les paramètres de difficulté des items (j) conditionnellement au score – estimations consistantes

Effet aléatoire : Maximum de vraisemblance marginale (MML) Equations d’estimation généralisées (GEE) Algorithme EM


Difficulté d’adéquation du modèle de Rasch

Modèle peu souple, pentes des ICC fixées Difficulté pour ajuster ce modèle à un ensemble d’items Modèle souvent rejeté pour un ensemble d’items

Pourtant modèle très intéressant en psychométrie (« perfect scale »)

=>Plusieurs auteurs (Ficher and Molenaar, 1995; Bond et Fox, 2004) préconisent de trouver, pour mesurer un trait latent donné, un ensemble d’items vérifiant un modèle de Rasch, quitte à éliminer certains items, plutôt que d’utiliser des modèles plus souples qui posent des problèmes d’estimation, de fiabilité et d’interprétation, et qui ne justifient pas, en pratique, l’usage du score non pondéré


Sélection d’items

Item 1

Item 2

Item 3

Item J

…

Dimension Q ?

Trait latent 1

Trait latent 2

Trait latent Q

…

Item 1

Item 2

Item 3

Item J

…

=> IRT Multidimensionnelle


IRT multidimensionnelle

Extension récente (années 90) de l’IRT quand on suppose que les réponses à un ensemble d’items dépendent de plusieurs traits latents

L’hypothèse d’unidimensionnalité est remplacée par l’hypothèse de dimension Q du trait latent connue


Modèles de l’IRT multidimensionnelle

1. Rasch (1961) : Modèle de Rasch polytomique

2. Kelderman & Rijkes (1994) : Modèle polytomique multidimensionnel à trait latent (MPLT)

Hoijtink, Rooks & Wilmink (1999) : modèle généralisé de Rasch multidimensionnel

3. Adams, Wilson & Wang (1997) : modèle logistique multinomial à coefficients aléatoires multidimensionnel (MRCML)


Propriétés de ces modèles Pour le modèle 1

Modèle très restrictif et difficile à appliquer en pratique : à chaque item est associé Q modalités positives, chacune d’elles étant liée exclusivement à la valeur sur un des Q traits latents

Inutilisable en phase exploratoire Pour les modèles 2 et 3

Ce ne sont pas des extrapolations multidimensionnelles du modèle de Rasch : les scores utilisés sont pondérés avec pondérations connues (OPLM)

le vecteur des scores est exhaustif sur le trait latent multidimensionnel


Exhaustivité du vecteur score sur le trait latent multidimensionnel

Item 1

Item 2

Item 3

Item J

…

Score 1

Score 2

Score Q

…

Trait latent 1

Trait latent 2

Trait latent Q

…


Nécessité de définir un nouveau modèle multidimensionnel

Les modèles existants ne sont pas de bonnes extrapolations multidimensionnelles du modèle de Rasch

L’exhaustivité du score devrait être définie pour chaque composante du trait latent

=> Nouveau modèle : le modèle de Rasch multidimensionnel marginalement

exhaustif (MMSRM)


Le modèle de Rasch multidimensionnel marginalement exhaustif (MMSRM)

Hardouin & Mesbah, Communications in Statistics – Theory and Methods, 2003

L’exhaustivité marginale : Il existe Q score Sq non pondérés, q=1,…,Q, chacun étant exhaustif d’une composante particulière du trait latent (q)

Les items dont la réponse est influencée par la qe composante du trait latent q suivent un modèle de Rasch relativement à q marginalement aux autres composantes du trait latent et aux autres items

=>MMSRM : modèle de l’IRT vérifiant ces deux propriétés


Exhaustivité marginale

Item 1

Item 2

Item 3

Item J

…

Score 1

Score 2

Score Q

…

Trait latent 1

Trait latent 2

Trait latent Q

…


MMSRM : Construction

Soit Q ensembles d’items distincts vérifiant un modèle de Rasch par rapport à un trait latent q

Soit f(n)=f(n1 ,…, nq ,…, nQ) la fonction de distribution du trait latent multidimensionnel

Loi jointe :

1...Qq ,,/ δxX (q)n

(q)n nqP

Q

qnq

qqPff1

)()( ,/)(/, δxXθδθxX nnnnnn


MMSRM : Structure simple

1

2

3Item 11

Item 12

Item 13Item 23 Item 22 Item 21

Item 33

Item 32

Item 31

Chaque item est lié à un seul trait latent (structure simple)

Ce type de structure est nécessaire pour que soit vérifié le principe d’exhaustivité marginale (Hardouin, 2005)


MMSRM : estimation des paramètres

Le trait latent est considéré comme une variable aléatoire multidimensionnelle distribuée selon une loi multinormale centrée de matrice de variance - g(/)

Possibilité d’estimer les paramètres des items () et par la méthode du maximum de vraisemblance marginale ou par GEE (Hardouin, 2005)

N

n IR

J

jjnjnjM

Q

dgxXPl1 1

)/(;/log)/,( θΣθθxΣδ


Utilisation du MMSRM pour faire de la sélection d’items basée sur le modèle de Rasch

Principe général : A partir d’une structure connue pour J items et Q traits latents, on ajoute un nouvel item et on cherche la meilleure nouvelle structure en liant le nouvel item avec chacun des traits latents ou avec un nouveau trait latent dans un MMSRM

=> Comment comparer les (Q+1) différentes structures trouvées ?

En pratique : l’estimation d’un modèle linéaire généralisé à effets mixtes est un long processus, qui dépend du nombre d’individus (N), du nombre de d’items (J) et de la dimension de l’effet aléatoire (Q) : on aboutit rapidement à plusieurs heures de calculs

=> Nécessité de restreindre le nombre de modèles comparés (et notamment ceux de grande dimension)


Raschfit Hardouin & Mesbah, Communications in Statistics –

Theory and Methods, 2003 A l’étape initiale, on choisit un noyau d’items (2

items ou plus qui mesurent le même trait latent par un modèle de Rasch)

A chaque étape k, on compare Un modèle de Rasch comprenant le noyau et un nouvel

item, un MMSRM bidimensionnel où le noyau est influencé

par une composante du trait latent, et le nouvel item par une autre composante

Si le modèle de Rasch est le modèle le plus parcimonieux, selon le critère d’information d’Akaike (AIC), le nouvel item est inclus dans le noyau


Raschfit : Représentation graphique de l’étape k

Item 1

Item 2

Item 3

Nouvel item

Trait latent

Noyau Obtenu À l’étape k-1

Item 1

Item 2

Item 3

Nouvel item

Trait latent 1

Trait latent 2

Modèle 1 : Modèle de Rasch Modèle 2 : MMSRM

12/,2 21 JlAIC xδ 32/,22 JlAIC xΣδ


Comment Raschfit répond aux contraintes ?

Comment comparer les (Q+1) différentes structures trouvées ? Par le critère d’information d’Akaike (AIC)

Nécessité de restreindre le nombre de modèles comparés (et notamment ceux de grande dimension) Seulement des modèles avec 1 ou 2

dimensions


Raschfit : considérations pratiques

Quand une première échelle est trouvée, les items sélectionnés sont retirés, et on recommence le processus avec les autres items

Plusieurs heures de temps d’exécution


Raschfit-Fast But : réduire le temps d’exécution de la procédure

Raschfit Procédure basée sur le modèle de Rasch à effets

fixes Principe : Au lieu de considérer un MMSRM, on

explique la probabilité de réponse positive au nouvel item par une constante

A chaque étape, on compare des modèles avec un trait latent unidimensionnel

Empiriquement, Raschfit-Fast permet de diviser le temps d’exécution de Raschfit par un facteur de 15 à 30


Raschfit-Fast : Vraisemblance et AIC

En considérant un modèle de Rasch pour les J+1 items (le nouvel item est indexé par 0):

322/,2

exp1

exp

exp1

exp/,

11

1

items J

1

0 Item

0

001

JlAIC

xxL

N

n

J

j jn

jnnj

n

nn

xθδ

xθδ

222/,2

exp1

exp

exp1

exp/,

22

1

items J

1

0 item

0

002

JlAIC

xxL

N

n

J

j jn

jnnjn

xθδ

xθδ

En considérant que les réponses au nouvel item ne sont pas expliquées par le trait latent des J autres items


Simulations : Méthodes Comparaison de Raschfit et Raschfit Fast avec d’autres

méthodes retrouvées dans la littérature : Analyse factorielle

ACP (règle de Kaiser) + rotation Varimax AFCS (règle de Kaiser) + rotation Varimax Clustering Around Latent Variables (CLV) [Vigneau

& Qannari, 2003] IRT non paramétrique

Mokken Scale Procedure [Hemker, Sitsjma & Molenaar, 1995] (deux seuils c=0,3 et c=0,2)

HCA/CCPROX [Roussos & Stout, 1998] (choix de la dimension basée sur l’indice DETECT)

IRT paramétrique BackRasch (méthode backward sur le modèle de

Rasch basé sur le test d’adéquation Q1)


Simulations : Raschfit-Fast

Suivant la méthode utilisée pour estimer les paramètres n, on obtient des résultats différents :

Raschfit-Fast1 : estimation par maximum de vraisemblance : estimations biaisées et impossibles pour les individus ayant un score nul (0) ou parfait (J)

Raschfit-Fast2 : estimation a posteriori de Bayes : non biaisées et disponibles pour tous les individus


Paramètres de simulation Nombre d’individus : N=2000 Nombre de dimensions : Q=2 Nombre d’items par dimension : 7 ou 14 Modèle servant à simuler les données :

MMSRM ou autre modèle Pouvoir discriminant des items : faible

(0,4), moyen (0,7) ou fort (1,4) Corrélation entre les deux traits latents

(rho): 0.0, 0.2, 0.4, 0.6, 0.8, 1.0


Simulations : Classement des résultats

Erreur majeure de classement : Deux items simulés à partir de deux traits latents différents sont classés ensemble

Bon résultat : La structure recherchée est retrouvée

Résultat intermédiaire : Plus de dimensions retrouvées que le nombre simulé (2) mais aucune erreur majeure de classement

Mauvais résultat : Au moins une erreur majeure de classement

Indéterminé : Un nombre non négligeable d’items n’est pas classé par la procédure (MSP, BackRasch)


Résultats : MMSRM (rho<=.4)

0%

25%

50%

75%

100%

Bon Intermédiaire Mauvais Indéterminé


Résultats : Autre modèle (rho<=.4)

0%

25%

50%

75%

100%



Résultats : MMSRM (rho=0.6 ou rho=0.8)

0%

25%

50%

75%

100%



Résultats (rho=1.0) Méthodes détectant l’unidimensionnalité

Très bons résultats pour CLV (100%) Résultats plutôt corrects (25% à 50%) pour MSP,

HCACCPROX Mauvais résultats pour ACP, AFCS et BackRasch

Résultats satisfaisant pour Raschfit(-Fast2) A tendance à distinguer les groupes d’items en

fonction de leur pouvoir discriminant (distingue les ensembles permettant de mesurer le trait latent par un modèle de Rasch)


Unidimensionnalité et pouvoir discriminant des items

0.2

5.5

.75

1P

robability o

f a p

ositiv

e r

esponse

-4 -2 0 2 4Latent trait


Conclusion sur les simulations Raschfit et Raschfit-Fast2 donnent des résultats satisfaisants,

y compris lorsque le « vrai » modèle est légèrement différent du MMSRM

Avantage : retrouvent les ensembles d’items qui suivent un modèle de Rasch pour mesurer un trait latent

Raschfit-Fast1 et BackRasch donnent de moins bons résultats MSP donne beaucoup de résultats indéterminés Les méthodes d’analyses factorielles (ACP ou AFCS) ont

tendance à trouver un nombre important de dimensions (influence de la règle de Kaiser ?)

Détection d’ensembles unidimensionnels et homogènes sur la difficulté

HCA/CCPROX et CLV donnent globalement de bons résultats Détection d’ensembles unidimensionnels


Outils Logiciels : constat

Lacunes des logiciels généralistes (SAS, Stata, Splus, R, SPSS) pour l’utilisation des modèles de l’IRT

Travail sous SAS et Stata

Non accessibilités des travaux existants Site AnaQol (anaqol.free.fr) : présentation des

travaux personnels Projet FreeIRT (freeirt.free.fr) : centralisation et

mise à disposition des travaux en IRT sous les logiciels généralistes [Collaboration avec Karl Bang Christensen]


SAS : Modélisation et tests %AnaQol : estimation (CML et MML) des

paramètres du modèle de Rasch, modèle de Birnbaum (2-PLM), OPLM, Partial Credit Model et Rating Scale Model (items polytomiques) Tests et indices (items dichotomiques) Représentations graphiques Article soumis en 2004 : Hardouin & Mesbah,

Communications in Statistics – Simulation and Computation

#500 téléchargements de la version 3.3 (mai 2004), #100 de la version 4.1 (juillet 2005)


Stata : Modélisation et tests

-raschtest- : estimation (CML, MML, et GEE) et tests pour le modèle de Rasch Article soumis en 2005 : Hardouin, The Stata

Journal #200 téléchargements version 6.3 (juillet 2004) et

#40 de la version 7.3 (juillet 2005) -mmsrm- : estimation par MML ou GEE des

paramètres du MMSRM (#150) -geekel2d- : estimation par GEE des

paramètres des modèles dichotomiques définis par Kelderman et Rijkes (1994) (#200)


SAS & Stata : Sélection d’items

Méthodes SAS Stata

Raschfit et Raschfit-Fast

-raschfit-

BackRasch %BackRasch -backrasch-

Mokken Scale procédure

%MSP -msp-

HCA/CCPROX -hcaccprox-

CLV (auteurs) -clv-

Indices concernant la structure des items

%Detect -detect-


SAS & Stata : autres programmes

SAS Stata

Simulations de données par des modèles de l’IRT à une ou deux dimensions

-simirt-

Traces d’items (%AnaQol) -traces-

Estimation d’intégrales par quadratures de Gauss-Hermite

%GaussHermite

-gausshermite-

Calcul de la fonction symétrique Gamma

%Gammasym -gammasym-

Biplots -biplotvlab-


Conclusion & Perspectives Concernant Raschfit(-Fast)

Etendre au cadre polytomique Evaluer (et limiter ?) l’influence de l’ordre dans

lequel sont inclus les items dans la procédure Programmer Raschfit sous SAS

Concernant les développements sous les logiciels généralistes Travail de validation Nombreux développements possibles (modèles

plus complexes, tests, procédures…) Développement vers d’autres langages (R/Splus)


La sélection d’échelles d’items unidimensionnelles en qualité de vie

Commentaires, questions

Construction d’échelles d’items unidimensionnelles en qualité de vie

Documents

Transcript of Construction d’échelles d’items unidimensionnelles en qualité de vie