Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4...
Transcript of Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4...
1
MODELISATION DE DONNÉES
QUALITATIVES
PREMIÈRE PARTIE
Pierre-Louis Gonzalez
2
I INTRODUCTION
. Tri à plat
.
.
Représentations graphiques
Modélisation : loi binomiale
1 variable qualitative
loi multinomiale
3
2 variables qualitatives
. Tri croisé
. Indépendance ?
. Khi-deux ...
. Description du tableau de contingence par analyse des
correspondances simples.
xx x
x
x xx x
x x
x
xx x
4
Plus de deux variables qualitatives
. Tris croisés pour tous les couples de variables(tableau de Burt)
. Analyse des correspondances multiples
But de l’étude ?
. Modélisation
.. Expliquer une variable à l’aide d’autres variables ...
5
Effets de structure
Le recours à l’utilisation de modèles ( linéaires, logistiques )est nécessaire pour isoler les effets propres.
Séparation des effets
Effet d’une variable toutes choses égales par ailleurs
Effet d’une variable conditionnellement aux variables introduites dans le modèle
6
Exemple Vocations spécifiques de deux approches : descriptionmodélisation
Correspondances multiples(DESCRIPTION)
Modèle log linéaire (EXPLORATION DEL’UNIVERS DES MODÈLES)
Description des liaisons entre les variables prises deux à deux sous forme essentiellement graphique.
Description des interactions entre plus de deux variables dans un cadre inférentiel.
N’impose aucune hypothèse sur les liaisons, mais impose une certaine homogénéité de l’ensemble des variables actives.
Des hypothèses sur les liaisons doivent être formulées au préalable.
N’est pas limitée dans le nombre de variables.
Est limité à peu de variables (en pratique moins de 5).
7
Correspondances multiples(DESCRIPTION)
Modèle log linéaire (EXPLORATION DEL’UNIVERS DES MODELES)
Met seulement en jeu les faces del’hypercube représentées par le tableau de Burt.
Met en jeu toutes les cases d’unhypercube de contingence.
Les individus peuvent jouer un rôle central. L’analyse sert à
Les individus n’apparaissent pas.
kij kil
kjl
i j l
i
j
l
lkjl
kijlkil
i
j
kij
produire des typologies d’individus.
8
II LES MÉTHODES EXPLICATIVES
VARIABLE ÀEXPLIQUER VARIABLES EXPLICATIVES X1, ... , XK
Y Numériques Nominales Mixte
Numérique Régressionmultiple
REGGLM
Analyse dela variance
Analyse dela covariance
GLMANOVA
GLM
Qualitative AnalysediscriminanteCANDISCSTEPDISCDISCRIM
DISQUALAnalyse
discriminantesur variablesqualitatives
9
VARIABLE ÀEXPLIQUER VARIABLES EXPLICATIVES X1, ... , XK
Y Numériques Nominales Mixte
Nominale àdeux
modalités
RÉGRESSION LOGISTIQUE
LOGISTIC GENMOD
NominaleMODÈLE LINÉAIRE GÉNÉRALISÉ
LOGISTIC CATMOD GENMOD
Ordinale RÉGRESSION LOGISTIQUEou
MODÈLE LINÉAIRE GÉNÉRALISÉ
LOGISTICCATMOD
10
III VARIABLE QUALITATIVE À EXPLIQUER
1 Variable dichotomique : { }Y ∈ 0 1,
Exemple 1 Soit P la population des ménages :
Yi =⎧⎨⎪
⎩⎪
1
0
si le ménage P , possède un bien durablei ∈
sinon
( )Xi = AGE, CSP, SALAIRE, HABITAT, ... régresseurs
11
Exemple 2 Soit P la population des clients potentiels d’une banque :
«CREDIT SCORING»
Yi =⎧⎨⎪
⎩⎪
1
0
si un crédit est accordé au client i
sinon
( )X i = AGE, REVENU, PRODUIT BANCAIRE, LIEU DE NAISSANCE, ...
12
Exemple 3 Soit P la population des sujets testés à une dose «DOSAGE LEVEL»
( )X i = NIVEAU DE LA DOSE, POIDS, AGE, . . .
Yi =⎧⎨⎪
⎩⎪
1
0
si le sujet P réagit au stimulus
sinon
i ∈
La variable réponse à expliquer Y est une variable de Bernoulli de paramètre pi.
( ) ( )p Y X E Y Xi i i i i= = =Pr 1
( )i i iY X B 1 , p→
OBJECTIF
Exprimer pi en fonction de Xi
13
2 Variable polytomique
Polytomique ordonnée
Exemple 1 Soit P la population d’étudiants :
i
1 i P
Y 2 i P
3 i P
si l'étudiant pratique du sport tous les jourssi l'étudiant pratique du sport une ou plusieurs fois par semainesi l'étudiant pratique du sport plus rarement
⎧ ∈⎪⎪= ∈⎨⎪
∈⎩⎪
La variable réponse Y : «pratique du sport» est codée
( )Xi = AGE, SEXE, TYPE D' ETUDES, ...
14
si l’individu P est toujours au chômage à la date
Exemple 2 Soit P la population de chômeurs à la date t :
Yi =
⎧
⎨⎪⎪
⎩⎪⎪
1234
i ∈ t + δsi l’individu P est en formation (stage)i ∈si l’individu P a un contrat CDDi ∈
si l’individu P a un contrat CDIi∈
( )Xi = AGE, SEXE, DIPLOME, QUALIFICATION ...
15
Polytomique non ordonnée
Yi «distraction du samedi soir»
Yi =
=
=
=
=
⎧
⎨⎪⎪
⎩⎪⎪
1234
télévision
théatre
cinéma
visite amis
( )Xi = AGE, SEXE, CSP, HABITAT, ...
OBJECTIF
Exprimer ( )p P Y j Xij i i= =
en fonction de X ji pour = 1 2 3, , . . .
16
IV POURQUOI DES MODÈLES PARTICULIERS ?
1 Cas de la régression linéaire classique
Y xi i i = +β ε
variablealéatoire
quantitative
prédicteurlinéaire(élément
déterminé)
variablealéatoire
1
17
( )E X xi i iε = = 0
Par la suite, on notera les espérances sans conditionnement X xi i=
ce qui revient à considérer Xi est non aléatoire. On notera
indifféremment Xi ou xi.
( )V iε σ= 2
Si de plus est supposée gaussienne, l’estimateur des moindres
carrés ordinaire :
ε i
( )β = ′ ′−X X X y1
est l’estimateur du maximum de vraisemblance.
18
2 Cas de la régression d’une variable dichotomique
Si on modélise par , on obtient un résidu qui est une v.a.r.
discrète prenant deux valeurs :
1
1( )
⇒= − = =
= − −
⎧⎨⎩
avec la probalilité
avec la probalilité
εε
β
βi i i i
i i i
x p P Yx p
1 11
Si on modélise par l’estimateur n’est plus efficace. 1 β
1 ( )⇒ =E Y xi iβ
( ) ( )i i i iY B 1,p E Y pOr → ⇒ =
⎫⎬⎭⇒ = p xi iβ
une valeur qui n’est pasforcément entre 0 et 1
Le modèle est donc inapproprié !1
19
V NIVEAU D’UTILITÉ, VARIABLE LATENTE
1 Cas de variable latente
Zi «intensité du désir de posséder le bien» pour le ménage i caractérisé par xi
Zi nonobservable
( )Y Z sY Z s
i i
i i
= ⇔ < →
= ⇔ ≥
⎧⎨⎩
01
seuil thérorique
c’est-à-dire ( )Y Ii Z si= ≥1
20
2 Fonction d’utilité
( )Soit u xi1, le niveau d’utilité procuré par la possession du bien
( )u xi0, le niveau d’utilité procuré par la non possession du bien
( ) ( )( ) ( )
Y u x u xY u x u x
i i i
i i i
= ⇔ >
= ⇔ ≥
⎧⎨⎩
0 0 11 1 0
, ,, ,
c’est-à-dire :
( ) ( )Z u x u xi i i= −1 0, ,
( )Y Ii Zi= ≥1 0
21
Dans ces deux cas, on peut exprimer la probabilité
( )p P Y xi i i= = 1 comme :
( )p P Z si i= ≥
22
VI MODÈLE THÉORIQUE
1 Données statistiques
( )Y x xi i ip, , , 1 …
variabledichotomique
{ }0 1,
i n= 1 à
taille de l’échantillonp variables explicatives
quantitatives ou qualitatives
Xi vecteur de Rp
(On supposera
de façon à définir un modèle avec constante)
( )1ix = 1 i ∀
23
En introduisant Z variable latente non observable telle que :
( ) ( )Z XY I
p P Y P Xi i i
i Zi i i i
i
= +
= >⎫⎬⎭
= = = − <β
βε
ε
1 01
( )= F Xiβ
fonction de répartitionde − ε i
24
2 Modèle stochastique général
( )Y Xi i i n,=1… i. i.d tel que :
( ) ( )H p P Y X F Xi i i i2 1 : = = = β
[ ]où : F → 0 1,R fonction de répartition
Le paramètre , vecteur de Rp formé des coefficients de régression
est inconnu.
β
1 i i iH : Y | X B(1,p )→
25
3 Modèles PROBIT, LOGIT, ...
L’hypothèse H2 dépend du choix de la fonction F. Les modèles
paramétriques usuels sont :
3.1 Le modèle probit
( ) ( )21 tF R 22
exp dtω ⎛ ⎞ω = Φ ω = − ∀ ω∈⎜ ⎟−∞ Π ⎝ ⎠
∫
Fonction de répartition de la loi normale centrée réduite N(0;1)
F − −=1 1Φ probit
26
3.2 Le modèle logit
( ) e 1F 1 e 1 e
ω
ω −ωω = = ∀ ω∈+ +
Fonction de répartition de la loi logistique
de moyenne 0 et de variance Π 2
3
( )F t tt
− =−
1
1ln logit
27
3.3 Le modèle complémentaire log-log (ou modèle Gompit)
( ) ( )F 1 e exp ωω = − − ∀ ω∈
Fonction de répartition de la loi de Gompertz
de moyenne 0,577 (constante d’Euler) et de
variance Π 2
6
( ) ( )( )F t t− = − −1 1ln ln
Remarque Cette loi est dissymétrique.
28
4 Comparaison des modèles LOGIT et PROBIT
DENSITÉS f F= ′
Modèle PROBIT ( )ΦΠ
ωω
=− ∞∫ − 1
22 2e dtt / ( )⇒ = − f e0
212
2
ω ω
Π/
Modèle LOGIT ( ) ( )( )
Fe
f e
eω ωω
ω
ω=
+⇒ =
+−
11 1
2
Modèle LOGIT réduit ( ) ( )( )
Fe
f e
e1 3 1
3
3 21
1 3 1ω ω=
+=
+−Πω
Πω
Πω
Π/
/
/
- 3 - 2 - 1 0 1 2 3
0,1
0,2
0,3
1
20 4
Π≅ ,--------
( )f0 ω
( )f ω
( )f1 ωω
29
Sur les extrêmes la loi logistique s’approche un peu plus lentement de 0 ou de 1.
30
Comparaison des fonctions de répartition
31
DIFFÉRENCE
( ) ( )F1 − Φ ω0.02
0.01
0 1 21,8
CONCLUSION
. Les lois F1 et sont proches modèles équivalents.Φ ⇒
Les estimateurs obtenus avec F (logit) seront
.. La précédure de SAS, «LOGISTIC» utilise F ou .Φ
⇒ Π / 3 foisplus grands qu’avec (probit).Φ
... Le modèle LOGIT est préférable car les calculs sont plus simples.
ω
32
Dans la plupart des cas pratiques, on peut donc choisir indifféremment l’un ou l’autre modèle.
Le modèle LOGIT a l’avantage d’une plus grande simplicité numérique.
Le modèle PROBIT est en revanche plus proche du modèle habituel de régression par les moindres carrés.
Avantages du modèle LOGIT
Les coefficients du modèle LOGIT sont interprétables en termes d’odds-ratio.
Un échantillonnage ne respectant pas les proportions réelles dans la population des deux modalités de la variable à expliquer Y ne change que la constante dans le modèle.
33
VII PRINCIPES GÉNÉRAUX : ESTIMATION DU VECTEUR β
1 La méthode du maximum de vraisemblance
Loi de probabilité de xi ( ) ( )f xi k, , ,θ θ θ θ où = ′ ∈1 … Ω
Échantillon x1 ... xn
Estimation du maximum de vraisemblance
( ) ( )θ θ θ MAX L L=
θ ∈ Ω
On obtient en général en annulant les dérivées premièresθ ( )∂ θ∂ θ
Log Li
Vraisemblance
( ) ( )L f x xii
n
iθ θ θ==∏ ,
1
dépend des et des
34
Scores
( ) ( )uL
ii
θ∂ θ
∂ θ=
Log
( ) ( ) ( )( )u u ukθ θ θ= ′ =1 , , vecteur score…
( )On a : u θ = 0
Matrice d’information de Fisher
( ) ( )I EL
θ∂ θ∂ θ
=−⎡
⎣⎢
⎤
⎦⎥
2
2
Log
estimée par : ( ) ( )IL
θ∂ θ
∂ θθ θ
=−⎛
⎝⎜
⎞
⎠⎟
=
2
2
Log
35
Résultats
θ = vecteur des paramètres
θ = estimation du maximum de vraisemblance
1.1ˆ N ; I
⎛ ⎞⎜ ⎟⎛ ⎞
⎜ ⎟⎜ ⎟⎝ ⎠⎜ ⎟⎝ ⎠
−θ → θ θ
2. ( ) ( )( )u N 0 ; Iθ → θ
3. ( ) ( ) ( )θ θ θ θ θ− ′ −I ( )χ k2
4. ( ) ( ) ( )θθθ uIu 1−′( )χ k2
5.( )( )θθˆ
2 LogLL
−=Λ ( )χ k2
→
→
→
36
2 Test global
H0 0 : θ θ=
Statistiques
1. Statistique de Wald
( ) ( ) ( )θ θ θ θ θ− ′ −0 0 0I sous H0
2. Statistique du score
( ) ( ) ( )10 0 0u I u−′θ θ θ sous H0 Avantage : pas de calcul de θ
3. Statistique des vraisemblances
( )( )Λ = −2 0 Log
LLθ
θ
2(k)→χ
2(k)→χ
2(k)→χ
sous H0
37
3 Test partiel
( )θ θ θ θ= 1 2 1, a coordonnéesp
( ),θ θ θ= =1 2 estimation du M.V.
H0 1 10 : θ θ=Test
( )On calcule , ~θ θ θH0 10 2=
( ) ( )avec L Lθ θθ
θ θ10 2
2
10 2, ~ max ,=
θ θH H0 0= estimation de sous
38
Statistiques utilisées
1. Wald ( ) ( ) ( )111 10 1 10
ˆ ˆVar −′θ − θ θ θ − θ
( ) ( ) ( )Var Var Iθ θ θ1
1 est extrait de =
−
3. Rapport de vraisemblance
2. Score
( ) ( ) ( )u I uH H Hθ θ θ0 0 0
1′ −
( )( )Λ = −2 10 2
1 2
LogL
L
θ θ
θ θ
, ~
,
2(p)→χ sous H0
2(p)→χ
2(p)→χ
sous H0
sous H0