Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5...

42

Transcript of Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5...

Page 1: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.
Page 2: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Programmes de maîtrise et de doctorat en démographie

Modèles de risque et de duréeCours 5Séance du 14 février 2014

Benoît Laplante, professeur

Page 3: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Plan

La variable indépendante fonction du temps (ou variable dynamique) La stratification La « vraie » variable indépendante fonction du temps

Le modèle de Poisson La loi de Poisson Le modèle de Poisson

La version originale La version modifiée pour tenir compte du temps à risque (temps

d’exposition au risque) La version modifiée pour tenir compte du découpage de la

biographie

Page 4: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps Nous reprenons l’exemple du dernier cours. Nous étudions la naissance du premier enfant chez les femmes

canadiennes. Nous disposons des données d’une enquête biographique, celles

de l’Enquête sur les transitions familiales de 2006. Nous étudions le phénomène dans le sous-échantillon des femmes

âgées de 15 à 80 ans au moment de l’enquête. On élimine les femmes âgées de 80 ans ou plus parce qu’on ne connaît

pas leur âge exact à l’enquête (ce ne serait pas un problème dans ce cas-ci, mais c’est la pratique).

On étudie le phénomène jusqu’à l’âge de 50 ans, âge habituel de la ménopause.

Page 5: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps Dans cet exemple, les femmes sont considérées à risque de

donner naissance à leur premier enfant dès l’âge de 15 ans. À cet âge, la plupart d’entre elles ne sont pas mariées et ne vivent

pas en union de fait, mais la plupart auront été mariées ou auront vécu en union de fait avant d’avoir leur premier enfant.

Ceci revient à dire que pour la plupart des femmes, le temps passé à risque de donner naissance au premier enfant sera réparti entre deux ou trois des modalités de la situation conjugale : vivre sans conjoint, être mariée et vivre avec son époux ou bien vivre en union de fait.

Le risque de donner naissance à son premier enfant varie bien sûr selon celui de ces états dans lequel on se trouve.

Page 6: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps Formellement, ce problème est analogue à celui que pose la

migration interne dans l’étude de la mortalité et il se résout de la même manière : on construit une table d’extinction pour chacune des modalités du

caractère comme on construit une table de mortalité pour chaque région,

et on déplace l’individu d’une table à l’autre à l’âge où il passe d’une modalité du caractère à une autre, exactement comme on déplace un individu d’une table à l’autre à l’âge où il migre d’une région à une autre.

Le temps passé à risque par chaque individu est ainsi réparti entre les dénominateurs des taux des classes d’âge des différentes modalités du caractère qu’il a occupées pendant qu’il était à risque de vivre l’événement.

Page 7: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps La manière la plus générale de réaliser une analyse qui contient

une VIFT consiste à préparer un fichier de données dans lequel la portion de la biographie de l’individu pendant laquelle il était à risque de changer d’état est découpée en plusieurs lignes dont chacune correspond à la fraction du temps passé à risque située entre deux changements de modalité de la VIFT.

Dans notre exemple, il faut donc préparer un fichier dans lequel chaque ligne représente la fraction de la biographie d’une femme où elle à risque de donner naissance à son premier enfant alors qu’elle vit au Canada qui est située entre deux changements de sa situation conjugale.

Page 8: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps

Page 9: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps Chaque passage d’une modalité à une autre de la situation

conjugale est un changement d’état qui définit une nouvelle ligne. Autrement dit, lorsqu’on utilise une VIFT, on raisonne à la fois

sur le changement d’état qui définit la variable dépendante et sur les changements d’état qui correspondent aux déplacements entre

les modalités de la VIFT qui sont également des déplacements entre les états d’un espace

d’états. Pour obtenir les tableaux, il faut en plus raisonner sur les

classes d’âge comme on raisonne sur les modalités d’une VIFT: passer d’une classe d’âge à une autre, c’est passer d’une modalité à

une autre d’une VIFT. Cette idée est au cœur de la logique la plus couramment utilisée en

microsimulation.

Page 10: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.
Page 11: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.
Page 12: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.
Page 13: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps À strictement parler, ce que nous venons de présenter n’est pas

une VIFT, mais plutôt ce qui, dans les modèles de risque, se nomme la stratification.

Nous avons estimé trois séries de valeurs du quotient qui ne sont pas reliées entre elles, une pour chacune des modalités de la situation conjugale.

La VIFT est très semblable à la stratification, mais à une différence près : plutôt que d’estimer trois séries de valeurs qui ne sont pas reliées entre

elles, on estime d’une part une seule série de valeurs « moyennes » et d’autre part le rapport « moyen » à cette série pour chacune des modalités de la VIFT.

Page 14: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps On écrit ici les mots « moyennes » et « moyen » entre guillemets parce que

ce que ce qui précède est parfaitement exact lorsqu’on représente les modalités de la VIFT au moyen du codage utilisé de manière habituelle en analyse de la variance — où la modalité de référence est représentée par une suite de -1 —,

mais n’est pas tout à fait exact lorsqu’on représente ces modalités comme on le fait généralement en régression, où la modalité de référence est représentée par une suite de 0.

Lorsqu’on utilise le codage habituel de la régression, la série de valeurs associée à la modalité de référence est plutôt égale au

produit de la série moyenne et du rapport moyen à la série moyenne de la modalité de référence,

alors que le coefficient associé à chacune des autres modalités est le produit du rapport moyen de cette modalité et de l’inverse du rapport moyen de la modalité de référence.

Ceci est vrai pour tous les modèles à risques relatifs, parfois encore nommés « modèles à risques proportionnels ».

Page 15: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La variable indépendante fonction du temps On ne peut pas estimer, avec une table d’extinction, l’effet d’une

« vraie » VIFT. On ne peut estimer l’effet d’une « vraie » VIFT qu’au moyen d’un

modèle statistique et on ne peut le faire que lorsque ce modèle est estimé par la

méthode du maximum de vraisemblance ou une méthode qui lui est apparentée.

Page 16: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.
Page 17: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

0,2

,4,6

Quo

tient

inst

anta

15 20 25 30 35 40Âge

Hors Union Mariage

Union libre

StratificationLa naissance du premier enfant

0,2

,4,6

Quo

tient

inst

anta

15 20 25 30 35 40Âge

Hors Union Mariage

Union libre

Variable indépendante fonction du tempsLa naissance du premier enfant

Modèle de Poisson. Résultats du tableau 6.

Page 18: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson La loi de Poisson Le modèle de Poisson

La version originale de James Coleman La version modifiée pour tenir compte du temps à risque (temps

d’exposition au risque) La version modifiée pour tenir compte du découpage de la biographie

Page 19: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Siméon Denis PoissonD’après Wikipédia

Page 20: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La loi de Poisson La loi de Poisson donne la probabilité qu’un événement se

produise un certain nombre de fois (k) au cours d’un intervalle donné (T) si cet événement se produit à un rythme connu (λ) et que la probabilité de chaque occurrence est indépendante du temps

écoulé depuis la dernière occurrence.

Page 21: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La loi de Poisson La fonction de densité de probabilité de la loi de

Poisson c.-à-d. la probabilité que l’on observe exactement k

événements au cours d’un intervalle T si les événements surviennent au rythme λ

est donnée par

où k est un nombre d’événements donné (donc un entier naturel)

et λ est le rythme (ou taux), également donné.

( ; )!

kef k

k

Page 22: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La loi de PoissonL’interprétation de λ

Si un événement arrive en moyenne aux quatre ans, et que l’on s’intéresse au nombre des occurrences au cours d’un

intervalle de 20 ans, on utilisera une loi de Poisson où le paramètre λ vaut 20/4 soit 5.

Plus formellement, on peut interpréter λ comme le quotient du temps d’exposition T et de l’intervalle moyen entre deux événements.

Page 23: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La loi de Poisson

Page 24: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La loi de PoissonCertaines propriétés de la loi de Poisson

La loi de Poisson a deux propriétés particulièrement intéressantes: son espérance (ou moyenne) est λ et sa variance est également λ.

Page 25: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson L’usage de la loi de Poisson dans le contexte de la régression

semble avoir été suggéré pour la première fois par F. A. Haight au chapitre 5 de son Handbook of the Poisson Distribution (1967).

L’usage de la régression pour étudier des taux en sciences sociales a été proposé pour la première fois par James Coleman au chapitre 5 de son Longitudinal Data Analysis (1981).

L’usage de la régression de Poisson pour étudier des taux en épidémiologie semble avoir été proposé pour la première fois par E.L. Frome dans un article intitulé «The analysis of rates using Poisson regression models » publié en 1983 dans Biometrics.

Page 26: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson Dans sa forme la plus simple, le modèle de Poisson

relie la probabilité d’observer exactement y fois un événement donné au cours d’un intervalle de temps T

à un certain nombre de variables indépendantes.

On ne connaît pas le paramètre λ a priori. On ne connaît évidemment pas non plus les effets des différentes

variables indépendantes (les coefficients ou éléments du vecteur β).

On imagine le modèle justement pour pouvoir estimer ces quantités à partir de données observées.

Page 27: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson

La composante aléatoire

La composante systématique

La fonction de liaison

Pr( )!

yeY y

y

i i x β

ln( )

Page 28: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson modifié pour tenir compte du temps d’exposition Le modèle original suppose que le temps T est connu et fixé. Ceci ne permet pas d’utiliser des observations de durées

différentes. On peut modifier le modèle original pour permettre l’utilisation

d’observations de durées différentes. Ceci se fait simplement en utilisant la durée (ou une fonction de la

durée) de chaque observation comme si c’était une variable indépendante.

Page 29: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson modifié pour tenir compte du temps d’exposition

La composante aléatoire

La composante systématique

La fonction de liaison

Pr( )!

yeY y

y

ln( )i i i

E x β

ln( )

Page 30: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson modifié pour tenir compte du temps d’exposition et de la segmentation des biographies

Le modèle modifié pour tenir compte du temps d’exposition suppose que, pour une unité d’observation donnée (c.-à-d. pour un individu donné), les variables indépendantes conservent la même valeur durant tout l’épisode à l’étude.

Or il est vraisemblable que la valeur d’une ou plusieurs des variables indépendantes varie au cours de l’épisode.

On peut modifier le modèle pour qu’il tienne compte de ces variations.

Il suffit de « découper » chaque épisode en autant de « sous-épisodes » qu’il

existe de combinaisons différentes de valeurs de variables indépendantes au cours de l’épisode de chaque unité (individu)

de répartir en proportion le temps d’exposition T entre les « sous-épisodes ».

Page 31: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson modifié pour tenir compte du temps d’exposition et de la segmentation des biographies

En termes plus simples, Le « modèle de Poisson modifié pour tenir compte du temps

d’exposition et de la segmentation des biographies » s’estime en utilisant un fichier biographique.

Page 32: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson modifié pour tenir compte du temps d’exposition et de la segmentation des biographies

La composante aléatoire

La composante systématique

La fonction de liaison

Pr( )!

ij ijy

ij ijij

eY y

y

ln( )ij ij ij

E x β

ln( )ij ij

Page 33: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson modifié pour tenir compte du temps d’exposition et de la segmentation des biographies

La fonction de densité

La fonction de vraisemblance

[ln( ) ] [ln( ) ]

( )!

Eij ij ijij ij

yEee ef y

y

x β x β

[ln( ) ]

1 1

( ) [ln( ) ]

ln( !)

ij ijE

n m

i ij ij iji j

ij

e

L w E y

y

x β

x β

Page 34: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson modifié pour tenir compte du temps d’exposition et de la segmentation des biographies

On obtient les équations de la diapositive précédente simplement en remplaçant le paramètre λ de la fonction de densité de la loi de Poisson par ce le membre de droite qui lui correspond dan le modèle de Poisson.

Autrement dit, on remplace simplement λ par exp[ln(E) + xβ].

ln( )

ln( ) ln( )

exp ln( )

Eij ij

Eij ij ij

Eij ij ij

eij

x β

x β

x β

Page 35: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson « modifié » Entre autres choses, le modèle de Poisson permet,

en plus de tenir compte de la quantité de temps d’exposition, de tenir compte de l’effet du temps écoulé depuis le début de

l’exposition.

Pour ce faire, il suffit d’utiliser le temps écoulé depuis le début de l’exposition comme variable indépendante soit de manière continue, soit de manière discrète.

En plus, il permet de tenir compte « naturellement » des VIFT parce qu’on l’estime à partir d’un fichier biographique.

Page 36: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson « modifié »

Pour rendre cette distinction explicite, on peut réécrire le modèle en distinguant les variables indépendantes « ordinaires », qui varient ou non en fonction du temps (p. ex. la situation conjugale et la langue maternelle) et l’âge, qui varie en fonction du temps.

Si l’on note x le vecteur des variables indépendantes ordinaires et β le vecteur de leurs coefficients,

et si l’on note z le vecteur des variables binaires qui représentent les classes d’âge et γ

le vecteur de leurs coefficients ou le vecteur des variables continues qui représentent l’effet non linéaire

de l’âge, on obtient :

Page 37: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Le modèle de Poisson modifié pour tenir compte du temps d’exposition, de la segmentation des biographies et distinguer l’âge des autres variables indépendantes

La composante aléatoire

La composante systématique

La fonction de liaison

Pr( )!

ij ijy

ij ijij

eY y

y

ln( )ij ij ij ij

E x β z γ

ln( )ij ij

Page 38: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Modèle de Poisson modifié pour tenir compte du temps d’exposition et de la segmentation des biographies

La fonction de densité

La fonction de vraisemblance

[ln( ) ] [ln( ) ]

( )!

Eij ij ijij ij ij

yEee ef y

y

x β x β z γ

[ln( ) ]

1 1

( , ) [ln( ) ]

ln( !)

ij ij ijE

n m

i ij ij ij iji j

ij

e

L w E y

y

x β z γ

β γ x β z γ

Page 39: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

La relation entre la loi de Poisson et la loi exponentielle

La Loi de Poisson est une loi de probabilité « discrète » : elle décrit la distribution d’une variable aléatoire qui donne le nombre

des événements qui surviennent au cours d’un intervalle; les valeurs de la variable aléatoire qui suit une loi de Poisson sont des

entiers positifs.

La loi exponentielle est une loi de probabilité « continue » : elle décrit la distribution d’une variable aléatoire qui donne le temps

écoulé avant la survenue d’un événement; les valeurs de la variable aléatoire qui suit une loi exponentielle sont

des réels positifs.

La loi exponentielle décrit le temps écoulé entre la survenue de deux événements successifs régis par un processus qui suit une loi de Poisson.

Page 40: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Les modèles de risque en généralLe risque instantané comme limite

Le risque instantané (ou quotient instantané ou taux instantané) est la probabilité de changer d’état au cours d’un intervalle de largeur infinitésimale (quantité de temps d’exposition infiniment petite) si on n’a pas déjà changé d’état avant cet intervalle (position de cet intervalle sur l’axe du temps).

Page 41: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Annexe sur la typographie

L’alphabet grec de l’Antiquité, comme celui du latin de la même époque, ne comportait que ce que nous appelons aujourd’hui les majuscules. L’upsilon (Y) notait le son [y] du français, celui du mot « union ». Les Romains ont ajouté cette lettre à leur alphabet pour noter ce son qui n’existe pas en latin. Les minuscules ne sont apparues qu’au Moyen-Âge; avant leur apparition, la confusion entre les lettres des deux alphabets était peu probable. De toutes manières, en dehors des mathématiques et de la statistique, il est rare qu’on mélange les deux alphabets dans un seul énoncé.

Page 42: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 5 Séance du 14 février 2014 Benoît Laplante, professeur.

Annexe sur la typographie