L'entretoisement des ponts mixtes multipoutres ferroviaires - analyse ...
Les modèles mixtes, un outil statistique moderne...
Transcript of Les modèles mixtes, un outil statistique moderne...
-
Les modèles mixtes, un outil statistique moderneappliqué en biologie
Séminaire L
Nicolas Poulin
26 Mars 2012
Séminaire L 26 Mars 2012
-
Pour commencer
Quelle est la différence entre la Théorie des Probabilités et laStatistique ?
Population
Echantillon
Extraction d’un sous-ensemble
Généraliser les conclusions
1
Séminaire L 26 Mars 2012
-
Pour commencer
Quelle est la différence entre la Théorie des Probabilités et laStatistique ?
Population
Echantillon
Extraction d’un sous-ensemble
Généraliser les conclusions
1
Séminaire L 26 Mars 2012
-
Distinction Probabilité/Statistique
La Théorie des probabilités :Ï permet de modéliser des phénomènes aléatoires et d’y effectuer
des calculs théoriquesÏ concerne les populations : on ne peut donc pas faire de
mesure.
La Statistique :Ï concerne les échantillons, le monde réel, la pratique,Ï on fait des mesures (observations) sur des individus,Ï repose sur la modélisation probabiliste des observations.
Séminaire L 26 Mars 2012
-
Distinction Probabilité/Statistique
La Théorie des probabilités :Ï permet de modéliser des phénomènes aléatoires et d’y effectuer
des calculs théoriquesÏ concerne les populations : on ne peut donc pas faire de
mesure.
La Statistique :Ï concerne les échantillons, le monde réel, la pratique,Ï on fait des mesures (observations) sur des individus,Ï repose sur la modélisation probabiliste des observations.
Séminaire L 26 Mars 2012
-
Les différents aspects de la Statistique
Statistique descriptive :
Ï Représenter les mesures.Ï Résumer les mesures de l’échantillon.
Statistique inférentielle :
Ï Généraliser les propriétés d’un échantillon à une population enprenant en compte les fluctuations d’échantillonnage.
Tests d’hypothèses :
Ï Comparer une population à une référence.Ï Comparer deux populations entre elles.Ï Contrôler la validité d’un modèle.
Statistique prévisionnelle :
Ï Effectuer des prévisions : les résultats sont exprimés en termesde probabilités avec un intervalle de confiance associé.
Séminaire L 26 Mars 2012
-
Les modèles linéaires
Contexte :
recherche d’un lien entre deux variables quantitatives X et Y :corrélation ?
ce lien est-il linéaire ? corrélation linéaire : −1≤ ρ ≤ 1peut-on exprimer cette relation ? régression linéaire.
Séminaire L 26 Mars 2012
-
Observations
échantillon de n individus
sélection des individus de l’échantillon :Ï échantillon représentatif de la population étudiéeÏ ”indépendance” entre les individus
pour chaque individu i , on a observe (xi ,yi ) réalisation d’uncouple de variables (X ,Y )
Un modèle linéaire est-il envisageable ? Regarder les données
Séminaire L 26 Mars 2012
-
Nuage de points : exemples
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
2 4 6 8
05
1015
valeur des xi
vale
ur d
es y
i
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
2 4 6 8
510
1520
25
valeur des xi
vale
ur d
es y
i
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2 4 6 8
510
1520
25
valeur des xi
vale
ur d
es y
i
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●●●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●● ●
●
0 500 1000 1500
010
030
050
0
valeur des xi
vale
ur d
es y
i
Séminaire L 26 Mars 2012
-
Un problème concret
Cédric Zimmer a étudié pendant sa thèse les adaptationscomportementales des canards face à un risque de prédation.
Protocole de récolte des données :
il a constitué des groupes de canards de lignées différentes.
ces canards ont été mis dans des volières de 100 m2
(20×5×2.5 m).ces animaux ont subi des séances de dérangement poursimuler un risque de prédation
Séminaire L 26 Mars 2012
-
Le protocole de récolte des données
Séminaire L 26 Mars 2012
dérangement.wmvMedia File (video/x-ms-wmv)
-
Quelques données récoltées
Face à la menace de prédation, les canards ne mangent presqueplus. Ceci implique :
moins d’énergie pour fuir efficacement le prédateur
de meilleures performances de vol
Données :
X : la perte de masse entre le début et la fin desmanipulations divisé par la masse initiale,
Y : le gain en marge de puissance.
La marge de puissance est définie comme le rapport entre lapuissance disponible et la puissance nécessaire à l’envol.
Séminaire L 26 Mars 2012
-
Représentation graphique des observations :
0.05 0.10 0.15 0.20 0.25 0.30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Perte de masse relative
Gai
n de
mar
ge d
e pu
issa
nce
Représentation des couples (xi ,yi ) pour les n individus del’échantillon.
Séminaire L 26 Mars 2012
-
Données linéairement corrélées ?
Coefficient de corrélation linéaire de Pearson : ρ = Cov(X ,Y )σXσYCe coefficient concerne la population, il est donc inconnu
On l’estime grâce a :
Ï IE [X ] : x = 1n
n∑i=1
xi
Ï IE [Y ] : y = 1n
n∑i=1
yi
Ï σ2X : sc ,X2 = 1
n
n∑i=1
(xi −x)2
Ï σ2Y : sc ,Y2 = 1
n
n∑i=1
(yi −y)2
Ï Cov(X ,Y ) :1
n
n∑i=1
(xi −x)(yi −y)
On note R l’estimation de ρ.Séminaire L 26 Mars 2012
-
Données linéairement corrélées ?
Sur nos données : R ≈ 0.996Est-ce que ρ 6= 0 ?Test d’hypothèse : (attention, il y a des conditions à vérifier)
Ï (H0) : ρ = 0 : pas de relation linéaireÏ (H1) : ρ 6= 0
Résultat du test : p-value à comparer à un seuil α(généralement 5%)
Sur nos données : p-value< 2.2×10−16
On ne peut pas rejetter le fait que les données soient linéairementcorrélées.
Séminaire L 26 Mars 2012
-
Le modèle linéaire :
Y = a×X +b+εoù :
a est la pente
b est l’ordonnée à l’origine
ε est l’erreur du modèle.
B Ce modèle est valable sur la population ; a, b et ε sont doncinconnus.
Séminaire L 26 Mars 2012
-
Le modèle linéaire :
yi = â×xi + b̂+ êi
B Il y a des hypothèses à vérifier :
X et Y non-corrélées à l’erreur
résidus non corrélés
normalité des résidus
Séminaire L 26 Mars 2012
-
Représentation de la régression :
0.05 0.10 0.15 0.20 0.25 0.30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Perte de masse relative
Gai
n de
mar
ge d
e pu
issa
nce
R2 = 0.9915702
y = 2.505154x + −0.01754063
Séminaire L 26 Mars 2012
-
Plusieurs espèces :
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Perte de masse relative
Gai
n de
mar
ge d
e pu
issa
nce
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●●● ●●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●●●●
●●●
●
MorillonsColvertsSarcelles
Séminaire L 26 Mars 2012
-
Plusieurs espèces :
Il ya donc une variable en plus à prendre en compte pour pouvoiravoir des conclusions plus générales : l’espèce.
Variable qualitative
3 modalités : Colvert, Morillon, Sarcelle
Le graphe précédent semble montrer que les liens entre X et Y nesont pas les mêmes pour les différentes espèces :
Utilisation de 3 modèles de régression :Ï un pour chaque espèceÏ tests statistiques pour comparer les pentes et ordonnées à
l’origine des différents modèles
Utilisation d’un modèle plus général qui intégre la variable”espèce”.
Séminaire L 26 Mars 2012
-
Nouvelles notations :
n taille totale de l’échantillon
1≤ i ≤ n : individusZ : Espèce. 3 valeurs possibles :
Ï Colvert (C)Ï Morillon (M)Ï Sarcelle(S)
Les observations : (xi ,yi ,zi ) pour 1≤ i ≤ n.
Séminaire L 26 Mars 2012
-
Nouveau modèle :
Modèle avec :
la différence de masse relative
l’espèce
l’effet croisé entre les deux précédentes variables.
Séminaire L 26 Mars 2012
-
Nouveau modèle :
Modèle avec :
la différence de masse relative
l’espèce
l’effet croisé entre les deux précédentes variables.
yi =â0 ×xi
+b̂+ êi
Séminaire L 26 Mars 2012
-
Nouveau modèle :
Modèle avec :
la différence de masse relative
l’espèce
l’effet croisé entre les deux précédentes variables.
yi =â0 ×xi+â1 ×1I{zj=C} + â2 ×1I{zj=M} + â3 ×1I{zj=S}
+b̂+ êi
Séminaire L 26 Mars 2012
-
Nouveau modèle :
Modèle avec :
la différence de masse relative
l’espèce
l’effet croisé entre les deux précédentes variables.
yi =â0 ×xi + â1 ×1I{zj=C} + â2 ×1I{zj=M} + â3 ×1I{zj=S}
+â4 ×xi ×1I{zj=C} + â5 ×xi ×1I{zj=M} + â6 ×xi ×1I{zj=S}
+b̂+ êi
Séminaire L 26 Mars 2012
-
Nouveau modèle :
Modèle avec :
la différence de masse relative
l’espèce
l’effet croisé entre les deux précédentes variables.
yi =â0 ×xi + â2 ×1I{zj=M} + â3 ×1I{zj=S}
+â5 ×xi ×1I{zj=M} + â6 ×xi ×1I{zj=S}
+b̂+ êi
Séminaire L 26 Mars 2012
-
Nouveau modèle :
B Il y a des hypothèses à vérifier.
Modèles plus simples :
1 variable quantitative : modèle linéaire
1 variable qualitative (au moins 3 modalités) : ANOVA
1 variable quantitative et 1 variable qualitative : ANCOVA
Si la condition de normalité des résidus n’est pas remplie, il y apossibilité d’utiliser des modèles linéaires généralisés.
Séminaire L 26 Mars 2012
-
Des données plus complexes que ce j’ai présenté :
D’autres variables à considérer :
un effet du sexe ?
un nombre de décollages différents selon les volières (protocolebasé sur le temps pas sur le nombre d’envol)
un nombre de décollages différents selon les individus d’unemême volières
Observations pendant les semaines de dérangement et endehors de ces semaines.
Séminaire L 26 Mars 2012
-
Des données plus complexes que ce j’ai présenté :
Des données répétées :
les canards n’ont pas été pesés uniquement au début et à lafin mais aussi à 9 autres occasions
plusieurs sessions de dérangement
B On ne peut pas utiliser le même type de modèles.
Séminaire L 26 Mars 2012
-
Données répétées :
Avantages :
permet de voir une dynamique
plus d’observations pour un même nombre d’individu
Inconvénients :
les observations ne sont plus indépendantes :Ï 2 observations issues d’individus différents sont indépendantesÏ 2 observations issues d’un même individu ne le sont pas
des modèles plus compliqués
Séminaire L 26 Mars 2012
-
Références de l’étude
Zimmer et al. (2010), Body mass variations in disturbedmallards Anas platyrhynchos fit to the mass-dependentstarvation-predation risk trade-off, Journal of avian biology,41, pp 637-644.
Zimmer et al. (2010), Evidence of the Trade-Off betweenStarvation and Predation Risks in Ducks, PLoS ONE 6(7) :e22352
Séminaire L 26 Mars 2012
-
Utilisation de loggers
Les loggers sont des petits appareils de mesure dont sont équipésles individus de l’échantillon. Ils peuvent mesure beaucoup deparamètres :
le rythme cardiaque
différentes températures
la localisation (GPS)
les changements en pression atmosphérique (profils deplongées des manchots)
· · ·
Séminaire L 26 Mars 2012
-
Etude sur le manchot Pygmée
Figure: Crédit : Yan Ropert-Coudert (IPHC-DEPE), Phillip Island 2007Séminaire L 26 Mars 2012
-
Etude sur le manchot Pygmée
Ces loggers enregistrent la pression ainsi que la température dumilieu dans lequel évolue le manchot.Un enregistrement par seconde.
Données obtenues :
temprèrature ambiante
nombre de plongées
profondeur de la plongée
durée de la plongée
proportion de la phase la plus profonde
· · ·
Séminaire L 26 Mars 2012
-
Etude menée en 2005/2006 par Y. Ropert-Coudert, A.Kato et A ; Chiarada
Seulement 20 manchots équipés . . .
prix des loggers
manipulation du manchot pour l’installation
repérage et capture du manchot pour récupérer les loggers
Manchot Pygmée =”top-predators”=indicateur de l’état del’écosystème marin.L’impact des changements environnementaux sur ces animaux auniveau démographique est bien connu . . .
Séminaire L 26 Mars 2012
-
But de l’étude
. . . mais les mécanismes qui affectent ces populations étaient peudocumentés.
En 2005 et 2006, des courants de températures marinesanormales :
basse en 2005
élévée en 2006
But : mesurer les effets sur le comportement des manchotsPygmée.
Séminaire L 26 Mars 2012
-
Modélisation statistique :
Les données issues d’un même logger ne sont pas indépendantesalors que les données issues de deux loggers différents le sont.
Il faut donc utiliser des modèles mixtes :
effets fixes : les effets que l’on veut étudier et qui sont lesmêmes sur toute la population
effets aléatoires : effet de la dépendance
Séminaire L 26 Mars 2012
-
Modéle mixte :
facteurs fixes : YEAR, SEX et leur interaction
covariable fixe : profondeur de la plongée :X
facteur aléatoire : identité du manchot : ID
exemple de variable à expliquer : durée de la plongée
yi ,j : jième observation de l’individu i
yi ,j = SEXEi ∗YEARi ,j + â×xi ,j + b̂i + b̂+ êi ,jB Il faut vérifier si les résidus suivent une loi normale. Si non :modèle mixte généralisé
Séminaire L 26 Mars 2012
-
Conclusions de l’étude :
Pas de différence significative entre les 2 années pour les variables :
profondeur de la plongée
durée de la plongée
proportion de la phase la plus profonde
Différence significative entre les 2 sexes pour :
durée de la plongée
proportion de la phase la plus profonde
Aucun effet croisé significatif.
Séminaire L 26 Mars 2012
-
Conclusions de l’étude :
Les loggers permettent de détecter les poursuites de proies vial’accélération du manchot.
Le pourcentage de plongées (par jour) où des proies ont étérencontrées est significativement plus petit en 2006 qu’en 2005.Il en est de même pour le temps consacré à poursuivre des proies.
Séminaire L 26 Mars 2012
-
Conclusions de l’étude :
Interprétation simpliste : les proies sont moins disponibles lesannées où l’eau est plus chaude.
Ropert-Coudert, Y., Kato, A., Chiarada, A. (2009). Impact ofsmall-scale environmental perturbations on local marine foodresources : a case sudy of a predator, the little penguin.Proceedings of the Royal Society B, 276, pp 4105-4109.(disponible en ligne)
Séminaire L 26 Mars 2012