Les modèles mixtes, un outil statistique moderne...

41
Les mod` eles mixtes, un outil statistique moderne appliqu´ e en biologie eminaire L Nicolas Poulin poulin@math.unistra.fr 26 Mars 2012 eminaire L 26 Mars 2012

Transcript of Les modèles mixtes, un outil statistique moderne...

  • Les modèles mixtes, un outil statistique moderneappliqué en biologie

    Séminaire L

    Nicolas Poulin

    [email protected]

    26 Mars 2012

    Séminaire L 26 Mars 2012

  • Pour commencer

    Quelle est la différence entre la Théorie des Probabilités et laStatistique ?

    Population

    Echantillon

    Extraction d’un sous-ensemble

    Généraliser les conclusions

    1

    Séminaire L 26 Mars 2012

  • Pour commencer

    Quelle est la différence entre la Théorie des Probabilités et laStatistique ?

    Population

    Echantillon

    Extraction d’un sous-ensemble

    Généraliser les conclusions

    1

    Séminaire L 26 Mars 2012

  • Distinction Probabilité/Statistique

    La Théorie des probabilités :Ï permet de modéliser des phénomènes aléatoires et d’y effectuer

    des calculs théoriquesÏ concerne les populations : on ne peut donc pas faire de

    mesure.

    La Statistique :Ï concerne les échantillons, le monde réel, la pratique,Ï on fait des mesures (observations) sur des individus,Ï repose sur la modélisation probabiliste des observations.

    Séminaire L 26 Mars 2012

  • Distinction Probabilité/Statistique

    La Théorie des probabilités :Ï permet de modéliser des phénomènes aléatoires et d’y effectuer

    des calculs théoriquesÏ concerne les populations : on ne peut donc pas faire de

    mesure.

    La Statistique :Ï concerne les échantillons, le monde réel, la pratique,Ï on fait des mesures (observations) sur des individus,Ï repose sur la modélisation probabiliste des observations.

    Séminaire L 26 Mars 2012

  • Les différents aspects de la Statistique

    Statistique descriptive :

    Ï Représenter les mesures.Ï Résumer les mesures de l’échantillon.

    Statistique inférentielle :

    Ï Généraliser les propriétés d’un échantillon à une population enprenant en compte les fluctuations d’échantillonnage.

    Tests d’hypothèses :

    Ï Comparer une population à une référence.Ï Comparer deux populations entre elles.Ï Contrôler la validité d’un modèle.

    Statistique prévisionnelle :

    Ï Effectuer des prévisions : les résultats sont exprimés en termesde probabilités avec un intervalle de confiance associé.

    Séminaire L 26 Mars 2012

  • Les modèles linéaires

    Contexte :

    recherche d’un lien entre deux variables quantitatives X et Y :corrélation ?

    ce lien est-il linéaire ? corrélation linéaire : −1≤ ρ ≤ 1peut-on exprimer cette relation ? régression linéaire.

    Séminaire L 26 Mars 2012

  • Observations

    échantillon de n individus

    sélection des individus de l’échantillon :Ï échantillon représentatif de la population étudiéeÏ ”indépendance” entre les individus

    pour chaque individu i , on a observe (xi ,yi ) réalisation d’uncouple de variables (X ,Y )

    Un modèle linéaire est-il envisageable ? Regarder les données

    Séminaire L 26 Mars 2012

  • Nuage de points : exemples

    ●●●

    ●●

    ●●

    ●●

    ●●

    2 4 6 8

    05

    1015

    valeur des xi

    vale

    ur d

    es y

    i

    ●●

    ●●

    ●●

    ●●

    ●●

    ● ●

    2 4 6 8

    510

    1520

    25

    valeur des xi

    vale

    ur d

    es y

    i

    ●●

    ●●

    ●●●

    2 4 6 8

    510

    1520

    25

    valeur des xi

    vale

    ur d

    es y

    i

    ●●

    ●●

    ●●

    ● ●

    ●●●

    ● ●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●● ●

    0 500 1000 1500

    010

    030

    050

    0

    valeur des xi

    vale

    ur d

    es y

    i

    Séminaire L 26 Mars 2012

  • Un problème concret

    Cédric Zimmer a étudié pendant sa thèse les adaptationscomportementales des canards face à un risque de prédation.

    Protocole de récolte des données :

    il a constitué des groupes de canards de lignées différentes.

    ces canards ont été mis dans des volières de 100 m2

    (20×5×2.5 m).ces animaux ont subi des séances de dérangement poursimuler un risque de prédation

    Séminaire L 26 Mars 2012

  • Le protocole de récolte des données

    Séminaire L 26 Mars 2012

    dérangement.wmvMedia File (video/x-ms-wmv)

  • Quelques données récoltées

    Face à la menace de prédation, les canards ne mangent presqueplus. Ceci implique :

    moins d’énergie pour fuir efficacement le prédateur

    de meilleures performances de vol

    Données :

    X : la perte de masse entre le début et la fin desmanipulations divisé par la masse initiale,

    Y : le gain en marge de puissance.

    La marge de puissance est définie comme le rapport entre lapuissance disponible et la puissance nécessaire à l’envol.

    Séminaire L 26 Mars 2012

  • Représentation graphique des observations :

    0.05 0.10 0.15 0.20 0.25 0.30

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    Perte de masse relative

    Gai

    n de

    mar

    ge d

    e pu

    issa

    nce

    Représentation des couples (xi ,yi ) pour les n individus del’échantillon.

    Séminaire L 26 Mars 2012

  • Données linéairement corrélées ?

    Coefficient de corrélation linéaire de Pearson : ρ = Cov(X ,Y )σXσYCe coefficient concerne la population, il est donc inconnu

    On l’estime grâce a :

    Ï IE [X ] : x = 1n

    n∑i=1

    xi

    Ï IE [Y ] : y = 1n

    n∑i=1

    yi

    Ï σ2X : sc ,X2 = 1

    n

    n∑i=1

    (xi −x)2

    Ï σ2Y : sc ,Y2 = 1

    n

    n∑i=1

    (yi −y)2

    Ï Cov(X ,Y ) :1

    n

    n∑i=1

    (xi −x)(yi −y)

    On note R l’estimation de ρ.Séminaire L 26 Mars 2012

  • Données linéairement corrélées ?

    Sur nos données : R ≈ 0.996Est-ce que ρ 6= 0 ?Test d’hypothèse : (attention, il y a des conditions à vérifier)

    Ï (H0) : ρ = 0 : pas de relation linéaireÏ (H1) : ρ 6= 0

    Résultat du test : p-value à comparer à un seuil α(généralement 5%)

    Sur nos données : p-value< 2.2×10−16

    On ne peut pas rejetter le fait que les données soient linéairementcorrélées.

    Séminaire L 26 Mars 2012

  • Le modèle linéaire :

    Y = a×X +b+εoù :

    a est la pente

    b est l’ordonnée à l’origine

    ε est l’erreur du modèle.

    B Ce modèle est valable sur la population ; a, b et ε sont doncinconnus.

    Séminaire L 26 Mars 2012

  • Le modèle linéaire :

    yi = â×xi + b̂+ êi

    B Il y a des hypothèses à vérifier :

    X et Y non-corrélées à l’erreur

    résidus non corrélés

    normalité des résidus

    Séminaire L 26 Mars 2012

  • Représentation de la régression :

    0.05 0.10 0.15 0.20 0.25 0.30

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    Perte de masse relative

    Gai

    n de

    mar

    ge d

    e pu

    issa

    nce

    R2 = 0.9915702

    y = 2.505154x + −0.01754063

    Séminaire L 26 Mars 2012

  • Plusieurs espèces :

    0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    1.2

    Perte de masse relative

    Gai

    n de

    mar

    ge d

    e pu

    issa

    nce

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●● ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●●●

    ●●●

    MorillonsColvertsSarcelles

    Séminaire L 26 Mars 2012

  • Plusieurs espèces :

    Il ya donc une variable en plus à prendre en compte pour pouvoiravoir des conclusions plus générales : l’espèce.

    Variable qualitative

    3 modalités : Colvert, Morillon, Sarcelle

    Le graphe précédent semble montrer que les liens entre X et Y nesont pas les mêmes pour les différentes espèces :

    Utilisation de 3 modèles de régression :Ï un pour chaque espèceÏ tests statistiques pour comparer les pentes et ordonnées à

    l’origine des différents modèles

    Utilisation d’un modèle plus général qui intégre la variable”espèce”.

    Séminaire L 26 Mars 2012

  • Nouvelles notations :

    n taille totale de l’échantillon

    1≤ i ≤ n : individusZ : Espèce. 3 valeurs possibles :

    Ï Colvert (C)Ï Morillon (M)Ï Sarcelle(S)

    Les observations : (xi ,yi ,zi ) pour 1≤ i ≤ n.

    Séminaire L 26 Mars 2012

  • Nouveau modèle :

    Modèle avec :

    la différence de masse relative

    l’espèce

    l’effet croisé entre les deux précédentes variables.

    Séminaire L 26 Mars 2012

  • Nouveau modèle :

    Modèle avec :

    la différence de masse relative

    l’espèce

    l’effet croisé entre les deux précédentes variables.

    yi =â0 ×xi

    +b̂+ êi

    Séminaire L 26 Mars 2012

  • Nouveau modèle :

    Modèle avec :

    la différence de masse relative

    l’espèce

    l’effet croisé entre les deux précédentes variables.

    yi =â0 ×xi+â1 ×1I{zj=C} + â2 ×1I{zj=M} + â3 ×1I{zj=S}

    +b̂+ êi

    Séminaire L 26 Mars 2012

  • Nouveau modèle :

    Modèle avec :

    la différence de masse relative

    l’espèce

    l’effet croisé entre les deux précédentes variables.

    yi =â0 ×xi + â1 ×1I{zj=C} + â2 ×1I{zj=M} + â3 ×1I{zj=S}

    +â4 ×xi ×1I{zj=C} + â5 ×xi ×1I{zj=M} + â6 ×xi ×1I{zj=S}

    +b̂+ êi

    Séminaire L 26 Mars 2012

  • Nouveau modèle :

    Modèle avec :

    la différence de masse relative

    l’espèce

    l’effet croisé entre les deux précédentes variables.

    yi =â0 ×xi + â2 ×1I{zj=M} + â3 ×1I{zj=S}

    +â5 ×xi ×1I{zj=M} + â6 ×xi ×1I{zj=S}

    +b̂+ êi

    Séminaire L 26 Mars 2012

  • Nouveau modèle :

    B Il y a des hypothèses à vérifier.

    Modèles plus simples :

    1 variable quantitative : modèle linéaire

    1 variable qualitative (au moins 3 modalités) : ANOVA

    1 variable quantitative et 1 variable qualitative : ANCOVA

    Si la condition de normalité des résidus n’est pas remplie, il y apossibilité d’utiliser des modèles linéaires généralisés.

    Séminaire L 26 Mars 2012

  • Des données plus complexes que ce j’ai présenté :

    D’autres variables à considérer :

    un effet du sexe ?

    un nombre de décollages différents selon les volières (protocolebasé sur le temps pas sur le nombre d’envol)

    un nombre de décollages différents selon les individus d’unemême volières

    Observations pendant les semaines de dérangement et endehors de ces semaines.

    Séminaire L 26 Mars 2012

  • Des données plus complexes que ce j’ai présenté :

    Des données répétées :

    les canards n’ont pas été pesés uniquement au début et à lafin mais aussi à 9 autres occasions

    plusieurs sessions de dérangement

    B On ne peut pas utiliser le même type de modèles.

    Séminaire L 26 Mars 2012

  • Données répétées :

    Avantages :

    permet de voir une dynamique

    plus d’observations pour un même nombre d’individu

    Inconvénients :

    les observations ne sont plus indépendantes :Ï 2 observations issues d’individus différents sont indépendantesÏ 2 observations issues d’un même individu ne le sont pas

    des modèles plus compliqués

    Séminaire L 26 Mars 2012

  • Références de l’étude

    Zimmer et al. (2010), Body mass variations in disturbedmallards Anas platyrhynchos fit to the mass-dependentstarvation-predation risk trade-off, Journal of avian biology,41, pp 637-644.

    Zimmer et al. (2010), Evidence of the Trade-Off betweenStarvation and Predation Risks in Ducks, PLoS ONE 6(7) :e22352

    Séminaire L 26 Mars 2012

  • Utilisation de loggers

    Les loggers sont des petits appareils de mesure dont sont équipésles individus de l’échantillon. Ils peuvent mesure beaucoup deparamètres :

    le rythme cardiaque

    différentes températures

    la localisation (GPS)

    les changements en pression atmosphérique (profils deplongées des manchots)

    · · ·

    Séminaire L 26 Mars 2012

  • Etude sur le manchot Pygmée

    Figure: Crédit : Yan Ropert-Coudert (IPHC-DEPE), Phillip Island 2007Séminaire L 26 Mars 2012

  • Etude sur le manchot Pygmée

    Ces loggers enregistrent la pression ainsi que la température dumilieu dans lequel évolue le manchot.Un enregistrement par seconde.

    Données obtenues :

    temprèrature ambiante

    nombre de plongées

    profondeur de la plongée

    durée de la plongée

    proportion de la phase la plus profonde

    · · ·

    Séminaire L 26 Mars 2012

  • Etude menée en 2005/2006 par Y. Ropert-Coudert, A.Kato et A ; Chiarada

    Seulement 20 manchots équipés . . .

    prix des loggers

    manipulation du manchot pour l’installation

    repérage et capture du manchot pour récupérer les loggers

    Manchot Pygmée =”top-predators”=indicateur de l’état del’écosystème marin.L’impact des changements environnementaux sur ces animaux auniveau démographique est bien connu . . .

    Séminaire L 26 Mars 2012

  • But de l’étude

    . . . mais les mécanismes qui affectent ces populations étaient peudocumentés.

    En 2005 et 2006, des courants de températures marinesanormales :

    basse en 2005

    élévée en 2006

    But : mesurer les effets sur le comportement des manchotsPygmée.

    Séminaire L 26 Mars 2012

  • Modélisation statistique :

    Les données issues d’un même logger ne sont pas indépendantesalors que les données issues de deux loggers différents le sont.

    Il faut donc utiliser des modèles mixtes :

    effets fixes : les effets que l’on veut étudier et qui sont lesmêmes sur toute la population

    effets aléatoires : effet de la dépendance

    Séminaire L 26 Mars 2012

  • Modéle mixte :

    facteurs fixes : YEAR, SEX et leur interaction

    covariable fixe : profondeur de la plongée :X

    facteur aléatoire : identité du manchot : ID

    exemple de variable à expliquer : durée de la plongée

    yi ,j : jième observation de l’individu i

    yi ,j = SEXEi ∗YEARi ,j + â×xi ,j + b̂i + b̂+ êi ,jB Il faut vérifier si les résidus suivent une loi normale. Si non :modèle mixte généralisé

    Séminaire L 26 Mars 2012

  • Conclusions de l’étude :

    Pas de différence significative entre les 2 années pour les variables :

    profondeur de la plongée

    durée de la plongée

    proportion de la phase la plus profonde

    Différence significative entre les 2 sexes pour :

    durée de la plongée

    proportion de la phase la plus profonde

    Aucun effet croisé significatif.

    Séminaire L 26 Mars 2012

  • Conclusions de l’étude :

    Les loggers permettent de détecter les poursuites de proies vial’accélération du manchot.

    Le pourcentage de plongées (par jour) où des proies ont étérencontrées est significativement plus petit en 2006 qu’en 2005.Il en est de même pour le temps consacré à poursuivre des proies.

    Séminaire L 26 Mars 2012

  • Conclusions de l’étude :

    Interprétation simpliste : les proies sont moins disponibles lesannées où l’eau est plus chaude.

    Ropert-Coudert, Y., Kato, A., Chiarada, A. (2009). Impact ofsmall-scale environmental perturbations on local marine foodresources : a case sudy of a predator, the little penguin.Proceedings of the Royal Society B, 276, pp 4105-4109.(disponible en ligne)

    Séminaire L 26 Mars 2012