MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf ·...

79
UFR SCIENCES ET MODELISATION UNIVERSITE DE BORDEAUX 2 ACADEMIE DE BORDEAUX MASTER INGENIERIE MATHEMATIQUE, STATISTIQUE ET ECONOMIQUE, SPECIALITE STATISTIQUE ET FIABILITE MODÉLISATION DE LA RÉPARTITION DE LA PRÉSENCE D’ESPÈCES VÉGÉTALES DE CHAINES MONTAGNEUSES ET COMPARAISON DE LEUR GRADIENT ALTITUDINAL PAR MÉTHODE DE BOOTSTRAP Rapport de stage de première année présenté en septembre 2010 par Eyermann Audrey Stage effectué à l’Unité Mixte de Recherche « Biodiversité, Gènes et Communautés » Bâtiment B8, Avenue des Facultés Laboratoire Ecologie des Communautés 33405 Talence

Transcript of MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf ·...

Page 1: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

UUFFRR SSCCIIEENNCCEESS EETT MMOODDEELLIISSAATTIIOONN

UUNNIIVVEERRSSIITTEE DDEE BBOORRDDEEAAUUXX 22

AACCAADDEEMMIIEE DDEE BBOORRDDEEAAUUXX

MMAASSTTEERR IINNGGEENNIIEERRIIEE MMAATTHHEEMMAATTIIQQUUEE,, SSTTAATTIISSTTIIQQUUEE EETT EECCOONNOOMMIIQQUUEE,, SSPPEECCIIAALLIITTEE SSTTAATTIISSTTIIQQUUEE EETT

FFIIAABBIILLIITTEE

MMOODDÉÉLLIISSAATTIIOONN DDEE LLAA RRÉÉPPAARRTTIITTIIOONN DDEE LLAA PPRRÉÉSSEENNCCEE DD’’EESSPPÈÈCCEESS

VVÉÉGGÉÉTTAALLEESS DDEE CCHHAAIINNEESS MMOONNTTAAGGNNEEUUSSEESS EETT CCOOMMPPAARRAAIISSOONN DDEE

LLEEUURR GGRRAADDIIEENNTT AALLTTIITTUUDDIINNAALL PPAARR MMÉÉTTHHOODDEE DDEE BBOOOOTTSSTTRRAAPP

Rapport de stage de première année présenté en septembre 2010

par Eyermann Audrey

Stage effectué à l’Unité Mixte de Recherche « Biodiversité, Gènes et Communautés »

Bâtiment B8, Avenue des Facultés

Laboratoire Ecologie des Communautés

33405 Talence

Page 2: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe
Page 3: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

RREEMMEERRCCIIEEMMEENNTTSS

Je tiens à remercier Annabel Porté, enseignant chercheur au Laboratoire Biogeco, pour

m’avoir accueilli au sein de ce laboratoire et m’ayant permis de découvrir le domaine de l’écologie

des communautés.

Je remercie également Vincent Couallier, Maître de Conférence à l’Université Bordeaux

2, pour m’avoir offert la possibilité d’effectuer ce stage et m’avoir guidé dans mon travail.

Je tiens à remercier enfin l’ensemble du personnel du laboratoire pour leurs conseils et

leur sympathie.

Page 4: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

SOMMAIRE

SOMMAIRE ...................................................................................................................................... 4 

INTRODUCTION ...................................................................................................................................... 5 

PARTIE I :  Présentation de la structure d’accueil ..................................................................................... 7 

I.  Thèmes de recherche de la structure d’accueil ................................................................... 7 

II.  Organigramme du laboratoire .............................................................................................. 8 

PARTIE II :  Présentation de l’étude du gradient altitudinal d’espèces végétales dans une chaîne

montagneuse .............................................................................................................................. 9 

I.  Contexte général de l’étude ................................................................................................... 9 

II.  Intérêt de l’étude des gradients altitudinaux ..................................................................... 12 

III.  Etudes antérieures portant sur les variations de distribution d’espèces le long d’un

gradient altitudinal ................................................................................................................ 14 

PARTIE III : Données et méthodes statistiques ........................................................................................ 16

I. Présentation des données de l’étude .................................................................................. 16

II. Méthodes de l’analyse statistique ........................................................................................ 20

PARTIE IV : Résultats de l’analyse .............................................................................................................. 33

I.  Ajustements de la répartition de la présence des espèces de feuillus à l’aide des

modèles logistique, HOF IV et HOF V ............................................................................ 33 

II.  Obtention de la valeur de l’optimum du gradient altitudinal des espèces végétales

et de son intervalle de confiance ........................................................................................ 36 

DISCUSSION ET CONCLUSION ............................................................................................................ 45 

BIBLIOGRAPHIE .................................................................................................................................... 47 

TABLE DES FIGURES ET TABLEAUX ................................................................................................ 50 

TABLE DES ANNEXES ............................................................................................................................. 52 

ANNEXES .................................................................................................................................... 54 

TABLE DES MATIERES ............................................................................................................................ 77

Page 5: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

5

INTRODUCTION

Les changements climatiques de ces dernières années préoccupent les écologistes de par

leur rapidité et leur amplitude. En effet ils auraient des conséquences plus ou moins importantes

sur les niches écologiques des espèces végétales, notamment dans les domaines montagneux.

De nombreuses études ont montré que l’analyse du gradient altitudinal d’une espèce

permettrait de mettre en évidence l’influence du facteur climatique sur les écosystèmes au cours

du temps notamment en comparant la valeur de l’altitude où l’espèce est la plus abondante pour

deux périodes données.

C’est dans le but d’évaluer l’adaptation des espèces végétales aux modifications du facteur

climatique que le laboratoire Biogeco travaille sur les données de l’inventaire forestier espagnol

qui a recensé au cours de l’année 1995 et en 2007 les espèces de feuillus présentes à chaque

altitude de la chaîne des Pyrénées et du système ibérique. Ainsi pour l’étude du gradient altitudinal

de chaque espèce ont été notées les altitudes où elles sont présentes pour chaque inventaire et

pour chaque localisation.

L’étude, qui va suivre, porte uniquement sur les données de cinq espèces de feuillus qui

sont le chêne vert (Quercus ilex), le chêne liège (Quercus suber), le chêne sessile (Quercus petraea), le

chêne faginé (Quercus faginea), et le hêtre européen (Fagus sylvatica). Le choix de ces espèces repose

sur le fait qu’elles appartiennent à la famille des fagacées. Ce sont des espèces méditerranéennes

pour les deux premières et des espèces des régions tempérées pour les autres, l’hypothèse de

départ étant de montrer que les changements climatiques influent plus sur les niches écologiques

des espèces des régions tempérées.

L’objectif de notre étude est de modéliser la répartition de la présence de chaque espèce

pour les deux chaînes montagneuses afin d’obtenir les optimums des gradients altitudinaux des

feuillus pour chaque inventaire et de les comparer, ceci dans le but de montrer l’existence de

l’influence du facteur climatique sur les écosystèmes.

Dans un premier temps, nous allons présenter la structure d’accueil où j’ai effectué mon

stage qui est le laboratoire Biogeco, qui est l'unité Mixte de Recherches « Biodiversité, Gènes et

Communautés » chargé d’analyser la diversité biologique.

Page 6: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

6

Dans un deuxième temps, nous définirons le contexte général de l’étude puis l’intérêt du

gradient altitudinal des espèces végétales dans le domaine de l’écologie, ainsi que les études

antérieures effectuées reposant sur son utilisation.

Puis une brève présentation des données sur lesquelles reposent notre analyse sera

effectuée.

Ensuite nous définirons les outils et différentes méthodes statistiques mis en œuvre lors

de notre analyse pour répondre à notre problématique.

Enfin nous ajusterons les données des deuxième et troisième inventaires forestiers

espagnols à l’aide d’une procédure d’optimisation, afin de modéliser la répartition de la présence

des espèces de feuillus et ceci à l’aide des modèles logistiques, HOF IV et HOF V. Cette

première étape permet d’obtenir une première estimation du paramètre d’intérêt à savoir

l’optimum du gradient altitudinal de chaque espèce mais elle ne nous permet pas d’obtenir les

intervalles de confiance et d’effectuer un test de comparaison des optimums des deux inventaires.

Nous mettrons donc en place la méthode de bootstrap pour résoudre ce problème et définir si le

facteur climatique joue un rôle sur les niches écologiques des cinq espèces d’intérêt.

Page 7: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

7

PARTIE I : PRESENTATION DE LA STRUCTURE D’ACCUEIL

II.. TTHHEEMMEESS DDEE RREECCHHEERRCCHHEE DDEE LLAA SSTTRRUUCCTTUURREE DD’’AACCCCUUEEIILL

L’UMR (Unité Mixte de Recherches) BIOGECO, situé à Bordeaux et signifiant

« Biodiversité, Gènes et Communautés », fait partie de l’Institut National de Recherche

Agronomique (INRA) et a été créée en janvier 2003.

Le programme de recherche de l’UMR est « orienté vers l’analyse des mécanismes

régissant l’évolution de la diversité à différents niveaux hiérarchiques (communautés, espèces,

populations, gènes) dans une perspective de gestion durable des ressources et des milieux » (site

de Biogeco).

Pour répondre à cet objectif, les thèmes de recherches sont orientés autour de 5 grands

axes : la description et organisation de la diversité ; la dynamique et évolution de la diversité ;

l’impact anthropique sur la diversité ; le rôle fonctionnel de la diversité et sa valorisation.

Ainsi l’UMR est composée de quatre équipes et d’une unité de recherche expérimentale

située à Pierroton :

- l’équipe de Génétique et Amélioration des arbres forestiers (responsable R. Petit) étudie

la diversité génétique et l'amélioration des arbres.

- l’équipe d'Entomologie Forestière (responsable H. Jactel) travaille sur le Pin maritime

et étudie les relations arbres – insectes et le rôle de la biodiversité sur la résistance aux

ravageurs.

- l’équipe de Pathologie Forestière (responsable C Robin) développe des recherches

sur les champignons parasites et leurs interactions avec leurs hôtes, comme facteur de

la biodiversité des écosystèmes.

- l’équipe d’Ecologie des Communautés (responsable B Touzard) définit les stratégies

fonctionnelles des espèces végétales et leurs interactions au sein des communautés

herbacées et ligneuses en relation avec les changements environnementaux.

- l'unité expérimentale (responsable P. Pastuszka) gère le domaine forestier de la station,

installe les dispositifs expérimentaux et réalise les mesures ainsi que les récoltes

d'échantillons.

Page 8: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

8

Mon stage a été effectué au sein du laboratoire d’Ecologie des Communautés, dont nous

allons présenter l’organigramme.

IIII.. OORRGGAANNIIGGRRAAMMMMEE DDUU LLAABBOORRAATTOOIIRREE

Responsable du laboratoire et maître de conférence :

Blaize Touzard

Professeurs :

Didier Alard

Richard Michalet

Techniciens :

Chantal Helou

Yann Guengant

Chargé de recherche :

Annabel Porté

Directeur de recherche :

Michel Mench Doctorants :

Caroline Bresson

Laurent Lamarque

Jean-Baptiste Lamy

Brice Giffard

Cassandre Gaudnik

Morgane Urli

Jean-Paul Maalouf

Aliaksandr Kolbas

Elena Hego

Ingénieur d’étude :

Régis Burlett

Page 9: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

9

PARTIE II : PRESENTATION DE L’ETUDE DU GRADIENT

ALTITUDINAL D’ESPECES VEGETALES DANS UNE CHAINE

MONTAGNEUSE

II.. CCOONNTTEEXXTTEE GGEENNEERRAALL DDEE LL’’EETTUUDDEE

Un écosystème est une unité fonctionnelle au sein de laquelle les plantes, les animaux et

l’habitat interagissent sous forme d’échange d’énergie mais également de matière. Les différents

organismes formant la biocénose qui sont la faune et la flore, échangent avec leur environnement,

appelé biotope, et permettent le développement et le maintien de la vie.

L’écosystème englobe la notion de niche écologique, définie par l’ensemble des ressources

et conditions environnementales (biotiques ou abiotiques) nécessaires au développement d’une

espèce. Ces ressources résident dans les paramètres physico – chimiques (climat, eau, minéraux

etc.), qui sont spécifiques à chaque milieu, mais également biologiques décrivant la cohabilitation

ou la compétition entre les différentes espèces de ce milieu.

Les paramètres influant sur les modifications de la structure d’une niche écologique sont

nombreux : variation de pH, de nutriments…cependant actuellement le facteur climatique est le

plus important.

En effet, de nos jours les écosystèmes sont soumis à de nombreux agents perturbants

d’origine anthropologique (IPCC 2007) tels que les pollutions chimiques (détergents,

pesticides…) et l’augmentation des gaz à effets de serre (figure 1). Ceci a pour conséquence

d’entraîner un réchauffement climatique rapide, la température de l’air augmentant sur le dernier

siècle au rythme de 0.75°C par an (figure 2).

Page 10: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

10

Figure 1 : Changements dans les concentrations atmosphériques de gaz carbonique

(CO2), de méthane (CH4) et d’oxyde nitreux (N2O) ces 1000 dernières années. (IPCC

2007)

(Les trois relevés montrent les effets de la croissance déjà importante mais qui ne fait que se

renforcer des émissions anthropiques pendant l'ère industrielle.)

Page 11: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

11

Figure 2 : Variations année par année (courbe gris foncé) et variations moyennes sur 50

ans (courbe bleue) de la température moyenne à la surface dans l'hémisphère Nord au

cours des 1000 dernières années (écarts à la moyenne de 1961-1990). (IPCC 2007)

(A noter que la rapidité et la durée du réchauffement, au cours du XXe siècle, ont été beaucoup

plus élevées qu'au cours de n'importe lequel des neuf siècles précédents.)

L’étude des écosystèmes et de leurs modifications suite à ce type de perturbations rapides

représente donc un intérêt particulier dans la préservation de la planète (Davis et Shaw 2001,

Davis et al 2005, Botkin et al 2007). De nombreuses études ont modélisé l’évolution des aires de

répartition potentielle des espèces sous l’hypothèse d’un changement climatique rapide (Skyes,

M.T. et al, 1996 ; Box, E.O. et al, 1999 ; Badeau, V. et al, 2004 ; Iverson, L.R. et al, 2004 ;

Thuiller, W. 2003 ; Guisan, A. et Thuillier, W. 2005). Selon Thuiller et al (2005), en 2080, la

biodiversité européenne chuterait ainsi de 27% à 42% selon le scénario climatique utilisé. Ces

chiffres sont valables pour l’Europe entière cependant les régions méditerranéennes et

montagnardes se révèleraient plus sensibles que les autres.

Il est intéressant de présenter la principale méthode utilisée pour l’étude des modifications

des niches écologiques des espèces végétales des régions montagneuses en réponse aux

changements climatiques.

Page 12: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

12

IIII.. IINNTTEERREETT DDEE LL’’EETTUUDDEE DDEESS GGRRAADDIIEENNTTSS AALLTTIITTUUDDIINNAAUUXX

Très récemment, des équipes de recherche se sont intéressées aux conséquences liées aux

variations de certains facteurs environnementaux sur les écosystèmes en étudiant la distribution

des espèces végétales le long de gradients, notamment d’altitude (Lenoir et al. 2009, Kelly et

Goulden 2008). En effet, un gradient d’altitude définit une zone où la variation des températures

est très forte (-0.6 °C par 100 m d’augmentation d’altitude, Vitasse 2009) mais sur une distance

courte et peu étendue en latitude, minimisant ainsi les variations d’autres facteurs

environnementaux (pluies, photopériode, etc.). Ainsi son étude permet de mettre en évidence la

répartition d’une espèce le long d’un gradient de température, mais elle permet également

d’étudier l’évolution de l’espèce au cours du temps suivant le déplacement de sa niche écologique

engendré par une modification type augmentation de température dans le cadre du réchauffement

climatique.

Les conséquences des changements climatiques sur la répartition des espèces le long d’un

gradient peuvent être de nature différente (figure 3, Breshear et al. 2008) : sa disparition à la limite

inférieure du gradient par mortalité, avec son remplacement ou non à une altitude donnée par

une autre espèce ; son extension vers des altitudes supérieures, au-delà ou non de sa limite

supérieure actuelle. Ces modifications peuvent ainsi conduire à une diminution de la largeur de la

gamme d’altitudes couvertes par l’espèce et à une augmentation de l’altitude optimale de sa

présence. La forme de la distribution du gradient altitudinal d’une espèce végétale s’en trouverait

alors modifiée.

Page 13: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

13

Figure 3 : Exemples théoriques de type de déplacements de la distribution d’espèce le

long d’un gradient d’altitude en réponse au réchauffement climatique. (Breshear et al.

2008)

(Les trois types de changements de distribution possibles sont : ‘‘Lean,’’ la largeur de l’aire reste

constante mais l’optimum se décale ; ‘‘March,’’ l’ensemble de la distribution se déplace en

altitude ; ‘‘Crash,’’ la mortalité a lieu sur l’ensemble de l’aire.)

Pour confirmer l’influence des changements climatiques au sein de la niche écologique, il

faudrait mettre en parallèle à cette étude les données concernant les fluctuations de ce facteur.

Par ailleurs, peu d’études de terrain sur le gradient altitudinal existent mais une équipe

espagnole a mis en évidence une élévation de l’aire de répartition du hêtre (Fagus sylvatica)

(Peñuelas et Boada 2003, Jump et Peñuelas 2006, Jump et al 2006a, b, Peñuelas et al 2007).

L’analyse, qui suit, reposera uniquement sur l’obtention du gradient optimal d’une espèce

donnée et à sa comparaison pour deux périodes données.

Page 14: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

14

IIIIII.. EETTUUDDEESS AANNTTEERRIIEEUURREESS PPOORRTTAANNTT SSUURR LLEESS VVAARRIIAATTIIOONNSS DDEE DDIISSTTRRIIBBUUTTIIOONN DD’’EESSPPEECCEESS LLEE

LLOONNGG DD’’UUNN GGRRAADDIIEENNTT AALLTTIITTUUDDIINNAALL

Nous allons présenter deux études récentes qui ont cherché à quantifier, à partir de

données de terrain, le mouvement de l’aire de répartition d’espèces végétales le long de gradients

d’altitude.

A. Etude de J. Lenoir, J.C. Gégout, P.A. Marquet, P. de Ruffray et H. Brisse 2009

L’analyse de cette équipe de chercheurs repose sur l’étude de la distribution de la

probabilité de présence d’une espèce végétale à une altitude donnée afin de déterminer si les

espèces restreintes aux domaines montagneux ont été sensibles aux modifications de température

au cours du temps.

Lenoir montre que l’année 1985 constitue un pallier où une dérive des températures

commence à être observée. Ainsi son analyse est basée sur les changements des valeurs de

l’optimum du gradient d’altitude d’une espèce sur deux périodes : « 1905 – 1985 » et « 1986 –

2005 ». Pour ce faire, il utilise une régression logistique afin d’obtenir l’altitude où la probabilité

de présence d’une espèce est maximale appelée également « élévation optimum ». L’étude de la

réponse des espèces repose donc sur la différence des optimums d’élévation.

Les résultats, qu’il obtient, sont les suivants : la tendance générale du gradient altitudinal a

augmenté significativement et la largeur de sa distribution pour chaque espèce ne diffère pas

significativement pour les deux périodes d’étude, impliquant un déplacement de la gamme. Par

ailleurs, l’optimum du gradient d’altitude d’une espèce peut se voir soit diminué, soit augmenté.

Néanmoins il en ressort que les espèces issues de niches écologiques possédant les mêmes

propriétés présentent des réponses similaires aux changements climatiques.

B. Etude de A. Kelly et M. Goulden 2008

Kelly et Goulden ont étudié le gradient d’altitude des espèces végétales recouvrant les

massifs montagneux de Santa Rosa (Californie, USA) à plus de 2 000 m sur une période de 30

ans. Ils montrent, tout comme Lenoir, que les valeurs du gradient altitudinal de chaque espèce

seraient de plus en plus importantes au cours du temps, mais en conservant leur gamme initiale.

Néanmoins la tendance centrale des distributions ne se trouve pas simplement augmentée mais

déplacée vers le haut, proportionnellement aux écarts de températures constatés sur cette période,

changeant ainsi la forme de la distribution du gradient.

Page 15: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

15

Ce dernier résultat conforte l’hypothèse de certains écologistes selon laquelle la valeur de la

tendance centrale de la distribution du gradient d’altitude d’une espèce doit augmenter et ceci

proportionnellement au réchauffement climatique mais en considérant un retard dans le temps.

C. Méthodes mathématiques employées pour mettre en évidence les modifications de

distribution des espèces

Les études présentées ci – dessus mettent en jeu des méthodes de modélisation des

données pour obtenir le gradient optimal de la distribution.

L’équipe de Lenoir a procédé à l’ajustement de la distribution du gradient altitudinal des

espèces étudiées à l’aide de régression logistique, alors que Kelly et Goulden ont effectué la

modélisation de la couverture moyenne de l’ensemble des espèces dans une région donnée.

D’une part dans le cas de Lenoir, les modèles sont tous des régressions logistiques, soit

correspondant à des distributions symétriques de l’espèce le long du gradient, alors que nous

savons que ces distributions sont souvent asymétriques (Huisman et al 1993). Sur 262 espèces, 79

ont des distributions asymétriques soit 30% ; et parmi les espèces ligneuses (arbres, arbustes), sur

28 espèces, 17 espèces ont des distributions asymétriques soit plus de 60% (Lawesson et Oksanen

2002). D’autre part, kelly et Goulden n’ont pas modélisé la distribution du gradient altitudinal de

chaque espèce, ils ont étudié l’évolution de la répartition de l’ensemble des espèces.

Ces deux études posent donc deux problèmes majeurs. Dans un premier temps, il n’y a pas

de prise en compte de l’asymétrie qui induit des erreurs dans l’estimation des paramètres de la

distribution de l’espèce, notamment dans l’estimation de l’optimum. Dans un deuxième temps,

ces études n’ont pas utilisé de tests permettant de trancher si le déplacement de chaque espèce le

long d’un gradient altitudinal est significatif ou non.

Pour pouvoir obtenir des résultats fiables quant à l’influence du facteur climatique sur la

répartition d’une espèce végétale dans une chaîne montagneuse, il faut ajuster sa distribution le

long d’un gradient altitudinal à l’aide d’un modèle adapté (symétrique ou asymétrique) ; estimer

les paramètres de cette distribution, notamment l’optimum ; et pouvoir tester l’égalité de

l’optimum du gradient altitudinal de chaque espèce définie pour deux périodes données, ce que

nous allons faire au cours de cette étude.

Page 16: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

16

PARTIE III : DONNEES ET METHODES STATISTIQUES

II.. PPRREESSEENNTTAATTIIOONN DDEESS DDOONNNNEEEESS DDEE LL’’EETTUUDDEE

Les données, utilisées pour notre étude, correspondent à celles répertoriées lors de deux

inventaires forestiers espagnols, qui ont eu lieu en 1995 et en 2007 respectivement notés SFI2 et

SFI3 et qui correspondent au deuxième et au troisième passage de l’inventaire forestier

international espagnol (« SFI » : Spanish Forest Inventory). Chaque SFI correspond à un

échantillonnage d’arbres effectué selon une grille systématique de placettes permanentes où l’on

mesure la présence d’espèce pour un intervalle de temps de 12 ans. L’ensemble de la surface

forestière est ainsi échantillonnée sur une grille carrée de 1 km de côté. Chaque placette est

localisée par ses coordonnées géographiques UMT (Universal Transverse Mercator). Au total

205416 placettes sont suivies.

Pour chaque inventaire, on a sélectionné deux zones d’étude où ont été effectués les

relevés : le système ibérique et les Pyrénées. Pour chaque chaîne montagneuse a été notée

l’altitude exacte de chaque placette où ont été observée la présence ou non de plusieurs espèces

d’arbres. Nous ne citerons que les 5 espèces de feuillus auxquelles nous allons nous intéresser

pour la suite de notre étude :

Chêne sessile, Quercus petraea (code s42)

Chêne faginé, Quercus faginea (code s44)

Chêne vert, Quercus ilex (code s45)

Chêne liège, Quercus suber (code s46)

Hêtre européen, Fagus sylvatica (code s71)

Les bases de données initiales sont au nombre de quatre : PYRSFI2, PYRSFI3,

SISTIBSFI2 et SISTIBSFI3, qui regroupent respectivement les données concernant les Pyrénées

pour le deuxième et troisième inventaire espagnol et celles obtenues dans le système ibérique au

cours de ces deux mêmes inventaires.

Les observations de ces bases correspondent aux différentes placettes, appelées

« PLOTCODE », dont on spécifie le numéro et qui sont dupliquées autant de fois qu’il y a

d’espèces présentes. Chaque table se présente alors de la manière suivante :

Page 17: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

17

Tableau 1 : Extrait de la PYRSFI2 initiale contenant les données des Pyrénées pour

le deuxième inventaire

PLOTCODE COORX COORY HUSO ESPECIE SFI2 ALT

80001 402000 4684000 31 37 1 1961

80001 402000 4684000 31 22 1 1961

80002 400000 4683000 31 74 1 1723

80002 400000 4683000 31 78 1 1723

80002 400000 4683000 31 91 1 1723

80002 400000 4683000 31 76 1 1723

80002 400000 4683000 31 21 1 1723

80002 400000 4683000 31 22 1 1723

80003 401000 4683000 31 22 1 1702

80003 401000 4683000 31 91 1 1702

80003 401000 4683000 31 21 1 1702

80003 401000 4683000 31 37 1 1702

80004 402000 4683000 31 21 1 1481

80004 402000 4683000 31 43 1 1481

80004 402000 4683000 31 91 1 1481

80005 400000 4682000 31 91 1 1393

80005 400000 4682000 31 78 1 1393

80005 400000 4682000 31 43 1 1393

80005 400000 4682000 31 71 1 1393

Ces tables, telles qu’elles se présentent, ne sont pas exploitables. Nous les avons donc

transformées à l’aide du logiciel Excel et de l’outil « Tableaux croisés dynamiques » afin d’obtenir

des tables regroupant des données binaires décrivant la présence ou l’absence de chaque espèce

d’intérêt à une altitude donnée, c’est-à-dire pour chaque placette, comme nous le montre

l’exemple ci-dessous :

Page 18: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

18

Tableau 2 : Extrait de la table PYRSFI2 modifiée

PLOTCODE s42 s44 s45 s46 s71 altitude

80001 0 0 0 0 0 1961

80002 0 0 0 0 0 1723

80003 0 0 0 0 0 1702

80004 0 0 0 0 0 1481

80005 0 0 0 0 1 1393

Une fois les tables de données pour chaque inventaire et par localisation obtenues, nous les

avons importées dans SAS® (version 9.1 pour Windows, Cary, NC, USA).

A noter que nous avons supprimé de la base de données PYRSFI2 l’observation

concernant la placette, dont le numéro est 172491, car celle-ci a été mal saisie (altitude égale à –

9999 m) et fausserait les résultats statistiques.

Nous avons créé dans SAS® une nouvelle variable « altitudec » correspondant aux classes

d’altitude auxquelles appartiennent chaque placette, ce qui nous a permis ensuite de calculer la

probabilité de présence de chaque espèce étudiée par classe d’altitude, inventaire et localisation.

C’est cette probabilité que nous allons chercher à modéliser dans la suite de l’étude afin de

pouvoir déterminer le gradient optimal de chaque espèce sur les deux périodes.

Pour faciliter l’analyse nous avons créé des tables pour chaque espèce. Nous avons obtenu

ainsi 20 tables de données, que nous avons stocké dans la librairie « especes » et qui se présentent

de la manière suivante :

Page 19: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

19

Tableau 3 : Table especes.s42pyrsfi2 contenant les données concernant le chêne

sessile pour le deuxième inventaire espagnol effectué dans les Pyrénées.

(A noter que ce tableau présente le nombre de placettes où l’espèce est soit présente, soit

absente. L’altitude donnée correspond à la valeur centrale des classes d’altitude où ont été

effectués les prélèvements de données.)

Altitude Absence

de l'espèce

Présence de

l'espèce

Nombre total de

placettes

Probabilité de présence

50 198 21 219 0,0959 150 509 40 549 0,0729 250 410 37 447 0,0828 350 368 39 407 0,0958 450 561 51 612 0,0833

550 788 63 851 0,0740

650 932 113 1045 0,1081

750 881 133 1014 0,1312

850 717 171 888 0,1926

950 651 135 786 0,1718

1050 545 123 668 0,1841

1150 448 125 573 0,2182

1250 350 58 408 0,1422

1350 346 63 409 0,1540

1450 290 52 342 0,1520

1550 278 26 304 0,0855

1650 246 12 258 0,0465

1750 208 2 210 0,0095

1850 173 2 175 0,0114

1950 135 0 135 0,0000

2050 91 0 91 0,0000

2150 63 0 63 0,0000

2250 24 0 24 0,0000

2350 6 0 6 0,0000

2450 4 0 4 0,0000

Ce sont les données de ces tables appelées « échantillons » dans la suite de l’étude que nous

allons modéliser en vue d’obtenir le gradient optimal de chaque espèce pour les deux inventaires

et par localisation.

Par ailleurs pour chaque espèce étudiée, chaque zone d’étude et chaque inventaire, on

dispose ainsi d’un minimum de 40 placettes selon l’espèce et d’un maximum d’environ 5700

placettes (tableau 4). On remarque que ce nombre diffère nettement selon l’espèce et sa

localisation.

Page 20: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

20

Tableau 4 : Nombre de placettes présentant l’espèce étudiée, par zone d’étude et

inventaire forestier

Espèce Zone d’étude Nb. placettes

SFI2 Nb. placettes

SFI3

Quercus petraea Pyrénées 1266 724Système ibérique 43 53

Quercus faginea Pyrénées 3293 2029Système ibérique 2581 2854

Quercus ilex Pyrénées 5274 5274Système ibérique 5341 5697

Quercus suber Pyrénées 989 912Système ibérique 81 75

Fagus sylvatica Pyrénées 808 925Système ibérique 484 469

Avant d’effectuer l’analyse statistique qui nous permettra de répondre à notre

problématique, nous allons présenter l’ensemble des méthodes et outils statistiques utilisés au

cours de l’étude en vue d’étudier la différence entre les gradients altitudinaux d’une espèce pour

les deux inventaires.

IIII.. MMEETTHHOODDEESS DDEE LL’’AANNAALLYYSSEE SSTTAATTIISSTTIIQQUUEE

A. Estimation ponctuelle

L’estimation ponctuelle repose sur la mise en place d’un modèle statistique s’ajustant aux

données et à l’obtention des valeurs des paramètres de ce modèle. Il est donc nécessaire dans un

premier temps de définir la notion de modèle statistique, puis la méthode d’estimation par

maximum de vraisemblance qui est la plus couramment utilisée et enfin la « méthode delta » qui

s’applique dans le cadre de modèles non – linéaire. Enfin nous allons définir ce que sont les

intervalles de confiance d’un paramètre.

B. Modèle statistique

On considère Ω, , ℙ un espace de probabilité et , un espace borélien.

Page 21: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

21

On dit que l’ensemble des variables aléatoires réelles , … , représente un vecteur

aléatoire … si est une application de Ω⟶ tel que

∈ pour . Les réalisations de chaque variable sont , … , .

On définit alors une mesure sur , tel que :

∶ ∈ ∈ . Cette mesure est appelée la

loi de probabilité de dans . Ainsi on a le modèle statistique , , où est la famille

suivante : , ∈ Θ , Θ est l’espace des paramètres et de ∈ .

La loi de probabilité admet une densité, pour tout intervalle , si :

1 dans le cas continu,

et admet une probabilité dans le cas discret.

Si ∈ Θ ⊂ alors le modèle statistique est dit paramétrique sinon il est non

paramétrique.

C. Fonction de vraisemblance

On définit la fonction de vraisemblance de la manière suivante : ,

, ,

.

La fonction de vraisemblance est la variable aléatoire , , .

Si alors on peut conclure que la probabilité est plus grande pour que

pour ainsi cette fonction nous permet de calculer l’estimateur permettant de maximiser cette

probabilité. Pour ce faire on utilise max et on définit l’estimateur du maximum de

vraisemblance par max où ∈ . A noter que

l’estimateur du maximum de vraisemblance peut ne pas exister ou bien ne pas être unique.

Si l’on considère que les variables aléatoires … sont indépendantes et identiquement

distribuées (i.i.d) alors la vraisemblance de s’écrit également de la manière suivante :

∏ , .

Afin de faciliter les calculs permettant d’estimer , on définit la fonction de log –

vraisemblance suivante : ln ln ∏ , ∑ ln , , ce qui est permis par

la propriété de monotonie de la fonction logarithme.

Page 22: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

22

D. Estimation par maximum de vraisemblance

Pour obtenir l’estimateur et dans le cas d’un modèle régulier, on utilise l’équation

suivante : 0 et on vérifie 0, où et sont appelées

respectivement le gradient et la hessienne de ln avec :

ln ∶ ⟶ , ∶ ⟶ , ∶ ⟶ et ,

, , .

E. Information de Fisher

On mesure la quantité d’information apportée par un – échantillon sur le paramètre

avec l’information de Fisher qui est positive ou nulle (si elle existe) : I .

Si le domaine de définition de ne dépend pas de alors I .

Sous les conditions de régularité, on a : → 0, d’où on tire l’approximation

suivante : ↝ 0, , et alors ↝ , , .

On obtient alors l’intervalle de confiance de suivant :

1.96 avec ↝ , , .

F. Méthode delta

La méthode d’estimation des paramètres d’un modèle présentée ci – dessus est facilement

mise en œuvre pour des modèles simples. Cependant il existe une autre approche pour estimer les

paramètres d’une fonction plus complexe : la « méthode delta ». Cette méthode utilise une

approximation linéaire de la fonction grâce aux séries de Taylor.

On définit où est une fonction dérivable d’ordre et

existe. Alors pour une constante , la série de Taylor est définie de la manière suivante :

∑!

.

On a la statistique d’un paramètre qui dépend de la taille de l’échantillon et on

suppose qu’un estimateur de la statistique est la fonction .

Page 23: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

23

On a la propriété √ → 0, .

Si est deux fois différentiable en alors la série de Taylor de au voisinage de

est définie et on obtient √ → 0, . Comme et

dépend de , paramètre inconnu alors la variance asymptotique est inconnue.

Pour définir l’intervalle de confiance de , on utilise la propriété suivante :

√ ↝ 0,1 d’où 1.96√

avec 5%.

Pour exemple, on définit l’estimateur du paramètre de succès sur épreuves

. On sait que et 1 , alors et . Soit

la fonction définie par log appelée logit. On a . En utilisant la

« méthode delta », la variance asymptotique du logit pour l’échantillon est égale au produit entre

la variance de qui est avec le carré de d’où :

√ log log → 0, .

La normalité asymptotique de approche la normalité asymptotique de log . La

variance asymptotique correspond à la variance de la distribution qui approche la vraie

distribution, mais ce n’est pas une approximation de la variance de la vraie (pas très clair).

G. Méthodes basiques de limites de confiance

La valeur estimée des paramètres d’un modèle est le plus souvent accompagnée d’un

intervalle de confiance qui est défini par l’ensemble des valeurs que peut prendre le paramètre

avec un certain degré de confiance.

Soit l’estimateur d’un scalaire . On cherche un intervalle bilatéral de cet estimateur avec

un risque d’erreur . est supposé continu. Les quantiles de sont noté par :

et sont alors notés et .

L’intervalle bilatéral 1 2 a pour limites et .

Page 24: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

24

On applique l’approximation normale 0, à ce qui nous donne les limites

de confiance approchées suivantes : , avec Φ 1 α .

Si est l’estimateur du maximum de vraisemblance alors la variance approchée et

obtenue à partir de la fonction de log – vraisemblance . S’il n’y a pas de paramètres de

nuisance alors en utilisant la réciprocité de l’information de Fisher observée, on a :

ou (estimation attendue de l’information deFisher) avec

.

S’il existe des paramètres de nuisance, alors on utilise l’inverse de ou de .

Plus généralement si est donné par une équation, peut être calculée à l’aide de la

« méthode delta ».

Si l’approximation de la variance est difficile à obtenir théoriquement, le bootstrap

paramétrique peut être utilisé. Cela suppose des simulations à partir du modèle d’ajustement avec

une valeur de paramètre . Si les estimateurs du biais et de la variance, estimés à partir de

l’échantillon, sont et alors , .

Nous allons maintenant définir ce qu’est la méthode d’estimation par bootstrap.

H. Présentation du bootstrap

Le but du bootstrap est de trouver la loi de probabilité d’une statistique, qui est l’estimateur

d’un paramètre , afin de calculer l’intervalle de confiance de ce dernier.

a. Méthode générale

On dispose d’un échantillon de individus suivant une distribution (inconnue) dont on

veut obtenir une estimation soit par un modèle paramétrique connu qui ajuste assez bien les

données, soit par la distribution empirique des données.

On tire échantillons de taille et on obtient à partir de chaque échantillon les

estimations du paramètre : , ,…, .

On peut alors obtenir une estimation de la variance :

∑ , avec ∑ .

Page 25: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

25

La distribution de la statistique est alors estimé par , puisqu’elle dépend des

valeurs observées , , … de la variable de la loi de distribution.

b. Deux types de bootstrap

Le bootstrap paramétrique est utilisé lorsque l’on dispose d’un modèle mathématique

particulier et que l’on ajuste les paramètres , où le paramètre d’intérêt est fonction de .

On estime par le modèle ajustant les données puis on simule ensuite échantillons de

taille , indépendants les uns des autres, qui regroupent des réalisations de la distribution . On

obtient alors ∗, ∗, … ∗ qui sont les valeurs simulées de la statistique que l’on veut estimer.

Le bootstrap non paramétrique est utilisé si l’on dispose des observations iid. Cependant

il peut être utilisé lorsque l’on connait le modèle pour vérifier la robustesse des résultats fournis

par l’analyse paramétrique. Cette méthode repose sur la mise en place de la fonction empirique de

répartition où est une approximation de . On génère alors échantillons de taille

selon et on obtient ensuite ∗, ∗, … ∗. Pour ce faire on utilise les données originales

, , … pour créer les échantillons en tirant avec remise éléments parmi les

observations. Cette méthode est également appelée méthode de rééchantillonnage car on

reconstruit un ensemble d’échantillons en partant de celui de départ et elle est adéquate pour

l’obtention de l’estimation d’un paramètre.

En général, le nombre de simulations pour les deux types de bootstrap doit être compris

entre 1000 et 5000 simulations.

c. Intervalles de confiance

Nous pouvons calculer l’intervalle de confiance, appelé « t – bootstrapé », de n’importe

quel paramètre en bootstrapant la statistique correspondante. Nous n’avons pas besoin de

condition sur la population ou de connaissance spéciale sur la distribution de l’échantillon de la

statistique. Ces intervalles fonctionnent bien si la distribution du paramètre bootstrapé est

approximativement normale. Soit la statistique du paramètre recherché , alors pour obtenir un

intervalle de confiance de , on peut utiliser la propriété ↝ , . Cependant il faut

vérifier la normalité des estimations obtenues de la statistique par le bootstrap à l’aide d’un

histogramme et d’un q – qplot. A noter que si la distribution de n’est pas une loi normale alors

il faut ajusté la distribution du bootstrap des .

Page 26: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

26

Dans le cas d’une loi normale l’intervalle de confiance du paramètre est :

∗ avec le quantile d’ordre de la loi de Student pour 1 degrés de

liberté et l’écart – type estimé de à partir du des données du bootstrap.

Il existe un second type d’intervalle de confiance appelé « Bootstrap percentile confidence

interval » qui fonctionne bien si la distribution de l’échantillon est approximativement normale et

possède un très faible biais, ou bien est sans biais. En effet, si la statistique n’a pas de biais, la

distribution de l’échantillon est centrée sur la valeur réelle du paramètre. Nous pouvons alors

obtenir un intervalle de confiance à 95% en marquant les 95% centraux de la distribution

d’échantillonnage. Les valeurs critiques sont centrées autour de la valeur centrale à 95%. Ainsi

l’intervalle de confiance est construit en prenant comme bornes les centiles à 2.5% et 97.5% de la

distribution du bootstrap. A noter que les intervalles sont d’autant plus précis que le biais est

petit, ce que l’on peut vérifier avec un q – qplot.

d. Test de signification utilisant les tests de permutations

Les tests de significativité permettent de vérifier si l’effet observé, ici la différence entre

deux optimums, est produit « par chance » intervenant lors de la sélection de l’échantillon. Si ce

n’est pas le cas, nous mettons en évidence que l’effet observé dans l’échantillon reflète l’influence

d’un facteur dans la population.

Le test de permutation se déroule en plusieurs étapes, la première étant le choix de la

statistique qui mesure l’effet que l’on veut montrer.

La deuxième réside dans la construction de la distribution d’échantillonnage, qui doit se

faire à l’aide d’un tirage aléatoire sans remise.

Enfin nous localisons la statistique observée sur la distribution et nous concluons que si

une valeur est placée au centre de celle – ci alors elle peut être facilement attribuée au hasard

contrairement à une valeur de statistique placée en queue de distribution qui mettrait en évidence

la présence d’un facteur influant.

L’hypothèse nulle H0 est définie par l’absence de l’effet dans la population : .

Les tests basés sur le rééchantillonnage ne changent pas du raisonnement des tests classiques, leur

probabilité critique est obtenue par calculs sur les nouveaux échantillons (cf. ci – dessous) et sont

par conséquent utilisés là où les tests classiques ne peuvent l’être.

Page 27: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

27

Nous désirons dans le cadre de notre étude de tester s’il existe une modification dans la

valeur de l’optimum entre deux périodes, ainsi la statistique d’intérêt est l’optimum du gradient

d’altitude. Nous calculons alors et des deux échantillons , , … et

, , … , où et sont les échantillons des données initiales correspondant

respectivement aux données du deuxième et du troisième inventaire espagnol. Nous combinons

ensuite l’ensemble des observations de ces deux échantillons afin d’obtenir

, , … , , , … . Nous tirons alors sans remise dans cet échantillon et

valeurs avec de créer deux échantillons simulés, respectivement ∗ et ∗. Cette étape est

répétée fois. A chaque simulation nous calculons les nouveaux estimateurs de l’optimum du

gradient pour chaque échantillon et nous obtenons la différence entre ∗ et ∗. Enfin

nous calculons ∗ ∗ ∗. Si ∗ ou si ∗ 1 alors

nous rejetons l’hypothèse nulle H0 où .

I. Modélisation de la répartition altitudinale des espèces par les modèles de Huisman, Olff

et Fresco : modèles de HOF

a. Objectifs

La modélisation de la répartition altitudinale d’une espèce représente un outil efficace pour

évaluer les modifications de la niche écologique de cette espèce au cours du temps. En effet, elle

permet d’estimer les paramètres du modèle et par conséquent d’obtenir l’optimum de présence de

l’espèce la long du gradient d’altitude pour une période donnée.

L’étude de la répartition altitudinale et sa modélisation doivent être effectuées à l’aide de

modèles adaptés à des données positives puisque l’on s’intéresse, comme dans le cas de l’étude de

Lenoir, à la distribution de la probabilité de présence d’une espèce à une altitude donnée (cas de

données binaires).

Ainsi plusieurs approches peuvent être utilisées : la régression logistique qui est inclue dans

les modèles linéaires généralisés (« Generalized Linear Model »), les modèles non - linéaire ou

encore les modèles de Huisman, Olff et Fresco appelés modèles de HOF.

Les premiers types de modèles correspondent à des distributions symétriques alors que les

modèles non – linéaires peuvent ajuster des données de manière à obtenir une distribution

symétrique mais également asymétrique. Les modèles de HOF regroupent les deux cas.

Page 28: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

28

La répartition spatiale des organismes n’est pas obligatoirement une distribution symétrique

mais bien au contraire elle tend à être asymétrique. La modélisation par modèles de HOF du

comportement des espèces est alors l’outil le plus robuste, parmi les méthodes d’ajustement, pour

estimer les paramètres d’un modèle et les caractéristiques des niches écologiques des différentes

espèces de plantes. De plus les modèles de HOF définissent un maximum imposé s’adaptant

aux données écologiques puisqu’elles correspondent soit à un pourcentage, soit à une probabilité.

b. Présentation des modèles de HOF

Les modèles de Huisman, Olff et Fresco sont au nombre de cinq, dont la complexité est

croissante et notée I, II, III, IV et V. Ces modèles sont adaptés à la modélisation du gradient

d’altitude d’une espèce puisqu’ils s’adaptent à des données positives possédant un maximum .

Chaque modèle est propre à une situation donnée, c’est-à-dire à l’allure de la distribution du

gradient d’altitude (figure 4).

Figure 4 : Ensemble des 5 modèles de HOF

(Modèle I : pas de tendance ; Modèle II : tendance croissante avec atteinte de la valeur maximale ;

Modèle III : tendance croissante ou décroissante ; Modèle IV : courbe de réponse symétrique ;

Modèle V : courbe de réponse asymétrique)

Page 29: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

29

La méthode, permettant de choisir un modèle approprié aux données, consiste à ajuster le

modèle I avec ces dernières dans un premier temps, puis à ajouter un paramètre lorsque ce

dernier permet d’expliquer significativement une part de la variation observée, ce qui est similaire

à la méthode d’obtention d’un modèle en régression linéaire multiple. Ainsi pour obtenir le

modèle le mieux adapté aux données, il faut comparer les ajustements de chaque modèle et

conserver le plus significatif, ceci peut être réalisé à l’aide du critère d’Akaike que nous décrirons

par la suite.

Les différents modèles HOF sont les suivants :

Modèle I :

Modèle II :

Modèle III :

Modèle IV :

Modèle V :

est la réponse (variable expliquée, ici la probabilité de présence d’une espèce), est le facteur

(variable explicative, ici l’altitude), , , et sont les paramètres estimés et est une constante

mais également la valeur maximale ( 1 si fréquence et 100 si pourcentage).

Les modèles IV et V sont ceux dont la complexité est la plus importante faisant intervenir

deux termes logistiques dont un décrit l’accroissement de la courbe et l’autre décrit une

diminution des valeurs de .

c. Ajustement des modèles

Dans le cas de l’étude d’une variable quantitative continue, l’ajustement des modèles

s’effectue à l’aide de méthodes de régression linéaire ou non – linéaire par la méthode des

moindres carrés et dans le cas d’une variable binaire l’ajustement repose sur la méthode de

régression logistique par la méthode du maximum de vraisemblance.

Page 30: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

30

La régression non – linéaire est un type de modélisation permettant d’obtenir les

paramètres pour l’ajustement d’un modèle à des données continues quantitatives. Il n’existe pas

de solution analytique pour résoudre ce problème, mais l’on peut soit utiliser une méthode

d’optimisation, soit utiliser la « méthode delta ».

Dans le domaine écologique, les données sont souvent binaires : présence ( 1) et

absence ( 0) et l’étude porte sur la probabilité que l’espèce soit présente ou non. C’est cette

probabilité que l’on veut estimer et dont on veut ajuster le modèle. Pour ce faire on utilise la

régression logistique.

Dans le cadre des modèles de HOF, les paramètres des modèles I et II peuvent être estimés

par une régression logistique alors que les paramètres des modèles III, IV et V par une régression

non – linéaire.

Les modèles HOF permettent d’ajuster les données observées le long du gradient d’altitude

de chaque espèce, en fournissant ainsi de nombreuses informations sur les modifications de sa

niche écologique. Cependant ces modèles, du fait du nombre de paramètres important à estimer,

sont difficiles à analyser statistiquement.

J. Comparaison de modèles statistiques à l’aide du critère d’Akaike

L’ajustement des données d’un échantillon peut être effectué à l’aide de divers modèles et

l’on cherche celui qui permet d’estimer au mieux le phénomène et d’effectuer des prédictions. Le

choix du modèle est donc une étape importante dans la modélisation.

Le critère d’Akaike constitue une méthode simple de comparaison de plusieurs modèles

ajustés à de mêmes données. Ce critère repose sur la construction d’un indice de performance et

possède l’avantage de permettre la comparaison de modèles indépendants ne constituant pas des

sous – modèles les uns des autres. L’objectif dans la comparaison est de conserver le modèle dont

le critère d’Akaike a la plus petite valeur.

Ce critère, appelé critère d’information d’Akaike, noté « AIC » (Akaike Information

Criterion), est défini de manière générale de la façon suivante : 2 2 , avec le

nombre de paramètres,et est la valeur maximisée de la fonction de vraisemblance du modèle

estimée.

Page 31: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

31

Si l’on suppose que les erreurs du modèles suivent une loi normale et sont indépendamment

distribuées alors le critère s’écrit : 2 , avec ∑ qui est la somme

des carrés résiduelle (« residual sum of square »). Le premier terme représente la complexité du

modèle alors que le deuxième définit sa performance puisque plus il ajuste bien les données

moins la somme des carrés résiduelle sera importante.

Dans le logiciel SAS®, le critère d’Akaike utilisé est celui défini par la log – vraisemblance

puisque la proc nlmixed repose sur une méthode d’ajustement des données par la méthode du

maximum de vraisemblance. Nous allons présenter maintenant les principaux points de cette

procédure.

K. Procédure d’ajustement dans le logiciel SAS

L’ensemble de l’analyse a été effectuée à l’aide du logiciel SAS® dont les étapes clés du

code sont présentées dans l’annexe A. De plus, le risque de première espèce choisit pour

l’ensemble de l’étude est 5%.

La procédure que nous allons utiliser au cours de l’analyse est la proc nlmixed, qui est une

procédure d’ajustement des données à l’aide de modèles non linéaires mixtes, c’est-à-dire des

modèles possédant à la fois des effets aléatoires et des effets fixes (bien que dans notre étude, il

n’y ait pas de variable à effet aléatoire).

Cette procédure permet de définir une distribution conditionnelle aux données afin de

déterminer les effets aléatoires.

Les paramètres du modèle sont estimés avec l’objectif de maximiser leur vraisemblance ce

qui met en œuvre différentes méthodes d’optimisation telle que la méthode quasi –

Newtonnienne. Les estimations de leur erreur standard sont basées sur la dérivée seconde de la

fonction de vraisemblance. Ceci est permis grâce à plusieurs méthodes, nous pouvons citer la

« méthode delta ». Ainsi une fois le modèle estimé, une estimation des paramètres non aléatoires

et l’obtention de leur écart – type peut être obtenu.

La procédure nécessite que l’on définisse le modèle d’ajustement dont on souhaite estimer

les paramètres et qu’on leur donne une valeur initiale. De plus, nous devons également expliciter

la distribution des valeurs observées. L’estimation d’un paramètre complémentaire peut être

également effectuée lorsque l’on explicite son expression algébrique en fonction des autres

paramètres estimés.

Page 32: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

32

L’ensemble des méthodes et outils statistiques nécessaires à la résolution de notre

problématique mis en place, nous allons présenter maintenant l’ensemble des résultats obtenus.

Page 33: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

33

PARTIE IV : RESULTATS DE L’ANALYSE

La première étape de notre analyse consiste à choisir le meilleur modèle d’ajustement des

données, qui correspondent aux probabilités de présence de chaque espèce d’intérêt dans les

différentes classes d’altitude où se situent les placettes de l’inventaire espagnol, parmi le modèle

logistique, le modèle HOF IV et le modèle HOF V. Dans un deuxième temps, nous nous

attacherons à obtenir les valeurs estimées des optimums altitudinaux de chaque espèce pour SFI2

et SFI3 par estimation sur nos données mais aussi par la méthode bootstrap, qui nous permettra

alors de calculer des intervalles de confiance pour ces paramètres. Enfin nous effectuerons le test

des permutations nous permettant de comparer la valeur des optimums d’une même espèce pour

les deux périodes d’échantillonnage.

II.. AAJJUUSSTTEEMMEENNTTSS DDEE LLAA RREEPPAARRTTIITTIIOONN DDEE LLAA PPRREESSEENNCCEE DDEESS EESSPPEECCEESS DDEE FFEEUUIILLLLUUSS AA LL’’AAIIDDEE

DDEESS MMOODDEELLEESS LLOOGGIISSTTIIQQUUEE,, HHOOFF IIVV EETT HHOOFF VV

La proc nlmixed nous a permis d’ajuster chaque échantillon de données à l’aide des trois

modèles précités. Néanmoins pour définir de façon objective celui qui ajuste le mieux les données

de chaque espèce d’arbres pour les deux inventaires et pour chacune des localisations, nous avons

utilisé le critère d’information d’Akaike. En effet nous choisissons le modèle dont le critère AIC a

la plus faible valeur pour le même ensemble de données (tableau 5).

Tableau 5 : Critère AIC obtenu par la modélisation des données des Pyrénées.

(Les caractères en gras indiquent le modèle retenu car le plus parcimonieux, selon le critère

AIC)

Pyrénées SFI2 Pyrénées SFI3

Régression logistique

HOF IV HOF V Régression logistique

HOF IV HOF V

Quercus petraea 235,2 229,2 158,3 172,3 166,9 139,4Quercus faginea 239,2 228,8 183,1 151 180 160,7Quercus ilex 140 187,5 166,1 135,2 202,3 153,3Quercus suber 148,9 73,6 75,5 157,1 83,1 85,1Fagus sylvatica 122,8 137,3 139,3 135,3 157,7 158,9

Nous remarquons que pour une même espèce, les données concernant la probabilité de

présence sont ajustées par un même modèle pour les deux inventaires sauf pour le Quercus faginea.

Page 34: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

34

Les données du deuxième et du troisième inventaire pour cette espèce sont ajustées

respectivement à l’aide d’un modèle HOF V et d’une régression logistique. Cependant pour

pouvoir comparer par la suite les valeurs des optimums de SFI2 et SFI3 et dans la mesure où la

valeur de AIC diffère peu entre le modèle de régression logistique et HOF V pour le troisième

inventaire, nous décidons de conserver l’ajustement des données du Quercus faginea par le modèle

HOF V pour les deux périodes. Par ailleurs, l’ajustement des données par le modèle logistique est

celui choisi pour le Quercus ilex et le Fagus sylvatica, le modèle HOF IV ajuste les données du

Quercus suber alors que le modèle HOF V est adapté à celles du Quercus petraea comme nous le

montre les figures 5 et 6.

Figure 5 : Ajustement de la probabilité de présence du Quercus petraea de SFI2

dans les Pyrénées

Figure 6 : Ajustement de la probabilité de présence du Quercus petraea de SFI3

dans les Pyrénées

Page 35: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

35

A noter que pour vérifier le choix des modèles, nous avons tracé les courbes d’ajustement

des données pour les différentes espèces à l’aide des trois modèles et nous les avons vérifiés

(annexe B).

De la même façon que pour les Pyrénées, nous comparons ensuite le critère AIC obtenu

par la modélisation des données prélevées dans le système ibérique, dont les valeurs sont

présentées dans le tableau 6.

Tableau 6 : Critère AIC obtenu par la modélisation des données du système

ibérique

(Les caractères en gras indiquent le modèle retenu car le plus parcimonieux, selon le critère

AIC)

Système ibérique SFI2 Système ibérique SFI3

Régression logistique

HOF IV HOF V Régression logistique

HOF IV HOF V

Quercus petraea 39,7 39,6 41,5 52,4 52,1 52,6Quercus faginea 104 123,3 124,7 129,5 139,8 130,5Quercus ilex 197,2 185 175,2 169,5 173,9 171,6Quercus suber 64,7 58,3 60,3 62 55,4 57,4Fagus sylvatica 102,5 86,7 79,1 97,1 82 74,6

Le modèle de régression logistique ajuste le mieux les données du Quercus faginea avec le

critère AIC le plus faible, alors que le modèle HOF IV est le mieux adapté aux échantillons de

données concernant le Quercus petraea et le Quercus suber. Le modèle HOF V est utilisé uniquement

pour le Fagus sylvatica et pour les données du deuxième inventaire du Quercus ilex. En ce qui

concerne cette espèce, le modèle de régression logistique est celui dont la valeur du critère AIC

est la plus faible pour le troisième inventaire. Comme pour le Quercus faginea situé dans les

Pyrénées, on décide de conserver l’ajustement par modèle HOF V pour les données des deux

inventaires car la valeur du critère d’Akaike est presque identique pour les deux modèles.

Nous avons donc déterminé le modèle le mieux adapté à chaque échantillon de données à

l’aide du critère d’information. Les courbes d’ajustement nous permettent par ailleurs de

confirmer le choix de ces modélisations (annexe C). Ainsi l’étape suivante consiste à effectuer

l’estimation du paramètre d’intérêt qui est l’optimum de la répartition de la présence des espèces

dans les Pyrénées et dans le système ibérique.

Page 36: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

36

IIII.. OOBBTTEENNTTIIOONN DDEE LLAA VVAALLEEUURR DDEE LL’’OOPPTTIIMMUUMM DDUU GGRRAADDIIEENNTT AALLTTIITTUUDDIINNAALL DDEESS EESSPPEECCEESS

VVEEGGEETTAALLEESS EETT DDEE SSOONN IINNTTEERRVVAALLLLEE DDEE CCOONNFFIIAANNCCEE

L’objectif écologique de l’étude étant de montrer qu’il existe des facteurs influant sur les

changements des propriétés des niches écologiques de chaque espèce, nous cherchons à

comparer les valeurs des optimums des gradients d’altitude sur les deux inventaires espagnols.

Cependant lors de la modélisation des gradients d’altitude des espèces d’intérêt de notre étude,

nous avons rencontré un problème majeur présenté ci –dessous.

A. Méthode d’optimisation du gradient altitudinal par la modélisation des données

La méthode la plus simple, permettant d’obtenir l’optimum d’une fonction, consiste à

calculer la dérivée de cette fonction et à chercher la valeur de la variable en laquelle la dérivée

s’annule. Dans le cadre de notre étude, l’obtention de l’optimum du gradient altitudinal a consisté

à exprimer la dérivée de la fonction du modèle le plus ajusté aux données de chaque espèce et à

obtenir l’altitude pour laquelle cette espèce est la plus abondante le long du gradient.

Dans le cas de la régression logistique, la dérivée de la fonction

s’exprime de la façon suivante : , où représente l’altitude. Ainsi nous

avons calculé la valeur de l’optimum altitudinal à partir de l’expression suivante: .

Dans le cas du modèle d’ajustement HOF IV, la dérivée de la fonction

est

, et l’optimum du gradient

est alors défini par : .

Cependant lorsque la distribution du gradient d’altitude d’une espèce est modélisée par le

modèle HOF V, il ne nous est pas possible de déterminer directement la valeur de son optimum

puisque la dérivée de la fonction du modèle n’admet aucune solution à l’équation :

= 0.

Par conséquent on ne peut pas pour ce modèle appliquer les méthodes de l’estimation

ponctuelle usuelle telle que la méthode d’estimation par maximum de vraisemblance ou encore la

« méthode delta ».

Page 37: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

37

Cependant connaissant la valeur numérique des paramètres (estimateurs des paramètres obtenus

par proc nlmixed), nous avons pu obtenir l’optimum du gradient à l’aide de la proc model de SAS®,

qui utilise des méthodes d’optimisation que nous ne développerons pas ici, mais aucun intervalle

de confiance ne peut alors être calculé. Les valeurs des optimums du gradient altitudinal de

chaque espèce et pour chaque inventaire ainsi que leur intervalle de confiance, lorsqu’il est

possible de le calculer, sont regroupées dans le tableau 7.

Tableau 7 : Optimums et intervalles de confiance du gradient d’altitude obtenus à

partir de la modélisation des données

Espèces Localisations Inventaires Modèles Optimums

Intervalles de confiance

Limite inférieure

Limite supérieure

Quercus petraea

Pyrénées SFI2 HOF V 1196 . .SFI3 1232 . .

Système ibérique

SFI2 HOF IV 1368 1234 1501SFI3 1681 1262 2100

Quercus faginea

Pyrénées SFI2 HOF V 670 . .SFI3 832 816 849

Système ibérique

SFI2 Régression logistique

1068 1053 1082SFI3 1094 1080 1108

Quercus ilex

Pyrénées SFI2 Régression logistique

370 326 414SFI3 392 348 436

Système ibérique

SFI2 HOF V 927 . .SFI3 952 . .

Quercus suber

Pyrénées SFI2 HOF IV 170 155 186SFI3 167 151 184

Système ibérique

SFI2 HOF IV 527 471 584SFI3 496 444 548

Fagus sylvatica

Pyrénées SFI2 Régression

logistique1330 1304 1357

SFI3 1296 1272 1320Système ibérique

SFI2 HOF V

1529 . .SFI3 1528 . .

Nous constatons que certaines espèces possèdent des valeurs d’optimum de gradient très

faible, comme le Quercus suber dont la valeur optimal pour le deuxième inventaire dans les

Pyrénées est de 170 m alors que pour la même période et la même localisation certaines espèces

ont des valeurs très importante, nous pouvons citer le Fagus sylvatica avec un optimum de 1330 m.

Page 38: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

38

B. Méthode bootstrap pour l’obtention de la valeur optimale du gradient d’altitude de

chaque espèce

Pour pouvoir répondre à notre problématique, nous avons mis en place la méthode du

bootstrap non paramétrique permettant d’obtenir les estimations des optimums du gradient

altitudinal de chaque espèce ainsi que leur intervalle de confiance.

Deux types d’intervalles de confiance de l’optimum du gradient ont pu être construits à

l’aide de la méthode du bootstrap : les intervalles t – bootstrapés et les intervalles des percentiles.

Au préalable, nous avons vérifié pour chaque espèce la normalité de la distribution bootstrapée

du paramètre à l’aide d’un histogramme et également d’un q – qplot.

En effet, le q – qplot (« quantile – quantile plot ») permet de comparer deux distributions.

On trace les points dont les coordonnées correspondent respectivement pour l’axe des abscisses

et des ordonnées aux valeurs des quantiles de la première distribution (la théorique, ici loi

normale) et aux quantiles de la deuxième distribution qui est celle obtenue par ajustement sur les

données.

La droite tracée sur le graphique a pour équation y = x et correspond aux points que l’on

obtiendrait dans le cas où les deux distributions seraient identiques. Ainsi plus les points sont

proches de la droite, plus l’on peut affirmer que la distribution des données bootstrapées est une

loi normale.

Le nombre de simulations effectuées à partir de chaque échantillon est de 5000 et pour

chaque itération le paramètre d’intérêt est estimé à partir du modèle d’ajustement des données

choisi précédemment par ajustement sur les données (logistique, HOF IV ou HOF V).

a. Données du deuxième inventaire dans les Pyrénées

Les résultats sont détaillés pour l’une des espèces d’intérêt : Quercus petraea. Les données ont

été bootstrapées 5000 fois et pour chaque nouvel échantillon, nous avons estimé les différents

paramètres du modèle d’ajustement HOF V et obtenu par conséquent l’optimum.

Page 39: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

39

La distribution des estimations des optimums obtenues semble être normale (figure 7), ce

qui a été vérifié par à l’aide d’un q-qplot (figure 8) :

Figure 7 : Histogramme des optimums du gradient d’altitude de Quercus Petraea

estimés pour chaque échantillon du bootstrap

Figure 8 : Q – qplot des quantiles de la loi normale et des valeurs de l’optimum

La valeur de l’estimation de notre paramètre d’intérêt correspond à la moyenne de la

distribution bootstrapée. Ainsi l’optimum altitudinal du chêne sessile (Quercus petraea) dans les

Pyrénées lors du deuxième inventaire est de 1197 m. Cette valeur est tout à fait cohérente avec

celle obtenue lors de l’estimation des paramètres effectuée sur les données initiales (1196 m,

tableau 7).

Quercus petraea sfi2

Effec

tif

0

100

200

300

400

500

600

700

800

900

1000

1100

Optimum

1020

1050

1080

1110

1140

1170

1200

1230

1260

1290

1320

1350

1380

1410

1440

1470

1500

1530

1560

1590

1620

1650

1680

1710

1740

1770

1800

Quercus petraea sfi2

-4 -2 0 2 4

1000

1200

1400

1600

1800

Opt

imum

Quantiles de la loi normale

Page 40: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

40

De la même manière pour chaque espèce, nous avons vérifié les hypothèses de normalité

de la distribution du paramètre estimé (annexe D) et nous avons calculé les intervalles de

confiance qui sont notés dans le tableau 8 (dois – je conserver les deux types d’intervalles ? lequel

vous semble le plus juste ?) :

Tableau 8 : Estimations de la valeur du paramètre et de son intervalle de confiance pour

les espèces végétales des Pyrénées du deuxième inventaire

Intervalles de confiance SFI 2 Pyrénées Paramètres Percentiles t-bootstrapés

Espèces Moyenne Ecart type 2,50% 97,50% Borne inférieure Borne supérieure

Quercus petraea 1198 60,05 1085 1302 1074 1322Quercus faginea 681 38,46 642 774 601 760Quercus ilex 364 40,47 265 424 281 448Quercus suber 167 32,92 96 187 100 235Fagus sylvatica 1329 18,88 1295 1370 1290 1368

Les intervalles de confiance t – bootstrapés ont été obtenus en utilisant le quantile de la loi de Student pour un risque 5% et 1 24.

A noter que nous avons rencontré un problème lors de l’estimation des paramètres de

certains échantillons bootstrapés. En effet, nous obtenons dans certains cas soit des valeurs

négatives pour le gradient d’altitude, soit des valeurs supérieures à 2450 m alors qu’aucune

parcelle, où les données ont été prélevées, ne se situe à une altitude plus importante. Cela est du

à une mauvaise optimisation du paramètre lors de l’appel de la proc nlmixed puisque pour certaines

itérations il n’y a pas de convergence vers le paramètre souhaité. Nous avons donc décidé, pour

ces tirages bootstrap, de ne pas inclure les paramètres estimés et l’optimum du gradient

correspondant dans la table permettant d’obtenir la distribution de l’optimum. (est – ce

correct d’exclure des valeurs inférieures à 0 et supérieures à l’altitude max ?) Ceci est réalisé

également pour la méthode de bootstrap appliquée aux échantillons du troisième inventaire pour

les Pyrénées et pour les données du système ibérique.

Les estimations de l’altitude optimum de chaque espèce sont très proches de celles

obtenues par ajustement sur les données initiales. Ainsi nous pouvons justifier que les intervalles

de confiance du paramètre recherché, au risque de 5%, sont corrects.

Page 41: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

41

b. Données du troisième inventaire dans les Pyrénées

Nous avons déterminé les valeurs des optimums d’altitude et construit leurs intervalles de

confiance des cinq espèces végétales présentes dans les Pyrénées pour le troisième inventaire de la

même façon que précédemment. De même, une vérification de la normalité des distributions de

l’optimum du gradient bootstrapées (annexe E) indique que la normalité est justifiée pour les cinq

espèces ; nous obtenons alors les intervalles de confiance suivants (tableau 9) :

Tableau 9 : Estimations de la valeur du paramètre et de son intervalle de confiance pour

les espèces végétales des Pyrénées du troisième inventaire

Intervalles de confiance SFI 3 Pyrénées

Paramètres Percentiles t-bootstrapés

Espèces Moyenne Ecart type

2,50% 97,50% Borne inférieure Borne supérieure

Quercus petraea 1240 78,77 1104 1422 1077 1403Quercus faginea 833 17,72 798 869 796 870Quercus ilex 393 23,34 347 438 345 441Quercus suber 165 33,41 88 192 96 234Fagus sylvatica 1295 17,66 1260 1330 1259 1331

Les optimums obtenus à l’aide du bootstrap sont à nouveau très proches de ceux obtenus

sur les données réelles, ce qui justifie l’exactitude de nos intervalles de confiance.

c. Données du deuxième inventaire dans le système ibérique

On traite les données du deuxième inventaire du système ibérique selon la même méthode

que celle utilisée pour les données des Pyrénées. La normalité et un faible biais des distributions

bootstrapés (annexe F) sont vérifiés, nous obtenons alors les intervalles de confiance obtenus

suivants (tableau 10) :

Page 42: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

42

Tableau 10 : Estimations de la valeur du paramètre et de son intervalle de confiance pour

les espèces végétales du système ibérique du deuxième inventaire

Intervalles de confiance SFI 2 Système ibérique

Paramètres Percentiles t-bootstrapés

Espèces Moyenne Ecart type

2,50% 97,50% Borne inférieure

Borne supérieure

Quercus petraea 1365 54,74 1236 1463 1250 1479Quercus faginea 1068 10,43 1050 1090 1047 1090Quercus ilex 941 36,87 909 1047 864 1017Quercus suber 527 40,16 453 594 444 611Fagus sylvatica 1546 58,06 1462 1718 1425 1667

Les intervalles de confiance t – bootstrapés ont été obtenus en utilisant le quantile de la loi de Student pour un risque 5% et 1 20.

Ici également, on constate que les optimums obtenus par bootstrap sont très proches de ceux

obtenus par la modélisation des données et l’optimisation des paramètres puisque dans le cas du

Quercus petraea, par exemple, on obtient des valeurs de l’optimum altitudinal de 1368 m et 1365 m

par la proc nlmixed et par le bootstrap, respectivement.

d. Données du troisième inventaire dans le système ibérique

Enfin nous obtenons les intervalles de confiance (tableau 11) du gradient altitudinal

optimum des espèces situées dans le système ibérique pour le troisième inventaire puisque la

distribution du paramètre est normale (annexe G) :

Tableau 11 : Estimations de la valeur du paramètre et de son intervalle de confiance pour

les espèces végétales du système ibérique du troisième inventaire

Intervalles de confiance SFI 3 Système ibérique

Paramètres Percentiles t-bootstrapés

Espèces Moyenne Ecart type

2,50% 97,50% Borne inférieure Borne supérieure

Quercus petraea 1667 203,94 1352 2153 1241 2092Quercus faginea 1095 13,87 1072 1125 1067 1124Quercus ilex 964 33,8 933 1063 894 1035Quercus suber 497 32,26 440 563 430 565Fagus sylvatica 1545 56,25 1459 1715 1427 1661

Page 43: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

43

Nous avons donc pu mettre en place à l’aide du bootstrap les intervalles de confiance du

gradient altitudinal pour les différentes espèces. A noter que les valeurs des intervalles de

confiance du paramètre d’intérêt bootstrapés sont proches de ceux obtenus par la modélisation

des données effectués sans bootstrap lorsque leur calcul est possible, c’est-à-dire dans le cadre des

modèles de régression logistique et de HOF IV.

Cependant le principal objectif étant d’évaluer les conséquences du facteur climatique sur la

niche écologique de chaque espèce, il est nécessaire de comparer les valeurs du gradient optimal

d’une espèce pour les deux inventaires.

C. Comparaison des gradients d’altitude des espèces végétales pour les deux inventaires

Le test des permutations mis en place nous a permis de comparer les altitudes optimums

pour chaque espèce végétale entre les deux périodes d’étude.

Tout comme pour l’obtention des intervalles de confiance nous avons rencontré un

problème lors de l’optimisation du paramètre d’intérêt au cours de certaines itérations du

bootstrap. De ce fait, nous avons supprimé les observations concernant les estimations des

paramètres qui ne sont pas correctes, c’est – à – dire lorsque le gradient d’altitude estimé, d’au

moins un des deux échantillons que nous souhaitons comparer, est inférieur à 0 ou supérieur à

2500 m. La statistique du test des permutations ne portent alors que sur les paramètres

valides.(vérifier si l’on peut faire cela)

Les résultats obtenus, probabilité critique associée au test, par le test des permutations sont

présentés dans le tableau 12.

Tableau 12 : Probabilités critiques obtenues pour le test des permutations pour chaque

espèce et par localisation

Espèces Pyrénées Système ibérique

Quercus petraea 0,4223 0,0993 Quercus faginea 0,1049 0,0844

Quercus ilex 0,3105 0,2364

Quercus suber 0,5817 0,7357

Fagus sylvatica 0,8960 0,5121

Page 44: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

44

Nous remarquons que toutes les probabilités critiques du test des permutations sont

supérieures à 0.05. On ne rejette donc l’hypothèse H0 pour aucune espèce et on ne peut pas

conclure qu’il existe une différence significative entre l’optimum d’altitude du deuxième

inventaire avec celui du troisième inventaire pour toutes les espèces.

Cependant il est intéressant de remarquer que les probabilités critiques obtenues pour le

Quercus petraea et le Quercus faginea dans le système ibérique sont inférieures à 0.10, ainsi si l’on

avait choisi un risque de première espèce 10%, on aurait rejeté l’hypothèse nulle et on aurait

conclut qu’il existe un facteur influençant la modification de la niche écologique de ces espèces.

Néanmoins au vu des estimations de l’optimum altitudinal obtenues sur les échantillons initiaux,

une différence évidente entre les deux optimums apparaît seulement pour le Quercus petraea situé

dans le système ibérique (tableau 13).

Tableau 13 : Différence entre les optimums du gradient d'altitude entre SFI2 et

SFI3 pour les Pyrénées et le système ibérique

Espèce Pyrénées Système ibérique

Quercus petraea 36 313Quercus faginea 162 26Quercus ilex 22 25Quercus suber -3 -31Fagus sylvatica -34 -1

Page 45: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

45

DISCUSSION ET CONCLUSION

L’étude de la répartition des espèces végétales, situées dans une zone montagneuse, le

long d’un gradient d’altitude, repose sur la modélisation des données d’échantillonnage dans le

but d’obtenir la valeur optimale de ce gradient. En effet, l’influence des modifications des facteurs

climatiques de ces dernières années pourrait être mise en évidence lors de la comparaison des

optimums du gradient sur deux périodes données. Pour étudier ce phénomène, les données, dont

nous disposons, ont été prélevées au cours de deux inventaires effectués en Espagne dans la

chaîne montagneuse des Pyrénées et dans celle du système ibérique avec un écart dans le temps

de 12 ans. De plus seules les données de cinq espèces ont été étudiées à savoir celles du chêne

sessile, du chêne faginé, du chêne vert, du chêne liège et du hêtre européen.

Nous avons constaté lors de la modélisation que la distribution de la répartition de chaque

espèce le long d’un gradient n’est pas toujours symétrique et tend à être asymétrique. Dans le cas

d’une distribution symétrique, les données sont ajustées par le modèle logistique et le modèle

HOF IV. Cependant pour ajuster une distribution des données asymétrique, il est nécessaire

d’utiliser un des modèles défini par Huisman, Olff et Fresco qui s’adapte tout à fait à cette

situation : le modèle HOF V.

Néanmoins bien que ce dernier modèle soit défini et ses paramètres estimés au cours

d’une procédure d’optimisation, nous ne pouvons pas déterminer les intervalles de confiance de

l’optimum du gradient altitudinal. Ce qui est pourtant possible dans le cas des deux autres

modèles appliqués. Par ailleurs, il ne nous ait pas possible de tester l’égalité de l’optimum du

gradient évalué pour deux inventaires et ceci quel que soit le modèle.

Pour résoudre ce problème, nous avons décidé d’appliquer une méthode par bootstrap

aux données de chaque espèce pour l’obtention des valeurs de leur gradient d’altitude optimal

mais également de l’intervalle de confiance de ce paramètre. La modélisation de chaque

échantillon bootstrapé est effectuée à partir du modèle ajustant le mieux les données initiales dont

le choix a été défini grâce au critère d’information d’Akaike.

Page 46: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

46

Les valeurs des optimums des gradients altitudinaux obtenues, à partir de la méthode du

bootstrap, sont tout à fait cohérentes avec celles issues de la modélisation des échantillons

initiaux. De plus, pour chaque valeur nous obtenons deux types d’intervalles de confiance : « t –

bootstrapés » et les intervalles reposant sur les percentiles de la distribution des valeurs de

l’optimum bootstrapé. Cependant il est intéressant de se demander quel type d’intervalle de

confiance est le plus fiable, ce que nous n’avons pas déterminé au cours de cette analyse.

Quant à la comparaison des optimums des deux inventaires espagnols d’une espèce, nous

avons mis en œuvre le test des permutations. Il en ressort qu’aucune différence significative ne

peut être mise en évidence si l’on considère un risque de première espèce égale à 5%. Cela peut

être justifié par le fait que les inventaires sont rapprochés dans le temps et que les niches

écologiques n’ont pas encore connu de modifications conséquentes en 12 ans. Bien que les

conséquences des modifications du facteur climatique ne sont pas clairement mises en évidence

au cours de ce test, nous constatons cependant que l’altitude, où la présence du chêne sessile et

du chêne faginé est la plus importante, tend à augmenter. On peut supposer qu’une analyse

reposant sur l’étude de gradients optimums de deux périodes plus éloignées dans le temps

permettrait d’établir plus clairement si il existe ou non réellement un changement au sein des

niches écologiques de chaque espèce en réponse aux élévations de températures au cours du

temps.

Page 47: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

47

BIBLIOGRAPHIE

LLIIVVRREESS

‐ Gilbert Saporta, Probabilités, Analyse des données et Statistiques, Edition Technip, 2ème édition

revue et augmentée

‐ Alan Agresti, Categorical data analysis, Edition Wiley – Interscience, 2ème édition (à noter

en anglais ou en francais ?)

‐ A.C Davison, D.V. Hinkley, Bootstrap Methods and their application, Edition Cambridge

University Press

‐ P. McCullagh, J.A. Nelder, Generalized Linear Models, Edition Chapman & Hall/CRC,

2ème édition

AARRTTIICCLLEESS

‐ J. Huisman, H. Olff, L. F. M. Fresco, A hierarchical set of models for species response analysis,

Journal of Vegetation Science 4 : 37 – 46 (IAVS Oppulus Press Uppsala, printed in

Sweden), 1993

‐ J. E.Lawesson, J. Oksanen, Niche characteristics of Danish woody species as derived from coenoclines,

Journal of Vegetation Science 13 : 279 – 290 (IAVS Oppulus Press Uppsala, printed in

Sweden), 2002

‐ J. Lenoir, J. C. Gégout, P. A. Marquet, P. de Ruffray, H. Brisse, A significant upward shift in

plant species optimum elevation during the 20th century, Science, Volume 320, 1768 (2008),

DOI : 10.1126/science.1156831, 27 juin 2008

‐ D. D. Breshears, T. E. Huxman, H. D. Adams, C. B. Zou, J. E. Davison, Vegetation

synchronously leans upslope as climate warms, PNAS (Proceedings of the National Academy of

Sciences), volume 105 N° 33, 19 août 2008

‐ D.D. Boos, Introduction to the bootstrap world, Statistical Science, volume 17 N°2, 168 –

174, 2003

‐ C. A. Field, A. H. Welsh, Bootstraping clustering data, Royal Statistical Society B, volume

3, 369 – 390, 2007

Page 48: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

48

SSIITTEESS IINNTTEERRNNEETT

‐ J. Oksanen, P. R. Minchin, Non – linear maximum likelihood estimation of beta and HOF

response models, section hof3.pdf sur le site University of OULU.

Consulté le 17 juin 2010.

http://cc.oulu.fi/~jarioksa/softhelp/hof3.pdf

‐ A. Papanicolaou, Taylor approximation and the delta method, section

TaylorAppDeltaMethod.pdf sur le site Stanford University.

Consulté le 3 juin 2010.

http://www.phidot.org/software/mark/docs/book/pdf/app_2.pdf

‐ The ‘Delta Method’…, section app_2.pdf sur le site www.phidot.org.

Consulté le 2 juin 2010.

http://www.phidot.org/software/mark/docs/book/pdf/app_2.pdf

‐ J. Xu, J. S. Long, Using the Delta Method to Construct Confidence Intervals for Predicted

Probabilities, Rates, and Discrete Changes, section spost_deltaci.pdf sur le site Indiana

University.

Consulté le 3 juin 2010.

http://www.indiana.edu/~jslsoc/stata/ci_computations/spost_deltaci.pdf

‐ Estimation de modèles non linéaires, section non_lin.pdf sut le site UCL Institut de

statistique, biostatistique et sciences actuarielles.

Consulté le 7 juin 2010.

http://www.stat.ucl.ac.be/cours/stat2430/documents/non_lin.pdf

‐ La sélection de modèles, section chap5.pdf sur le site ESPCI.

Consulté le 17 août 2010.

http://www.neurones.espci.fr/Theses_PS/Stoppiglia_H/chap5.pdf

‐ Introduction aux modèles linéaires généralisés, section IntroMLG.pdf sur le site Agro Campus

Ouest.

Consulté le 30 août 2010.

http://www.agrocampus-ouest.fr/math/causeur/PDF/IntroBiostatistics/IntroMLG.pdf

‐ N. Barker, A pratical introduction to the bootstrap using the SAS system, section pk02.pdf sur le

site Lex Jansen’s homepage.

Consulté le 18 juin 2010.

http://www.lexjansen.com/phuse/2005/pk/pk02.pdf

Page 49: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

49

‐ Une introduction au bootstrap, section ch16.pdf sur le site IUMSP.

Consulté le 02 juin 2010.

http://www.iumsp.ch/Unites/us/Alfio/polybiostat/ch16.pdf

‐ C. J. Swanepoel, The teaching and pratical implementation of the non - parametric bootstrap, section

3g1_cswa.pdf sur le site Department of statistics, the University of Auckland.

Consulté le 17 juin 2010.

http://www.stat.auckland.ac.nz/~iase/publications/1/3g1_cswa.pdf

‐ D. L. Cassel, Don’t be loopy : re – sampling and simulation the SAS® way, section 183-2007.pdf

sur le site SAS.

Consulté le 15 juin 2010.

http://www2.sas.com/proceedings/forum2007/183-2007.pdf

‐ T. Hesterberg, D. Moore, S. Monaghan, A. Clipson, R. Epstein, Bootstrap Methods and

permutation tests, section moore14.pdf sur le site bcs.whfreeman.

Consulté le 3 août 2010.

http://bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf

Page 50: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

50

TABLE DES FIGURES ET TABLEAUX

Figure 1 : Changements dans les concentrations atmosphériques de gaz carbonique (CO2), de

méthane (CH4) et d’oxyde nitreux (N2O) ces 1000 dernières années. (IPCC 2007) .... 10 

Figure 2 : Variations année par année (courbe gris foncé) et variations moyennes sur 50 ans

(courbe bleue) de la température moyenne à la surface dans l'hémisphère Nord au

cours des 1000 dernières années (écarts à la moyenne de 1961-1990). (IPCC 2007) .... 11 

Figure 3 : Exemples théoriques de type de déplacements de la distribution d’espèce le long d’un

gradient d’altitude en réponse au réchauffement climatique. (Breshear et al. 2008) ...... 13 

Figure 4 : Ensemble des 5 modèles de HOF ......................................................................................... 28 

Figure 5 : Ajustement de la probabilité de présence du Quercus petraea de SFI2 dans les Pyrénées 34 

Figure 6 : Ajustement de la probabilité de présence du Quercus petraea de SFI3 dans les Pyrénées 34 

Figure 7 : Histogramme des optimums du gradient d’altitude de Quercus Petraea estimés pour

chaque échantillon du bootstrap ........................................................................................... 39 

Figure 8 : Q – qplot des quantiles de la loi normale et des valeurs de l’optimum ............................ 39 

Page 51: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

51

Tableau 1 : Extrait de la PYRSFI2 initiale contenant les données des Pyrénées pour le deuxième inventaire ................................................................................................................................ 17 

Tableau 2 : Extrait de la table PYRSFI2 modifiée ................................................................................. 18 

Tableau 3 : Table especes.s42pyrsfi2 contenant les données concernant le chêne sessile pour le deuxième inventaire espagnol effectué dans les Pyrénées. ............................................. 19 

Tableau 4 : Nombre de placettes présentant l’espèce étudiée, par zone d’étude et inventaire forestier ................................................................................................................................... 20 

Tableau 5 : Critère AIC obtenu par la modélisation des données des Pyrénées. .............................. 33 

Tableau 6 : Critère AIC obtenu par la modélisation des données du système ibérique ................... 35 

Tableau 7 : Optimums et intervalles de confiance du gradient d’altitude obtenus à partir de la modélisation des données .................................................................................................... 37 

Tableau 8 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales des Pyrénées du deuxième inventaire ................................................. 40 

Tableau 9 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales des Pyrénées du troisième inventaire .................................................. 41 

Tableau 10 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales du système ibérique du troisième inventaire ...................................... 42 

Tableau 11 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales du système ibérique du troisième inventaire ...................................... 42 

Tableau 12 : Probabilités critiques obtenues pour le test des permutations pour chaque espèce et par localisation ....................................................................................................................... 43 

Tableau 13 : Différence entre les optimums du gradient d'altitude entre SFI2 et SFI3 pour les Pyrénées et le système ibérique ........................................................................................... 44 

Page 52: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

52

TABLE DES ANNEXES

Annexe A : Programmes SAS ..................................................................................................................... 1 

Annexe B : Ajustements de la probabilité de présence de chaque espèce pour les deux inventaires

des Pyrénées ........................................................................................................................... 13 

Annexe C : Ajustements de la probabilité de présence de chaque espèce pour les deux inventaires

du système ibérique .............................................................................................................. 15 

Annexe D : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des

données bootstrapées des espèces végétales des Pyrénées du deuxième inventaire ... 17 

Annexe E : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des

données bootstrapées des espèces végétales des Pyrénées du troisième inventaire .... 19 

Annexe F : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des

données bootstrapées des espèces végétales du système ibérique du deuxième

inventaire ................................................................................................................................ 21 

Annexe G : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des

données bootstrapées des espèces végétales du système ibérique du troisième

inventaire ................................................................................................................................ 23 

Page 53: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

1

ANNEXES

Annexe A : Programmes SAS

/******************************************/ /* PROGRAMME 1 */ /*A faire compiler en premier */ /******************************************/ /* Analyse de la base de données des gradients d'espèces d'arbres en Espagne */ /******************************************/ /* Création de 01-macros.sas */ /*---------------------------------------*/ /* Programme réalisé par AE le 15/06/10 */ /* Modifié le 16/09/2010 */ /******************************************/ options linesize = 75 pagesize = 66 nodate number; /* Appel de la librairie contenant les macros*/ libname macro "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\stock"; /*libname macro "C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\stock";*/ /* Déclare que l'utilisation des macros se fait à partir de la librairie macro*/ options sasmstore = macro mstored; /* Appel de la librairie contenant la table de données*/ libname grad "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\tables\gradients_init"; /*libname grad 'C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\tables\gradients_init';*/ /* Appel de la librairie contenant les tables par espèces*/ libname especes 'C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\tables\especes'; /*libname especes 'C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\tables\especes';*/ /* Appel de la librairie contenant les tables des intervalles de confiance de l'optimum de chaque espèce*/ libname ic 'C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\tables\ic'; /*libname ic 'C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\tables\ic';*/ /* Appel de la librairie contenant les résultats du test des permutations*/ libname test 'C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\tables\test';

/*libname test 'C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\tables\test';*/ /******************************************/ /*Creation de la macro procédure %importation*/ /*-------------------------------------------*/ /* Permet d'importer les tables de données excel en spécifiant la table de sortie SAS, le chemin d'accès et le nom de fichier, ainsi que la feuille du fichier contenant les données. */ /******************************************/ %macro importation(tab,fichier,feuille)/store; proc import OUT = &tab DATAFILE = &fichier DBMS = EXCEL REPLACE; SHEET = &feuille; GETNAMES = YES; MIXED = NO; SCANTEXT = YES; USEDATE = YES; SCANTIME = YES; run; %mend importation; /******************************************/ /* Creation de la macro procédure %classe */ /*-----------------------------------------*/ /*Permet de créer les classes d'altitude auxquelles chaque placette appartient. */ /******************************************/ %macro classe(tab)/store; data &tab; set &tab; if altitude ge 0 & altitude lt 100 then altitudec = 50; else if altitude ge 100 & altitude lt 200 then altitudec = 150; else if altitude ge 200 & altitude lt 300 then altitudec = 250; else if altitude ge 300 & altitude lt 400 then altitudec = 350; else if altitude ge 400 & altitude lt 500 then altitudec = 450; else if altitude ge 500 & altitude lt 600 then altitudec = 550; else if altitude ge 600 & altitude lt 700 then altitudec = 650; else if altitude ge 700 & altitude lt 800 then altitudec = 750; else if altitude ge 800 & altitude lt 900 then altitudec = 850; else if altitude ge 900 & altitude lt 1000 then altitudec = 950; else if altitude ge 1000 & altitude lt 1100 then altitudec = 1050; else if altitude ge 1100 & altitude lt 1200 then altitudec = 1150; else if altitude ge 1200 & altitude lt 1300 then altitudec = 1250; else if altitude ge 1300 & altitude lt 1400 then altitudec = 1350; else if altitude ge 1400 & altitude lt 1500 then altitudec = 1450;

Page 54: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

2

else if altitude ge 1500 & altitude lt 1600 then altitudec = 1550; else if altitude ge 1600 & altitude lt 1700 then altitudec = 1650; else if altitude ge 1700 & altitude lt 1800 then altitudec = 1750; else if altitude ge 1800 & altitude lt 1900 then altitudec = 1850; else if altitude ge 1900 & altitude lt 2000 then altitudec = 1950; else if altitude ge 2000 & altitude lt 2100 then altitudec = 2050; else if altitude ge 2100 & altitude lt 2200 then altitudec = 2150; else if altitude ge 2200 & altitude lt 2300 then altitudec = 2250; else if altitude ge 2300 & altitude lt 2400 then altitudec = 2350; else if altitude ge 2400 & altitude lt 2500 then altitudec = 2450; run; %mend classe; /******************************************/ /* Creation de la macro procédure %tabespece */ /*-------------------------------------------*/ /* Permet de créer les tables par espèce et campagne afin d'effectuer le bootstrap */ /******************************************/ %macro tabespece(tabcampagne,espece,tabfin)/store; /* Obtention du nombre de placettes avec présence ou absence de l'espèce étudiée*/ /* Création de la table essai*/ proc freq data = &tabcampagne noprint; table &espece * altitudec / chisq out = essai nocol norow nopercent; run; /* Obtention du nombre de placettes par altitude*/ /* Création de la table essai1*/ proc freq data = &tabcampagne noprint; table altitudec / chisq out = essai1 nocol norow nopercent; run; /* Création de la table permettant de calculer les probas pour s42*/ data l; set essai; where &espece = 0; keep altitudec absence; absence = count; run; data k; set essai; where &espece = 1; keep altitudec presence; presence = count; run; /* Porcédure de tri pour pouvoir effectuer le merge*/ proc sort data = l; by altitudec; run; proc sort data = k; by altitudec; run;

data &tabfin; merge l k essai1; drop percent; by altitudec; if absence = . then absence = 0; if presence = . then presence = 0; p = presence / (absence + presence); /*proba de présence calculée d'une première facon*/ /*p1 = presence / count; proba de présence*/ run; %mend tabespece; /******************************************/ /* Creation de la macro procédure %log */ /*--------------------------------------*/ /* Permet d'obtenir l'optimum du gradient en ajustant les données par une régression logistique */ /******************************************/ /* ajustement par max de vraisemblance du modèle logistique sur présence/abs*/ %macro log(fichier,table,nbiter,b0,b1,b2,var,totplot,titre)/store; title &titre; ods output ParameterEstimates (persist) = par&var; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\fit\&fichier"; proc nlmixed data = &table maxiter = &nbiter; /* initialisation des paramètres de la régression pour l'algorithme d'optimisation*/ parms beta0 = &b0 beta1 = &b1 beta2 = &b2; eta = beta0 + (altitudec / 10000) * beta1 + beta2 * ((altitudec ** 2) / 10000); expeta = exp(eta); /* probabilité de succès en fonction de l'altitude*/ p = expeta / (1 + expeta); /* spécifie le modèle de la variable expliquée en fonction des effets*/ model &var ~ binomial(&totplot,p); predict p out = res&var; /* obtention de l'optimum en fonction des paramètres obtenus par optimisation*/ estimate 'opt' - beta1 / 2 / beta2; run; data e; set res&var; residus = p - pred; label residus = "Résidus"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; symbol1 v = dot c = black h = 2 pct i = none; axis2 label = ( "Quantiles de la loi normale") minor = none; proc univariate data = e;

Page 55: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

3

qqplot residus / normal (mu = est sigma = est color = red) haxis = axis2; var residus; run; ods output close; ods rtf close; %mend log; /******************************************/ /*Creation de la macro procédure %graph_log */ /*---------------------------------------*/ /* Permet de tracer la courbe d'ajustement des données obtenue par une régression logistique */ /******************************************/ %macro graph_log(fichier,var,titre)/store; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\fit\&fichier"; data res&var; set res&var; label altitudec = 'Altitude'; label p = "Probabilité de présence"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; proc gplot data = res&var; title &titre; axis1 label = (angle = 90); plot (p pred) * altitudec / overlay vaxis = axis1; symbol1 v = triangle c = black h = 3 pct i = none; symbol2 v = dot c = blue h = 3 pct i = none; run; quit; ods rtf close; %mend graph_log; /******************************************/ /*Creation de la macro procédure %hof4 */ /*---------------------------------------------*/ /* Permet d'obtenir l'optimum du gradient en ajustant les données par le modèle 4 de HOF */ /******************************************/ %macro hof4(fichier,table,nbiter,a,b,c,var,totplot,titre)/store; title &titre; /* Création de la table de sortie des paramètres de l'ajustement par modèle HOF IV*/ ods output ParameterEstimates (persist) = Param&var; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\fit\&fichier"; /* Ajustement par max de vraisemblance du modèle HOF IV*/ proc nlmixed data = &table maxiter = &nbiter;

parms a = &a b = &b c = &c; p = 1 / (1 + exp(a + b * altitudec)) / (1 + exp(c - b * altitudec)); model &var ~ binomial(&totplot,p); predict p out = resu&var; estimate 'opt' (c - a) / (2 * b); run; data e; set resu&var; residus = p - pred; label residus = "Résidus"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; symbol1 v = dot c = black h = 2 pct i = none; axis2 label = ( "Quantiles de la loi normale") minor = none; proc univariate data = e; qqplot residus / normal (mu = est sigma = est color = red) haxis = axis2; var residus; run; ods output close; ods rtf close; %mend hof4; /******************************************/ /*Creation de la macro procédure %graph_hof4 */ /*-------------------------------------------*/ /* Permet de tracer la courbe d'ajustement des données obtenue par le modèle 4 de HOF */ /******************************************/ %macro graph_hof4(fichier,var,titre)/store; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\fit\&fichier"; data resu&var; set resu&var; label altitudec = 'Altitude'; label p = "Probabilité de présence"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; proc gplot data = resu&var; title &titre; axis1 label = (angle = 90) ; plot (p pred) * altitudec / overlay vaxis = axis1 ; symbol1 v = triangle c = black h = 3 pct i = none; symbol2 v = dot c = blue h = 3 pct i = none; run; quit; ods rtf close; %mend graph_hof4;

Page 56: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

4

/******************************************/ /*Creation de la macro procédure %hof5 */ /*--------------------------------------------*/ /*Permet d'obtenir l'optimum du gradient en ajustant les données par le modèle 5 de HOF */ /******************************************/ %macro hof5(fichier,table,nbiter,a,b,c,d,var,totplot,titre)/store; title &titre; /* Création de la table de sortie des paramètres de l'ajustement par modèle HOF IV*/ ods output ParameterEstimates (persist) = param&var; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\fit\&fichier"; /* Ajustement par max de vraisemblance du modèle HOF IV*/ proc nlmixed data = &table maxiter = &nbiter; parms a = &a b = &b c = &c d = &d; p = 1 /(1 + exp(a + b * altitudec)) / (1 + exp(c + d * altitudec)); model &var ~ binomial(&totplot,p); predict p out = resul&var; run; data e; set resul&var; residus = p - pred; label residus = "Résidus"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; symbol1 v = dot c = black h = 2 pct i = none; axis2 label = ( "Quantiles de la loi normale") minor = none; proc univariate data = e; qqplot residus / normal (mu = est sigma = est color = red) haxis = axis2; var residus; run; ods output close; ods rtf close; /* Obtention de la table contenant les paramètres a, b, c et d estimés*/ proc transpose data = param&var out = param&var; var estimate; run; data param&var; set param&var; drop _name_ _label_; rename col1 = a col2 = b col3 = c col4 = d; run; /* Obtention de l'estimation de l'optimum*/ proc model data = param&var noprint; eq.opt = - b * exp(a + b * x) * (1 + exp(c + d * x)) - d * exp(c + d * x) * (1 + exp(a + b * x));

solve x / solveprint out = opt&var; run; quit; %mend hof5; /******************************************/ /* Creation de la macro procédure %graph_hof5 */ /*-------------------------------------------*/ /* Permet de tracer la courbe d'ajustement des données obtenue par le modèle 5 de HOF */ /******************************************/ %macro graph_hof5(fichier,var,titre)/store; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\fit\&fichier"; data resul&var; set resul&var; label altitudec = 'Altitude'; label p = "Probabilité de présence"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; proc gplot data = resul&var; title &titre; axis1 label = (angle = 90); plot (p pred) * altitudec / overlay vaxis = axis1 ; symbol1 v = triangle c = black h = 3 pct i = none; symbol2 v = dot c = blue h = 3 pct i = none; run; quit; ods rtf close; %mend graph_hof5; /******************************************/ /*Creation de la macro procédure %bootstrap_reg*/ /*--------------------------------------------*/ /*Méthode de bootstrap permettant d'obtenir l'estimation des paramètres a,b,c et optimum, ainsi que l'IC de l'optimum en utilisant le modèle HOF 4 */ /******************************************/ %macro bootstrap_reg (tabentree,nb_repet,beta0,beta1,beta2,iter,tab_ic,fichier,titre,talpha)/store; title &titre; /* Cette option permet de stocker provisoirement la table sur laquelle le bootstrap est effectué afin*/ /* de faciliter la procédure.*/ sasfile &tabentree load; proc surveyselect data = &tabentree out = outboot /*table de sortie contenant les échantillons bootstrapés*/ method = urs /* La méthode urs signifie Unrestricted Random Sampling qui est en fait un tirage de nombres aléatoires avec remise.*/ samprate = 1 /* spécifie le taux d'échantillonnage*/ outhits /* indique le nombre de fois où l'individu a été tiré lors d'un même tirage*/

Page 57: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

5

rep = &nb_repet; /* Nombre de répétition*/ run; sasfile &tabentree close; /* Procédure d'optimisation des paramètres a, b, c et de l'optimum selon le modèle HOF 4 effectuée pour chaque échantillon bootstrapé*/ ods output ParameterEstimates (persist) = param; proc nlmixed data = outboot maxiter = &iter; /* initialisation des paramètres de la régression pour l'algorithme d'optimisation*/ parms beta0 = &beta0 beta1 = &beta1 beta2 = &beta2; eta = beta0 + (altitudec / 10000) * beta1 + beta2 * ((altitudec ** 2) / 10000); expeta = exp(eta); /* probabilité de succès en fonction de l'altitude*/ p = expeta / (1 + expeta); /* spécifie le modèle de la variable expliquée en fonction des effets*/ model presence ~ binomial(count,p); predict p out = resu; by replicate; /* obtention de l'optimum en fonction des paramètres obtenus par optimisation*/ estimate 'opt' - beta1 / 2 / beta2; run; ods output close; /* Obtention de la table contenant les estimations des paramètres a, b et c*/ proc transpose data = param out = estimation (keep = replicate _label_ col1 col2 col3); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data estimation (drop = col1 col2 col3); set estimation; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ beta0 = col1; beta1 = col2; beta2 = col3; opt = - beta1 / 2 / beta2; run; data estimation; set estimation; where opt gt 0 and opt le 2500; label opt = 'Optimum'; run; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\bootstrap\&fichier"; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 6 htext = 3; symbol1 v = dot c = black h = 2 pct i = none; axis1 label = (angle = 90 "Effectif"); axis2 label = ("Optimum"); axis3 label = ("Quantiles de la loi normale") /*minor = none*/; /* Histogramme de l'optimum*/ proc gchart data = estimation;

vbar opt / width = 10 levels = 8 nolegend raxis = axis1 gaxis = axis2; pattern c = orange; run; /* Vérification de la normalité de la répartition de la variable optimum ainsi que sa moyenne et ses quantiles permettant d'obtenir l'IC*/ proc univariate data = estimation normal alpha = 0.05 cibasic noprint; qqplot opt / normal (mu = est sigma = est color = red) haxis = axis3; var opt; output out = opt_est mean = moyenne std = ecart; output out = quantiles pctlpts = 1 to 100 by 0.5 pctlpre = P; run; ods rtf close; /* Obtention de l'intervalle de confiance de la moyenne sachant que dans le cadre du bootstrap, l'IC est équivalent à (nb_repet*(alpha/2)) -- (nb_repet*(1-(alpha/2)))*/ data &tab_ic (keep = p2_5 p97_5 pl_t pu_t moyenne ecart);/*pl_norm pu_norm*/ retain p2_5 p97_5 pl_t pu_t moyenne ecart;/*pl_norm pu_norm*/ merge quantiles opt_est; /*pl_norm = moyenne - 1.96 * ecart;/*risque de 5%*/ /*pu_norm = moyenne + 1.96 * ecart;*/ pl_t = moyenne - &talpha * ecart;/*n-1 dl pour student au risque 5%*/ pu_t = moyenne + &talpha * ecart; run; %mend bootstrap_reg; /******************************************/ /*Creation de la macro procédure %bootstrap_hof4 */ /*------------------------------------------*/ /* Méthode de bootstrap permettant d'obtenir l'estimation des paramètres a,b,c et optimum, ainsi que l'IC de l'optimum en utilisant le modèle HOF 4 */ /******************************************/ %macro bootstrap_hof4 (tabentree,nb_repet,a,b,c,iter,tab_ic,fichier,titre,talpha)/store; title &titre; /* Cette option permet de stocker provisoirement la table sur laquelle le bootstrap est effectué afin*/ /* de faciliter la procédure.*/ sasfile &tabentree load; proc surveyselect data = &tabentree out = outboot /*table de sortie contenant les échantillons bootstrapés*/ method = urs /* La méthode urs signifie Unrestricted Random Sampling qui est en fait un tirage de nombres aléatoires avec remise.*/ samprate = 1 /* spécifie le taux d'échantillonnage*/ outhits /* indique le nombre de fois où l'individu a été tiré lors d'un même tirage*/ rep = &nb_repet; /* Nombre de répétition*/ run; sasfile &tabentree close;

Page 58: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

6

/* Procédure d'optimisation des paramètres a, b, c et de l'optimum selon le modèle HOF 4 effectuée pour chaque échantillon bootstrapé*/ ods output ParameterEstimates (persist) = Param; proc nlmixed data = outboot maxiter = 500; parms a = &a b = &b c = &c; p = 1 / (1 + exp(a + b * altitudec)) / (1 + exp(c - b * altitudec)); model presence ~ binomial(count,p); predict p out = resu; by Replicate; /* indique que l'on effectue la procédure pour chaque échantillon bootstrapé et contenu dans la table outboot*/ estimate 'opt' (c - a) / (2 * b); run; ods output close; /* Obtention de la table contenant les estimations des paramètres a, b et c*/ proc transpose data = param out = estimation (keep = replicate _label_ col1 col2 col3); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data estimation (drop = col1 col2 col3); set estimation; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ a = col1; b = col2; c = col3; opt = (c - a) / (2 * b); run; data estimation; set estimation; where opt gt 0 and opt le 2500; run; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\bootstrap\&fichier"; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 6 htext = 3; symbol1 v = dot c = black h = 2 pct i = none; axis1 label = (angle = 90 "Effectif"); axis2 label = ("Optimum"); axis3 label = ("Quantiles de la loi normale") /*minor = none*/; /* Histogramme de l'optimum*/ proc gchart data = estimation; vbar opt / width = 10 nolegend raxis = axis1 gaxis = axis2; pattern c = orange; run; /* Vérification de la normalité de la répartition de la variable optimum ainsi que sa moyenne et ses quantiles permettant d'obtenir l'IC*/ proc univariate data = estimation normal alpha = 0.05 cibasic noprint; qqplot opt / normal (mu = est sigma = est color = red) haxis = axis3; var opt; output out = opt_est mean = moyenne std = ecart;

output out = quantiles pctlpts = 1 to 100 by 0.5 pctlpre = P; run; ods rtf close; /* Obtention de l'intervalle de confiance de la moyenne sachant que dans le cadre du bootstrap, l'IC est équivalent à (nb_repet*(alpha/2)) -- (nb_repet*(1-(alpha/2)))*/ data &tab_ic (keep = p2_5 p97_5 pl_t pu_t moyenne ecart);/*pl_norm pu_norm*/ retain p2_5 p97_5 pl_t pu_t moyenne ecart;/*pl_norm pu_norm*/ merge quantiles opt_est; /*pl_norm = moyenne - 1.96 * ecart;/*risque de 5%*/ /*pu_norm = moyenne + 1.96 * ecart;*/ pl_t = moyenne - &talpha * ecart;/*n-1 dl pour student au risque 5%*/ pu_t = moyenne + &talpha * ecart; run; %mend bootstrap_hof4; /******************************************/ /* Creation de la macro procédure %bootstrap_hof5 */ /*--------------------------------------------*/ /*Méthode de bootstrap permettant d'obtenir l'estimation des paramètres a,b,c et optimum, ainsi que l'IC de l'optimum en utilisant le modèle HOF 5 */ /******************************************/ %macro bootstrap_hof5 (tabentree,nb_repet,a,b,c,d,iter,tab_ic,fichier,titre,talpha)/store; title &titre; /* Cette option permet de stocker provisoirement la table sur laquelle le bootstrap est effectué afin*/ /* de faciliter la procédure.*/ sasfile &tabentree load; proc surveyselect data = &tabentree out = outboot /*table de sortie contenant les échantillons bootstrapés*/ method = urs /* La méthode urs signifie Unrestricted Random Sampling qui est en fait un tirage de nombres aléatoires avec remise.*/ samprate = 1 /* spécifie le taux d'échantillonnage*/ outhits /* indique le nombre de fois où l'individu a été tiré lors d'un même tirage*/ rep = &nb_repet; /* Nombre de répétition*/ run; sasfile &tabentree close; /* Procédure d'optimisation des paramètres a, b, c et de l'optimum selon le modèle HOF 4 effectuée pour chaque échantillon bootstrapé*/ ods output ParameterEstimates (persist) = param; proc nlmixed data = outboot maxiter = &iter; parms a = &a b = &b c = &c d = &d; p = 1 /(1 + exp(a + b * altitudec)) / (1 + exp(c + d * altitudec)); model presence ~ binomial(count,p); predict p out = resu; by replicate; run; ods output close;

Page 59: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

7

/* Obtention de la table contenant les estimations des paramètres a, b et c*/ proc transpose data = param out = estimation (keep = replicate _label_ col1 col2 col3 col4); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data estimation (drop = col1 col2 col3 col4); set estimation; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ a = col1; b = col2; c = col3; d=col4; run; proc model data = estimation noprint; eq.opt = - b * exp(a + b * x) * (1 + exp(c + d * x)) - d * exp(c + d * x) * (1 + exp(a + b * x)); solve x / solveprint out = optimum; run; quit; data optimum; set optimum; where x gt 0 and x le 2500; label x = "Optimum"; run; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAGE\prog_dd\bootstrap\&fichier"; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 6 htext = 3; symbol1 v = dot c = black h = 2 pct i = none; axis1 label = (angle = 90 "Effectif"); axis2 label = ("Optimum") minor = none; axis3 label = ("Quantiles de la loi normale") /*minor = none*/; /* Histogramme de l'optimum*/ proc gchart data = optimum; vbar x / width = 10 nolegend raxis = axis1 gaxis = axis2; pattern c = orange; run; /* Vérification de la normalité de la répartition de la variable optimum ainsi que sa moyenne et ses quantiles permettant d'obtenir l'IC*/ proc univariate data = optimum normal alpha = 0.05 cibasic noprint; qqplot x / normal (mu = est sigma = est color = red) haxis = axis3; var x; output out = opt_est mean = moyenne std = ecart; output out = quantiles pctlpts = 1 to 100 by 0.5 pctlpre = P; run; ods rtf close; /* Obtention de l'intervalle de confiance de la moyenne sachant que dans le cadre du bootstrap, l'IC est équivalent à (nb_repet*(alpha/2)) -- (nb_repet*(1-(alpha/2)))*/

data &tab_ic (keep = p2_5 p97_5 pl_t pu_t moyenne ecart);/*pl_norm pu_norm*/ retain p2_5 p97_5 pl_t pu_t moyenne ecart;/*pl_norm pu_norm*/ merge quantiles opt_est; /*pl_norm = moyenne - 1.96 * ecart;/*risque de 5%*/ /*pu_norm = moyenne + 1.96 * ecart;*/ pl_t = moyenne - &talpha * ecart;/*n-1 dl pour student, avec n = 25 au risque 5% pour les Pyrénées, changer la valeur dans le cas du système ibérique car n = 21*/ pu_t = moyenne + &talpha * ecart; run; %mend bootstrap_hof5; /******************************************/ /*Creation de la macro procédure %test_reg */ /*-----------------------------------------*/ /* Méthode de test bootstrap permettant de comparer les optimums des distributions d'une même espèce pour deux inventaires. */ /******************************************/ %macro test_reg(tabsfi2,tabsfi3,nb_repet,beta0,beta1,beta2,iter,diff,stat_test)/store; /* Création des tables provisoires des données de chaque espèces pour chaque inventaire contenant la variable spécifiant le numéro de l'inventaire.*/ data tab1; set &tabsfi2; sfi2 = 2; run; data tab2; set &tabsfi3; sfi3 = 3; run; /* Création de la table regroupant les deux inventaires de chaque espèce*/ data combine (drop = sfi2 sfi3); set tab1 tab2; if sfi2 eq 2 then sfi = 2; else if sfi3 eq 3 then sfi = 3; /*variable sfi du numéro de l'inventaire*/ run; /* Tirage aléatoire et sans remise des données de l'échantillon regroupé afin de créer le premier échantillon nécessaire au test bootstrap avec permutations.*/ /* option samprate spécifie le taux d'échantillonnage, ici même nombre d'obs pour chaque inventaire donc taux = 50%*/ proc surveyselect data = combine out = ech1 method = srs samprate = 50 rep = &nb_repet; run; /* option samprate spécifie le taux d'échantillonnage, on cherche à obtenir la table initiale mais répétée nb_repet fois pour pouvoir ensuite obtenir celle de l'achantillon 2 à l'aide du merge.*/ proc surveyselect data = combine out = combine method = srs samprate = 100 rep = &nb_repet; run;

Page 60: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

8

/* Création de l'indicateur numéro permettant de distinguer les données aléatoires du premier échantillon.*/ data ech1; set ech1; retain numero 1; run; /* On trie les données du premier échantillon et de l'échantillon regroupé par inventaire, par classe d'altitude et par nombre de parcelles ù l'espèce est présente afin de pouvoir effectuer un merge par la suite pour l'obtention des données du second échantillon.*/ proc sort data = ech1; by replicate sfi altitudec presence; run; proc sort data = combine; by replicate sfi altitudec presence; run; /* On regroupe les deux échantillons afin de pouvoir ensuite distinguer le second échantillon bootstrap permettant la mise en place du test bootstrap.*/ data global; merge ech1 combine; by replicate sfi altitudec presence; if numero ne 1 then numero = 0; run; /* Obtention du second échantillon bootstrapé*/ data ech2; set global; where numero eq 0; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech1; proc nlmixed data = ech1 maxiter = &iter; parms beta0 = &beta0 beta1 = &beta1 beta2 = &beta2; eta = beta0 + (altitudec/10000) * beta1 + beta2 * ((altitudec**2)/10000); expeta = exp(eta); p = expeta / (1 + expeta); model presence ~ binomial(count,p); predict p out = resu; by replicate; estimate 'opt' - beta1 / 2 / beta2; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech1 out = param_ech1; var estimate; by replicate; run; /* Obtention de l'estimation de l'optimum*/ data opt_ech1 (drop = col1 col2 col3); set param_ech1; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/

beta0 = col1; beta1 = col2; beta2 = col3; opt = - beta1 / 2 / beta2; run; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech1 (drop = opt beta0 beta1 beta2); set opt_ech1; retain obs 0; opt1 = opt; obs + 1; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 2 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech2; proc nlmixed data = ech2 maxiter = &iter; parms beta0 = &beta0 beta1 = &beta1 beta2 = &beta2; eta = beta0 + (altitudec/10000) * beta1 + beta2 * ((altitudec**2)/10000); expeta = exp(eta); p = expeta / (1 + expeta); model presence ~ binomial(count,p); predict p out = resu; by replicate; estimate 'opt' - beta1 / 2 / beta2; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech2 out = param_ech2; var estimate; by replicate; run; /* Obtention de l'estimation de l'optimum*/ data opt_ech2 (drop = col1 col2 col3); set param_ech2; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ beta0 = col1; beta1 = col2; beta2 = col3; opt = - beta1 / 2 / beta2; run; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech2 (drop = opt beta0 beta1 beta2); set opt_ech2; retain obs 0; opt2 = opt; obs + 1; run; /* Obtention de la variable stat correspondant à la différence entre les optimums obtenus pour les deux échantillons issus du bootstrap, et créationde la variable sup qui est égale à 1 si la différence entre les deux optimums est supérieure à celle des échantillons initiaux, ou égale à 0 sinon.*/ data compare; merge opt_ech1 opt_ech2;

Page 61: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

9

by obs; stat = opt2 - opt1; diffopt = &diff; if stat gt diffopt then sup = 1; else if stat lt diffopt then sup = 0; run; data compare; set compare; if (opt1 le 0 or opt1 gt 2500) or (opt2 le 0 or opt2 gt 2500) then delete; run; proc univariate data = compare noprint; qqplot stat / normal (mu = est sigma = est color = red); run; /* Création de la table stat_test contenant le nombre de fois où la différence entre les optimums issus du bootstrap sont supérieurs à celle des optimums des échantillons initiaux.*/ proc univariate data = compare noprint; var sup; output out = &stat_test nobs = n_obs sum = eff; run; /* Obtention de la table contenant la probabilité que la différence entre les échantillons bootstrapés soient supérieurs à celle initiale.*/ /* Si cette probabilité est inférieure à (alpha / 2) ou bien supérieure à (1 - (alpha / 2)) alors on rejette H0 d'égalité des distributions (un traitement n'a pas d'effet par exemple). Ici si l'on ne rejette pas H0 alors on conclut que les optimums ne sont pas significativement différents au risque alpha.*/ data &stat_test; set &stat_test; p_test = (1 + eff) / (n_obs + 1); p_test1 = eff / n_obs; run; %mend test_reg; /******************************************/ /* Creation de la macro procédure %test_hof4 */ /*--------------------------------------------*/ /*Méthode de test bootstrap permettant de comparer les optimums des distributions d'une même espèce pour deux inventaires. */ /******************************************/ %macro test_hof4(tabsfi2,tabsfi3,nb_repet,a,b,c,iter,diff,stat_test)/store; /* Création des tables provisoires des données de chaque espèces pour chaque inventaire contenant la variable spécifiant le numéro de l'inventaire.*/ data tab1; set &tabsfi3; sfi2 = 2; run; data tab2; set &tabsfi2; sfi3 = 3; run;

/* Création de la table regroupant les deux inventaires de chaque espèce*/ data combine (drop = sfi2 sfi3); set tab1 tab2; if sfi2 eq 2 then sfi = 2; else if sfi3 eq 3 then sfi = 3; /*variable sfi du numéro de l'inventaire*/ run; /* Tirage aléatoire et sans remise des données de l'échantillon regroupé afin de créer le premier échantillon nécessaire au test bootstrap avec permutations.*/ /* option samprate spécifie le taux d'échantillonnage, ici même nombre d'obs pour chaque inventaire donc taux = 50%*/ proc surveyselect data = combine out = ech1 method = srs samprate = 50 rep = &nb_repet; run; /* option samprate spécifie le taux d'échantillonnage, on cherche à obtenir la table initiale mais répétée nb_repet fois pour pouvoir ensuite obtenir celle de l'achantillon 2 à l'aide du merge.*/ proc surveyselect data = combine out = combine method = srs samprate = 100 rep = &nb_repet; run; /* Création de l'indicateur numéro permettant de distinguer les données aléatoires du premier échantillon.*/ data ech1; set ech1; retain numero 1; run; /* On trie les données du premier échantillon et de l'échantillon regroupé par inventaire, par classe d'altitude et par nombre de parcelles ù l'espèce est présente afin de pouvoir effectuer un merge par la suite pour l'obtention des données du second échantillon.*/ proc sort data = ech1; by replicate sfi altitudec presence; run; proc sort data = combine; by replicate sfi altitudec presence; run; /* On regroupe les deux échantillons afin de pouvoir ensuite distinguer le second échantillon bootstrap permettant la mise en place du test bootstrap.*/ data global; merge ech1 combine; by replicate sfi altitudec presence; if numero ne 1 then numero = 0; run; /* Obtention du second échantillon bootstrapé*/ data ech2; set global; where numero eq 0; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech1; proc nlmixed data = ech1 maxiter = &iter; parms a = &a b = &b c = &c;

Page 62: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

10

p = 1 / (1 + exp(a + b * altitudec)) / (1 + exp(c - b * altitudec)); model presence ~ binomial(count,p); predict p out = resul_ech1; by replicate; estimate 'opt' (c - a) / (2 * b); run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech1 out = opt_ech1 (keep = replicate _label_ col1 col2 col3); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data opt_ech1 (drop = col1 col2 col3); set opt_ech1; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ a = col1; b = col2; c = col3; opt = (c - a) / (2 * b); run; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech1 (drop = opt a b c); set opt_ech1; retain obs 0; opt1 = opt; obs + 1; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech2; proc nlmixed data = ech2 maxiter = &iter; parms a = &a b = &b c = &c; p = 1 / (1 + exp(a + b * altitudec)) / (1 + exp(c - b * altitudec)); model presence ~ binomial(count,p); predict p out = resul_ech2; by replicate; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech2 out = opt_ech2 (keep = replicate _label_ col1 col2 col3); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data opt_ech2 (drop = col1 col2 col3); set opt_ech2; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ a = col1; b = col2; c = col3; opt = (c - a) / (2 * b);

run; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech2 (drop = opt a b c); set opt_ech2; retain obs 0; opt2 = opt; obs + 1; run; /* Obtention de la variable stat correspondant à la différence entre les optimums obtenus pour les deux échantillons issus du bootstrap, et créationde la variable sup qui est égale à 1 si la différence entre les deux optimums est supérieure à celle des échantillons initiaux, ou égale à 0 sinon.*/ data compare; merge opt_ech1 opt_ech2; by obs; stat = opt2 - opt1; diffopt = &diff; if stat gt diffopt then sup = 1; else if stat lt diffopt then sup = 0; run; data compare; set compare; if (opt1 le 0 or opt1 gt 2500) or (opt2 le 0 or opt2 gt 2500) then delete; run; proc univariate data = compare noprint; qqplot stat / normal (mu = est sigma = est color = red); run; /* Création de la table stat_test contenant le nombre de fois où la différence entre les optimums issus du bootstrap sont supérieurs à celle des optimums des échantillons initiaux.*/ proc univariate data = compare noprint; var sup; output out = &stat_test nobs = n_obs sum = eff; run; /* Obtention de la table contenant la probabilité que la différence entre les échantillons bootstrapés soient supérieurs à celle initiale.*/ /* Si cette probabilité est inférieure à (alpha / 2) ou bien supérieure à (1 - (alpha / 2)) alors on rejette H0 d'égalité des distributions (un traitement n'a pas d'effet par exemple). Ici si l'on ne rejette pas H0 alors on conclut que les optimums ne sont pas significativement différents au risque alpha.*/ data &stat_test; set &stat_test; p_test = (1 + eff) / (n_obs + 1); p_test1 = eff / n_obs; run; %mend test_hof4; /******************************************/ /* Creation de la macro procédure %test_hof5 */ /*--------------------------------------------*/ /* Méthode de test bootstrap permettant de comparer les optimums des distributions d'une même espèce pour deux inventaires. */ /******************************************/

Page 63: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

11

%macro test_hof5(tabsfi2,tabsfi3,nb_repet,a,b,c,d,iter,diff,stat_test)/store; /* Création des tables provisoires des données de chaque espèces pour chaque inventaire contenant la variable spécifiant le numéro de l'inventaire.*/ data tab1; set &tabsfi2; sfi2 = 2; run; data tab2; set &tabsfi3; sfi3 = 3; run; /* Création de la table regroupant les deux inventaires de chaque espèce*/ data combine (drop = sfi2 sfi3); set tab1 tab2; if sfi2 eq 2 then sfi = 2; else if sfi3 eq 3 then sfi = 3; /*variable sfi du numéro de l'inventaire*/ run; /* Tirage aléatoire et sans remise des données de l'échantillon regroupé afin de créer le premier échantillon nécessaire au test bootstrap avec permutations.*/ /* option samprate spécifie le taux d'échantillonnage, ici même nombre d'obs pour chaque inventaire donc taux = 50%*/ proc surveyselect data = combine out = ech1 method = srs samprate = 50 rep = &nb_repet; run; /* option samprate spécifie le taux d'échantillonnage, on cherche à obtenir la table initiale mais répétée nb_repet fois pour pouvoir ensuite obtenir celle de l'achantillon 2 à l'aide du merge.*/ proc surveyselect data = combine out = combine method = srs samprate = 100 rep = &nb_repet; run; /* Création de l'indicateur numéro permettant de distinguer les données aléatoires du premier échantillon.*/ data ech1; set ech1; retain numero 1; run; /* On trie les données du premier échantillon et de l'échantillon regroupé par inventaire, par classe d'altitude et par nombre de parcelles ù l'espèce est présente afin de pouvoir effectuer un merge par la suite pour l'obtention des données du second échantillon.*/ proc sort data = ech1; by replicate sfi altitudec presence; run; proc sort data = combine; by replicate sfi altitudec presence; run; /* On regroupe les deux échantillons afin de pouvoir ensuite distinguer le second échantillon bootstrap permettant la mise en place du test bootstrap.*/ data global;

merge ech1 combine; by replicate sfi altitudec presence; if numero ne 1 then numero = 0; run; /* Obtention du second échantillon bootstrapé*/ data ech2; set global; where numero eq 0; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech1; proc nlmixed data = ech1 maxiter = &iter; parms a = &a b = &b c = &c d = &d; p = 1 /(1 + exp(a + b * altitudec)) / (1 + exp(c + d * altitudec)); model presence ~ binomial(count,p); predict p out = resul_ech1; by replicate; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech1 out = param_ech1; var estimate; by replicate; run; data param_ech1; set param_ech1; drop _name_ _label_; rename col1 = a col2 = b col3 = c col4 = d; run; /* Obtention de l'estimation de l'optimum*/ proc model data = param_ech1; eq.opt = - b * exp(a + b * x) * (1 + exp(c + d * x)) - d * exp(c + d * x) * (1 + exp(a + b * x)); solve x / solveprint out = opt_ech1; run; quit; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech1 (drop = x a b c d); set opt_ech1; retain obs 0; x1 = x; obs + 1; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech2; proc nlmixed data = ech2 maxiter = 500; parms a = &a b = &b c = &c d = &d; p = 1 /(1 + exp(a + b * altitudec)) / (1 + exp(c + d * altitudec)); model presence ~ binomial(count,p);

Page 64: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

12

predict p out = resul_ech2; by replicate; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech2 out = param_ech2; var estimate; by replicate; run; data param_ech2; set param_ech2; drop _name_ _label_; rename col1 = a col2 = b col3 = c col4 = d; run; /* Obtention de l'estimation de l'optimum*/ proc model data = param_ech2 noprint; eq.opt = - b * exp(a + b * x) * (1 + exp(c + d * x)) - d * exp(c + d * x) * (1 + exp(a + b * x)); solve x / solveprint out = opt_ech2; run; quit; /* Création de la variable obs et x2 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech2 (drop = x a b c d); set opt_ech2; retain obs 0; x2 = x; obs + 1; run; /* Obtention de la variable stat correspondant à la différence entre les optimums obtenus pour les deux échantillons issus du bootstrap, et créationde la variable sup qui est égale à 1 si la différence entre les deux optimums est supérieure à celle des échantillons initiaux, ou égale à 0 sinon.*/ data compare; merge opt_ech1 opt_ech2; by obs; stat = x2 - x1; diffopt = &diff; if stat gt diffopt then sup = 1; else if stat lt diffopt then sup = 0; run; data compare; set compare; if (x1 le 0 or x1 gt 2500) or (x2 le 0 or x2 gt 2500) then delete; run; proc univariate data = compare noprint; qqplot stat / normal (mu = est sigma = est color = red); run; /* Création de la table stat_test contenant le nombre de fois où la différence entre les optimums issus du bootstrap sont supérieurs à celle des optimums des échantillons initiaux.*/ proc univariate data = compare noprint;

var sup; output out = &stat_test nobs = n_obs sum = eff; run; /* Obtention de la table contenant la probabilité que la différence entre les échantillons bootstrapés soient supérieurs à celle initiale.*/ /* Si cette probabilité est inférieure à (alpha / 2) ou bien supérieure à (1 - (alpha / 2)) alors on rejette H0 d'égalité des distributions (un traitement n'a pas d'effet par exemple). Ici si l'on ne rejette pas H0 alors on conclut que les optimums ne sont pas significativement différents au risque alpha.*/ data &stat_test; set &stat_test; p_test = (1 + eff) / (n_obs + 1); p_test1 = eff / n_obs; run; %mend test_hof5;

Page 65: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

13

Annexe B : Ajustements de la probabilité de présence de chaque espèce pour les deux

inventaires des Pyrénées

Page 66: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

14

Page 67: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

15

Annexe C : Ajustements de la probabilité de présence de chaque espèce pour les deux

inventaires du système ibérique

Page 68: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

16

Page 69: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

17

Annexe D : Histogrammes et q – qplot des estimations des optimums du gradient

altitudinal des données bootstrapées des espèces végétales des Pyrénées du deuxième

inventaire

Quercus faginea sfi2

Effec

tif

0

1000

2000

3000

Optimum

120

160

200

240

280

320

360

400

440

480

520

560

600

640

680

720

760

800

840

880

920

960

1000

Quercus ilex sfi2

Effec

tif

0

1000

2000

3000

Optimum

120 180 240 300 360 420 480 540

Quercus suber sfi2

Effec

tif

0

1000

2000

3000

4000

opt MIDPOINT

15

45

75

105

135

165

195

225

255

285

315

345

375

405

435

465

495

525

555

585

615

645

675

Quercus faginea sfi2

-4 -2 0 2 4

0

200

400

600

800

1000

1200

Optim

um

Quantiles de la loi normale

Quercus ilex sfi2

-4 -2 0 2 4

0

100

200

300

400

500

600

Opt

imum

Quantiles de la loi normale

Quercus suber sfi2

-4 -2 0 2 4

0

100

200

300

400

500

600

700

opt

Quantiles de la loi normale

Page 70: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

18

Fagus sylvatica sfi2Effec

tif

0

1000

2000

3000

Optimum

1245 1275 1305 1335 1365 1395 1425 1455

Fagus sylvatica sfi2

-4 -2 0 2 4

1250

1300

1350

1400

1450

1500

Opt

imum

Quantiles de la loi normale

Page 71: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

19

Annexe E : Histogrammes et q – qplot des estimations des optimums du gradient

altitudinal des données bootstrapées des espèces végétales des Pyrénées du troisième

inventaire

Quercus petraea sfi3

Effec

tif

0

100

200

300

400

500

600

700

800

900

Optimum

990

1020

1050

1080

1110

1140

1170

1200

1230

1260

1290

1320

1350

1380

1410

1440

1470

1500

1530

1560

1590

1620

1650

1680

1710

1740

1770

1800

Quercus faginea sfi3

Effec

tif

0

1000

2000

3000

Optimum

760 780 800 820 840 860 880 900

Quercus ilex sfi3

Effec

tif

0

1000

2000

3000

4000

Optimum

200 250 300 350 400 450 500 550

Quercus petraea sfi3

-4 -2 0 2 4

800

1000

1200

1400

1600

1800

2000

Optim

um

Quantiles de la loi normale

Quercus faginea sfi3

-4 -2 0 2 4

750

775

800

825

850

875

900

Optim

um

Quantiles de la loi normale

Quercus ilex sfi3

-4 -2 0 2 4

200

250

300

350

400

450

500

550

Optim

um

Quantiles de la loi normale

Page 72: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

20

Quercus suber sfi3Effec

tif

0

1000

2000

3000

4000

opt MIDPOINT

15

45

75

105

135

165

195

225

255

285

315

345

375

405

435

465

495

525

555

585

615

645

675

705

735

Fagus sylvatica sfi3

Effec

tif

0

1000

2000

3000

Optimum

1188 1213 1238 1263 1288 1313 1338 1363

Quercus suber sfi3

-4 -2 0 2 4

0

200

400

600

800

opt

Quantiles de la loi normale

Fagus sylvatica sfi3

-4 -2 0 2 4

1150

1200

1250

1300

1350

1400

Optim

um

Quantiles de la loi normale

Page 73: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

21

Annexe F : Histogrammes et q – qplot des estimations des optimums du gradient

altitudinal des données bootstrapées des espèces végétales du système ibérique du

deuxième inventaire

Quercus petraea sfi2

Effec

tif

0

1000

2000

3000

opt MIDPOINT

1020

1080

1140

1200

1260

1320

1380

1440

1500

1560

1620

1680

1740

1800

1860

1920

1980

2040

2100

2160

2220

2280

2340

Quercus faginea sfi2

Effec

tif

0

1000

2000

3000

4000

5000

Optimum

945 975 1005 1035 1065 1095 1125 1155

Quercus ilex sfi2

Effec

tif

0

1000

2000

3000

Optimum

713

738

763

788

813

838

863

888

913

938

963

988

1013

1038

1063

1088

1113

1138

1163

1188

1213

1238

1263

1288

1313

1338

Quercus petraea sfi2

-4 -2 0 2 4

1000

1250

1500

1750

2000

2250

2500

opt

Quantiles de la loi normale

Quercus faginea sfi2

-4 -2 0 2 4

900

950

1000

1050

1100

1150

1200

Optim

um

Quantiles de la loi normale

Quercus ilex sfi2

-4 -2 0 2 4

700

800

900

1000

1100

1200

1300

1400

Optim

um

Quantiles de la loi normale

Page 74: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

22

Quercus suber sfi2Effec

tif

0

1000

2000

3000

opt MIDPOINT

240

280

320

360

400

440

480

520

560

600

640

680

720

760

800

840

880

920

960

1000

1040

1080

1120

1160

1200

Fagus sylvatica sfi2

Effec

tif

0

1000

2000

3000

Optimum

750

800

850

900

950

1000

1050

1100

1150

1200

1250

1300

1350

1400

1450

1500

1550

1600

1650

1700

1750

1800

1850

1900

1950

Quercus suber sfi2

-4 -2 0 2 4

200

400

600

800

1000

1200

1400

opt

Quantiles de la loi normale

Fagus sylvatica sfi2

-4 -2 0 2 4

750

1000

1250

1500

1750

2000

Optim

um

Quantiles de la loi normale

Page 75: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

23

Annexe G : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal

des données bootstrapées des espèces végétales du système ibérique du troisième inventaire

Quercus petraea sfi3

Effec

tif

0

100

200

300

400

500

600

700

opt MIDPOINT

960

1020

1080

1140

1200

1260

1320

1380

1440

1500

1560

1620

1680

1740

1800

1860

1920

1980

2040

2100

2160

2220

2280

2340

2400

2460

2520

Quercus faginea sfi3

Effec

tif

0

1000

2000

3000

4000

Optimum

1013 1038 1063 1088 1113 1138 1163 1188

Quercus ilex sfi3

Effec

tif

0

1000

2000

3000

Optimum

910

930

950

970

990

1010

1030

1050

1070

1090

1110

1130

1150

1170

1190

1210

1230

1250

1270

1290

1310

1330

1350

1370

Quercus petraea sfi3

-4 -2 0 2 4

750

1000

1250

1500

1750

2000

2250

2500

opt

Quantiles de la loi normale

Quercus faginea sfi3

-4 -2 0 2 4

1000

1025

1050

1075

1100

1125

1150

1175

1200

Opt

imum

Quantiles de la loi normale

Quercus ilex sfi3

-4 -2 0 2 4

900

1000

1100

1200

1300

1400

Opt

imum

Quantiles de la loi normale

Page 76: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

24

Quercus suber sfi3

Effec

tif

0100200300400500600700800900

10001100120013001400150016001700180019002000

opt MIDPOINT

125

150

175

200

225

250

275

300

325

350

375

400

425

450

475

500

525

550

575

600

625

650

675

Fagus sylvatica sfi3

Effec

tif

0

1000

2000

3000

Optimum

950

1000

1050

1100

1150

1200

1250

1300

1350

1400

1450

1500

1550

1600

1650

1700

1750

1800

1850

1900

1950

2000

2050

2100

Quercus suber sfi3

-4 -2 0 2 4

100

200

300

400

500

600

700

opt

Quantiles de la loi normale

Fagus sylvatica sfi3

-4 -2 0 2 4

750

1000

1250

1500

1750

2000

2250

Opt

imum

Quantiles de la loi normale

Page 77: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

TABLE DES MATIERES

SOMMAIRE ...................................................................................................................................... 4 

INTRODUCTION ...................................................................................................................................... 5 

PARTIE I :  Présentation de la structure d’accueil ..................................................................................... 7 

I.  Thèmes de recherche de la structure d’accueil ................................................................... 7 

II.  Organigramme du laboratoire .............................................................................................. 8 

PARTIE II :  Présentation de l’étude du gradient altitudinal d’espèces végétales dans une chaîne

montagneuse .............................................................................................................................. 9 

I.  Contexte général de l’étude ................................................................................................... 9 

II.  Intérêt de l’étude des gradients altitudinaux ..................................................................... 12 

III.  Etudes antérieures portant sur les variations de distribution d’espèces le long d’un

gradient altitudinal ................................................................................................................ 14 

A.  Etude de J. Lenoir, J.C. Gégout, P.A. Marquet, P. de Ruffray et H. Brisse 2009 ...... 14 

B.  Etude de A. Kelly et M. Goulden 2008 ........................................................................... 14 

C.  Méthodes mathématiques employées pour mettre en évidence les modifications de

distribution des espèces ...................................................................................................... 15 

PARTIE III :  Données et méthodes statistiques ........................................................................................ 16 

I.  Présentation des données de l’étude .................................................................................. 16 

II.  Méthodes de l’analyse statistique ........................................................................................ 20 

A.  Estimation ponctuelle ......................................................................................................... 20 

B.  Modèle statistique ................................................................................................................ 20 

C.  Fonction de vraisemblance ................................................................................................ 21 

D.  Estimation par maximum de vraisemblance ................................................................... 22 

E.  Information de Fisher ........................................................................................................ 22 

Page 78: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

F.  Méthode delta ...................................................................................................................... 22 

G.  Méthodes basiques de limites de confiance ..................................................................... 23 

H.  Présentation du bootstrap .................................................................................................. 24 

a.  Méthode générale ............................................................................................................ 24 

b.  Deux types de bootstrap ................................................................................................ 25 

c.  Intervalles de confiance .................................................................................................. 25 

d.  Test de signification utilisant les tests de permutations ............................................ 26 

I.  Modélisation de la répartition altitudinale des espèces par les modèles de Huisman,

Olff et Fresco : modèles de HOF ......................................................................................................... 27 

a.  Objectifs ........................................................................................................................... 27 

b.  Présentation des modèles de HOF ............................................................................... 28 

c.  Ajustement des modèles ................................................................................................ 29 

J.  Comparaison de modèles statistiques à l’aide du critère d’Akaike ................................. 30 

K.  Procédure d’ajustement dans le logiciel SAS ................................................................... 31 

PARTIE IV :  Résultats de l’analyse .............................................................................................................. 33 

I.  Ajustements de la répartition de la présence des espèces de feuillus à l’aide des

modèles logistique, hof iv et hof v ..................................................................................... 33 

II.  Obtention de la valeur de l’optimum du gradient altitudinal des espèces végétales et

de son intervalle de confiance ............................................................................................. 36 

A.  Méthode d’optimisation du gradient altitudinal par la modélisation des données .... 36 

B.  Méthode bootstrap pour l’obtention de la valeur optimale du gradient d’altitude de

chaque espèce ...................................................................................................................... 38 

a.  Données du deuxième inventaire dans les Pyrénées .................................................. 38 

b.  Données du troisième inventaire dans les Pyrénées .................................................. 41 

Page 79: MODÉLISATION DE LA RÉPARTITION DE LA …tree-ajporte.fr/etudiants/eyermann 2010 master 1.pdf · Rapport de stage de première année présenté en septembre 2010 ... -l’équipe

c.  Données du deuxième inventaire dans le système ibérique ...................................... 41 

d.  Données du troisième inventaire dans le système ibérique ...................................... 42 

C.  Comparaison des gradients d’altitude des espèces végétales pour les deux inventaires

................................................................................................................................................ 43 

DISCUSSION ET CONCLUSION ............................................................................................................ 45 

BIBLIOGRAPHIE .................................................................................................................................... 47 

TABLE DES FIGURES ET TABLEAUX ................................................................................................ 50 

TABLE DES ANNEXES ............................................................................................................................. 52 

ANNEXES .................................................................................................................................... 53 

TABLE DES MATIERES ............................................................................................................................ 77