I- Introduction II- Autocorrélation spatiale III- Modélisationiml.univ-mrs.fr/~reboul/SP1.pdf ·...

Statistique spatiale

I- Introduction II- Autocorrélation spatiale

III- Modélisation

I- Introduction

Généralités

•  Les méthodes de statistique spatiale servent à décrire, modéliser des données géo-référencées ou localisées (décrites par des lieux) :

Ø  coordonnées du barycentre d’une zone administrative Ø  couple longitude/latitude Ø  coordonnées UTM (Universal Transvers Mercator )

•  Domaines d’application de la statistique spatiale : géologie, écologie, météorologie, épidémiologie, démographie.

Types de données

•  3 types de données géoréférencées : données géostatistiques, données laticielles, données ponctuelles.

•  On note la localisation d’un site de mesure et le phénomène étudié : température, densité de population, etc… X est une variable aléatoire indexée par S.

Ss∈ { }SssX ∈),(

Types de données

•  Données Géostatistiques (données continues, interpolables) Ø  S est un sous ensemble continu de R2; Ø  X(s) est à valeurs réelles, mesurée en des sites choisis (s1,…sn) de S

données (xs1,…xsn) Ex : température, altitude Questions : Ø  Autocorrélation spatiale Ø  Prédiction de X sur tout S (krigeage, simulation) Ø  Modélisation de la loi du processus continu de

Outil logiciel : packages geoR, spatial de R

⇒

{ }SssX ∈),(

Types de données

Exemple : Cumul de pluies dans 100 stations météo suisses le jour du passage du nuage de Tchernobyl (jeu sic.100 du package geoR de R)

> sic.100 $coords V2 V3 13 29.52739 80.71854 14 33.77939 99.52954 22 46.80639 102.58454 23  48.71439 121.45354 ..... $data 13 14 22 23 ....

Les 100 stations sont choisies au hasard dans un réseau de 367 stations •  Coords : Les coordonnées des lieux par

rapport au centre de la suisse (distances en km). s1,…s100 valeurs de S continu

•  Data : niveaux de pluies (en mm) X(s) en chaque lieu

Types de données

•  Données laticielles (mesurées qu’en un nombre fini fixé de points)

Ø  S est discret et fixé. Les sites représentent en général des unités géographiques, repérées par un graphe de voisinage

Ø  X est observée sur S.

données Ex : hauteur des arbres d’une foret, pixels sur image, sex-ratios dans les districts de

l’inde … Questions : Ø  Définition d’un voisinage (distance entre deux sites) Ø  Etude de l’autocorrélation spatiale Ø  Modélisation de la loi du vecteur aléatoire discret Outil logiciel : packages spdep, geoXP-R de R

⇒ { }Sssx ∈),(

{ }SssX ∈),(

Types de données

•  X(s)=nombre de cas de mort subite dans le comté s

•  S= ensemble des 100 comtés

Atelier Spatial RASMA Saint Louis du Sénégal

14

Types de données

•  Carte des sex-ratio en Inde

•  X(s)= sex-ratio dans le district s •  S= districts de l’Inde

Types de données •  Données ponctuelles : La localisation s est elle-même l’objet de

l’étude.

Ø  S est un processus ponctuel (ensemble de points aléatoires) de R2 Ø  Le nombre de réalisations ponctuelles et leur localisation X sont

aléatoire

Ex: Etude de la répartition spatiale d’une espèce d’arbres dans une forêt.

• Question: Ø Homogénéité de la localisation des site est-elle plutôt régulière, présente-t-elle des agrégats? Ø Modélisation des processus S et X Outil logiciel : package spatstat de R

Types de données

Spécificité des méthodes statistiques

•  Hétérogénéité : chaque localisation est spécifique •  Dépendance

–  Les données analysées sont dépendantes (autocorrélation spatiale) –  les dépendances sont plus complexes qu’en séries temporelles


•  Conséquences sur les méthodes

Ø  Les méthodes de statistique inférentielle (estimation, modélisation classique, ...) ne sont plus valables : ex les estimateurs standard de la variance, des moindres carrés dans un modèle RLM sont généralement biaisés.

Ø  Comment définir la qualité d’estimation : Définition de l’asymptotique?

Ø  outils statistiques spécifiques permettant de tenir compte de l’autocorrélation spatiale dans les analyses statistiques classiques et d’éviter que celle-ci n’introduise des biais dans l’estimation des paramètres

⇒


Intérêt de la prise en compte de la dimension spatiale des données dans un modèle de régression : exemple du sex-ratio en Inde (Guilmoto, 2008, Populations).

inde=read.csv("table2b.csv", header=T, sep=";") >

reg=lm(SR0601~LDENS01+TFR01+SURV01+URB01+LITR01_2+WAGRIC+SRPART+BUDDH+CHRISTIAN+JAIN+MUSLIM+SIKH+DALIT+TRIBAL, data=inde)

Ø  summary(reg)

Ø  La part de variance expliquée est seulement de 51%. Les limites de cette modélisation ne relèvent pas de la nature des données. Il est peu probable qu’une variable insoupconnée explique la part de variance non expliquée.

Residuals: Min 1Q Median 3Q Max -131.347 -17.068 6.777 22.493 99.640 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1041.6942 68.0697 15.303 < 2e-16 *** LDENS01 2.6331 2.0524 1.283 0.200037 TFR01 -14.9043 2.3684 -6.293 6.17e-10 *** SURV01 -29.2158 65.5596 -0.446 0.656027 URB01 -17.1895 12.5220 -1.373 0.170364 LITR01_2 -0.8817 0.1860 -4.740 2.69e-06 *** WAGRIC 12.8561 13.8242 0.930 0.352775 SRPART -2.9381 1.3333 -2.204 0.027944 * BUDDH 15.5567 23.9322 0.650 0.515929 CHRISTIAN 18.0589 12.0206 1.502 0.133559 JAIN -968.8219 272.3551 -3.557 0.000406 *** MUSLIM 53.7249 11.5256 4.661 3.91e-06 *** SIKH -225.6399 15.0909 -14.952 < 2e-16 *** DALIT 7.2310 25.1730 0.287 0.774021 TRIBAL 54.8759 10.6791 5.139 3.80e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 34.92 on 576 degrees of freedom Multiple R-squared: 0.5088, Adjusted R-squared: 0.4969 F-statistic: 42.62 on 14 and 576 DF, p-value: < 2.2e-16


> plot(reg$fitted, reg$residuals) Ø  acf(reg$residuals, main="Autocorrélation

des résidus")

Il existe une corrélation des résidus du modèle : les observations du sex-ratio ne sont pas indépendantes. Les hypothèses du modèle linéaire ne sont pas satisfaites

Prise en compte de l’autocorrélation spatiale

des résidus.

Spécificité des méthodes statistiques •  Dans la suite du cours, on étudiera des données laticielles : Ø  on observe un phénomène X (pluviométrie, sex-ratio,…) sur n sites fixés Ø  L’observation x dont on dispose (sex-ratio réel, pluviométrie réelle) peut être

vue comme une réalisation de X sur les n sites, ou de façon équivalente comme une réalisation du vecteur aléatoire X= (X1,…Xn).

Ø  On note Px sa loi. •  On cherche, à partir de l’observation x, à avoir des précisions sur la loi PX de

ce vecteur

Ø  Modélisation de la loi de X : Recherche d’une famille de loi pour PX, éventuellement dépendante de variables explicatives

Ø  Estimation des paramètres de cette loi •  Outils utilisés Ø  Tests d’autocorrélation spatiale : permettent, au vu de x de tester si les

composantes de X sont ou non dépendantes.

Ø  Modèles d’autoregression spatiale : modèles explicatifs spécifiant aussi la forme de dépendance spatiale.

I- Introduction II- Autocorrélation spatiale III- Modélisationiml.univ-mrs.fr/~reboul/SP1.pdf ·...

Documents

Transcript of I- Introduction II- Autocorrélation spatiale III- Modélisationiml.univ-mrs.fr/~reboul/SP1.pdf ·...