I- Introduction II- Autocorrélation spatiale III- Modélisationiml.univ-mrs.fr/~reboul/SP1.pdf ·...
Transcript of I- Introduction II- Autocorrélation spatiale III- Modélisationiml.univ-mrs.fr/~reboul/SP1.pdf ·...
Statistique spatiale
I- Introduction II- Autocorrélation spatiale
III- Modélisation
I- Introduction
Généralités
• Les méthodes de statistique spatiale servent à décrire, modéliser des données géo-référencées ou localisées (décrites par des lieux) :
Ø coordonnées du barycentre d’une zone administrative Ø couple longitude/latitude Ø coordonnées UTM (Universal Transvers Mercator )
• Domaines d’application de la statistique spatiale : géologie, écologie, météorologie, épidémiologie, démographie.
Types de données
• 3 types de données géoréférencées : données géostatistiques, données laticielles, données ponctuelles.
• On note la localisation d’un site de mesure et le phénomène étudié : température, densité de population, etc… X est une variable aléatoire indexée par S.
Ss∈ { }SssX ∈),(
Types de données
• Données Géostatistiques (données continues, interpolables) Ø S est un sous ensemble continu de R2; Ø X(s) est à valeurs réelles, mesurée en des sites choisis (s1,…sn) de S
données (xs1,…xsn) Ex : température, altitude Questions : Ø Autocorrélation spatiale Ø Prédiction de X sur tout S (krigeage, simulation) Ø Modélisation de la loi du processus continu de
Outil logiciel : packages geoR, spatial de R
⇒
{ }SssX ∈),(
Types de données
Exemple : Cumul de pluies dans 100 stations météo suisses le jour du passage du nuage de Tchernobyl (jeu sic.100 du package geoR de R)
> sic.100 $coords V2 V3 13 29.52739 80.71854 14 33.77939 99.52954 22 46.80639 102.58454 23 48.71439 121.45354 ..... $data 13 14 22 23 ....
Les 100 stations sont choisies au hasard dans un réseau de 367 stations • Coords : Les coordonnées des lieux par
rapport au centre de la suisse (distances en km). s1,…s100 valeurs de S continu
• Data : niveaux de pluies (en mm) X(s) en chaque lieu
Types de données
• Données laticielles (mesurées qu’en un nombre fini fixé de points)
Ø S est discret et fixé. Les sites représentent en général des unités géographiques, repérées par un graphe de voisinage
Ø X est observée sur S.
données Ex : hauteur des arbres d’une foret, pixels sur image, sex-ratios dans les districts de
l’inde … Questions : Ø Définition d’un voisinage (distance entre deux sites) Ø Etude de l’autocorrélation spatiale Ø Modélisation de la loi du vecteur aléatoire discret Outil logiciel : packages spdep, geoXP-R de R
⇒ { }Sssx ∈),(
{ }SssX ∈),(
Types de données
• X(s)=nombre de cas de mort subite dans le comté s
• S= ensemble des 100 comtés
Atelier Spatial RASMA Saint Louis du Sénégal
14
Types de données
• Carte des sex-ratio en Inde
• X(s)= sex-ratio dans le district s • S= districts de l’Inde
Types de données • Données ponctuelles : La localisation s est elle-même l’objet de
l’étude.
Ø S est un processus ponctuel (ensemble de points aléatoires) de R2 Ø Le nombre de réalisations ponctuelles et leur localisation X sont
aléatoire
Ex: Etude de la répartition spatiale d’une espèce d’arbres dans une forêt.
• Question: Ø Homogénéité de la localisation des site est-elle plutôt régulière, présente-t-elle des agrégats? Ø Modélisation des processus S et X Outil logiciel : package spatstat de R
Types de données
Spécificité des méthodes statistiques
• Hétérogénéité : chaque localisation est spécifique • Dépendance
– Les données analysées sont dépendantes (autocorrélation spatiale) – les dépendances sont plus complexes qu’en séries temporelles
Spécificité des méthodes statistiques
• Conséquences sur les méthodes
Ø Les méthodes de statistique inférentielle (estimation, modélisation classique, ...) ne sont plus valables : ex les estimateurs standard de la variance, des moindres carrés dans un modèle RLM sont généralement biaisés.
Ø Comment définir la qualité d’estimation : Définition de l’asymptotique?
Ø outils statistiques spécifiques permettant de tenir compte de l’autocorrélation spatiale dans les analyses statistiques classiques et d’éviter que celle-ci n’introduise des biais dans l’estimation des paramètres
⇒
Spécificité des méthodes statistiques
Intérêt de la prise en compte de la dimension spatiale des données dans un modèle de régression : exemple du sex-ratio en Inde (Guilmoto, 2008, Populations).
inde=read.csv("table2b.csv", header=T, sep=";") >
reg=lm(SR0601~LDENS01+TFR01+SURV01+URB01+LITR01_2+WAGRIC+SRPART+BUDDH+CHRISTIAN+JAIN+MUSLIM+SIKH+DALIT+TRIBAL, data=inde)
Ø summary(reg)
Ø La part de variance expliquée est seulement de 51%. Les limites de cette modélisation ne relèvent pas de la nature des données. Il est peu probable qu’une variable insoupconnée explique la part de variance non expliquée.
Residuals: Min 1Q Median 3Q Max -131.347 -17.068 6.777 22.493 99.640 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1041.6942 68.0697 15.303 < 2e-16 *** LDENS01 2.6331 2.0524 1.283 0.200037 TFR01 -14.9043 2.3684 -6.293 6.17e-10 *** SURV01 -29.2158 65.5596 -0.446 0.656027 URB01 -17.1895 12.5220 -1.373 0.170364 LITR01_2 -0.8817 0.1860 -4.740 2.69e-06 *** WAGRIC 12.8561 13.8242 0.930 0.352775 SRPART -2.9381 1.3333 -2.204 0.027944 * BUDDH 15.5567 23.9322 0.650 0.515929 CHRISTIAN 18.0589 12.0206 1.502 0.133559 JAIN -968.8219 272.3551 -3.557 0.000406 *** MUSLIM 53.7249 11.5256 4.661 3.91e-06 *** SIKH -225.6399 15.0909 -14.952 < 2e-16 *** DALIT 7.2310 25.1730 0.287 0.774021 TRIBAL 54.8759 10.6791 5.139 3.80e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 34.92 on 576 degrees of freedom Multiple R-squared: 0.5088, Adjusted R-squared: 0.4969 F-statistic: 42.62 on 14 and 576 DF, p-value: < 2.2e-16
Spécificité des méthodes statistiques
> plot(reg$fitted, reg$residuals) Ø acf(reg$residuals, main="Autocorrélation
des résidus")
Il existe une corrélation des résidus du modèle : les observations du sex-ratio ne sont pas indépendantes. Les hypothèses du modèle linéaire ne sont pas satisfaites
Prise en compte de l’autocorrélation spatiale
des résidus.
Spécificité des méthodes statistiques
Spécificité des méthodes statistiques • Dans la suite du cours, on étudiera des données laticielles : Ø on observe un phénomène X (pluviométrie, sex-ratio,…) sur n sites fixés Ø L’observation x dont on dispose (sex-ratio réel, pluviométrie réelle) peut être
vue comme une réalisation de X sur les n sites, ou de façon équivalente comme une réalisation du vecteur aléatoire X= (X1,…Xn).
Ø On note Px sa loi. • On cherche, à partir de l’observation x, à avoir des précisions sur la loi PX de
ce vecteur
Ø Modélisation de la loi de X : Recherche d’une famille de loi pour PX, éventuellement dépendante de variables explicatives
Ø Estimation des paramètres de cette loi • Outils utilisés Ø Tests d’autocorrélation spatiale : permettent, au vu de x de tester si les
composantes de X sont ou non dépendantes.
Ø Modèles d’autoregression spatiale : modèles explicatifs spécifiant aussi la forme de dépendance spatiale.