L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction...

26
L’estimateur Chao1 Eric Marcon Introduction Construction de l’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane L’estimateur Chao1 Eric Marcon 23 January 2021

Transcript of L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction...

Page 1: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

L’estimateur Chao1

Eric Marcon

23 January 2021

Page 2: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Section 1

Introduction

Page 3: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Problématique

Estimer la richesse (le nombre d’espèces) d’un systèmehyperdivers comme une communauté en forêt tropicale estdifficile.

Beaucoup d’espèces sont rares donc un échantillonnagealéatoire (inventaire) de taille raisonnable ne permet pas de lesobserver.

Des estimateurs de la richesse ont été développés pour estimerla richesse réelle à partir d’un inventaire incomplet.

Page 4: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Illustration

Inventaire d’uneparcelle deParacou,Sinamary, GuyaneNombre d’espècesobservées : 334.Espèce la plusabondante (wapa :Eperuafalcata) :266 individus.

0 50 100 150 200 250

050

100

150

200

250

https://paracou.cirad.fr

Page 5: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Illustration

La parcelle est un échantillon de la communauté forestièrelocale.

1

10

100

100 200 300Rank

Abu

ndan

ce

Question : combien y a-t-il d’espèces d’arbres dans cettecommunauté ?

Page 6: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Courbe d’accumulation

0

100

200

300

400

0 5000 10000 15000 20000Sample Size

Div

ersi

ty

Espérance du nombre d’espèces échantillonnées en fonction dela taille de l’inventaire.

Page 7: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Estimateur Chao1

Développé par Anne Chao (Chao 2004).

Premier estimateur utilisé largement par les écologues, bonsupport mathématique.

Intuition :

les espèces observées une fois auraient pu ne pas l’être.lien (à établir) entre les espèces observées un petit nombrede fois et les espèces manquées.

Page 8: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Section 2

Construction de l’estimateur

Page 9: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Notations

Un inventaire de n individus tirés indépendamment etaléatoirement est réalisé dans une communauté.

Les individus appartiennent à l’espèce s avec la probabilité ps,∑S1 ps = 1.

L’inventaire manque quelques espèces parmi les moinsfréquentes : seules sobs espèces sont observées.

sνn est le nombre d’espèces observées ν fois dans un échantillonde taille n. C’est une réalisation de la variable aléatoire Sνn.

Page 10: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Observer une espèce

La probabilité qu’un individu inventorié ne soit pas de l’espèces est

1− ps

La probabilité de ne pas inclure l’espèce s dans l’inventaire est

(1− ps)n

La probabilité d’inclure l’espèce est donc

1− (1− ps)n

Page 11: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Observer une espèce ν fois

La probabilité d’observer l’espèce ν fois avant de ne plusl’observer dans le reste de l’inventaire est pνs(1− ps)n−ν .

La probabilité d’observer l’espèce ν fois dans l’inventaire estobtenue en prenant en compte l’ordre des observations(combinaisons) :

(n

ν

)pνs(1− ps)n−ν

L’espérance du nombre d’espèces observées ν fois est obtenueen sommant cette probabilité sur toutes les espèces

E(Sνn) =(n

ν

)∑s

pνs (1− ps)n−ν

Page 12: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Représentation vectorielle

Soit le vecteur vν dans RS dont les coordonnées sont

pν/2s (1− ps)(n−ν)/2

Le carré de la norme du vecteur v0 est

∑s

(1− ps)n,

c’est-à-dire E(S0n), l’espérance du nombre d’espèces non

observées.

(Attention : on ne connaît pas les ps !).

Page 13: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Représentation vectorielle

Le carré de la norme du vecteur v2 est

∑s

p2s(1− ps)n−2 = 2

n(n− 1)E(S2n)

Enfin, le produit scalaire 〈v0,v2〉 vaut

∑s

ps(1− ps)n−1 = 1nE(S1

n).

Page 14: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Représentation graphique

Soient deux espèces telles que p1 = 0, 4 et p2 = 0, 6, et n = 6.

Le vecteur v0 a pour coordonnées

([1− 0, 4]3; [1− 0, 6]3) = (0.216; 0.064)

.

Le vecteur v2 a pour coordonnées

(0, 4× [1− 0, 4]2; 0, 6× [1− 0, 6]2) = (0.144; 0.096)

.

Page 15: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Représentation graphique

0.00 0.05 0.10 0.15 0.20

−0.

020.

000.

020.

040.

060.

080.

10

Le vecteur v0 dont le carré de la norme est E(S0n) est en noir.

Le vecteur v2 dont le carré de la norme est 2n(n−1)E(S2

n) est enrouge.

Page 16: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Cauchy-Schwarz

Le produit scalaire est inférieur au produit des normes desvecteurs. La relation reste valide au carré:

[∑s

ps(1− ps)n−1]2

≤[∑s

(1− ps)n] [∑

s

p2s(1− ps)n−2

]

En substituant les espérances et en réarrangeant:

E(S0n) ≥ n− 1

n

[E(S1

n)]2

2E(S2n)

Page 17: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Estimateur

L’estimateur est obtenu en remplaçant les espérances par lesvaleurs observées:

SChao1 = sobs + (n− 1)(s1n

)22ns2

n

Page 18: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Usage

Il s’agit d’un estimateur minimum : l’espérance du nombred’espèces est supérieure ou égale au nombre estimé.

L’estimation est bonne tant que l’inventaire n’est pas tropsous-échantillonné.

Règle empirique (Brose, Martinez, and Williams 2003) : pasplus d’un tiers des espèces observées une seule fois. Au-delà:sous estimation importante.

Page 19: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Section 3

Application

Page 20: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Simulation d’un inventaire

Communauté log-normale de 500 espèces, comparable à laforêt de Paracou. Echantillon de 4000 arbres (6 ha de forêt).

1

10

100

100 200 300 400Rank

Abu

ndan

ce

Page 21: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Estimation

Nombre d’espèces observées : 426,

dont singletons : 61,

et doubletons : 52.

Estimateur Chao1 : 462 espèces.

Page 22: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Test de l’estimateur

Simulation d’un grandnombre d’inventaires(10000) et estimation dela richesse à chaquesimulation.Le biais b est l’écartentre l’estimationmoyenne et la vraievaleur : -21 espèces.La variance empirique del’estimateur est σ2.L’erreur moyenneattendue de l’estimateurest√b2 + σ2, exprimée

en pourcentage de lavaleur réelle : 5%.

440 460 480 500 520 540

0.00

00.

005

0.01

00.

015

0.02

00.

025

Distribution des estimations

Simulated Values

Den

sity

Page 23: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Sous-échantillonnage

En limitant l’inventaire600 arbres, environ 1 ha,la sous-estimationdevient forte.L’erreur moyenne estmaintenant : 26%.

300 400 500 600

0.00

00.

002

0.00

40.

006

0.00

80.

010

0.01

2

Distribution des estimations

Simulated Values

Den

sity

Page 24: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Et Paracou ?

6,25 hainventoriés,environ 4000arbres.Le nombred’espècesobservées est 334,dont 98 singletons.L’estimateurChao1 donne 415espèces.

0 50 100 150 200 250

050

100

150

200

250

Page 25: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

Conclusion

L’estimation de la richesse à partir d’un échantillon est possiblesans faire aucune supposition sur la distribution desprobabilités.

Les estimateurs de ce type sont dits “non-paramétriques”. Ilssont bien supérieurs aux autres approches (estimateursparamétriques ou extrapolation de la courbe aire-espèce).

L’estimateur de Chao est le plus connu. Il est très efficacequand l’échantillonnage est suffisant (moins d’un tiers desingletons).

Pour en savoir plus : Mesures de la biodiversité(https://hal-agroparistech.archives-ouvertes.fr/cel-01205813)

Page 26: L’estimateur Chao1 · 2021. 1. 11. · L’estimateur Chao1 EricMarcon Introduction Construction del’estimateur Application Unité Mixte de Recherche ECOlogie des FOrêts de Guyane

L’estimateurChao1

Eric Marcon

Introduction

Constructionde l’estimateur

Application

Unité Mixte de Recherche

ECOlogie

des

FOrêts

de

Guyane

References

Ce document est entièrement reproductible grâce àRMarkdown. Son code source est hébergé sur GitHub :https://github.com/EricMarcon/Chao1.

Bibliographie :Brose, Ulrich, Neo D. Martinez, and Richard J. Williams. 2003. “Estimating species richness: Sensitivity tosample coverage and insensitivity to spatial patterns.” Ecology 84 (9): 2364–77.https://doi.org/10.1890/02-0558.

Chao, Anne. 2004. “Species richness estimation.” In Encyclopedia of Statistical Sciences, edited by NBalakrishnan, C B Read, and B Vidakovic, 2nd ed. New York: Wiley.