Slides udm-080910

113
Arthur CHARPENTIER, Statistique de l’assurance, sujets sp´ eciaux, STT 6705V Statistique de l’assurance, STT 6705 Statistique de l’assurance II Arthur Charpentier Universit´ e Rennes 1 & Universit´ e de Montr´ eal [email protected] ou ou [email protected] http ://freakonometrics.blog.free.fr/ 8 septembre 2010 1

Transcript of Slides udm-080910

Page 1: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Statistique de l’assurance, STT 6705Statistique de l’assurance II

Arthur Charpentier

Universite Rennes 1 & Universite de Montreal

[email protected] ou ou [email protected]

http ://freakonometrics.blog.free.fr/

8 septembre 2010

1

Page 2: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les donnees en tarification

une base de souscription ...

> contratUdM <- read.table("http://perso.univ-rennes1.fr/arthur.

+ charpentier/contratUdM.txt",header=TRUE,sep=";")

> head(contratUdM)

nocontrat exposition zone puissance agevehicule ageconducteur bonus

19 44 0.74 A 6 2 55 50

73 150 0.11 C 15 0 51 50

80 163 0.05 E 5 0 53 50

87 179 0.03 B 6 1 47 53

marque carburant densite region

19 12 E 94 13

73 12 D 22 13

80 12 E 93 13

87 2 E 91 13

2

Page 3: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les donnees en tarification

... et une base de sinistres,

> sinistreUdM <- read.table("http://perso.univ-rennes1.fr/arthur.

+ charpentier/sinistreUdM.txt",header=TRUE,sep=";")

> head(sinistreUdM)

no nocontrat garantie cout

33 33 4083980 2DO 566.84

35 35 4012009 2DO 683.90

37 37 1011804 4BG 54.70

69 69 4002627 1RC 1204.00

98 98 4013625 2DO 33.49

99 99 4013625 1RC 0.00

On se limitera aux sinistres responsabilite civile

> sinistres=sinistreUdM[sinistreUdM$garantie=="1RC",]

> nrow(sinistres)

3

Page 4: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

[1] 2697

On calcule le nombre de sinistres par contrat,

> T=table(sinistres$nocontrat)

> T1=as.numeric(names(T))

> T2=as.numeric(T)

> nombre1 = data.frame(nocontrat=T1,nbre=T2)

> I = contratUdM$nocontrat%in%T1

> T1=contratUdM$nocontrat[I==FALSE]

> nombre2 = data.frame(nocontrat=T1,nbre=0)

> nombre=rbind(nombre1,nombre2)

> table(nombre$nbre)

0 1 2 3 4 16

47510 2313 162 12 2 1

On peut alors fusionner les bases pour faire de l’econometrie,

4

Page 5: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> base = merge(contratUdM,nombre)

> head(base)

nocontrat exposition zone puissance agevehicule ageconducteur bonus

1 27 0.87 C 7 0 56 50

2 115 0.72 D 5 0 45 50

3 121 0.05 C 6 0 37 55

4 142 0.90 C 10 10 42 50

5 155 0.12 C 7 0 59 50

6 186 0.83 C 5 0 75 50

marque carburant densite region nbre

1 12 D 93 13 0

2 12 E 54 13 0

3 12 D 11 13 0

4 12 D 93 13 0

5 12 E 73 13 0

6 12 E 42 13 0

5

Page 6: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les donnees

– densite est la densite de population dans la commune ou habite le conducteurprincipal,

– zone : zone A B C D E ou F, selon la densite en nombre d’habitants par km2

de la commune de residence– marque : marque du vehicule selon la table suivante (1 Renault Nissan ; 2

Peugeot Citron ; 3 Volkswagen Audi Skoda Seat ; 4 Opel GM ; 5 Ford ; 6 Fiat ;10 Mercedes Chrysler ; 11 BMW Mini ;12 Autres japonaises et coreennes ; 13Autres europeennes ; 14 Autres marques et marques inconnues)

– region : code a 2 chiffres donnant les 22 regions franaises (code INSEE)– ageconducteur : ge du conducteur principal en debut de la couverture,– agevehicule : ge du vehicule en debut de periode.

On supposera le modele lineaire connu (sinon quelques rappels) avant de passeraux glm.

6

Page 7: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les modeles lineaires generalises

Considerons une densite de la forme suivante, dite exponentielle,

f(y|θ, φ) = exp(yθ − b(θ)

φ+ c(y, φ)

)La loi normale N (µ, σ2) appartient a cette famille, avec θ = µ, φ = σ2,b(θ) = θ2/2 et

c(y, φ) = −12

(y2

σ2+ log(2πσ2)

), y ∈ R,

La loi de Poisson P(λ) appartient a cette famille,

f(y|λ) = exp(−λ)λy

y!= exp

(y log λ− λ− log y!

), y ∈ N,

avec θ = log λ, φ = 1, b(θ) = exp θ = λ et c(y, φ) = − log y!.

La loi binomiale B(n, p) correspond au cas θ = logp/(1− p),

b(θ) = n log(1 + exp(θ)), φ = 1 et c(zy, φ) = log(n

y

).

7

Page 8: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

La loi Gamma est egalement dans la famille exponentielle,

f(y|µ, ν) =1

Γ(ν)

µ

)νyν−1 exp

(−νµy

), y ∈ R+,

avec θ = − 1µ

, b(θ) = − log(−θ) et φ = ν−1.

Pour une variable aleatoire Y dont la densite est de la forme exponentielle, alors

E(Y ) = b′(θ) et Var(Y ) = b′′(θ)φ

de telle sorte que la variance de Y apparaıt comme le produit de deux fonctions,– la premiere, b′′(θ) , qui depend uniquement du parametre θ est appelee

fonction variance– la seconde est independante de θ et depend uniquement de φEn notant µ = E(Y ), on voit que le parametre θ est lie a la moyenne µ. Lafonction variance peut donc etre definie en fonction de µ , nous la noteronsdorenavant V (µ).

Dans le cas de la loi normale, V (µ) = 1, dans le cas de la loi de Poisson,

8

Page 9: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

V (µ) = µ alors que dans le cas de la loi Gamma, V (µ) = µ2.

La fonction variance caracterise completement la loi de la famille exponentielle.

Chacune des lois de la famille exponentielle possede une fonction de lienspecifique, dite fonction de lien canonique, permettant de relier l’esperance µ auparametre naturel θ. Le lien canonique est tel que g?(µ) = θ. Or, µ = b′(θ) doncg?(·) = b′(·)−1.

Dans le cas de la loi normale, θ = µ (link=’identity’), dans le cas de la loi dePoisson, θ = log(µ) (link=’log’) alors que dans le cas de la loi Gamma, θ = 1/µ(link=’inverse’).

9

Page 10: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Modeles lineaires generalisees avec R

Sous R, la syntaxe des modeles lineaires generalisees est :

> glm(Y~X1+X2+X3+offset(Z), family =quasipoisson(link=’log’),

+ data, weights)

ce qui correspond a un modele

E(Yi|Xi) = µi = g−1(X ′iβ + ξi

)et Var(Yi|Xi) =

φV (µi)ωi

ou– Y est le vecteur des Yi que l’on cherche a modeliser (le nombre de sinistres de la

police i par exemple),– X1, X2 et X3 sont les variables explicatives qui peuvent etre qualitatives (on

parlera de facteurs) ou quantitatives,– link=’log’ indique que g est la fonction log,– family=poisson revient a choisir une fonction variance V identite, etfamily=quasipoisson revient a choisir une fonction variance V identite avec

10

Page 11: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

un parametre de dispersion φ a estimer,– offset correspond a la variable ξi,– weights le vecteur ωi.Cette fonction glm calcule alors des estimateurs de β et φ, entre autres, carcomme pour le modele lineaire gaussien (la fonction lm) on peut obtenir despredictions, des erreurs, ainsi qu’un grand nombre d’indicateurs relatifs a laqualite de l’ajustement.

On supposera que, conditionnellement aux variables explicatives X, les variablesY sont independantes, et identiquement distribuees. En particulier, on partirad’un modele de la forme

f(yi|θi, φ) = exp(yiθi − b(θi)

φ+ c(yi, φ)

)ou l’on supposera que g(µi) = ηi = X ′iβ pour une fonction de lien g(·) donnee(on gardera ainsi un score lineaire en les variables explicatives), et ou, pourrappel, µi = E(Yi|Xi).

11

Page 12: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Modeles lineaires generalisees avec R

La fonction lien est la fonction qui permet de lier les variables explicatives X a laprediction µ, alors que la loi apparaıt via la fonction variance, sur la forme del’heteroscedasticite et l’incertitude associee a la prediction. Le petit exempleci-dessous permet de visualiser sur un petit de donnees simple six regressionsGLM differentes,

> x <- c(1,2,3,4,5)

> y <- c(1,2,4,2,6)

> base <- data.frame(x,y)

> plot(x,y,pch=19,cex=1.5)

> regNId <- glm(y~x,family=gaussian(link="identity"))

> regNlog <- glm(y~x,family=gaussian(link="log"))

> regPId <- glm(y~x,family=poisson(link="identity"))

> regPlog <- glm(y~x,family=poisson(link="log"))

> regGId <- glm(y~x,family=Gamma(link="identity"))

> regGlog <- glm(y~x,family=Gamma(link="log"))

12

Page 13: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> plot(x,y,pch=19,cex=1.5)

> abs <- seq(0,7,by=.1)

> yp <- predict(regNId,newdata=data.frame(x=abs),se.fit = TRUE,

+ type="response")

> lines(abs,yp$fit,lwd=2)

> lines(abs,yp$fit+2*yp$se.fit,lty=2)

> lines(abs,yp$fit-2*yp$se.fit,lty=2)

13

Page 14: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

1 2 3 4 5

12

34

56

x

y

Modèle Gaussien lien identité

1 2 3 4 5

12

34

56

x

y

Modèle Poisson lien identité

1 2 3 4 5

12

34

56

x

y

Modèle Gamma lien identité

1 2 3 4 5

12

34

56

x

y

Modèle Gaussien lien logarithmique

1 2 3 4 5

12

34

56

x

y

Modèle Poisson lien logarithmique

1 2 3 4 5

12

34

56

x

y

Modèle Gamma lien logarithmique

14

Page 15: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Lire une sortie de regression

> reg1 <- glm(nombre~ageconducteur,data=nombre,family=

+ poisson(link="log"),offset=log(exposition))

> summary(reg1)

Call:

glm(formula = nombre ~ ageconducteur, family = poisson(link = "log"),

data = nombre, offset = log(exposition))

Deviance Residuals:

Min 1Q Median 3Q Max

-0.5685 -0.3527 -0.2611 -0.1418 13.3247

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -2.1369116 0.0207723 -102.87 <2e-16 ***

15

Page 16: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

ageconducteur -0.0101679 0.0004397 -23.12 <2e-16 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 171919 on 678012 degrees of freedom

Residual deviance: 171373 on 678011 degrees of freedom

AIC: 222190

Number of Fisher Scoring iterations: 6

On peut aussi transformer la variable continue en une variable discrete (enclasses d’age),

> seuils = c(17,21,25,30,45,55,65,80,120)

> nombre$agecut <- cut(nombre$ageconducteur,breaks=seuils)

> reg2 <- glm(nombre~agecut ,data=nombre,family=

+ poisson(link="log"),offset=log(exposition))

16

Page 17: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> summary(reg2)

Call:

glm(formula = nombre ~ agecut, family = poisson(link = "log"),

data = nombre, offset = log(exposition))

Deviance Residuals:

Min 1Q Median 3Q Max

-0.6566 -0.3522 -0.2601 -0.1413 13.2465

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.55416 0.03277 -47.42 <2e-16 ***

agecut(21,25] -0.52724 0.04186 -12.60 <2e-16 ***

agecut(25,30] -0.95181 0.03865 -24.62 <2e-16 ***

agecut(30,45] -1.08673 0.03441 -31.58 <2e-16 ***

agecut(45,55] -1.04649 0.03500 -29.90 <2e-16 ***

17

Page 18: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

agecut(55,65] -1.19279 0.03709 -32.16 <2e-16 ***

agecut(65,80] -1.27536 0.03876 -32.90 <2e-16 ***

agecut(80,120] -1.24017 0.06743 -18.39 <2e-16 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 171919 on 678012 degrees of freedom

Residual deviance: 170589 on 678005 degrees of freedom

AIC: 221417

Number of Fisher Scoring iterations: 6

Au lieu de comparer a la classe des jeunes conducteurs, on peut aussi comparerau conducteur moyen.

> seuils = c(17,21,25,30,45,55,65,80,120)

> reg2 = glm(nombre~0+cut(ageconducteur,breaks=seuils),

18

Page 19: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

+ data=nombre,family=poisson(link="log"),offset=log(exposition))

> reg2b <- glm(nombre~1,data=nombre,family=poisson(link="log"),

+ offset=log(exposition))

> moyenne <- exp(coefficients(reg2b))

> reg2c <- glm(nombre~0+cut(ageconducteur,breaks=seuils),

+ data=nombre,family=poisson(link="log"),offset=log(exposition))

> exp(coefficients(reg2c))/moyenne

19

Page 20: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les residus d’un modele lineaire generalise

Les residus de gauche sont les residus bruts, c’est a dire la difference entre Yi etYi. A droite, ce sont les residus de Pearson, i.e.

εi =Yi − Yi√V (Yi)

ou V est la fonction variance.

> RNIr <- residuals(regNId,type="response")

> RNIp <- residuals(regNId,type="pearson")

20

Page 21: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

1 2 3 4 5

−2

−1

01

2

Rés

idus

(br

uts)

Gaussien, identitéPoisson, identitéGamma, identitéGaussien, logPoisson, logGamma, log

1 2 3 4 5−

2−

10

12

Rés

idus

de

Pea

rson

Gaussien, identitéPoisson, identitéGamma, identitéGaussien, logPoisson, logGamma, log

21

Page 22: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

La deviance d’un modele lineaire generalise

Rappelons que l’outil de base pour quantifier la qualite de la regression est ladeviance

D(β) = −2[logL(β|Y )− logL?(Y )]

ou logL(β|Y ) designe la log-vraisemblance du modele, et ou logL?(Y ) est lalog-vraisemblance saturee (obtenue avec un modele parfait).

> logLik(regPlog)

’log Lik.’ -7.955383 (df=2)

> deviance(regPlog)

[1] 1.760214

> AIC(regPlog)

[1] 19.91077

> -2*logLik(regPlog)+2*2

[1] 19.91077

attr(,"df")

22

Page 23: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

AIC : −2 logL(β) + 2k

BIC : −2 logL(β) + k log(n)

> cat("AIC (Poisson-log) =",extractAIC(regPlog,k=2)[2])

AIC (Poisson-log) = 19.91077

> cat("BIC (Poisson-log) =",extractAIC(regPlog,k=log(nrow(base)))[2])

BIC (Poisson-log) = 19.12964

On peut comparer tous les modeles via :

> AIC(regNId,regNlog,regPId,regPlog,regGId,regGlog)

df AIC

regNId 3 21.10099

regNlog 3 20.63884

regPId 2 19.86546

regPlog 2 19.91077

regGId 3 18.01344

regGlog 3 18.86736

23

Page 24: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Du lineaire au nonlineaire

Le but de la tarification (et plus generalement de toute prediction) est d’estimerune esperance conditionnelle,

E(S|X = X) = ϕ(X) ou S = ϕ(X1, · · · , Xk) + ε

ou ϕ : Rk → R. Supposer un modele lineaire est problement une hypothese tropforte.

Mais on se doute qu’estimer une fonction definie sur Rk serait trop complexenumeriquement. Un bon compromis est propose par les modeles dit additifs.Quelques rappels) sont donnes sur les modeles nonlineaires (nonparametriques).

On peut regarder l’impact de la densite de population dans la commune del’assure sur la frequence de sinistre.

Les points noirs correspondent a la frequence moyenne empirique observee pourdifferents niveaux de densite

> library(mgcv)

24

Page 25: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> reg.gam <- gam(nombre~s(densite),offset=log(exposition),

+ family=poisson(link="log"),data=sinistres)

> dens.x <- seq(0,30000,100)

> pred <- predict(reg.gam,newdata=data.frame(densite=dens.x,expo=1),

+ se=TRUE,type="response")

> plot(dens,pred$fit,col="blue",lwd=2)

> lines(dens,pred$fit+2*N1RC0as1$se.fit,col="red",lty=2)

> lines(dens,pred$fit-2*N1RC0as1$se.fit,col="red",lty=2)

25

Page 26: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

0 5000 10000 15000 20000 25000 30000

0.00

0.05

0.10

0.15

Densité de population

Fré

quen

ce a

nnue

lle d

e si

nist

re

Les modeles additifs ont ete introduits par Stone (1985) qui notait qu’estimerune fonction ϕ : Rk → R serait numeriquement trop complexe (et probablement

26

Page 27: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

peu robuste). On cherche ici une decomposition de la forme

S = ϕ1(X1) + · · ·+ ϕk(Xk) + ε

ou les fonctions ϕj : R→ R sont supposees suffisament regulieres. En fait, cemodele n’est valable que pour les variables Xj continues, les variablesqualitatives continuant - generalement - a intervenir sous une forme lineaire.

Autrement dit, un modele additif serait

S = ϕ1(X1) + β2X2 + ε

ou X1 est l’ge du conducteur, et X2 le carburant du vehicule. Notons qu’il seraitaussi possible de considerer un modele de la forme

S =

ϕ1,E(X1) + ε si X2 = essence

ϕ1,D(X1) + ε si X2 = diesel

Ces deux types de modeles sont estimes ci-dessous.

> library(mgcv)

27

Page 28: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> reg <- gam(nombre~s(ageconducteur)+offset(exposition),

+ data=sinistres,family=poisson)

> age <- seq(17,100)

> AGE <- data.frame(ageconducteur=age,exposition=1)

> Y <- predict(reg,AGE,type="response")

> reg = gam(nombre~s(ageconducteur)+carburant+offset(exposition),

+ data=sinistres,family=poisson)

> AGE <- data.frame(ageconducteur=age,exposition=1,carburant="E")

> YE <- predict(reg,AGE,type="response")

> AGE <- data.frame(ageconducteur=age,exposition=1,carburant="D")

> YD <- predict(reg,AGE,type="response")

> plot(age,Y,type=’l’)

> lines(age,YD,col=’blue’)

> lines(age,YE,col=’red’)

Pour le premier type de modele, ou le code suivant pour le second,

> library(mgcv)

28

Page 29: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> reg <- gam(nombre~s(ageconducteur)+offset(exposition),

+ data=sinistres,family=poisson)

> age <- seq(17,100)

> AGE <- data.frame(ageconducteur=age,exposition=1)

> Y <- predict(reg,AGE,type="response")

> reg <- gam(nombre~s(ageconducteur)+offset(exposition),

+ data=sinistres[sinistres$carburant=="E",],family=poisson)

> YE <- predict(reg,AGE,type="response")

> reg <- gam(nombre~s(ageconducteur)+offset(exposition),

+ data=sinistres[sinistres$carburant=="D",],family=poisson)

> YD=predict(reg,AGE,type="response")

> plot(age,Y,type=’l’)

> lines(age,YD,col=’blue’)

> lines(age,YE,col=’red’)

29

Page 30: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 40 60 80 100

0.00

0.05

0.10

0.15

0.20

Age du conducteur principal

Fré

quen

ce a

nnue

lle d

e si

nist

res

30

Page 31: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 40 60 80 100

0.00

0.05

0.10

0.15

0.20

Age du conducteur principal

Fré

quen

ce a

nnue

lle d

e si

nist

res

31

Page 32: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Du lineaire au nonlineaire

Une autre possibilite est egalement d’uiliser la fonction glm avec lalibrary(splines). On peut alors changer facilement le nombre de degres deliberte, i.e. le parametre de lissage de la transformation,

> library(splines)

> reg3 <- glm(nombre~bs(ageconducteur,df=3)+offset(exposition),

+ data=nombre,family=poisson)

On peut s’autoriser eventuellement encore un peu plus de souplesse en prenanten compte le couple constitue de deux variables continues,

S = ϕ(X1, X2) + ε

ou ϕ : R2 → R, au lieu d’un modele GAM classique,

S = ϕ1(X1) + ϕ2(X2) + ε

Cette option est proposee par exemple dans library(mgcv)

32

Page 33: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

âge conducteur

âge

du v

éhic

ule

fréquence

espérée

33

Page 34: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 30 40 50 60 70 80

05

1015

2025

âge conducteur

âge

du v

éhic

ule

0.05

0.06

0.07

0.08

34

Page 35: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 30 40 50 60 70 80

05

1015

2025

âge conducteur

âge

du v

éhic

ule

0.05

0.06

0.06

0.07

0.07

0.08

0.08

0.1

0.15

0.2

35

Page 36: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 30 40 50 60 70 80

05

1015

2025

âge conducteur

âge

du v

éhic

ule

0.05

0.06

0.06

0.07

0.08

0.08

0.1

0.15

0.2

36

Page 37: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 30 40 50 60 70 80

05

1015

2025

âge conducteur

âge

du v

éhic

ule

37

Page 38: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les regression logit et probit

La regression logistique suppose que si π(Y |X) = P(Y = 1|X), alors

π(Y |X)1− π(Y |X)

=P(Y = 1|X)P(Y = 0|X)

= exp (Xβ)

Dans le cas du modele probit, on suppose qu’il existe un modele latent Gaussien,tel que

Y ?i = X ′iβ + εi

et que Yi = 0 si Y ?i < s, et Yi = 1 si Y ?i > s, et εi ∼ N (0, σ2).

La synthaxe de ces deux modeles est tres proche, car seule la fonction de lienchange.

> sinistres$touche <- sinistres$nombre>0

> reglogit <- glm(touche~ageconducteur,

+ data=sinistres,family=binomial(link="logit"))

> regprobit <- glm(touche~ageconducteur,

+ data=sinistres,family=binomial(link="probit"))

38

Page 39: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> age <- seq(17,100)

> AGE <- data.frame(ageconducteur=age,exposition=1)

> Yl <- predict(reglogit,AGE,type="response")

> Yp <- predict(regprobit,AGE,type="response")

> plot(age,Yp-Yl,type="l")

> abline(h=0,lty=2)

On notera que ces deux modeles donnent des predictions tres proches,

39

Page 40: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 40 60 80 100

0.03

40.

035

0.03

60.

037

0.03

8

Age du conducteur principal

Pro

babi

lité

d'av

oir

au m

oins

un

acci

dent

20 40 60 80 100

−0.

050.

000.

05

Age du conducteur principal

Diff

éren

ce r

elat

ive

(%)

40

Page 41: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les arbres de regression

Les arbres de regression sont des outils nonparametriques de segmentation. Dansun arbre de decision, on cherche a detecter des criteres permettant de repartir lesindividus en 2 classes, caracterisees par Y = 0 et Y = 1. On commence parchoisir la variable, qui, par ses modalites, separe le mieux les individus dechacune des classes. On constitue alors un premier noeud. On reintere alors laprocedure sur chaque nouveau noeud. Dans la methode CART (), on regardetoutes les possibilites. On continue soit jusqu’a ce qu’il ne reste plus qu’un seul.individu dans chaque noeud, soit suivant un critere d’arret. Les criteres dediscrimination et de constitution des noeuds sont generalement les suivants,– lorsque les variables explicatives Xj sont qualitatives, ou discretes, on utilise la

distance du χ2 (on parle d’arbre CHAID),– en presence de variables de tous types, on peut utiliser l’indice de Gini

(methode CART),– ou l’entropie (methode C5.0),Pour un varible continue, on distinguera X1 ≤ s et X1 > s. Pour une

41

Page 42: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

variable qualitative, on distinguera X1 = x et X1 6= x.

Pour chacune des variables, on regarde l’ensemble des classifications possibles.Quelles que soient les variables, on definit :

> seuilagecond <- unique(nombre$ageconducteur)

> seuilregion <- unique(nombre$region)

Pour les variables quantitatives, on distingue :

> k=5

> classe0 <- nombre$ageconducteur<=seuilagecod[k]

> classe1 <- nombre$ageconducteur>seuilagecod[k]

alors que pour les variables qualitatives,

> k=5

> classe0 <- nombre$region==seuilregion[k]

> classe1 <- nombre$region!=seuilregion[k]

Une fois constituees les 2 classes, on calcule un des criteres possibles.

42

Page 43: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Si on regarde la decomposition obtenue sur le premier noeud, on observe quepour les conducteurs de moins de 25 ans, la probabilite d’avoir un accident est de10%, contre 5% pour les conducteurs de plus de 25 ans. Dans le cas des regions,avec une distance du chi-deux, on cherche a minimiser

χ2 = −∑

classe∈0,1

∑y∈0,1

[nclasse,y − n⊥classe,y]2

n⊥classe,y

ou nclasse,y designe le nombre de personnes dans la classe consideree pourlesquelles la variable Y prend la modalite y.

> base=sinistres[sinistres$ageconducteur<=85,]

> seuil=sort(unique(base$ageconducteur))

> TABLE=rep(NA,length(seuil))

> names(TABLE)=seuil

> for(k in 1:(length(seuil)-1))

+ classe0 <- base$ageconducteur<=seuil[k]

+ classe1 <- base$ageconducteur>seuil[k]

+ M=matrix(

43

Page 44: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

+ rbind(c(sum(base$touche[classe0]==FALSE),

+ sum(base$touche[classe0]==TRUE)),

+ c(sum(base$touche[classe1]==FALSE),

+ sum(base$touche[classe1]==TRUE))),2,2)

+ TABLE[k]=-chisq.test(M)$statistic

> which.min(TABLE)

23

6

> plot(seuil,TABLE)

Autrement dit le meilleur decoupage possible est (17,23] et (23,85]

44

Page 45: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 30 40 50 60 70 80

−60

0−

500

−40

0−

300

−20

0−

100

0

Age du conducteur

Dis

tanc

e du

chi

−de

ux

A la seconde etape, on cherche une autre partition, en considerant la precedentecomme acquise,

> k1 = which(seuil==23)

45

Page 46: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> for(k in 1:(length(seuil)-1))

+ if(k!=k1)

+ classe0 <- (base$ageconducteur<=seuil[k])&(base$ageconducteur<=seuil[k1])

+ classe2 <- (base$ageconducteur>seuil[k])&(base$ageconducteur>seuil[k1])

+ classe1 <- 1-classe0-classe2

+ M=matrix(

+ rbind(c(sum(base$touche[classe0]==FALSE),

+ sum(base$touche[classe0]==TRUE)),

+ c(sum(base$touche[classe1]==FALSE),

+ sum(base$touche[classe1]==TRUE)),

+ c(sum(base$touche[classe2]==FALSE),

+ sum(base$touche[classe2]==TRUE))),3,2)

+ TABLE[k]=-chisq.test(M)$statistic

+

> which.min(TABLE)

84

67

46

Page 47: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> plot(seuil,TABLE)

20 30 40 50 60 70 80

−40

000

−30

000

−20

000

−10

000

0

Age du conducteur

Dis

tanc

e du

chi

−de

ux

47

Page 48: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Parmi les autres criteres, on peut aussi utiliser la distance de Gini,

G = −∑

classe∈0,1

nclasse

n

∑y∈0,1

nclasse,y

nclasse

(1− nclasse,y

nclasse

)ou l’entropie,

E = −∑

classe∈0,1

nclasse

n

∑y∈0,1

nclasse,y

nclasselog(nclasse,y

nclasse

)

Les arbres permettent une lecture relativement aisee pour l’utilisateur, etreposent sur des techniques nonparametriques. Aussi, contrairement auxmethodes GLM que nous verrons par la suite, le choix des lois ou la recherched’eventuelles nonlinearites n’intervient pas ici. Les arbres sont egalement peusensibles aux outliers. Mais les arbres, de par leur construction, posent aussicertains soucis. En particulier, on ne peut pas revenir en arriere, et lesequencement est tres important.

Cette etude sera particulierement interessante pour ecreter les gros sinistres.

48

Page 49: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

On supposera (arbitrairement) que les gros sinistres sont ceux dont le montantdepasse 50 000 euros.

> library(tree)

> sinistres$GS <- sinistres$cout>50000

> ARBRE <- tree(GS ~ puissance + zone + agevehicule ,

+ data=sinistres,split="gini")

Cet arbre etant manifestement trop etendu, on peut limiter en demandant aavoir au moins 5 000 assure par branche,

> ARBRE <- tree(GS ~ puissance + zone + agevehicule ,

+ data=sinistres,split="gini",minsize = 5000)

> ARBRE

> ARBRE

node), split, n, deviance, yval

* denotes terminal node

1) root 26444 87.710 0.003328

49

Page 50: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

2) zone: B,C,D,E,F 23080 68.790 0.002990

4) puissance < 5.5 8028 17.960 0.002242

8) zone: B,D,F 3442 3.995 0.001162 *

9) zone: C,E 4586 13.960 0.003053 *

5) puissance > 5.5 15052 50.830 0.003388

10) zone: B,C,E 10372 30.910 0.002989

20) agevehicule < 10.5 7541 17.960 0.002387

40) puissance < 7.5 5274 14.960 0.002844

80) agevehicule < 2.5 1291 5.972 0.004648 *

81) agevehicule > 2.5 3983 8.980 0.002260 *

41) puissance > 7.5 2267 2.996 0.001323 *

21) agevehicule > 10.5 2831 12.940 0.004592 *

11) zone: D,F 4680 19.910 0.004274 *

3) zone: A 3364 18.890 0.005648 *

On note qu’en fonction de la zone, de la puissance du vehicule et de l’anciennetedu vehicule, on peut determiner avec une bonne assurance la probabilite d’avoir

50

Page 51: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

un tres gros sinistre. Par exemple, pour les personnes n’habitant pas un endroittrop dense (les zones les plus denses correspondant a zone=A), en particulier leszones B, D et E, et si la puissance n’est pas trop elevee, puissance<5.5 laprobabilite d’avoir un tres gros sinistres est de l’ordre de 1/1000. La probabilitesera 4 fois plus grande si la le vehicule est puissant (puissance>5.5) et ancien,(agevehicule>10.5). Dans une zone dense, la probabilite sera plus de 5 fois plusgrande (quelles que soient les autres variables).

Si on trace l’arbre, on obtient le dessin de la Figure suivante

> plot(ARBRE)

> text(ARBRE,cex=.9,col="blue")

51

Page 52: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

|zone:bcdef

puissance < 5.5

zone:bdf zone:bce

agevehicule < 10.5

puissance < 7.5

agevehicule < 2.5

0.001162 0.003053

0.004648 0.002260

0.001323

0.004592

0.004274

0.005648

52

Page 53: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les nombres de sinistres par police

Une hypothese forte de la loi de Poisson est que E(N) = Var(N)

0

200

400

600

800

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Nombre de sinistres

Fré

quen

ce (

raci

ne c

arré

e)

Ajustement d’une loi de Poisson

Si l’on compare les valeurs numeriques, cela donne l’ajustement suivant (si l’on

53

Page 54: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

estime le parametre par la methode des moments (ou par maximum devraisemblance, ML qui ici concident) :

> library(vcd)

> gof = goodfit(N,type= "poisson",method= "ML")

> gof

Observed and fitted values for poisson distribution

with parameters estimated by ‘ML’

count observed fitted

[1,] 653047 653047 652055

[2,] 23592 23592 25453

[3,] 1299 1299 496

[4,] 62 62 6

[5,] 5 5 0

[6,] 2 2 0

54

Page 55: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

[7,] 1 1 0

[8,] 0 0 0

[9,] 1 1 0

[10,] 1 1 0

[11,] 0 0 0

[12,] 2 2 0

[13,] 0 0 0

[14,] 0 0 0

[15,] 0 0 0

[16,] 0 0 0

[17,] 1 1 0

La difference entre la valeur predite par le modele Poissonnien et les valeursobservees nous poussent a essayer de mieux comprendre l’heterogeneite qui existeau sein de nos donnees.

55

Page 56: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les variables explicatives qualitatives

Les facteurs sont des codifications de variables qualitatives. Dans la base, nousdisposons de plusieurs variables qualitatives comme le carburant carburant codeen E pour essence et D pour diesel, ou encore region pour la region franaise.

56

Page 57: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

5%

6%

7%

8%

9%

10%

57

Page 58: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Regresser une variable quantitative (comme le nombre de sinistres) sur unevariable factorielle correspond a faire une analyse de la variance.

> summary(lm(nombre~as.factor(region), data=nombre))

Call:

lm(formula = nombre ~ as.factor(region), data = nombre)

Residuals:

Min 1Q Median 3Q Max

-0.16115 -0.03477 -0.03477 -0.03477 15.96523

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.161150 0.002341 68.84 <2e-16 ***

as.factor(region)0 -0.091614 0.002763 -33.16 <2e-16 ***

as.factor(region)1 -0.102853 0.002819 -36.48 <2e-16 ***

58

Page 59: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

as.factor(region)2 -0.113822 0.002815 -40.43 <2e-16 ***

as.factor(region)3 -0.112168 0.002796 -40.12 <2e-16 ***

as.factor(region)4 -0.112059 0.002760 -40.60 <2e-16 ***

as.factor(region)5 -0.115453 0.002737 -42.18 <2e-16 ***

as.factor(region)6 -0.116853 0.002711 -43.10 <2e-16 ***

as.factor(region)7 -0.119643 0.002688 -44.51 <2e-16 ***

as.factor(region)8 -0.131576 0.002798 -47.03 <2e-16 ***

as.factor(region)9 -0.129934 0.002818 -46.11 <2e-16 ***

as.factor(region)10 -0.133945 0.002804 -47.77 <2e-16 ***

as.factor(region)11 -0.134594 0.002818 -47.77 <2e-16 ***

as.factor(region)12 -0.134683 0.002858 -47.12 <2e-16 ***

as.factor(region)13 -0.126384 0.002362 -53.50 <2e-16 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.2067 on 677998 degrees of freedom

Multiple R-squared: 0.005699, Adjusted R-squared: 0.005678

59

Page 60: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

F-statistic: 277.6 on 14 and 677998 DF, p-value: < 2.2e-16

ou directement, a l’aide de la fonction aov,

> summary(aov(nombre~as.factor(region), data=nombre))

Df Sum Sq Mean Sq F value Pr(>F)

as.factor(region) 14 166 11.8542 277.56 < 2.2e-16 ***

Residuals 677998 28956 0.0427

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

qui montre que la frequence de sinistres est sensiblement differente d’une region al’autre.

60

Page 61: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les variables quantitatives continues

Parmi les variables continues permettant d’expliquer la frequence de sinistres, onretiendra l’ge du vehicule agevehicule, ou l’ge du conducteur ageconducteur.On pourrait egalement utiliser le bonus observe a la souscription du contratbonus. Cette variable est liee a l’anciennete du permis et peut s’averer delicate aprendre en compte dans le modele.

Calculons la frequence empirique obervee en fonction de l’ge du conducteurprincipal (frequence brute).

> age = seq(18,100,by=1)

> FREQ = rep(NA,length(age))

> for(k in 1:length(FREQ))

+ I=nombre$ageconducteur==age[k]

+ X=nombre$nombre[I]

+ W=nombre$exposition[I]

+ FREQ[k]=weighted.mean(X/W,W)

+

61

Page 62: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> plot(age,FREQ)

La moyenne empirique est ici corrigee par l’exposition. La frequence annuelledevrait etre le nombre de sinistres observe divise par l’exposition, et on met unpoids proportionnel a l’exposition.

20 40 60 80 100

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Age du conducteur principal

Fré

quen

ce a

nnue

lle d

e si

nist

re

62

Page 63: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

La methode des marges

Bailey (1963) a propose une methode relativement simple pour faire de latarification, appelee method of marginal totals.

Plaons nous dans le cas ou les variables exogene X sont qualitatives, de tellesorte que l’on puisse definir des classes de risques. Alors

(N = n|X = X) = exp[−λX ]λnXn!

ou λX = exp[−X ′β]

ce qui donne une log-vraisemblance de la forme

L(β|ni,Xi) =n∑i=1

[−λXi] + ni log[λXi

]− log[ni!]

dont la condition du premier ordre donne les equations normales,∑i,Xi=X

ni =∑

i,Xi=X

λX

pour toute classe de risque X.

63

Page 64: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Si on regarde le cas ou les classes de risque sont constitues par la puissance duvehicule (definie en tant que facteur),

> nombre$puissance=as.factor(nombre$puissance)

> marges=glm(nombre~puissance,

+ data=nombre,family=poisson(link="log"))

> summary(marges)

Call:

glm(formula = nombre ~ puissance, family = poisson(link = "log"),

data = nombre)

Coefficients:

Estimate Std. Error z value Pr(>|z|)

puissance4 -3.35967 0.01580 -212.70 <2e-16 ***

puissance5 -3.19353 0.01397 -228.53 <2e-16 ***

puissance6 -3.16181 0.01259 -251.14 <2e-16 ***

64

Page 65: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

puissance7 -3.25744 0.01337 -243.68 <2e-16 ***

puissance8 -3.34965 0.02463 -135.98 <2e-16 ***

puissance9 -3.20436 0.02862 -111.97 <2e-16 ***

puissance10 -3.24813 0.02865 -113.36 <2e-16 ***

puissance11 -3.24661 0.03742 -86.75 <2e-16 ***

puissance12 -3.32324 0.05812 -57.17 <2e-16 ***

puissance13 -3.14545 0.08482 -37.08 <2e-16 ***

puissance14 -3.14705 0.09950 -31.63 <2e-16 ***

puissance15 -3.41704 0.10206 -33.48 <2e-16 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 1307478 on 678013 degrees of freedom

Residual deviance: 175926 on 678001 degrees of freedom

AIC: 226763

65

Page 66: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Number of Fisher Scoring iterations: 6

> exp(marges$coefficients[6])

puissance9

0.04058501

Ce que nous dit la methode des marges est que cette valeur predite correspond ala moyenne empirique au sein de la classe de risque,

> I=(nombre$puissance=="9")

> mean(nombre$nombre[I])

[1] 0.04058501

L’idee est a la fois simple et naturelle sur les modeles ne comportant que desclasses de risques (et pas de variable continue).

66

Page 67: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Prise en compte de l’exposition et variable offset

Dans un modele collectif, on a besoin de connaıtre le nombre de sinistressurvenus sur une police d’assurance. Dans l’optique de tarifer un contrat, il fautpouvoir predire le nombre de sinistres qui surviendront, en moyenne, l’anneesuivante. Or si certains polices n’ont ete observees que 6 mois dans la base, ilconvient de ponderer la frequence de sinistre par l’exposition. Compte tenu de lapropriete multiplicative d’un processus de Poisson, une police observee 1 an aura,en moyenne, 4 fois plus de sinistres qu’une police observee 3 mois. Dans le casd’un modele log-Poisson, il est alors naturel de supposer que

Y |X ∼ P(exp[Xβ + log(e)])

ou e designe l’exposition, mesuree en annees.

Dans le cas des regressions de Poisson, cela peut se faire de la maniere suivante

> marges=glm(nombre~0+puissance+region,

+ data=nombre,family=poisson(link="log"),offset=log(exposition))

67

Page 68: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

On peut noter que la regression pouvait s’ecrire

Y |X ∼ P(exp[β0 + β1X1 + · · ·+ βkXk + e])

autrement dit on rajoute l’exposition dans la regression, tout en forant lecoefficient a etre egal a 1. Ceci legitime ainsi la seconde ecriture possible

> marges=glm(nombre~0+puissance+region+offset(exposition),

+ data=nombre,family=poisson(link="log"))

Dans une regression poissonnienne, on suppose que dans une classe de risque (ouconditionnellement aux variables explicatives), la frequence et l’esperanceconcident, i.e. Var(Y |X) = E(Y |X). Dans l’exemple ci-dessous, on considere lenombre de sinistres RC. On consistue quelques classes tarifaires,

> moyenne = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant,

+ "puissance"")], mean)

> variance = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant,

+ "puissance"")], var)

> taille = tapply(BASENB$expo , BASENB[,c("agecond","carburant",

68

Page 69: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

+ "puissance")], sum)

> plot(as.vector(moyenne),as.vector(variance))

> abline(a=0,b=1,col="red")

> abline(lm(as.vector(variance)~as.vector(moyenne)),col="blue",lty=2)

0.00 0.05 0.10 0.15

0.0

0.2

0.4

0.6

0.8

1.0

Moyenne par classe de risque

Var

ianc

e

69

Page 70: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

On peut commencer par faire un premier test, afin de voir si la pente de laregression semble significativement differente

> library(AER)

> (regression=lm(as.vector(variance)~as.vector(moyenne),

+ weight=as.vector(taille))

Call:

lm(formula = as.vector(variance) ~ as.vector(moyenne),

weights = as.vector(taille))

Coefficients:

(Intercept) as.vector(moyenne)

-0.003966 1.200848

> linear.hypothesis(regression,"as.vector(moyenne)=1")

Linear hypothesis test

70

Page 71: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Hypothesis:

as.vector(moyenne) = 1

Model 1: as.vector(variance) ~ as.vector(moyenne)

Model 2: restricted model

Res.Df RSS Df Sum of Sq F Pr(>F)

1 1653 67.658

2 1654 70.460 -1 -2.8024 68.468 2.623e-16 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Une maniere de prendre en compte la surdispersion peut etre de prendre non uneloi de poisson, mais une loi quasipoisson, telle que Var(Y |X) = φE(Y |X), ouφ devient un parametre a estimer (tout comme la volatilite des residus dans uneregression lineaire Gaussienne).

> regglm <- glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),

71

Page 72: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

+ offset=log(expo), data=BASENB,family=quasipoisson)

> summary(regglm)

Call:

glm(formula = N1RC ~ as.factor(agecond) + carburant + as.factor(puissance),

family = quasipoisson, data = BASENB[I, ], offset = log(expo))

(Dispersion parameter for quasipoisson family taken to be 1.583862)

> (summary(regglm)$dispersion)

[1] 1.583862

Pour tester la presence d’une eventuelle surdispersion, on peut noter que lasurdispersion correspond a une heterogeneite residuelle, c’est a dire un effetaleatoire. Par exemple on peut supposer que

(Y |X = X,Z = z) ∼ P(exp[X ′β + z′α])

72

Page 73: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

de telle sorte que si u = z′α− E(Z ′α|X = X), alors

(Y |X = X,Z = z) ∼ P(exp[X ′γ + u])

On a un modele dit a effets fixes, au sens ou

(Y |X = X) ∼ P(exp[X ′γ + U ])

ou U = Z ′α− E(Z ′α|X = X). Par exemple, si on suppose que U ∼ γ(a, a), i.e.d’esperance 1 et de variance σ2 = 1/a, alors

(Y |U = u) ∼ P(λu) ou λ = exp[X ′γ]

de telle sorte queE(Y |U = u) = Var(Y |U = u).

Mais si on regarde la loi nonconditionnelle, E(Y ) = λ alors que

Var(Y ) = Var(E[Y |U ]) + EVar(Y |)) = λ+ λ2σ2.

73

Page 74: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

On peut alors proposer un test de la forme suivante : on suppose que

Var(Y |X = X) = E(Y |X = X) + τ · E(Y |X = X)2

on on cherche a testerH0 : τ = 0 contre τ > 0

Parmi les statistiques de test classique, on pourra considerer

T =∑ni=1[(Yi − µi)2 − Yi]√

2∑ni=1 µ

2i

qui suit, sous H0, une loi normale centree reduite. On utilise simplementdispersiontest() de library(MASS).

> regpoisson=glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),offset=log(expo),

+ data=BASENB,family=poisson)

> dispersiontest(regpoisson)

Overdispersion test

74

Page 75: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

data: regpoisson

z = 6.4039, p-value = 7.572e-11

alternative hypothesis: true dispersion is greater than 1

sample estimates:

dispersion

1.069558

Une autre possibilite est de faire une regression binomiale negative (quipermettra de prendre en compte de la surdispersion). Elle se fait a l’aide de lafonction glm.nb() de library(MASS).

> regbn <- glm.nb(N1RC~as.factor(agecond)+carburant+as.factor(puissance)

+ offset(log(expo)),data=BASENB[I,])

Remark 1. La loi Binomial Negative est obtenue comme un melangePoisson-Gamma. Dans library(gamlss) on parle de loi binomiale negative detype I. Une loi de type II est obtenue en considerant un melange Poisson-inverseGaussienne.

75

Page 76: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les modeles a inflation de zeros

Afin d’eviter l’alea moral, il n’est pas rare de mettre en place des contratsparticipatifs. En assurance, l’exemple le plus connu est probablement lemecanisme de bonus-malus.

Une personne qui n’a pas d’accident responsable une annee a le droit a un rabaisl’annee suivante (un bonus) alors qu’une personne ayant eu un ou plusieurssinistres subit une majoration de prime (un malus). D’un point de vueeconometrique, cette solution presente un biais puisqu’elle peut insiter despersonnes a ne pas declarer certains sinistres (des lors que la majoration excedele cot du sinistre). Il n’est alors pas rare d’observer trop de personnesnon-sinistrees dans la population totale (par rappport a un modele Poissonnien).

Un modele dit zero inflated est un melange entre une masse en 0 et un modeleclassique de comptage, typiquement un modele de Poisson, ou binomial negatif.Pour modeliser la probabilite de ne pas declarer un sinistre (et donc d’avoir un

76

Page 77: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

surpoids en 0), considerons un modele logistique par exemple,

πi =exp[X ′iβ]

1 + exp[X ′iβ]

Pour le modele de comptage, on note pi(k) la probabilite que l’individu i ait ksinistres. Aussi,

P(Ni = k) =

πi + [1− πi] · pi(0) si k = 0,

[1− πi] · pi(k) si k = 1, 2, · · ·

Si pi correspond a un modele Poissonnien, on peut alors montrer facilement queENi) = [1− πi]µi et Var(Ni) = πiµi + πiµ

2i [1− πi].

library(gamlss) propose la fonction ZIP (pour zero inflated Poisson), maisaussi ZINBI (lorsque pi correspond a une loi binomiale negative), ou ZIPIG (pourun melange Poisson-inverse Gaussien), par exemple. La library(pscl) proposeegalement une fonction zeroinfl plus simple d’utilisation, proposant aussi bienun modele de Poisson qu’un modele binomial negatif.

77

Page 78: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Il existe aussi des modeles dits zero adapted, ou l’on suppose que

P(Ni = k) =

πi si k = 0,

[1− πi] ·pi(k)

1− pi(0)si k = 1, 2, · · ·

Dans library(gamlss) il s’agit du modele ZAP. Comme auparavant, il existe desfonctions ZANBI ou ZAPIG.

Ces modeles a inflation zero peuvent etre particulierement utiles pour prendre encompte un exces de non-declarations de sinistres, generalement attribuees a unepeur de perdre un niveau interessant de bonus-malus : la perte financiere associeeau malus des annees suivantes peut exceder l’indemnite versee aujourd’hui. Onpeut ajuster ici un modele zero-inflated (logit) avec une loi de Poisson afind’expliquer la sinistralite en fonction de l’ge du conducteur (en prenant encompte l’ge via une fonction nonlineaire que l’on estimera a l’aide de splines).

> reg1 <- glm(nombre~ageconducteur,offset=exposition,data=nombre,

+ family=poisson)

78

Page 79: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> reg2 <- glm(nombre~bs(ageconducteur,df=4),offset=exposition,

+ data=nombre,family=poisson)

> reg3 <- zeroinfl(nombre~ageconducteur | ageconducteur,

+ data = nombre,offset=exposition,dist = "poisson",link="logit")

> reg4 <- zeroinfl(nombre~bs(ageconducteur,df=4) | bs(ageconducteur),

+ data = nombre,dist = "poisson",link="logit",offset=exposition)

La prediction obtenue pour les ges usuels est presentee sur la figure ci-dessous. Sil’on ne prend pas en compte l’ge de maniere nonlineaire, les deux modelespredisent sensiblement la meme chose.

79

Page 80: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 30 40 50 60 70

0.02

0.04

0.06

0.08

0.10

0.12

Age du conducteur princpal

Fré

quen

ce a

nnue

lle d

e si

nist

re

Poisson, linéairePoisson, nonlinéaireZero inflated Binomiale Negative, linéaireZero inflated Binomiale Negative, nonlinéaire

On peut s’interesser plus particulierement a l’impact de l’ge sur la probabilite dene pas declarer de sinistres (correspondant au parametre de la loi binomiale).

> age=seq(18,80)

80

Page 81: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

> DT=data.frame(ageconducteur=age,exposition=1)

> Y4z <- predict(reg4,newdata=DT,type="zero")

> plot(age,Y4z)

20 30 40 50 60 70 80

0.5

0.6

0.7

0.8

0.9

Age du conducteur princpal

Pro

babi

lité

de n

e pa

s dé

clar

er u

n si

nist

re

81

Page 82: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

On notera que l’interpretation en terme de niveau de bonus-malus semblepertinente, en particulier si l’on regarde le bonus moyen en fonction de l’ge duconducteur : le taux de bonus (et donc la prime) diminue avec l’ge, ce qui inciteprobablement a ne pas declarer certains petits sinistres responsables.

20 30 40 50 60 70 80

5060

7080

9010

011

0

Age du conducteur principal

Niv

eau

de b

onus

moy

en

82

Page 83: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Regression simple versus regression multiple

20 40 60 80

0.00

0.05

0.10

0.15

Age du conducteur principal

Fré

quen

ce a

nnue

lle d

e si

nist

re

83

Page 84: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 40 60 80

0.00

0.05

0.10

0.15

Age du conducteur principal

Fré

quen

ce a

nnue

lle d

e si

nist

re

DieselEssence

84

Page 85: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 40 60 80

0.00

0.05

0.10

0.15

Age du conducteur principal

Fré

quen

ce a

nnue

lle d

e si

nist

re

Voiture récente (<5 ans)Voiture ancienne (>6 ans)

85

Page 86: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

20 40 60 80

0.00

0.05

0.10

0.15

Age du conducteur principal

Fré

quen

ce a

nnue

lle d

e si

nist

re

Faible densitéDensité élevée

86

Page 87: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Rappels d’econometrie lineaire

Le modele lineaire (lm) s’ecrit

Yi = β0 + β1X1,i + · · · , βkXk,i + εi ou Yi = (1, X1,i, · · · , Xk,i)︸ ︷︷ ︸X′

i

(β0

βk

)︸ ︷︷ ︸β

+εi

ou• Y est la variable a expliquer, ou reponse, output, variable dependante,

predicteur, ou variable endogene• les Xj sont les variables explicatives, ou predicteurs, input, variables

independantes, regresseurs ou variables exogenes• ε est un bruit, suppose non explique (ou orthogonal) par les variables

explicatives.

87

Page 88: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

ou encore Y1

...

Yn

︸ ︷︷ ︸Y,n×1

=

1 X1,1 · · · X1,k

......

. . ....

1 Xn,1 · · · Xn,k

︸ ︷︷ ︸

X,n×(k+1)

β0

β1

...

βk

︸ ︷︷ ︸β,(k+1)×1

+

ε1...

εn

︸ ︷︷ ︸ε,n×1

.

Considerons - pour commencer un modele lineaire simple,

Yi = β0 + β1Xi + εi ou Yi = (1, Xi)︸ ︷︷ ︸X′

i

(β0

β1

)︸ ︷︷ ︸β

+εi

ou εi est un bruit. Si X est suppose “exogene”, deterministe, ou donne, onsuppose que εi est• centre E(εi) = 0,• de variance constante V ar(εi) = σ2,• non autocorrele, Cov(εi, εj) = 0 pour i 6= j,

88

Page 89: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Aussi, pour les residus, on suppose que l’on a

E(ε) = E

ε1...

εn

=

0...

0

V ar(ε) = σ2In = σ2

1 0 · · · 0

0 1 · · · 0...

. . ....

0 · · · · · · 1

=

σ2 0 · · · 0

0 σ2 · · · 0...

. . ....

0 · · · · · · σ2

89

Page 90: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Soit β l’estimateur par moindres carres, β = (X ′X)−1X ′Y ,• β estime sans biais β, i.e. E(β) = β ; la variance est V ar(β) = σ2(X ′X)−1.• Theoreme de Gauss-Markov : parmi les estimateurs lineaires et sans biais de β,

l’estimateur par moindres carrees est de variance minimale, i.e. BLUE

• σ2 =1

n− k

n∑i=1

n∑i=1

(Yi −Xiβ)2 estime sans-biais σ2.

Si ε ∼ N (0, σ2),• β est egalement l’estimateur du maximum de vraisemblance• parmi les estimateurs sans biais de β est l’estimateur de variance minimale, i.e.

BUE,

• β ∼ N (β, σ2(X ′X)−1) et (n− k)σ2

σ∼ χ2(n− k).

Sous l’hypothese ou εi ∼ N (0, σ2), Yi ∼ N (Xβ, σ2), et comme

β = (X ′X)−1X ′Y

∼ N ((X ′X)−1X ′Xβ, [(X ′X)−1X ′]′[(X ′X)−1X ′]σ2)

∼ N (β, (X ′X)−1σ2),

90

Page 91: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

soit, pour tout j,

βj − βj√V ar(βj)

=βj − βj√

[(X ′X)−1]jjσ2∼ N (0, 1),

or comme σ est inconnue, on la remplace par un estimateur independant del’estimateur des βj .

Aussiβj − βj√V ar(βj)

=βj − βj√

[(X ′X)−1]jj σ2∼ St(n− k),

ou k est le nombre de variables explicatives. Aussi,

βj ∈[βj ± t1−α/2

√[(X ′X)−1]jj σ2

],

sous l’hypothese ou εi ∼ N (0, σ2).

Les resultats precedants permettent de proposer un test simple de

H0 : βj = 0 contre l’hypothese H1 : βj 6= 0.

91

Page 92: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

La statistique de test

Tj =βj√

V ar(βj)∼ St(n− k) sous H0.

Les deux lectures possibles d’un test• donner la region de rejet, de la forme [±T1−α/2], avec un seuil α fixe

arbitrairement ( par dfaut 95%)• donner le seuil α tel que la region de rejet soit [±t] (la plus petite region de

rejet a laquelle appartienne la statistique observee), i.e. la probabilite que derejeter H0 si H0 etait vraie.

Dans ce dernier cas, on parle de p-value, p = P(rejeter H0|H0 vraie) : si p estfaible, on rejette H0, car il y a peu de chances qu’H0 soit vraie.

92

Page 93: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Lecture du test de Student

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

Region de rejet du test de Student

ACCEPTATION

DE H0

REJET

DE H0

REJET

DE H0

Aire totale = 5%

93

Page 94: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Lecture du test de Student

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

p−value associée à un test de Student

Aire totale = 1,23%

Le critere d’Akaike, note souvent AIC

AIC = 2k − 2 log(L) = 2k + n

[log

(2π

1n

n∑i=1

ε2i

)+ 1

]

94

Page 95: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

dans le cas Gaussien.

Le critere de Schwarz, note SIC (Schwarz Information Criterion), ou critereBayesien, note BIC

BIC = −2 log(L) + k ln(n) = n ln

(n∑i=1

ε2i

)+ k ln(n).

95

Page 96: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Quelques idees generales en estimation nonparametrique

Rappelons qu’un esperance conditionnelle est l’esperance associee a la loiconditionnelle, i.e.

m(x) = E(Y |X = x) =∫yfY |X=x(u|x)du =

∫yfY,X(u, x)fX(x)

du

qui peut se reecrire simplement

m(x) =∫yfY,X(u, x)dufX(x)

=∫yfY,X(u, x)du∫fY,X(u, x)du

.

Tukey (1961) a propose de transposer l’histogramme au a l’approximation(nonparametrique) de l’esperance conditionelle.

96

Page 97: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Soit (Bj)j=1,·,m une partition du support de X,

ϕ(x) =

n∑i=1

Yi1(Xi ∈ Bj)

n∑i=1

1(Xi ∈ Bj)pour tout x ∈ Bj .

On parle de regressogramme, propose par Tukey (1961)

97

Page 98: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

5 10 15 20 25

020

4060

8010

012

0

vitesse du véhicule

dist

ance

de

frei

nage

5 10 15 20 25

020

4060

8010

012

0vitesse du véhicule

dist

ance

de

frei

nage

98

Page 99: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Naturellement, on peut considerer un regressogramme glissant,

ϕ(x) =

n∑i=1

Yi1(Xi ∈ [xh;x+ h])

n∑i=1

1(Xi ∈ [xh;x+ h])

pour tout x,

ou h > 0.

99

Page 100: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

5 10 15 20 25

020

4060

8010

012

0

vitesse du véhicule

dist

ance

de

frei

nage

5 10 15 20 25

020

4060

8010

012

0vitesse du véhicule

dist

ance

de

frei

nage

100

Page 101: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Notons qu’on peut egalement obtenir un intervalle de confiance, soit en utilisantun intervalle de confiance gaussien (avec l’ecart-type estime sur le voisinage, -) ouen utilisant les quantiles empiriques (-).

5 10 15 20 25

020

4060

8010

012

0

vitesse du véhicule

dist

ance

de

frei

nage

5 10 15 20 25

020

4060

8010

012

0

vitesse du véhicule

dist

ance

de

frei

nage

101

Page 102: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Nous venons de prendre la moyenne sur les voisins de x distants d’au plus ±h.Une autre idee peut etre de chercher les k plus proches voisins

ϕ(x) =

n∑i=1

Yi1(Xi ∈ Vx)

n∑i=1

1(Xi ∈ Vx)

pour tout x,

ou Vx contient les k plus proches voisins de x.

102

Page 103: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

5 10 15 20 25

020

4060

8010

012

0

vitesse du véhicule

dist

ance

de

frei

nage

5 10 15 20 25

020

4060

8010

012

0vitesse du véhicule

dist

ance

de

frei

nage

103

Page 104: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Au vu de l’expression precdante, on a simplement besoin d’estimer la loiconditionnelle de Y sachant X = x. Stone (1977) a suggere une forme tresgenerale,

Fn(y|x) =n∑i=1

ωi,n(x)1(Yi ≤ y),

ou ωi,n(x) est le poid associe a la ieme observation, parmi les n.

Intuitivement, les poids doivent etre importants pour les poids dont les Xi sontau voisinage immediat de x

Nadaraya (1964) et Watson (1964) ont suggere des poids de la forme suivante

ωi,n(x) =K

(x−Xi

h

)∑ni=1K

(x−Xi

h

)ou K est appele noyau et h fenetre.

104

Page 105: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Royall (1966) propose d’utiliser des methodes dites des plus proches voisins,

ωi,n(x) = crx(i),n, ou rx(i) est le rang de ‖x−Xi‖

ou la fonction c mets des poids importants pour les premiers rangs (observationsdont Xi est proche de x).

Yang (1981) propose de melanger ces m’ethodes en considerant des poids

ωi,n(x) ∝ K

(Fn(x)− Fn(Xi)

h

).

Friedman (1984) a propose de considerer des regressions localement lineaires. Soit

ωi,n(x) = wi,n ·(

1 +(x−X)

s

(Xi −X)s

)ou X =

∑wi,nXi et s2 =

∑wi,n[Xi −X]2.

Enfin, Reinsch (1967) et Silverman (1985, JRSS B) propose d’utiliser des

105

Page 106: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

fonctions splines, i.e. on cherche une fonction g qui minimise

1n

n∑i=1

[Yi − g(x)]2 + λ

∫g′′(z)2dz.

On peut montrer que la solution est alors

g(x) =n∑i=1

G(x, i)Yi, ou G(x, i) =1n

1f(Xi)

1h(Xi)

κ

(x−Xi

h(xi)

)

h(xi)4 =λ

f(xi)et κ(z) =

12

exp(− |z|√

2

)sin(|z|√

2+π

4

)OU f est la densite de

X.

L’estimateur a noyau de l’esperance conditionnelle m(x) = E(Y |X = x) a partird’un echantillon (X1, Y1), · · · , (Xn, Yn) est

mn(x) =∑ni=1Kh(x−Xi)Yi∑ni=1Kh(x−Xi)

ou Kh(u) =1hK(uh

)ou h est un parametre d’echelle. On parlera d’estimateur de Nadaraya-Watson.

106

Page 107: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Notons que si h→ 0, alors mn(Xi)→ Yi. En revanche, si h→∞, alorsmn(Xi)→ Y .

Paramètre de lissage

0.0 0.2 0.4 0.6 0.8 1.0

VARIANCE

BIAS

L’idee est d’ajuster, au voisinage de x0 un polynme. Pour cela, on utiliser

107

Page 108: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

l’expansion de Taylor,

f(x) ≈ f(x0) + (x− x0)f ′(x0) +(x− x0)2

2!f ′′(x0) + · · ·

Il est alors naturel de chercher un estimateur de la forme

β = argmin

n∑i=1

ωi(Yi − [β0 + β1(Xi − x0) + β2(Xi − x0)2 + · · · ]

)2ou ωi = Kh(Xi − x0).

L’estimation de β peut alors etre vu comme un probleme de moindres carresponderes, i.e.

β = argmin (Y −Xβ)′Ω(Y −Xβ)

ou Ω = diag(Kh(X1 − x0), · · · ,Kh(Xn, x0)) et

X = [Xi,j ] ou Xi,j = (Xi − x0)j−1

Si l’on se contente de regresser localement sur une constante, on obtientl’estimateur de Nadaraya-Watson.

108

Page 109: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Les ajustements locaux

> loess(dist ~ speed, cars,span=0.75,degree=2)

> predict(REG, data.frame(speed = seq(5, 25, 0.25)), se = TRUE)

Le parametre span correpond au pourcentage de points gardes pour fairel’ajustement local, et degree est le typoe de regression polynomiale.

Ici ajustement local au voisinage de x = 15, avec 25% de points pour definir levoisinage (on garde 25% des points les plus proches, en x), et un ajustementlinaire.

109

Page 110: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

5 10 15 20 25

020

4060

8010

012

0

Vitesse du véhciule

Dis

tanc

e de

frei

nage

5 10 15 20 25

020

4060

8010

012

0Vitesse du véhciule

Dis

tanc

e de

frei

nage

110

Page 111: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Ici ajustement local au voisinage de x = 15, avec 50% de points pour definir levoisinage (on garde 50% des points les plus proches, en x), et un ajustementlinaire.

5 10 15 20 25

020

4060

8010

012

0

Vitesse du véhciule

Dis

tanc

e de

frei

nage

5 10 15 20 25

020

4060

8010

012

0

Vitesse du véhciule

Dis

tanc

e de

frei

nage

111

Page 112: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Regression spline

Nous avons vu la regression locale et par ajustement locaux de polynomes. Unesolution alternative est d’approcher ϕ par des fonctions polynomiales parmorceaux, les morceaux etant separes par des noeuds, avec des recollements entreles morceaux plus ou moins lisses.

Formellement, les splines d’ordre q sont• composees de (q + 1) polynomes de degre q,• avec q raccords (interieurs),• en chaque noeud, les derivees d’ordre j, j = 1, 2, · · · , q − 1 sont continues• dont le support est un intervalle contenant les q noeuds.On suppose que E(Y |X = x) = ϕ(x) ou ϕ est la fonction que l’on cherche aestimer. Supposons que l’on cherche a resoudre le programme d’optimisationsuivant,

ϕλ,n = argming∈L2

n∑i=1

|Yi − g(Xi)|2 +∫ 1

0

|g′′(x)|2dx︸ ︷︷ ︸

112

Page 113: Slides udm-080910

Arthur CHARPENTIER, Statistique de l’assurance, sujets speciaux, STT 6705V

Il est possible de montrer que la solution appartient forcement a l’ensemble dessplines cubiques de noeuds Y1, · · · , Yn.

113