Mémoire présenté le - ressources-actuarielles.net · 2018-11-07 · Ahmed Tidiane DIOMANDE 6/96....

De 1

Mémoire présenté le :

pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA et l’admission à l’Institut des Actuaires

Par : Ahmed Tidiane DIOMANDE

Titre : Tarification de garanties santé liées à un portefeuille

d'expatriés

Confidentialité : _ NON � OUI (Durée : � 1 an � 2 ans) Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus. Membres présents du jury de l’IA Signature Entreprise Nom : AXA France Signature : Membres présents du jury de l’ISFA Directeur de mémoire en entreprise Nom : M. François BERGER Signature : Invité Nom : Signature : Autorisation de publication et de mise

en ligne sur un site de diffusion de documents actuariels (après expiration de l’éventuel délai de confidentialité)

Signature du responsable entreprise Secrétariat : Signature du candidat Mme Christine DRIGUZZI Bibliothèque : Mme Patricia BARTOLO

http://www.institutdesactuaires.fr/gene/main.php

Résumé

Dans cette étude, nous nous intéressons à la tarification des garanties frais de santédu portefeuille santé expatriés d’AXA Solutions Collectives géré par MSH 1. Une précé-dente étude datant de 2006 avait permis d’établir des normes de tarification par applica-tion de la méthode Fréquence ◊ Coût moyen déterministe. Les normes tarifaires ont étéensuite mises à jour d’une année de souscription à une autre par intégration de taux dedérive de la consommation médicale appliqués aux tarifs de 2006. Le biais relatif à cetteapproche augmentant avec le temps, nous proposons dans ce mémoire une méthode detarification basée sur la théorie des modèles linéaires généralisés (GLM 2). La stabilité deces modèles sur les échantillons restreints et la souplesse qu’ils o�rent en terme de prédic-tion ont été préférées aux perspectives o�ertes par le modèle de tarification déterministe.Le modèle implémenté est le modèle Probabilité de consommation ◊ Charge annuelle de

consommation. La probabilité de consommer dans une année de souscription est estiméeà l’aide de régressions logistiques et la charge annuelle moyenne de consommation par desrégressions log-gamma. En appliquant la théorie liée aux GLM, nous illustrons l’intégra-tion de franchises et de plafonds de garanties contractuels dans la tarification par le calculd’espérances tronquées. En outre, les données sur lesquelles l’étude a été e�ectuée sontrelatives aux années de survenance allant de 2006 à 2012. Nous sommes donc en présencede données répétées associées à la consommation d’individus présents dans le portefeuillependant plus d’une année. Une comparaison des résultats des GLM supposant l’indépen-dance entre les réalisations temporelles associées à ces individus et les méthodes GEE 3

tenant compte de la corrélation qui peut exister est e�ectuée. Enfin, ne disposant pastoujours de données su�santes pour la tarification dans certains pays d’expatriation, uneclassification par k-moyennes est e�ectuée afin de pouvoir associer ces pays à des zonesque nous savons tarifer.

Mots-clés : Expatriés, Santé, Dérive de la consommation médicale, Modèles linéaires gé-néralisés, Régression logistique, Régression log-gamma, Loi gamma, Espérance tronquée,Equations d’estimation généralisées, Classification k-moyennes.

1. Mobility Saint Honoré2. Generalized Linear Models3. Generalized Estimating Equations

1

Abstract

In this study, we focus on the pricing of expatriates health portfolio of AXA SolutionsCollectives administrated by MSH 4. In a previous study from 2006, Frequency ◊ Average

cost deterministic method was implemented for the pricing of health benefits related tothis portfolio. To update the 2006 prices from an underwriting year to another, a medicalinflation was applied on the 2006 basis prices. However, the bias related to this methodincreases with the time. In this paper a pricing method based on Generalized LinearModels (GLM 5) theory is presented. The stability of theses models on small samples andthe flexibility they o�er in terms of prediction have been preferred to the possibilitieso�ered by the deterministic pricing model. In the implemented model we estimate aprobability to have a claim during an underwriting year and the average annual costper insured. The probability is estimated by logistic regressions and the average annualcost by log-gamma regressions. With the theory related to GLM, we show how to takeinto account proportional deductible and limits included in some contracts by computingexpected values on truncated gamma distributions. In addition, the data on which thestudy was conducted go from occurrence year 2006 to 2012. In other words we deal withrepeated data related to individuals being insured during more than a year. A comparisonof the results of GLM assuming the independence between the annual claim history ofthese individuals and GEE 6 methods taking into account the correlation that may exist isperformed. Finally, since we don’t always have large sample set of data for pricing in someexpatriates countries, a k-means clustering is performed in order to link these countriesto cluster for which we know how to price.

Keywords : Expatriates, Health insurance, Medical Inflation, Generalized Linear Models,logistic regression, log-gamma regression, truncated gamma distribution, Generalized es-timating equations, k-means clustering.

4. Mobility Saint Honoré5. Generalized Linear Models6. Generalized Estimating Equations

2

Remerciements

Mes premiers remerciements vont à la DTMC 7 dirigée par Lucie Taleyson et à mondirecteur de mémoire François Berger pour son encadrement et sa disponibilité. Merci àMaryam Salehi et à son équipe au sein de laquelle cette étude a été réalisée. Je tiens àremercier Solène Durieux pour son implication et ses nombreuses relectures. Je remercieégalement mon tuteur académique Pierre Thérond pour ses conseils avisés. Merci à PierreOttenwaelter et à Ludovic Proust pour leur suivi et leur disponibilité. Merci enfin àPhilippe François pour son soutien et sa confiance.

7. Direction Technique et Marketing Collectives, AXA France

3

Table des matières

Introduction 7

1 Le contexte 91.1 L’organisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2 L’o�re santé expatriés d’AXA Solutions collectives . . . . . . . . . . . . . . 101.3 La problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.1 L’outil de tarification existant . . . . . . . . . . . . . . . . . . . . . 101.3.2 L’objet du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4 Revue bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4.1 Les références internes . . . . . . . . . . . . . . . . . . . . . . . . . 111.4.2 Les mémoires d’actuaire . . . . . . . . . . . . . . . . . . . . . . . . 121.4.3 Les ouvrages et articles . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Le portefeuille MSH 142.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.1 Traitement des données et hypothèses . . . . . . . . . . . . . . . . . 142.1.2 Les bases exploitables . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2.1 Les assurés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2.2 La consommation médicale et les niveaux de remboursement . . . . 21

2.3 Dérive de la consommation médicale du portefeuille MSH . . . . . . . . . . 242.3.1 Modèle de régression exponentiel pour l’estimation de la dérive . . . 242.3.2 Résultats obtenus sur le portefeuille globale . . . . . . . . . . . . . 262.3.3 Zoom sur Singapour . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3.4 Le suivi de la sinistralité et de la rentabilité portefeuille . . . . . . . 29

3 La démarche de tarification 313.1 Les variables tarifaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.1.1 Les variables d’intérêt et les variables explicatives . . . . . . . . . . 313.1.2 L’année de soin comme variable explicative et la corrélation tempo-

relle des observations . . . . . . . . . . . . . . . . . . . . . . . . . . 323.1.3 Les interactions entre variables explicatives . . . . . . . . . . . . . . 32

3.2 Une première approche de tarification possible : Fréquence ◊ Coût moyen . 333.2.1 La fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2.2 Le coût moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2.3 La prime pure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.4 Limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 Une seconde approche de tarification possible : Probabilité de consommer◊ Charge de consommation . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4

TABLE DES MATIÈRES TABLE DES MATIÈRES

3.3.1 La probabilité de consommer dans l’année . . . . . . . . . . . . . . 353.3.2 La charge annuelle de consommation dans l’année . . . . . . . . . . 353.3.3 La prime pure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3.4 Le choix de cette approche . . . . . . . . . . . . . . . . . . . . . . . 36

3.4 Comment tenir compte des franchises et plafonds contractuels dans la ta-rification ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4.1 2 méthodes possibles : Arbitrage entre biais et volatilité . . . . . . . 363.4.2 La méthode retenue . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.4.3 La prime pure en présence de plafond et franchise contractuels . . . 37

4 Les modèles linéaires généralisés pour la tarification 394.1 Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problé-

matiques assurantielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.1.1 La formalisation du modèle . . . . . . . . . . . . . . . . . . . . . . 394.1.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . 404.1.3 Validation du modèle et inférence statistique . . . . . . . . . . . . . 41

4.2 Le choix des modèles linéaires généralisés . . . . . . . . . . . . . . . . . . . 424.2.1 Pourquoi un GLM ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.2.2 La première généralisation du modèle linéaire classique : les lois de

la famille exponentielle comme loi pour la variable réponse . . . . . 444.2.3 La deuxième généralisation du modèle linéaire classique : la fonction

de lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.2.4 La formalisation du modèle . . . . . . . . . . . . . . . . . . . . . . 474.2.5 Equations de vraisemblance et estimation des paramètres . . . . . . 484.2.6 La validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . 494.2.7 Inférence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.3 La modélisation de la probabilité de consommer dans l’année . . . . . . . . 524.3.1 Intuition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.3.2 Introduction d’une variable latente pour la modélisation . . . . . . 534.3.3 Choix de la régression logistique . . . . . . . . . . . . . . . . . . . . 53

4.4 La modélisation de la charge annuelle de consommation . . . . . . . . . . . 554.4.1 Le choix de la loi gamma . . . . . . . . . . . . . . . . . . . . . . . . 554.4.2 Choix du lien log . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.4.3 La régression log-gamma . . . . . . . . . . . . . . . . . . . . . . . . 56

5 Applications 585.1 La tarification d’un acte classique : La pharmacie . . . . . . . . . . . . . . 58

5.1.1 Modélisation de la probabilité de consommer . . . . . . . . . . . . . 585.1.2 Modélisation de la charge annuelle . . . . . . . . . . . . . . . . . . 605.1.3 Les tarifs projetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.2 Zonage et tarification : Les verres optiques . . . . . . . . . . . . . . . . . . 645.2.1 Le zonage des pays d’expatriation . . . . . . . . . . . . . . . . . . . 645.2.2 Modélisation de la probabilité de consommer . . . . . . . . . . . . . 655.2.3 Modélisation de la charge annuelle . . . . . . . . . . . . . . . . . . 675.2.4 Les tarifs projetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.3 L’intégration des plafonds et des franchises en pratique . . . . . . . . . . . 715.3.1 Formalisation mathématique et intuition . . . . . . . . . . . . . . . 715.3.2 Loi gamma et espérance tronquée pour la tarification . . . . . . . . 71

5.4 Les équations d’estimation généralisées et la prise en compte de la corrélation 73

Ahmed Tidiane DIOMANDE 5/96

TABLE DES MATIÈRES TABLE DES MATIÈRES

5.4.1 Estimation des probabilités de consommation : Peu d’impact de lacorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4.2 Choix du modèle avec corrélation pour l’estimation des charges deconsommation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Conclusion 78

A Classification non supervisée 80A.1 La notion de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80A.2 La classification ascendante hiérarchique CAH . . . . . . . . . . . . . . . . 81A.3 Un algorithme de partitionnement : la méthode k-means . . . . . . . . . . 82

B La méthode GEE pour la prise en compte de la dimension chronologiquedes données de panel 83B.1 Rappel du contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83B.2 Prise en compte de la dépendance . . . . . . . . . . . . . . . . . . . . . . . 83

B.2.1 Les équations d’estimation généralisées . . . . . . . . . . . . . . . . 83B.2.2 Les structures de corrélation . . . . . . . . . . . . . . . . . . . . . . 85B.2.3 Choix de la meilleure structure de corrélation . . . . . . . . . . . . 86

C Backtesting et régression logistique 88C.1 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88C.2 Courbe ROC et indice AUC . . . . . . . . . . . . . . . . . . . . . . . . . . 89

D Tables annexes 90D.1 Croisement des âges et des sexes . . . . . . . . . . . . . . . . . . . . . . . . 90D.2 Comparaison GEE - GLM : Les matrices de corrélation estimées sur l’acte

de pharmacie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Bibliographie 92

Table des figures 94

Liste des tableaux 96


Introduction

Dès les années 1960, les assureurs commencent à s’intéresser au marché de la pro-tection sociale des expatriés. Il s’agit dans un premier temps de répondre aux besoins desmultinationales, des ONG ou encore des ambassades, désireuses d’o�rir des couverturesà leurs salariés en mobilité internationale. Le phénomène a connu un véritable essor dansles années 1980 avec la mondialisation. Le marché des expatriés est depuis en constanteévolution, tant au niveau des besoins de couverture que des acteurs investissant cetteniche. Au départ il était principalement question d’expatriation mais aujourd’hui les sa-lariés travaillant à l’international peuvent être classés en 3 catégories :

• les expatriés : Salariés français en poste fixe dans un pays étranger qui ne relèventplus du régime obligatoire de la Sécurité Sociale,

• les TCN 8 : Salariés étrangers d’une entreprise française, expatriés dans un paysautre que leur pays d’origine,

• les détachés : Salariés à l’étranger pour une durée limitée restant a�liés au régimegénéral de la sécurité sociale.

Les salariés des deux premières catégories ne sont pas a�liés au régime général de la Sé-curité Sociale et peuvent adhérer à la CFE 9 afin d’avoir une couverture identique à celledu régime de base français. Les compagnies d’assurance proposent ensuite des contrats encomplément des régimes de base ou des contrats dits au premier euro afin d’optimiser lacouverture des salariés en mobilité.

Le groupe AXA est leader sur le marché de la protection sociale des expatriés français.La gestion de l’o�re "santé expatriés" d’AXA Solutions collectives, entité opérationnelled’AXA France, est déléguée majoritairement à des courtiers gestionnaires. En 2006 laDTMC 10 a mené une étude basée sur des données issues d’extractions e�ectuées par cesdélégataires. Il s’agissait de données d’exposition et de consommation médicale relativesla période [2003, 2005]. Une grille tarifaire a ainsi pu être établie en utilisation l’approchede tarification Fréquence ◊ Coût moyen déterministe pour l’année de souscription 2006([AXA(2006)]). Pour les souscriptions d’a�aires nouvelles postérieures à 2006, des taux dedérive ont été intégrés dans la tarification afin de prendre en compte l’inflation médicale.Le biais relatif à cette approche augmente cependant avec le temps et l’évolution descaractéristiques de la population assurée.

En juillet 2013, la DTMC a reçu les données relatives à la période [2006, 2012] du por-

8. Third Country National9. Caisse des Français de l’Etranger

10. Direction Technique et Marketing Collective anciennement Direction Technique Collective d’AXAFrance Solutions

7

INTRODUCTION

tefeuille MSH 11. Ces données sont alors à intégrer dans la tarification pour mieux rendrecompte de la réalité récente du portefeuille en termes d’exposition et de sinistralité. Dansce mémoire, nous proposons une démarche de tarification reposant sur la modélisationd’une probabilité et d’une charge annuelle de consommation médicale par assuré. Nousutilisons la théorie des modèles linéaires généralisés (GLM 12) pour mesurer la sinistralitémoyenne en fonction de di�érentes caractéristiques de la population assurée. Ces modèlespermettent d’e�ectuer des projections et ont l’avantage d’être stables sur les échantillonsrestreints.

Nous e�ectuerons dans un premier temps une brève présentation de l’organisation dugroupe AXA et de l’o�re "santé expatriés" d’AXA Solutions Collectives. Le portefeuilleMSH sera ensuite décrit par le biais de statistiques descriptives et de la modélisation de ladérive de la consommation médicale associée. Puis la démarche de tarification et la théo-rie des modèles linéaires généralisés seront présentées. L’application de cette théorie seraillustrée avec des exemples de tarification de quelques postes médicaux. Cette illustrationpratique incluera :

• La modélisation des probabilités et charges annuelles de consommation pour latarification selon le pays d’expatriation,

• Un zonage des pays d’expatriation selon les coûts et la dérive de la consommationmédicale par la méthode de classification des k-moyennes,

• La prise en compte des franchises et des plafonds associés à certains contrats parl’intermédiaire du calcul d’espérances tronquées de lois gamma,

• La comparaison du modèle utilisée avec l’une de ses extensions qui intégre lacorrélation relative à l’utilisation de plusieurs années d’observation.

11. Mobility Saint Honoré - Il s’agit de l’un des courtiers a qui le groupe a délégué la gestion de sono�re

12. Generalized Linear Models, Modèles linéaires généralisés


Chapitre 1

Le contexte

1.1 L’organisationSelon le classement Interbrand 2013, AXA est la première marque mondiale d’assu-

rance pour la 5eme année consécutive. Le groupe compte près de 160, 000 collaborateursdans 57 pays répondant aux besoins de 102 millions de clients à travers le monde.Leader de l’assurance en France, AXA France est l’entité historique du groupe AXA avec33, 000 collaborateurs au service de 9 millions de clients. Cette entreprise regroupe 3 en-tités opérationnelles parmi lesquelles figure AXA Solutions Collectives, dernière-née desentités d’AXA France en 2011. Issue des activités "Entreprises" et dédiée à la distributionen grande partie par les courtiers spécialistes, AXA Solutions Collectives est une entitéqui propose des solutions d’Epargne salariale, Retraite, Santé, Prévoyance, Dépendanceà destination des grandes sociétés.

Pour accompagner les entreprises à l’international, AXA Solutions Collectives se posi-tionne sur le marché de la Santé et Prévoyance des expatriés et des salariés locaux. L’en-tité propose par ailleurs aux entreprises internationales, des solutions financières globalesainsi que des solutions multi-locales en Santé et Prévoyance via son réseau MAXIS Globalbenefits Networks. Dans le cadre de son o�re santé expatriés, les a�aires sont tarifées parles équipes de souscription de la direction International Employee Benefits (IEB). Il s’agitessentiellement de tarifications faites "sur mesure" en tenant compte des caractéristiquesdu portefeuille étudié. Les équipes de souscription utilisent pour ce faire un logiciel detarification développé par la Direction Technique et Marketing Collectives (DTMC), di-rection au sein de laquelle à été menée la présente étude. La DTMC est en charge :

• de l’établissement des normes de tarification et du développement d’outils associés,• de la réalisation d’études actuarielles pour assurer le suivi technique et la renta-

bilité des produits en liaison avec les équipes opérationnelles,• de la mise en place de nouveaux produits en relation avec les directions d’activité

comme la direction IEB,• de la mise en place, du suivi et de la gestion de la réassurance et de la coassurance

avec di�érentes compagnies,• de la tarification d’a�aires hors normes ou de produits sur mesure sortant du cadre

commun de souscription,• du développement du marketing stratégique et opérationnel en relation avec les

directions d’activités.

9

1.2. L’o�re santé expatriés d’AXA Solutions collectives

1.2 L’o�re santé expatriés d’AXA Solutions collec-tives

La gestion de l’o�re santé expatriés d’AXA Solutions Collectives est déléguée princi-palement à deux courtier-gestionnaires : MSH et HENNER. Cette o�re permet d’assurerdans le monde entier des collèges de collaborateurs expatriés ou détachés de di�érentesentreprises, françaises principalement. Ces collaborateurs peuvent être détachés, avec unmaintien du contrat de travail français, et donc relever toujours de la Sécurité Socialefrançaise, ou expatriés / TCN 1 ne relevant plus de la sécurité sociale, avec un besoind’assurance au premier euro ou en complément de la Caisse des Français de l’Etranger(CFE).

Le remboursement dit "au premier euro" correspond à un remboursement dès les premiersfrais engagés par l’assuré. Il n’y a généralement pas de franchise en revanche des plafondspeuvent exister comme nous le verront un peu plus loin. La couverture "en complémentde la CFE" correspond à une intervention d’AXA en complément des remboursements ef-fectués par la CFE, qui est le régime facultatif de sécurité sociale des expatriés. En santéce régime possède en général les mêmes bases de remboursement que la Sécurité Socialeet prend aussi en charge des séjours temporaires en France.Adhérer à la CFE permet de garder le lien avec le régime général de la sécurité sociale, onparle alors de "coordination". Cette adhésion permet d’une part de ne pas avoir de délaide carence au départ du salarié en mobilité qui pourra aussi être directement réintégrer aurégime général à son retour en France. Elle permet d’autre part un suivi de sa retraite, laCFE reversant régulièrement les cotisations perçues à la CNAV 2 qui met à jour le compteindividuel de l’assuré.

A l’heure actuelle, les cotisations sont calculées en fonction du profil des collaborateurs del’entreprise et du pays d’expatriation. L’objet de ce mémoire est de mettre à jour et d’af-finer les tarifs associés à cette o�re en e�ectuant une étude approfondie de la sinistralitéet de l’exposition du portefeuille d’expatriés géré par MSH.

1.3 La problématique1.3.1 L’outil de tarification existant

Courant 2006 une étude à été menée afin d’établir une grille de tarification de l’o�resanté expatriés. Le périmètre de l’étude comprenait les données HENNER et MSH sur lapériode allant de 2003 à 2006. Lors de cette étude, des fréquences et coûts moyens ont étécalculés de façon déterministe en ramenant les frais réels au nombre d’actes (coût moyen)et les nombres d’actes à l’exposition (fréquence) par poste médicaux et par sexe. Descorrectifs on ensuite été calculés pour proposer des tarifs par zone/pays d’expatriation,par tranche d’âge et pour intégrer des plafonds et franchises dans la tarification.Les résultats de cette étude ont été intégrés dans un logiciel de tarification qui est mis àjour pour les souscriptions postérieures à 2006 par l’intermédiaire du calcul de taux dedérive de la consommation médicale en gardant les bases de tarification de 2006. Le biais

1. Third Country Nationals2. Caisse Nationale d’Assurance Vieillesse


1.4. Revue bibliographique

relatif à cette méthode augmente cependant avec le temps car l’exposition peut changeret les comportements aussi. Il est pour cela nécessaire de mener de nouvelles études selonla disponibilité de nouvelles données.

1.3.2 L’objet du mémoireLa réalisation d’une étude complète avec des données de sinistralité et d’exposition

récentes s’avère indispensable pour s’assurer du fait que les tarifs soient en ligne avec laréalité du portefeuille et assurer son suivi. Une extraction annuelle des bases de donnéesde gestion est cependant coûteuse en temps et il se pose donc un problème de disponibilitédes données devant servir à la revue régulière des normes tarifaires.

La DTMC a reçu en Juillet 2013 les données relatives à la sinistralité et à l’expositiondu portefeuille MSH sur la période [2006, 2012]. L’objet de ce mémoire est de mettre àjour et d’a�ner la grille tarifaire courante en proposant une méthode de tarification desgaranties associées à l’o�re santé expatriés d’AXA Solutions Collectives.

Avant de commencer l’analyse technique, il est intéressant de dresser un panorama desétudes existantes liées au sujet étudié, et des références bibliographiques ayant aidé à larédaction de ce mémoire.

1.4 Revue bibliographique1.4.1 Les références internes

Dans son étude, [Laouni(2007)] s’intéresse à la tarification du portefeuille HENNERen complément de la Caisse des Français de l’Etranger (CFE). L’étude porte sur la si-nistralité et l’exposition de 2004 à 2006. L’approche de tarification mise en oeuvre estl’approche fréquence ◊ coût moyen déterministe. En fonction d’éléments de segmentationcomme le poste médical, l’âge, le sexe, la prime pure au premier euro est obtenue commesuit :

Primepure = NombredÕactes

Exposition◊ Fraisréels

NombredÕactes= Fréquence ◊ Coûtmoyen (1.1)

La tarification en complément de la CFE consiste ensuite à multiplier la fréquence par lecoût moyen des frais réels auquel on soustrait le montant de remboursement moyen dela CFE. Une fois les primes pures obtenues par âge, une interpolation de Lagrange estutilisée en des âges choisis afin de lisser les primes obtenues par âge.

Au delà des informations relatives à l’utilisation du logiciel de tarification existant,[AXA(2006)] reprend les éléments de l’étude de[Laouni(2007)] et d’une étude similaire surle portefeuille MSH sur la période allant de 2003 à 2005. Les primes pures par poste y sontnotamment reprises et permettent une comparaison des sinistralités moyennes antérieureet postérieure à 2006.



1.4.2 Les mémoires d’actuaireNous citons deux mémoires dans lesquelles ont été abordées 2 méthodes classiques

de tarification en santé que sont l’approche fréquence ◊ Coût moyen et l’approche Pro-babilité ◊ Charge.

Dans son mémoire, [Nguyen(2009)] se concentre sur la tarification et le provisionnementdu portefeuille d’expatriés de Welcare 3 en se basant sur des données de sinistralité etd’exposition relatives à l’année 2007. Les garanties santé y sont tarifées en multipliantla probabilité de consommation médicale par la charge annuelle de consommation. Laprobabilité de consommer pour un poste médical y est évaluée par un modèle de régres-sion logistique avec comme variables explicatives le sexe et l’âge. La loi gamma y estchoisie comme loi des frais réels. Le tarif d’une garantie santé est alors le produit de laprobabilité de consommer pour une classes âge ◊ sexe donnée par la charge annuelle deconsommation modélisée pour un poste médical. La charge annuelle des consommantsn’est pas modélisée en fonction des caractéristiques de la population dans cette étude.Dans le présent mémoire, nous modéliserons cette charge en fonction des caractéristiquesde la population par l’intermédiaire de régressions log-gamma.

[Vautrin(2009)] s’intéresse dans son mémoire à l’élaboration d’une méthode de tarificationpour des contrats complémentaires santé collectifs. L’année d’observation est l’année 2008et l’approche de tarification choisie est l’approche fréquence ◊ Coût moyen. La fréquenceest modélisée par une régression binomiale négative en raison de la surdispersion souventconstatée de certaines variables de comptage, et les coûts par une régression log-gamma.Une segmentation régionale est appliquée au portefeuille étudié en plus de la segmenta-tion induite par les variables tarifaires classiques telles que le sexe et l’âge des assurés.[Vautrin(2009)] a des informations exploitables sur le régime, le niveau de garantie et lesmodes d’adhésion au contrat. Un bon niveau de garantie augmente souvent l’aléa moralet les contrats dont le mode d’adhésion est facultatif sont plus exposés au risque d’antiselection que ceux à adhésion obligatoire. Ces deux variables ont donc leur importancedans la modélisation des coûts lorsqu’elles sont disponibles et exploitables. Dans notreétude ces conditions ne sont pas remplies et nous n’incluons donc pas ces variables dansles modèles implémentés.

Les deux mémoires précités et les études similaires sont souvent liées à la tarification et àla sinistralité relatives à une unique année d’observation. Dans ce mémoire nous étudionsla consommation médicale sur 7 années d’observations. Cela nous permet d’augmenter levolume de données, mais aussi de ne pas accorder trop d’importance à une année d’ob-servation particulière qui peut être exceptionnelle. Travailler sur plusieurs années posecependant le problème de la corrélation des observations liées à la consommation d’unmême individu présent dans le portefeuille pendant plus d’une année par exemple. Sup-poser l’indépendance entre les observations en implémentant des GLM "classiques" n’aasymptotiquement pas d’impact sur les estimations. Cela dépend toutefois du degrés decorrélation entre les réalisations liées aux années d’observations. Nous illustrerons la priseen compte de la corrélation avec les méthodes GEE 4 avant d’en comparer les résultatsavec ceux des GLM. Avoir des données sur plusieurs années d’observation permet en outre

3. Entreprise orientée vers la protection sociale internationale - Distribution, assurance et gestionde produits destinés aux expatriés

4. Generalized Estimating Equations



une modélisation temporelle des données de sinistralité, ce qui permet l’implémentationde modèles de dérive de la consommation médicale et des projections tarifaires par paysd’expatriation, sexe, âges...

1.4.3 Les ouvrages et articlesDans ce mémoire, les GLM sont utilisés comme outil de tarification. La théorie liée

à ces modèles y est donc abordée avant d’en illustrer des applications. Sur la tarifica-tion à priori, le lecteur pourra consulter le chapitre 9 de [Denuit & Charpentier(2005)]qui reprend l’ensemble des éléments théoriques associés à cette approche de tarificationy compris les modèles linéaires généralisés avec des applications pratiques. Les modèleslinéaires généralisés sont aussi présentés de façon pédagogique et souvent pratique dans[Mc Cullagh & Nelder(1989)] , [Droesbeke et al.(2005)Droesbeke, Lejeune, & Saporta] ouencore dans [Ohlson & Johansson(2010)].

Les données relatives à plusieurs années d’observations sont souvent présentées dans leformalisme des données de panel. La modélisation sur ce type de données doit idéalementtenir comte de la corrélation qui existe entre des observations associées à un même in-dividu présent plusieurs années même si les estimations supposant l’indépendance sontconvergentes. Pour la modélisation sur données de panel et la prise en compte de la di-mension chronologique de ces données, le lecteur pourra consulter [Liang & Zeger(1986)]et [Hardin & Hilbe(2003)] sur les GEE 5 qui sont des méthodes permettant l’inclusion dela corrélation dans l’estimation des paramètres via la résolution d’équations de vraisem-blance généralisées.

Enfin, pour des raisons pratiques, l’on est souvent amené à e�ectuer des regroupementsde modalités d’une variables explicative jugées "proches" au sens d’une distance mathé-matique donnée. Sur l’essentiel des méthodes de classification, le lecteur pourra se référerà [Nakache & Confais(2004)].

Le contexte de l’étude et la problématique ont été présentés dans ce chapitre. La grillede tarification actuelle du portefeuille "santé expatriés" d’AXA Solutions Collectives estbasée sur une étude qui a été menée en 2006. Ayant les données récentes relatives à laconsommation et à l’exposition du portefeuille géré par MSH, l’objet du mémoire est demettre à jour la grille tarifaire courante. Nous nous intéressons dans le chapitre qui suità la description du portefeuille MSH. Les données disponibles pour l’étude sont présen-tées dans un premier temps. Le portefeuille est ensuite décrit par le biais de statistiquesdescriptives. Enfin la dérive de la consommation médicale du portefeuille et le modèled’estimation utilsé sont présentés.

5. Generalized Estimating Equations


Chapitre 2

Le portefeuille MSH

Dans ce chapitre, nous décrivons le portefeuille MSH 1 qui est l’un des courtier-gestionnaires à qui AXA France a délégué la gestion de son portefeuille expatriés. Plusieursbases de données ont été fournies pour la revue des normes tarifaires de la direction IEB 2.Les fichiers reçus se présentaient sous di�érents formats (Excel, txt, csv...) que nous avonschargé sous SAS. Il s’agissaient de fichiers relatifs à la sinistralité et à l’exposition sur lapériode [2006, 2012] et d’autres fichiers en complément des deux précédents apportantplus de lisibilité au contenu des bases principales.

2.1 Les donnéesDans cette section, nous commençons par décrire brièvement le traitement des dif-

férentes données reçues avant de nous étendre sur le contenu des bases exploitables ensortie de ces traitements.

2.1.1 Traitement des données et hypothèsesLes bases de données de gestion présentent certains désavantages. Les principaux

points d’attention sont l’occurrence possible d’erreurs humaines lors de la saisie d’infor-mation par le gestionnaire, les données manquantes et la possible perte d’information liéeà des mises à jours ou non d’informations propres aux assurés.

La fiabilisation des données

Il n’y a pas de règle quant à la fiabilisation de bases de données de gestion du fait dela pluralité des sources d’anomalie. Lors d’une étude préalable, une attention particulièrea été portée :

• au paramétrage des modalités manquantes,• au paramétrage des traitements réalisés ligne à ligne permettant ainsi d’en garder

une traçabilité,• à la validation des hypothèses par le gestionnaire avant les modifications quand

cela en valait la peine (certaines modifications/erreurs étaient évidentes et n’ontpas nécessité d’échange),

1. Mobility Saint Honoré2. International Employee Benefits

14

2.1. Les données

Au delà des erreurs humaines possibles lors de la saisie de certaines informations, l’undes principaux désavantages des bases de données de gestion est la perte d’informationrelative à di�érentes mises à jour ou à l’absence de mise à jour de la part de la gestion.Nous avons alors e�ectué quelques hypothèses après consultation des gestionnaires afinde pouvoir réaliser notre étude.

Limites et hypothèses envisagées pour la réalisation de l’étude

Lors d’un changement de situation de l’assuré, la mise à jour e�ectuée écrase la don-née courante. En d’autres termes, il n’y a pas d’historique totalement crédible concernantla situation d’un assuré à un instant passé et la donnée que l’on a correspond à la situa-tion de l’assuré en date d’extraction. Prenons l’exemple d’un travailleur français expatriéaux USA qui change de pays d’expatriation et part à Singapour. Une simple saisie de"Singapour" en lieu et place de "USA" (écrasement de la donnée "USA") au niveau de lavariable "pays_expat" n’est pas adaptée. En e�et, au niveau de la gestion, la vision duportefeuille en date d’observation est correcte du fait que l’expatrié soit bien à Singapourà la date courante. Cependant, du point de vue de l’assureur ou plutôt de l’actuaire encharge de la tarification du portefeuille, il existe un véritable biais. La vision courante duportefeuille n’est en e�et pas su�sante pour la tarification, surtout lorsque l’étude portesur plusieurs années. La sinistralité et l’exposition correspondant à une modalité ayantchangée peut donc être biaisée par celles de la modalité qu’elle remplace et inversement.

Notre période d’observation part de 2006 à 2012 et les expatriés du portefeuille ne sontprésents en moyenne que 1,65 ans sur cette période (durée moyenne des contrats). Nousavons donc considéré pour l’étude que les données étant susceptibles de changer n’avaientpas beaucoup évoluées.

Nous décrivons dans la section qui suit le contenu des bases fiabilisées.

2.1.2 Les bases exploitablesL’information a été synthétisée autour des bases suivantes :

• panel_ass : Cette table reprend les caractéristiques de l’ensemble des assurés duportefeuille MSH ayant été présents sur la période [2006, 2012] et ayant consomméou non. Au travers de cette table, il est donc possible de récupérer toute l’expo-sition du portefeuille.

• panel_* 3 : 38 actes ont pu être identifiés au travers des données reçues. Cestables reprennent chacune la consommation relative à l’acte * sur la période [2006,2012] et sont donc relatives à la sinistralité associée au portefeuille MSH.

Notons que l’utilisation du préfixe "panel" dans la dénomination de la majorité des basesprécitées n’est pas fortuite. En e�et les informations que nous avons présentent une di-mension spatiale et une dimension chronologique. Nous entendons par dimension spatialeles informations relatives aux assurés et à la sinistralité en elle même, le temps étant figé,

3. * Représente le nom d’un acte médicale (Généraliste, pharmacie...)


2.1. Les données

et par dimension chronologique l’évolution de ces données dans le temps. Les données enforme de panel sont alors adaptées à une modélisation tenant compte de l’ensemble de cesparamètres. Le lecteur pourra consulter [Roux(2009)] pour un aperçu de la modélistionsur données de panel.

Modèle entité-associations

Le diagramme 2.1 présente les grandes articulations qu’il y a entre les di�érentestables qui ont été créées après le traitement des données.

Figure 2.1 – Diagramme entité-association données MSH

Ce schéma se lit comme suit :

• A une convention on associe plusieurs polices d’assurance mais pas l’inverse. Aune police d’assurance, on associe en e�et une unique convention au travers delaquelle on a connaissance des garanties associées à la police.

• A une convention on associe plusieurs garanties et de façon réciproque, une ga-rantie peut appartenir à plusieurs conventions.

• Une entreprise ("Souscripteur") souscrit à plusieurs polices regroupées dans unepolice mère pour ces employés expatriés ("Adhérent").

• Les adhérents sont des salariés expatriés appartenant à une entreprise ("Souscrip-teur"). Ils ont chacun une police d’assurance résultant de la souscription de leur


2.2. Statistiques descriptives

entreprise à une police mère. Les adhérents ont des ayant droits que l’on retrouvedans la classe des bénéficiaires. Notons au passage que les adhérents sont biensûreux-mêmes bénéficiaires.

• Un bénéficiaire bénéficie de la police d’assurance souscrite par l’adhérent qui luiest associé. Il appartient à une famille et une famille est composée d’au moins unbénéficiaire (l’adhérent à minima).

• L’entité "panel_ass" contient l’exposition totale sur la période [2006,2012]. Un"ident_personne" et une "annee" identifient de façon unique dans cette table lescaractéristiques du bénéficiaire identifié par "ident_personne" dans l’année "an-nee". On retrouve notamment parmi ces caractéristiques la présence du bénéficiairedans l’année (1 pour 1 an et 0.5 pour 6 mois par exemple), son sexe, son âge, lepays d’expatriation correspondant à l’année "annee" ou encore les garanties aux-quelles il a souscrit en année "annee". La variable "liste_actes" représente une listede 38 actes (ou garantie) que nous avons pu identifiés. Dans la table "panel_ass"il y a 38 colonnes libellées par les noms de ces 38 actes. Un codage binaire (0 ou1) a été choisie pour à chaque ligne, indexant un bénéficiaire "ident_personne" enannée "annee", identifier si une garantie "acte" a été souscrite (acte = 1) ou non(acte = 0).Une ligne de cette table fait nécessairement référence à un bénéficiaire. A l’inverse,à un bénéficiaire peuvent correspondre de 1 à 7 ligne en référence à ses années deprésence (observations de 2006 à 2012).

• Nous avons généré 38 tables avec le typage "panel_acte" où "acte" représente lenom de l’un des 38 actes répertoriés. Ces tables font référence à la consommationdes assurés sur la période d’observation.Un "ident_personne" et une "annee" identifient de manière unique dans ces tablesla consommation du bénéficiaire identifié par "ident_personne" dans l’année "an-nee". On reprend dans cette table sa présence dans l’annee "annee" (variable "pre-sence"), sa consommation totale durant son temps de présence dans l’année "an-nee" (variable "somme_frais") et le nombre d’actes associés à cette consommationtotale (variable "somme_quantite").A une ligne de la table "panel_ass" identifiée par un "ident_personne" et une"annee" on associe entre 0 (pas de consommation dans l’année "annee" pour lebénéficiaire "ident_personne") et 7 lignes (nombre d’années d’observation de 2006à 2012 où un bénéficiaire "ident_personne" peut avoir consommé) de la table"panel_acte" pour un acte fixé.

2.2 Statistiques descriptivesCette section décrit de façon synthétique le portefeuille MSH suivant plusieurs axes.

2.2.1 Les assurésIl s’agit de l’ensemble des personnes ayant été présentes au moins pendant une

fraction d’année durant la période [2006, 2012].



Evolution des e�ectifs

Figure 2.2 – Evolution des e�ectifs du portefeuille MSH de 2006 à 2012

La figure 2.2 représente l’évolution des e�ectifs du portefeuille MSH de 2006 à 2012.Il faut entendre par e�ectif la somme des présences associées à chaque bénéficiaire aucours des années d’observations : un assuré présent 6 mois dans une année par exemplecomptera pour 0.5 dans le décompte relatif à l’année en question. Nous pouvons noterune baisse de l’activité en 2011 suivie d’une reprise importante en 2012 (Environs 80, 000tête-année 4 en 2012). Les données ont été reçues courant 2013. Les statistiques relativesà cette année n’ont donc pas été représentées, l’exposition et la sinistralité associées étantpartielles du fait de la censure due à la date d’extraction.

Répartition par sexe et par type d’assuré

(a) Répartition par sexe (b) Répartition par type d’assuré

Figure 2.3 – Répartition par sexe et par type d’assuré

La figure 2.3 représente la répartition des bénéficiaires selon leur sexe (figure 2.3a) etleur type (figure 2.4b). La répartition hommes - femmes est équilibrée dans le portefeuille,

4. Equivaut au nombre d’assurés présents durant une année entière



et près de 43% des bénéficiaires du portefeuille sont adhérents (les autres étant leurs ayant-droits).

Répartition des adhérents par cellule familiale et par situation matrimoniale

(a) Cellule familiale (b) Situation matrimoniale

Figure 2.4 – Répartition par cellule familiale et par situation matrimoniale des adhérents

La figure 2.4a représente la répartition des adhérents par cellule familiale et la fi-gure 2.4b leur répartition par situation matrimoniale. 44% des adhérents sont expatriésseuls c’est à dire sans conjoint, enfant ou parent et 47% d’entre eux sont célibataires. Cespourcentages élevés sont en partie dû aux polices individuelles du portefeuille. Un certainnombre de ces polices sont souscrites par des jeunes salariés ou stagiaires qui partent àl’étranger en début de carrière.

Les âges des bénéficiaires

Les expatriés adultes du portefeuille MSH ont en moyenne 40 ans, cette moyenneétant calculée sur la période [2006,2013]. L’âge moyen des femmes adultes s’élève à 39ans quand celui des hommes adultes s’élève à 41 ans. Les âges moyens sont repris dans lafigure 2.5 pour di�érentes catégories.

Les pays d’expatriation

Les principaux pays d’expatriation sont représentés dans la figure 2.6.

La population expatriée en France est composée d’expatriés français rentrant en Franceet qui continuent à bénéficier d’une couverture pendant un certain temps et de salariésimpatriés. Cependant, lors des enregistrements des données en gestion, il peut arriver quele pays d’expatriation ne soit pas connus. La France est souvent entrée comme valeur pardéfaut dans ces cas de figure. Aussi, l’Australie apparaît comme étant le 5ème pays d’ex-patriation du portefeuille en partie du fait des nombreuses polices individuelles souscritespar des jeunes en début de carrière s’expatriant dans ce pays.



Figure 2.5 – Ages moyens des bénéficiaire du portefeuille MSH

Figure 2.6 – Principaux pays d’expatriation

Les nationalités des expatriés

La figure 2.7 reprend la répartition des expatriés par zone de nationalité.

La moitié des expatriés du portefeuilles est française. La deuxième zone de nationa-lité est l’Asie suivie par les pays d’Europe de l’ouest et d’Amérique.

Nous nous intéressons dans la suite à la sinistralité globale du portefeuille MSH.



Figure 2.7 – Nationalités des expatriés du portefeuille MSH

2.2.2 La consommation médicale et les niveaux de rembourse-ment

Dans cette partie nous nous intéressons à la sinistralité associée au portefeuille MSHdurant la période [2006,2012].

Les frais réels et les remboursements

Figure 2.8 – Frais réels et remboursement par année

La figure 2.8 reprend la somme des frais réels et les 3 types de remboursement sui-vants :

• Remboursement AXA : Remboursement e�ectué par AXA,• Remboursement CFE 5 : Remboursement e�ectué par la CFE qui est l’équivalent

de la sécurité sociale pour les expatriés qui, du fait de leur statut, n’en bénéficiepas systématiquement,

5. Caisse des Français de l’Etranger



• Autres remboursements : Il s’agit des remboursements e�ectués par des orga-nismes autre que la CFE et AXA. Il s’agit souvent d’organismes de sécurité socialerattaché au pays d’expatriation.

Cette figure laisse transparaître une baisse de la consommation en 2011 associée naturel-lement à la baisse d’exposition constatée un peu plus haut.

La répartition des frais réels par postes médicaux

La figure 2.9 représente la répartition des frais engagés par les assurés par postesmédicaux.

Figure 2.9 – Répartition des frais réels par postes médicaux

Les hospitalisations de jour et de nuit représentent 27% des frais engagés par lesassurés. Ensuite vient la médecine ambulatoire avec la pharmacie, les actes de consultationchez des généralistes ou des spécialistes...

La sinistralité de pointe

La figure 2.10 représente la part de la sinistralité annuellle de pointe dans la consom-mation médicale globale pour les 10 premiers pays d’expatriation du portefeuille MSH.

Les histogrammes rouges représentent le pourcentage des charges annuelles consi-dérées comme étant exceptionnelles par rapport à la distribution observée des chargesannuelles dans un pays donné. Ces charges exceptionnelles sont déterminées comme cellesétant supérieures aux montants indexés par la courbes vertes qui représente les quantilesempirique à 95% des réalisations de charges annuelles des consommants. Les histogrammesbleus représentent le poids de la sinistralité exceptionnelle quant à la charge totale ob-servées par pays. Ainsi on peu lire qu’aux USA, la charge annuelle de consommation des3% d’assurés les plus consommants représente environs 50% de la charge totale observéedans ce pays.



Figure 2.10 – La sinistralité extrême dans les 10 premiers pays d’expatriation

Les statistiques descriptives précédentes nous permettent d’avoir une vue globale descaractéristiques des assurés du portefeuille en terme d’exposition et de sinistralité. Unedes caractéristiques importantes dans le pilotage d’un portefeuille d’assurance santé est ladérive de la consommation médicale permettant d’e�ectuer des projections de sinistralité.


2.3. Dérive de la consommation médicale du portefeuille MSH

2.3 Dérive de la consommation médicale du porte-feuille MSH

Dans cette section, nous nous intéressons à la dérive de la consommation médicaledu portefeuille MSH. Il s’agit du taux d’accroissement de la consommation moyenne parassuré de ce portefeuille. Cette estimation a été dans un premier temps réalisée pour fairedes projections du ratio combiné 6 de la direction IEB et ensuite mettre à jour le logicielde tarification courant de la direction.

2.3.1 Modèle de régression exponentiel pour l’estimation de ladérive

Pourquoi la régression exponentielle

Déterminons l’ensemble des fonctions f œ C1(R+,Rú+) vérifiant la relation suivante :

f(x + 1)f(x) = Cte

0 (2.1)

Par dérivation il vient :

f(x + 1)f(x) = Cte

0 … f Õ(x + 1)f(x + 1) = f Õ(x)

f(x) (2.2)

Ainsi, les fonctions f vérifiant 2.1 sont telles que : x ‘≠æ f Õ(x)f(x) est 1-périodique et

peuvent donc être décomposées en série de Fourier. Il existe donc pour de telles fonctionsdes suites (a

n

)nØ0 et (b

n

)nØ1 telles que (Consulter [Kammler(2007)] pour plus de théorie

sur l’analyse de Fourier) :

f Õ(x)f(x) = a0

2 +Œÿ

k=1{a

k

cos(2fikx) + bk

sin(2fikx)}

… ddx

ln f(x) = a02 +

Œÿ

k=1{a

k

cos(2fikx) + bk

sin(2fikx)}

… f(x) = exp⁄

x

C

te1

a02 +

Œÿ

k=1{a

k

cos(2fiku) + bk

sin(2fiku)}du

… f(x) = exp (ax + b +Œÿ

k=1{a

k

cos(2fikx) + bk

sin(2fikx)}) (2.3)

L’équation 2.3 reprend l’ensemble des solutions pour le problème posé en 2.1. Lessolutions les plus simples au problème que l’on s’est posé sont les suivantes :

6. Le ratio combiné correspond à la somme des sinistres et des frais de gestion et d’acquisitionrappoortée aux primes



• f constante : Cela reviendrais à prendre an

= bn

= 0 pout tout n. Cette solutionest inadaptée car nous voulons mesurer un taux d’accroissement de la fonction favec le temps. Dans un tel modèle nous ferions l’hypothèse d’un taux d’accrois-sement nul ce qui va à l’encontre de l’objet de notre modélisation. Cette solutiontriviale est en fait un cas particulier de la solution qui suit,

• f(x) = beax (modèle exponentiel) : Cela reviendrait à prendre an

= bn

= 0 pourn Ø 1 (f

Õ(x)f(x) constant).

Nous choisissons comme modèle le modèle exponentiel qui permet de mesurer un tendancenon nulle. Ce modèle est le modèle réaliste le plus simple à mettre en oeuvre du point devue de l’implémentation.

Consommation moyenne et régression exponentielle

Nous considérons ici les données relatives à la consommation des assurés du porte-feuille MSH sur la période allant de 2006 à 2012. Nous disposons notamment des infor-mations suivantes pour chaque assuré :

• Pays d’expatriation (variable pays_expat),• Catégorie d’assuré : Adhérent, conjoint, enfant ou ascendant (variable type_assure),• Sexe (variable sexe),• Années de survenance (variable annee_soin),• Présence de l’assuré pendant l’année de soin (variable presence),• Consommation de l’assurée pendant l’année de soin (variable frais_euro).

Nous nous intéressons au calcul du taux d’accroissement moyen de la consommation d’unindividu en fonction de paramètres comme son pays d’expatriation, sons sexe et sa caté-gorie (adulte homme, adulte femme, enfant). Nous fixons dans un premier temps le paysd’expatriation et la catégorie d’assuré. A l’aide de procédures SAS et de requêtes SQL,nous récupérons par pays d’expatriation et par année de soin, la présence et la consomma-tion totales des assurés pendant l’année de soin. Le rapport de ces deux variables donnela consommation moyenne par assuré. En d’autres termes en fixant le pays d’expatriationet la catégorie de l’assuré nous avons pour une année de soin x œ {2006, 2012} la fonctionconsommation moyenne f suivante :

f(x) =q

n(x)i=1 C

i

(x)q

n(x)i=1 P

i

(x),

f : {2006, . . . , 2012} ≠æ Rú+

x ‘≠æ f(x) (2.4)

Avec :

• n(x) : Nombre d’assurés ayant une présence non nulle durant l’année de soin x,• P

i

(x) œ ]0, 1] : Présence de l’assuré i durant l’année de soin x. Pour un assuréprésent 6 mois dans une année de couverture par exemple, cette fonction vaudra0.5,

• Ci

(x) : Consommation médicale de l’assuré i durant l’année de soin x.

Nous définissons le taux de dérive r de la consommation moyenne par assuré commesuit :



f(x + 1) = (1 + r) ◊ f(x) … f(x + 1)f(x) = (1 + r) = Cte, x œ {2006, . . . , 2012} (2.5)

Nous considérons alors le modèle de régression exponentiel suivant :

f(x) = beax (2.6)

Ce modèle satisfait la relation 2.5 et présente l’avantage comme nous l’avons vu dans lasection précédente d’être réaliste, simple du point de vue de l’implémentation et de lamesure de la dérive. Notons tout de même que nous considérons ici la restriction de lafonction f vue dans la précédente section à l’ensemble {2006, . . . , 2012} ou plus largement(par extrapolation) à l’ensemble Z des entiers relatifs. Sur un tel ensemble, les fonctions1-périodiques sont constantes et donc les modèles exponentiel et constant (cas particulierdu modèle exponentiel) sont les seules solutions au problème posé en 2.3.

Nous estimons maintenant le taux de dérive dans le cadre que nous nous sommesfixé. En remplaçant l’expression 2.6 dans 2.5 il vient :

bea(x+1)

beax

= 1 + r … r = ea ≠ 1 (2.7)

Notons ici que nous e�ectuons une régression sur seulement 7 points ({2006, . . . , 2012}).Dans notre exercice, nous jugeons la pertinence de nos estimations en observant la valeurprise par le coe�cient de détermination associé aux di�érentes régressions mais aussi enayant un regard critique sur la forme des courbes que nous avons été amenées à tracer.La définition du coe�cient de détermination est fournie dans la partie 4.1.3 (On e�ectueici une régression linéaire sur le logarithme de la variable réponse).

2.3.2 Résultats obtenus sur le portefeuille globaleNous présentons dans cette section l’analyse de la dérive de la consommation médi-

cale des expatriés de l’ensemble du portefeuille MSH sur la période [2006, 2012].

(a) Dérive globale (b) Dérive par catégorie

Figure 2.11 – Dérive de la consommation médicale de l’ensemble du portefeuille expatriésMSH de 2006 à 2012



La figure 2.11a représente l’évolution de la dérive de la consommation médicale del’ensemble des expatriés du portefeuille MSH. Nous constatons sur cette figure une hausseassez régulière de la consommation médicale de 2006 à 2010 puis une baisse ponctuelle en2011. La baisse d’exposition constatée un peu plus haut est donc associée à une sortie de"gros consommants" . La ligne rouge tracée sur cette figure représente la courbe associée àla régression exponentielle que nous e�ectuons pour l’estimation de la dérive. Nous pou-vons mesurer graphiquement la qualité de l’ajustement et notre observation est confortéepar la valeur du coe�cient de détermination R2 à 0, 94. Comme indiqué précédemment,il est important d’avoir un regard critique passant par une analyse graphique pour lamesure de la qualité de nos ajustements. Nous obtenons alors les résultats suivants :

Paramètre EstimationValeur ajustée a a1

Dérive d1R2 0, 94

Table 2.1 – Dérive globale portefeuille MSH

La figure 2.11b reprend l’évolution de la consommation médicale par catégorie d’as-surés (Adulte Homme, Adulte Femme, Enfant). Les femmes adultes consomment en gé-néral plus que les hommes adultes notamment en raison des soins liés à la maternité etles hommes adultes plus que les enfants. Nous observons bien ces écarts sur le graphiquetracé. La baisse de consommation constatée au niveau global en 2011 s’observe au niveaudes 3 catégories d’assurés énoncées.

Nous obtenons les résultats suivants pour chaque catégorie d’assurés :

Paramètre Enfants Femmes HommesValeur ajustée a a2 a3 a4

Dérive d2 d3 d4R2 0, 94 0, 93 0, 90

Table 2.2 – Dérive portefeuille MSH par catégorie

Les estimations que nous e�ectuons semblent d’assez bonne qualité au vu des gra-phiques tracés et des coe�cients de détermination calculés.

2.3.3 Zoom sur SingapourDérive

Nous présentons dans cette section l’analyse de la consommation médicale des ex-patriés à Singapour sur la période [2006, 2012].

La figure 2.12a représente l’évolution de la dérive de la consommation médicale de l’en-semble des expatriés à Singapour. Nous constatons sur cette figure une baisse de la consom-mation moyenne en 2007 puis une hausse assez régulière de 2007 à 2012. La ligne rougetracée sur cette figure représente là encore la courbe associée à la régression exponentielle



(a) Dérive globale (b) Dérive par catégorie

Figure 2.12 – Dérive de la consommation médicale à Singapour de 2006 à 2012

que nous e�ectuons pour l’estimation de la dérive. Au delà du coe�cient de déterminationR2 à 0, 96 nous pouvons mesurer graphiquement la qualité de notre ajustement.

Nous obtenons alors les résultats suivants :

Paramètre EstimationValeur ajustée a a5

Dérive d5R2 0, 96

Table 2.3 – Dérive globale Singapour

La figure 2.12b reprend l’évolution de la consommation médicale à Singapour parcatégorie d’assurés (Adulte Homme, Adulte Femme, Enfant). La baisse de consommationconstatée au niveau globale en 2007 s’observe chez les hommes et les enfants mais pas chezles femmes. Après 2007 nous observons une augmentation régulière de la consommationpour chacune des 3 catégories d’assurés mise à part une baisse de la consommation en2009 chez les femmes.

Nous obtenons les résultats suivant pour chaque catégorie d’assurés :

Paramètre Enfants Femmes HommesValeur ajustée a a6 a7 a8

Dérive d6 d7 d8R2 0, 67 0, 95 0, 93

Table 2.4 – Dérive Singapour par catégorie

Là encore, les estimations que nous e�ectuons semblent d’assez bonne qualité auvu des graphiques tracés et des coe�cients de détermination calculés. Celui associé à lacatégorie d’assuré que sont les enfants n’est pas très satisfaisant (0, 67) mais nous pouvonsconsidérer la dérive calculée, la tendance étant globalement assez bien représentée par lacourbe exponentielle ajustée (voir figure 2.12b).



Evolution de l’exposition

Les estimations de dérive que nous e�ectuons ont du sens si et seulement si lescaractéristiques des assurés restent relativement stables au fil du temps. Pour mesurer lacrédibilité de l’estimation que nous faisons de la dérive à Singapour par exemple nousnous intéressons à l’évolution de l’exposition dans ce pays.

(a) Evolution de l’exposition par âge (b) Boîtes à moustache

Figure 2.13 – Evolution de l’exposition à Singapour de 2006 à 2013

La figure 2.13a représente l’évolution de l’exposition par âge des expatriés à Singapour de2006 à 2013. Nous sommons ici les présences des assurés par année de présence et par âge.Sur un tel schéma, un assuré ayant été présent sur toute la période considérée pourraitêtre représenté par une diagonale sur le plan age◊annee. Nous observons sur cette figureune stabilité au niveau de la présence des expatriés à Singapour.

La figure 2.13b reprend l’évolution des âges des assurés de 2006 à 2013 par l’intermédiairede tracés de boîtes à moustache. Les boîtes à moustache sont des éléments statistiquesreprésentant les moyennes, quartiles, minimum et maximum d’une variable donnée. Letracé de ces boîtes à moustache suivant les années de présence de nos assurés nous permetd’observer l’évolution de l’âge des expatriés à Singapour. Là encore, nous pouvons noterla stabilité de cette caractéristique essentielle en terme de consommation, ce qui vientconforter la crédibilité de la mesure de dérive que nous e�ectuons.

Avant de parler de la démarche de tarification en elle même, nous décrivons brièvementla méthode de suivi de la sinistralité et de la rentabilité du portefeuille.

2.3.4 Le suivi de la sinistralité et de la rentabilité portefeuilleLa dérive de la consommation médicale d’une année à une autre est un critère

fondamental devant être pris en compte lors de la tarification d’a�aires nouvelles 7. Ceparamètre peut être mesuré grâce au modèle décrit plus haut.

Une fois un appel d’o�re remporté, il convient de s’assurer de la cohérence des tarifsproposés avec la sinistralité propre à la consommation de la population assurée. Pourun client donné, les tarifs proposés à la souscription sont valables durant une année de

7. Appel d’o�re / Demande de cotation pour des clients qui ne sont pas dans le portefeuille d’AXASolutions Collectives



souscription. Ils sont ensuite révisés chaque année au regard de la rentabilité annuelle ducompte étudié. Le processus de redressement est le suivant :

• On estime la charge sinistre ultime Ultn

relative à l’année de souscritption écouléen en intégrant des IBNR 8 notamment,

• Cette charge ultime est inflatée de la dérive de la consommation médicale d% afinde projeter l’attérissage de la sinistralité pour l’année de souscription n + 1,

• On décharge la prime commerciale de l’ensemble des frais qu’elle contient pourobtenir une prime nette de tout frais PrimeNette

n

,• La prime nette est ensuite majorée de x% de façon à ce que le ratio suivant soit

inférieur ou égal à 100% :

S/P = Ultn

ú (1 + d%)PrimeNette

n

ú (1 + x%) . (2.8)

Dans ce chapitre, nous avons décrit le portefeuille géré par MSH. Nous rappelons qu’ils’agit de données récentes devant servir à la mise à jours des tarifs du portefeuille "santéexpatriés" d’AXA Solutions Collectives. L’exposition et la consommation médicale ont étédécrites après avoir présenté la structure des données nettoyées. La dérive de la consomma-tion médicale du portefeuille a été estimée à l’aide d’un modèle de régression exponentielleet la méthode de suivi du portefeuille présentée. Nous allons dans le chapitre qui suit nousintéresser à la démarche actuarielle envisagée pour parvenir à la tarification des garantiesassociées à l’o�re étudiée. Plusieurs approches de tarification peuvent en e�et être envi-sagées et certains éléments tels que la segmentation de la population, les franchises et lesplafonds associés aux garanties doivent être pris en compte de façon adéquate.

8. Incurred But Not Reported


Chapitre 3

La démarche de tarification

Dans ce chapitre, nous nous intéressons à la démarche adoptée pour parvenir àl’établissement d’une grille tarifaire flexible et appropriée aux données à disposition pourla réalisation de notre étude. Nous nous intéressons dans un premier temps aux variablestarifaires.

3.1 Les variables tarifaires3.1.1 Les variables d’intérêt et les variables explicatives

Parmi les variables tarifaires auxquelles nous nous sommes intéressés, il faut distin-guer les variables d’intérêt des variables explicatives.

Les variables d’intérêt sont les variables réponses à expliquer. Elles sont répertoriées dansla table 3.1.

Table 3.1 – Liste des variables d’intérêt

Variables Descriptionsomme_frais Charge annuelle de consommation médicalesomme_quantite Nombre de sinistres dans l’annéecout_acte Coût d’un acte (coût moyen d’un sinistre dans l’année)var_bern Variable binaire associée à l’occurrence d’un sinistre

Ensuite, le choix des paramètres de segmentation de la population a une importancecapitale. Nous nous sommes attelé à avoir un niveau de détails important par le biais decroisement de di�érentes tables afin d’être le plus précis possible dans la tarification pro-posée. La table 3.2 reprend les variables explicatives potentielles que nous pourrons retenirdans l’explication des variables d’intérêt. De cette liste de variables, nous ne retiendronsque celles qui seront significatives dans l’explication des variables d’intérêt lors de nosdi�érentes analyses.

31

3.1. Les variables tarifaires

Table 3.2 – Listes des potentielles variables explicatives

Variables Descriptionsexe Sexe de l’assuréage Age de l’assurécategorie Croisement des variables sexe et âgetype_assure Type de l’assuré (Adhérent, conjoint, enfant ou parent)situation Situation matrimoniale de l’assurépays_expat Pays d’expatriation de l’assurézone Zone d’expatriation de l’assuréannee Année de soinpresence Présence de l’assuré dans l’annéeln_presence Logarithme de la variable présence (o�set)

3.1.2 L’année de soin comme variable explicative et la corréla-tion temporelle des observations

Travailler avec des données relatives à plusieurs années d’observation et considérerl’année de soin comme variable explicative permet de mesurer des coûts et des incidencespar année. Une analyse annuelle est en e�et indispensable pour pouvoir estimer les dérivesde la consommation médicale et e�ectuer des projections à divers horizons. La prise encompte de plusieurs années d’observation induit cependant une dépendance temporelle.En e�et, nous avons à notre disposition des données relatives à des individus ayant étéprésents plusieurs années. Les réalisations de consommation annuelle de ces individus sontà priori corrélées. Cela pose un problème d’un point de vue théorique car les estimationsdu modèle implémenté (GLM) se font par la méthode du maximum de vraisemblance quiest basée sur l’hypothèse d’indépendance entre les observations.

Avec un portefeuille de grande taille, l’estimateur — des paramètres du modèle supposantl’indépendance sérielle est convergent. La dépendance sérielle a peu d’impact asymptoti-quement sur la moyenne. La variance est quant à elle impactée par cette dépendance. Lesméthodes GEE 1 présentées en annexe B permettent d’améliorer la variance asymptotiquede —.

Nous supposerons l’indépendance pour e�ectuer nos estimations pour bénéficier des élé-ments d’analyse et de validation des modèles linéaires généralisés. Une comparaison desrésultats des 2 méthodes sera e�ectuée à l’aide de quelques exemples dans la partie 5.4.

3.1.3 Les interactions entre variables explicativesDans la modélisation, certains e�ets croisés seront intégrés en vue de prendre en

compte les interactions entre variables explicatives. Sans e�et d’interaction, le modèle im-plémenté estime l’influence de chacune des variables explicatives de façon indépendante.Il peut cependant être utile de mesurer les e�ets liés à di�érents croisements. Par exemple,dans un modèle de tarification en fonction du sexe et du pays d’expatriation, la di�érencerelative entre le tarif des femmes et celui des hommes sera la même d’un pays à un autre.

1. Generalized Estimating Equation


3.2. Une première approche de tarification possible : Fréquence ◊ Coût moyen

En intégrant un e�et d’interaction sexe ◊ pays d’expatriation, la spécificité des croise-ments est prise en compte et les écarts relatifs ne sont plus les mêmes.

Nous croisons dans l’étude l’âge et le sexe des assurés au travers de la variable cate-gorie. Selon les postes médicaux, nous intégrerons aussi un e�et année de soin ◊ paysd’expatriation en vue de mesurer l’inflation des coûts non pas au global mais par paysd’expatriation.

Une fois les variables explicatives sélectionnées, plusieurs approches de tarification peuventêtre envisagées. Nous présentons dans la suite l’approche fréquence ◊ Coût moyen et l’ap-proche probabilité ◊ Charge, qui peuvent être abordées d’un point de vue déterministeou par l’intermédiaire des modèles linéaires généralisés. La robustesse de l’approche dé-terministe diminue avec l’ajout de variables explicatives, car la taille des échantillons estréduite dans les cellules tarifaires formées par les nombreux croisements de modalités desvariables. Nous lui préférons donc la modélisation des variables d’intérêt via la théorie desmodèles linéaires généralisés.

3.2 Une première approche de tarification possible :Fréquence ◊ Coût moyen

L’approche Fréquence ◊ Coût moyen est largement utilisée pour la tarification ensanté. [Vautrin(2009)] implémente par exemple, des modèles linéaires généralisés pourestimer fréquences et coûts moyens afin de tarifer des contrats complémentaires santécollectifs.

3.2.1 La fréquenceIl s’agit de la fréquence annuelle de sinistre. En santé, un sinistre se traduit par

un ou plusieurs actes de soins. La fréquence est déterminée de façon déterministe enrapportant le nombre d’actes médicaux à l’exposition. Elle peut aussi être obtenue viaun modèle linéaire généralisé en implémentant une régression de Poisson ou plutôt unerégression binomiale négative si la variable d’intérêt est surdispersée (Chapitre 9 de[Denuit & Charpentier(2005)] pour aller plus loin). Les réalisations y

i

de la variable d’in-térêt sont alors le nombre d’actes par individu et par année que l’on annualise en divisantcette quantité par l’exposition dans l’année (1 pour 1 ans et 0.5 pour 6 mois...).

3.2.2 Le coût moyenIl s’agit du coût moyen d’un acte de soin durant l’année considérée. Il peut être es-

timé de façon déterministe en ramenant la charge annuelle de consommation médicale (lesfrais réels) au nombre d’actes de soin dans l’année. Une régression gamma ou lognormalepeut aussi être envisagée. Les réalisations y

i

de la variable réponse sont alors les coûtsmoyens par individu et par année.


3.3. Une seconde approche de tarification possible : Probabilité de consommer ◊ Chargede consommation

3.2.3 La prime pureLa prime pure est obtenue en multipliant fréquences et coûts moyens par cellule

tarifaire. En e�et, d’un point de vue actuariel le risque que l’on considère dans l’approcheFréquence ◊ Coût moyen est la charge annuelle de sinistre. Celle-ci peut s’écrire sous laforme de la variable aléatoire suivante :

C =

Y__]

__[

Nÿ

k=1C

k

si N > 0

0 si N = 0

Avec :

• C : Charge sinistre annuelle d’un individu ayant certaines caractéristiques maté-rialisées par les variables explicatives,

• N : Variable aléatoire représentant le nombre de sinistres dans l’année,• C

k

: Coût du keme sinistre .

La prime pure que l’on veut déterminer est l’espérance mathématique de la charge sinistreC. En supposant les (C

k

)kØ1 iid 2 et indépendants de la variable N , on a :

E[C] =ÿ

kØ1Pr(N = k) E

Ckÿ

i=1C

i

D

=Q

aÿ

kØ1Pr(N = k)k

R

b ◊ E[Ck

]

E[C] = E[N ] ◊ E[Ck

]…

Prime Pure = Frequence ◊ Cout moyen

3.2.4 LimitesLes hypothèses de l’approche Fréquence ◊ Coût moyen sont l’indépendance entre la

variable aléatoire N représentant le nombre de sinistres et le processus des coûts (Ck

)kØ0

d’une part et le caractère iid des variables (Ck

)kØ0 du processus de coûts d’autre part. Il

s’agit de 2 hypothèses fortes qui ne sont pas toujours vérifiées en pratique et qui constituentdonc les principales limites de cette approche.

3.3 Une seconde approche de tarification possible :Probabilité de consommer ◊ Charge de consom-mation

C’est l’approche retenue par [Nguyen(2009)] dans le cadre de la tarification du por-tefeuille de Welcare. Elle implémente dans son étude une régression logistique pour la

2. indépendants et identiquement distribués


3.3. Une seconde approche de tarification possible : Probabilité de consommer ◊ Chargede consommation

modélisation de la probabilité de consommation et e�ectue une étude globale de la loi desfrais réels par poste médicaux pour la modélisation de la charge annuelle de consomma-tion.

3.3.1 La probabilité de consommer dans l’annéeIl s’agit de la probabilité de consommer au moins une fois dans l’année. Elle corres-

pond, à l’exposition près, à la proportion de consommants parmi les bénéficiaires. Pourmodéliser cette probabilité, nous implémentons un modèle de régression binomial dont lescaractéristiques sont présentés dans le chapitre 4. L’idée est de considérer les réalisationsde consommation comme des réalisations d’une variable binomiale et d’estimer la proba-bilité de consommer par la probabilité associée à cette variable.

De façon plus formelle, cette probabilité peut être considérée comme l’espérance ma-thématique de la variable aléatoire suivante :

IND = 1{N>0} =I

1 si N > 0, N nombre de sinistres dans l’année,0 si N = 0

3.3.2 La charge annuelle de consommation dans l’annéeIl s’agit de la charge totale par année et par individu. Nous modéliserons cette

variable par une régression gamma. Les réalisations sur lesquelles on s’appuie pour la mo-délisation sont des quantités strictement positives. Nous considérons en e�et la consom-mation annuelle des assurés ayant consommé au moins une fois. C’est la stricte positivitédes observations qui justifie l’usage d’une loi comme la loi gamma dans la modélisation.

3.3.3 La prime pureLa prime pure est obtenue en multipliant classe par classe la probabilité de consom-

mation par la charge totale annuelle que l’on aura calculée. En e�et, d’un point de vueactuariel le risque que l’on considère dans l’approche probabilité de consommer ◊ Chargede consommation est le suivant :

C = IND ◊ C+ , C+ ayant même loi que C|N > 0

Avec :• IND : variable aléatoire binaire représentant le fait de consommer ou non,• C+ : variable aléatoire représentant la charge annuelle de consommation sachant

qu’il y a eu consommation.

La prime pure est alors l’espérance mathématique de ce risque et s’écrit :


3.4. Comment tenir compte des franchises et plafonds contractuels dans la tarification ?

E[C] = EËIND ◊ C+

È

= Pr(IND = 1) ◊ E[C+|IND = 1] + Pr(IND = 0) ◊ E[C+|IND = 0]= Pr(N > 0) ◊ E[C+|N > 0] + Pr(N = 0) ◊ E[C+|N = 0]= Pr(N > 0) ◊ E[C+|N > 0]…

Prime Pure = Probabilité de consommer ◊ Charge de consommation

3.3.4 Le choix de cette approcheAu delà des limites de l’approche Fréquence ◊ Coût moyen du fait du caractère dé-

pendant des variables d’intérêt associées à ce modèle, l’approche Probabilité de consom-mer ◊ Charge de consommation a été préférée en raison de la fiabilité de la variablereprésentant le nombre d’actes (ou sinistres) dans nos bases de données. En e�et, le dé-nombrement du nombre d’actes peut varier selon le poste médical et selon le pays. Ilpeut s’agir du nombre de jours d’hospitalisation, du nombre de visites pour les actes deconsultation chez le généraliste ou le spécialiste, ou encore du coe�cient multiplicateur dede la Sécurité Sociale (50 pour une prothèse dentaire dont la nomenclature est SPR50)...Au vu du nombre d’interprétations possibles du nombre d’actes, nous décidons de nousa�ranchir de cette variable dans la tarification en modélisant d’une part la probabilité deconsommer au moins une fois dans l’année et d’autre part la charge annuelle moyenne deconsommation médicale sachant qu’il y a eu consommation.

Une fois les primes pures déterminées, il faut évaluer l’impact de l’inclusion de plafondset franchises sur les tarifs. La prochaine section est dédiée à l’analyse de cet axe.

3.4 Comment tenir compte des franchises et plafondscontractuels dans la tarification ?

Les franchises sont les frais restant à la charge de l’assuré en cas de survenance d’unsinistre. Das le cadre de l’o�re santé expatriés étudiée, elles sont calculées en pourcentagedes frais réels et permettent entre autres de diminuer l’aléa moral, l’assuré devant payerune partie des frais en cas de sinistre.

Les plafonds, en général annuels, servent à limiter l’exposition de l’assureur à la sinis-tralité extrême. Ils peuvent être spécifiés au niveau d’une formule entière regroupantplusieurs garanties ou par actes médicaux.

Nous allons voir comment intégrer ces deux éléments contractuels lors de la tarification.

3.4.1 2 méthodes possibles : Arbitrage entre biais et volatilitéLes comportements des assurés peuvent changer en fonction de la présence ou non

de franchises et plafonds dans les termes des garanties qu’ils souscrivent. Deux approchespeuvent être considérées pour la prise en compte de ces caractéristiques contractuelles



dans la tarification. L’une privilégie la diminution du biais associé aux estimations avecune augmentation de la volatilité et l’autre l’inverse.

Considérer les plafonds et franchises comme des variables explicatives

La première approche repose sur la disponibilité de données exploitables sur lescaractéristiques relatives à chaque contrat (franchises, plafonds...). Il s’agirait alors d’in-tégrer les caractéristiques des contrats aux variables explicatives. Cette approche a ledouble avantage de permettre de s’a�ranchir de l’aléa qui repose sur le changement decomportement des assurés dans leur consommation en présence de plafonds et de fran-chises d’une part. D’autre part, elle donne la possibilité de faire des prévisions tarifairesintégrant directement des tarifs et franchises de di�érents niveaux.

Nous ne retenons pas cette approche de tarification en raison du manque de donnéesexhaustives sur les caractéristiques des contrats. En retenant cette approche, l’on per-drait plus de la moitié des données à disposition, ce qui en ferait une approche possédantpeu de biais mais une volatilité accrue.

Tenir compte des plafonds et franchises à postériori

La deuxième approche consiste à négliger l’impact de la présence de franchises etde plafonds sur la consommation médicale des assurés. Cette approche est bien entenduebiaisée par le fait que la consommation associée à des contrats sans plafond par exemple estsouvent supérieure à la consommation associée à des contrats avec plafond. Un double e�etpeut alors exister en négligeant le changement de comportement induit par ces limites. Onviendrait en e�et modéliser une consommation moyenne plafonnée ou franchisée sur desdonnées de consommation qui le sont implicitement du fait de l’aléa moral qui se trouveréduit par ces limites.

3.4.2 La méthode retenueL’impact du biais relatif à la non considération du changement potentiel de com-

portement des assurés diminue naturellement lorsque les plafonds augmentent ou que lesfranchises diminuent. Nous retenons la deuxième approche, les franchises associées auxgaranties de l’o�re étudiée étant de l’ordre de 10% des frais réels et les plafonds en généralassez hauts. Les garanties proposées aux expatriés sont en e�et relativement confortablesen terme de couverture.

3.4.3 La prime pure en présence de plafond et franchise contrac-tuels

En notant ◊ le taux de remboursement (franchise = 1 - ◊) et Ê le plafond de rem-boursement, la charge annuelle de consommation plafonnée et franchisée s’écrit commesuit ([Nguyen(2009)]) :

C+(◊, Ê) = ◊C+1{◊C+ < Ê} + Ê1{◊C+ Ø Ê} =I

◊C+ si ◊C+ < ÊÊ si ◊C+ Ø Ê



L’espérance mathématique de ce risque s’écrit :

E[C+(◊, Ê)] = E[C+(◊, Ê)|◊C+ < Ê]Pr(◊C+ < Ê) + E[C+(◊, Ê)|◊C+ Ø Ê]Pr(◊C+ Ø Ê)

= ◊E5C+|C+ <

Ê

◊

6Pr(◊C+ < Ê) + ÊPr(◊C+ Ø Ê)

E[C+(◊, Ê)] = ◊E5C+|C+ <

Ê

◊

6F

C

+

3Ê

◊

4+ Ê

31 ≠ F

C

+

3Ê

◊

44

Et la prime pure devient :

E[C(◊, Ê)] = Pr(N > 0) ◊5◊E

5C+|C+ <

Ê

◊

6F

C

+

3Ê

◊

4+ Ê

31 ≠ F

C

+

3Ê

◊

446

Nous avons explicité dans ce chapitre notre démarche de tarification. L’approche de tari-fication Fréquence ◊ Cout Moyen n’a pas été retenue en raison de la fiabilité des donnéesdisponibles pour l’estimation de la fréquence notamment. Nous lui préférons l’approcheProbabilité ◊ Charge annuelle de consommation nous permettant de nous a�ranchir dela modélisation des fréquences de consommation. Les franchises et plafonds contractuelssont pris en compte à postériori de la modélisation. En d’autres termes, les probabili-tés et charges annuelles sont dans un premier temps modélisées sans tenir compte deleurs possibles influences sur les comportements. Leur impact est ensuite intégré aux loismodélisés. Les di�érentes quantité d’intérêts sont modélisées à l’aide de la théorie desmodèles linéaires généralisés. Dans le chapitre suivant, nous en présentons les fondementsthéoriques.


Chapitre 4

Les modèles linéaires généraliséspour la tarification

Dans ce chapitre, nous présentons queques éléments théoriques liés aux GLM 1 aprèsune présentation succincte du modèle linéaire "classique".

4.1 Le modèle linéaire gaussien : Un modèle souventpeu adapté aux problématiques assurantielles

Le modèle linéaire gaussien est le modèle de régression linéaire classique. C’est l’undes modèles les plus utilisés en statistiques du fait de sa simplicité. Nous verrons aprèssa présentation théorique que cette simplicité est souvent inapropriée dans le contexteassurantiel. Cette section s’appuie sur le chapitre 9 de [Denuit & Charpentier(2005)].

4.1.1 La formalisation du modèleIl s’agit du modèle de régression suivant :

Yi

= —0 +pÿ

j=1—

j

xij

+ ‘i

, ‘i

≥ Nor(0, ‡2), i œ {1, . . . , n} (4.1)

Qui s’écrit sous forme matricielle comme suit :

Y = X— + ‘ (4.2)Avec :

• n : Nombre d’observations,• p : Nombre de variables explicatives,• Y = (Y1, . . . , Y

n

)t : Variables réponses à expliquer supposée indépendantes et nonidentiquement distribuées,

• Xj

= (x1j

, . . . , xnj

)t, j œ {1, . . . , p} : jème variable explicative,

1. Generalized Linear Models, Modèles linéaires généralisés

39

4.1. Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problématiquesassurantielles

• X =

Q

cccca

1 xt

11 xt

2... ...1 xt

n

R

ddddb=

Q

cccca

1 x11 x12 · · · x1p

1 x21 x22 · · · x2p

... ... ... . . . ...1 x

n1 xn2 · · · x

np

R

ddddb: Matrice reprenant les variables expli-

catives,

• — = (—0, . . . , —p

)t : Paramètres du modèle à estimer,• ‘ = (‘1, . . . , ‘

n

)t : Bruit blanc d’écart type ‡, ‘i

≥ Nor(0, ‡2) ∆ Yi

≥ Nor(—0 +qp

j=1 —j

xij

, ‡2).

4.1.2 Estimation des paramètresDans le modèle défini dans la section précédente on suppose que les y

i

observés sontdes réalisations de variables Y

i

≥ Nor(—0 + qp

j=1 —j

xij

, ‡2). Les paramètres —j

peuventalors être estimés par maximum de vraisemblance. La vraisemblance associée au modèles’écrit comme suit :

L(—, ‡|y) = ( 1‡

Ô2fi

)n

nŸ

i=1exp(≠ 1

2‡2 (yi

≠ x

i

t

—)2)

= ( 1‡

Ô2fi

)nexp(≠ 12‡2 (y ≠ X—)(y ≠ X—)t) (4.3)

On montre (voir chapitre 9 de [Denuit & Charpentier(2005)] pour les détails) quel’estimateur de maximum de vraisemblance du vecteur — est solution des équations ditesnormales :

X tX— ≠ X tY = 0 … — = (X tX)≠1X tY (4.4)

Un premier estimateur de ‡ s’écrit :

‡2 = ‘‘

t

n(4.5)

Mais ce dernier est biaisé, on lui préfèrera :

‡2 = ‘‘

t

n ≠ p ≠ 1 (4.6)

La valeur ajustée de la variable réponse Y s’écrit :

Y = X—

= X(X tX)≠1X tY (4.7)

La matrice H = X(X tX)≠1X t est alors appelée matrice de prédiction. Il s’agit dela matrice de projection du vecteur d’observation Y sur l’hyperplan des variables explica-tives. Y , valeur ajustée de Y est la projection de Y sur l’espace des variables explicatives.Intuitivement, c’est la meilleur approximation que l’on peut faire de Y au vu des infor-mations disponibles via les variables explicatives. Le vecteur des résidus est estimé par‘ = Y ≠ Y = (I ≠ H)Y .


4.1. Le modèle linéaire gaussien : Un modèle souvent peu adapté aux problématiquesassurantielles

Les équations normales peuvent encore s’écrire :nÿ

i=1X t

i

(yi

≠ —

t

x

i

) = 0, i œ {1, . . . , n} (4.8)

Ecrites sous cette forme, les équations normales ont une interprétation intuitive. Lesrésidus associés au modèle s’écrivent ‘

i

= yi

≠ —

t

x

i

. L’équation 4.8 correspond en e�et àl’orthogonalité entre le vecteur des résidus du modèle et le plan des variables explicatives.La projection du vecteur des résidus sur l’hyperplan des variables explicatives est nulle,ce qui signifie intuitivement "qu’il n’y a plus rien" dans les variables explicatives pouvantapporter de l’information sur les résidus.

4.1.3 Validation du modèle et inférence statistiqueLa justesse de l’estimation peut être mesurée par le coe�cient de détermination :

R2 = 1 ≠q

n

i=1(yi

≠ yi

)2q

n

i=1(yi

≠ y)2 =q

n

i=1(yi

≠ y)2q

n

i=1(yi

≠ y)2 , R2 œ [0, 1] (4.9)

Un R2 proche de 1 indique que l’ajustement est de bonne qualité. En e�et ce co-e�cient est le rapport de la somme des carrés expliquée à la somme des carrés totale.Un R2 proche de 1 équivaut donc à une somme des carrés expliquée proche de la sommedes carrés totale et témoigne ainsi d’une perte minime d’information dans la modélisation.

Cet estimateur a cependant le défaut de tendre systématiquement vers 1 avec l’ajout devariables explicatives, on lui préférera donc le coe�cient de détermination ajusté suivant,pénalisé par le nombre p de variables explicatives du modèle :

R2 = 1 ≠ n ≠ 1n ≠ p ≠ 1

qn

i=1(yi

≠ yi

)2q

n

i=1(yi

≠ y)2 (4.10)

Un peu d’inférence statistique

Les principales hypothèses du modèle linéaire gaussien sont les suivantes :

• Y = X— + ‘

• ‘ ≥ Nn

(0, ‡2I

n

)• X déterministe• Rang(X) = p + 1 < n

Sous ces hypothèses, on montre que — ≥ Np+1(—, ‡2(X tX)≠1). Ce résultat permet d’avoir

des intervalles de confiance et d’e�ectuer des test d’hypothèse sur les paramètres estimés.Sous ces hypothèses, on a en e�et —

j

≥ Np+1(—j

, ‡2(X tX)≠1jj

) et donc :

—j

≠ —j

S(X tX)≠1jj

≥ tn≠p≠1 (4.11)

Où tn≠p≠1 loi de student à n ≠ p ≠ 1 degrés de liberté et S2 = ‘‘

t

n ≠ p ≠ 1 estimateursans biais de ‡2.


4.2. Le choix des modèles linéaires généralisés

Un test de significativité

Pour tester la significativité de la jeme variable explicative et décider de l’intégrerou non au modèle de régression, on peut e�ectuer le test suivant :

H0 : —j

= 0 contre H1 : —j

”= 0

L’hypothèse nulle H0 est alors rejetée au seuil – si | —j

SÒ

(X tX)≠1jj

| > t1≠ –2 ;n≠p≠1 avec

t1≠ –2 ;n≠p≠1 quantile d’ordre 1 ≠ –

2 d’une loi de student à n ≠ p ≠ 1 degrés de liberté.

Intervalle de confiance autour des paramètres

Dans certains cas, il peut être intéressant d’avoir un intervalle de confiance autourdes paramètres estimés pour mesurer le risque asscocié aux estimations. Comme —

j

≥N

p+1(—j

, ‡2(X tX)≠1jj

), un intervalle de confiance au seuil – autour de —j

est alors :

—j

œ [—j

≠ t1≠ –2 ;n≠p≠1S

Ò(X tX)≠1

jj

; —j

+ t1≠ –2 ;n≠p≠1S

Ò(X tX)≠1

jj

] (4.12)

Le lecteur désireux d’avoir plus de résultats sur l’inférence dans le modèle linéaire gaus-saient pourra se référer au chapitre 9 de [Denuit & Charpentier(2005)].

Le modèle linéaire gaussien a longtemps été utilisé pour quantifier l’impact de variablesexplicatives sur des variables d’intérêt. Mais ce modèle n’est souvent pas adapté à la mo-délisation en assurance. Nous présentons dans la section qui suit la théorie des modèleslinéaires généralisés qui o�rent plus de possibilité en terme de modélisation et sont plusadaptés aux problématiques assurantielles.

4.2 Le choix des modèles linéaires généralisés4.2.1 Pourquoi un GLM ?Illustration de la stabilité des GLM sur des échantillons restreints

L’approche la plus naturelle lorsque l’on veut par exemple estimer la probabilitéde succès d’un évènement donné consiste à diviser le nombre de succès par segment depopulation ou par cellule tarifaire par le nombre total d’essais e�ectué. Cette approchedéterministe est exploitable lorsque les échantillons de données dans chaque cellule tari-faire sont su�samment fournis pour e�ectuer des estimations robustes. Lorsque le planexplicatif est constitué de plusieurs variables explicatives, l’on se retrouve en présenced’échantillons restreints par cellule tarifaire et l’estimation déterministe est alors trèsvolatile. Les GLM permettent d’estimer des e�ets associés à chacune des variables ex-plicatives de façon individuelle. L’estimation relative à une cellule tarifaire est alors unefonction de l’ensemble de ces e�ets estimés sur la base d’échantillons plus large que ceuxobtenus par croisement, ce qui mène à plus de stabilité. Considérons par exemple l’esti-mation de la probabilité d’aller chez le dentiste en fonction de l’age, du sexe et des annéesd’observation pour des expatriés français aux USA.



Les résultats des deux méthodes d’estimation sont repris dans la figure 4.1 :

(a) Estimation déterministe (b) Estimation avec GLM

Figure 4.1 – Comparaison méthode déterministe et GLM : Probabilité d’aller chez ledentiste pour des expatriés Français aux USA

Comme nous pouvons le constater, avec 5 variables explicatives, certaines cellules ex-plicatives contiennent très peu de données et conduisent à des estimations aberrantesavec la méthode déterministe. Avec les GLM, des e�ets sont mesurés individuellementpour chacune des 5 variables explicatives et les estimations par cellule, fonction des e�etsindividuels de chaque variable, sont donc plus stables.

Limites du modèle linéaire gaussien et généralisation

Le modèle linéaire gaussien n’est souvent pas adapté aux problématiques d’assu-rance. Il présente par exemple les insu�sances suivantes :

• La loi normale n’est souvent pas adaptée à la modélisation des variables d’intérêt.En e�et il s’agit d’une loi continue et à valeur dans R. Or en assurance on s’inté-resse la plupart du temps au nombre de sinistres à valeurs dans N, au coût d’unsinistre à valeurs dans R+ ou à la probabilité d’avoir un sinistre à valeurs dans[0,1]. Il est parfois possible d’appliquer de bonnes transformations à la variable ré-ponse afin de se ramener à une modélisation par le modèle linéaire gaussien avantd’e�ectuer les transformations inverses pour avoir les ajustements souhaités, maiscela induit d’autres biais.

• La relation linéaire entre la variable réponse et les variables explicatives n’estpas nécessairement adaptée à toutes les modélisations et impose d’importanteslimitations.

• L’homoscédasticité supposée dans le modèle linéaire gaussien impose aussi cer-taines limites et ne traduit pas nécessairement la réalité des variables dont onsouhaite étudié le "comportement".

Les modèles linéaires généralisés sont une double généralisation du modèle linéaire clas-sique et pallient aux importantes limitations qu’il impose. Nous noterons dans la suite÷ = X— le score du modèle et µ = E(Y ) l’espérance de la variable d’intérêt Y .



Cette section s’appuie sur le chapitre 9 de [Denuit & Charpentier(2005)], le chapitre 2 de[Mc Cullagh & Nelder(1989)] et le chapitre 9 de [Droesbeke et al.(2005)Droesbeke, Lejeune, & Saporta].

4.2.2 La première généralisation du modèle linéaire classique :les lois de la famille exponentielle comme loi pour la va-riable réponse

Le modèle linéaire classique est souvent inadapté quant à la loi qu’il associe auxvariables d’intérêt. Grâce aux GLM il est possible de leur associer d’autres lois que laloi normale. Ces lois font partie de la famille exponentielle qui o�re un cadre commund’estimation et de modélisation.

La famille exponentielle

Une variable Y a une loi faisant partie de la famille exponentielle si sa densité peutse mettre sous la forme :

f(y|◊, „) = exp

Ay◊ ≠ b(◊)

„+ c(y, „)

B

, y œ S (4.13)

Avec :• ◊ : Paramètre naturel, aussi appelé paramètre canonique ou encore paramètre de

la moyenne.• „ : Paramètre de dispersion. Il n’existe pas pour certaines lois de la famille expo-

nentielle, notamment lorsque la loi de Y ne dépend que d’un seul paramètre (onpose dans ces cas „ = 1). Sinon il s’agit d’un paramètre de nuisance qu’il fautestimer. Comme son nom l’indique, ce paramètre est lié à la variance de la loi.C’est aussi un paramètre très important dans la mesure où il contrôle la varianceet donc le risque. Dans certains cas une pondération est nécessaire pour accor-der des importances relatives aux di�érentes observations et le paramètre „ estremplacé par „

Ê

, Ê étant un poids connu à priori.• S : Support de la loi, sous-ensemble de R ou N• La fonction b(.) (resp. c(.)) est une fonction de ◊ (reps. de ◊ et y œ S). La fonction

b(.) doit être 2 fois dérivable.

Les densité des lois normale, de Poisson, binomiale et Gamma peuvent se mettre sous laforme 4.13 (voir table 4.1) et font ainsi partie de la famille exponentielle.

Loi S ◊ „ b(◊) c(y, ◊)

N (µ, ‡2) R µ ‡2 ◊2

2 ≠12

Ay2

‡2 + ln(2fi‡2)B

Gamma(‹, µ) R+ ≠ 1µ

1‹

≠ln(≠◊) ‹ln(‹y) ≠ ln(y) ≠ ln(�(‹))

Bin(n, p) N ln( p

1 ≠ p) 1 nln(1 + exp(◊)) ln

An

y

B

Pois(⁄) N ln(y) 1 exp(◊) ≠ln(y!)

Table 4.1 – Quelques lois de la famille exponentielle



Les lois de la famille exponentielle sont très utilisées en pratique du fait de certainespropriétés. En e�et pour une variable Y dont la loi fait partie de la famille exponentielle,on a le résultat suivant ( Ê = 1 s’il n’y a pas de pondération) :

Proposition 4.2.1. Pour toute variable Y dont la loi fait partie de la famille exponentielle

on a :

E(Y ) = bÕ(◊) et V (Y ) = b

ÕÕ(◊)„

Ê

Nous verrons lors de la résolution des équations d’estimation des paramètres d’unmodèle GLM l’importance de ce résultat.

Démonstration.

On introduit U = ˆ

ˆ◊ln(f(Y |◊, „)) = Y ≠ bÕ(◊)

„Ê. On a :

E[U ] = E

CY ≠ bÕ(◊)

„Ê

D

= E

Cˆ

ˆ◊ln(f(Y |◊, „))

D

=⁄ ˆ

ˆ◊ln(f(y|◊, „))f(y|◊, „)dy

=⁄ ˆ

ˆ◊f(y|◊, „)dy (Dérivation ln)

= ˆ

ˆ◊

⁄f(y|◊, „)dy (Fubbini)

E

CY ≠ bÕ(◊)

„Ê

D

= 0 (4.14)

D’où E(Y ) = bÕ(◊).

D’autre part, on a V [U ] = E[U2] ≠ E[U ]2 = E[U2]. Ainsi :

V [U ] = V

CY ≠ bÕ(◊)

„Ê

D

= V [Y ]Ê2

„2 = E

S

UA

ˆ

ˆ◊ln(f(Y |◊, „))

B2T

V

= E

C

≠ ˆ2

ˆ◊2 ln(f(Y |◊, „))D

(Fisher)

V [Y ]Ê2

„2 = bÕÕ(◊)„

Ê (4.15)

D’où V (Y ) = bÕÕ(◊)„

Ê.

Le paramètre naturel ou de la moyenne ◊ est directement lié à la moyenne (µ =E(Y ) = b

Õ(◊)) et le paramètre de dispersion „ à la variance de la variable d’intérêt. Lavariance se décompose en un facteur (bÕÕ(◊)) dépendant uniquement de ◊ et donc de lamoyenne µ et d’un autre facteur dépendant du paramètre de dispersion. Le premier facteurest appelé fonction variance (V (µ) = b

ÕÕ(◊)). Cette fonction est intéressante du fait qu’ellereprésente la variance à un facteur près et on peut montrer qu’elle caractérise la loi deY . Après estimation de la moyenne, elle permet d’avoir la variance après estimation du



Loi V (µ)Normale 1Poisson µGamma µ2

Binomiale µ(1 ≠ µ)

Table 4.2 – Fonctions variance associées aux lois classique de la famille exponentielle

paramètre de dispersion s’il existe. Pour les loi classiques de la famille exponentielle, ladépendance entre la moyenne et la fonction variance (et donc la variance) est très simple.Nous reprenons quelques résultats dans le tableau 4.2.

Au-delà de la loi de la variable réponse dont on a parlé dans cette section, une carac-téristique importante des GLM est la fonction de lien reliant l’espérance mathématiquede Y au prédicteur linéaire construit à partir des variables explicatives. Nous en parlonsdans la section qui suit.

4.2.3 La deuxième généralisation du modèle linéaire classique :la fonction de lien

Dans le modèle linéaire gaussien nous avions µ = ÷ avec µ = E[Y ] et ÷ = X— . Lafonction de lien relie µ au prédicteur linéaire ÷ par le biais de la relation g(µ) = ÷ (liennoté g). Avec l’introduction de cette fonction monotone et dérivable, l’on s’autorise unedépendance non linéaire entre la variable réponse et les variables explicatives.Aussi, le prédicteur linéaire peut théoriquement être dans un espace qui ne coïncide pasnécessairement avec l’espace de la variable réponse. Il peut par exemple prendre ses valeursdans R alors que la variable d’intérêt a des valeurs dans R+ (modélisation d’un coût) oudans [0,1] (modélisation d’une probabilité). Grâce à une "bonne" fonction de lien il estpossible de palier à ce problème.

Lien canonique

La fonction de lien canonique associée à une loi de la famille exponentielle est définiecomme la fonction de lien vérifiant g(µ) = ◊ = ÷ … g(.) = b

Õ≠1(.). Comme indiqué dans lechapitre 2 de [Ohlson & Johansson(2010)] cette fonction n’est pas nécessairement la plusintéressante pour la modélisation et la lecture des ajustements. L’avantage principale dulien canonique est la simplification qu’il induit au niveau de l’estimation des paramètres,comme on pourra le voir à la section 4.2.5. Nous reprenons les fonctions de lien canoniqueassociées à quelques lois classiques de la famille exponentielle dans le tableau 4.3. Cesfonctions de lien se déduisent naturellement du lien entre le paramètre canonique ◊ et µrepris dans le tableau 4.1 (au signe près pour la fonction gamma ; mais cela ne changerien à l’idée et aux simplifications induites par ce lien dans l’estimation des paramètres).

Une fonction de lien optimale mais pas nécessairement pratique

L’on pourrait essayer de trouver une fonction de lien optimale correpondant le mieuxà la dépendance observée entre les réalisations de la variable réponse et le plan explicatif.La fonction de lien devient alors une autre inconnue de notre modèle. Considérons latransformée de Box-Cox ([Box & Cox(1964)] pour aller plus loin) qui introduit une formeparamétrique pour la fonction de lien :



Loi Lien canonique g(µ)Normale µ

Poisson ln(µ)

Gamma

1µ

Binomiale ln( µ

(1 ≠ µ))

Table 4.3 – Fonctions lien canonique associées à quelques lois de la famille exponentielle

g(x, ⁄) =

Y_]

_[

x⁄ ≠ 1⁄

si ⁄ ”= 0ln(x) si ⁄ = 0

L’idée est alors de trouver le paramètre ⁄ú optimal maximisant la vraisemblance du mo-dèle et d’utiliser la fonction g(., ⁄ú) comme fonction de lien. Avec ⁄ = 1 on retrouve lelien identité à une constante près. ⁄ = 0 correspond au lien logarithmique. Le cas ⁄ = ≠1correspond à la fonction "inverse" qui est le lien canonique associé à la loi gamma. Cetteapproche est plus précise en terme de modélisation vu qu’on ne choisit pas de fonction delien à priori (ce qui induit un biais) mais qu’elle est estimée à postériori pour maximiserla vraisemblance du modèle. Cependant elle est aussi plus coûteuse en temps de calcul etne facilite pas nécessairement la lecture des résultats du modèle.

L’intérêt des modèles linéaires généralisés étant présentés, nous nous intéressons dansla section qui suit à la mise en équations de ce modèle.

4.2.4 La formalisation du modèleOn considère le modèle de régression suivant :

g(µi

) = —0 +pÿ

j=1—

j

xij

= xt

i

— = ÷i

, i œ {1, . . . , n} (4.16)

Avec :

• n : Nombre d’observations,• p : Nombre de variables explicatives,• g : fonction de lien liant le prédicteur linéaire xt

i

— à la moyenne de µi

de Yi

,• µ

i

= E[Yi

] où les Yi

sont les variables réponses à expliquer que l’on supposeindépendantes et non identiquement distribuées,

• — = (—0, . . . , —p

)t : Paramètres du modèle à estimer,• (x1j

, . . . , xnj

)t, j œ {1, . . . , p} : jème variable explicative.



La loi que l’on associe à la variable réponse Y fait partie de la famille exponentielle.La densité des Y

i

s’écrit alors :

f(yi

|◊i

, „) = exp

Ay

i

◊i

≠ b(◊i

)„/Ê

i

+ c(yi

, „)B

, yi

œ S (4.17)

Avec :

• ◊i

: Paramètre naturel associé à Yi

. Ce paramètre dépend de — = (—0, . . . , —p

)t.• Ê

i

: Poids a�ecté à l’observation i,• „ : Paramètre de dispersion. Il s’agit d’un paramètre de nuisance à estimer. Il est

pris commun à tous les Yi

mais cela ne signifie pas qu’ils ont la même variance(V ar(Y

i

) = bÕÕ(◊

i

) „

Êi).

4.2.5 Equations de vraisemblance et estimation des paramètresDans notre modèle, nous choisissons à priori la fonction de lien g ; les paramètres à

estimer sont alors les —i

(i œ [0, p]) et le paramètre de dispersion „.

Les coe�cients —

L’estimation des —i

se fait en maximisant la vraisemblance du modèle. Avec l’hypo-thèse d’indépendance des Y

i

, la log-vraisemblance du modèle s’écrit :

L(◊(—)|y, „) =nÿ

i=1ln(f(y

i

|◊i

, „)) =nÿ

i=1

yi

◊i

≠ b(◊i

)„/Ê

i

+nÿ

i=1c(y

i

, „) (4.18)

Rechercher les —j

(j œ [0, p]) qui maximisent la vraisemblance revient à rechercherles —

j

vérifiant :

ˆ

ˆ—j

L(◊(—)|y, „) =nÿ

i=1

ˆ

ˆ—j

ln(f(yi

|◊i

, „)) = 0 (4.19)

On a :

ˆ

ˆ—j

ln(f(yi

|◊i

, „)) = ˆln(f(yi

|◊i

, „))ˆ◊

j

ˆ◊i

ˆµi

ˆµi

ˆ÷i

ˆ÷i

ˆ—j

=

ˆln(f(yi

|◊i

, „))ˆ◊

j

ˆµi

ˆ÷i

ˆ÷i

ˆ—j

ˆµi

ˆ◊i

(4.20)

Avec :• µ

i

= bÕÕ(◊

i

),• ÷

i

= —0 + qp

j=1 —j

xij

,

• ln(f(yi

|◊i

, „)) = yi

◊i

≠ b(◊i

)„/Ê

i

+ c(yi

, „),

• ˆµi

ˆ÷i

= 1ˆ÷

i

/ˆµi

= gÕ(µ

i

).

Il vient alors :

ˆ

ˆ—j

ln(f(yi

|◊i

, „)) =(y

i

≠ µi

)xij

ˆµi

ˆ÷i

„/Êi

bÕÕ(◊i

) (4.21)



Ainsi, résoudre l’équation 4.19 revient à résoudre les équations de vraisemblance :nÿ

i=1Ê

i

(yi

≠ µi

) xij

bÕÕ(◊i

)gÕ(µi

) = 0 (4.22)

On peut remarquer que le paramètre de dispersion „ n’intervient pas dans la maxi-misation des équations de vraisemblance pour l’estimation des coe�cients —

j

.

Si g est la fonction de lien canonique, les équations de vraisemblance se simplifient (etdonc leur résolution aussi). En e�et, dans ce cas on a ◊

i

= ÷i

et :

gÕ(µ

i

) = ˆ÷i

ˆµi

= ˆg(µi

)ˆµ

i

= 1ˆµ

i

/ˆ◊i

= 1bÕÕ(◊

i

) (4.23)

Et les équations de vraisemblance deviennent :nÿ

i=1Ê

i

(yi

≠ µi

)xij

= 0 , j œ [0, p] (4.24)

L’équation 4.24 traduit comme l’équation 2.7 de la section 4.1.2 l’orthogonalité parfaiteentre le vecteur des résidus du modèle et le plan des variables explicatives. Intuitivementcela signifie qu’un maximum d’information a pu être tiré des observations et donc que lesrésidus ne contiennent plus d’information pouvant être captée par le plan explicatif.

4.2.6 La validation du modèleDans le modèle linéaire gaussien, l’ajustement du modèle à un jeu de données consiste

en une projection orthogonale des observations du vecteur Y des observations sur l’hyper-plan des variables explicatives. En d’autres termes, on démontre l’égalité suivante grâceau théorème de Pythagore :

nÿ

i=1(y

i

≠ y)2 =nÿ

i=1(y

i

≠ y)2 +nÿ

i=1(y

i

≠ yi

)2 (4.25)

Littéralement, l’équation 4.25 traduit le fait que dans le modèle linéaire gaussien,la variation totale est exactement l’addition de la variation résiduelle à la variation ex-pliquée. Le coe�cient de détermination est alors le rapport de la variation expliquée à lavariation totale et constitue une mesure de la qualité d’ajustement du modèle : à nombrede variables explicatives fixé, plus il est proche de 1 meilleur est le modèle.

Cette égalité n’est plus vérifiée dans le cadre des modèles linéaires généralisés. Pour mesu-rer la qualité d’ajustement du modèle l’idée est alors de comparer le modèle à un modèle"idéal" où l’on aurait autant de variables explicatives que d’observations. Ce modèle s’ap-pelle le modèle saturé et est caractérisé par le fait que y

i

= µi

(penser au cas trivial dumodèle avec une observation et une variable explicative). La comparaison des modèlesajusté et saturé se fait par comparaison des vraisemblances. La vraisemblance associé aumodèle saturé est bien entendu maximale car ne dépendant pas des paramètres à estimer.L’idée sera de comparé l’éloignement du modèle ajusté par rapport au modèle saturé.Plus cet éloignement sera petit meilleur sera le modèle. Cet éloignement est traduit parla notion de déviance.



La déviance

On note respectivement L(y|y) et L(µ|y) les vraisemblances des modèles saturéet ajusté. On estime qu’un modèle est "bon" si les deux vraisemblances précitées sontrelativement proches. Introduisons la statistique du rapport de vraisemblance suivante :

� = L(y|y)L(µ|y) (4.26)

Notre modèle sera ainsi jugé "bon" si � est proche de 1 ou encore si ln(�) est prochede 0. On note D la déviance et on a :

D = 2ln(�)„ (4.27)L’idéal serait donc d’avoir D = 0 mais ce n’est jamais le cas, le modèle saturé étant

un idéal inatteignable en pratique. La statistique Dú = D

„

est asymptotiquement de loi‰2

n≠p≠1, avec n nombre d’observations et p nombre de variables explicatives (Voir la page54 de [Reinert(2003)] ou [Lindgren(1993)] pour la preuve de ce résultat) . Ce résultat nouspermet d’avoir un seuil critique au delà duquel on considérera qu’un modèle n’est pas enadéquation avec les données. Un modèle sera alors considéré comme mauvais au seuil –si :

Dobs

> ‰2n≠p≠1;1≠–

, avec ‰2n≠p≠1;1≠–

quantile d’ordre 1 ≠ – d’une loi ‰2n≠p≠1 (4.28)

Comme Dú ≥ ‰2n≠p≠1, on a E[Dú] = n ≠ p ≠ 1 et une estimation de „ est alors donné par

„ = Dobs

n ≠ p ≠ 1 .

En somme nous voulons idéalement une déviance proche de 0. La déviance étant à unfacteur près un ratio de log-vraisemblance, elle se décompose en somme de n élémentsqu’il faut donc avoir proche de 0 pour avoir une idée de la justesse des ajustements. C’estl’idée de la définition des résidus de déviance.

Les résidus de déviance

La déviance peut s’écrire comme suit avec l’hypothèse d’indépendance entre les nobservations de la variable réponse :

D = 2ln(�) = 2(l(y|y) ≠ l(µ|y)) =nÿ

i=1d

i

(4.29)

Les di

sont positifs. En e�et il s’agit de di�érences entre une probabilité optimaleliée au modèle saturé et une probabilité dans le modèle ajusté (les facteurs de la fonctionde vraisemblance sont des probabilités). En d’autres termes la réponse ajusté a moins dechance d’être égale à une valeur observée que la réponse réelle.

Un bon modèle se traduit par une déviance proche de 0 et donc par des di

proche de0. On définit les résidus de déviance comme suit :

rD

i

= signe(yi

≠ µi

)Ô

di

(4.30)



Un bon modèle ajusté aura des résidus de déviance proches de 0.

Lors de la validation d’un modèle linéaire généralisé la statistique de Pearson et les résidusassociés sont souvent utilisés (chapitre 9 de [Denuit & Charpentier(2005)] pour aller plusloin).

Nous avons présenté des méthodes d’estimation de paramètres d’un GLM et quelqueséléments nous permettant de juger de sa qualité. Dans le paragraphe qui suit, nous pré-sentons des tests d’hypothèses et intervalles de confiance classiques permettant d’allerplus loin dans l’analyse.

4.2.7 Inférence statistiqueIntervalle de confiance de Wald

L’intervalle de confiance de Wald repose sur le résultat suivant concernant l’estima-teur de maximum de vraisemblance ◊

n

d’un paramètre ◊ appartenant un ouvert de Rp etassocié à un nombre n d’observations :

◊n

≠ ◊ ¥loi

N(0, I≠1) (4.31)

Avec I matrice d’information de Fisher d’élément ij :

I(i, j) = E[ ˆ

ˆ◊i

lnf(Y |◊) ˆ

ˆ◊j

lnf(Y |◊)] (4.32)

Ainsi en revenant au modèle linéaire généralisé dont nous estimons les paramètres parmaximum de vraisemblance, il vient :

—≠— ¥loi

N(0, I≠1) , avec I vraisemblance associée aux observations du modèle (4.33)

Nous sommes alors ramenés au cas classique de la loi normale dont on connait la formedes intervalles de confiance. Un intervalle de confiance au seuil – pour les coe�cients —

j

du vecteur de paramètres — est alors :Ë—

j

≠ z–/2

Ôv

jj

, —j

+ z–/2

Ôv

jj

È(4.34)

Avec :• z

–/2 : quantile d’ordre 1 ≠ –/2 de la loi normale centrée réduite• v

jj

: jème élément diagonal de la matrice d’information de Fisher I

Tests d’hypothèse et réduction de déviance

Soit un modèle avec des paramètres —i

(i œ [0, p]) à estimer. Il est possible de testerla nullité d’un ou de plusieurs coe�cients. Ceci peut permettre de fusionner des modalitésd’une variable explicative avec une modalité de référence, voire même supprimer la variable


4.3. La modélisation de la probabilité de consommer dans l’année

dans le cas où toutes ses modalités doivent être fusionnées : elle n’a alors aucun pouvoirexplicatif sur la variable d’intérêt. Considérons le test d’hypothèse suivant :

H0 : — = (—0, ..., —q

) contre — = (—0, ..., —p

) , q < p < n

Ce test revient à tester la nullité de (—q+1, ..., —

p

). Considérons la statistique suivante :

� = D0≠D1 = 2 (l1 ≠ l0) , avec Di

et li

déviance et log-vraisemblance du modèle sous Hi

Sous H0, � ¥loi

‰2p≠q

(voir [Reinert(2003)] ou [Lindgren(1993)]). Ainsi, on rejettera H0 auseuil – si �

obs

> ‰2p≠q,1≠–

. Ce test répond intuitivement à la question suivante : "L’ajoutde modalités ou d’une variable donnée au modèle réduit-elle significativement la déviancepar rapport au modèle saturé ?".

Les analyse de type 1 et 3 de SAS sont basés sur des tests de ce type. Elles répondentaux questions suivantes :

• Analyse de type 1 : "L’ajout d’une variable donnée améliore-t-elle significative-ment la qualité du modèle ?". Dans cette analyse l’idée est de partir du modèlele plus simple (modèle avec l’intercept uniquement) et d’ajouter pas à pas desvariables en testant à chaque fois la significativité de la réduction de dévianceassociée. L’ordre d’ajout des variables pas à pas compte dans cette analyse.

• Analyse de type 3 : "Le retrait d’une variable donnée au modèle en détériorerait-il significativement la qualité ?". Dans cette analyse l’ordre ne compte pas, l’idéeétant de tester l’apport d’explication d’une variable donnée du modèle en présencede toutes les autres.

Dans la suite nous nous intéressons aux deux modèles de régression que nous utilisons pourla tarification des postes médicaux. Il s’agit d’en présenter les principales caractéristiqueset de justifier leur utilisation.

4.3 La modélisation de la probabilité de consommerdans l’année

Dans l’approche de tarification retenue, l’idée est de modéliser la probabilité deconsommer dans l’année et ensuite la charge annuelle de consommation des consommantssuivant leurs caractéristiques. Nous nous intéressons dans un premier temps à la proba-bilité de consommer.

4.3.1 IntuitionEn pratique l’on dispose de réalisations binaires relatives à l’occurrence d’un évè-

nement ou non et on chercher à modéliser la probabilité d’occurrence (µi

= qi

) de cetévènement sachant la catégorie ou classe de facteur explicatif. Il s’agit alors d’une va-riable d’intérêt à valeur dans [0,1] alors que le prédicteur linéaire (÷

i

= xt

i

—) a des valeurs



le long de la droite des réels. Trois principales fonctions de lien sont alors utilisées pourse ramener de la droite des réels à [0,1] :

• Le lien logit :

g(qi

) = ln

Aq

i

1 ≠ qi

B

C’est le plus utilisé en pratique pour la modélisation de probabilités. Il s’agit dulien canonique associée au modèle de régression binomiale.

• Le lien probit :g(q

i

) = �≠1(qi

)� étant la fonction de répartition de la loi normale centrée réduite.

• Le lien log log complémentaire :

g(qi

) = ln(≠ln(1 ≠ qi

)) = ÷i

… qi

= 1 ≠ exp(≠exp(÷i

))

4.3.2 Introduction d’une variable latente pour la modélisationLes modèles logit et probit peuvent être vus comme des modèles de régression li-

néaire utilisant une variable latente Y ú œ R, la variable binomiale dont on cherche àmodéliser la probabilité de succès étant Y = 1[Y úØ0].

En considérant le modèle de régression linéaire Y ú = X— + ‘ avec ‘ bruit blancgaussien, la probabilité de succès peut s’écrire :

q = P [Y = 1|X = x] = P [Y ú Ø 0|X = x]= P [X— + ‘ Ø 0|X = x]= 1 ≠ �(≠xt—)

q = �(xt—) (4.35)

Cette modélisation correspond donc au modèle probit qui est le modèle de régression bi-nomiale avec �≠1 comme fonction de lien .

Introduisons la fonction de répartition f suivante :

f : R ≠æ [0, 1]

x ‘≠æ exp(x)1 + exp(x)

Un raisonnement analogue au précédent avec cette fois un modèle dont le résidu a une loide fonction de répartition f mène au modèle de régression logistique qui est le modèle derégression binomiale avec lien logit.

4.3.3 Choix de la régression logistiqueNous choisissons comme modèle la régression logistique qui se formalise comme suit :

g(qi

) = ln

Aq

i

1 ≠ qi

B

= ÷i

… qi

= exp(÷i

)1 + exp(÷

i

)



Il s’agit d’un modèle de régression binomiale avec le lien logit. La loi binomiale estnaturellement choisie pour la modélisation en raison du caractère binaire de la variable ré-ponse. Nous choisissons ensuite la fonction logit comme fonction de lien car il s’agit du liencanonique associé au modèle de régression binomiale et que cela induit des simplificationsen termes d’estimation comme énoncé dans la partie 4.2.3.

Estimations

Supposons que les réponses y1, ..., yn

soient des réalisations de variables aléatoireY1, ..., Y

n

de loi Bin(mi

, qi

). La vraisemblance associée à ce modèle s’écrit donc :

L(—|y) =nŸ

i=1

Am

i

yi

B

qyii

(1 ≠ qi

)mi≠yi (4.36)

En passant au logarithme, maximiser la vraisemblance revient à maximiser la quan-tité suivante selon — :

l(—|y) =nÿ

i=1

C

yi

ln

Aexp÷

i

1 + exp÷i

B

+ (mi

≠ yi

)lnA

11 + exp÷

i

BD

(4.37)

De sorte à estimer qi

= exp ÷i

1 + exp ÷i

.

Déviance et résidus de déviance

La déviance du modèle s’écrit :

D = 2nÿ

i=1

C

yi

ln

Ay

i

yi

B

+ (mi

≠ yi

)lnA

mi

≠ yi

mi

≠ yi

BD

(4.38)

Et les résidus de déviance :

rD

i

= signe(yi

≠ yi

)ııÙ2

C

yi

ln

Ay

i

yi

B

+ (mi

≠ yi

)lnA

mi

≠ yi

mi

≠ yi

BD

(4.39)

Dans le cas où les yi

sont de loi Bern(qi

) (mi

= 1), la déviance devient :

D = ≠2nÿ

i=1[q

i

logit (qi

) + ln (1 ≠ qi

)] (4.40)

Elle ne dépend alors que des observations. Ne pouvant lors pas comparer la déviancedu modèle par rapport au modèle saturé, il s’agira de comparer la déviance d’un modèlepar rapport à un autre par ajout successif de variables explicatives.

Les grandes lignes de la modélisation de la probabilité de consommation étant in-troduite, nous nous intéressons dans la suite à la charge annuelle de consommation quiest la quantité complémentaire nous permettant d’établir des primes pures.


4.4. La modélisation de la charge annuelle de consommation

4.4 La modélisation de la charge annuelle de consom-mation

Nous nous intéressons dans cette section à la modélisation de la charge annuelle deconsommation de la population assurée consommante. Il s’agit d’une quantité strictementpositive à laquelle il faut associer une loi de probabilité plausible pour la modélisation.

4.4.1 Le choix de la loi gammaLes loi les plus courantes utilisées pour cette modélisation sont la loi gamma et la

loi log-normale ([Charpentier(2011)]). [Firth(1988)] fait une comparaison des modèles derégression gamma et log-normal et trouve les estimations de la première légèrement plusprécises. Notre choix se porte sur la loi gamma mais la loi log-normale aurait très bien puêtre utilisée pour la modélisation.

La densité de la loi gamma peut s’écrire (notations du chapitre 8 de [Mc Cullagh & Nelder(1989)] :

1�(‹)

A‹y

µ

B‹

exp

A

≠‹y

µ

B

d(log y) y Ø 0,‹ > 0,µ > 0 (4.41)

Avec cette paramétrisation, la variable Y est d’espérance µ et de variance µ2

‹.

4.4.2 Choix du lien logVariables positives et lien logarithmique

Pour des variables d’intérêt positives, un lien qui est très souvent utilisé est le lienlogarithmique de sorte que µ

i

= exp(÷i

). On parle alors de régression log-linéaire. Celien est très utilisé en pratique du fait que les e�ets additifs des variables sur le prédicteurlinéaire ÷

i

se transcrivent par des e�ets multiplicatifs sur la variable expliquée. Il est alorspossible d’intégrer la positivité de variable d’intérêt tout en tenant compte de la possiblenégativité du prédicteur linéaire ÷

i

.

Une lecture facilité des tarifs par des facteurs multiplicatifs

Le principal avantage du lien logarithmique est d’ordre pratique. Prenons l’exemplesimple d’un modèle de régression avec un lien logarithmique avec une variable explicativeà p modalités. L’une des modalités est alors prise comme modalité de référence et lemodèle de régression s’écrit :

log(µi

) = —ref

+p≠1ÿ

j=1—

j

1{iœj} (4.42)

Avec :• p : Nombre de modalités• —

ref

: coe�cient associé à la modalité de référence,• —

j

(j ”= ref) : coe�cients associés aux autres modalités,• 1{iœj} : Indicatrice valant 1 si la ieme observation a la modalité j et 0 sinon,



Après estimations des di�érents coe�cients on arrive alors à :

µi

= exp

Q

a—ref

+p≠1ÿ

j=1—

j

1{iœj}

R

b (4.43)

Dans ce modèle simple, pour un individu ayant la modalité k ”= ref , le tarif sera :

µi

= exp(—ref

) ◊ exp(—k

) (4.44)

avec :• exp(—

ref

) : Tarif de référence• exp(—

k

) : Correctif à appliquer pour les individus ayant la modalité k

La grille de tarification est alors facile à lire et à interpréter, l’idée étant de fournir un ajus-tement tarifaire en fonction d’une référence. Nous préférons ainsi le lien logarithmique aulien canonique de la loi gamma qui est la fonction inverse privilégiant ainsi l’interprétationà la simplification des estimations.

4.4.3 La régression log-gammaNous choisissons donc comme modélisation de la charge annuelle de sinistres, la

régression log-gamma qui se formalise comme suit :

log(µi

) = xt

i

—

Estimations

Supposons que les réponses y1, ..., yn

soient des réalisations de variables aléatoireY1, ..., Y

n

de loi gamma avec de moyenne µi

et de variance µ2i

‹. La vraisemblance associée

à ce modèle pour l’estimation de µi

s’écrit donc :

L(—|y) =nŸ

i=1

1�(‹)

A‹y

i

µi

B‹

exp

A

≠‹yi

µi

B1y

i

(4.45)

En passant au logarithme, maximiser la vraisemblance revient à maximiser la quan-tité suivante selon — :

l(—|y) =nÿ

i=1

C

‹(≠ yi

µi

≠ lnµi

)D

(4.46)

Il s’agit donc de résoudre le système d’équation :

ˆ

ˆ—j

nÿ

i=1

C

‹(≠ yi

exp(÷i

) ≠ ÷i

)D

= 0 …nÿ

i=1x

ij

A

1 ≠ yi

µi

B

= 0 j œ [0, p] (4.47)

De sorte à estimer µi

= exp(÷i

).



Déviance et résidus de déviance

La déviance du modèle s’écrit :

D = ≠2nÿ

i=1

C

lny

i

µi

≠ yi

≠ µi

µi

D

(4.48)

Et les résidus de déviance :

rD

i

= signe(yi

≠ yi

)ııÙ≠2

C

lny

i

µi

≠ yi

≠ µi

µi

D

(4.49)

Dans ce chapitre, nous avons présenté les éléments théoriques liés aux modèles linéairesgénéralisés. Le modèle linéaire gaussien est très utilisé en pratique parce qu’il est simpleà mettre en oeuvre. Cependant, il est souvent peu adapté à la modélisation de variablesd’intérêt en assurance d’où l’intérêt des modèles linéaires généralisés. Nous avons ensuiteprésenté la modélisation des variables d’intérêt retenu pour la tarification. La probabi-lité de consommation est modélisée par une régression logistique et la charge annuelle deconsommation par une régression log-gamma.Dans le dernier chapitre de ce mémoire nous illustrons des applications de la théorieprésentées par le biais de modélisations et de tarifications de di�érents postes médicaux.


Chapitre 5

Applications

Dans ce chapitre, nous illustrons l’application des modèles linéaires généralisés à latarification. Nous nous intéressons dans un premier temps aux actes de pharmacie sous-crits par la quasi totalité des assurés du portefeuille. Les variables explicatives retenuessont la catégorie (âge ◊ sexe), le pays d’expatriation, la nationalité des expatriés et l’annéede soins avec selon les cas une interaction entre l’année de soin et le pays d’expatriationpour tenir compte de la dérive de la consommation médicale par pays.

Nous introduisons ensuite une classification k-moyenne des pays d’expatriation en zonesd’expatriation, les données disponibles à la souscription ne faisant pas nécessairement ré-férence à des pays de façon précise. Les verres optiques sont ensuite tarifés avec le zonagee�ectué.

Avant d’illustrer l’intégration des plafonds et franchises aux tarifs, une comparaison entreles GLM supposant l’indépendance et ceux intégrant la corrélation (GEE) est illustrée surla modélisation des probabilités et charges annuelles de consommation de l’acte de phar-macie. Enfin backtesting et validations croisées sont utilisés pour comparer les modèlesen terme de qualité de prédiction.

5.1 La tarification d’un acte classique : La pharmacieCette garantie est souscrite par environ 99% des assurés du portefeuille MSH.

5.1.1 Modélisation de la probabilité de consommerDans cette section nous modélisons la probabilité de consommer un acte de phar-

macie au moins une fois dans l’année, et ce pour un assuré d’une catégorie donnée.

Le modèle

Nous implémentons ici une régression binomiale avec une fonction de lien logistique.L’exposition annuelle est prise comme poids que l’on a�ecte aux observations. Les variablesexplicatives sont la catégorie, le pays d’expatriation, la nationalité des expatriés et l’annéede soin avec une interaction entre le pays d’expatriation et l’année de soin.

58

5.1. La tarification d’un acte classique : La pharmacie

Table 5.1 – Explication de la probabilité de consommer dans l’année

Variable réponse Variable binaire indiquant le fait d’avoir consommer ou nonVariables explicatives Catégorie, pays d’expatriation, nationalité, année, année ◊ pays

Fonction lien Fonction logistiqueLoi Binomiale

Poids Temps de présence dans l’année

La validation du modèle

Comme indiqué dans la section 4.3, la déviance ne permet pas ici de juger de lajustesse du modèle. Les résidus repris figure 5.1 dépendent uniquement des valeurs ajustéeset sont di�cilement interprétables. Dans la suite, nous ne représenterons plus les résidusassociés aux modèles de régression binomiale implémentés.

Figure 5.1 – Analyse des résidus - Régression logistique - Pharmacie

Les analyses de type 1 et 3 1 nous permettent néanmoins de juger de la qualité dumodèle en testant le pouvoir explicatif des variables.

L’analyse de type 1 reprise dans la table 5.2 nous indique que les ajouts pas à pas desvariables categorie, pays d’expatriation, zone de nationalité et année de soin avec un e�etd’interaction entre l’année et le pays, sont à chaque fois significatifs au sens du test du ‰2

(p-valeurs < 10≠4).

Table 5.2 – Analyse de type 1 - Régression logistique - Pharmacie

LR Statistics For Type 1 AnalysisSource Deviance DF Chi-Square Pr>ChiSqIntercept 678 666,34categorie 655 391,77 20 23 274,60 <,0001pays_expat 641 872,12 57 13 519,70 <,0001zone_nat 636 220,90 10 5 651,22 <,0001annee 635 872,55 6 348,35 <,0001pays_expat*annee 634 795,93 342 1 076,62 <,0001

1. Voir section 4.2.7



De plus, en présence des autres variables et indépendamment de l’ordre d’ajoutdes variables au modèle, chacune des variables précitées contribue significativement à laréduction de la déviance. En e�et, l’analyse de type 3 reprise dans la table 5.3, nousindiquent que les p-valeurs dest tests du ‰2 sont toutes inférieures à 10≠4.

Table 5.3 – Analyse de type 3 - Régression logistique - Pharmacie

LR Statistics For Type 3 AnalysisSource DF Chi-Square Pr>ChiSqcategorie 20 17 137,30 <,0001pays_expat 57 11 542,40 <,0001zone_nat 10 5 627,77 <,0001annee 6 267,69 <,0001pays_expat*annee 342 1 076,62 <,0001

La projection de la probabilité de consommer dans le futur

La considération de l’année de soin comme variable qualitative restreint l’univers despossibles pour cette variable aux seules modalités observées. Pour pouvoir e�ectuer desprojections, nous implémentons le même modèle avec l’année de soin prise comme variablequantitative. Après avoir testé la significativité des variables, les projections obtenues sontreprésentées figure 5.4 :

Figure 5.2 – Projection des probabilité de consommer à l’horizon 2017 - Expatriés fran-çais au USA

Nous remarquons au travers de la figure 5.4 la stabilité des probabilités de consom-mation dans le temps. La consommation des actes de pharmacie, des médicaments no-tamment, est plus fréquente chez les enfants comparés aux jeunes adultes. La probabilitéde consommation augmente ensuite avec l’âge, celle des femmes restant supérieure à celledes hommes.

5.1.2 Modélisation de la charge annuelleLa charge annuelle représente la consommation annuelle associée à un assuré dans

une année de soin. Il s’agit d’une variable continue et strictement positive (consommation



moyenne des consommants du portefeuille).

Le modèle

Nous implémentons ici une régression gamma avec une fonction de lien logarithme.Nous prenons le temps de présence comme variable o�set. La variable o�set est indis-pensable dans la construction du modèle pour tenir compte de l’exposition. L’idée estde considérer non pas les réalisations y

i

des charges annuelles par individu et par annéemais les y

i

di

où di

représente l’exposition annuelle de l’individu i. Les variables explicativesconsidérées sont la catégorie (âge ◊ sexe), le pays d’expatriation, la zone de nationalité etl’année de soin avec un e�et d’interaction entre le pays d’expatriation et l’année de soin.

Table 5.4 – Pharmacie : Explication de la charge annuelle de consommation

Variable réponse Variable continue strictement positiveVariables explicatives Catégorie, pays d’expatriation, nationalité, année, année ◊ pays

Fonction lien Fonction logarithmeLoi Gamma



Le rapport de la déviance au nombre de degré de liberté du modèle est proche de1 (1.23 voir figure 5.5). Sachant que ce rapport est asymptotiquement de loi du ‰2 avecle nombre de dégré de liberté du modèle, nous pouvons dire que le modèle est de bonnequalité.

Table 5.5 – Pharmacie - Charge annuelle - Statistiques de validation

Criteria For Assessing Goodness Of FitCriterion DF Value Value/DFDeviance 270 000 530 153,39 1,95Scaled Deviance 270 000 333 439,58 1,23Pearson Chi-Square 270 000 3 674 845,63 13,55Scaled Pearson X2 270 000 2 311 291,40 8,52Log Likelihood -1 637 393,19Full Log Likelihood -1 637 393,19AIC (smaller is better) 3 275 660,39AICC (smaller is better) 3 275 661,80BIC (smaller is better) 3 280 254,32

Les analyses de type 1 (table 5.6) et 3 (table 5.7) attestent de la pertinence du choix desvariables pour l’explication de la variable d’intérêt. Chacune des variables participe pas àpas à une réduction significative de la déviance du modèle par rapport au modèle saturé.

Les résidus de déviance standardisés sont repris figure 5.3. Ils sont centrés avec quelques



Table 5.6 – Analyse de type 1 - Régression log-gamma - Pharmacie

LR Statistics For Type 1 AnalysisSource 2*LogLikelihood DF Chi-Square Pr>ChiSqIntercept -3 339 766,70categorie -3 297 851,60 20 41 915,00 <,0001pays_expat -3 283 027,00 57 14 824,60 <,0001zone_nat -3 279 074,40 10 3 952,66 <,0001annee -3 277 772,80 6 1 301,60 <,0001pays_expat*annee -3 274 786,40 342 2 986,38 <,0001

Table 5.7 – Analyse de type 3 - Régression log-gamma - Pharmacie

LR Statistics For Type 3 AnalysisSource DF Chi-Square Pr>ChiSqcategorie 20 36 229,90 <,0001pays_expat 57 12 541,30 <,0001zone_nat 10 3 617,48 <,0001annee 6 533,01 <,0001pays_expat*annee 342 2 986,38 <,0001

points s’écartant de 0. Nous décidons de garder ces points qui rendent compte d’unesinistralité atypique probable.

(a) Résidu de déviance (b) Densité des résidus de déviance

Figure 5.3 – Analyse des résidus - Régression log-gamma - Pharmacie

La projection de la charge annuelle de consommation

Pour pouvoir e�ectuer des projections, nous implémentons le même modèle avecl’année de soin prise comme variable quantitative. Après avoir testé la significativité desvariables les projections obtenues sont représentées figure 5.4 :

La figure 5.4 laisse transparaître une augmentation de la charge annuelle de consommationavec l’âge. L’on peut aussi noter une consommation des hommes supérieure à celle des



Figure 5.4 – Pharmacie : Projection de la charge annuelle de consommation de 2006 à2017 - Expatriés français aux USA

femmes aux grands âges. L’on voit enfin au travers de cette figure l’e�et de l’inflationmédicale, la charge annuelle de consommation augmentant avec le temps.

5.1.3 Les tarifs projetésUne fois les probabilité et charge annuelle de consommation médicale projetées, il

est possible de faire des projections de primes pures par multiplication des 2 quantitésprécitées. Les projections obtenues sont reprises dans la figure 5.5.

Figure 5.5 – Pharmacie : Primes pures projetées de 2006 à 2017 - Expatriés français auxUSA

La figure 5.5 représente la grille tarifaire de l’acte de pharmacie pour des expatriésfrançais aux USA. Les tarifs augmentent avec l’âge et dérivent avec le temps.


5.2. Zonage et tarification : Les verres optiques

5.2 Zonage et tarification : Les verres optiques5.2.1 Le zonage des pays d’expatriation

Il peut arriver que des appels d’o�re incluent des pays d’expatriation pour lesquelsnous avons peu de données pour une tarification à priori. Un zonage des pays où l’on adu "volume" est alors nécessaire pour pouvoir rapprocher un "nouveau" pays d’une zoneafin d’e�ectuer la tarification. Il ne s’agit pas ici d’un rapprochement géographique maisd’un rapprochement selon les variables d’intérêt que sont le coût de la santé et la dérivede la consommation médicale.

Notons tout de même qu’il faut avoir une idée des coûts et dérive dans un "nouveau"pays afin de lui associer une zone. Cela va un peu à l’encontre de la démarche qui consistejustement à trouver l’amplitude des coûts grâce au modèle implémenté. Un avis d’expertest nécessaire pour le rapprochement à une zone.

Pour e�ectuer le zonage des pays d’expatriation en zone auxquelles seront associés de"nouveaux" pays, nous utilisons la méthode de classification des k-moyennes (k-means)qui est présentée en annexe A.3. Les points à regrouper sont des éléments du plan Coût◊ Dérive.

Nous partons de 58 pays que l’on va classer en 6 groupes libellés comme suit :

• Groupe 1 : Coûts très élevés et dérive élevée,• Groupe 2 : Coûts et dérive élevés,• Groupe 3 : Coûts et dérive modérés,• Groupe 4 : Bas coûts et dérive élevée,• Groupe 5 : Bas coûts et dérive modérée,• Groupe 6 : Très bas coûts et dérive élevée.

La figure 5.6 reprend le zonage e�ectué. En ordonnées figurent les dérives et en abscisse lescoûts par rapport à une référence qui est ici la France. Les éléments repris en abscisses sontles coe�cients — associés aux pays d’expatriation lors de l’implémentation d’un modèlelinéaire généralisé incluant des variables explicatives telles que la catégorie (âge, sexe), leposte médicale, la nationalité, et l’année de soin en plus du pays d’expatriation. Ainsi cescoe�cients — permettent de positionner de façon simple les coûts par pays par rapport àun pays de référence indépendamment de l’influence des autres variables.

Nous nous intéressons dans la suite à la tarification des verres optiques en considérant lezonage précédemment e�ectué.



Figure 5.6 – Classification des pays en zones d’expatriation

5.2.2 Modélisation de la probabilité de consommerLe modèle

Nous implémentons ici une régression binomiale avec une fonction de lien logistique.L’exposition annuelle est prise comme poids que l’on a�ecte aux observations. Les variablesexplicatives sont la catégorie, la zone d’expatriation, la nationalité des expatriés et l’annéede soin avec une interaction entre le pays d’expatriation et l’année de soin.

Table 5.8 – Verres optiques : Explication de la probabilité de consommer dans l’année

Variable réponse Variable binaire indiquant le fait d’avoir consommer ou nonVariables explicatives Catégorie, zone d’expatriation, nationalité, année, année ◊ zone

Fonction lien Fonction logistiqueLoi Binomiale



Les analyses de type 1 et 3 nous permettent de juger de la qualité du modèle entestant le pouvoir explicatif des variables.

L’analyse de type 1 reprise dans la table 5.9 nous indique que les ajouts pas à pas desvariables categorie, zone d’expatriation, zone de nationalité et année de soin avec un e�etd’interaction entre l’année et le pays, sont à chaque fois significatifs au sens du test du ‰2

(p-valeurs < 10≠4).



Table 5.9 – Analyse de type 1 - Régression logistique - Verres optiques

LR Statistics For Type 1 AnalysisSource Deviance DF Chi-Square Pr>ChiSqIntercept 159 951,17categorie 154 020,46 20 5 930,71 <,0001zone_expat 153 144,20 5 876,26 <,0001zone_nat 134 096,73 10 19 047,50 <,0001annee 133 894,27 6 202,46 <,0001zone_expat*annee 133 640,63 30 253,63 <,0001

En présence des autres variables et indépendamment de l’ordre d’ajout des variables aumodèle, chacune des variables excèptée la variable "annee" (p-valeur 0,2673) contribuesignificativement à la réduction de la déviance par rapport au modèle saturé d’aprèsl’analyse de type 3 (table 5.10). Il n’y a donc pas d’e�et année global mais l’e�et del’année dépend foncièrement du pays.

Table 5.10 – Analyse de type 3 - Régression logistique - Verres optiques

LR Statistics For Type 3 AnalysisSource DF Chi-Square Pr>ChiSqcategorie 20 4 206,72 <,0001zone_expat 5 377,73 <,0001zone_nat 10 18 868,90 <,0001annee 6 7,62 0,2673zone_expat*annee 30 253,63 <,0001

Nous décidons donc de retirer la varible "annee" du modèle et obtenons les analyses detype 1 et 3 reprises dans les tables 5.11 et 5.12 qui attestent de la qualité du modèle ausens de la significativité de chacune des variables retenues.

Table 5.11 – Analyse de type 1 - Régression logistique - Verres optiques - sans l’annéede soin en conservant l’interaction année - pays

LR Statistics For Type 1 AnalysisSource Deviance DF Chi-Square Pr>ChiSqIntercept 159 951,17categorie 154 020,46 20 5 930,71 <,0001zone_expat 153 144,20 5 876,26 <,0001zone_nat 134 096,73 10 19 047,50 <,0001zone_expat*annee 133 640,63 36 456,09 <,0001



Table 5.12 – Analyse de type 3 -Régression logistique - Verres optiques - sans l’année desoin en conservant l’interaction année - pays

LR Statistics For Type 3 AnalysisSource DF Chi-Square Pr>ChiSqcategorie 20 4 206,72 <,0001zone_expat 5 377,73 <,0001zone_nat 10 18 868,90 <,0001zone_expat*annee 36 456,09 <,0001

La projection de la probabilité de consommer

Pour pouvoir e�ectuer des projections, nous implémentons le même modèle avecl’année de soin prise comme variable quantitative dans l’interaction zone_expat*annee .Après avoir testé la significativité des variables, les projections obtenues sont représentéesfigure 5.9.

Figure 5.7 – Verres optiques : Projection des probabilité de consommer à l’horizon 2017- Expatriés français dans la zone USA

Au vu de la figure 5.9, les probabilités de consommation de l’acte "verres optiques"sont comme pour celles de l’acte "pharmacie" stables dans le temps. On observe aussi unecroissance de ces probabilité avec l’âge, celles des femmes restant supérieures à celles deshommes.

5.2.3 Modélisation de la charge annuelleLe modèle

Nous implémentons ici une régression gamma avec une fonction de lien logarithme.Nous prenons le temps de présence comme variable o�set. Les variables explicatives consi-dérées sont la catégorie, la zone d’expatriation, la zone de nationalité et l’année de soinavec un e�et d’interaction entre le pays d’expatriation et l’année de soin.



Table 5.13 – Verres optiques : Explication de la charge annuelle de consommation

Variable réponse Variable continue strictement positiveVariables explicatives Catégorie, zone d’expatriation, nationalité, année, année ◊ zone

Fonction lien Fonction logarithmeLoi Gamma



Le quotient de la déviance par le nombre de degré de liberté du modèle est prochede 1 (1.10 voir figure 5.14). Sachant que ce rapport est asymptotiquement de loi du ‰2

avec le nombre de dégré de liberté du modèle, nous pouvons dire que le modèle est debonne qualité.

Table 5.14 – Verres optiques - Régression log-gamma - Statistiques de validation

Criteria For Assessing Goodness Of FitCriterion DF Value Value/DFDeviance 21 000,00 14 379,11 0,67Scaled Deviance 21 000,00 23 518,83 1,10Pearson Chi-Square 21 000,00 29 374,84 1,38Scaled Pearson X2 21 000,00 48 046,21 2,25Log Likelihood -142 754,34Full Log Likelihood -142 754,34AIC (smaller is better) 285 652,68AICC (smaller is better) 285 653,17BIC (smaller is better) 286 226,63

Les analyses de type 1 (table 5.15) et 3 (table 5.16) attestent de la pertinence du choix desvariables pour l’explication de la variable d’intérêt. Chacune des variables est globalementsignificative et participe pas à pas à une réduction significative de la déviance du modèlepar rapport au modèle saturé.

Table 5.15 – Analyse de type 1 - Régression log-gamma - Verres optiques

LR Statistics For Type 1 AnalysisSource 2*LogLikelihood DF Chi-Square Pr>ChiSqIntercept -290173,75categorie -285909,2 20 4 264,55 <,0001zone_expat -285805,02 5 104,19 <,0001zone_nat -285758,42 10 46,60 <,0001annee -285597,93 6 160,49 <,0001zone_expat*annee -285508,68 29 89,26 <,0001

Les résidus de déviance standardisés sont repris figure 5.8. Ils sont centrés avec quelques



Table 5.16 – Analyse de type 3 - Régression log-gamma - Verres optiques

LR Statistics For Type 3 AnalysisSource DF Chi-Square Pr>ChiSqcategorie 20 4 137,53 <,0001zone_expat 5 104,67 <,0001zone_nat 10 53,01 <,0001annee 6 30,21 <,0001zone_expat*annee 29 89,26 <,0001

point s’écartant de 0. Nous décidons de garder ces points qui rendent compte d’une sinis-tralité atypique probable.

(a) Résidu de déviance

Figure 5.8 – Analyse des résidus - Régression log-gamma - Verres optiques

La projection de la charge annuelle de consommation

Pour pouvoir e�ectuer des projections, nous implémentons le même modèle avecl’année de soin prise comme variable quantitative. Après avoir testé la significativité desvariables les projections obtenues sont représentées figure 5.9 :

Figure 5.9 – Verres optiques : Projection de la charge annuelle de consommation àl’horizon 2017 - Expatriés français aux USA



La figure 5.9 laisse transparaître une sinistralité qui augmente avec l’âge avec unpic de consommation au niveau des 18 ≠ 24 ans. Là encore on peut noter la dérive de laconsommation médicale avec le temps.

5.2.4 Les tarifs projetésUne fois les probabilité et charge annuelle de consommation médicale projetées, il

est possible de faire des projections de primes pures par segment tarifaire par produit.Les projections obtenues sont reprises dans la figure 5.5.

Figure 5.10 – Verres optiques : Primes pures projetées à l’horizon 2017 - Expatriésfrançais au USA

Les tarifs (figure 5.5) sont relativement bas jusque "30-34 ans". Après cette tranched’âge on observe une hausse significative jusque "65ans et plus".


5.3. L’intégration des plafonds et des franchises en pratique

5.3 L’intégration des plafonds et des franchises enpratique

5.3.1 Formalisation mathématique et intuitionNous rappelons l’écriture de la charge annuelle de consommation plafonnée et fran-

chisée avec ◊ le taux de remboursement (franchise = 1 - ◊) et Ê le plafond de rembourse-ment :

C+(◊, Ê) = ◊C+1{◊C+ < Ê} + Ê1{◊C+ Ø Ê} =I

◊C+ si ◊C+ < ÊÊ si ◊C+ Ø Ê

Indépendamment de la franchise qui est ici multiplicative, ce qui ne pose aucun problèmevue la linéarité des opérateurs utilisés, la décomposition de ce risque transparaît au traversde la figure 5.11.

(a) Réalisations gamma sans plafond (b) Réalisations gamma avec plafond

Figure 5.11 – Réalisations de loi gamma avec et sans plafond

La figure 5.11a représente des réalisations de charges simulées selon une loi gamma et sansplafond. La figure 5.11b reprend les mêmes simulations avec un plafond à 7, 3Ä (valeurfactice simulée). Dans cette figure les réalisations au delà du plafond sons ramenées à ceplafond de sorte à laisser transparaître une masse de probabilité représentée en rouge.Ainsi le risque se décompose d’une part en une charge plafonnée à laquelle on associe laprobabilité que le risque soit inférieur au plafond et d’autre part en ce plafond auquel ona�ecte la probabilité qu’il soit inférieur aux réalisations de charges.

Comme présenté dans la section 3.4, la prime pure s’écrit alors :

E[C(◊, Ê)] = Pr(N > 0) ◊5◊E

5C+|C+ <

Ê

◊

6F

C

+

3Ê

◊

4+ Ê

31 ≠ F

C

+

3Ê

◊

446

5.3.2 Loi gamma et espérance tronquée pour la tarificationDans la cadre de notre modélisation, C+ suit une loi gamma dont les paramètres dé-

pendent des segments tarifaires. Il convient donc de calculer l’espérance tronquée EËC+|C+ < Ê

◊

È


5.3. L’intégration des plafonds et des franchises en pratique

pour chaque segment. Considérons un segment tarifaire et le parametrage suivant de ladensité de la loi gamma associée à notre variable C+ pour ce segment :

f(x) = —–

�(–)x–≠1e≠—x , x > 0 (5.1)

L’espérance d’une variable ayant la densité de la formule 5.1 est –

—. En notant H

3Ê

◊, –, —

4

la valeur en Ê

◊de la fonction de répartition d’une variable de loi Gamma de paramètres

– et —, notre espérance tronquée s’écrit :

E5C+|C+ <

Ê

◊

6=

EËC+1{C

+<

Ê◊ }

È

H(Ê

◊

, –, —)

= 1H(Ê

◊

, –, —)

⁄ Ê◊

0

—–

�(–)x–e≠—xdx

= 1H(Ê

◊

, –, —)–

—

⁄ Ê◊

0

—–+1

�(– + 1)x–+1≠1e≠—xdx

E5C+|C+ <

Ê

◊

6= E[C+] ◊

H(Ê

◊

, – + 1, —)H(Ê

◊

, –, —) (5.2)

Et avec les notations précédentes, le calcul de la prime pure devient :

E[C(◊, Ê)] = Pr(N > 0) ◊5◊E[C+]H(Ê

◊, – + 1, —) + Ê

31 ≠ H(Ê

◊, –, —)

46

Les paramètres – et — varient par segment tarifaire et peuvent être déterminés en exploi-tant les résultats du modèle. Ces paramètres sont directement liés à la moyenne (E[Y ])et à la variance (V [Y ]) qui nous sont directement fournis par le modèle implémenté. Ene�et, en notant E[Y ] = µ la moyenne à estimée, on sait (voir section 4.2.2) que pour laloi gamma, la fonction variance est V (µ) = µ2 = V (Y )Ê

„

(„ paramètre de dispersion aussiestimé dans la modélisation et Ê poids a�ecté aux observavtions).

La prime pure obtenue converge naturellement vers la prime pure sans plafond lorsque leplafond augmente. Nous illustrons cette convergence au travers de la figure 5.12 qui re-prend l’évolution des primes en fonction des plafonds pour 5 segments tarifaires du postemédicale "verres optiques".

Dans la section qui suit nous e�ectuons une comparaison entre le modèle GLMsupposant l’indépendance entre les observations et une extension de ce modèle intégrantla corrélation au niveau des équations de vraisemblance.


5.4. Les équations d’estimation généralisées et la prise en compte de la corrélation

Figure 5.12 – Exemple de convergence des primes plafonnées vers la prime pure pour 5cellule tarifaire du poste "verres optiques"

5.4 Les équations d’estimation généralisées et la priseen compte de la corrélation

Les données sur lesquelles l’étude est menée sont des données de panel. En e�et,plusieurs données d’exposition et de sinistralité peuvent être associées à un même indi-vidu présent dans le portefeuille pendant plus d’une année. Les observations associées àcet individu sont à priori corrélées.

Nous comparons dans cette section les modèles linéaires généralisés supposant l’indé-pendance sérielle à une catégorie de modèles intégrant la corrélation pouvant exister dansdes données de panel. Il s’agit des modèles linéaires avec équations d’estimation généra-lisées que nous présentons brièvement en annexe B.

Nous illustrons cette comparaison par le biais de la modélisation des probabilité et chargeannuelles de consommation selon 3 approches :

• Modèles linéaires généralisés supposant l’indépendance sérielle,• Equations d’estimation généralisées avec structure de corrélation échangeable :

Nous supposons ici que corr(yit

, yit

Õ ) = – ’ t, tÕ . Il s’agit de spécifier une structure

de dépendance entres les yit

qui ne tient pas compte du temps, la corrélationrestant la même entre ces éléments quelque soit leur ordre d’occurrence,

• Equations d’estimation généralisée avec structure de corrélation autoregressive :L’hypothèse qui est faite ici est celle d’une corrélation autorégressive entre lesy

it

qui implique corr(yit

, yit

Õ ) = –|t≠t

Õ | ’ t, tÕ . Le degré de corrélation décroît avec

l’écart entre les années d’observation.

L’illustration est e�ectuée sur l’acte de pharmacie. Nous mesurons l’impact de la corré-lation d’une part par comparaison des QIC définis en annexe B.2.3 et d’autre part parcomparaison de la qualité de prédiction des di�érents modèles par une approche de type"backtesting".



5.4.1 Estimation des probabilités de consommation : Peu d’im-pact de la corrélation

Comparaison des QIC

Les estimateurs QIC calculés lors de l’implémentation des 3 modèles que l’on com-pare sont les suivants :

• QIC Indépendant (GLM) : 646, 857• QIC Echangeable : 647, 239• QIC Autoregressif : 647, 089

Le meilleur modèle ayant la structure de corrélation la plus appropriée est celui qui ale plus petit QIC (annexe B). D’un premier abord, aucun de ces modèles ne semblese distinguer significativement des autres. L’on peut même dire que le modèle GLM avechypothèse d’indépendance, matérialisée par la matrice de corrélation identité, est meilleurque les deux autres. La prise en compte de la corrélation ne semble ici avoir aucun e�etsignificatif sur les estimations.Cette intuition va être confirmée par l’analyse de la qualité de prédiction relative auxdi�érents modèles dans la section qui suit.

Backtesting

La figure 5.13 reprend les courbes ROC définies en annexe C associées aux troismodèles que l’on compare ici.

Figure 5.13 – Courbes ROC associées aux 3 modèles comparés

La droite diagonale représente la courbe ROC associée au modèle totalement aléa-toire de classification binaire avec un coe�cient AUC (voir annexe C) de 0, 50. Outrecette courbe triviale, les 3 autres associées aux 3 modèles que l’on compare dans cettesection sont superposées. Cela confirme l’hypothèse selon laquelle la prise en compte dela corrélation dans la modélisation de la probabilité de consommer n’améliore pas les es-timations, du moins pour l’acte de pharmacie ici analysé. L’on peut mieux le voir grâceaux 3 coe�cients AUC associés qui sont très proches :

• AUC Indépendant (GLM) : 0, 6389169• AUC Echangeable : 0, 6388991• AUC Autoregressif : 0, 6388991



Dans le cadre de la modélisation de la probabilité de consommer relative à l’acte depharmacie, la corrélation a donc peu d’impact. Un modèle GLM avec hypothèse d’indé-pendance convient donc à la modélisation.

Ce constat n’est cependant pas vrai pour la modélisation de la charge annuelle deconsommation associée au même acte.

5.4.2 Choix du modèle avec corrélation pour l’estimation descharges de consommation

Comparaison des QIC

Les estimateurs QIC calculés lors de l’implémentation des 3 modèles que l’on com-pare sont les suivants :

• QIC Indépendant (GLM) : 184, 935• QIC Echangeable : 161, 737• QIC Autoregressif : 163, 436

Nous constatons une nette baisse du QIC dans les modèles tenant compte de la corréla-tion. L’impact que la corrélation peut avoir est visible au travers des coe�cients élevésdes matrices de corrélation échangeable et autorégressive reprises respectivement dans lestableaux D.3 et D.2 en annexe D.2.

Le modèle de corrélation échangeable semble légèrement meilleur que le modèle auto-régressif au vu des QIC des deux modèles. Dans la section qui suit, nous comparons cesmodèles en terme de qualité de prédiction par validation croisée.

Comparaison de la qualité de prédictions des modèles par validation croisée

Après avoir diviser les données disponibles en 3 blocs de même taille avec des carac-téristiques identiques, nous répétons 3 fois la routine suivante :

• Etape 1 : Constitution d’un échantillon d’apprentissage : Nous utilisons ici 2 blocssur 3 pour estimer notre modèle.

• Etape 2 : Le bloc restant constitue un échantillon de validation. Des prédictionssont e�ectuées sur cet échantillon sur la base de l’apprentissage précédemmente�ectué.

• Etape 3 : Une fois la prédiction sur le bloc de validation e�ectué, ce bloc permuteavec l’un des 2 blocs de l’échantillon d’apprentissage. Cette routine est répétée 3fois afin d’avoir des prédictions sur l’ensembles des données disponibles.

La routine précédente est appliquée aux 3 modèles que l’on compare dans cette section.Nous obtenons donc 3 prédictions chacune obtenue par validation croisée. Il est alorspossible de calculer des erreurs quadratiques de prédiction appelées aussi PRESS 2. Notons

2. Prediction Error Sum of Squares



yi

les réalisations de charges annuelles de consommation et yi

des prédictionses e�ectuéselon un modèle donné. L’erreur quadratique de prédiction est alors définie comme suit :

PRESS =ÿ

i

(yi

≠ yi

)2 (5.3)

Nous obtenons les erreurs suivantes suivantes suivant les modèles :

• PRESS Indépendant (GLM) : 33, 915, 826, 638• PRESS Echangeable : 32, 934, 678, 578• PRESS Autoregressif : 33, 051, 918, 273

Après comparaison des erreurs il semble raisonnable de retenir comme modèle celui aveccorrélation échangeable. L’erreur quadratique de prévision est un mauvais indicateur. Ellepeut être par exemple complètement biaisée par une prévision très éloignée de la réalisa-tion associée, l’écart étant amplifiée par l’aspect quadratique. Nous choisissons donc dereprésenter la distribution des erreurs. Ces représentations, reprises figure 5.14, attestentde la qualité du modèle avec corrélation échangeable comparé aux 2 autres modèles ana-lysés.

(a) Distribution erreurs GLM (b) Distribution erreurs Echangeable

(c) Distribution erreurs Autorégressif

Figure 5.14 – Comparaison des distributions d’erreurs de prévision associées aux modèlesindépendant, échangeable et autorégressif.

La comparaison n’est pas aisée sur les graphiques. Le tableau 5.17 reprend lesmoyennes et variances associées aux 3 distributions.



Modèle de corrélation Moyenne VarianceIndépendant GLM 47, 65 350, 59

Echangeable 31, 85 347, 20Autorégressif 34, 08 347, 61

Table 5.17 – Moyenne et variance associées aux distributions d’erreur

La distribution associées au modèle de corrélation échangeable étant la mieux cen-trée autour de 0, ce modèle semble ici le plus adapté à la modélisation de la charge annuellede consommation associée à l’acte "pharmacie".

Dans ce chapitre nous avons illustré la tarification de l’acte "pharmacie" en illustrantla modélisation des charge et probabilité de consommation annuelles associées. Un zonagedes pays d’expatriation a été présenté avant d’illustrer la tarification de l’acte "verresoptiques" en considérant ce zonage. La modélisation de la charge annuelle en présence deplafond et franchise contractuels a aussi été abordée dans le cadre de l’utilisation d’unedistribution gamma comme loi pour la charge. Enfin, les données répétées relatives à laprésence d’individus pendant plus d’une année dans le portefeuille nous ont conduit à lacomparaison entre le modèle GLM supposant l’indépendance sérielle et le modèle GLM-GEE intégrant la corrélation. Il ressort de cette comparaison qu’il n’y a pas de choix figé.Le modèle a adopter dépend de la variable d’intérêt et du degré de corrélation entre lesobservations de l’acte auquel l’on s’intéresse.


Conclusion

Disposant de données relatives à la sinistralité et à l’exposition du portefeuille MSHsur la période [2006, 2012], nous avons proposé dans ce mémoire une approche de ta-rification des garanties santé liées à ce portefeuille. L’approche de tarification la plusfréquente en assurance santé est l’approche fréquence ◊ Coût moyen. L’application decette méthode suppose l’indépendance entre le nombre d’actes et les coûts d’une part etle caractère iid 3 des réalisations du processus des coûts d’autre part. Nous ne retenons pascette approche et privilégions l’approche probabilité ◊ Charge. Ce choix car les hypothèsesd’indépendance ne sont pas toujours vérifiées et surtout en raison de la fiabilité faible dunombre d’actes dans les données disponibles pour la réalisation de l’étude. La probabilitéde consommer au moins une fois dans l’année est ainsi modélisée par une régression lo-gistique et une régression log-gamma modélise la charge totale par individu et par année.Les primes pures sont ensuite obtenues par produit des 2 précédentes quantités modélisées.

Nous avons ainsi déterminé des primes pures par postes médicaux et en fonction de ca-ractéristiques d’assurés expatriés telles que le pays, la nationalité, l’âge et le sexe. Pourdes raisons pratiques pour la souscription, des zones d’expatriation ont été introduitespar classification des pays d’expatriation avec la méthode des k-moyennes. Grâce à l’his-torique de sinistralité et d’exposition sur 7 ans, il a été possible d’e�ectuer des projectionstarifaires à divers horizons. Cet historique est utile pour les projections mais induit cepen-dant un problème de corrélation entre les observations relatives à un même assuré présentplus d’une année dans le portefeuille étudié. La théorie utilisée pour la modélisation desquantités d’intérêt est celle des modèles linéaires généralisés. Ces modèles sont basés surla maximisation de la fonction de vraisemblance en supposant l’indépendance entre lesobservations. Les méthodes GEE permettent de tenir compte de cette corrélation en in-tégrant une matrice de corrélation aux équations de vraisemblance. Les estimations sonten outre convergentes et le biais induit par la corrélation peut généralement être négligésur des portefeuilles de grande taille, comme cela est le cas pour celui sur lequel l’étude aété menée.

Une fois les primes pures obtenues, des plafonds et franchises annuels ont été intégrésà la tarification par troncature des lois modélisées par segment tarifaire. N’ayant pasassez d’information sur les niveaux de garantie des contrats pour les intégrer au planexplicatif, nous négligeons l’impact de la présence des plafonds et franchises annuels surla consommation observée des assurés. Cette approximation est valable lorsque les fran-chises sont basses et les plafonds élevés, cas des contrats d’assurance des expatriés quibénéficient en général de couvertures confortables.

3. indépendantes et identiquement distribuées

78

CONCLUSION

L’étude a été réalisée sur le portefeuille MSH qui représente l’un des 2 plus gros porte-feuille santé expatriés d’AXA Solutions Collectives. Une étude similaire devra être menéesur une autre partie significative du portefeuille gérée par HENNER. Les données dontnous disposons pour la réalisation de la présente étude allant jusque 2012, la réception enjuillet 2014 des données HENNER permettra de confimer les calculs de dérive, de primepure et les projections e�ectuées pour l’ensemble du portefeuille AXA. Concernant le biaisrelatif à l’intégration des franchises et plafonds, des demandes d’extraction seront formu-lées aux gestionnaires afin de pouvoir juger au mieux de la qualité des approximationse�ectuées. Enfin, cette étude a permis le calcul et la projection de primes selon plusieursaxes grâce à la flexibilité et la robustesse des modèles linéaires généralisés. L’ensembledes résultats obtenus après l’étude menée sur les données HENNER devront être intégrésau logiciel de tarification courant implémenté en 2006 et depuis mis à jour chaque annéepar le paramétrage de dérives globales d’une année à une autre, approche dont le biaisaugmente avec le temps.


Annexe A

Classification non supervisée

Dans ce chapitre, nous présentons brièvement quelques algorithmes de classifica-tion non supervisée. En classification supervisée, l’on dispose au départ d’un échantillond’apprentissage dont on connait la classification à priori relative à une variable cible etqui permet de définir des règles quant à la classification d’autres observations. Nous nousintéressons ici à la classification non supervisée ("Clustering" en anglais). L’idée est de seg-menter ou partitionner un ensemble d’observations/individus en classe ou catégorie sanstypologie connu à priori en optimisant un critère de rapprochement ou d’éloignement. Lesméthodes abordées ici sont présentées d’un point de vue général, pour aller plus loin, lelecteur pourra se référer à [Nakache & Confais(2004)].

A.1 La notion de distance

Une fonction d : E ◊ E ≠æ R+

(a, b) ‘≠æ d(a, b) définit une distance sur un ensemble E sielle vérifie les conditions suivantes :

• Symétrie : d(a, b) = d(b, a), ’(a, b) œ E ◊ E• Séparation : d(a, b) = 0 … a = b, ’(a, b) œ E ◊ E• Inégalité triangulaire : d(a, b) Æ d(a, c) + d(c, b), ’a, b, c œ E

Un exemple de distance classique couramment utilisée est la distance euclidienne :

d : Rn ◊ Rn ≠æ R+

(x, y) ‘≠æ (qn

i=1(xi

≠ yi

)2)1/2 (A.1)

La distance est une mesure d’éloignement entre 2 éléments d’un ensemble et peutêtre utilisée en classification. Une autre mesure souvent utilisée est l’indice de dissem-blance ou de dissimilarité. Dans la présentation des algorithmes de classification, nousutiliserons la distance comme mesure d’éloignement.

Il est nécessaire en classification de définir une mesure d’éloignement entre deuxparties de l’ensemble E à partitionner. Les mesures couramment utilisées sont la distanceentre les barycentres ou centroïdes G

A

et GB

des 2 parties A et B (œ P(E) ensemble desparties de E) et le saut de Ward faisant intervenir des poids w

A

et wB

:

80

A.2. La classification ascendante hiérarchique CAH

• Distance entre les centroïdes :

DC : P(E) ◊ P(E) ≠æ R+

(A, B) ‘≠æ d(GA

, GB

) (A.2)

• Saut de Ward :

DW : P(E) ◊ P(E) ≠æ R+

(A, B) ‘≠æ wA

wB

wA

+ wB

d(GA

, GB

) (A.3)

A.2 La classification ascendante hiérarchique CAHCette méthode de classification consiste à partir d’une classification triviale avec

comme classes les singletons de l’ensemble E et à regrouper les classes 2 à 2 en minimi-sant à chaque fois une distance interclasse choisie au préalable. L’algorithme lié à cetteméthode de classification est le suivant :

• Initialisation : On se donne une matrice reprenant les distances entre chaquesingleton représentant une classe au départ,

• Itérations : Jusqu’à obtenir une classe constituée de l’ensemble des éléments de E,on regroupe à chaque itération les 2 classes les plus proches au sens de la distanceinterclasse choisie, puis on met à jour le tableau des distances en remplaçant les2 classes regroupées en une seule.

La distance la plus utilisée en CAH est la distance de Ward, on parle alors de méthodede Ward. Cette méthode présente l’avantage d’obtenir à chaque agrégation une baisseminimale de l’inertie inter-classe définie comme suit :

Iinter

= 1Card(E)

ÿ

cœC(E)Card(c) d2(g

c

, gE

) (A.4)

Avec gc

et gE

représentant les centroïdes de la classe c et de E, et C(E) une partition de E.

Pour retenir un nombre acceptable de classes, l’idée est d’arrêter l’algorithme avant unetrop grosse perte d’inertie inter-classe.

Une autre idée serait de mener un raisonnement inverse en partant d’une seule classeconstituée de l’ensemble des éléments de E avant d’e�ectuer des découpages dichoto-miques jusqu’à obtenir la classification triviale constituée des singletons de E. Il s’agit desméthodes de classification descendantes hiérarchiques qui présentent l’inconvénient d’êtrecoûteuses en temps de calcul (2n≠1 ≠ 1 bipartitions possibles à chaque découpage) sansforcément améliorer les résultats d’une classification ascendante hiérarchique.

Une alternative aux méthodes de classification hiérarchiques , sont les méthodes de par-titionnement qui fournissent une classification plus dynamique avec réallocation des élé-ments jusqu’à la stabilisation d’une fonction objectif.


A.3. Un algorithme de partitionnement : la méthode k-means

A.3 Un algorithme de partitionnement : la méthodek-means

Les méthodes de classification hiérarchique ne permettent pas de remettre en causeles classes une fois construite. En e�et, une fois la classification hiérarchique e�ectuée, uneclassification en k groupes consiste à regrouper des classes déjà construites. Les méthodesde partitionnement fournissent une classification unique une fois le nombre de classes spé-cifié et les k centres initiaux spécifiés au départ. Ces méthodes fonctionnent sur la basede réa�ectations des éléments entre les classes de manière à améliorer progressivement laqualité des classes.

Nous présentons ici l’algorithme des k-moyennes ("k-means") qui est une méthode departitionnement en k classes. L’idée de cet algorithme est de minimiser localement lafonction objectif suivante :

kÿ

r=1

ÿ

eœCr

d(e, gr

)2 (A.5)

Les Cr

représentent les k classes auxquelles on veut allouer dynamiquement les points ede l’ensemble E à partitionner et g

r

est le centre de la classe Cr

.L’idée de cet algorithme est de recalculer à chaque itération k centres auxquels on asso-cie les points les plus proches pour avoir k classes jusqu’à la stabilisation de la fonctionobjectif autour d’un minimum local.

Le fil de l’exécution de l’algorithme "k-means" est le suivant (chapitre 4 de [Nakache & Confais(2004)]) :

• Etape 0 : Spécifier le nombre de classes désiré,• Etape 1 : Spécifier k points qui serviront de centres pour les classes initiales,• Etape 2 : A�ecter chaque point au centre le plus proche au sens d’une distance

choisie au départ. Il en ressort un partitionnement en k classes,• Etape 3 : Recalculer le centre de chaque classe, les nouveaux centres n’étant pas

nécessairement des points de l’ensemble à partitionner,• Etape 4 : Répéter les étapes 2 et 3 jusqu’à la stabilité des centres, c’est à dire

des variations minimes et stables de la fonction objectif au fil des itérations.


Annexe B

La méthode GEE pour la prise encompte de la dimensionchronologique des données de panel

B.1 Rappel du contexteIl est souvent utile d’utiliser plusieurs années d’observation d’un portefeuille pour

l’établissement de normes tarifaires. En e�et cette approche a l’avantage d’augmenter lenombre de données et permet de s’a�ranchir du biais relatif à l’observation d’une annéeparticulière qui peut être exceptionnelle. Les données sont alors représentées sous formede panel reliant les données d’intérêt telles que le nombre de sinistres ou la charge annuellede consommation et l’année d’observation associée. L’inconvénient de cette approche estla corrélation qu’elle induit entre les observations relatives à un même assuré présent dansle portefeuille sur plusieurs années d’observation.Les estimateurs obtenus sous l’hypothèse simplificatrice d’indépendance sont convergents.Lorsque l’on travaille sur des portefeuille de grande taille, l’hypothèse d’indépendancen’induit donc pas de biais significatif sur les estimatins des paramètres —. Nous montronsici comment prendre en compte la nuisance liée à la corrélation lors de l’implémentationd’un GLM sur des données de panel à l’aide des techniques proposées dans le chapitre 1de [Liang & Zeger(1986)] et reprises dans le chapitre 3 de [Hardin & Hilbe(2003)].

B.2 Prise en compte de la dépendanceB.2.1 Les équations d’estimation généralisées

Si aucun poids n’est a�ecté aux observations, sous l’hypothèse d’indépendance leséquations de vraisemblance s’écrivent dans le cadre général :

nÿ

i=1(y

i

≠ µi

) xij

bÕÕ(◊i

)gÕ(µi

) = 0 , j œ [0, p] (B.1)

Avec les notations de 4.2.4, n représente le nombre d’observations ou, avec l’hy-pothèse d’indépendance entre les observations, le nombre d’individus observés sur unepériode fictive d’un an.On introduit à présent des notations relatives à la dimension chronologique des données

83

B.2. Prise en compte de la dépendance

de panel. On note :

• n : le nombre d’assurés, chaque assuré étant représenté par l’indice i = 1, ..., npendant une période t = 1, 2, ..., T

i

,• Y

it

: la réponse relative à l’assuré i durant la période t,• T

i

: le nombre de périodes d’observation pour l’assuré i,• x

it

: la matrice ligne reprenant les valeurs des variables explicatives de l’assuré ipendant la période t.

En intégrant une dimension chronologique venant accroitre le nombre de données à dis-position, les équations de vraisemblance deviennent :

nÿ

i=1

Tiÿ

t=1(y

it

≠ µit

) xitj

bÕÕ(◊it

)gÕ(µit

) = 0 , j œ [0, p]

…nÿ

i=1Xt

i

Di

V(µi

)≠1(yi

≠ µ

i

) = 0 (B.2)

Avec :

• Xi

=

Q

cccca

xi10 x

i11 xi12 · · · x

i1p

xi20 x

i21 xi22 · · · x

i2p

... ... ... . . . ...x

iTi0 xiTi1 x

iTi2 · · · xiTip

R

ddddb

• yi

= (yi1, ..., y

iTi)t

• µ

i

= (µi1, ..., µ

iTi)t

• Di

= diag

Aˆµ

i1ˆ÷

i1, ...,

ˆµiTi

ˆ÷iTi

B

= diag

A1

gÕ(µi1)

, ...,1

gÕ(µiTi)

B

• V(µi

) = diag (V (µi1), ..., V (µ

iTi)) = diag1b

ÕÕ(◊i1), ..., b

ÕÕ(◊iTi)

2, avec V la fonction

variance associée au modèle.

Les équations de vraisemblance laissent donc transparaître sous l’hypothèse d’indé-pendance des réalisations relatives à un individu d’une période à une autre la matricediagonale [V(µ

i

)]Ti◊Ti

ayant pour coe�cients diagonaux les variances des Yit

(on supposeici „ = Ê = 1). L’hypothèse d’indépendance transparaît donc au travers de cette matricequi représente la matrice de variance-covariance des N

it

. Elle se décompose comme suit :

V(µi

) =Ëdiag(V (µ

it

))1/2 ITi◊Ti diag(V (µ

it

))1/2È

Ti◊Ti(B.3)

L’idée de [Liang & Zeger(1986)] (voir chapitre 1) est alors d’introduire une matricede corrélation R(–) plausible afin de tenir comte de cette réalité dans les estimations. Ils’agit alors de considérer une matrice de la forme :

V(µi

, –) =Ëdiag(V (µ

it

))1/2 R(–)Ti◊Ti diag(V (µ

it

))1/2È

Ti◊Ti(B.4)

Et l’on est alors amené à résoudre le système d’équations suivant :



nÿ

i=1Xt

i

Di

V(µi

, –)≠1(yi

≠ µ

i

) = 0 (B.5)

Il est possible de spécifier di�érents types de corrélations (échangeable, autorégres-sives, stationnaires, non stationnaires...) et le vecteur de paramètres – est alors à calibrersur les observations. A l’estimation des — et „ se rajoute alors celle des paramètres relatifsà la corrélation spécifiée. Si les — sont estimés en résolvant les équations d’estimation gé-néralisées, les paramètres de corrélation et de dispersion sont estimés à partir des résidusde Pearson. Cette méthode d’estimation (GEE) est intéressante du fait qu’elle intègre lacorrélation qui existe entre les réalisations relatives à un individu. Cependant, il n’est pluspossible d’utiliser la notion de déviance et le paramètre de dispersion n’est en l’occurrenceplus estimé à partir de cette statistique mais à partir des résidus de Pearson. Le lecteurpourra se référer au chapitre 3 de [Hardin & Hilbe(2003)] pour plus de détails sur toutesces estimations.

B.2.2 Les structures de corrélationPlusieurs structures de corrélation peuvent être spécifiées lors de l’implémentation

d’un modèle avec équations d’estimation généralisées. Nous décrivons ici de façon succincteles corrélations couramment utilisées.

La corrélation échangeable

Il s’agit de la forme de corrélation la plus simple après le cas d’indépendance où lamatrice de corrélation est la matrice identité. La matrice de corrélation est alors définiecomme suit :

R(–) =

Q

ccccccca

1 – – · · · –– 1 – · · · –– – 1 · · · –... ... ... . . . ...– – – · · · 1

R

dddddddb

(B.6)

En d’autres termes :

Ruv

=I

1 si u = v– sinon

Cette hypothèse de corrélation est valable dans les cas où les mesures répétées neprésentent pas de dépendance temporelle et où la corrélation entre les données de panelest stable par permutation.

Lorsqu’une dépendance temporelle est de mise, il peut être intéressant d’intégrer cettedimension dans la spécification de la structure de corrélation.



La corrélation autorégressive

On suppose ici avoir des données répétées sur k périodes. Les données d’intérêtassociées à ces périodes peuvent alors présenter une corrélation de type autorégressive.Cette hypothèse est spécifiée par le biais d’une matrice de corrélation de la forme :

R(–) =

Q

ccccccca

1 –1 –2 · · · –k≠1

–1 1 –1 · · · –k≠2

–2 –1 1 · · · –k≠3

... ... ... . . . ...–k≠1 –k≠2 –k≠3 · · · 1

R

dddddddb

(B.7)

En d’autres termes :

Ruv

= –|u≠v|

Dans le cadre de notre étude, la matrice de corrélation est une matrice 7 ◊ 7 carnous avons 7 années d’observation de 2006 à 2012. L’hypothèse ici e�ectuée est celle d’unestructure de corrélation autorégressive entre les réalisations de consommation d’une annéeà une autre.

Dans le cadre de notre étude, nous nous limiterons à la comparaison des résultats pouvantêtre obtenus entre les cas d’indépendance, de corrélation échangeable et autorégressive.D’autres structures de corrélation peuvent néanmoins être envisagées :

• La corrélation stationnaire :Comme alternative à la struture de corrélation autorégressive, il est possible despécifier une structure de corrélation stationnaire qui est nulle au delà d’un inter-valle de temps g donné :

Ruv

=

Y_]

_[

1 si u = v–|u≠v| si 0 Æ |u ≠ v| Æ g0 sinon

• La corrélation non stationnaire :Il est possible de spécifier une structure non stationnaire au travers d’une matricede corrélation de la forme :

Ruv

=

Y_]

_[

1 si u = v–

uv

si 0 Æ |u ≠ v| Æ g0 sinon

D’autre structure de corrélation moins contraintes peuvent envisagées avec plus oumoins de pertinence. Voir le chapitre 3 de [Hardin & Hilbe(2003)] pour aller plus loin.

B.2.3 Choix de la meilleure structure de corrélationPour des modèles basés sur la vraisemblance, un élément de validation est le critère

d’information d’Akaike défini comme suit :

AIC = ≠2L + 2p , avec p nombre de paramètres et L la vraisemblance.



Pour la comparaison des modèles et le choix des structures de corrélaton, nous utili-serons une mesure analogues à l’AIC. Il s’agit du QIC 1 qui reprend les 2 principales idéesdu critère d’Akaike :

• Les modéles avec équations d’estimation généralisées modifient la vraisemblancedu modèle par introduction d’une matrice de corrélation. L’on est donc en pré-sence d’une quasi-vraisemblance qui est utilisée à la place de la vraisemblance,

• L’idée de la pénalisation de la mesure (qui doit être minimale) par l’ajout d’unefonction croissante du nombre de paramètres du modèle est aussi reprise.

Le lecteur pourra consulter le chapitre 3 de [Hardin & Hilbe(2003)] pour aller plus loinsur les estimations et le choix des structures de corrélation.

1. Quasilikelihood under the independance model information criterion


Annexe C

Backtesting et régression logistique

Nous reprenons dans cette section les notations de [Crabbé(2007)].

C.1 Matrice de confusionOn se donne la règle de décision suivante pour la prédiction (◊ œ [0, 1]) :

Y pred =I

1 si P(Y=1) = Score > ◊0 sinon

Il est alors possible de comparer les valeurs prédites aux valeurs binaires observées autravers d’une matrice appelée matrice de confusion :

Table C.1 – Matrice de confusion

Matrice de confusionPrédit 1 Prédit 0

Observé 1 Nombre de vrais positifs (VP) Nombre de faux négatifs (FN)Observé 0 Nombre de faux positifs (FP) Nombre de vrais négatifs (VN)

Avec N données binaires observées et prédites par la modèle, le score d’exactitude (ac-curracy) est alors défini comme suit :

acc = V P + V N

N(C.1)

L’on peut aussi définir des taux de vrais positifs (TPR) et de faux positifs(FPR) commesuit :

TPR = Sensibilite = V P

V P + FN(C.2)

Et

FPR = 1 ≠ Specificite = FP

FP + V N(C.3)

88

C.2. Courbe ROC et indice AUC

C.2 Courbe ROC et indice AUCLa matrice de confusion et les di�érents coe�cients calculés dépendent du seuil ◊

que l’on se fixe dans la règle de décision. En faisant varier ◊ dans l’intervalle [0, 1], onobtient un ensemble de points (FPR(◊), TPR(◊)) que l’on peut représenté sur le planFPR ◊ TPR. La courbe ainsi obtenue est la courbe ROC 1.

Figure C.1 – Exemples de courbes ROC - Source : http ://www.xlstat.com

La figure C.1 reprend le tracé de 3 courbes ROC. L’aire sous la courbe, courammentappelé AUC 2, représente la probabilité qu’un évènement positif soit classé comme étantpositif. La courbe en bleu représente la modèle de classification idéal (AUC = 1). Lacourbe en rouge correspond à un modèle purement aléatoire (AUC = 0.5). La courbeverte correspond au cas intermédiaire rencontré en pratique.

1. Receiver Operating Characteristic2. Area Under the Curve


Annexe D

Tables annexes

D.1 Croisement des âges et des sexesNous croisons l’âge et le sexe des assurés selon la variable catégorie. Les enfants

représentent une modalité à part entière de cette variable.

Table D.1 – Modalités de la variable catégorie

Liste des categoriesEnfant

Femme 18-24Femme 25-29Femme 30-34Femme 35-39Femme 40-44Femme 45-49Femme 50-54Femme 55-59Femme 60-64

Femme 65 et plusHomme 18-24Homme 25-29Homme 30-34Homme 40-44Homme 45-49Homme 50-54Homme 55-59Homme 60-64

Homme 65 et plusRef-Homme 35-39

D.2 Comparaison GEE - GLM : Les matrices de cor-rélation estimées sur l’acte de pharmacie

90

D.2. Comparaison GEE - GLM : Les matrices de corrélation estimées sur l’acte depharmacie

Table D.2 – Corrélation autorégressive - Charge annuelle de consommation - Acte dePharmacie

Working Correlation MatrixCol1 Col2 Col3 Col4 Col5 Col6 Col7

Row1 1 0,6885 0,474 0,3263 0,2247 0,1547 0,1065Row2 0,6885 1 0,6885 0,474 0,3263 0,2247 0,1547Row3 0,474 0,6885 1 0,6885 0,474 0,3263 0,2247Row4 0,3263 0,474 0,6885 1 0,6885 0,474 0,3263Row5 0,2247 0,3263 0,474 0,6885 1 0,6885 0,474Row6 0,1547 0,2247 0,3263 0,474 0,6885 1 0,6885Row7 0,1065 0,1547 0,2247 0,3263 0,474 0,6885 1

Table D.3 – Corrélation échangeable - Charge annuelle de consommation - Acte dePharmacie

Working Correlation MatrixCol1 Col2 Col3 Col4 Col5 Col6 Col7

Row1 1 0,6358 0,6358 0,6358 0,6358 0,6358 0,6358Row2 0,6358 1 0,6358 0,6358 0,6358 0,6358 0,6358Row3 0,6358 0,6358 1 0,6358 0,6358 0,6358 0,6358Row4 0,6358 0,6358 0,6358 1 0,6358 0,6358 0,6358Row5 0,6358 0,6358 0,6358 0,6358 1 0,6358 0,6358Row6 0,6358 0,6358 0,6358 0,6358 0,6358 1 0,6358Row7 0,6358 0,6358 0,6358 0,6358 0,6358 0,6358 1


Bibliographie

[AXA(2006)] AXA (2006). Guide utilisateur : Logiciel de tarification Santé Expatriés.AXA Solutions Collectives.

[Box & Cox(1964)] Box, G., & Cox, D. (1964). An analysis of transformations. Journal

of the Royal Statistical Society, 26., 211 – 252.[Charpentier(2011)] Charpentier, A. (2011). Statistique de l’assurance : Partie 1, assu-

rance non vie et provisionnement. Université de Rennes 1 et Université de Montréal.[Crabbé(2007)] Crabbé, B. (2007). Régression logistique. Présentation.[Denuit & Charpentier(2005)] Denuit, M., & Charpentier, M. (2005). Mathématiques de

l’assurance Non-Vie Tome 2 : Tarification et Provisionnement. Economica.[Droesbeke et al.(2005)Droesbeke, Lejeune, & Saporta] Droesbeke, J., Lejeune, M., & Sa-

porta, G. (2005). Modèles statistiques pour données qualitatives. Technip.[Firth(1988)] Firth, D. (1988). Multiplicative errors : log-normal or gamma. Journal of

the Royal Statistical Society.[Hardin & Hilbe(2003)] Hardin, J., & Hilbe, J. (2003). Generalized Estimating Equations.

Chapman and Hall.[Kammler(2007)] Kammler, D. (2007). Fourier’s representation for functions, chap. 1,

(pp. 1 – 12). Cambridge University Press.[Laouni(2007)] Laouni, L. (2007). Tarification de frais de santé expatriés en complément

de la cfe. Tech. rep., AXA France.[Liang & Zeger(1986)] Liang, K., & Zeger, S. (1986). Longitudinal data analysis using

generalized linear models. Biometrika.[Lindgren(1993)] Lindgren, B. (1993). Statistical Theory. Chapman and Hall. 4th edition.[Mc Cullagh & Nelder(1989)] Mc Cullagh, P., & Nelder, J. (1989). Generalized Linear

Models. Springer.[Nakache & Confais(2004)] Nakache, J., & Confais, J. (2004). Approche pragmatique de

la classification : arbres hiérarchiques, partitionnements. Technip.[Nguyen(2009)] Nguyen, A. (2009). Conception des méthodes d’évaluation en assurance

expatriée. Mémoire d’actuariat.[Ohlson & Johansson(2010)] Ohlson, E., & Johansson, B. (2010). Non-Life Insurance

Pricing with Generalized Linear Models. Springer.[Reinert(2003)] Reinert, G. (2003). Statistical theory.[Roux(2009)] Roux, P. (2009). Modèles estimés sur données de panel. Cours d’Economé-

trie des Données de Panel, Master "Economie et Finance", Faculté de Droit et des

Sciences Economiques de Limoges, (pp. 1 – 6).

92

BIBLIOGRAPHIE BIBLIOGRAPHIE

[Vautrin(2009)] Vautrin, M. (2009). Elaboration d’une méthode de tarification avec in-dicateurs de risque pour des contrats complémentaires santé collectifs. Mémoired’actuariat.


Table des figures

2.1 Diagramme entité-association données MSH . . . . . . . . . . . . . . . . . 162.2 Evolution des e�ectifs du portefeuille MSH de 2006 à 2012 . . . . . . . . . 182.3 Répartition par sexe et par type d’assuré . . . . . . . . . . . . . . . . . . . 182.4 Répartition par cellule familiale et par situation matrimoniale des adhérents 192.5 Ages moyens des bénéficiaire du portefeuille MSH . . . . . . . . . . . . . . 202.6 Principaux pays d’expatriation . . . . . . . . . . . . . . . . . . . . . . . . . 202.7 Nationalités des expatriés du portefeuille MSH . . . . . . . . . . . . . . . . 212.8 Frais réels et remboursement par année . . . . . . . . . . . . . . . . . . . . 212.9 Répartition des frais réels par postes médicaux . . . . . . . . . . . . . . . . 222.10 La sinistralité extrême dans les 10 premiers pays d’expatriation . . . . . . 232.11 Dérive de la consommation médicale de l’ensemble du portefeuille expatriés

MSH de 2006 à 2012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.12 Dérive de la consommation médicale à Singapour de 2006 à 2012 . . . . . . 282.13 Evolution de l’exposition à Singapour de 2006 à 2013 . . . . . . . . . . . . 29

4.1 Comparaison méthode déterministe et GLM : Probabilité d’aller chez ledentiste pour des expatriés Français aux USA . . . . . . . . . . . . . . . . 43

5.1 Analyse des résidus - Régression logistique - Pharmacie . . . . . . . . . . . 595.2 Projection des probabilité de consommer à l’horizon 2017 - Expatriés fran-

çais au USA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.3 Analyse des résidus - Régression log-gamma - Pharmacie . . . . . . . . . . 625.4 Pharmacie : Projection de la charge annuelle de consommation de 2006 à

2017 - Expatriés français aux USA . . . . . . . . . . . . . . . . . . . . . . 635.5 Pharmacie : Primes pures projetées de 2006 à 2017 - Expatriés français aux

USA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.6 Classification des pays en zones d’expatriation . . . . . . . . . . . . . . . . 655.7 Verres optiques : Projection des probabilité de consommer à l’horizon 2017

- Expatriés français dans la zone USA . . . . . . . . . . . . . . . . . . . . . 675.8 Analyse des résidus - Régression log-gamma - Verres optiques . . . . . . . 695.9 Verres optiques : Projection de la charge annuelle de consommation à l’ho-

rizon 2017 - Expatriés français aux USA . . . . . . . . . . . . . . . . . . . 695.10 Verres optiques : Primes pures projetées à l’horizon 2017 - Expatriés fran-

çais au USA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.11 Réalisations de loi gamma avec et sans plafond . . . . . . . . . . . . . . . . 715.12 Exemple de convergence des primes plafonnées vers la prime pure pour 5

cellule tarifaire du poste "verres optiques" . . . . . . . . . . . . . . . . . . . 735.13 Courbes ROC associées aux 3 modèles comparés . . . . . . . . . . . . . . . 74

94

TABLE DES FIGURES TABLE DES FIGURES

5.14 Comparaison des distributions d’erreurs de prévision associées aux modèlesindépendant, échangeable et autorégressif. . . . . . . . . . . . . . . . . . . 76

C.1 Exemples de courbes ROC - Source : http ://www.xlstat.com . . . . . . . 89


Liste des tableaux

2.1 Dérive globale portefeuille MSH . . . . . . . . . . . . . . . . . . . . . . . . 272.2 Dérive portefeuille MSH par catégorie . . . . . . . . . . . . . . . . . . . . . 272.3 Dérive globale Singapour . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.4 Dérive Singapour par catégorie . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1 Liste des variables d’intérêt . . . . . . . . . . . . . . . . . . . . . . . . . . 313.2 Listes des potentielles variables explicatives . . . . . . . . . . . . . . . . . . 32

4.1 Quelques lois de la famille exponentielle . . . . . . . . . . . . . . . . . . . . 444.2 Fonctions variance associées aux lois classique de la famille exponentielle . 464.3 Fonctions lien canonique associées à quelques lois de la famille exponentielle 47

5.1 Explication de la probabilité de consommer dans l’année . . . . . . . . . . 595.2 Analyse de type 1 - Régression logistique - Pharmacie . . . . . . . . . . . . 595.3 Analyse de type 3 - Régression logistique - Pharmacie . . . . . . . . . . . . 605.4 Pharmacie : Explication de la charge annuelle de consommation . . . . . . 615.5 Pharmacie - Charge annuelle - Statistiques de validation . . . . . . . . . . 615.6 Analyse de type 1 - Régression log-gamma - Pharmacie . . . . . . . . . . . 625.7 Analyse de type 3 - Régression log-gamma - Pharmacie . . . . . . . . . . . 625.8 Verres optiques : Explication de la probabilité de consommer dans l’année . 655.9 Analyse de type 1 - Régression logistique - Verres optiques . . . . . . . . . 665.10 Analyse de type 3 - Régression logistique - Verres optiques . . . . . . . . . 665.11 Analyse de type 1 - Régression logistique - Verres optiques - sans l’année

de soin en conservant l’interaction année - pays . . . . . . . . . . . . . . . 665.12 Analyse de type 3 -Régression logistique - Verres optiques - sans l’année de

soin en conservant l’interaction année - pays . . . . . . . . . . . . . . . . . 675.13 Verres optiques : Explication de la charge annuelle de consommation . . . . 685.14 Verres optiques - Régression log-gamma - Statistiques de validation . . . . 685.15 Analyse de type 1 - Régression log-gamma - Verres optiques . . . . . . . . 685.16 Analyse de type 3 - Régression log-gamma - Verres optiques . . . . . . . . 695.17 Moyenne et variance associées aux distributions d’erreur . . . . . . . . . . 77

C.1 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

D.1 Modalités de la variable catégorie . . . . . . . . . . . . . . . . . . . . . . . 90D.2 Corrélation autorégressive - Charge annuelle de consommation - Acte de

Pharmacie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91D.3 Corrélation échangeable - Charge annuelle de consommation - Acte de

Pharmacie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

96

Mémoire présenté le - ressources-actuarielles.net · 2018-11-07 · Ahmed Tidiane DIOMANDE 6/96....

Documents

Transcript of Mémoire présenté le - ressources-actuarielles.net · 2018-11-07 · Ahmed Tidiane DIOMANDE 6/96....