Nouveaux modèles de mutualisation (Olivier Lopez) - SGT2 BigData - Institut des Actuaires

download Nouveaux modèles de mutualisation (Olivier Lopez) - SGT2 BigData - Institut des Actuaires

If you can't read please download the document

Embed Size (px)

description

www.actuaires-bigdata.fr

Transcript of Nouveaux modèles de mutualisation (Olivier Lopez) - SGT2 BigData - Institut des Actuaires

  • 1. BIG DATA SGT2 NOUVEAUX MOD `ELES DE MUTUALISATION Olivier Lopez Ensae Paris-Tech & Crest-Ensae, Laboratoire de Finance et dAssurance, Centre dEtudes Actuarielles Maison des actuaires, 11 mars 2014 O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 1 / 18

2. INTRODUCTION Mod`ele economique de lassurance : repose sur la mutualisation, la solidarite. La population etant constituee de prols de risques heterog`enes, les mod`eles de tarication reposent sur un equilibre entre une prevision la plus ne possible du risque individuel, et une experience collective du risque. Cette prediction du risque est effectuee `a partir de caracteristiques mesurees sur lindividu (sinistres passes, age, categorie socio-professionnelle...) Big Data : opportunite dacceder `a un nombre gigantesque de variables qui permettraient dacceder `a une meilleure connaissance du risque. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 2 / 18 3. OBSTACLES, QUESTIONS POS EES Cette utopie (connaissance parfaite du risque de chaque individu) est-elle realisable, et si oui, en quelle mesure, de quelle mani`ere ? Le mod`ele sur lequel elle deboucherait est-il viable ? Le principe de mutualisation sera-t-il toujours respecte ? O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 3 / 18 4. REPONSE DIFF ERENCI EE Le Big Data recouvre des situations variees et ces problematiques peuvent trouver des reponses differentes suivant les differents contextes. Differents contextes auxquels on peut penser (liste non exhaustive) : Assurance auto (pay as you drive) Assurance sante (pay as you live) Assurance habitation (pay as you own) Souscription en ligne (fronti`ere avec le marketing ?) O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 4 / 18 5. PLAN DE LA PR ESENTATION 1 DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS 2 VIABILIT E DU SYST `EME 3 DERIVES EVENTUELLES O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 5 / 18 6. DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS PLAN DE LA PR ESENTATION 1 DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS 2 VIABILIT E DU SYST `EME 3 DERIVES EVENTUELLES O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 6 / 18 7. DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS DONN EES DE GRANDE DIMENSION Incorporer plus de variables permet davoir un mod`ele en theorie plus proche de la realite. Mais si le nombre de param`etres est trop important, leur estimation sera tr`es mauvaise et lapproche se trouvera contre-productive. Necessite de prendre en compte des methodes statistiques recentes basees sur la reduction de dimension, la parcimonie etc. Methodes de machine learning: permettre denvisager des mod`eles moins lineaires que les mod`eles classiques. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 7 / 18 8. DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS PLUSIEURS FACONS DETRE BIG Formalisation mathematique sommaire : Y = ce quon veut predire (generalement cout de lassure) X = caracteristiques dun individu (contient toute linformation disponible), X Rd . But : estimer E[Y|X] (i.e. prediction de la valeur de Y `a partir de linformation donnee par X. Pour lestimer on dispose dobservations (Y1, X1, ..., Yn, Xn). Big data version 1 : n est raisonnable, d est enorme. Big data version 2 : n est egalement enorme. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 8 / 18 9. DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS DIFF ERENCES DE PROBL EMATIQUES (EXEMPLES) Premier cas : (n raisonnable, d >> 1) les donnees proviennent dun portefeuille dassures comportant n individus, sur lesquels on a recupere des caracteristiques diverses et nombreuses. Dans ce cas, la quantite dinformation disponible sur un individu est superieure `a la quantite dinformation dont on dispose pour calibrer et/ou valider le mod`ele. Necessite de faire le tri entre information pertinente et moins pertinente. Deuxi`eme cas : (n >> 1, d >> 1) on peut sautoriser des mod`eles plus compliques, car on dispose de plus dobservations pour les valider. Mais on peut buter sur des problematiques de temps de calcul. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 9 / 18 10. DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS DIFF ERENCES DE PROBL EMATIQUES (EXEMPLES) Premier cas : (n raisonnable, d >> 1) les donnees proviennent dun portefeuille dassures comportant n individus, sur lesquels on a recupere des caracteristiques diverses et nombreuses. Dans ce cas, la quantite dinformation disponible sur un individu est superieure `a la quantite dinformation dont on dispose pour calibrer et/ou valider le mod`ele. Necessite de faire le tri entre information pertinente et moins pertinente. Deuxi`eme cas : (n >> 1, d >> 1) on peut sautoriser des mod`eles plus compliques, car on dispose de plus dobservations pour les valider. Mais on peut buter sur des problematiques de temps de calcul. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 9 / 18 11. DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS DIFF ERENCES DE PROBL EMATIQUES (EXEMPLES) Premier cas : (n raisonnable, d >> 1) les donnees proviennent dun portefeuille dassures comportant n individus, sur lesquels on a recupere des caracteristiques diverses et nombreuses. Dans ce cas, la quantite dinformation disponible sur un individu est superieure `a la quantite dinformation dont on dispose pour calibrer et/ou valider le mod`ele. Necessite de faire le tri entre information pertinente et moins pertinente. Deuxi`eme cas : (n >> 1, d >> 1) on peut sautoriser des mod`eles plus compliques, car on dispose de plus dobservations pour les valider. Mais on peut buter sur des problematiques de temps de calcul. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 9 / 18 12. DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS MANIPULATION DES MOD `ELES OBTENUS Le contexte Big Data offre la possibilite de produire des mod`eles avec un grand degre de complexite. Adequation des mod`eles ? Comment trouver un compromis entre cette volonte de produire un mod`ele sufsamment proche dune realite complexe, et sufsamment proche pour permettre un pilotage, une analyse etc. Attitude des souscripteurs ? (hors question de la souscription en ligne) Une piste : construction dindicateurs synthetiques et comprehensibles `a partir de donnees riches. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 10 / 18 13. VIABILIT E DU SYST `EME PLAN DE LA PR ESENTATION 1 DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS 2 VIABILIT E DU SYST `EME 3 DERIVES EVENTUELLES O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 11 / 18 14. VIABILIT E DU SYST `EME EFFET HIRSHLEIFER Dans un monde o`u la connaissance du risque de chaque individu est parfaite, les bons risques quittent le navire (depart vers une concurrence qui aurait une longueur davance). Asymetrie dinformation : on peut imaginer que seul lassureur poss`ede la connaissance du risque, lassure nayant quune vision plus vague de son propre risque. Risque de desequilibre : lassure va vite apprendre `a connatre son propre risque en utilisant les memes outils que lassureur (quitte `a passer par un intermediaire). Dans un tel contexte, la recherche dune meilleure connaissance du risque individuel aboutit `a une position plus dangereuse de lassureur en deteriorant son resultat suite au depart des bons risques. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 12 / 18 15. VIABILIT E DU SYST `EME PERTINENCE DES MOD `ELES Comment backtester la pertinence des variables retenues pour predire le risque ? Sante : lutilisation dobjet connectes permet de mesurer des constantes que les medecins peuvent interpreter. Pay as you drive : on peut sans doute trouver un lien entre les variables rendant compte du comportement du conducteur et le risque quil ait un accident. Souscription en ligne : sans doute plus problematique car 1 les variables collectees sur lassure eclairent-elles le risque ? 2 probl`eme dun risque qui peut se produire sur un temps long, evalue `a partir de variables qui peuvent evoluer en un temps court. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 13 / 18 16. VIABILIT E DU SYST `EME ASSURANCE PARAM ETRIQUE Principe : lassurance porte sur un param`etre dont on estime quil a un lien avec un element contre lequel lassure souhaite se proteger. Exemple : si la quantite de pluie tombant dans une zone depasse un certain seuil, on verse un capital `a une collectivite locale pour indemniser les eventuels sinistres. Dans lexemple precedent, lindemnisation ne tient pas compte des degats reels lies `a un episode de pluies torrentielles. Avantage : lassureur matrise mieux son risque, puisquil peut le faire porter sur un param`etre sur lequel il a une meilleure matrise. Inconvenient : sous quelles conditions lassure est-il pret `a jouer le jeu ? Que se passe-t-il si le param`etre est trop loin des preoccupations de lassure ? O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 14 / 18 17. DERIVES EVENTUELLES PLAN DE LA PR ESENTATION 1 DIFFICULT ES M ETHODOLOGIQUES ET NOUVEAUX OUTILS 2 VIABILIT E DU SYST `EME 3 DERIVES EVENTUELLES O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 15 / 18 18. DERIVES EVENTUELLES UTILISATION DU BIG DATA POUR CONTOURNER LA L EGISLATION Le legislateur interdit lutilisation de certaines variables discriminantes. Une tentation est dessayer de reconstruire, via linformation disponible sur lindividu, des caracteristiques auxquelles on na pas le droit dacceder, pour ensuite etre `a meme de les utiliser. Peut porter atteinte au principe de mutualisation et de solidarite en excluant des categories de population de lassurance, ou en majorant leur prime sur des crit`eres qui ne sont pas souhaitables. Attitude face `a de telles pratiques ? Detection de tels comportements ? Consequences pour lensemble du marche ? O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 16 / 18 19. DERIVES EVENTUELLES EXC `ES DE CONFIANCE Aussi precise que peuvent etre les methodes utilisees, la survenance dun sinistre reste un element aleatoire. La variabilite du resultat est dautant plus grandes que les classes de risque obtenues sont petites. On peut imaginer que les resultats dans chacune de ces poches nissent par se compenser, mais ceci est loin detre evident (notamment si on imagine des classes de risques petites o`u les entrees-sorties peuvent etre importantes vis-`a-vis de leffectif general). Si lassureur poss`ede une conance excessive en ses mod`eles du fait de la quantite dinformation quil aura utilisee pour les construire, il ne se couvrira pas sufsamment contre des mauvais resultats. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 17 / 18 20. DERIVES EVENTUELLES OBJECTIFS DU SGT2 Identier les outils pertinents pour : 1 saisir lopportunite du Big Data et ameliorer la connaissance et le suivi de son risque par lassureur; 2 tenir compte des contraintes qui permettent daboutir `a un syst`eme de mutualisation viable. Formaliser scientiquement aussi precisement que possible les attentes des acteurs de lassurance face au Big Data pour proposer des pistes de resolution de leurs problematiques. Anticiper limpact des evolutions techniques sur le marche et reciproquement. O. LOPEZ (CREST ENSAE) BIG DATA SGT2 11 MARS 2014 18 / 18