Utiliser les Big Data: Défis & Opportunités Utiliser les Big Data: Défis & Opportunités...

30
Utiliser les Big Data: Défis & Opportunités Françoise Soulié Fogelman Université d’été des Actuaires Les nouveaux enjeux de l’assurance : Big Data, Eurocroissance, ANI, loi Hamon et dépendance Paris, 9 juillet 2014

Transcript of Utiliser les Big Data: Défis & Opportunités Utiliser les Big Data: Défis & Opportunités...

Utiliser les Big Data: Défis & Opportunités

Françoise Soulié Fogelman

Université d’été des Actuaires Les nouveaux enjeux de l’assurance : Big Data, Eurocroissance, ANI, loi Hamon et dépendance Paris, 9 juillet 2014

2 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Mon parcours professionnel

Business & Decision 

KXEN 

Innova3on Université 

KDD_US 

Atos 

3 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Agenda •  Qu’est ce que le Big Data •  Qu’est ce que le Data Mining •  Impact sur le métier des actuaires

Qu’est ce que le Big Data ?

5 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Une définition classique Introduite par Gartner en 2001

Nombre de variables

Nombre d’événements /

seconde

Nombre d’observations x Nombre de variables

Largeur

Profondeur

6 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

La valeur des Big Data

•  À l’origine (Gartner, 2001) les Big Data sont considérées comme un risque de faire exploser les architectures

•  Puis on se rend compte que les Big Data sont source de valeur –  Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé

majeure de la source de valeur, en produisant de meilleurs modèles “Invariably, simple models and a lot of data trump more elaborate

models based on less data”

•  MAIS il faut pour cela des techniques adaptées –  Acceptant de grands volumes (!) –  Avec des variables corrélées (souvent: variété) –  Sans over-fitting

7 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Big Data pour la Finance & l’Assurance Facilité à capturer la valeur des Big Data & index de la valeur potentielle

Mc Kinsey, Big Data. 2011

Finance & Assurance 

Qu’est ce que le Data Mining?

9 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Data Mining & Big Data •  Neural Network,

Data Mining & Big Data –  1980 – 2008

–  2004 – 2014 http://www.google.com/trends

https://books.google.com/ngrams

10 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Qu’est ce que le Data Mining •  Situation où

–  On ne dispose pas de modèle mathématique •  Comme en Sciences

–  On a des données •  Beaucoup

•  On recherche –  Une fonction solution

•  Dans une classe F

–  Pas une distribution •  « Modèle »

–  (F , algo. d’apprentissage)

11 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Concepts importants en Data Mining •  Expliquer / Prévoir

–  Précision / Robustesse –  Apprendre / Généraliser –  Erreur en apprentissage / Erreur en généralisation

“It wasn’t too long ago that calling someone a data miner was a very bad thing. You could start a fistfight at a convention of statisticians with this kind of talk. It meant that you were finding the analytical equivalent of the bunnies in the clouds, poring over data until you found something. Everyone knew that if you did enough poring, you were bound to find that bunny sooner or later, but it was no more real than the one that blows over the horizon.”

David J. Leinweber, Stupid data miner tricks (2000)

12 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Concepts importants en Data Mining Construire un modèle pour expliquer l’index S&P 500 •  Avec 1 seule variable: l’année

–  Période 1983-92 : modèle polynomial à 1 variable de degré 9 •  .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9

–  Période 1983-93 : modèle polynomial à 1 variable de degré 10 •  .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10

–  Les modèles obtenus sont absolument « parfaits » : 100%

Leinweber 

83 92 83 93

13 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Concepts importants en Data Mining •  Construire un modèle

–  L’ensemble d’apprentissage : le modèle apprend (précision) –  L’ensemble de validation : le modèle généralise (robustesse)

14 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

La Théorie de l’apprentissage statistique de Vapnik Un résumé très court !!

: VC dimension de F

( )( )

nnl

hn

hnnl

hn ηε −

+=

21,

( ) ( ) ( )h,nRR empGen εθθ +≤

1971 1982 1995 1998

Over‐fiAng  

15 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Concepts (moins) importants en Data Mining •  Le choix de l’algorithme

–  Régression –  Arbres de décision –  Forêts d’arbres –  K-ppv –  Naïve Bayes –  Réseau de neurones –  Support vector machine (SVM) –  …

•  Le plus important : les données “Invariably, simple models and a lot of data trump more elaborate models based on less data”

•  Questions importantes –  Scalabilité –  Explicatif –  Résistance au bruit / données

manquantes (sparsité) / données corrélées

–  Temps de calcul •  Apprentissage •  Scoring (généralisation)

–  Performance

16 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet •  La vente en ligne augmente très rapidement

•  La fraude aussi Difficultés •  Taux de fraude très faible

–  <<1% •  Taux d’alerte très faible

–  <<1% •  Volumes très grands •  La fraude change très vite

Banque de France. Rapport annuel OSCP, 2012

M€ %

17 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet •  Modèle de base (uniquement les variables de transaction)

–  Très insuffisant

Précision : 70% Rappel: 30 % ( ) F

VPsappelR =

( ) AVPsrecP =

Rappel Précision

Nb de Cartes en Alerte / Jour

18 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet •  Méthode 1 : créer des variables additionnelles (Variété ↑)

–  37 997 ( ~1500 avec scores cartes & marchands+ Agrégats)

•  Variables Sociales

Marchand Marchand Marchand Marchand 

Carte Carte Carte Carte 

Carte  Marchand 

19 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet •  Méthode 2 : segmenter les cartes •  Il y a beaucoup de types de fraude

–  Faire une segmentation cartes, avec les agrégats cartes –  Chaque segment est homogène pour un type de fraude

→  19 segments –  Différents types de

fraude •  Big data set = ensemble

de smaller (big data sets)

20 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet •  19 segments (sur le score carte)

Segment 1  Segment 2 

Segment 15  Segment 15 

21 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet

•  Résultats

•  Importance des variables –  Variables Initiales –  Agrégats Marchand –  Agrégats Carte –  Variables Sociales

•  Carte Marchand

Modèle Rappel Précision Baseline 1,40% 8,18% Baseline + Agrégats 9,13% 19,00% Baseline + Agr. + Social 9,09% 40,58% Seg 19 5,09% 28,21% Seg 19 + Agr. 7,38% 28,82% Seg 19 + Agr. + Social 16,46% 60,89%

22 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple : Risque (Carte de Crédit) •  Données granulaires

–  Nombreuses sources (transaction, appels, …) –  On peut créer de la valeur SI on agrège bien –  Le nombre d’attributs augmente très vite (23 000 +)

•  La question –  Comment choisir les « bonnes » variables ?

•  Approches 1.  Utiliser toujours les mêmes variables 2.  Demander aux experts de choisir 500 variables

•  Il faut 10 jours de travail pour 10 variables 3.  Utiliser toutes les variables & laisser les données « choisir »

les meilleures •  Il faut construire un modèle

Impact sur le métier des actuaires

24 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Assurance •  Fraude, Connaissance clients, Risque…

–  Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en 2011 aux US)

•  Comment procéder en approche Big Data –  Collecter des données

“ Precise detection comes from bringing together multiple characteristics to create an overall picture of the probability of fraud ” (Verisk, 2013)

Facile Difficile –  Générer des variables additionnelles

•  Beaucoup –  Les données ne sont pas produites pour les besoins de l’analyste

•  Problèmes de représentativité

25 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Impacts L’approche Big Data donne un score individuel •  Le score individuel est obtenu par application d’un

« modèle » –  Ce modèle peut être rafraichi automatiquement aussi souvent que

nécessaire •  On peut segmenter la population

–  Obtenir un modèle par segment –  Établir une politique de prix / segment

•  Questions ouvertes –  Comment intégrer les approches actuarielle orientée « modèle » et Big

Data orientée « données » ? –  L’actuaire est l’expert des données

26 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Quels impacts sur le métier / la formation ?

•  Les écoles du GENES ouvrent des formations –  L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année

de son cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les compétences attendues pour les postes de Data Scientist et Chief Data Officer qui émergent avec le développement des Big Data.

–  À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de Data Scientist.

•  Les écoles du GENES sont partenaires de la plateforme Teralab pour le Big Data

27 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

ACCESS PORTAL Directories Provisioning requests  Workspace management   

INFRASTUCTURES  Private Cloud Hybrid Cloud Teramemory Server  

DATA Project waterproof Data  Shared Data Public Data  

ANALYTICS/ VISUALIZATION       

DATA MANAGEMENT SQL (Postgre, mySQL ..)  Hadoop IMDB( Quartet ..)   

Opensource Commercial  

Teralab

28 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Compartiments TeraLab

TERALAB Platform sovereign and secure Compartiment sécurisé

Ultrasecure Compartment

CASD Technology i.e State Data, Health

Data…

Industrial R&I Secure

compartment Ie Anonymzed Personal Data

M2M Data ..

Industrial R&I secure compartment

Advanced Teramemory

Server « In Memory »

Elastic cloud

servers

hap://www.casd.eu/ 

haps://www.teralab‐datascience.fr/fr/accueil  

HYBRID 

PRIVATE 

29 F. Soulié Fogelman. Utiliser les big data: défis & opportunités

“in memory Computing”

Teralab •  Bullion

–  240 cœurs –  Mémoire

4 – 24 Tera Octets

–  120 TO Stockage

•  RAM is the new “disk”

Questions ?