Matinée Découverte Big Data & Data Science - 24012017

63
DÉMYSTIFIONS LA DATA SCIENCE ! DAVID-STÉPHANE FALA Directeur Practice Big Data & Data Intelligence TANGUY LE NOUVEL Directeur Practice Data Science BIG DATA & DATA SCIENCE : LES BEST PRACTICES Mardi 24 janvier 2017

Transcript of Matinée Découverte Big Data & Data Science - 24012017

Page 1: Matinée Découverte Big Data & Data Science - 24012017

DÉMYSTIFIONS LA DATA SCIENCE !

DAVID-STÉPHANE FALA DirecteurPractice Big Data & Data Intelligence

TANGUY LE NOUVELDirecteurPractice Data Science

BIG DATA & DATA SCIENCE : LES BEST PRACTICES

Mardi 24 janvier2017

Page 2: Matinée Découverte Big Data & Data Science - 24012017

1. INTRODUCTION

2. BIG DATA : À L’HEURE DU CONSTAT

3. DATA MINING ET DATA SCIENCE

4. BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE

5. JUSQU’OÙ PEUT-ON EXPLOITER LES BIG DATAS

6. CONCLUSIONS ET PERSPECTIVES

Table des matièresDÉMYSTIFIONS LA DATA SCIENCE !

Page 3: Matinée Découverte Big Data & Data Science - 24012017

INTRODUCTION

Page 4: Matinée Découverte Big Data & Data Science - 24012017

4

PREAMBULE

Nous sommes tous d’accord …

… nous entrons dans une nouvelle ère avec les big datas

INNOVATION

PERMANENTE

Google glasses/car, iWatch,

3D printing, …

VIE

HYPER

CONNECTÉE

4 à 6 heures par jour

web + mobile

LES MACHINES

PARLENT

Internet of (every)Things

… 20 à 50 milliards d’objets

connectés d’ici 2020

INFORMATION

CONSTANTE

60s = 4mio Google queries,

2.5mio nouveaux contenus

Facebook, …

NOUVEAUX

ECOSYSTEMES

Co-conception avec les

clients / utilisateurs, start-

ups, social networks, …

Matinée Découverte – 24-01-2017

Page 5: Matinée Découverte Big Data & Data Science - 24012017

5UN NOUVEAU MONDE CONNECTÉ

De nouveaux usages amenés par un monde hyper connecté

Matinée Découverte – 24-01-2017

“The Internet of Everything”

Mainframe

1970’s

IBM

Client-Serveur

1990’s

ORACLE

SocialMobileCloud

Aujourd'hui

Hadoop

Distribué

Isolé Semi-Connecté Tout connecté

Page 6: Matinée Découverte Big Data & Data Science - 24012017

6LES NOUVEAUX BARBARES ARRIVENT

L'émergence de l'économie disruptive

Matinée Découverte – 24-01-2017

La plus grande compagnie de taxis au monde …

N'a pas de véhicules

Le plus grand média …

Ne crée pas de contenus

Le distributeur le plus valorisé …

N'a pas d'inventaire

La plus grande chaîne hôtelière au monde …

Ne possède pas d'hôtel

Dans votre industrie, xxx …

N'a pas de …

?

Page 7: Matinée Découverte Big Data & Data Science - 24012017

7

révolution

transition

numérique

Transformation

digital

ubérisation cloud

mutationmobilité

robots

Watson

Intelligence artificielle

Internet des objets

Big dataHigh-tech

usage

disruption

La révolution numériquec’est quoi concrètement

Matinée Découverte – 24-01-2017

Page 8: Matinée Découverte Big Data & Data Science - 24012017

8Quand on pense révolution numérique, on pense …

Matinée Découverte – 24-01-2017

Page 9: Matinée Découverte Big Data & Data Science - 24012017

9

Distributeur de pizza à Beauvoir sur mer

Mais la transformation numérique, c’est aussi…

Matinée Découverte – 24-01-2017

Page 10: Matinée Découverte Big Data & Data Science - 24012017

10

…les imprimantes 3D

Matinée Découverte – 24-01-2017

Page 11: Matinée Découverte Big Data & Data Science - 24012017

11…ou encore l’intelligence artificielle

Matinée Découverte – 24-01-2017

Page 12: Matinée Découverte Big Data & Data Science - 24012017

12

En fait, le numérique a

changé nos vies !

Matinée Découverte – 24-01-2017

Page 13: Matinée Découverte Big Data & Data Science - 24012017

13

Tous les secteurs sont touchés

Matinée Découverte – 24-01-2017

Page 14: Matinée Découverte Big Data & Data Science - 24012017

14LEUR POINT COMMUN ?Demande des technologies disruptives

Ils interagissent principalement avec leurs clients via le web, utilisent des architectures de données

modernes et font de la data science

Matinée Découverte – 24-01-2017Matinée Découverte – 04-20-2016

Page 15: Matinée Découverte Big Data & Data Science - 24012017

15

À L’HEURE DU CONSTAT

BIG DATA :

Page 16: Matinée Découverte Big Data & Data Science - 24012017

16

• La transformation numérique c'est la vraie vie

• Le numérique, ce n’est pas les start up, c’est bien plus

• La masse est remplacée par la multitude

• La transition numérique implique une rupture profonde

• L’entreprise doit passer du produit / service à l’expérience client

• La question de la gouvernance est essentielle pour affronter les nouveaux enjeux.

Quelques repères pour s’y retrouver

Matinée Découverte – 24-01-2017

Page 17: Matinée Découverte Big Data & Data Science - 24012017

17

• Le Big Data n’est pas une fatalité ou une obligation.

• Les enjeux métiers passent avant la dimension technologique.

• Les technologies associées au Big Data doivent supporter vos enjeux et non l’inverse.

• La Gouvernance est un préalable à tout projet Big Data

• Il faut être réaliste (se poser les questions quant à la captation de l’information, sa sécurité, sa disponibilité, sa volumétrie, sa durée de vie)

• Au final le choix des technologies importe peu, qu’il s’agisse de Big Data, NoSQL, technologies disruptives, c’est votre projet qui va conditionner le choix des technologies

Quelques repères pour s’y retrouver

Matinée Découverte – 24-01-2017

Page 18: Matinée Découverte Big Data & Data Science - 24012017

18

• Une grande partie des cas d’usages sur lesquels s’appuient « les nouveaux barbares » ne pourraient pas se réaliser sans la Data Science.

• Elle est à l’initiative de 50% de nos projets Big Data

• Elle est partie intégrante des plateformes Big Data

• Mais le Big Data n’est pas nécessaire pour débuter en Data Science

• L’industrialisation de la Data Science nécessite une réelle expérience et une compréhension fine de vos enjeux

• Ne pas oublier la dimension juridique !

Et la Data Science dans tout cela

Matinée Découverte – 24-01-2017

Page 19: Matinée Découverte Big Data & Data Science - 24012017

19L'EXEMPLE AMAZON GO

Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés

Page 20: Matinée Découverte Big Data & Data Science - 24012017

20

LES TECHNOLOGIES QUI RENDENT POSSIBLE AMAZON GO

Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés

Data Science CRM

SCM

Deep Learning

Sensor Fusion

Données structurées

Données non-structurées Socle Big Data

Page 21: Matinée Découverte Big Data & Data Science - 24012017

21

CE SONT AUSSI DES QUESTIONS

Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés

Quel avenir pour les caissières ?

Pour les personnes travaillant dans la chaîne d'approvisionnement ?

Plus globalement quel est l'impact du Big Data sur notre société de demain ?

Comment accompagner les entreprises dans la conduite du changement ?

La théorie du déversement

Les impacts politiques

Page 22: Matinée Découverte Big Data & Data Science - 24012017

22

DATA SCIENCE

DATA MINING &

Page 23: Matinée Découverte Big Data & Data Science - 24012017

23

FOCUS SUR LA DATA SCIENCE

REVENONS SUR CES DERNIÈRES ANNÉES

• Des dizaines de milliers d’articles et beaucoup de buzz dans les médias

• De nombreux nouveaux acteurs. De multiples acquisitions

• Des cas d’usage à foison … telles que prédire l’évolution d’épidémies, la survenance de catastrophes naturelles

:: IBM acquires AlchemyAPI, a deep learning startup

:: Microsoft buys Revolution Analytics, a predictive analysis startup

:: En rachetant TupleJump, Apple se positionne aussi sur le machine learning

Matinée Découverte – 24-01-2017

Page 24: Matinée Découverte Big Data & Data Science - 24012017

24

LE BIG DATA PEUT-IL TOUT PRÉDIRE ?

Prédiction de l’évolution d’une épidémie de grippe aux Etats-Unis

• Quand Google prépare une « app » ayant vocation à prédire l’évolution d’épidémies en fonction des recherches sur son moteur de recherche

• Et que quelques data scientistsdétectent la supercherie…

Matinée Découverte – 24-01-2017

This month, in a Science magazine article, four quantitatively adept social scientists reported that Google’s flu-tracking service not only wildly overestimated the number of flu cases in the United States in the 2012-13 flu season — a well-known miss — but has also consistently overshot in the last few years.

En France, on utilise leréseau Sentinelle

Page 25: Matinée Découverte Big Data & Data Science - 24012017

25

DATA MINING & DATA SCIENCE

UN LIEN TRÈS FORT !

CHRONOLOGIE :

1850 : STATISTIQUEQuelques centaines d’individus et quelques variables, recueillies selon un protocole strict pour une étude scientifique

1960 : ANALYSE DE DONNÉESQuelques dizaines de milliers d’individus et quelques dizaines de variables recueillies de façon rigoureuse pour une enquête précise

1990 : DATA MININGPlusieurs millions d’individus et plusieurs centaines de variables hétérogènes,recueillies dans le système d’information des entreprises pour de l’aide à la décision

2010 : DATA SCIENCELes Big Datas avec plusieurs centaines de millions d’individus et plusieurs milliers de variables, de tous types, recueillies dans les entreprises, les systèmes, Internet, pour de l’aide à la décision, de nouveaux services

La data science n’est pas nouvelle.

Elle représente l’application (et l’adaptation) du data mining aux Big Datas…

Matinée Découverte – 24-01-2017

Page 26: Matinée Découverte Big Data & Data Science - 24012017

26

DATA MINING & DATA SCIENCEON RETROUVE LES DEUX MÊMES APPROCHES

Les techniques DESCRIPTIVES – EXPLORATOIRES

• visent à mettre en évidence des informations présentes mais cachées par le volume des données (segments de clients aux profils comparables, présence d’associations de produits dans les tickets de caisse)

• réduisent, résument, synthétisent les données et permettent une meilleure compréhension

• il n’y a pas de variable « cible »

Les techniques PREDICTIVES – DECISIONNELLES

• visent à expliquer et/ou prédire un évènement (Achat, Résiliation, Panne) ou un phénomène (Fréquentation en magasin, Nombre d’appels) à partir des informations du passé

• expliquent les données

• il y a une variable « cible » à prédire, à expliquer

Matinée Découverte – 24-01-2017

Ces 2 approches sont complémentaires

Page 27: Matinée Découverte Big Data & Data Science - 24012017

27

DATA MINING & DATA SCIENCEET AUSSI LA MÊME DÉMARCHE

Matinée Découverte – 24-01-2017

Quel que soit l’objectif à atteindre ou la nature des informations à traiter, la démarche méthodologique ne change pas.

Démarche itérative en 6 étapes

Ces étapes peuvent se transposer pour la quasi-totalité des projets.

Les trois premières phases sont les plus déterminantes pour la réussite du projet, ce sont aussi celles qui prennent le plus de temps et.

Que l’on parle de data mining ou de data science, il n’y a rien de magique là-dedans mais une démarche minutieuse, réfléchie et très itérative !

S’il suffisait de stocker un maximum de données et de les passer à la moulinette d’algorithmes pour trouver des pépites…

EVALUATION ETSUIVI DE LA

PERFORMANCE

VALIDATION DES OBJECTIFS ET

INDUSTRIALISATION

EXPLORATION,MODÉLISATION,OPTIMISATION

SÉLECTION, EXPLORATION

ET PRÉPARATIONDES

DONNÉES

CADRAGE DU PROJET

DÉFINITION DESOBJECTIFS

Page 28: Matinée Découverte Big Data & Data Science - 24012017

28

DATA MINING & DATA SCIENCE

QUELLES DIFFÉRENCES ALORS ???

NOMBRE DE VARIABLES / CRITERES / FEATURESPlusieurs milliers en data science versus quelques centaines en data mining

OPEN SOURCE

• Accès généralisé à des fonctionnalités et des algorithmes de dernière génération qui jusque-là n’étaient disponibles que dans des suites logicielles payantes et parfois onéreuses : Arbres boostés (GBM), Règles d’association séquentielles, Régressions logistiques Ridge, Lasso, ElasticNet, SVM, Réseaux de neurones…

• In-Memory : si ça passe, c’est beaucoup plus rapide !

• Parallel processing : pour tirer un maximum de la machine et gagner du temps

• Nouvelles données : de nombreux outils/API/packages pour extraire, stocker et transformer des données issues du Web, des médias sociaux, de l’open data, données météo, images ou vidéos, IoT

BUZZ MARKETING – DISCOURS TRÈS TECHNOLOGIQUE

Matinée Découverte – 24-01-2017

Et bien pas mal finalement !

Page 29: Matinée Découverte Big Data & Data Science - 24012017

29

DATA MINING & DATA SCIENCE

ILLUSTRATION DES DIFFÉRENCES EN MATIÈRE DE MODÉLISATION

Illustration avec un exemple volontairement simplifié

• Contexte :

o Données issues d’une enquête online, réalisée sur un panel de plusieurs centaines de milliers de personnes.

o Avec cette enquête, nous connaissons l’âge, le genre, le niveau d’équipement et les loisirs des répondants

o Parmi les question posées : Aimez-vous les jeux vidéo ? Donnez une note de 0 (non, pas du tout) à 10 (oui, beaucoup).

• Objectif de l’étude : Modéliser l’attrait pour les jeux vidéo à partir des informations disponibles

• Pour notre compréhension, nous allons suivre plus particulièrement les 5 personnes suivantes :

Matinée Découverte – 24-01-2017

Page 30: Matinée Découverte Big Data & Data Science - 24012017

30

DATA MINING

ARBRE DE DECISION

Modélisation par arbre de décision

Matinée Découverte – 24-01-2017

25%

Score = 7.1

15%

Score = 5.5

Garçon ?

NO

20%

Score = 3.8

40%

Score = 1.9

A une tablette ?

NO

10%

Score = 4.3

10%

Score = 3.3

Utilise son PC chaque jour ?

NO

100%

Score = 3.8

Aimez-vous les jeux vidéos ?

40%

Score = 6.5

60%

Score = 2.0

Moins de 15 ans ?

O NFonctionnement :

De haut en bas, à chaque segmentation, on teste toutes les variables et on choisit la « meilleure »

Pour les variables continues, on teste toutes les coupures possibles et on choisit la meilleure

On s’arrête lorsque l’on atteint un des critères d’arrêt (segment trop petit, différence non significative)

Tous les répondants sont classés dans une des feuilles de l’arbre. On calcule ensuite la note moyenne d’intérêt pour les jeux vidéos dans chaque feuille : le score

Le modèle est intuitif et ne requiert aucune connaissance spécifique en data mining pour le comprendre

Cette feuille (i.e. segment) correspond aux jeunes garçons de moins de 15 ans. Ils aiment plus les jeux vidéo que les autres avec une note moyenne de 7.1

On peut facilement prédire l’attrait pour les jeux vidéos de quelqu’un qui n’aurait pas répondu à l’enquête.

Il est donc facilement industrialisable

Page 31: Matinée Découverte Big Data & Data Science - 24012017

31

DATA MINING

ARBRE DE DECISION

Le modèle est-il bon ?

Plus les écarts entres les notes réelles et les notes prédites sont petits en valeur absolue et meilleur est le modèle… en apparence.

Erreur moyenne de prédiction en valeur absolue = 1.7Matinée Découverte – 24-01-2017

Nous nous intéressons ici à l’erreur apparente de prédiction.

Pour mesurer la « vraie » erreur de prédiction, il aurait fallu dès le départ mettre de côté un échantillon de répondants (dont on connaît la note d’amour pour les jeux vidéos), leur appliquer le modèle et calculer alors l’erreur de prédiction.

Répondant

Aimez-vous les

jeux vidéo?

Note prédite par l’arbre de décision

Ecart

10 7.1 2.9

8 5.5 2.5

2 1.9 0.1

5 4.3 0.7

1 3.3 -2,3

… … … …

Page 32: Matinée Découverte Big Data & Data Science - 24012017

32

DATA SCIENCEARBRES DE DECISION BOOSTÉS

On calcule plusieurs arbres de décision successivement. Les arbres sont moins profonds et contiennent moins de segments. Chaque arbre est moins bon que celui du data mining mais les prédictions finales sont meilleures :

Les prédictions finales (i.e. notes prédites) des répondants sont calculées en sommant les scores obtenus dans chaque arbre :

Matinée Découverte – 24-01-2017

100%

Score = 3.8

40%

Score = 6.5

25%

Score = 7.1

15%

Score = 5.5

60%

Score = 2.0

ARBRE N°1

Aimez-vous les jeux vidéos ?

Moins de 15 ans ?

O N

Garçon ?

NO

Fonctionnement :

1. Arbre n°1 : construit comme en data mining.

2. Calcul de l’erreur de prédiction pour chaque répondant.

3. Arbre n°2 : construit en modélisant non plus « Aimez-vous les jeux vidéos ? » mais l’erreur de prédiction.

4. Mise à jour des prédictions : somme des scores des arbres précédents pour chaque répondant.

5. Mise à jour des erreurs de prédictions

6+ On continue de construire de nouveaux arbres tant qu’on arrive à faire baisser l’erreur de prédiction en répétant les étapes 3 à 5

100%

Score = 0

65%

Score = +1.5

30%

Score = +1.54

35%

Score = 0.82

35%

Score = -1

ARBRE N°2

Erreur de prédiction

Utilise son PC chaque jour ?

O N

A une tablette ?

NO

Note prédite ( ) = 7.1 + 1.54 = 8.64 Note prédite ( ) = 2 – 1 = 1

Page 33: Matinée Découverte Big Data & Data Science - 24012017

33

DATA SCIENCEARBRES DE DECISION BOOSTÉS

Le modèle est-il apparemment bon ?

Note prédite = SOMME(scores des différents arbres)

Erreur moyenne de prédiction en valeur absolue = 1,064Matinée Découverte – 24-01-2017

On obtient dans cet exemple de meilleurs résultats qu’avec un arbre unique.

Dans la pratique, c’est quasiment systématique.

Les résultats sont même souvent bluffants avec relativement peu d’efforts !

Répondant

Aimez-vous les

jeux vidéo ?

Score prédit par l’arbre n°1

EcartEtape 1

Scoreprédit par l’arbre n°2

Note prédite

par les 2 arbres

EcartEtape 2

10 7.1 2.9 +1.54 8.64 1.36

8 5.5 2.5 +0.82 6.32 1.68

2 2 0 +0.82 2.82 -0.82

5 2 3 +1,54 3.54 1.46

1 2 -1 -1 1 0

… … … … … …

Page 34: Matinée Découverte Big Data & Data Science - 24012017

34

DATA SCIENCEARBRES DE DECISION BOOSTÉS

En pratique, on enchaine non pas 2 arbres mais des centaines voire des milliers d’arbres.

Le modèle devient donc illisible et ininterprétable… mais dans certains cas la précision prime sur la compréhension (Risque, recommandations en ligne, automates)

Les seules informations disponibles pour aider à la compréhension concernent l’importance des variables et leur fréquence d’apparition dans les différents arbres construits

Matinée Découverte – 24-01-2017

En revanche, on perd en lisibilité et donc en compréhension / connaissances

Page 35: Matinée Découverte Big Data & Data Science - 24012017

35

DATA SCIENCEAGRÉGATION DE MODÈLES, MÉLANGES…

Bagging : • Construction de N échantillons par tirage

aléatoire avec remise (bootstrap) à partir de l’échantillon initial.

• Construction de N modèles : un par échantillon

• Prédiction finale obtenue en calculant la moyenne des prédictions des N modèles.

Boosting :• Processus itératif basé sur une succession de

tirages aléatoires avec remise et l’introduction d’une pondération donnant plus de poids aux individus mal classés/scorés par le modèle construit lors de l’itération.

• Prédiction finale obtenue en calculant la moyenne des prédictions des N modèles, pondérée selon l’erreur de prédiction de chaque modèle.

Matinée Découverte – 24-01-2017

Même si ces approches ne sont pas récentes, on constate une très forte montée en puissance de leur utilisation

Plus on agrège de modèles et meilleures sont les prédictions…

Echantillon d’apprentissage

Echantillons Bagging Echantillons Boosting

Page 36: Matinée Découverte Big Data & Data Science - 24012017

36

DATA SCIENCEAGRÉGATION DE MODÈLES, MÉLANGES…

Stacking : Prédiction à partir de prédictions

• 1ère étape : on construit plusieurs modèles avec des algorithmes différents.

• 2ème étape : on construit un ou plusieurs modèles à partir des prédictions des modèles précédents (variables explicatives).

Blending : Mélange de modèles

• Phase finale de la modélisation.

• Assemblage de modèles (moyenne, combinaison linéaire, voire nouvelle modélisation)

Matinée Découverte – 24-01-2017

Induit une forte complexité tant dans la phase de construction que d’industrialisation

Xgboost : arbres boostésRF : Random Forests – Forêts aléatoiresGLMNET : régressions logistiquesNN : Neural Network – Réseaux de NeuronesKNN : K Nearest Neighours, K plus proches voisins

Page 37: Matinée Découverte Big Data & Data Science - 24012017

37

DATA SCIENCEBILAN : DES PROMESSES ET QUELQUES DÉRIVES

Des solutions trop complexes, impossibles à industrialiser ou à maintenir

Exemple d’une stratégie de modélisation d’un participant à un concours de data science proposé par Kaggle (7ème sur 1 326 participants) :

o Près de 400 modèles imbriqués dans une approche intégrant bagging, boosting, stacking, blending !!!

Matinée Découverte – 24-01-2017

On observe des dérives dans la pratique où l’on passe bien trop de temps sur la modélisation et pas assez sur la compréhension du sujet et la préparation des données.

Les modèles obtenus permettent peut-être de gagner des concours mais ne seront sans doute jamais industrialisés. Xgboost : arbres boostés

RF : Random Forests – Forêts aléatoiresGLMNET : régressions logistiques lasso et elastic-netNN : Neural Network – Réseaux de NeuronesKNN : K Nearest Neighours, K plus proches voisins

Page 38: Matinée Découverte Big Data & Data Science - 24012017

38

DATA SCIENCELES DÉRIVES

NETFLIX n’a jamais implémenté la solution développée par les gagnants de leur concours à 1 Million de dollars pouroptimiser leur moteur de recommandations

Pourquoi ?

Matinée Découverte – 24-01-2017

EXEMPLE AVEC NETFLIX

“This is a truly impressive compilation and culmination of years of work, blending hundreds of predictive models to finally cross the finish line,” they say. “We evaluated some of the new methods offline but the additional accuracy gains that we measured did not seem to justify the engineering effort needed to bring them into a production environment.”

Page 39: Matinée Découverte Big Data & Data Science - 24012017

39

DATA SCIENCELES DÉRIVES Objectif : optimiser la gestion des sinistres en identifiant les

dossiers sans risque pouvant faire l’objet de remboursementsaccélérés

Jeu de données :

• 145 231 déclarations de sinistres,

• 1 934 infos anonymisées (V1, V2, …, V1934) par déclaration

• 1 variable à prédire prenant la valeur 1 si pas de risque, 0 sinon

Comparaison de deux stratégies gagnantesMatinée Découverte – 24-01-2017

EXEMPLE AVEC LE CONCOURS KAGGLE –BNP PARIBAS :

Can you accelerate BNP Paribas Cardif's claims management process ?

2 926 Participants

30 K$ de gains

Page 40: Matinée Découverte Big Data & Data Science - 24012017

40

DATA SCIENCELES DÉRIVES

Matinée Découverte – 24-01-2017

A nouveau plusieurs centaines de modèles

Les efforts déployés pour améliorer le modèle ont probablement peu de valeur d’un point de vue opérationnel.

Stratégie de modélisation de l’équipe classée 2ème

Page 41: Matinée Découverte Big Data & Data Science - 24012017

41

DATA SCIENCE

LES DÉRIVES

L’anonymisation des données empêche théoriquement d’injecter des indicateurs métiers plus intelligents que les données brutes.

Sauf pour cette équipe qui a su déjouer cette situation.

Avec un seul modèle prédictif, elle devance la solution précédente.

Par contre, le modèle est inexploitable car il utilise les données du futur pour prédire le passé…

1. Identifier les variables les plus importantes à l’aide d’un premier modèle prédictif. Arrêter la modélisation.

2. Donner un sens à ces variables en s’intéressant à la problématique traitée

• On travaille sur des déclarations de sinistres… Un client peut avoir plusieurs sinistres. Les sinistres ont lieu à un moment précis. Les contrats n’ont pas tous la même ancienneté…

• Donc je devrais pouvoir trouver plusieurs champs « date » et un identifiant client dans mes données anonymisées et donc calculer des agrégats…

3. Calculer des agrégats/indicateurs qui résument le profil et la trajectoire des clients : Nombre de contrats, anciennetés, nombre de sinistres, nombre de sinistres constatés au cours des X derniers mois…

4. Modéliser avec des arbres boostés

Matinée Découverte – 24-01-2017

Stratégie de modélisation de l’équipe gagnante

“In the end we created a useless model for Bnp, as our lead(target) variables use information from the future:)”

Page 42: Matinée Découverte Big Data & Data Science - 24012017

42

DATA MINING & DATA SCIENCE

QUESTIONS / REFLÉXIONS ?

« Si mes prédictions étaient plus précises, le réseau commercial les utiliserait-il davantage ? »

« Si mes prédictions ne sont pas performantes, est-ce un problème de conception, de cadrage ou d’optimisation ? »

« Si je prédis bien le caractère frauduleux de certaines déclarations :

• Je peux m’en servir pour transmettre à mes contrôleurs une liste de dossiers à contrôler en priorité

• Mais si je suis incapable de qualifier chaque dossier en termes de profil de fraude et d’indicateurs à investiguer, utiliseront-ils mon ciblage ? »

Matinée Découverte – 24-01-2017

Page 43: Matinée Découverte Big Data & Data Science - 24012017

43

DATA MINING & DATA SCIENCE

ON DOIT TIRER PROFIT DES DEUX

Finalement• Un bon modèle est un modèle utilisable

et utilisé, qui améliore l’existant

• Lorsque la compréhension importe moinsque la précision, les modèles « boites noires » sont à privilégier à condition d’être industrialisables et d’apporter une réelle plus-value.

• Lorsque la compréhension est indispensable :

o Soit on fait 2 modèles (un pour prédire et un pour expliquer/convaincre),

o Soit on trouve un modèle qui optimise le compromis « Performance / Compréhension ».

Matinée Découverte – 24-01-2017

Page 44: Matinée Découverte Big Data & Data Science - 24012017

44

DATA MINING & DATA SCIENCE

LE CADRAGE : UNE ETAPE ESSENTIELLE

Objectifs du cadrage : fixer le cadre du projet et maximiser ses chances de succès en se posant les bonnes questions et en embarquant les bons profils (équipes Métiers, Data Science et IT) dès le départ

Matinée Découverte – 24-01-2017

Page 45: Matinée Découverte Big Data & Data Science - 24012017

45

DATA MINING & DATA SCIENCE

LE CADRAGE : UNE ETAPE ESSENTIELLE

Objectifs du cadrage : fixer le cadre du projet et maximiser ses chances de succès en se posant les bonnes questions et en embarquant les bons profils (équipes Métiers, Data Science et IT) dès le départ

PROBLEMATIQUE

Description du contexte

Constats précédents

Objectifs métiers

Objectifs opérationnels

KPI Quanti / Quali

Contexte d’industrialisation et contraintes associées

LIVRABLES

Date de livraison souhaitée

Types de livrables souhaités

Liste de diffusion

Données à restituer

Déploiement

DONNEES

Cartogragphie des sources de données internes et externes éligibles à l'étude

Périmètre des données à extraire

Période d'analyse

Définition de la ou des variable(s) à expliquer s'il s'agit de modèles prédictifs

Contraintes sur les données

Nettoyage des données

Agrégation des données

METHODOLOGIE

Proposition d'approche

ETAPES PROJET

Etapes Acteurs Deadline

Ateliers Cadrage Métiers / Data / IT

Collecte des données

Préparation des données

Validation du périmètre de l'étude

Exploration / Modélisation

Livraison intermédiaire

Validation des résultats / modèles -Corrections

Livraison finale

Déploiement

Back-Testing – Suivi des perfs

Documentation

Matinée Découverte – 24-01-2017ORGANISATION - PILOTAGE

Page 46: Matinée Découverte Big Data & Data Science - 24012017

46

DEMARCHE DATA SCIENCE

EXTRAIT DES PRINCIPAUX CRITÈRES DE SUCCÈS

Des objectifs précis, opérationnels et réalistes

La qualité des données

La préparation et la sélection des données pertinentes par rapport à l’objectif et au sujet traité

La collaboration des compétences métiers et data science avec organisation d’ateliers d’échanges :

• Dès le démarrage du projet pour préciser les attentes, les objectifs, le contexte opérationnel du projet,

• Pour impliquer et fédérer les équipes internes

• Pour traduire en nouveaux indicateurs la connaissance des experts

La collaboration avec l’IT pour définir les conditions de mise en production de la solution cible et le planning de déploiement

Points de validation réguliers permettant de valider les travaux effectués et de passer aux étapes suivantes

• Ordres de grandeur, Compréhension des données

• Résultats intermédiaires

• Adéquation des premiers résultats avec les objectifs opérationnels visés

Matinée Découverte – 24-01-2017

Page 47: Matinée Découverte Big Data & Data Science - 24012017

47

VERS LA DATA SCIENCE

BEST PRACTICES POUR ALLER

Page 48: Matinée Découverte Big Data & Data Science - 24012017

48

BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE

LAISSER LA TECHNOLOGIE A SA PLACE

EN ABORDANT VOS BESOINS D’UN POINT DE VUE MÉTIER ET NON D’UN POINT DE VUE TECHNO / OUTILS

1. Se concentrer sur vos besoins métiers et non sur des questions technologiques ou de choix d’outils• Sachant que :

o La data science est censée pouvoir prédire tout ce qu’un expert saurait prédire ou diagnostiquer à condition…

o On peut tester l’apport de nouvelles données, structurées ou non (open data, météo, logs webs, IoT , images, vidéos, textes) par rapport à un objectif précis, sans coût additionnel de licence et sans plate-forme BigData.

o Les algorithmes prédictifs de dernière génération sont directement accessibles dans les outils open source,

o L’intelligence en matière de data science se situe davantage dans la traduction de nouveaux indicateurs reflétant la connaissance des experts que dans le choix d’une solution ou d’un algorithme

• Les besoins métiers ou cas d’usage n’ont pas vocation à démontrer la valeur ajoutée de choix d’architectures ou de technologies mais plutôt à les orienter.

Matinée Découverte – 24-01-2017

Page 49: Matinée Découverte Big Data & Data Science - 24012017

49

BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE

LES PROFILS ?

2.Inutile de chercher le mouton à 12 pattes• Sachant que :

o Il n’existe peut-être pas

o Vous ne pourriez peut-être pas le recruter…

o Depuis 5 ans, la plupart des diplômés sont bac+5 et n’apprennent a priori pas 2 fois plus vite qu’avant… Leurs profs n’ont fondamentalement pas changé non plus

o Vous disposez sans doute déjà de profils susceptibles de monter en compétences

o C’est un travail d’équipe qui nécessite des compétences pluri-disciplinaires qu’il sera difficile de trouver au sein d’un même profil

o Le profil du « Modern Data Scientist » a été défini par des experts du e-Commerce marketing… (4 en tout en fait)

o Les data miners n’ont qu’une marche à monter pour y arriver !

Matinée Découverte – 24-01-2017

Page 50: Matinée Découverte Big Data & Data Science - 24012017

50

BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE

LES PROFILS ?

Une marche à monter pour le data miner !

Apprentissage de nouveaux langages (R, Python pour commencer)

Adaptation / Formation : nouveaux algorithmes, nouvelles approches, concepts

Transfert de compétences : co-réalisation

Ressources en lignes :

AnalytiqueConnaît les modèles

statistiques théoriques et est

capable de les construire

MétierEst capable de comprendre le

besoin client (en amont), de faire

des recommandations business

sur la base d’analyses (en aval)

AnalytiqueConnaît les modèles

statistiques théoriques et est

capable de les construire

MétierEst capable de comprendre le

besoin client (en amont), de faire

des recommandations business

sur la base d’analyses (en aval)

AnalytiqueConnaît les modèles

statistiques théoriques et est

capable de les construire

DéveloppementEvolue avec aisance dans les

nouveaux environnements et avec les

nouveaux outils

(notamment R et Python)

Statisticien Data Miner Data Scientist

Data

managementGère les bases data mining,

construit et exploite les KPI

Data

managementGère les bases data mining,

construit et exploite les KPI

Data

managementGère les bases data mining,

construit et exploite les KPI

Matinée Découverte – 24-01-2017

Page 51: Matinée Découverte Big Data & Data Science - 24012017

51

BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE

OPEN SOURCE, QUELLE STRATÉGIE ?

3. Ne pas tout miser sur l’open source• Sauf si on souhaite devenir éditeur de ses propres solutions… avec

toutes les charges que cela suppose :o Développement, maintenance, installation, formation, documentation,

support, backupo Tests de non régression, corrections de bugs natifs (car il y en a !),

développements spécifiques…o Tests de montées de versions, de compatibilité entre packages,

versionning, mises en production, migrations

• Trouver un bon compromiso On utilise l’open source pour toutes ses fonctionnalités additionnelleso On conserve ce qui est industrialisé et ce qui donne satisfaction sur les

outils actuels puis on évalue la complexité, les risques et le ROI d’une migration progressive vers l’open source

• S’en passero Ce serait se priver de fonctionnalités dont la valeur ajoutée est grande

Matinée Découverte – 24-01-2017

Page 52: Matinée Découverte Big Data & Data Science - 24012017

52

BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE

ORGANISATION

Monter une équipe pluri-disciplinaire réunissant des compétences :

• Métiers, terrain

• Analytiques (data prep, dataviz, data mining),

• Architecture, administration de bases de données, Qualité de données, BigData, Sécurité

• Programmation SQL, R, Python,

• Administration fonctionnelle (garant des bonnes pratiques)

• Correspondant Informatique et Libertés

Eventuellement en mode lab, création d’une pizza team pour désiloter les projets et les équipes

Définir un plan de montée en compétences progressif avec des objectifs réalistes en privilégiant une approche agile et pragmatique qui s’insère bien dans le plan de charges

Matinée Découverte – 24-01-2017

Page 53: Matinée Découverte Big Data & Data Science - 24012017

53

EXEMPLE DE TRAJECTOIRE DATA SCIENCE EN 6 ÉTAPES

Avant-projet

Formation et transfert de compétences Bilan et Organisation cible

Matinée Découverte – 24-01-2017

Page 54: Matinée Découverte Big Data & Data Science - 24012017

54

EXPLOITER LES BIG DATA ?

JUSQU’OÙ PEUT-ON

Page 55: Matinée Découverte Big Data & Data Science - 24012017

55

JUSQU’OÙ PEUT-ON EXPLOITER LES BIG DATAS ?

CATÉGORIES DE DONNÉES

Données objectives

• Elles ne font pas l’objet d’appropriation

• Elles « appartiennent » à tous

• Exemples : données météo, données de trafic, caractéristiques des immeubles

Données à caractère personnel• Une donnée personnelle est une donnée se rapportant à une personne

physique, qui peut être identifiée quel que soit le moyen utilisé

• Impact sur la vie privée

• Surveillance et sanction de la CNIL

• Déclaration préalable

• Exemples : nom et prénom, photo d'un visage, vidéo montrant une personne, extrait sonore de la voix d'une personne, numéro de sécurité sociale, numéro d'employé, numéro de téléphone, croisement date de naissance et ville de naissanceMatinée Découverte – 24-01-2017

Page 56: Matinée Découverte Big Data & Data Science - 24012017

56

JUSQU’OÙ PEUT-ON EXPLOITER LES BIG DATAS ?

DEVOIRS

A partir du moment ou l’on traite, à titre professionnel des données personnelles, la loi informatique et libertés s'applique et nous devons sous peine de sanctions pénales :

• déclarer nos traitements à la CNIL,

• mettre en place toute les mesures de sécurité nécessaire pour protéger ces données,

• nous assurer de collecter uniquement des données pertinentes et le faire de manière loyale,

• ne pas transférer ces données hors de l'UE, et en particulier dans des pays à faible niveau de protection, etc.

Matinée Découverte – 24-01-2017

Page 57: Matinée Découverte Big Data & Data Science - 24012017

57

JUSQU’OÙ PEUT-ON EXPLOITER LES BIG DATAS ?

CONDITIONS POUR LA LICÉITÉ DU TRAITEMENT DE DONNÉES À CARACTÈRE PERSONNEL

1 socle (la finalité du traitement) + 4 conditions• Finalité explicite et légitime

• Loyauté dans la mise en œuvre du traitement

• Données pertinentes

• Durée de conservation non excessive

• Sécurité

Et indispensable : le consentement préalable et éclairé de la personne physique concernée

Matinée Découverte – 24-01-2017

Page 58: Matinée Découverte Big Data & Data Science - 24012017

58

JUSQU’OÙ PEUT-ON EXPLOITER LES BIG DATAS ?

COMMENT EXPLOITER SES DONNÉES SANS CONSENTEMENT ?

Pseudonymisation : niveau de protection insuffisant

K-anonymisation : réduire le niveau de détail des données de telle sorte

qu’il y ait au moins k individus identiques pour chaque combinaison de critères considérés comme des « quasi-identifiants »

Autres approches : I-diversité, confidentialité différentielle

Matinée Découverte – 24-01-2017

Page 59: Matinée Découverte Big Data & Data Science - 24012017

59

PERSPECTIVES

CONCLUSION &

Page 60: Matinée Découverte Big Data & Data Science - 24012017

60

CONCLUSION & PERSPECTIVES

Se concentrer sur vos besoins métiers et non sur des questions technologiques ou de choix d’outils

Testez l’apport des nouvelles approches de data science et de nouvelles données en adoptant une approche pragmatique et agile

Faites-vous challenger par des partenaires

Ne pas minimiser les compétences nécessaires pour aborder ces nouveaux sujets

Ne pas négliger la complexité des nouvelles plate-formes

Vous mettre en conformité vis-à-vis de la CNIL

Vers une démarche big data / data science écologique ?Matinée Découverte – 24-01-2017

Page 61: Matinée Découverte Big Data & Data Science - 24012017

TANGUY LE NOUVELDIRECTEUR PRACTICE DATA SCIENCE

M +33 (0) 6 81 95 84 22@ [email protected]

WWW.MICROPOLE.COM91-95 RUE CARNOT - 92 300 LEVALLOIS-PERRETT +33 (0)1 74 18 74 18 / F +33 (0)1 74 18 74 00

DAVID-STÉPHANE FALADIRECTEUR PRACTICE BIG DATA & DATA INTELLIGENCE

M +33 (0) 6 87 34 61 04@ [email protected]

WWW.MICROPOLE.COM91-95 RUE CARNOT - 92 300 LEVALLOIS-PERRETT +33 (0)1 74 18 74 18 / F +33 (0)1 74 18 74 00

MERCI DE VOTRE ATTENTION

QUESTIONS

Page 62: Matinée Découverte Big Data & Data Science - 24012017

62

LE GROUPE MICROPOLE1 100 COLLABORATEURS

100 M€ de CA25+ ANS D'EXPERTISE OPÉRATIONNELLE

7 SITES EN FRANCE[PARIS / LYON / AIX-EN-PROVENCE /

SOPHIA ANTIPOLIS / TOULOUSE /

RENNES / NANTES / LILLE]

5 SITES EN EUROPE [GENÈVE / LAUSANNE / ROTTERDAM /

BRUXELLES / LUXEMBOURG]

3 SITES EN CHINE [PÉKIN / SHANGHAÏ / HONG KONG]

UN POSITIONNEMENT

DE SPÉCIALISTE

Alliance d’expertises

fonctionnelles et techniques

Une agence intégrée spécialisée

dans l’Expérience Client (Wide)

Savoir-faire historique centré Data

Intelligence et Digitalisation des

processus Internes / Externes

UNE CULTURE DE L'INNOVATION Au cœur de notre expertise, tournée

vers les usages au service de nos clients Accompagnement de « Start Up »

valorisant la donnée Diffusion de l’innovation : Micropole Lab

Network

Page 63: Matinée Découverte Big Data & Data Science - 24012017

63

Segmentation de la clientèle des commerçants et recommandationssur les offresà leur adresser.

Qualification des transactionsQualification des transactions

Transactions

étudiées

Moteur de règles

Analyse et classement

des transactions

Transactions renseignées

sur le profil

Qualification des transactionsQualification des transactions

Transactions

étudiées

Moteur de règles

Analyse et classement

des transactions

Transactions renseignées

sur le profil

Agrégation et calcul

d’indicateurs pour chaque

carte, sur chaque profil

Cartes renseignées sur

l’affectation des

dépenses en € et en nb

Calcul dCalcul d’’indicateurs par carteindicateurs par carteAgrégation et calcul

d’indicateurs pour chaque

carte, sur chaque profil

Cartes renseignées sur

l’affectation des

dépenses en € et en nb

Calcul dCalcul d’’indicateurs par carteindicateurs par carte

Segmentation des cartesSegmentation des cartes

Segmentation des cartes

pour chaque profil

Affectation des cartes

dans les segments

Segmentation des cartesSegmentation des cartes

Segmentation des cartes

pour chaque profil

Affectation des cartes

dans les segments

Ciblage des cartesCiblage des cartes Ciblage des cartesCiblage des cartes

Segmentation des joueurs de live betting(paris en temps réel)Scores d’attrition et valeur client

Mise en place de l’architecture fonctionnelle de SAS pour le département Pricing

Modélisation de la valeur résiduelle des véhicules en fin de contrat de location

Enrichissement du référentiel produits par lanotion d’œuvre (Rapprochement de donnéesnon structurées via Text mining, Fuzzymatching et data science)Fusion de référentiels musicaux indépendantspar fuzzy matching

Modélisation du départ des clients à laconcurrence à partir des nouveauxalgorithmes de machine learning et denouvelles données relationnelles

Construction d’un datalakedédié et mise en œuvre demodèles prédictifs de la fraude(secteur entreprises) à l’aide desdernières approches en matièrede modélisation prédictive et deplusieurs milliers de variables

Amélioration d’un dispositif de géo-localisation d’objets Indoor à partir dedonnées issues de capteurs géolocalisant despuces RFID. Conseil en architecture BigData etmodélisation de la localisation des objets viaune approche data Science

LUXE CONFIDENTIEL

Analyse et classification d’images diffuséessur les réseaux sociaux pour identificationd’objets de la marque dans le but d’identifierdes influenceurs, de comprendre et demaximiser leur impact sur le développementdu CA

Segmentation de la clientèle des pros selon les usages croisés que font les clients La Poste des produits présents au catalogue. Recherche de segments à fort potentiel, de nouveaux packages de produits et de quicks wins.

EXTRAIT DE PROJETS DATA SCIENCE

Matinée Découverte – 24-01-2017