Post on 14-Feb-2017
Thomas ANGLADE - Data ScientistThomas.anglade@data2b.net06 60 30 00 14data2b.net
Vers une meilleure connaissance client grâce au big data Data2Breakfast – 07/02/2017
1. La révolution big data : utiliser les données comme matière première
2. Cas concret : mieux connaître ses clients pour détecter la fraude
3. Comment améliorer la segmentation client grâce au bigdata
3
Utiliser la donnée comme matièrepremière
(Big) data010011001100000110011100110110011011000111001101
Explosion des données
01 La révolution technologique qui ne pourra être remplacée que par l’ordinateur quantique
Les 3V : Volume, Variety, Velocity
Il est estimé que 90% des données récoltées depuis le début de l’humanité ont été générées durant les 2 dernières années
Le développement de la data science à été permis par le big data et notamment l’invention du paradigme hadoop (2003)
Passage de l’ère de la causalité à celle de la corrélation : le big data permet de faire mieux mais on ne sait pas forcément pourquoi…
Que vaut la donnée ?La donnée a pris de la valeur car elle est passée de luxe a commodité
La donnée est désormais produite de manière différente, pas forcément de manière consciente et intentionnelle.
Valeur de ré-utilisation énorme
Matière 1ère (circulation – blé)
Outil de levier / décision
Actif stratégique
Avantage compétitif grâce aux data
Marketing
Finance & assurances
E-commerce
Santé
RH
Transports
Logistique
Maintenance
Agro-alimentaire
Environnement
Le data scientist peut-il faire mieux que l’expert ?
La data est un « business » de volume
« Un algorithme moins performant couplé à un plus gros volume de données donne de meilleurs résultats qu’un algorithme performant sur un échantillon plus restreint »
valeur de la data personnelle / an / personne selon OCDE
Collecter des données avant de savoir comment les exploiter ??
Comment produire la donnée ?Utiliser le « digital labour » ?
9
Utiliser les données clients pour la détection de fraude
Détection de fraude – le problème
25%demandes de remboursement frauduleuses
Fraude à l’assurance en 2014 2,5Md€
Achat d'une police après la survenance
« Crash for cash »
Inventer un sinistre de toutes pièces
« Gonfler » les montants des sinistres
Déclaration pour une blessure antérieure
Dupliquer un sinistre
1 2
3 4
6 5
Détection de fraude – les méthodes
Lot ofData
Variety ofData
Machinelearning
LessFraudx x =
DEMO !
12
Automatiser la recherche de bons clients et V360
Sujet tous métiers de service et de vente
Type de segmentationÉtapes de la vie Public cible Segmentation discrèteTOUS les clients Sous-groupe de clients
ayant un comportement / attribut
Décrire un ensemble spécifique de personnes a travers le temps (cohortes)
Chaque client estseulement dans un segment
Aucune relation naturelle a travers les segments
Statique - les gens ne bougent pas du segment
Suivi de la progressionde segments
Suivi de l'adhésion (entrée ou sortie) du segment et suivi des membres du segment
Suivre le comportement au fil du temps
Utilisation en combinaison avec segments cibles
Utilisé pour des campagnes et offres spécifiques
Utilisé pour l'analyse de rétention et l'analyse saisonnière
+ interactions clients = + données• Données internes Association données marketing avec des données d'autres divisions de la société (ventes, opérations, service client, etc.)
• Données externesRéseaux sociaux, logs, géolocalisation, open data, etc.
Meilleure technologie = données mieux utilisées
• Exploiter de nombreux formats d'information - lecontenu d'une image ou d'une vidéo et la signification desdonnées textuelles
• Nouveaux algorithmes de segmentation tels que l'analysede réseaux (network science) et le regroupement par densité(density-based clustering).
• Amélioration des performances matérielles et logiciellessur de grandes quantités de données.
• Capacité à calculer des segmentations dynamiques entemps réel, grâce à Spark Streaming et Flink.
Network scienceClustering coefficient
Les amis de mes amis sont mes amis.
Ce coefficient mesure à quel point le voisinage d'un sommet est connecté.
- Segmentation dynamique
Density-based clusteringTrouver une structure de formes non linéaires basée sur la densité.
Density-based clusteringParamètres
ɛ Le rayon autour d'un point de données p.
minPts Le nombre minimum de points que nous voulons dans un cluster.
Points
Points de noyeau Un point p est point de noyau si | Nbhd (p, ɛ) | > = MinPts.
Points de frontière Un point q est point de frontière si Nbhd (q, ɛ) contient moins minPts, mais q est accessible à partir d'un point de noyau p.
Outlier Un point o est un outlier si ce n'est ni un point de noyau ni un point de frontière.
Density-based clustering
Algorithme
• Choisissez un point au hasard qui n'a pas été affecté à un cluster ou qui a été désigné comme outlier.
• Déterminer si c'est un point de noyau. Si oui, démarrez un cluster autour de ce point. Si non, étiquettez le point comme outlier.
• Répétez ces deux étapes jusqu'à ce que tous les points soient soit assignés à un cluster ou désignés comme outlier.
Density-based clustering vs k-means
Big Data + segmentation on action
Possibilité d'avoir autant de segmentations que de questions à répondre.
Industrialisation des segmentations dynamiques mises à jour automatiquement en temps réel.
data2b.net