UN CHANGEMENT DE PARADIGME DANS LA … Group Presentation… · production ou de la source de...

57
Copyright © 2012, SAS Institute Inc. All rights reserved. UN CHANGEMENT DE PARADIGME DANS LA PRÉPARATION DES DONNÉES L’ANALYSE VISUELLE ET LE BIG DATA Bernard Blais Directeur Principal Analytique Haute Performance

Transcript of UN CHANGEMENT DE PARADIGME DANS LA … Group Presentation… · production ou de la source de...

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

UN CHANGEMENT DE PARADIGME DANS LA

PRÉPARATION DES DONNÉES

L’ANALYSE VISUELLE ET LE BIG DATA

Bernard Blais

Directeur Principal

Analytique Haute Performance

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Copyright © 2012, SAS Institute Inc. All rights reserved.

CONTENU L’ANALYSE VISUELLE ET LE BIG DATA

Big Data - Une nouvelle définition de Big Data qui concerne tout le monde;

Visualisation des Données - L‟utilisation de nouveaux outils de visualisation des données;

Préparation des données - La préparation des données en vue d‟une exploration visuelle, dans une approche Big Data;

Analyse En Amont - L‟utilisation de techniques d‟analyses avancées en amont, pour accélérer la préparation des données;

Démocratisation de L‟Analytique - Augmenter la maturité analytique de l‟organisation

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

BIG DATA

UNE NOUVELLE DÉFINITION DE BIG DATA QUI CONCERNE TOUT LE MONDE

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

VOLUME

VARIÉTÉ

VÉLOCITÉ

AUJOURD‟HUI DEMAIN

Qu

an

tité

de

Do

nn

ée

s

BIG DATA – LE DÉFI

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Copyright © 2012, SAS Institute Inc. All rights reserved.

Copyright © 2012, SAS Institute Inc. All rights reserved.

RETOUR SUR LA NOTION DE “BIG DATA”

Copyright © 2012, SAS Institute Inc. All rights reserved.

Notre Perspective

Big Data est une notion RELATIVE …et non pas ABSOLUE!!!

Big Data

Lorsque le volume, la vitesse ou la variété des données dépassent la capacité de traitement ou de stockage d’une organisation, pour livrer à temps une information fiable et précise, afin de soutenir la prise des meilleures décisions.

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

GRANDE

PRÉCISION

HAUTE

PERFORMANCE

AMPLITUDE ET

PROFONDEUR

MEILLEURE

DÉCISIONS

SAS® ANALYTIQUES HAUTE PERFORMANCE

Copyright © 2012, SAS Institute Inc. All rights reserved.

Liste de contrôle:

Analytique

pour le Big Data

Une architecture flexible qui supporte plusieurs types de données et d‟utilisation

Une utilisation en amont qui permet d‟optimiser la préparation et la pertinence des données

Une exploration et une analytique visuelle permettant d‟accélérer la compréhension et le plan d‟action

Une approche collaborative entre la technologie et les gens d‟affaires

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

L’APPROCHE SAS

ANALYTIQUE AVANCÉE ET BIG DATA

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

TRAITEMENT DISTRIBUÉ

Métadonnées

Serveur Web

Serveur VA

Serveur SAS

Données co-localisées

SAS® LASR Analytic Server

Serveur Distribué

Hadoop SGBD Non-relationnel ERP Click Stream Fichiers PC

MÉMOIRE VIVE

STOCKAGE

TRAITEMENT

STOCKAGE

EXTERNE

Données co-localisées

SAS® LASR Analytic Server

Serveur Distribué

Données co-localisées

SAS® LASR Analytic Server

Serveur Distribué

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

L’APPROCHE SAS - RÉSUMÉ

Données en mémoire

Permet une lecture ultra-rapide

Parallélisme Extrême

Utilisation à pleine capacité de tous les cœurs des unités de traitement

Distribution des Capacités Analytiques

Exploitation de la mémoire *et* des unités de traitement distribuées

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

AUTRES AVANTAGES DE L’APPROCHE SAS

Très simple d’ajouter de la mémoire et des ressources de traitement

Limites extrêmes en matière de:

Nombre de serveurs(**) et d‟unités centrales de traitement

Mémoire vive (RAM) et tables chargées

Utilisateurs concurrentiels

Performance est indépendante du stockage des données, du système de

production ou de la source de données (base de données relationnelles, etc.)

(**) Client avec 200+ serveurs de type « blade »

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

VISUALISATION DES DONNÉES

NOUVEAUX OUTILS DE VISUALISATION POUR LE BIG DATA

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

$-

$500

$1,000

$1,500

$2,000

$2,500

$3,000

$3,500

$4,000

Janvier Février Mars Avril Mai Juin Juillet Août Septembre Octobre Novembre Décembre

Domestique International

VERSUS

Janvier Février Mars Avril Mai Juin Juillet Août Septembre Octobre Novembre Décembre

Domestique $1,983 $2,343 $2,593 $2,283 $2,574 $2,838 $2,382 $2,634 $2,938 $2,739 $2,983 $3,493

International $574 $636 $673 $593 $644 $679 $593 $139 $599 $583 $602 $690

$2,557 $2,979 $3,266 $2,876 $3,218 $3,517 $2,975 $2,773 $3,537 $3,322 $3,585 $4,183

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

VISUALISATION

DES DONNÉES VISUALISER LE BIG DATA

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

DÉMONSTRATION

SAS® VISUAL ANALYTICS – VISUALISATION DE BIG DATA

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION DES DONNÉES

OBJECTIF: TABLE ANALYTIQUE

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION

TABLE ANALYTIQUE UN EXEMPLE…

Les données de départ:

• Peu d‟informations contextuelles;

• Viennent probablement d‟une BDR

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION

TABLE ANALYTIQUE UN EXEMPLE…

Étape 1:

• Reformatter en une

table analytique

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION

TABLE ANALYTIQUE UN EXEMPLE…

Étape 2: Préparer les

éléments qui peuvent

être perçus

différemment par les

analystes (exemple:

dates)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION

TABLE ANALYTIQUE UN EXEMPLE…

Étape 2: Préparer les

éléments qui peuvent

être perçus

différemment par les

analystes (exemple:

hiérarchie de produits)

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION

TABLE ANALYTIQUE

ENRICHISSEMENT DES DONNÉES –

CRÉER DES OPPORTUNITÉS D’ANALYSE

Étape 3 : Ajouter des informations additionnelles

• Température locale au moment de la transaction

• Les coordonnées géographiques de chaque transaction

• Créer des sous-groupes (âge, revenu familial, ethnicité, …)

• Créer des opportunités de hiérarchies

• Exemple: pays – province – ville…

• Etc…

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION

TABLE ANALYTIQUE UN EXEMPLE…

La table analytique finale:

• Dé-normalisée;

• Contient le plus possible de champs descriptifs pour

chaque rangée

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION

TABLE ANALYTIQUE EN RÉSUMÉ…

Ce qu’on a accompli:

Qualité des Données

Pertinence des Données

Données Dé-Normalisées

Données Enrichies

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

L’ANALYSE EN AMONT

OBJECTIF: ACCÉLÉRER LA PRÉPARATION DES DONNÉES

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PROFILAGE

DES DONNÉES SE FAMILIARISER AVEC LES DONNÉES

À l‟ouverture du fichier, on devrait immédiatement

avoir une idée:

• Des champs disponibles, du type (catégorie, date,

numérique, etc.);

• De la cardinalité de chaque champ.

• Dans les pages suivantes nous couvrirons des

exemples d‟exploration initiale.

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PROFILAGE

DES DONNÉES TEMPS DE TRANSACTIONS

Percevoir la couverture de tout champ de date

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PROFILAGE

DES DONNÉES TEMPS DE TRANSACTIONS

Détection immédiate de toute date hors normes

Dans cet exemple,

nous avons 24

enregistrement datés

de 2012

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PROFILAGE

DES DONNÉES CONTENU DES CATÉGORIES

Survol immédiat de la distribution de toute

catégorie

En changeant simplement le visuel désiré,

on peut créer une liste des contenus

uniques…

…auquel on peut

rapidement ajouter

des mesures

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PROFILAGE

DES DONNÉES DISTRIBUTION DES DONNÉES

Toute mesure numérique peut être vue en survol

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PROFILAGE

DES DONNÉES DISTRIBUTION DES DONNÉES PAR CATÉGORIE

En utilisant la boîte à moustache, on peut voir immédiatement la

distribution de certaines données par catégorie. Cela permet d‟identifier:

Données aberrantes et hors-normes;

Moyenne, médiane, déviation standard, minimum et maximum,

Vérifier que

mon code de

groupe d‟âge

est bien

programmé

…ou la

moyenne

d‟âge de mes

employés

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

EXPLORATION

DES DONNÉES APPLYING FILTERS

By applying filters, for any

visual we can:

See an overview of the data

distribution

Focus on segments of our

data

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ENRICHISSEMENT

DES DONNÉES CRÉER DES OPPORTUNITÉS D’ANALYSE

Qualité des données:

• Retirer les données hors-normes (dates, outliers, )

• Détecter et retirer les copies/duplicata

• Température locale au moment de la transaction?

• Les coordonnées géographiques de chaque transaction?

• Créer des sous-groupes (âge, revenu familial, ethnicité, …)

• Créer des opportunités de hiérarchies:

• Année – Mois – Semaine – Jour – heure;

• Groupe de produit – sous-groupes – SKUs

• Géographie

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

PRÉPARATION

TABLE ANALYTIQUE EN RÉSUMÉ…

Ce qu’on a accompli:

Qualité des Données

Pertinence des Données

Données Dé-Normalisées

Données Enrichies

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

DÉMOCRATISATION DE L’ANALYTIQUE

RENDRE ACCESSIBLE L’ANALYTIQUE AVANCÉE

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ANALYTIQUE

AVANCÉE DÉMOCRATISER L’ANALYTIQUE

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

DÉMONSTRATION

SAS® VISUAL ANALYTICS – ANALYTIQUE AVANCÉE

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ANALYTIQUE

AVANCÉE DÉMOCRATISER L’ANALYTIQUE

Rendre disponible et accessible l‟analytique avancée

Comprendre l‟impact pour les décisions d‟affaires

Augmenter le niveau de maturité analytique de l‟organisation

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CONTENU L’ANALYSE VISUELLE ET LE BIG DATA

Big Data - Une nouvelle définition de Big Data qui concerne tout le monde;

Visualisation des Données - L‟utilisation de nouveaux outils de visualisation des données;

Préparation des données - La préparation des données en vue d‟une exploration visuelle, dans une approche Big Data;

Analyse En Amont - L‟utilisation de techniques d‟analyses avancées en amont, pour accélérer la préparation des données;

Démocratisation de L‟Analytique - Augmenter la maturité analytique de l‟organisation

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

L’APPROCHE SAS – ANALYTIQUE HAUTE PERFORMANCE

EXEMPLES CONCRETS

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

IMPLICATIONS – EXEMPLES D’AFFAIRES

1. Vente au détail – analyse du panier d‟achat

2. Gouvernemental – analyse des accidents de la route

3. Services publics – consommation d‟électricité

4. Services conseils – intelligence marketing

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

1. ANALYSE DU PANIER DE CONSOMMATION

Analyse de la fréquence d‟achat d‟un produit particulier en fonction de la présence d‟autres produits dans un même « panier »

Pour 100 catégorie de produits, une matrice de 10 000 interactions

CONTEXTE:

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

1. ANALYSE DU PANIER DE CONSOMMATION

Les résultats typiques d‟une interaction de régression:

Difficile à lire, à interpréter, à comprendre

L‟analyse demeure la chasse gardée des experts/statisticiens

PROBLÉMATIQUE:

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

1. ANALYSE DU PANIER DE CONSOMMATION – AVEC SAS VISUAL ANALYTICS

RÉSULTATS: Visualisation Immédiate de l‟ensemble des données, et cibler les relations les plus importantes

Les gens d‟affaires peuvent maintenant explorer et analyser les résultats

SOLUTIONS: SAS® Enterprise Miner et SAS ® Visual Analytics

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

1. ANALYSE DU PANIER DE CONSOMMATION – AVEC SAS VISUAL ANALYTICS

RÉSULTATS:

Interagir avec les résultats, afin de cibler les catégories de produits les plus

profitables

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

2. ANALYSE DES ACCIDENTS DE LA ROUTE

Source: NHTSA (USA‟s National Highway Traffic Safety Administration)

Information publique sur la sécurité routière aux États-Unis.

Les données: 700,000 entrées sur des incidents / accidents routiers:

Véhicules: marque et modèle, date de fabrication, date d‟achat, problèmes connus,

kilométrage, nombre de cylindres, etc… pour chaque véhicules

Composantes (385): coussins gonflables, siège pour enfant , système électrique,

moteur, etc

Accidents: vitesse, endroit, blessures, décès, etc

CONTEXTE:

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

2. ANALYSE DES ACCIDENTS DE LA ROUTE – LES DONNÉES

Données non-structurées

Classification peu fiable

Données difficile à naviguer

Aucun „résultats‟ précis

PROBLÉMATIQUE:

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

82 SECONDS

5½ HRS

2. ANALYSE DES ACCIDENTS DE LA ROUTE – FORAGE DE TEXTE

Objectif: parfaire la

catégorisation des

éléments de

chaque rapports

d‟accidents

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

2. ANALYSE DES ACCIDENTS DE LA ROUTE – VISUAL ANALYTICS

SOLUTIONS:

SAS® Text Analytics et

SAS ® Visual Analytics

RÉSULTATS:

Catégorisation améliorée de 20%

Visualisation immédiate des différents

accidents et incidents, par type de

véhicule,

condition de la route et météo, facteur

causant l‟accident, etc.

Surfacer les éléments les plus

troublants, trouver liens et dépendances

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Source: Oklahoma Gas & Electric Company (OG&E)

800 000 clients dans l‟Oklahoma et l‟ouest de l‟Arkansas. Gagnant du “service

Publique de l‟année” (2011)

3. CONSOMMATION D’ÉLECTRICITÉ

CONTEXTE:

Prévision statistiques de l‟utilisation, en vue d‟optimiser la production et la distribution

d‟électricité.

1 seule lecture par mois par client (800 000) – limite du traitement de volume des

données

PROBLÉMATIQUE:

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

30,000 lectures

12 lectures

3. CONSOMMATION D’ÉLECTRICITÉ

RÉSULTATS:

En embrassant le Big Data, ils ont pu passer de 1 lecture par

mois par client, à 1 lecture aux 15 minutes (3000 / mois).

Le processus de prévision prenait 2-3 jours, maintenant se

fait en quelques heures.

L‟exactitude des prévisions a grimpé dramatiquement.

SOLUTIONS:

SAS® Analytics

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Source: SM – marketing Convergence Inc.

Production des coupons rabais et programmes de loyauté

Analyse des données de plus de 500 entreprises commerciales et magasins

> 200 millions de transactions / année

4. INTELLIGENCE MARKETING

CONTEXTE:

Volume, volume, volume trop de données à analyser entraîne un processus lourd

de sélection des données, à partir des résultats escomptés.

PROBLÉMATIQUE:

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

RÉSULTATS:

Maintenant, la préparation des données est de beaucoup simplifiée: tout

est chargé dans SAS Visual Analytics (tous les skus)

Les utilisateurs sont maintenant plus curieux, perspicace et même

audacieux dans l‟exploration des données.

(“momentum of insight seeking” - Bady Golangco, Président et CEO de SM-MCI)

SOLUTIONS:

SAS® Visual Analytics

4. INTELLIGENCE MARKETING

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CONCLUSION L’Analytique haute performance

Ce n‟est pas juste une question de GRANDE VITESSE…;

CONFIANCE: travailler avec l‟ensemble des données, pas juste des

échantillons ou des sommaires;

EXACTITUDE: des modèles plus complexes, avec plus de variables;

EFFICACITÉ: utiliser les cerveaux analytiques à faire des analyses;

AGILITÉ: s‟adapter et réagir plus rapidement.