T1 Gestion des données...

29
17/03/2017 1 O. Boussaid 2017 Du Data Warehouse au… Data Lake L’avènement de la Data T1 Gestion des données massives O. Boussaid Mars 2017 Gestion des données massives O. Boussaid 2017 1°) Contexte et motivation 2°) Structuration classique des données 3°) Définition intuitive des Data Lakes 4°) Data Lake, DWH, DMP 5°) Data Lake : Définitions 6°) Data Lake : Méthodologie 7°) Data Lake vs Data Warehouse 8°) Data Lake : Stratégie et implémentation T2 Gestion des données massives

Transcript of T1 Gestion des données...

Page 1: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

1

O. B

ouss

aid20

17

Du Data Warehouse au… Data LakeL’avènement de la Data

T1

Ges

tion

des d

onné

es m

assiv

es

O. BoussaidMars 2017

Gestion des données massives

O. B

ouss

aid20

17

1°)  Contexte  et  motivation2°)  Structuration  classique  des  données

3°)  Définition  intuitive  des  Data  Lakes

4°)    Data  Lake,  DWH,  DMP

5°)  Data  Lake  :  Définitions

6°)  Data  Lake  :  Méthodologie  

7°)   Data  Lake  vs  Data  Warehouse

8°)  Data  Lake  :  Stratégie  et  implémentation

T2

Ges

tion

des d

onné

es m

assiv

es

Page 2: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

2

O. B

ouss

aid20

17

Les Data LakesT3

Ges

tion

des d

onné

esm

assiv

es

q L'explosion massive des sources d'information (Big Data : Réseaux sociaux, capteurs, objets

connectés…) produit un impact important sur le monde des affaires.

q Il est nécessaire que les technologies de l’information proposent de nouvellesarchitectures pour acquérir et comprendre l'information.

q Les technologies de l’information doivent proposer de nouvelle approches de

collecte, d'organisation et d'analyse des Big data.

q Les technologies classiques liées à la BI et aux entrepôts de données peuvent

s’avérer insuffisantes, voire inadaptées aux Big data.

Contexte et motivation

O. B

ouss

aid20

17

Les Data LakesT4

Ges

tion

des d

onné

es m

assiv

es

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

qLes données opérationnelles de l’entreprise sont structurées puis stockées dans des bases de données (relationnelles).

qElles sont dotées de structures : Tables, champs, enregistrements, dimensions…, avant d’être stockées.

qLa structure facilite la navigation dans les données.

qCas des données pérennes de gestion, financières...

q Inconvénients : § la modification de la structure peut être complexe et coûteuse. § Risque de perte de données.§ Approche mal adaptée si les traitements en aval, ne sont pas connus en amont.

Page 3: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

3

O. B

ouss

aid20

17

Les Data LakesT5

Ges

tion

des d

onné

es m

assiv

es

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

qDes bases de données aux entrepôts de données…

qLes entrepôts de données ont permis de centraliser les données structurées dans des silos de données.

qLes données entreposées sont structurées selon des modèles en étoile.

qDans un entrepôt, l’information est détaillée selon un niveau de granularité le plus faible.

q Nombreuses possibilités d’agrégations et donc d’analyses

qLes agrégations sont aussi des regroupements des données : donc une structuration de l’information

qLe choix de ces regroupements se fait alors au détriment d’autres possibilités.

O. B

ouss

aid20

17

Les Data LakesT6

Ges

tion

des d

onné

es m

assiv

es

Contexte et motivation

La structuration des données est-elle un bien ou une entrave ?

qLes bases de données ou les entrepôts de données sont des structures verticales

qLa structuration en Tables, en Dimensions, en Hiérarchies donne de la verticalité à la structure.

q Déconstruction est alors ardue et complexes en cas de modification d’organisation.

qLa modélisation en étoile convient bien à des données structurées et dont on connaît la finalité (l’usage) bien en avant.

qElle n’est pas adaptée aux données non structurées, telles que les données sociales.

qElle ne peut pas être déliée de l’usage des données, qui doit être connu avant leur utilisation.

Page 4: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

4

O. B

ouss

aid20

17 Les Data LakesT7

Ges

tion

des d

onné

es m

assiv

es

qConcept évoqué la 1° fois en 1999 par Dorian Pyle dans son livre ‘’Data preparation for Data mining’’.

qMais aussi, par James Dixon, de Penthao.

qLes entreprise s’emparent de ce nouveau concept pour en faire du ‘’Business Data Lake’’.

qLe données sont conservées sur le même plan. Elles ne nécessitent pas de structure !

qEt surtout, on ne connaît pas à l’avance leur utilisation.

q La structure n’apparaît qu’au moment de l’analyse.

qConcept du Data Lake, ou Data Reservoir, ou ’’Entreprise Data Hubs’’, ou ’’Data Platform’’.

O. B

ouss

aid20

17

Les Data LakesT8

Ges

tion

des d

onné

es m

assiv

es

qLes Data Lakes sont une structure plate des données qu’on conserve pour garder

l’historique sans savoir à priori les analyses qu’on voudrait leur appliquer.

qLes données sont stockées sous une multitude de fichiers (distribués, dans le cas d’Hadoop)

q C’est au moment de leur analyse, qu’on les regroupe en créant une structure.

qExemple :• les logs de sites web,• les tweets,• les profiles sociaux,• les commentaires de blogs,• les photos• …

Page 5: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

5

O. B

ouss

aid20

17

Les Data LakesT9

Ges

tion

des d

onné

esm

assiv

es

qC’est un espace de stockage dans lequel on déverse les données provenant de

systèmes internes et externes pour en tirer de la connaissance, des prévisions et des

actions.

qSous la forme de rapports agiles, visuels, combinant de multiples sources dedonnées, ou d’applications métiers

qPour restituer, directement ou sous forme :

§ de web services (outils de relation clients des vendeurs ou d’un centre d’appels)

§ de recommandations sur un site web,

§ d’alertes

§ de prescriptions à destination des différents métiers.

O. B

ouss

aid20

17

Les Data LakesT10

Ges

tion

des d

onné

esm

assiv

es

qOnt-ils des vocations différentes ?

qLa flexibilité du Data Lake pour croiser et analyser les données lui permet de se

distinguer nettement de l’entrepôt de données.

qLa modélisation des entrepôts de données repose sur un ‘’Model On Write’’ : la

manière de stocker et d’organiser la donnée est définie au préalable.

qLe Data Lake se base sur un ‘’Model On Read’’ : le s données sont stockées sans

traitement préalable.

qUtilisation en cycle agile des données pour traiter un cas d’usage.

Le Data Lake est-il différent de l’entrepôt de données ?

Page 6: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

6

O. B

ouss

aid20

17

Les Data LakesT11

Ges

tion

des d

onné

esm

assiv

es

qLa DMP sert à segmenter les audiences et les clients, en temps réel, selon leur

comportement, pour leur appliquer des scénarios d’activation, que ce soit par le

média, le social ou les canaux CRM classiques (email, SMS, etc.).

q Ils sont plutôt complémentaires.

qLa DMP alimente le Data Lake. Ce dernier procèdera à des multiples analyses

Le Data Lake est différent de la Data Management Platform (DMP) ?

O. B

ouss

aid20

17

Les Data LakesT12

Ges

tion

des d

onné

esm

assiv

es

q Il faut disposer d’une stratégie Data avant de déployer un Data Lake.

qUne approche en 3 phases :

1. L’identification du cas d’usagea. Soit améliorer des cas d’usage déjà existants

b. Soit viser une innovation par la data

2. La définition d’une feuille de routea. L’alimentation du Data Lake doit se faire selon une priorisation des cas d’usage

3. Le choix de l’infrastructurea. Coût du stockage

b. Flexibilité d’alimentation

Besoin d’une stratégie pour déployer un Data Lake.

Page 7: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

7

O. B

ouss

aid20

17

Les Data LakesT13

Ges

tion

des d

onné

esm

assiv

es

Les utilisateurs de Data Lakes

Chef  de  projet

Conçoit, développe et s’occupe au quotidien de la plateforme. C’est le maître d’œuvre du Data Lake.

Data EngineerConnecte le Data Lake à toutes lessources de données ; s’assure de laqualité de la donnée ; et lie laplateforme aux applications externes.

Data AnalystDéfinit les KPI et les métriques à desfins de reporting, de dahboarding pourcomprendre les processus métiers.

Data ScientistExploite en profondeur l’ensemble desdonnées à des fins de prospection,pour déterminer les grandes tendancesbusiness et les opportunités quel’organisation devra saisir.

Admin   systèmeResponsable de l’infrastructure duData Lake et de la sécurité.

O. B

ouss

aid20

17

Les Data LakesT14

Ges

tion

des d

onné

esm

assiv

es

qData Engineers (profil IT connaissant les technologies Big Data).

qData Scientists (profil mathématique et statistique).

qData Architects, (concevoir l’architecture technique supportant le Data Lake),

q Experts de la visualisation de données

qData Stewards (pour maintenir les flux de données entrants et sortants du Data Lake),

q Administrateurs système (pour maintenir opérationnel les machines, réseaux, services…).

Les ressources humaines : constitution d’une équipe

Page 8: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

8

O. B

ouss

aid20

17

Les Data LakesT15

Ges

tion

des d

onné

esm

assiv

es

qUn Data Lake est un repository de stockage qui contient une très grande quantité

de données originelles dans leur format natif, jusqu’à ce qu’elles soit exploitées.

q Un Data Lake a une architecture plate pour le stockage de données. Chaque

donnée à un identifiant unique, et est renseignée par des métadonnées.

Définition… ou plutôt des définitions

O. B

ouss

aid20

17

Les Data LakesT16

Ges

tion

des d

onné

esm

assiv

es

qUn Data Lake est un repository de données massives, facilement accessibles,

flexibles et scalables.

q Un Data Lake est une plateforme de management de données pour l’analyse des

sources de données disparates (variété) dans leur format natif.

Définition… ou plutôt des définitions

Page 9: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

9

O. B

ouss

aid20

17

Les Data LakesT17

Ges

tion

des d

onné

esm

assiv

es

qLe catalogue des métadonnées :

Catalogue des données dans le Data Lake

KEY

VALUE ROW ID

COLUMNTIME STAMP

TAG TAG GROUP VISIBILITY

qChaque information sur la donnée est matérialisée dans une cellule d’une table de métadonnées.

qPeu importe où la donnée est localisée, les tags permettent de l’identifier.

qOn peut également définir les autorisations d’accès sur les fichiers.

Source:  Booz  Allen  Hamilton

O. B

ouss

aid20

17

Les Data LakesT18

Ges

tion

des d

onné

esm

assiv

es

q4 types de tags permettent de définir chaque cellules:

§ Identifiants de l’entité (plusieurs lignes peuvent avoir le même identifiant).

§ Le type de donnée (vidéo, tweet, n° de compte…).

§ Groupes d’appartenance (Tag group).

§ Version de la donnée (par la date d’identification).

Catalogue des données dans le Data Lake

KEYVALUE ROW ID

COLUMNTIME STAMPTAG TAG GROUP VISIBILITY

Source:  Booz  Allen  Hamilton

Page 10: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

10

O. B

ouss

aid20

17

Les Data LakesT19

Ges

tion

des d

onné

esm

assiv

es

qExemple de catalogue des métadonnées :

Catalogue des données dans le Data Lake

Data Primary Tag Tag Group Time Stamp Row IDJohn Doe Name Investor Information 1

5/17/71 Date of Birth Investor Information 1

1234-56 Account # Investor Information 1

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1

200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1

600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1

O. B

ouss

aid20

17

Les Data LakesT20

Ges

tion

des d

onné

esm

assiv

es

Catalogue des données dans le Data Lake

Source:  Booz  Allen  Hamilton

qIl n’est pas nécessaire d’associer tous les tags à chacune des données en amont:§A minima: l’identifiant principal (Row ID).§Possibilité d’ajouter ou de modifier les tags par la suite de façon manuelle ou automatique (ex:

reconnaissance des formats de n° de téléphone).

qExemple de recherche:§ « L’évolution du prix d’une action est-elle liée à la fréquence à laquelle un groupe d’experts aborde

le sujet dans leur tweet ? ».

§ On récupère toutes les cellules contenant le nom des experts dont le tag est “auteur” et le tag group est “tweet”.

Page 11: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

11

O. B

ouss

aid20

17

Les Data LakesT21

Ges

tion

des d

onné

esm

assiv

es

qExmple de catalogue des métadonnées :

Catalogue des données dans le Data Lake

Data Primary Tag Tag Group Time Stamp Row IDJohn Doe Name Investor Information 1

5/17/71 Date of Birth Investor Information 1

1234-56 Account # Investor Information 1

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1

200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1

600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1

John Doe Name Employee 1

202-555-1212 Telephone # Investor Information 1

O. B

ouss

aid20

17

Les Data LakesT22

Ges

tion

des d

onné

esm

assiv

es

qExmeple de catalogue des métadonnées :

Catalogue des données dans le Data Lake

Data Primary Tag Tag Group Time Stamp Row IDJohn Doe Name Investor Information 1

5/17/71 Date of Birth Investor Information 1

1234-56 Account # Investor Information 1

300 Shares ABBC Stock Sales Transactions 9/17/2013 10:43 AM 1

200 Shares ABBC Stock Sales Transactions 9/17/2013 2:34 PM 1

600 Shares XYYZ Stock Purchases Transactions 9/17/2013 3:03 PM 1

John Doe Name Employee 1

202-555-1212 Telephone # Investor Information 1

Jame Smith Name Investor Information 2

2/1/76 Date of Birth Investor Information 2

3634-56 Account # Investor Information 2

1200 Shares ABBC Stock Sales Transactions 6/24/2013 8:16 AM 2

280 Shares QQWD Stock Purchases Transactions 6/24/2013 11:11 AM 2

160 Shares XYYZ Stock Purchases Transactions 6/24/2013 2:36 PM 2

917-555-2121 Telaphone # Investor Information 2

Page 12: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

12

O. B

ouss

aid20

17

Les Data LakesT23

Ges

tion

des d

onné

esm

assiv

es

qUn data lake est une méthode de stockage des données utilisée par le Big data. Le

principe étant d'avoir dans un lieu des données de natures différentes : fichiers,

blobs… (d’après Wikipedia)

qLa Data Lake est reconnu comme une façon de stocker de très grands volumes de

données, où les schémas et les besoins d’analyses (ou d’exploitation) ne sont

connus qu’au moment de l’utilisation des données.

Définition… ou plutôt des définitions

O. B

ouss

aid20

17

Les Data LakesT24

Ges

tion

des d

onné

esm

assiv

es

qDans un Data Lake la donnée peut être brute ou affinées.

qL’absence de schémas des flux entrant dans le Data Lake donne une réelle

flexibilité à la donnée et à ses éventuels traitements.

qDans un Data Lake, la donnée n’a pas de valeur, encore.

qC’est à l’issue de son (ou ses) traitement.s que la valeur sera créée.

qC’est ainsi que le Data Lake contribue aux cycles d’innovation dans l’entreprise.

Définition… ou plutôt des définitions

Page 13: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

13

O. B

ouss

aid20

17

Les Data LakesT25

Ges

tion

des d

onné

esm

assiv

es

qLa Data Lake absorbe des flux de données. Ces dernières sont rendues utilisables au

moment de leur exploitation (analyses).

qAinsi, la transformation des données ne survient qu’après leur chargement (E.L.T. plutôt

que E.T.L.)

qLa transformation s’effectue en fonction du besoin de l’analyse envisagée.

qA chaque utilisateur (consommateur) d’exprimer son besoin d’analyse et d’y puiser les

données sources nécessaires.

Méthodologie… ou support de stockage ?

O. B

ouss

aid20

17

Les Data LakesT26

Ges

tion

des d

onné

esm

assiv

es

qPour les entrepôts, les données sont poussées vers l’utilisateur sous forme de data-martscorrespondant à des besoins spécifiques, selon une str ucturation préalablementdéfinie.

qDuplication des données de production avant leur ingestion dans une structuremultidimensionnelle (Silos de données).

qDans les Data Lakes, l’analyse des données se fait sur le données opérationnelles.

qLes flux de données sont ingérés en temps réels.

qLes applications (BI ou autres) peuvent interagir avec les données pour en créer desvaleurs.

qLes Data Lakes ’’décloisonnent’’ les données pour être accessibles à toute sorted’application : au contraire des silos de données construits spécifiquement pour la BI.

Méthodologie… ou support de stockage ?

Page 14: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

14

O. B

ouss

aid20

17

v Business Intelligence to Business Analytics

Exploitation  des  données   directement  (Business  Analytics)  ou  indirectement  (Business  Intelligence)

Socle  Big data  :  intégration  en  temps  réel  

des  flux  de  données  structurées  et  non  structurées,  NoSQLet  relationnelles.

Données   sources  (internes,  externes,  structurées,  

non  structurées)

La  Business  Intelligence  (  BI  )

O. B

ouss

aid20

17

Les Data LakesT28

Ges

tion

des d

onné

esm

assiv

es

qLes données passent par un pipe pour être cataloguées (métadonnées), tout en

restant non structurées.

qCes métadonnées sont importantes pour la gouvernance des données.

qLe ‘’Schema On Read’’ n’impose aucune structuration aux données leur maintenant

ainsi leur aspect originel. Cette flexibilité assure ainsi une exploitation des données soit

à des fins d’analyse, soit pour développer des applications.

qLe traitement des données au sein même du Data Lake permet des déclinaison métiers

diversifiées.

qL’application de techniques d’exploitation sophistiquées aux flux entrant dans le Data

Lake rend celui-ci très proactive.

Méthodologie… ou support de stockage ?

Page 15: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

15

O. B

ouss

aid20

17

Les Data LakesT29

Ges

tion

des d

onné

esm

assiv

es

qEvolution de la perception des données au sein des entreprises.

qGouvernance des données : systématiser la collecte des données qui deviennent

massives, les centraliser sous forme de plateforme fédérative ; en définir une stratégiedata.

q La stratégie data au service des cycles d’innovation des process dans les entreprises.

q Terrains d’applications :

q Le marketing : Collecter de nombreuses données sur le client, ses habitudes, son

profile ; croisement avec d’autres sources de données pour prédire son

comportement futur : vision à 360° du client.q L’industrie : collecter de nombreuses et diverses sources de données liées aux

processus de fabrication de produits, à leurs usages, pour améliorer ces derniers.

Méthodologie… mais pour quelles fins ?

O. B

ouss

aid20

17

Les Data LakesT30

Ges

tion

des d

onné

esm

assiv

es

qAu défi du stockage et du traitement des données, s’ajoutent la data visualisation, les

techniques de Machine learning, la gouvernance des données, Traitements en temps

réels.

qUne nouvelle vision de la data par les entreprises : Data Globale platform.

qBesoin de plus de ressources de stockage et de puissance de calcul : Cloud Computing.

qDéploiement d’un Data Lake sur un environnement distribué : le Cloud

qDisponibilité de produits sur le cloud (PaaS) permet une utilisation du Data Lake plus

rationnelle.

qApproche graduelle (Cloud) préférée à une approche ‘’on-premise’’ (locale)

Méthodologie… mais pour quelles fins ?

Page 16: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

16

O. B

ouss

aid20

17

Les Data LakesT31

Ges

tion

des d

onné

esm

assiv

es

q ‘’If you think of a datamart as a store of bottled water – cleansed and packaged andstructured for easy consumption – the Data Lake is a large body of water in a more naturalstate. The contents of the Data Lake stream in from a source to fill the lake, and varioususers of the lake can come to examine, dive in, or take samples.’’

James Dixon , Pentaho CTO, https://en.wiktionary.org/wiki/data_lake

qJ. Dixon propose alors un nouveau concept pour organiser et stocker les Big data : le DataLake, qui est un repository centralisé de données massives (Big data), facilementaccessibles.

qDans un Data Lake, toutes les données sont emmagasinées, même celles dont on ignorecomment elles seront utilisées.

qAlors que dans les approches classiques (BI) seuls certains attributs (significatifs) sontexploités de plus sous une forme agrégée.

Une parabole sur les Data Like

O. B

ouss

aid20

17

Les Data LakesT32

Ges

tion

des d

onné

esm

assiv

es

qLe Data Lake doit être accessible et manipulable au travers d’une infrastructurepartagée.

q Celle-ci doit permettre d’interagir avec les données.

qLes sources de données sont ‘’déversées’’ dans le Data Lake.

qLa création de la valeur de la donnée se fait selon diverses axes de rechercher (axesd’observation).

qAvènement du Data Brain.

qOn applique à la donnée une ‘’intelligence’’ (ou un savoir-faire) pour en créer la valeurescomptée.

qOn en crée des ‘’modèles de données’’.

qCes modèles de données sont alors croisés avec d’autres information pour engendrerune ‘’perspicacité prédictive’’.

qUn Data Brain est un système possédant la capacité de se projeter.

Méthodologie d’exploitation des Big data

Page 17: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

17

O. B

ouss

aid20

17

Les Data LakesT33

Ges

tion

des d

onné

esm

assiv

es

qUn Data Lake est un repository de stockage contenant une très grande quantité dedonnées originelles dans leurs formats natifs, pouvant être structurées, semi-structurées ounon structurées.La structure de la donnée et son traitements (analyses) ne sont définis qu’au moment deson utilisation.

qLa limitation des entrepôts de données est dûe au fait qu’ils stockent des donnéesprovenant de diverses sources dans une structure spécifique et statique (silo de données)et des catégories qui désignent le type d’analyses possibles à effectuer sur les données àpartir de n’importe quel point d’entrée.

qCeci était valable pour la BI durant des décennies. Les analyses sont effectuées sur desBD propriétaires et dont le focus se restreint aux reportings, aux dashboards avec deschemins d’interactions prédéfinis.

Data Lakes vs Data Warehouses

O. B

ouss

aid20

17

Les Data LakesT34

Ges

tion

des d

onné

esm

assiv

es

qDans le cas d’un entrepôt de données, on connaît déjà les questions auxquelles on veutrépondre, et cela dès sa construction.

qAlors que les véritables questions émergent au cours des analyses.

qPour une data discovery réelle et pertinente, il est essentiel d’avoir une capacité denaviguer partir de certaines données (point d’entrée), ou d’un scénario donné, selondifférentes directions tout en sélectionnant des données (slicing & dicing) appropriées,correspondant un raisonnement.

qExemple de Big data discovery :Ø ‘’On souhaite analyser le total des recettes des ventes sur Internet en France,

durant l’année 2016’’, à partir d’une BD transactionnelle.Ø On souhaite décliner ces informations selon les différents départements et les

données socio-professionnelles des acheteurs, à partir d’une BD CRM.Ø On voudrait procéder à la corrélation avec des campagnes publicitaires, à partir

d’une plateforme publicitaire.Ø On voudrait analyser les dépenses marketing, et naviguer de là, pour évaluer

l'impact de l'efficacité et des délai s de livraisons (logistique) sur les venteseffectuées, à partir des données GPS des véhicules.

Data Lakes vs Data Warehouses

Page 18: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

18

O. B

ouss

aid20

17

Les Data LakesT35

Ges

tion

des d

onné

esm

assiv

es

Data Lakes vs Data Warehouses Silo de données

O. B

ouss

aid20

17

q Nécessite beaucoup de ressources :q complexité des algorithmes et préparation des données

q non adapté à des analyses répétitives où les données doivent être recalculées à chaquenouvelle étude.

q Difficultés de mise en place : il faut repenser le fonctionnement des systèmesde données (qui fait quoi, comment…).

q Sécurité : problèmes liés à l’accès aux données sensibles.

Les Data Lakes

Les limites des Data Lakes

Page 19: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

19

O. B

ouss

aid20

17

q Absence de gouvernance des données :Sans une structure et les contrôles n écessaires pour gérer et maintenir la quali té, la cohérence et laconformité des données, un Data Lake peut rapidement se transformer en un marécage de données.

q Faible accessibilité :Bien que les données puissent être disponibles, leur valeurs sont limitées si les utilisateurs sont incapablesde trouver les données ou de les comprendre.

q Mauvaise qualité des données et traçabilité:Les utilisateurs doivent connaître le contexte des données et savoir d'où elles viennent d’avoir uneconfiance complète aux données.

q Manque de sécurité des données :Les données chargées dans un Data Lake sont sans aucune surveillance. Cela peut entraîner desrisques de conformité

Les Data Lakes

Les pièges liés aux Data Lakes

O. B

ouss

aid20

17

Les Data LakesT38

Ges

tion

des d

onné

esm

assiv

es

Data Lakes à travers un diagramme SWOT

StrengthsLower costs

One-­stop data  shopping

OpportunitiesDiscovery

Advanced  analysis

WeaknessesData  management

Security  

ThreatsStatus quo  Skills

Page 20: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

20

O. B

ouss

aid20

17

Les Data LakesT39

Ges

tion

des d

onné

esm

assiv

es

Data Lakes vs Data Warehouses

Entrepôts de données Data Lakes

Donnée Structurée, traitée Structurée, semi-structurée, non structurée, originelle

Traitement Schema-On-Write Schema-On-Read

Stockage Coûteux pour les grands volumes de données Conçus pour un stockage pas coûteux

Agilité Moins agile, structure figée Hautement agile, configuration et reconfiguration à volonté.

Sécurité mature En cours de maturation

Utilisateurs Professionnels (BI) Data scientistes et autres.

O. B

ouss

aid20

17

Les Data LakesT40

Ges

tion

des d

onné

esm

assiv

es

Data Lakes vs Data Warehouses

Axe Data Warehouse Data Lake

Intelligence et Modélisation

Modélisation nécessaire en amont (ETL, structuration). Intelligence avant la requête. Idéal si les besoins sont connus en avance.

Pas de modélisation, identification par métadonnées.Intelligence : algorithmes de restitution.Idéal lorsque les données ne sont pas clairement identifiées.

Objectivité des données

Représente une certaine vision et les priorités de l’entreprise.Les données sont sélectionnées et traitées.

Pas de valeurs associées aux données à priori.Les données restent inchangées : préservation de la fidélité des informations.

Maintenance et évolution de structure

Modification de structure complexe et coûteuse.Nécessite de redéfinir la modélisation.

Permet des associations nouvelles et sans limite. Toute donnée est automatiquement intégrée.

Méthodes d’accèsSQL standard, outils BI accessibles.Requêtes par « recherche », complexité potentielle dans les jointures.

Non standard, plus complexe à mettre en place mais flexible. Nécessite des compétences.Requête par mise à l’échelle, focus sur une fenêtre de données.

Batch processingPossibilités d’interrogations multiples grâces aux technologies avancées (optimisation, système de transaction, data-marts).

Dépend du volume de données demandé et de l’algorithme utilisé.

Page 21: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

21

O. B

ouss

aid20

17

Les Data Lakes : Stratégie d’implémentationT41

Ges

tion

des d

onné

esm

assiv

es

q Vers l’’’élargissement’’ ou la ’’mutation’’ du patrimoine informationnelle de l’entreprise ?

q Mise en place d’une stratégie d’unification et de qualification du patrimoine desdonnées dans une approche agile et incrémentale :

1. Mise en œuvre d’un Data Lake

2. Data preparation : pour transformer et normaliser les données dans le Data Lake

3. Mise en place d’un ‘’DataLab’’ pour les métiers et la data scientistes

4. Intégrer dans une approche agile et incrémentale dans l’entrepôt de données

Jean-Louis Haste (Business & Decision)

Du Data Warehouse au Data Lake : évolution du décisionnel

O. B

ouss

aid20

17

Les Data LakesT42

Ges

tion

des d

onné

esm

assiv

es

q La qualification des données est une nécessité tant sur leur fiabilité que sur la valeurajoutée.

q Stockage et indexation des données au fil de l’eau (sans transformation) :

qMise en place d’un suivi et une traçabilité des donnéesJean-Louis Haste (Business & Decision)

Données Ingestion dans le Data LakeVariées et volumineuses Hébergées et indexées nativement sur des

plateformes Big data (hadoop, Spark…)Logs, semi-structurées, BD NoSQL

Utiliser des moteurs d’indexation (Elastic Serachn, Splunk…)

Non structurées Utiliser des moteurs d’indexation avec analyse sémantique NLP (Natural Language Processing)

1. Mise en œuvre d’un Data Lake

Page 22: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

22

O. B

ouss

aid20

17

Les Data LakesT43

Ges

tion

des d

onné

esm

assiv

es

q Il s’agit d’utiliser des outil s de ’’Data preparation’’ pour qualifier la qualité desdonnées.

qUtilisation des fonctionnalités de ‘’recommandations’’ ou des routines ré-exécutables

q Transformation des donnés selon une approche ‘’ E – L – T ’’.

q Conserver les données apurées et transformées sur la même plateforme que celledu Data Lake, dans des dossiers distincts.

qUtilisation de fonctions de ’’Data Lineage’’, pour gérer les cycles de transformationset d’ingestion des données dans le Data Lake.

Jean-Louis Haste (Business & Decision)

2. Data preparation : pour transformer et normaliser les données dans le Data Lake

O. B

ouss

aid20

17

Les Data LakesT44

Ges

tion

des d

onné

esm

assiv

es

q Le ‘’Datalab’’ est un espace dédié à l’expérimentation et à la qualification’’fonctionnelle’’ des données.

q Le ‘’Datalab’’ peut se trouver sur une plateforme de calcul distribué (Hadoop,Spark…)

qLes données sont déjà préparées (arborescences, axes) en amont, pour fluidifier lesanalyses.

qDes connecteurs doivent être positionnées sur l’entrepôt de données et les BD deproduction, pour effectuer des analyses croisées.

Jean-Louis Haste (Business & Decision)

3. Mise en place d’un ‘’DataLab’’ pour les métiers et la data scientistes

Page 23: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

23

O. B

ouss

aid20

17

Les Data LakesT45

Ges

tion

des d

onné

esm

assiv

es

qLa connexion du Data Lake et du data warehouse peut poser des problèmes du fait dela rigidité de la structure de ce dernier.

qRecours à une modélisation agile de l’entrepôt ; utilisation de ‘’Data Vault’’ ou d’‘’Anchor model’’

q Trouver un équilibre entre les données du Data Lake et celles de l’entrepôt.

qLe Data Lake sert ainsi à des analyses ponctuelles «on demand» et non industrialisées.

qLe data warehouse sert des besoins récurrents et industrialisés.

qLa conception incrémentale et scalable du Data Lake et l’évolution agile du datawarehouse permettent d’étendre l’architecture décisionnelle existante dans uneentreprise.

Jean-Louis Haste (Business & Decision)

4. Intégrer dans une approche agile et incrémentale dans l’entrepôt de données

O. B

ouss

aid20

17

46 ´ Les Data Lakes

qUN : Prise en charge de données scalables et leur ingestion

qDEUX : Amélioration de la capacité d’analyse

q TROIS : Collaboration DWH et Data Lake

qQUATRE : Pleine adhésion et acquisition de maturité

Quatre phases importantes pour la création d’un Data Lake

Page 24: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

24

O. B

ouss

aid20

17

47 ´ Les Data Lakes

Hadoop : Plateforme de déploiement d’un Data Lake

O. B

ouss

aid20

17

48 ´ Les Data Lakes

qLa BI (classique) ne peut pas se cantonner à son rôle (exclusif) de productions de rapports

q "De l’hypothèse et des tests avec les données sélectionnées" à l’exploration de toutes lesdonnées et l’identification de toutes les corrélations. (Claudio Borlo, DSI, Rexel)

qLe Big Data : opportunité pour l’évolution de la BI (Buisness Analytics)

q La BI moderne devient une architecture de référence. Elle permettra de procéder à :

q L’analyse en libre-service.q Un accès facile à l’exploration des données à davantage de personnes.q Elle offre également de sérieux arguments en termes de gouvernance (scalabilité,

performances, sécurité).

De la BI classique à la BI moderne

Page 25: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

25

O. B

ouss

aid20

17

49 ´ Les Data Lakes

qLes DWH sont conçus pour résumer (agréger) de grandes quantités de données pour fournirdes informations exploitables sur les tendances commerciales ou le marketing.

qLes DWH fournissent une fenêtre sur le passé, qu'il s'agisse d'informations quotidiennes,hebdomadaires ou mensuelles.

qLes entreprises ont de plus en plus besoin de décisions immédiates.

qLa nécessité de disposer d'informations à jour pendant la journée augmente rapidement.

Real Time Data Warehouse or Active Data Warehouse

O. B

ouss

aid20

17

50 ´ Les Data Lakes

Il y a 3 types de latence dans un processus d’aide à la décision

qData latency : période de temps nécessaire pour collecter les données à partir de leurs sources, de les préparer pour l’analyses, et de les sauvegarder dans une DWH ou un data center.

qAnalytic latency : période de temps nécessaire pour accéder et analyser les données afin de les transformer en information, appliquer des règes d’affaires (business rules).

qDecisional latency : période de temps nécessaire pour interpréter les analyses, décider des actions à entreprendre et exécuter ces dernières.

Active Data Warehouse ou Real Time Data warehouse

Page 26: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

26

O. B

ouss

aid20

17

51 ´ Les Data Lakes

Latence dans un processus d’aide à la décision Latence dans une RTBI

O. B

ouss

aid20

17

52 ´ Les Data Lakes

q Le degré de latence dans un système de BI est l'un des problèmes les plus importants.

q Les systèmes BI doivent four nir des informations adéquates au bon format, aux bonnespersonnes, et au bon moment, afin d’optimiser les décisions.

q Right Time plutôt que Real Time.

q Le Right Time implique que différentes situations et événements professionnelsnécessitent des temps de réaction ou d'action appropriés.

qR T B I :Right Time Business Intelligence

Active Data Warehouse ou Real Time Data warehouse

Page 27: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

27

O. B

ouss

aid20

17

53 ´ Les Data Lakes

q La RTBI exploite des données opérationnelles avec une latence nulle et fournit desmoyens pour propager les actions dans les processus métiers en temps réel

q La BI classique présente des données historiques pour l'analyse manuelle, RTBIcompare les événements (business events) actuels avec les données hi storiques pourdétecter automatiquement les problèmes ou les opportunités.

qLa RTBI permet ainsi d’automatiser les analyses.

qL’automatisation des analyses permet d'initier des actions correctives et/ou d'ajusterles règles métier pour optimiser les processus métier.

qLa RTBI, ou les entrepôts de données actifs, c’est une combinai son des technologiesrapides avec des processus métier rapides.

Active Data Warehouse ou Real Time Data warehouse

O. B

ouss

aid20

17

54 ´ Les Data Lakes

Information Difference Research Study, January2015

Page 28: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

28

O. B

ouss

aid20

17

55 ´ Les Data Lakes

Information Difference Research Study, January2015

O. B

ouss

aid20

17

56

Page 29: T1 Gestion des données massiveseric.univ-lyon2.fr/~boussaid/wp-content/uploads/2017/03/...2017/03/01  · 17/03/2017 1 d 2017 Du Data Warehouse au… Data Lake L’avènement de la

17/03/2017

29

O. B

ouss

aid20

17

v Architecture  d’un  SI  Décisionnel

La  Business  Intelligence  (  BI  )

Entrepôt  de  données

Méta  données

Data  Marts

Administrateur

OLAP

Data  Mining

Analyses  statistiques

E                  TL        

Bases  de  

production

OLAP  Reporting