IBM Data lake

of 29 /29
Christophe Bertin Avant-Vente IBM MDM [email protected] +33 676756751 La Gouvernance : clé pour le succès des initiatives Analytics

Embed Size (px)

description

Concept du Data Lake présenté par Christophe BERTIN

Transcript of IBM Data lake

  • 1. Christophe Bertin Avant-Vente IBM [email protected] +33 676756751La Gouvernance : cl pour le succs des initiativesAnalytics

2. Les donnes font la richesse mtier de demainWe will lookback on thistime and look atdata as anaturalresource thatpowered the21st centuryGinni RommetyIBM CEOFebruary 2014 3. 80% des donnesexistantes sont desdonnes nonstructures 4. 80% des donnesexistantes sont desdonnes nonstructuresh12% des donnessont utilises 5. 80% des donnesexistantes sont desdonnes nonstructuresh12% des donnessont utilisesh20% de cesdonnes sontconsidrescomme fiables 6. Une nouvelle faon de grer BIG DATA des donnes avec leTouttypededonnesBeaucoupdevolumeDesinformationsprcieusesmaisdifficilesextraireSouventtrssensiblesautemps 7. Quels sont les apports d'une plate-forme Big Data?AnalyserdesinformationsvariesIntgrerdansdenouvellesanalysesdesinformationsquinel'taientpasavantAnalyserdesinformationsenmouvementUtiliserlestreamingdanslesanalysesLancerdesanalysessurdesdonnesenmouvementAnalyserdefortvolumed'informationLancerdesanalysessurdesvolumesgigantesquesd'informationenrduisantlecotdeceprocessusGreretanalyserdefortsvolumesdedonnesstructuresetrelationnellesDcouvriretExprimenterUtiliserl'analyseAd$hoc,larecherchedanslesdonnesexistantesetl'exprimentationGrerPlanifierIdentifierlastructuredesdonnes,l'intgritetlecontrlepourassurerlacohrencedesrequtesrptitives 8. L'apport de IBM avec InfoSphere BigInsights Scalable De nouveaux noeuds peuvent treajouts au fil de l'eau Abordable Traitement massivement paralllesur des serveurs standards Flexible Hadoop ne ncessite pas de schmade donnes et peut donc stocker touttype de donnes Tolrantlapanne A l'aide d'un framework de traitementparallle MapReduce+ IBMInnovation Performancefiabilit Adaptive MapReduce, Compression,BigIndex, Scheduler flexible Acclrateurspourl'analytique Acclrateurspourlaproductivit cran de gestion Web Outils de gestion volus cran de visualisation mtier Intgrationdansl'Enterprise Pour tendre et enrichir la chained'information 9. Les nouveaux scnarios mtiers qui mergentLes experts mtiers veulent un accs souple aux informations gnres par leurs organisationsau travers d'outils d'exploration, de slection et d'annotation aux informations tout en utilisantleur propre terminologie et en appliquant un contrle plus strict dans cette information. Parexemple :Les Data Scientists recherchent des donnes pouridentifier de nouveaux modles analytiquesLes Marketeurs recherchent des donnes pour denouvelles campagnesLes Gestionnaires de Fraude recherchent desdonnes pour mieux comprendre les activitssuspectes Activit au jour le jour. Donner un accs spcifique sur unegrande varit de sources d'information Amliorer les analyses et les prises dedcision Utiliser les terminologies mtiers.Mettre disposition un tableur capabled'voluer grands volumes, avec unegrande varit de types d'informationstout en protgeant les informationssensibles et en optimisant le stockage etl'alimentation des donnes.Mettre disposition un tableur capabled'voluer grands volumes, avec unegrande varit de types d'informationstout en protgeant les informationssensibles et en optimisant le stockage etl'alimentation des donnes. 10. Data LakeLa mise en place du concept du Data LakeLes utilisateurs mtiers veulent Des outils d'analyse et de visualisation plus puissants Un accs ouvert plus d'informationsL'quipe IT s'inquite des cots induits De la gouvernance et des exigences rglementairesUndatalake,paroppositionundatawarehouse,contientunensemblededonnesnonstructuresoumulti$structuresquipourlaplupartnonpasencoretreconnuescommedonnesdevaleurpourl'entrepriseetquisontstockessousuneformebrute.Al'opposdesdonnesdudatawarehousequisontcenssavoirtnettoyesetconvertiesdesfinsd'analyseoupourdesapplicationsspcifiques,lesdonnesbrutesrsidantdanslesDataLakesontenattented'applicationoud'analysepourdcouvrirleurvaleur.Undatalake,paroppositionundatawarehouse,contientunensemblededonnesnonstructuresoumulti$structuresquipourlaplupartnonpasencoretreconnuescommedonnesdevaleurpourl'entrepriseetquisontstockessousuneformebrute.Al'opposdesdonnesdudatawarehousequisontcenssavoirtnettoyesetconvertiesdesfinsd'analyseoupourdesapplicationsspcifiques,lesdonnesbrutesrsidantdanslesDataLakesontenattented'applicationoud'analysepourdcouvrirleurvaleur. 11. La notion de Data Rservoir Un Data reservoir est un data lake qui met disposition de l'information uneorganisation pour permettre la mise enplace de plusieurs typologie d'analyse : Dcouverte et exploration des donnes Analyses complexes pour la prise de dcision Reporting Analyse temps rel Il est possible de dclencher de nouvellesanalyses depuis les donnes du DataReservoir pour crer de nouvelles valeursmtier. Un data reservoir met en place la notion derfrentiel d'information partages. Chaque Rfrentiel du Data Reservoir estoptimis pour un certain type detraitement. Analyses en temps rel, d'analyse complexe(comme le data mining), les analysesexploratoires, OLAP, reporting, ...Data Reservoir ServicesData Reservoir RepositoriesInformation Management and Governance FabricData Reservoir Les donnes de valeur peuvent trerpliques dans plusieurs rfrentiels du datareservoir. Cependant, le data reservoir doits'assurer que cette donnes copie oumodifie est correctement gre etgouverne . L'information contenue dans le data reservoirdoit tre rendue accessible via diffrentstypes d'interfaces ) travers des DataReservoir Services. 12. Schma logique du Data reservoirLine of BusinessApplicationsDecision ModelManagementGovernance, Risk andCompliance TeamSimple,Ad HocDiscoveryandAnalyticsReportingE v ents toE v a lua teInforma tionS erv ic e C a llsD ata FeedOutD a ta FeedInUnders tandInforma tionS ourc esS ea rchReques tsInforma tionS erv ic e C a llsInformationCuratorUnders tandInforma tionS ourc esD eployD ec is ionModelsUnders tandC omplianc eReportC omplianc eInforma tionS erv ic e C a llsD a taE x portAdv ertis eInforma tionS ourc eInforma tionFedera tionC a llsD eployRea l-timeD ec is ionModelsD eployRea l-timeD ec is ionModelsMobile and otherChannelsSupportServicesOtherData ROestheervroirsData LakesInter-la keE x chang eData Reservoir OperationsC ura tionIntera c tionMana g ementNotif ic a tionsD a taImportEnterprise ITSystem of RecordApplicationsFront OfficeApplicationsBack OfficeApplicationsEnter prise Service BusNew SourcesThird Party FeedsThird Party ServicesInternal Sources100010101101101Data Reservoir 13. La problmatique de la gouvernance de l'information Au moment de la collecte : Peut-on prserver la validit del'information? Sait-on identifier ce que l'on collecte? Peut-on identifier l'information donton aura besoin? Comment peut-on introduire de laconfiance dans le Data Lake? Connait-on vraiment l'usage desdonnes? Ne cre-t-on pas un marais? 14. Schma logique du Data reservoirLine of BusinessApplicationsDecision ModelManagementGovernance, Risk andCompliance TeamSimple,Ad HocDiscoveryandAnalyticsReportingE v ents toE v a lua teInforma tionS erv ic e C a llsD ata FeedOutD a ta FeedInUnders tandInforma tionS ourc esS ea rchReques tsInforma tionS erv ic e C a llsInformationCuratorUnders tandInforma tionS ourc esD eployD ec is ionModelsUnders tandC omplianc eReportC omplianc eInforma tionS erv ic e C a llsD a taE x portAdv ertis eInforma tionS ourc eInforma tionFedera tionC a llsD eployRea l-timeD ec is ionModelsD eployRea l-timeD ec is ionModelsMobile and otherChannelsSupportServicesOtherData ROestheervroirsData LakesInter-la keE x chang eData Reservoir OperationsC ura tionIntera c tionMana g ementNotif ic a tionsD a taImportEnterprise ITSystem of RecordApplicationsFront OfficeApplicationsBack OfficeApplicationsE nterprise Service BusNew SourcesThird Party FeedsThird Party ServicesInternal Sources100010101101101Data ReservoirData ReservoirReportQueriesCatalogInterfacesRaw DataInteractionDataRefineriesView-basedInteractionInformation IntegrationGovernanceD a taE x portD ataImportData ReservoirRepositories 15. L'intgration des donnes est une opration succs d'un projet Hadoop critique dans leExtract, Transform, and Load Big Data With Apache Hadoop - White Paperhttps://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdfPour laplupartdescomptes80% de l'effort de dveloppementd'un grand projet dedonnes va dansl'intgration de donnesVa vers l'analyse desdonnes.etseulement 20%La plupart desinitiatives Hadoopimpliquent lacollecte, ledplacement, latransformation, lenettoyage,l'intgration,l'exploration etl'analyse d'unvolume importantde sources et destypes de donnesdisparates. 16. Que mettre en oeuvre pour rsoudre d'intgration ? ce problmeHadoop n'est pas uneplate-formed'intgration dedonnes, 80% destravaux concernentl'intgration pour lequelMapReduce est lentLes facteurs cls de succs d'un projetd'intgration dans le big dataPour passer en production,vous avez besoin de vousassurer d'avoir pris encompte tous les besoinsd'intgration : Le codagemanuel ne permet pasd'atteindre l'objectif descalabilit, flexibilit, ou deperformanceL'ELT seul n'est pas suffisantpour rpondre la plupartdes exigences dintgration,parce que vous ne pouvezpas pousser toute la logiquede l'intgration de donnesdans l'entrept de donnesou dans Hadoop 17. Nous avons adapt notre catalogue gouvernance de l'information au pr idme gtrees dtiuo nB dige Dlaa ta 18. IdnafnosS pleh eBrieg DDaattaaStage est une plate-forme sre pour s'intgrer AdaptableEstcapabledepanachersonapproched'intgrationenutilisantlescapacitsnativesd'ETL,d'ELTainsiquedployerdesjobsdansHadoop DynamiqueetextensibleGagneinstantanmentdelaperformancedsqu'uneressourcematriellesupplmentaireluiestalloue PartitionnementdesdonnesEnvraigestionparallle(commeHadoop),ladonneestmaintenuedansl'outild'intgrationetstockeenparalllepourpermettrelascalabilit IntgrationHadoopPousseztoutoupartieduprocessusversHadooppourprofiterdesonvolutivitenmodeELT.SSoouurrcceeDDaattaaSSoouurrcceeDDaattaaSequentialDDiisskkCCPPUUMMeemmoorryyTTrraannssffoorrmm CClleeaannssee EEnnrriicchhEEEEDDDDWWWW4-way Parallel 64-way ParallelDDisiskkCCPPUU CCPPUUCCPPUU CCPPUUSharedMemorySharedMemoryUniprocessor SMP System MPP Clustered System 19. Comprendre donner du co Cntoelxlateb oerte dre la pertinence aux informations du data lakeShop for DataPermet toututilisateur detrouver des sourcesde donnescontextualises etd'explorer lesdtails pouridentifier lesdonnes les pluspertinentesSmart HoverVoirinstantanment unsommaired'information surles donnesCollectShareOrganiser lesdonnes encollections, yajouter ducontexte, et lespartager avecd'autres [email protected] outil delinage graphiquepour rendre les fluxd'entreprise plusoprationnels etlisiblesRduction de la complexitRduction de la complexitMeilleure supervisionMeilleure supervisionAgilitAgilitComprhensionComprhensionInformationGovernanceCatalog 20. IBMInfosphere, les clefs de la construction d'un Data ReservoirInformationIntegration GovernanceInformationBrokerS ta g ing Are a s Monitor Work f ol wOperationalGovernanceHubCodeHub Le data reservoir a besoin d'une gouvernance et d'une gestion du changementpour s'assurer que l'information est protge et gre de manire efficace. La premire tape dans la cration du reservoir est d'tablir les rglesd'intgration et de gouvernance, de mettre en place les staging areas, lecatalogue des mtadonnes et une terminologie commune. La construction s'opre ensuite de manire itrative : tablissement de la gouvernance autour d'un sujet mtier. Mise en place de la gestion des sources d'information Mise en place des vues mtiers Etablissement des premires analyses Mise en place des rgles de gestion oprationnelles 21. Exemple d'utilisation classique sur la gouvernance de notre approche Etablir les principes de lagouvernance (rles,rgles, acteurs...) Etablir le dictionnairemtierInformationGovernanceCatalog Travailler les mtadonnes (Cration, regroupement, classification,annotation et surtout lien avec le dictionnaire mtier) Lier les mtadonnes et le dictionnaire aux diffrents jobsd'extraction 22. Les bnfices courts et long termes apports Identifier des assets en utilisant une terminologie mtier Utiliser des requtes pour localiser des sources d'information Identifier des sources d'informations en utilisant des tags Identifier des sources d'informations en utilisant des collections Explorer et accder rapidement l'informationRcuprer rapidement des donnes dans dessandbox en utilisant le dictionnaire mtierpour identifier les sources d'information utiliser 23. Pour aller plus loindans lacomprhension desinformationsComment viter laconfusion et biencerner le sens del'information entravaillant la notion decontexte 24. Commentredonnerdusensauxdonnesfortevaleurajoute:Clients, Produits, Contrats,Assets, Employs, Partenaires,sous-traitants Identifierlessimilitudes ConnectorFrameworkl'aided'algorithmesprobabilistesetyassocierdesdonnesdecontexte:Les flux web RSSLes donnes socialesLes CMSLes documents non structursEmails / Conversations 25. Annexe 26. Prochains Bootcamps 7/10Octobre:DataQualityFund.Bootcamp http://www$304.ibm.com/events/idr/idrevents/register.action?meid=16615ieid=11789 3/7Novembre:DataGovernancewithInfoSphereInformationServerBootcamp http://www$304.ibm.com/events/idr/idrevents/register.action?meid=4614ieid=12019 27. Une overview de l'architecture de rfrence BigData et Analytiquehttp://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/redp5012.html?Open 28. Dtail des approches disponibles scalabilit de l'intgration dans du p Boiugr Dfaactailiter laDansuneBDDAvantages: ExploitelemoteurMPPdelaBDD Minimiseletransfertdedonnes Utiliselacapacitdeliensetd'agrgationdesBDD Marchetrsbienavecdesdonnespropres LibredelaressourceETL UtiliseaumieuxlesressourcesdelaBDD LemoteurdeBDDestplusrapidesurcertainsprocessusInconvnients: Matrieletstockagetrscher Peuncessit100%derecoursl'ELT DgradationdesSLAdesquery Toutelalogiqued'unETLnepeuttrereproduiteautraversdesBDD(ncessitel'utilisationd'unoutild'ETLouderequtesSQLcodeslamain) Nepeututiliserdesserveursstandards Necessitedelaprogrammation Estlimitpourlestransformationscomplexes Estlimitpourlesoprationsdenettoyage LemoteurdeBDDestmoinsperformantsurcertainsprocessus L'ELTpeutconsommerdesressourcesBDD(ilestdifficiledeplanifierl'allocationdesressources)Endehorsd'uneBDDoud'HadoopAvantages: ExploitelemoteurMPPdel'ETL Exploitedesserveursstandards Exploitedesgrillesdeserveurs Permetdestransformationscomplexes(datacleansing) LibrelesressourcesdesBDD Travaillesurdessourcesdedonneshtrognes(nonstockesdansdesBDD) LemoteurETLestplusrapidesurcertainsprocessusdetransformationInconvnients: LemoteurETLestmoinsperformantsurcertainsprocessus(donnesstockesdansdesbasesrelationnelles) PeuncessitdelaressourcesupplmentaireDesign Job OnceDansHadoopavecousansMapReduceAvantages: ExploitelemoteurMPPMapReduce Exploitedesserveursstandards LibrelesressourcesdesBDD Supporteletraitementdesdonnesnonstructures Exploitelespossibilitd'Hadooppourlapersistancedesdonnes (update et indexation) Cotrduitpourl'archivageetl'historisationInconvnients: Toutelalogiqued'unETLnepeuttrereproduiteautraversdesBDD(ncessitel'utilisationd'unoutild'ETLouderequtesSQLcodeslamain) Peuncessiterdelaprogrammationcomplexe MapReduceestgnralementmoinsrapidequ'unmoteurdeBDDparalllisouunETLencluster HadoopestunejeunetechnologieparencorearrivematuritRun and scale anywhere 29. Les acteurs embarqus dans le Data ReservoirGovernor; appoint an individual to coordinate the definition of policies related to information governance and theirimplementation.Information Steward; appoint an individual to coordinate the manual activity necessary to monitor and verify that aninformation collection is meeting agreed quality levels. Create user interfaces and access rights to involve this individual ininformation quality processes such as the exception management process.Quality Analyst; appoint an individual to monitor and analyze the state of the information flowing through the informationsupply chain.Integration Developer; maintaining the data movement functionality in, around and out of the data lake.Infrastructure Operator; appoint an individual responsible for starting, maintaining, and monitoring the systems thatsupport the information supply chain.100010101101101Data Scientist; appoint an individual to analyze the information that the organization is collecting in order to understandpatterns of success.Business Analyst; appoint an individual to analyze the way people are working, understand where the processes can beimproved, and define new procedures, rules, and requirements for the IT systems.Information Owner; appoint an individual to be the owner of the information collection who is responsible and accountablefor ensuring it is capable of supporting the organizations activities.Auditor; appoint an individual or team of individuals to review key aspects of how the organization is actually operating andcompare it with agreed processes.Information Worker; appoint individuals who are responsible for the manual steps in the core business activity. Create userinterfaces and access rights to provide these individuals access to the information supply chain through the informationprocesses.