IBM Data lake

download IBM Data lake

of 29

  • date post

    15-Jun-2015
  • Category

    Technology

  • view

    521
  • download

    1

Embed Size (px)

description

Concept du Data Lake présenté par Christophe BERTIN

Transcript of IBM Data lake

  • 1. Christophe Bertin Avant-Vente IBM MDMChristophe.bertin@fr.ibm.com +33 676756751La Gouvernance : cl pour le succs des initiativesAnalytics

2. Les donnes font la richesse mtier de demainWe will lookback on thistime and look atdata as anaturalresource thatpowered the21st centuryGinni RommetyIBM CEOFebruary 2014 3. 80% des donnesexistantes sont desdonnes nonstructures 4. 80% des donnesexistantes sont desdonnes nonstructuresh12% des donnessont utilises 5. 80% des donnesexistantes sont desdonnes nonstructuresh12% des donnessont utilisesh20% de cesdonnes sontconsidrescomme fiables 6. Une nouvelle faon de grer BIG DATA des donnes avec leTouttypededonnesBeaucoupdevolumeDesinformationsprcieusesmaisdifficilesextraireSouventtrssensiblesautemps 7. Quels sont les apports d'une plate-forme Big Data?AnalyserdesinformationsvariesIntgrerdansdenouvellesanalysesdesinformationsquinel'taientpasavantAnalyserdesinformationsenmouvementUtiliserlestreamingdanslesanalysesLancerdesanalysessurdesdonnesenmouvementAnalyserdefortvolumed'informationLancerdesanalysessurdesvolumesgigantesquesd'informationenrduisantlecotdeceprocessusGreretanalyserdefortsvolumesdedonnesstructuresetrelationnellesDcouvriretExprimenterUtiliserl'analyseAd$hoc,larecherchedanslesdonnesexistantesetl'exprimentationGrerPlanifierIdentifierlastructuredesdonnes,l'intgritetlecontrlepourassurerlacohrencedesrequtesrptitives 8. L'apport de IBM avec InfoSphere BigInsights Scalable De nouveaux noeuds peuvent treajouts au fil de l'eau Abordable Traitement massivement paralllesur des serveurs standards Flexible Hadoop ne ncessite pas de schmade donnes et peut donc stocker touttype de donnes Tolrantlapanne A l'aide d'un framework de traitementparallle MapReduce+ IBMInnovation Performancefiabilit Adaptive MapReduce, Compression,BigIndex, Scheduler flexible Acclrateurspourl'analytique Acclrateurspourlaproductivit cran de gestion Web Outils de gestion volus cran de visualisation mtier Intgrationdansl'Enterprise Pour tendre et enrichir la chained'information 9. Les nouveaux scnarios mtiers qui mergentLes experts mtiers veulent un accs souple aux informations gnres par leurs organisationsau travers d'outils d'exploration, de slection et d'annotation aux informations tout en utilisantleur propre terminologie et en appliquant un contrle plus strict dans cette information. Parexemple :Les Data Scientists recherchent des donnes pouridentifier de nouveaux modles analytiquesLes Marketeurs recherchent des donnes pour denouvelles campagnesLes Gestionnaires de Fraude recherchent desdonnes pour mieux comprendre les activitssuspectes Activit au jour le jour. Donner un accs spcifique sur unegrande varit de sources d'information Amliorer les analyses et les prises dedcision Utiliser les terminologies mtiers.Mettre disposition un tableur capabled'voluer grands volumes, avec unegrande varit de types d'informationstout en protgeant les informationssensibles et en optimisant le stockage etl'alimentation des donnes.Mettre disposition un tableur capabled'voluer grands volumes, avec unegrande varit de types d'informationstout en protgeant les informationssensibles et en optimisant le stockage etl'alimentation des donnes. 10. Data LakeLa mise en place du concept du Data LakeLes utilisateurs mtiers veulent Des outils d'analyse et de visualisation plus puissants Un accs ouvert plus d'informationsL'quipe IT s'inquite des cots induits De la gouvernance et des exigences rglementairesUndatalake,paroppositionundatawarehouse,contientunensemblededonnesnonstructuresoumulti$structuresquipourlaplupartnonpasencoretreconnuescommedonnesdevaleurpourl'entrepriseetquisontstockessousuneformebrute.Al'opposdesdonnesdudatawarehousequisontcenssavoirtnettoyesetconvertiesdesfinsd'analyseoupourdesapplicationsspcifiques,lesdonnesbrutesrsidantdanslesDataLakesontenattented'applicationoud'analysepourdcouvrirleurvaleur.Undatalake,paroppositionundatawarehouse,contientunensemblededonnesnonstructuresoumulti$structuresquipourlaplupartnonpasencoretreconnuescommedonnesdevaleurpourl'entrepriseetquisontstockessousuneformebrute.Al'opposdesdonnesdudatawarehousequisontcenssavoirtnettoyesetconvertiesdesfinsd'analyseoupourdesapplicationsspcifiques,lesdonnesbrutesrsidantdanslesDataLakesontenattented'applicationoud'analysepourdcouvrirleurvaleur. 11. La notion de Data Rservoir Un Data reservoir est un data lake qui met disposition de l'information uneorganisation pour permettre la mise enplace de plusieurs typologie d'analyse : Dcouverte et exploration des donnes Analyses complexes pour la prise de dcision Reporting Analyse temps rel Il est possible de dclencher de nouvellesanalyses depuis les donnes du DataReservoir pour crer de nouvelles valeursmtier. Un data reservoir met en place la notion derfrentiel d'information partages. Chaque Rfrentiel du Data Reservoir estoptimis pour un certain type detraitement. Analyses en temps rel, d'analyse complexe(comme le data mining), les analysesexploratoires, OLAP, reporting, ...Data Reservoir ServicesData Reservoir RepositoriesInformation Management and Governance FabricData Reservoir Les donnes de valeur peuvent trerpliques dans plusieurs rfrentiels du datareservoir. Cependant, le data reservoir doits'assurer que cette donnes copie oumodifie est correctement gre etgouverne . L'information contenue dans le data reservoirdoit tre rendue accessible via diffrentstypes d'interfaces ) travers des DataReservoir Services. 12. Schma logique du Data reservoirLine of BusinessApplicationsDecision ModelManagementGovernance, Risk andCompliance TeamSimple,Ad HocDiscoveryandAnalyticsReportingE v ents toE v a lua teInforma tionS erv ic e C a llsD ata FeedOutD a ta FeedInUnders tandInforma tionS ourc esS ea rchReques tsInforma tionS erv ic e C a llsInformationCuratorUnders tandInforma tionS ourc esD eployD ec is ionModelsUnders tandC omplianc eReportC omplianc eInforma tionS erv ic e C a llsD a taE x portAdv ertis eInforma tionS ourc eInforma tionFedera tionC a llsD eployRea l-timeD ec is ionModelsD eployRea l-timeD ec is ionModelsMobile and otherChannelsSupportServicesOtherData ROestheervroirsData LakesInter-la keE x chang eData Reservoir OperationsC ura tionIntera c tionMana g ementNotif ic a tionsD a taImportEnterprise ITSystem of RecordApplicationsFront OfficeApplicationsBack OfficeApplicationsEnter prise Service BusNew SourcesThird Party FeedsThird Party ServicesInternal Sources100010101101101Data Reservoir 13. La problmatique de la gouvernance de l'information Au moment de la collecte : Peut-on prserver la validit del'information? Sait-on identifier ce que l'on collecte? Peut-on identifier l'information donton aura besoin? Comment peut-on introduire de laconfiance dans le Data Lake? Connait-on vraiment l'usage desdonnes? Ne cre-t-on pas un marais? 14. Schma logique du Data reservoirLine of BusinessApplicationsDecision ModelManagementGovernance, Risk andCompliance TeamSimple,Ad HocDiscoveryandAnalyticsReportingE v ents toE v a lua teInforma tionS erv ic e C a llsD ata FeedOutD a ta FeedInUnders tandInforma tionS ourc esS ea rchReques tsInforma tionS erv ic e C a llsInformationCuratorUnders tandInforma tionS ourc esD eployD ec is ionModelsUnders tandC omplianc eReportC omplianc eInforma tionS erv ic e C a llsD a taE x portAdv ertis eInforma tionS ourc eInforma tionFedera tionC a llsD eployRea l-timeD ec is ionModelsD eployRea l-timeD ec is ionModelsMobile and otherChannelsSupportServicesOtherData ROestheervroirsData LakesInter-la keE x chang eData Reservoir OperationsC ura tionIntera c tionMana g ementNotif ic a tionsD a taImportEnterprise ITSystem of RecordApplicationsFront OfficeApplicationsBack OfficeApplicationsE nterprise Service BusNew SourcesThird Party FeedsThird Party ServicesInternal Sources100010101101101Data ReservoirData ReservoirReportQueriesCatalogInterfacesRaw DataInteractionDataRefineriesView-basedInteractionInformation IntegrationGovernanceD a taE x portD ataImportData ReservoirRepositories 15. L'intgration des donnes est une opration succs d'un projet Hadoop critique dans leExtract, Transform, and Load Big Data With Apache Hadoop - White Paperhttps://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdfPour laplupartdescomptes80% de l'effort de dveloppementd'un grand projet dedonnes va dansl'intgration de donnesVa vers l'analyse desdonnes.etseulement 20%La plupart desinitiatives Hadoopimpliquent lacollecte, ledplacement, latransformation, lenettoyage,l'intgration,l'exploration etl'analyse d'unvolume importantde sources et destypes de donnesdisparates. 16. Que mettre en oeuvre pour rsoudre d'intgration ? ce problmeHadoop n'est pas uneplate-formed'intgration dedonnes, 80% destravaux concernentl'intgration pour lequelMapReduce est lentLes facteurs cls de succs d'un projetd'intgration dans le big dataPour passer en production,vous avez besoin de vousassurer d'avoir pris encompte tous les besoinsd'intgration : Le codagemanuel ne permet pasd'atteindre l'objectif descalabilit, flexibilit, ou deperformanceL'ELT seul n'est pas suffisantpour rpondre la plupartdes exigences dintgration,parce que vous ne pouvezpas pousser toute la logiquede l'intgration de donnesdans l'entrept de donnesou dans Hadoop 17. Nous avons adapt notre catalogue gouvernance de l'information au pr idme gtrees dtiuo nB dige Dlaa ta 18. IdnafnosS pleh eBrieg DDaattaaStage est une plate-forme sre pour s'intgrer AdaptableEstcapabledepanachersonapproched'intgrationenutilisantlescapacitsnativesd'ETL,d'ELTainsiquedployerdesjobsdansHadoop DynamiqueetextensibleGagneinstantanmentdelaperformancedsqu'uneressourcematriellesupplmentaireluiestalloue PartitionnementdesdonnesEnvraigestionparallle(commeHadoop),ladonneestmaintenuedansl'outild'intgrationetstockeenparalllepourpermettrelascalabilit IntgrationHadoopPousseztoutoupartieduprocessusversHadooppourprofiterdesonvolutivitenmodeELT.SSoouurrcceeDDaattaaSSoouurrcceeDDaattaaSequentialDDiisskkCCPPUUMMeemm