Integration de donnees_etl

18
Intégration de données avec les ETL open sources Présenté par : Horacio LASSEY- ASSIAKOLEY Twitter : @horalass 1

description

C'est une presentation sur les ETL. On explique pourquoi il faut utiliser un ETL et non créer des routines à la main. On présente Talend Open Studio qui est un projet open source et quelques exemples

Transcript of Integration de donnees_etl

Page 1: Integration de donnees_etl

Intégration de données avec les ETL open sources

Présenté par :Horacio LASSEY-ASSIAKOLEYTwitter : @horalass

1

Page 2: Integration de donnees_etl

Agenda

2

ContexteQu’est ce qu’un ETLAvantages des ETLInconvenients des ETLPrésentation de Talend Open SourceCritères de sélection des ETLDémo : création de job TalendConclusion

Page 3: Integration de donnees_etl

Contexte (1/3)• Les systèmes de production sont

pas intégrés. Il faut s’assurer que les données soit disponibles dans tous les systèmes.

• Les administrateurs définissent des routines manuellement pour synchroniser les données

• Ces routines sont difficiles à maintenir si elles sont programmées

3

Page 4: Integration de donnees_etl

Contexte (2/3)

4

• Les systèmes décisionnelles et de production sont séparées.

• Il faut des routines qui alimentent les sources de données décisionnelles.

Page 5: Integration de donnees_etl

Contexte (3/3)

5

• Ces routines doivent être automatiques et alimentent le système décisionnel de façon quotidienne ( de préférence la nuit pour que les rapports soient disponible le lendemain matin pour les décideurs)

Page 6: Integration de donnees_etl

Qu’est ce qu’un ETL

6

• ETL est l’acronyme de Extract Transform Load. Un ETL combine en elle seule trois fonctionnalités : extraction depuis une source de données , la transformation des données issues de l’étape précédente et enfin le load (chargement) dans une nouvelle source de données.

• On utilise les ETL pour les projets d’intégration de données (structure BI), de synchronisation de sources de données, migration de données etc…

Page 7: Integration de donnees_etl

Avantages des ETL

7

• Dans un environnement décisionnel une partie des besoins ne survient qu’après la mise en production. Il faut pouvoir adapter rapidement son code ETL au nouveau des utilisateurs tout en gardant une bonne qualité du code

• Nécessité de transformer certains données opérationnelles sans avoir à programmer.

• Il faut pouvoir stocker les metadatas des transformations• La plupart des solutions ETL propose des exécutions en

parallèle et du multi-threading ce qui les rend plus performants qu’un code simple

Page 8: Integration de donnees_etl

Avantages des ETL (suite)

8

• Accès à des sources de données très diversifiées et intégration des fonctions de filtre, agrégation etc.

• Gestion centralisée des metadata• Utilisation d’interface graphique conviviale pour

exécuter les tâches ETL

Page 9: Integration de donnees_etl

Inconvénient d’un ETL

9

• Il faut apprendre un nouvel outil ou concept. Cela peut dérouter un programmeur classique

• Il y’a un temps d’apprentissage donc un temps d’adaption

Page 10: Integration de donnees_etl

Présentation de Talend Open Studio

10

• TOS est un ETL de la société Talend • C’est un projet open source• C’est une application Eclipse plateforme• Première version en 2005• C’est un ETL générateur de code (Java, Perl )

Page 11: Integration de donnees_etl

Présentation de Talend Open Studio ( suite )

11

Page 12: Integration de donnees_etl

Critère de sélection d’un ETL

12

• Type d’ETL : code generator, database-embedded, engine based

• Connecteur natif : SAP, salesforce, XML, etc• Les temps d’exécution.• Type de déclencheur ( temps réel , sur évènement ,

batch)

Page 13: Integration de donnees_etl

Démo

13

Job step1 ( Présentation )

Page 14: Integration de donnees_etl

Démo

14

Job step2 ( Mappage des données )

Page 15: Integration de donnees_etl

Démo

15

Job step3 ( Orchestration et gestion de flow)

Page 16: Integration de donnees_etl

Démo

16

Job step4 ( gestion des erreurs et deploiement)

Page 17: Integration de donnees_etl

Conclusion

17

Le choix d’un etl est très influencé par le projet que l’on fait et le contexte

Mais pour faire son choix il faut tenir compte : Connecteurs natifs du temps de traitements du type d’etl ( générateur de code, moteur de transformation,

etc) du type de déclencheur

Il existe plusieurs ETL open source : Talend , Pentaho data Integration etc pour s’essayer et faire la preuve du concept

Page 18: Integration de donnees_etl

Références

18

www.talend.com pour vos prémiers pasThe Data Warehouse ETL Toolkit, Ralph Kimball & Joe

Caserta ( pour toute la théorie des ETL en environnement décisionnel)

www.horalass.blogspot.com ( mon blog où je donne quelques conseils d’utilisation de Talend )