Integration de donnees_etl

Post on 20-Jun-2015

3.609 views 0 download

description

C'est une presentation sur les ETL. On explique pourquoi il faut utiliser un ETL et non créer des routines à la main. On présente Talend Open Studio qui est un projet open source et quelques exemples

Transcript of Integration de donnees_etl

Intégration de données avec les ETL open sources

Présenté par :Horacio LASSEY-ASSIAKOLEYTwitter : @horalass

1

Agenda

2

ContexteQu’est ce qu’un ETLAvantages des ETLInconvenients des ETLPrésentation de Talend Open SourceCritères de sélection des ETLDémo : création de job TalendConclusion

Contexte (1/3)• Les systèmes de production sont

pas intégrés. Il faut s’assurer que les données soit disponibles dans tous les systèmes.

• Les administrateurs définissent des routines manuellement pour synchroniser les données

• Ces routines sont difficiles à maintenir si elles sont programmées

3

Contexte (2/3)

4

• Les systèmes décisionnelles et de production sont séparées.

• Il faut des routines qui alimentent les sources de données décisionnelles.

Contexte (3/3)

5

• Ces routines doivent être automatiques et alimentent le système décisionnel de façon quotidienne ( de préférence la nuit pour que les rapports soient disponible le lendemain matin pour les décideurs)

Qu’est ce qu’un ETL

6

• ETL est l’acronyme de Extract Transform Load. Un ETL combine en elle seule trois fonctionnalités : extraction depuis une source de données , la transformation des données issues de l’étape précédente et enfin le load (chargement) dans une nouvelle source de données.

• On utilise les ETL pour les projets d’intégration de données (structure BI), de synchronisation de sources de données, migration de données etc…

Avantages des ETL

7

• Dans un environnement décisionnel une partie des besoins ne survient qu’après la mise en production. Il faut pouvoir adapter rapidement son code ETL au nouveau des utilisateurs tout en gardant une bonne qualité du code

• Nécessité de transformer certains données opérationnelles sans avoir à programmer.

• Il faut pouvoir stocker les metadatas des transformations• La plupart des solutions ETL propose des exécutions en

parallèle et du multi-threading ce qui les rend plus performants qu’un code simple

Avantages des ETL (suite)

8

• Accès à des sources de données très diversifiées et intégration des fonctions de filtre, agrégation etc.

• Gestion centralisée des metadata• Utilisation d’interface graphique conviviale pour

exécuter les tâches ETL

Inconvénient d’un ETL

9

• Il faut apprendre un nouvel outil ou concept. Cela peut dérouter un programmeur classique

• Il y’a un temps d’apprentissage donc un temps d’adaption

Présentation de Talend Open Studio

10

• TOS est un ETL de la société Talend • C’est un projet open source• C’est une application Eclipse plateforme• Première version en 2005• C’est un ETL générateur de code (Java, Perl )

Présentation de Talend Open Studio ( suite )

11

Critère de sélection d’un ETL

12

• Type d’ETL : code generator, database-embedded, engine based

• Connecteur natif : SAP, salesforce, XML, etc• Les temps d’exécution.• Type de déclencheur ( temps réel , sur évènement ,

batch)

Démo

13

Job step1 ( Présentation )

Démo

14

Job step2 ( Mappage des données )

Démo

15

Job step3 ( Orchestration et gestion de flow)

Démo

16

Job step4 ( gestion des erreurs et deploiement)

Conclusion

17

Le choix d’un etl est très influencé par le projet que l’on fait et le contexte

Mais pour faire son choix il faut tenir compte : Connecteurs natifs du temps de traitements du type d’etl ( générateur de code, moteur de transformation,

etc) du type de déclencheur

Il existe plusieurs ETL open source : Talend , Pentaho data Integration etc pour s’essayer et faire la preuve du concept

Références

18

www.talend.com pour vos prémiers pasThe Data Warehouse ETL Toolkit, Ralph Kimball & Joe

Caserta ( pour toute la théorie des ETL en environnement décisionnel)

www.horalass.blogspot.com ( mon blog où je donne quelques conseils d’utilisation de Talend )