L'intégrateur de données Talend

Post on 05-Jan-2017

234 views 2 download

Transcript of L'intégrateur de données Talend

Gestion de données avec TALEND

Journée Bases de données OSUC

Aurore Hertout Chargée d’études Géomatique & Expertise Spatiale

Validation et insertion

Introduction Présentation Méthodologie Application Conclusion

Données thématiques : Nombreuses et variées Différents modes d’acquisition

• Continues • Ponctuelles • Autres

Nécessaire de mettre en place des processus et des routines

pour le traitement de ces données AUTOMATISATION

Introduction Présentation Méthodologie Application Conclusion

Données thématiques : Nombreuses et variées Différents modes d’acquisition

• Continues • Ponctuelles • Autres

Nécessaire de mettre en place des processus et des routines

pour le traitement de ces données AUTOMATISATION

ETL

Introduction Présentation Méthodologie Application Conclusion

ETL = Extract, Transform, Load

Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données

Introduction Présentation Méthodologie Application Conclusion

ETL = Extract, Transform, Load

Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données - intégrer les données dans une base de données

• Talend Open Studio = éditeur de logiciels Open Source • ETL de type « générateur de code » • Langage = JAVA ou PERL

Introduction Présentation Méthodologie Application Conclusion

Présentation de Talend

• Talend Open Studio = éditeur de logiciels Open Source • ETL de type « générateur de code » • Langage = JAVA ou PERL

Introduction Présentation Méthodologie Application Conclusion

Présentation de Talend

Gestion des données et des bases de données

Introduction Présentation Méthodologie Application Conclusion

Composants Jobs / Routines

Définition des paramètres des composants /

Exécution

Présentation de Talend (interface Job Designer)

Introduction Présentation Méthodologie Application Conclusion

Présentation de Talend (interface Job Designer)

Composants = pas de développement en JAVA TALEND Open Studio -> nécessaire de connaitre le schéma des données Organisation du fichier d’entrée et du fichier de sortie obligatoire Connaissance du formatage des fichiers de données

APPLICATION AUX DONNÉES SCIENTIFIQUES

SO Tourbières et Principasol

Introduction Présentation Méthodologie Application Conclusion

Données brutes (sites Frasne, La Guette, Landemarais)

Traitement (validation)

Intégration dans la BDD Principasol

Introduction Présentation Méthodologie Application Conclusion

Introduction Présentation Méthodologie Application Conclusion

Données de terrain (GSM, relevés, etc.)

Fichiers de données (.dat)

TALEND

Intégration dans la BdD Principasol

Validation Expert

Publication

Introduction Présentation Méthodologie Application Conclusion

Données de terrain (GSM, relevés, etc.)

Fichiers de données (.dat)

TALEND

Intégration dans la BdD Principasol

Validation Expert

Publication

Introduction Présentation Méthodologie Application Conclusion

TALEND

Données validées dans

la BdD

𝜎𝑥 =1

𝑁 − 1�(𝑥𝑥 − �̅�)𝑁

𝑖=1

Introduction Présentation Méthodologie Application Conclusion

Données validées dans

la BdD

Min < Valeur < Max

Min < Valeur < Max

VALIDEE

Validation expert requise

TALEND

Données brutes à valider

Introduction Présentation Méthodologie Application Conclusion

Données validées dans

la BdD

Données brutes à valider

Min < Valeur < Max

Min < Valeur < Max

VALIDEE

Validation expert requise

Intégration dans la BdD Principasol

TALEND

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Introduction Présentation Méthodologie Application Conclusion

routines.Data_PreTraitement.SiteId(row3.RH_Avg,row3.Record)

De la théorie à la pratique…

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Introduction Présentation Méthodologie Application Conclusion

Données

Intervalle Max

Intervalle Min

Routine Checked / Expert validation required

Routine Unchecked

De la théorie à la pratique…

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Intégration des données dans différents types de bases de données

Introduction Présentation Méthodologie Application Conclusion

Modifications ? Modification des Jobs et des routines

Ajout d'un paramètre (+ 1 colonne au fichier de données)

→ Modification du schéma global à remplacer et à importer dans l'ensemble des jobs

Modification d'une unité ou d'un paramètre

→ Modification dans la routine Traitement_Unite

Modification de l'emplacement de la base de données

→ Modification du composant tMySQLInput, tMySQLConnection, tMySQLOutput dans l'ensemble des jobs

Modification de l'ordre des paramètres

→ Problème de cohérence mais traitement effectué normalement

Talend = Σ d'outils puissants mais complexes => Forums indispensables pour comprendre l'utilisation de

certains composants => Communauté de développeurs = amélioration constante des composants

SO Tourbières : ETL Talend utilisé et performant pour la

gestion des données et l’intégration dans la BdD Principasol

Introduction Présentation Méthodologie Application Conclusion

Conclusions et perspectives

Merci de votre attention

Journée Bases de données OSUC 15 janv. 2014

Questions ?