L'intégrateur de données Talend

29
Gestion de données avec TALEND Journée Bases de données OSUC Aurore Hertout Chargée d’études Géomatique & Expertise Spatiale Validation et insertion

Transcript of L'intégrateur de données Talend

Page 1: L'intégrateur de données Talend

Gestion de données avec TALEND

Journée Bases de données OSUC

Aurore Hertout Chargée d’études Géomatique & Expertise Spatiale

Validation et insertion

Page 2: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Données thématiques : Nombreuses et variées Différents modes d’acquisition

• Continues • Ponctuelles • Autres

Nécessaire de mettre en place des processus et des routines

pour le traitement de ces données AUTOMATISATION

Page 3: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Données thématiques : Nombreuses et variées Différents modes d’acquisition

• Continues • Ponctuelles • Autres

Nécessaire de mettre en place des processus et des routines

pour le traitement de ces données AUTOMATISATION

ETL

Page 4: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

ETL = Extract, Transform, Load

Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données

Page 5: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

ETL = Extract, Transform, Load

Objectifs : - intégration de données de tous types et de tous volumes - unifier les projets - rendre les fichiers interopérables - traiter des données - intégrer les données dans une base de données

Page 6: L'intégrateur de données Talend

• Talend Open Studio = éditeur de logiciels Open Source • ETL de type « générateur de code » • Langage = JAVA ou PERL

Introduction Présentation Méthodologie Application Conclusion

Présentation de Talend

Page 7: L'intégrateur de données Talend

• Talend Open Studio = éditeur de logiciels Open Source • ETL de type « générateur de code » • Langage = JAVA ou PERL

Introduction Présentation Méthodologie Application Conclusion

Présentation de Talend

Gestion des données et des bases de données

Page 8: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Composants Jobs / Routines

Définition des paramètres des composants /

Exécution

Présentation de Talend (interface Job Designer)

Page 9: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Présentation de Talend (interface Job Designer)

Composants = pas de développement en JAVA TALEND Open Studio -> nécessaire de connaitre le schéma des données Organisation du fichier d’entrée et du fichier de sortie obligatoire Connaissance du formatage des fichiers de données

Page 10: L'intégrateur de données Talend

APPLICATION AUX DONNÉES SCIENTIFIQUES

SO Tourbières et Principasol

Introduction Présentation Méthodologie Application Conclusion

Page 11: L'intégrateur de données Talend

Données brutes (sites Frasne, La Guette, Landemarais)

Traitement (validation)

Intégration dans la BDD Principasol

Introduction Présentation Méthodologie Application Conclusion

Page 12: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Données de terrain (GSM, relevés, etc.)

Fichiers de données (.dat)

TALEND

Intégration dans la BdD Principasol

Validation Expert

Publication

Page 13: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Données de terrain (GSM, relevés, etc.)

Fichiers de données (.dat)

TALEND

Intégration dans la BdD Principasol

Validation Expert

Publication

Page 14: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

TALEND

Données validées dans

la BdD

𝜎𝑥 =1

𝑁 − 1�(𝑥𝑥 − �̅�)𝑁

𝑖=1

Page 15: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Données validées dans

la BdD

Min < Valeur < Max

Min < Valeur < Max

VALIDEE

Validation expert requise

TALEND

Données brutes à valider

Page 16: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Données validées dans

la BdD

Données brutes à valider

Min < Valeur < Max

Min < Valeur < Max

VALIDEE

Validation expert requise

Intégration dans la BdD Principasol

TALEND

Page 17: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Page 18: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Page 19: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Page 20: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

routines.Data_PreTraitement.SiteId(row3.RH_Avg,row3.Record)

De la théorie à la pratique…

Page 21: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Page 22: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Page 23: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Données

Intervalle Max

Intervalle Min

Routine Checked / Expert validation required

Routine Unchecked

De la théorie à la pratique…

Page 24: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Page 25: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

De la théorie à la pratique…

Intégration des données dans différents types de bases de données

Page 26: L'intégrateur de données Talend

Introduction Présentation Méthodologie Application Conclusion

Modifications ? Modification des Jobs et des routines

Ajout d'un paramètre (+ 1 colonne au fichier de données)

→ Modification du schéma global à remplacer et à importer dans l'ensemble des jobs

Modification d'une unité ou d'un paramètre

→ Modification dans la routine Traitement_Unite

Modification de l'emplacement de la base de données

→ Modification du composant tMySQLInput, tMySQLConnection, tMySQLOutput dans l'ensemble des jobs

Modification de l'ordre des paramètres

→ Problème de cohérence mais traitement effectué normalement

Page 27: L'intégrateur de données Talend

Talend = Σ d'outils puissants mais complexes => Forums indispensables pour comprendre l'utilisation de

certains composants => Communauté de développeurs = amélioration constante des composants

SO Tourbières : ETL Talend utilisé et performant pour la

gestion des données et l’intégration dans la BdD Principasol

Introduction Présentation Méthodologie Application Conclusion

Conclusions et perspectives

Page 28: L'intégrateur de données Talend

Merci de votre attention

Journée Bases de données OSUC 15 janv. 2014

Questions ?

Page 29: L'intégrateur de données Talend