Data centric : une plate-forme orientée donnée au coeur de votre organisation
-
Upload
jean-michel-franco -
Category
Technology
-
view
918 -
download
2
description
Transcript of Data centric : une plate-forme orientée donnée au coeur de votre organisation
© Talend 2014© Talend 2014
Data centricUne plate forme centrée sur les données au service de votre organisation
Benjamin Boutros et Jean-Michel Franco
[email protected]@talend.com (@jmichel_franco)
© Talend 2014© Talend 2014
Agenda
1. Talend en bref 2. MDM et Data Gouvernance : pourquoi ?3. MDM et Data Gouvernance : comment ?4. Références et cas d’usage5. MDM et Big Data : l’association gagnante
© Talend 2014© Talend 2014
EN BREF
• Fondée en 2006
• 400 employés dans 7 pays
• Deux sièges : Los Altos, en Californie et Paris, en France
• Modèle Open Core• Licence (souscription)• Services et formations
Solutions Solutions d’intégration évolutives pour le Big Data,
l’intégration de données et d’applications, la qualité de données, le MDM et BPM.
Classé Leader Visionnaire par Gartner et Forrester sur le marché de l’intégration
Présentation de Talend
Modèle de déploiement-croissance
Chiffre d’affaires : 108% TCAM
2007 2008 2009 2010 2011 2012
VISIBILITE
1,6 million de téléchargements
COMMUNAUTÉ DYNAMIQUE
100 000utilisateurs enregistrés
MONÉTISATION
1 800 souscripteurs
actifs
FIDELITE DES CLIENTS
Taux de renouvellement
de 86%
© Talend 2014© Talend 2014
La Plateforme Talend
GESTION DESDONNEES
USAGE DE L’INFORMATION
EXPLOITA
TION BIG
DATA
(ACCES, E
VALUATIO
N)
VALORISATIO
N DU S.I.
(ACCES, E
VALUATIO
N)
FIABILISATIO
N
(QUALIT
E, QUALIM
ETRIE)
REFERENTIELS TRANSVERSES
(DONNEES M
AITRES)
REGLES POUR ACTION
(PROCESSUS )
DIFFUSION IN
FORMATIO
N
(INTERAPPLIC
ATIVE)
© Talend 2014© Talend 2014
Data centric ? L’exemple d’Amazon
Connaître son client
Elargir son offre produits & services
Valoriser tout l’écosystème
© Talend 2014© Talend 2014
Talend MDM
Client
Four-nisseur
Produit
Actif (Asset)
Agence Magasins
Organisations et codifi-cations
Employé
MDM et data gouvernance ?Maîtriser le « qui, quoi, comment et où » de vos activités
Quoi ?(44%)
Comptes
Géolocalisation
Contrat
Nomenclatures
Attributs
Prix
Catalogue
ProfilComportement
Adresse
Identité
Qui ?(33%)
Territoires
Comment ?(21%)
Où ?(3%)
Standards
Compliance
Sources : Gartner
© Talend 2014© Talend 2014
Fonctionnalités clés d’un MDMAlimentation
Capture• Audit des
sources• Chargement
initial• Insertions /
mises à jour, batch et fil de l’eau
Rapproche-ments
Consolida-tions
Enrichisse-ments
DistributionPublication
• Trouve et relie les doublons potentiels
• Algorithmes et arbitrages manuels
• Fusionne les doublons avec des règles automatiques et des processus manuels
Nettoyage
• Corrections (erreurs de saisies, formats…)
• Alignement sur un standard
• Validation d’adresses postales
• Ajoute des informations transverses
• Sources externes
• Enrichisse-ments et arbitrages manuels
• Met les Master Data à disposition de tout le système d’information
Le processus MDM
© Talend 2014© Talend 2014
1) Intégration des sourcesAlimentation
Capture• Audit des
sources• Chargement
initial• Insertions /
mises à jour, batch et fil de l’eau
Rapproche-ments
Consolida-tions
Enrichisse-ments
DistributionPublication
• Trouve et relie les doublons potentiels
• Algorithmes et arbitrages manuels
• Fusionne les doublons avec des règles automatiques et des processus manuels
Nettoyage
• Corrections (erreurs de saisies, formats…)
• Alignement sur un standard
• Validation d’adresses postales
• Ajoute des informations transverses
• Sources externes
• Enrichisse-ments et arbitrages manuels
• Met les Master Data à disposition de tout le système d’information
Le processus MDM
Plateforme Talend• Data Profiling: > 100 indicateurs, rapports d’audit, suivi dans le temps• Active Data Model: tous domaines, validation synchrone ou asynchrone• Data Integration: > 500 connecteurs (dans l’ADN de Talend !)• Application Integration: services, messages, routing, mediation…
© Talend 2014© Talend 2014
Six dimensions de la qualité de données
© Talend 2014© Talend 2014
Complétude
• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut
La Complétude
© Talend 2014© Talend 2014
La Conformité
Complétude
Conformité
• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut
• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE
© Talend 2014© Talend 2014
La Cohérence
Complétude
Conformité
Cohérence
• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut
• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE• Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une
entreprise
© Talend 2014© Talend 2014
L’exactitude…
Complétude
Conformité
Cohérence
Exactitude
• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut
• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE• Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une
entreprise• Exactitude : l’information POIDS n’est pas applicable aux entreprises
© Talend 2014© Talend 2014
La Duplication
Complétude
Conformité
Cohérence
Duplication
Exactitude
• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut
• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE• Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une
entreprise• Exactitude : l’information POIDS n’est pas applicable aux entreprises• Duplication : J BLANC et MR JACQUES BLANC sont la même personne
© Talend 2014© Talend 2014
L’intégrité
Complétude
Conformité
Cohérence
Duplication
Intégrité
Exactitude
• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut
• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE• Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une
entreprise• Exactitude : l’information POIDS n’est pas applicable aux entreprises• Duplication : J BLANC et MR JACQUES BLANC sont la même personne• Intégrité : le lien qui unit ces deux personnes n’est pas établie dans le fichier
© Talend 2014© Talend 2014
2) Nettoyage & alignement des donnéesAlimentation
Capture• Audit des
sources• Chargement
initial• Insertions /
mises à jour, batch et fil de l’eau
Rapproche-ments
Consolida-tions
Enrichisse-ments
DistributionPublication
• Trouve et relie les doublons potentiels
• Algorithmes et arbitrages manuels
• Fusionne les doublons avec des règles automatiques et des processus manuels
Nettoyage
• Corrections (erreurs de saisies, formats…)
• Alignement sur un standard
• Validation d’adresses postales
• Ajoute des informations transverses
• Sources externes
• Enrichisse-ments et arbitrages manuels
• Met les Master Data à disposition de tout le système d’information
Le processus MDM
Plateforme Talend• Data Quality: parsing, synonymes, correspondances, standardisation• Composants specialisés: prenoms, nicknames, telephones…• Composants de validation d’adresses: Google, Uniserv, Loqate…
© Talend 2014© Talend 2014
3) Rapprochement (« Entity Resolution », « Record Linkage »…)Alimentation
Capture• Audit des
sources• Chargement
initial• Insertions /
mises à jour, batch et fil de l’eau
Rapproche-ments
Consolida-tions
Enrichisse-ments
DistributionPublication
• Trouve et relie les doublons potentiels
• Algorithmes et arbitrages manuels
• Fusionne les doublons avec des règles automatiques et des processus manuels
Nettoyage
• Corrections (erreurs de saisies, formats…)
• Alignement sur un standard
• Validation d’adresses postales
• Ajoute des informations transverses
• Sources externes
• Enrichisse-ments et arbitrages manuels
• Met les Master Data à disposition de tout le système d’information
Le processus MDM
Plateforme Talend• Algorithmes de matching: détection des similaires, scoring, seuils d’incertitude…• Stewardship Console: visualisation graphique des rapprochements
© Talend 2014© Talend 2014
4) Consolidation, « Survivorship »Alimentation
Capture• Audit des
sources• Chargement
initial• Insertions /
mises à jour, batch et fil de l’eau
Rapproche-ments
Consolida-tions
Enrichisse-ments
DistributionPublication
• Trouve et relie les doublons potentiels
• Algorithmes et arbitrages manuels
• Fusionne les doublons avec des règles automatiques et des processus manuels
Nettoyage
• Corrections (erreurs de saisies, formats…)
• Alignement sur un standard
• Validation d’adresses postales
• Ajoute des informations transverses
• Sources externes
• Enrichisse-ments et arbitrages manuels
• Met les Master Data à disposition de tout le système d’information
Le processus MDM
Plateforme Talend• Algorithmes de survivorship: fonctions intégrées et règles personnalisées• Stewardship Console: arbitrage / correction manuelle de la fusion
© Talend 2014© Talend 2014
5) Améliorations, enrichissementAlimentation
Capture• Audit des
sources• Chargement
initial• Insertions /
mises à jour, batch et fil de l’eau
Rapproche-ments
Consolida-tions
Enrichisse-ments
DistributionPublication
• Trouve et relie les doublons potentiels
• Algorithmes et arbitrages manuels
• Fusionne les doublons avec des règles automatiques et des processus manuels
Nettoyage
• Corrections (erreurs de saisies, formats…)
• Alignement sur un standard
• Validation d’adresses postales
• Ajoute des informations transverses
• Sources externes
• Enrichisse-ments et arbitrages manuels
• Met les Master Data à disposition de tout le système d’information
Le processus MDM
Plateforme Talend• Formulaires Web: auto-générés sur le modèle, vues dépendantes du rôle, droits
d’accès• Workflow: moteur de BPM complet (designer de formulaires métier, rôles,
assignations, délégations, deadlines, notifications…)
© Talend 2014© Talend 2014
6) Publication, mise à dispositionAlimentation
Capture• Audit des
sources• Chargement
initial• Insertions /
mises à jour, batch et fil de l’eau
Rapproche-ments
Consolida-tions
Enrichisse-ments
DistributionPublication
• Trouve et relie les doublons potentiels
• Algorithmes et arbitrages manuels
• Fusionne les doublons avec des règles automatiques et des processus manuels
Nettoyage
• Corrections (erreurs de saisies, formats…)
• Alignement sur un standard
• Validation d’adresses postales
• Ajoute des informations transverses
• Sources externes
• Enrichisse-ments et arbitrages manuels
• Met les Master Data à disposition de tout le système d’information
Le processus MDM
Plateforme Talend• Data Integration: export dans virtuellement n’importe quel format vers
n’importe quelle cible• ESB: publication dans le bus de service Talend
© Talend 2014© Talend 2014
Client
Quelques clients MDM
Produit
Autres domainesEmployés, Founisseurs, Site & Meta-Data Management
Reference Data Management
Multi-Domaine
© Talend 2014© Talend 2014
Etude de cas : Veolia➜ L’entreprise :
• Veolia Propreté est la division de Veolia Environnement spécialisée dans la gestion et la valorisation des déchets.. • Plus de 47 millions d'habitants desservis, 64 291 collaborateurs, 686 unités de traitement, 575000 clients, flotte
de 10000 véhicules
➜ L’enjeu: • Produire, de façon automatisée, des indicateurs clés de performance pour la DG et tous les niveaux de
l’organisation• Unifier la gestion de l’activité aux travers des organisations et des systèmes d’information
➜ Solution: • Un référentiel des matériels pour les 1200 catégories de déchets traités • Un référentiel véhicules pour les 10000 véhicules de la flotte• Une organisation associée pour le data stewardship
➜ Résultats :• Des processus rationalisé grâce à une élimination des
incohérences et doublons (exemple : évolution de 10000 à 1200 codes matériel après la phase de collecte et dédoublonnage.
• La capacité à déployer rapidement de nouveaux domaines et l’organisation de gouvernance associée : déploiement de chaquenouveau modèle en 6 à 8 semaines
© Talend 2014© Talend 2014
Pourquoi le Big Data a-t-il besoin du MDM et de la data quality ?
23
Extraction du contenu
Gestion de la qualitéRéconciliation avec les master data
Enrichissement
Id_Client Prénom Nom Produit Fournisseur Date Montant92584789 Anne B. TXF98 Dell 24/12/2013 650 €
92584789 Anne B. AXC54 Maped 24/12/2013 2,44 €
92584789 Anne B. TRE56 Playmobil 24/12/2013 129,36 €
….
Exemple : la dématérialisation du Père Noël
© Talend 2014© Talend 2014
Pourquoi le Big Data a t’il besoin du MDM et de la DQ ? Ex: Du MDM client au « client augmenté » et la recommandation temps réel
24
Customer Data Platform
Données de parcours, sentiments et
interactions
Données décisionnelles
Données transactionnelles
Centre de contacts
Face à face (Boutique, agence…)
SMS/Mail/Chat…
Service après vente
Applications mobiles et Web
MDM, Data Quality
© Talend 2014© Talend 2014
RUNTIME PLATFORM (JAVA, Hadoop, SQL, etc.)
La plate-forme Talend pour le Big Data
Talend Platform for Big Data
TALEND UNIFIED PLATFORM
Studio Repository Deployment Execution Monitoring
DATA INTEGRATION
DataAccess ETL / ELT Version
ControlBusiness
RulesChange
Data Capture Scheduler ParallelProcessing
HighAvailability
Big DATA QUALITY
Hive Data Profiling
Drill-downto Values
DQ Portal,Monitoring
DataStewardship
ReportDesign
AddressValidation
CustomAnalysis
M/R Parsing,Matching
BIG DATA
Hadoop 2.0 MapReduceETL/ELT
Hcatalog/meta-data
Pig, Sqoop,Hive
Hadoop JobScheduler
Google BigQuery
NoSQLSupportHDFS
© Talend 2014© Talend 2014
Conclusion – Talend MDM et Data Quality
Rapide à implémenter Plateforme avec tous les composants pour le MDM Se prête à l’implémentation incrémentale
Approche simple et intuitive Modélisation, configuration, design Pas de programmation, réutilisation des composants Talend
VOTRE domaine, VOS règles Modélisation ultra flexible basée sur XML Système évènementiel pour validations & corrections auto
Rejoignez la communauté Open Source Basé sur les standards et frameworks Open Source Ouvert et extensible
Prêt à embarquer le Big Data Gestion des 4V (volume, variété, vitesse et véracité) Capacité à traiter les données là où elles sont
Rapide
Simple
Flexible
Open
Extensible
© Talend 2014© Talend 2014
Des questions ?