Data centric : une plate-forme orientée donnée au coeur de votre organisation

27
© Talend 2014 © Talend 2014 Data centric Une plate forme centrée sur les données au service de votre organisation Benjamin Boutros et Jean-Michel Franco [email protected] [email protected] (@jmichel_franco)

description

Présentation des enjeux et cas d'usage de la data gouvernance, qualité de données et Master Data Management ; présentation de la plate-forme Talend

Transcript of Data centric : une plate-forme orientée donnée au coeur de votre organisation

Page 1: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Data centricUne plate forme centrée sur les données au service de votre organisation

Benjamin Boutros et Jean-Michel Franco

[email protected]@talend.com (@jmichel_franco)

Page 2: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Agenda

1. Talend en bref 2. MDM et Data Gouvernance : pourquoi ?3. MDM et Data Gouvernance : comment ?4. Références et cas d’usage5. MDM et Big Data : l’association gagnante

Page 3: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

EN BREF

• Fondée en 2006

• 400 employés dans 7 pays

• Deux sièges : Los Altos, en Californie et Paris, en France

• Modèle Open Core• Licence (souscription)• Services et formations

Solutions Solutions d’intégration évolutives pour le Big Data,

l’intégration de données et d’applications, la qualité de données, le MDM et BPM.

Classé Leader Visionnaire par Gartner et Forrester sur le marché de l’intégration

Présentation de Talend

Modèle de déploiement-croissance

Chiffre d’affaires : 108% TCAM

2007 2008 2009 2010 2011 2012

VISIBILITE

1,6 million de téléchargements

COMMUNAUTÉ DYNAMIQUE

100 000utilisateurs enregistrés

MONÉTISATION

1 800 souscripteurs

actifs

FIDELITE DES CLIENTS

Taux de renouvellement

de 86%

Page 4: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

La Plateforme Talend

GESTION DESDONNEES

USAGE DE L’INFORMATION

EXPLOITA

TION BIG

DATA

(ACCES, E

VALUATIO

N)

VALORISATIO

N DU S.I.

(ACCES, E

VALUATIO

N)

FIABILISATIO

N

(QUALIT

E, QUALIM

ETRIE)

REFERENTIELS TRANSVERSES

(DONNEES M

AITRES)

REGLES POUR ACTION

(PROCESSUS )

DIFFUSION IN

FORMATIO

N

(INTERAPPLIC

ATIVE)

Page 5: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Data centric ? L’exemple d’Amazon

Connaître son client

Elargir son offre produits & services

Valoriser tout l’écosystème

Page 6: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Talend MDM

Client

Four-nisseur

Produit

Actif (Asset)

Agence Magasins

Organisations et codifi-cations

Employé

MDM et data gouvernance ?Maîtriser le « qui, quoi, comment et où » de vos activités

Quoi ?(44%)

Comptes

Géolocalisation

Contrat

Nomenclatures

Attributs

Prix

Catalogue

ProfilComportement

Adresse

Identité

Qui ?(33%)

Territoires

Comment ?(21%)

Où ?(3%)

Standards

Compliance

Sources : Gartner

Page 7: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Fonctionnalités clés d’un MDMAlimentation

Capture• Audit des

sources• Chargement

initial• Insertions /

mises à jour, batch et fil de l’eau

Rapproche-ments

Consolida-tions

Enrichisse-ments

DistributionPublication

• Trouve et relie les doublons potentiels

• Algorithmes et arbitrages manuels

• Fusionne les doublons avec des règles automatiques et des processus manuels

Nettoyage

• Corrections (erreurs de saisies, formats…)

• Alignement sur un standard

• Validation d’adresses postales

• Ajoute des informations transverses

• Sources externes

• Enrichisse-ments et arbitrages manuels

• Met les Master Data à disposition de tout le système d’information

Le processus MDM

Page 8: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

1) Intégration des sourcesAlimentation

Capture• Audit des

sources• Chargement

initial• Insertions /

mises à jour, batch et fil de l’eau

Rapproche-ments

Consolida-tions

Enrichisse-ments

DistributionPublication

• Trouve et relie les doublons potentiels

• Algorithmes et arbitrages manuels

• Fusionne les doublons avec des règles automatiques et des processus manuels

Nettoyage

• Corrections (erreurs de saisies, formats…)

• Alignement sur un standard

• Validation d’adresses postales

• Ajoute des informations transverses

• Sources externes

• Enrichisse-ments et arbitrages manuels

• Met les Master Data à disposition de tout le système d’information

Le processus MDM

Plateforme Talend• Data Profiling: > 100 indicateurs, rapports d’audit, suivi dans le temps• Active Data Model: tous domaines, validation synchrone ou asynchrone• Data Integration: > 500 connecteurs (dans l’ADN de Talend !)• Application Integration: services, messages, routing, mediation…

Page 9: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Six dimensions de la qualité de données

Page 10: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Complétude

• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut

La Complétude

Page 11: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

La Conformité

Complétude

Conformité

• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut

• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE

Page 12: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

La Cohérence

Complétude

Conformité

Cohérence

• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut

• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE• Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une

entreprise

Page 13: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

L’exactitude…

Complétude

Conformité

Cohérence

Exactitude

• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut

• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE• Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une

entreprise• Exactitude : l’information POIDS n’est pas applicable aux entreprises

Page 14: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

La Duplication

Complétude

Conformité

Cohérence

Duplication

Exactitude

• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut

• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE• Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une

entreprise• Exactitude : l’information POIDS n’est pas applicable aux entreprises• Duplication : J BLANC et MR JACQUES BLANC sont la même personne

Page 15: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

L’intégrité

Complétude

Conformité

Cohérence

Duplication

Intégrité

Exactitude

• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut

• Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE• Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une

entreprise• Exactitude : l’information POIDS n’est pas applicable aux entreprises• Duplication : J BLANC et MR JACQUES BLANC sont la même personne• Intégrité : le lien qui unit ces deux personnes n’est pas établie dans le fichier

Page 16: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

2) Nettoyage & alignement des donnéesAlimentation

Capture• Audit des

sources• Chargement

initial• Insertions /

mises à jour, batch et fil de l’eau

Rapproche-ments

Consolida-tions

Enrichisse-ments

DistributionPublication

• Trouve et relie les doublons potentiels

• Algorithmes et arbitrages manuels

• Fusionne les doublons avec des règles automatiques et des processus manuels

Nettoyage

• Corrections (erreurs de saisies, formats…)

• Alignement sur un standard

• Validation d’adresses postales

• Ajoute des informations transverses

• Sources externes

• Enrichisse-ments et arbitrages manuels

• Met les Master Data à disposition de tout le système d’information

Le processus MDM

Plateforme Talend• Data Quality: parsing, synonymes, correspondances, standardisation• Composants specialisés: prenoms, nicknames, telephones…• Composants de validation d’adresses: Google, Uniserv, Loqate…

Page 17: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

3) Rapprochement (« Entity Resolution », « Record Linkage »…)Alimentation

Capture• Audit des

sources• Chargement

initial• Insertions /

mises à jour, batch et fil de l’eau

Rapproche-ments

Consolida-tions

Enrichisse-ments

DistributionPublication

• Trouve et relie les doublons potentiels

• Algorithmes et arbitrages manuels

• Fusionne les doublons avec des règles automatiques et des processus manuels

Nettoyage

• Corrections (erreurs de saisies, formats…)

• Alignement sur un standard

• Validation d’adresses postales

• Ajoute des informations transverses

• Sources externes

• Enrichisse-ments et arbitrages manuels

• Met les Master Data à disposition de tout le système d’information

Le processus MDM

Plateforme Talend• Algorithmes de matching: détection des similaires, scoring, seuils d’incertitude…• Stewardship Console: visualisation graphique des rapprochements

Page 18: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

4) Consolidation, « Survivorship »Alimentation

Capture• Audit des

sources• Chargement

initial• Insertions /

mises à jour, batch et fil de l’eau

Rapproche-ments

Consolida-tions

Enrichisse-ments

DistributionPublication

• Trouve et relie les doublons potentiels

• Algorithmes et arbitrages manuels

• Fusionne les doublons avec des règles automatiques et des processus manuels

Nettoyage

• Corrections (erreurs de saisies, formats…)

• Alignement sur un standard

• Validation d’adresses postales

• Ajoute des informations transverses

• Sources externes

• Enrichisse-ments et arbitrages manuels

• Met les Master Data à disposition de tout le système d’information

Le processus MDM

Plateforme Talend• Algorithmes de survivorship: fonctions intégrées et règles personnalisées• Stewardship Console: arbitrage / correction manuelle de la fusion

Page 19: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

5) Améliorations, enrichissementAlimentation

Capture• Audit des

sources• Chargement

initial• Insertions /

mises à jour, batch et fil de l’eau

Rapproche-ments

Consolida-tions

Enrichisse-ments

DistributionPublication

• Trouve et relie les doublons potentiels

• Algorithmes et arbitrages manuels

• Fusionne les doublons avec des règles automatiques et des processus manuels

Nettoyage

• Corrections (erreurs de saisies, formats…)

• Alignement sur un standard

• Validation d’adresses postales

• Ajoute des informations transverses

• Sources externes

• Enrichisse-ments et arbitrages manuels

• Met les Master Data à disposition de tout le système d’information

Le processus MDM

Plateforme Talend• Formulaires Web: auto-générés sur le modèle, vues dépendantes du rôle, droits

d’accès• Workflow: moteur de BPM complet (designer de formulaires métier, rôles,

assignations, délégations, deadlines, notifications…)

Page 20: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

6) Publication, mise à dispositionAlimentation

Capture• Audit des

sources• Chargement

initial• Insertions /

mises à jour, batch et fil de l’eau

Rapproche-ments

Consolida-tions

Enrichisse-ments

DistributionPublication

• Trouve et relie les doublons potentiels

• Algorithmes et arbitrages manuels

• Fusionne les doublons avec des règles automatiques et des processus manuels

Nettoyage

• Corrections (erreurs de saisies, formats…)

• Alignement sur un standard

• Validation d’adresses postales

• Ajoute des informations transverses

• Sources externes

• Enrichisse-ments et arbitrages manuels

• Met les Master Data à disposition de tout le système d’information

Le processus MDM

Plateforme Talend• Data Integration: export dans virtuellement n’importe quel format vers

n’importe quelle cible• ESB: publication dans le bus de service Talend

Page 21: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Client

Quelques clients MDM

Produit

Autres domainesEmployés, Founisseurs, Site & Meta-Data Management

Reference Data Management

Multi-Domaine

Page 22: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Etude de cas : Veolia➜ L’entreprise :

• Veolia Propreté est la division de Veolia Environnement spécialisée dans la gestion et la valorisation des déchets.. • Plus de 47 millions d'habitants desservis, 64 291 collaborateurs, 686 unités de traitement, 575000 clients, flotte

de 10000 véhicules

➜ L’enjeu: • Produire, de façon automatisée, des indicateurs clés de performance pour la DG et tous les niveaux de

l’organisation• Unifier la gestion de l’activité aux travers des organisations et des systèmes d’information

➜ Solution: • Un référentiel des matériels pour les 1200 catégories de déchets traités • Un référentiel véhicules pour les 10000 véhicules de la flotte• Une organisation associée pour le data stewardship

➜ Résultats :• Des processus rationalisé grâce à une élimination des

incohérences et doublons (exemple : évolution de 10000 à 1200 codes matériel après la phase de collecte et dédoublonnage.

• La capacité à déployer rapidement de nouveaux domaines et l’organisation de gouvernance associée : déploiement de chaquenouveau modèle en 6 à 8 semaines

Page 23: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Pourquoi le Big Data a-t-il besoin du MDM et de la data quality ?

23

Extraction du contenu

Gestion de la qualitéRéconciliation avec les master data

Enrichissement

Id_Client Prénom Nom Produit Fournisseur Date Montant92584789 Anne B. TXF98 Dell 24/12/2013 650 €

92584789 Anne B. AXC54 Maped 24/12/2013 2,44 €

92584789 Anne B. TRE56 Playmobil 24/12/2013 129,36 €

….

Exemple : la dématérialisation du Père Noël

Page 24: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Pourquoi le Big Data a t’il besoin du MDM et de la DQ ? Ex: Du MDM client au « client augmenté » et la recommandation temps réel

24

Customer Data Platform

Données de parcours, sentiments et

interactions

Données décisionnelles

Données transactionnelles

Centre de contacts

Face à face (Boutique, agence…)

SMS/Mail/Chat…

Service après vente

Applications mobiles et Web

MDM, Data Quality

Page 25: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

RUNTIME PLATFORM (JAVA, Hadoop, SQL, etc.)

La plate-forme Talend pour le Big Data

Talend Platform for Big Data

TALEND UNIFIED PLATFORM

Studio Repository Deployment Execution Monitoring

DATA INTEGRATION

DataAccess ETL / ELT Version

ControlBusiness

RulesChange

Data Capture Scheduler ParallelProcessing

HighAvailability

Big DATA QUALITY

Hive Data Profiling

Drill-downto Values

DQ Portal,Monitoring

DataStewardship

ReportDesign

AddressValidation

CustomAnalysis

M/R Parsing,Matching

BIG DATA

Hadoop 2.0 MapReduceETL/ELT

Hcatalog/meta-data

Pig, Sqoop,Hive

Hadoop JobScheduler

Google BigQuery

NoSQLSupportHDFS

Page 26: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Conclusion – Talend MDM et Data Quality

Rapide à implémenter Plateforme avec tous les composants pour le MDM Se prête à l’implémentation incrémentale

Approche simple et intuitive Modélisation, configuration, design Pas de programmation, réutilisation des composants Talend

VOTRE domaine, VOS règles Modélisation ultra flexible basée sur XML Système évènementiel pour validations & corrections auto

Rejoignez la communauté Open Source Basé sur les standards et frameworks Open Source Ouvert et extensible

Prêt à embarquer le Big Data Gestion des 4V (volume, variété, vitesse et véracité) Capacité à traiter les données là où elles sont

Rapide

Simple

Flexible

Open

Extensible

Page 27: Data centric : une plate-forme orientée donnée au coeur de votre organisation

© Talend 2014© Talend 2014

Des questions ?