La prochaine vague de la gestion des...

13
WHITE PAPER La prochaine vague de la gestion des données Le Big Data : nouveau standard ?

Transcript of La prochaine vague de la gestion des...

Page 1: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

WHITE PAPER

La prochaine vague de la gestion des données

Le Big Data : nouveau standard ?

Page 2: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

2

LIVRE BLANC La nouvelle vague de la gestion des données

Table des matières INTRODUCTION 3

DU MYTHE A LA REALITE 3 Pourquoi les entreprises investissent-elles leur budget informatique dans le Big Data ? 4

LES TENDANCES DANS LES TECHNOLOGIES DE GESTION DES DONNEES 5 Le cycle de vie de la technologie, de la conception à la maturité 5

LES DEFIS INFORMATIQUES REPONDENT AUX NOUVELLES EXIGENCES EN MATIERE DE DONNEES 7 Gérer une volumétrie et une variété de données de plus en plus grandes 7 Assurer la gouvernance et la qualité des données 8

STRATEGIES POUR LA GESTION EVOLUTIVE DU BIG DATA ET DES DONNEES D’ENTREPRISE 10 Une approche globale pour la gestion de toutes les données 10 Les avantages d'une approche globale 11

LA GESTION GLOBALE DES DONNEES SELON TALEND 12

A PROPOS DE TALEND 13 Contacts 13

Page 3: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

3

LIVRE BLANC La nouvelle vague de la gestion des données

Introduction La promesse du Big Data a fait couler beaucoup d’encre. Avec l’augmentation des données

d’entreprise, il est clair que le Big Data pourrait devenir le « nouveau standard ». Dans

certains services, par exemple, les entreprises sont en mesure de prendre des décisions plus

avisées en analysant un nombre de données plus important et plus varié. Selon un rapport

récent du Gartner, les entreprises qui en 2015 intégreront une grande variété d’informations

et de sources à forte valeur pour les consolider dans une infrastructure de gestion de

données cohérente, auront des rendements supérieurs de 20% par rapport à leurs

concurrents (Source).

Cependant, ce nouveau défi de la gestion de données entraînera son lot d’échecs dans

l’implémentation du Big Data, et obligera les entreprises à repenser leurs architectures dans

quelques années. En effet, il n’est pas simple d’incorporer efficacement des technologies Big

Data comme Hadoop et NoSQL dans votre architecture actuelle des données.

Ce livre blanc passe en revue les leviers qui influencent cette nouvelle vague de la gestion

des données. Il met également en avant les nouveaux outils à disposition des entreprises

pour la conception de leur prochaine architecture de données. II expose, enfin, un plan de

gestion de toutes les données à envisager pour votre stratégie globale de l'information.

Du mythe à la réalité Existe-t-il un problème que le Big Data ne puisse pas résoudre? Le Big Data est-il surestimé ?

Pour beaucoup, la réponse à ces questions est “oui”, ne serait-ce que parce que le “Big Data”

apparaît constamment dans toutes les présentations des éditeurs pour agrémenter leurs

stratégies sur les informations d’entreprise. Les études de cas vont des analyses de

campagnes marketing et des moteurs de recommandation aux analyses prédictives et

analyses de sentiment ou encore à la détection des fraudes. Pourquoi ne pas utiliser le Big

Data, comme certains l’ont proposé, pour prédire qui sera le prochain pape à la tête de

l’église catholique ? Et puis quoi d’autre encore? En essayant de déterminer la portée de la

valeur ajoutée que le Big Data peut offrir, nous ne regardons actuellement que la partie visible

de l’iceberg.

Toutefois, une chose est certaine : l’univers digital connait une croissance exponentielle. Voici

quelques faits :

Page 4: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

4

LIVRE BLANC La nouvelle vague de la gestion des données

• La volumétrie des données partout dans le monde augmente à un rythme de 59%

par an, les fichiers de 88%. (Source)

• Selon des estimations d’IDC, les transactions financières B2B et B2C sur le web

atteindront les 450 milliards par jour d’ici 2020. (Source)

• Akamai analyse chaque jour 75 millions d’événements pour mieux cibler sa publicité.

(Source)

• Walmart traite chaque heure plus d’un million de transactions clients, qui sont

importées vers des bases de données dont le contenu est estimé à plus de 2,5

pétaoctets. (Source)

• Plus de 5 milliards de personnes dans le monde utilisent leur téléphone portable pour

passer des appels, envoyer des SMS, tweeter et naviguer sur le web. (Source)

• 100 téraoctets de données sont téléchargés tous les jours sur Facebook. (Source)

Pourquoi les entreprises investissent-elles leur budget informatique dans le Big Data ?

Une étude récente de Talend montre que, dans la liste des raisons principales qui incitent à

investir dans le Big Data, « augmenter la précision et la profondeur des analyses prédictives »

est la priorité. En effet, vu la quantité importante de données non structurées ne pouvant pas

être analysées, les entreprises prennent conscience de l’intérêt d’utiliser le Big Data.

Quels sont les éléments moteurs pour le développement des Big Data dans votre entreprise ? (95 réponses)

Page 5: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

5

LIVRE BLANC La nouvelle vague de la gestion des données

Les tendances dans les technologies de gestion des données Que le Big Data soit déjà implémenté ou seulement envisagé au sein de votre entreprise,

certains éléments en matière de gestion de données nécessitent des réflexions stratégiques

et de la planification :

• Traitement des données en temps réel – la nécessité de disposer d’informations à

la demande et en temps réel augmente car les entreprises sont de plus en plus

nombreuses à refuser de baser leurs décisions sur des données datant du mois

précédent, ou même de la veille.

• Services des données – afin de répondre à la demande d’accessibilité et de

disponibilité des informations de la part de nombreux clients, les fonctionnalités de

gestion de données comme l’intégration et la qualité deviennent disponibles en tant

que services basés en local ou dans le Cloud.

• Gestion de données open source – en surmontant l’obstacle des lourds

investissements habituellement nécessaires en termes de logiciels d’entreprise,

l’Open Source permet aux organisations de taille plus modeste d’accéder à la gestion

des données, et à celles plus grandes d’optimiser le coût total des logiciels

propriétaires.

• Gouvernance des données – une approche évolutive pour élaborer des politiques

et des procédures pour l’utilisation, l’accès et la gestion des données, qui prend de

l’importance au fur et à mesure que les utilisateurs jouent un rôle toujours plus grand

en matière de gestion des données et budgétisation.

• Big Data et NoSQL – ils constituent un pont entre les technologies existantes dans

le domaine des bases de données et les demandes de stockage, localisation,

traitement et analyse rapides de Big Data.

Le cycle de vie de la technologie, de la conception à la maturité

Au fur et à mesure que ces nouvelles technologies sont introduites sur le marché, leur cycle

de vie typique, de la conception jusqu’à la maturité, se dessine. Dans un premier temps, elles

doivent être intégrées dans les systèmes existants, puis elles doivent être renforcées pour

répondre aux exigences d’adaptabilité, fiabilité et sécurité. Enfin, elles peuvent être amenées

à incorporer des fonctionnalités connexes pour la gestion du cycle de vie des logiciels telles

Page 6: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

6

LIVRE BLANC La nouvelle vague de la gestion des données

que la gestion de projets et les tests, ou encore, pour rester dans le domaine de la gestion

des données, les fonctionnalités permettant d’exposer une fonction comme service

consommable. Les étapes représentant le cycle de vie de la nouvelle technologie jusqu’à sa

maturité pourraient ressembler à ceci :

Chacune des tendances mentionnées précédemment suit un cycle de vie, allant des phases

de réflexion jusqu’à la mise en place du projet, qui offre encore plus d’avantages aux

utilisateurs finaux. Si nous prenons par exemple le Big Data (Hadoop), il a été conçu en tant

qu’implémentation de MapReduce et a ensuite été étendu à un système opérationnel massif

pour le traitement parallèle distribué d’énormes quantités de données. D’autres technologies

ont été ajoutées, telles que Hbase, une base de données Open Source, HCatalog pour les

métadonnées, Apache Hive en tant qu’infrastructure de Data Warehouse, et Apache Pig

comme langage de programmation.

Toutefois, Hadoop seul, malgré le fait qu’il soit bien équipé pour le stockage et le traitement

de quantités importantes d’informations séparé en nœuds, ne dispose pour le moment

d’aucune fonctionnalité pour la gestion du cycle de vie des logiciels, la gestion de projets ou la

gestion de données connexes. Cela implique qu’aucun outil d’intégration, de gestion des

métadonnées, de gouvernance, de profiling, de nettoyage et de rapprochement ne sont inclus.

La gouvernance des données est fondamentale pour réussir une implémentation à l’échelle

de l’entreprise, puisqu’elle réunit les processus opérationnels, les rôles et responsabilités

organisationnels ainsi que les bonnes pratiques.

Le Big Data peut-il remplacer un Data Warehouse ? Un exemple : un fournisseur de

télécommunications européen doit stocker dans une base de données toutes les transactions

d’appel pour une période de deux ans pour se conformer à la règlementation. Une solution

possible pourrait être de créer un grand Data Warehouse pour emmagasiner ces informations.

Mais il existe une alternative moins onéreuse, plus rapide et plus performante : installer un

cluster Hadoop ou une base de données NoSQL. Parfois connue sous le nom de “data

hoarding”, cette stratégie est actuellement utilisée par de nombreuses entreprises comme

moyen de stocker les informations avant de les traiter.

Page 7: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

7

LIVRE BLANC La nouvelle vague de la gestion des données

Les défis informatiques répondent aux nouvelles exigences en matière de données Afin de satisfaire les nouvelles attentes des entreprises ainsi que leurs besoins croissants en

matière de traitement et analyse de volumes de plus en plus importants d’informations, les

services informatiques cherchent à moderniser leurs processus de gestion des données.

Cependant, les outils traditionnels échouent quand il s’agit d’intégrer, rechercher et analyser

de grandes quantités de données. Dans le passé, ajouter plus d’équipement (matériel et

logiciels) était la solution qui garantissait la disponibilité et l’évolutivité des informations. Mais

maintenant ce n’est plus le cas. Les informations doivent être disponibles 24 heures sur 24 et

7 jours sur 7. Et cela à travers une variété de canaux, allant du web aux dispositifs mobiles.

Gérer une volumétrie et une variété de données de plus en plus grandes

La volumétrie des données, en constante augmentation, suscite beaucoup de réflexions, y

compris dans ce livre blanc. Les services informatiques sont directement concernés, puisque

la croissance prévue des données globales générées est en hausse chaque année de 40%,

alors que les budgets alloués à la technologie informatique ne progressent que de 5%

(Source). Cependant, la préoccupation majeure est l’augmentation de la variété des données,

et on entend ici celles qui ne sont pas contenues dans une base ou dans un Data

Warehouse : référentiels de gestion de contenu, données de streaming (fichiers audio,

vidéos), images, blogs, forums de commentaires clients, capteurs de réseaux, données

transactionnelles, et plus encore. Selon des estimations d’IDC, d’ici 2015, 90% des

informations dans l’univers digital seront de type non structuré (Source). Ce qui implique que

les entreprises qui se focalisent uniquement sur la volumétrie sans prendre en compte les

caractéristiques des informations, telles que leur variété, auront des investissements plus

importants à prévoir.

Une recherche du cabinet d’étude Forrester, illustrée ci-dessous, souligne le problème auquel

les entreprises sont confrontées dans leurs efforts d’effectuer de meilleures analyses client,

tâche qui implique l’intégration de données structurées et non structurées provenant de

sources multiples.

Page 8: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

8

LIVRE BLANC La nouvelle vague de la gestion des données

Source: Forrester Webinar avec Talend

Assurer la gouvernance et la qualité des données

En fonction de l’objectif d’un projet Big Data, une qualité médiocre de données aura

probablement un fort impact sur l’efficacité. On peut affirmer que des données incohérentes

ou invalides affecteront de manière exponentielle l’analyse dans le domaine des Big Data. Si

un enregistrement entre dans un système en tant que doublon, ou en tant que donnée

incorrecte ou incomplète, cela aura des répercussions sur beaucoup d’autres systèmes. Au

fur et à mesure que l’analyse Big Data augmente, les besoins en termes de validation,

standardisation, enrichissement et résolution des données augmentent à leur tour. Même

l’identification des liens peut être considérée comme une problématique de qualité des

données qui doit être résolue pour permettre la mise en place du Big Data.

Comme c’est le cas dans tous les domaines impliquant la gestion des données de l’entreprise,

le Big Data devra à terme se conformer aux standards établis ainsi qu’aux normes reconnues

pour le déploiement et le partage des éléments du projet.

Il n’y a pas si longtemps, le téraoctet (équivalent à 1012 octets) et le pétaoctet (1015 octets)

représentaient des dimensions très importantes. L’élément décisif d’un appel d’offre pour un

Data Warehouse pouv ait tout à fait tourner autour de la capacité de gérer un pétaoctet

d’informations. Désormais, des unités de mesure telles que l’exaoctet (1018 octets) et le

zettaoctet (1021 octets) pourraient bientôt devenir la norme.

Page 9: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

9

LIVRE BLANC La nouvelle vague de la gestion des données

Dans un rapport récent, Gartner affirme que les entreprises intégrant en 2015 des types

variés d’informations et de sources à forte valeur pour les consolider dans une infrastructure

de gestion des données cohérente, auront des rendements supérieurs de 20% par rapport à

leurs concurrents. Toutefois, en 2015, 85% des entreprises auront échoué à adapter leur

infrastructure au "Big Data", aux contenus obtenus via les réseaux sociaux et aux nouveaux

dispositifs connectés. Cela signifie que tous les systèmes, même la plus grande plateforme

d’intégration actuellement disponible (le Data Warehouse), seront dépassés d’ici trois ou

quatre ans (Source).

Page 10: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

10

LIVRE BLANC La nouvelle vague de la gestion des données

Stratégies pour la gestion évolutive du Big Data et des données d’entreprise De nombreuses entreprises ont construit leur architecture de données service par service,

afin de résoudre des problèmes de gestion spécifiques. Les « données d’entreprise », ou les

données dans les systèmes de l’entreprise, telles que les applications CRM et ERP, sont

ensuite réunies dans un Data Warehouse, au moyen d’outils d’intégration et de qualité, pour

être exploitées ultérieurement dans les phases de traitement, analyse, visualisation et gestion.

C’est un exemple de gestion globale des données pour les informations d’entreprise.

Aujourd’hui, avec la nécessité d’inclure dans l’analyse de grandes quantités de données non

structurées (2 à 10 fois le volume de données structurées), certaines entreprises pourraient

décider de créer une architecture Big Data séparée, ce qui constituerait un autre silo. Hélas,

beaucoup d’éditeurs sur le marché préconisent cette approche, puisque leurs outils ne sont

pas adaptés pour supporter un modèle de gestion globale des données prenant en compte

données structurées et non structurées. Avec cette démarche, les entreprises construisent

une infrastructure de données très problématique, car elle engendre :

- beaucoup de doublons d’ un silo à un autre, avec réutilisation limitée ;

- des pratiques incohérentes de gouvernance et de qualité de données au sein de

l’entreprise ;

- des coûts élevés d’exploitation, de maintenance et de licences logicielles.

Le Big Data devrait être traité exactement comme les autres données, dans le sens où il doit

être stocké, nettoyé et enrichi. Et il doit être exploité aussi, à savoir retrouvé par une requête

ou bien analysé au sein d’un système. Au fur et à mesure que les systèmes de l’entreprise

sont intégrés, le risque de problèmes en termes de qualité et de gouvernance des données

augmente. Gérer le Big Data ne signifie pas seulement déployer un cluster Hadoop ou

charger des données dans un système de fichiers Hadoop entre nœuds distribués, puis les

traiter avec MapReduce. La gestion des Big Data implique également de s’assurer que

l’environnement des données dans sa globalité incorpore des outils capables de gérer la

volumétrie, la vitesse de transfert, la variété et la complexité des informations mais aussi de

supporter la gestion du cycle de vie des logiciels, les fonctionnalités de service et de qualité

de données, ainsi que les procédures pour la gouvernance des données.

Une approche globale pour la gestion de toutes les données

Au lieu de gérer des silos de données structurées, non structurées et semi-structurées et les

relier entre eux (bottom-up), l’approche recommandée est de penser à la gestion des

Page 11: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

11

LIVRE BLANC La nouvelle vague de la gestion des données

données de manière globale (top-down). Votre entreprise a besoin de gérer ses Big Data

comme elle le fait pour toutes ses autres données, même les données simples comme par

exemple les feuilles de calcul. Les données peuvent être localisées tant en local, que dans le

Cloud ou dans une application SaaS. Il peut s’agir de données transactionnelles ou de

navigation sur votre site web. Mais quoi qu’il en soit, l’entreprise doit être en mesure

d’effectuer le profiling, le dédoublonnage et le rapprochement de toutes ces données, ainsi

que de les rendre disponibles en tant que services pour être exploitées. Sans compter que,

souvent, les informations doivent être traitées et mises à disposition en temps réel. La

« gestion globale des données », permet d’appliquer les mêmes bonnes pratiques et de se

servir des mêmes outils pour tout type de données.

Heureusement pour les utilisateurs, il existe aujourd’hui des solutions qui permettent de créer

un environnement global de gestion de données sans compromettre le budget des services

informatiques. En effet, la plupart des fonctionnalités dans le domaine est maintenant

devenue une pratique courante, de telle sorte que les entreprises peuvent construire à

moindre coût leur infrastructure globale de gestion, tant de données structurées que non

structurées.

Les avantages d’une approche globale

Avec une approche de gestion globale des données destinée à toutes les informations de

l’entreprise, les avantages attendus sont les suivants :

• Amélioration de la qualité des données – les fonctionnalités de profiling,

rapprochement, dédoublonnage et monitoring de toutes les données maximisent

l’exhaustivité, l’exactitude et l’intégrité des informations, et par conséquent leur valeur

ajoutée pour l’entreprise.

• Amélioration de la transparence – la mise en place de processus de gouvernance

pour toutes les données permet aux entreprises de mieux mesurer l’utilisation des

informations, assurer une attribution appropriée des accès et établir des politiques et

des procédures internes.

Page 12: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

12

LIVRE BLANC La nouvelle vague de la gestion des données

Diminution des coûts – la diminution du nombre de silos entraîne une diminution des processus de duplication. Grâce à la réutilisation des services pour les données, les projets peuvent être menés à terme plus rapidement et de manière moins onéreuse. De plus, les entreprises peuvent rentabiliser leurs outils de base, car ils dans interviennent la plupart des fonctions de gestion des données.

La gestion globale des données selon Talend Talend propose une plate-forme unifiée pour la gestion des données, où qu’elles se trouvent :

fichiers texte, bases de l’entreprise, spreadmarts ou clusters Big Data tels Hadoop. Les

solutions de la plate-forme Talend répondent à tous les besoins en matière de gestion de

données, y compris l’intégration des Big Data, la qualité et la gouvernance des données, la

gestion des données maître, la gestion des processus d’entreprise et l’intégration

d’applications.

Gérer des données signifie supporter un nombre élevé de demandes des plus diverses, et

Talend reconnaît cette réalité. Les utilisateurs ne doivent pas avoir besoin d’apprendre à

utiliser des environnements différents pour traiter le Big Data d’un côté et les données de

l’entreprise de l’autre. Cela permet d’économiser des coûts d’infrastructure, de licences et de

formation des utilisateurs, les frais liés à la gestion d’informations disparates, ainsi que du

temps dédié au développement du projet. À titre d’exemple, si vous souhaitez intégrer des

sources de Big Data en vous appuyant sur les outils graphiques de gestion de données de

Talend, vous pourrez intégrer également des sources NoSQL, les données de votre

entreprise et les données simples. Vous pourrez ensuite générer du code Hive, Pig et

d’autres langages de base. La qualité Big Data ainsi obtenue, reposant sur l’environnement

massivement parallèle de Hadoop, vous permettra d’optimiser l’exhaustivité, l’exactitude et

l’intégrité des informations, ainsi que le dédoublonnage. Grâce à l’environnement simple et

intuitif pour la gouvernance des données proposé par Talend, vous pourrez déployer votre

projet Big Data en maîtrisant chaque phase de planification et d’implémentation.

Page 13: La prochaine vague de la gestion des donnéesdocs.media.bitpipe.com/.../WP_FR_DM_Talend_NextWave_DataMana… · investir dans le Big Data, « augmenter la précision et la profondeur

13

LIVRE BLANC La nouvelle vague de la gestion des données

À propos de Talend Les entreprises utilisent les solutions d’intégration de Talend pour tirer le meilleur parti de

leurs données, en fournissant un accès rapide et aisé à l’ensemble des données historiques,

transactionnelles et émergentes. A travers le support natif des plates-formes modernes de Big

Data, dont Hadoop et NoSQL, Talend réduit la complexité des programmes d’intégration et

permet aux départements informatiques de répondre plus rapidement aux besoins métiers.

Reposant sur des technologies open source et supportée par l’écosystème le plus étendu du

marché, la gamme unifiée de solutions de Talend est fournie sur la base d’un modèle de

souscription favorisant la prévisibilité des coûts. Elle couvre les Big Data, l’intégration de

données, la qualité des données, le MDM (Master Data Management), l’ESB (Enterprise

Service Bus) et la gestion des processus métiers (BPM).

A la différence des architectures d’intégration traditionnelles qui ne sont pas en mesure de

s’adapter pour supporter efficacement des besoins toujours plus complexes, les solutions

hautement évolutives de Talend répondent à tous les besoins d’intégration, actuels et

émergents.

Contacts

www.talend.com/contact

[email protected]

[email protected]

[email protected]

© Talend 2014 WP173-EN