La prochaine vague de la gestion des...
Transcript of La prochaine vague de la gestion des...
WHITE PAPER
La prochaine vague de la gestion des données
Le Big Data : nouveau standard ?
2
LIVRE BLANC La nouvelle vague de la gestion des données
Table des matières INTRODUCTION 3
DU MYTHE A LA REALITE 3 Pourquoi les entreprises investissent-elles leur budget informatique dans le Big Data ? 4
LES TENDANCES DANS LES TECHNOLOGIES DE GESTION DES DONNEES 5 Le cycle de vie de la technologie, de la conception à la maturité 5
LES DEFIS INFORMATIQUES REPONDENT AUX NOUVELLES EXIGENCES EN MATIERE DE DONNEES 7 Gérer une volumétrie et une variété de données de plus en plus grandes 7 Assurer la gouvernance et la qualité des données 8
STRATEGIES POUR LA GESTION EVOLUTIVE DU BIG DATA ET DES DONNEES D’ENTREPRISE 10 Une approche globale pour la gestion de toutes les données 10 Les avantages d'une approche globale 11
LA GESTION GLOBALE DES DONNEES SELON TALEND 12
A PROPOS DE TALEND 13 Contacts 13
3
LIVRE BLANC La nouvelle vague de la gestion des données
Introduction La promesse du Big Data a fait couler beaucoup d’encre. Avec l’augmentation des données
d’entreprise, il est clair que le Big Data pourrait devenir le « nouveau standard ». Dans
certains services, par exemple, les entreprises sont en mesure de prendre des décisions plus
avisées en analysant un nombre de données plus important et plus varié. Selon un rapport
récent du Gartner, les entreprises qui en 2015 intégreront une grande variété d’informations
et de sources à forte valeur pour les consolider dans une infrastructure de gestion de
données cohérente, auront des rendements supérieurs de 20% par rapport à leurs
concurrents (Source).
Cependant, ce nouveau défi de la gestion de données entraînera son lot d’échecs dans
l’implémentation du Big Data, et obligera les entreprises à repenser leurs architectures dans
quelques années. En effet, il n’est pas simple d’incorporer efficacement des technologies Big
Data comme Hadoop et NoSQL dans votre architecture actuelle des données.
Ce livre blanc passe en revue les leviers qui influencent cette nouvelle vague de la gestion
des données. Il met également en avant les nouveaux outils à disposition des entreprises
pour la conception de leur prochaine architecture de données. II expose, enfin, un plan de
gestion de toutes les données à envisager pour votre stratégie globale de l'information.
Du mythe à la réalité Existe-t-il un problème que le Big Data ne puisse pas résoudre? Le Big Data est-il surestimé ?
Pour beaucoup, la réponse à ces questions est “oui”, ne serait-ce que parce que le “Big Data”
apparaît constamment dans toutes les présentations des éditeurs pour agrémenter leurs
stratégies sur les informations d’entreprise. Les études de cas vont des analyses de
campagnes marketing et des moteurs de recommandation aux analyses prédictives et
analyses de sentiment ou encore à la détection des fraudes. Pourquoi ne pas utiliser le Big
Data, comme certains l’ont proposé, pour prédire qui sera le prochain pape à la tête de
l’église catholique ? Et puis quoi d’autre encore? En essayant de déterminer la portée de la
valeur ajoutée que le Big Data peut offrir, nous ne regardons actuellement que la partie visible
de l’iceberg.
Toutefois, une chose est certaine : l’univers digital connait une croissance exponentielle. Voici
quelques faits :
4
LIVRE BLANC La nouvelle vague de la gestion des données
• La volumétrie des données partout dans le monde augmente à un rythme de 59%
par an, les fichiers de 88%. (Source)
• Selon des estimations d’IDC, les transactions financières B2B et B2C sur le web
atteindront les 450 milliards par jour d’ici 2020. (Source)
• Akamai analyse chaque jour 75 millions d’événements pour mieux cibler sa publicité.
(Source)
• Walmart traite chaque heure plus d’un million de transactions clients, qui sont
importées vers des bases de données dont le contenu est estimé à plus de 2,5
pétaoctets. (Source)
• Plus de 5 milliards de personnes dans le monde utilisent leur téléphone portable pour
passer des appels, envoyer des SMS, tweeter et naviguer sur le web. (Source)
• 100 téraoctets de données sont téléchargés tous les jours sur Facebook. (Source)
Pourquoi les entreprises investissent-elles leur budget informatique dans le Big Data ?
Une étude récente de Talend montre que, dans la liste des raisons principales qui incitent à
investir dans le Big Data, « augmenter la précision et la profondeur des analyses prédictives »
est la priorité. En effet, vu la quantité importante de données non structurées ne pouvant pas
être analysées, les entreprises prennent conscience de l’intérêt d’utiliser le Big Data.
Quels sont les éléments moteurs pour le développement des Big Data dans votre entreprise ? (95 réponses)
5
LIVRE BLANC La nouvelle vague de la gestion des données
Les tendances dans les technologies de gestion des données Que le Big Data soit déjà implémenté ou seulement envisagé au sein de votre entreprise,
certains éléments en matière de gestion de données nécessitent des réflexions stratégiques
et de la planification :
• Traitement des données en temps réel – la nécessité de disposer d’informations à
la demande et en temps réel augmente car les entreprises sont de plus en plus
nombreuses à refuser de baser leurs décisions sur des données datant du mois
précédent, ou même de la veille.
• Services des données – afin de répondre à la demande d’accessibilité et de
disponibilité des informations de la part de nombreux clients, les fonctionnalités de
gestion de données comme l’intégration et la qualité deviennent disponibles en tant
que services basés en local ou dans le Cloud.
• Gestion de données open source – en surmontant l’obstacle des lourds
investissements habituellement nécessaires en termes de logiciels d’entreprise,
l’Open Source permet aux organisations de taille plus modeste d’accéder à la gestion
des données, et à celles plus grandes d’optimiser le coût total des logiciels
propriétaires.
• Gouvernance des données – une approche évolutive pour élaborer des politiques
et des procédures pour l’utilisation, l’accès et la gestion des données, qui prend de
l’importance au fur et à mesure que les utilisateurs jouent un rôle toujours plus grand
en matière de gestion des données et budgétisation.
• Big Data et NoSQL – ils constituent un pont entre les technologies existantes dans
le domaine des bases de données et les demandes de stockage, localisation,
traitement et analyse rapides de Big Data.
Le cycle de vie de la technologie, de la conception à la maturité
Au fur et à mesure que ces nouvelles technologies sont introduites sur le marché, leur cycle
de vie typique, de la conception jusqu’à la maturité, se dessine. Dans un premier temps, elles
doivent être intégrées dans les systèmes existants, puis elles doivent être renforcées pour
répondre aux exigences d’adaptabilité, fiabilité et sécurité. Enfin, elles peuvent être amenées
à incorporer des fonctionnalités connexes pour la gestion du cycle de vie des logiciels telles
6
LIVRE BLANC La nouvelle vague de la gestion des données
que la gestion de projets et les tests, ou encore, pour rester dans le domaine de la gestion
des données, les fonctionnalités permettant d’exposer une fonction comme service
consommable. Les étapes représentant le cycle de vie de la nouvelle technologie jusqu’à sa
maturité pourraient ressembler à ceci :
Chacune des tendances mentionnées précédemment suit un cycle de vie, allant des phases
de réflexion jusqu’à la mise en place du projet, qui offre encore plus d’avantages aux
utilisateurs finaux. Si nous prenons par exemple le Big Data (Hadoop), il a été conçu en tant
qu’implémentation de MapReduce et a ensuite été étendu à un système opérationnel massif
pour le traitement parallèle distribué d’énormes quantités de données. D’autres technologies
ont été ajoutées, telles que Hbase, une base de données Open Source, HCatalog pour les
métadonnées, Apache Hive en tant qu’infrastructure de Data Warehouse, et Apache Pig
comme langage de programmation.
Toutefois, Hadoop seul, malgré le fait qu’il soit bien équipé pour le stockage et le traitement
de quantités importantes d’informations séparé en nœuds, ne dispose pour le moment
d’aucune fonctionnalité pour la gestion du cycle de vie des logiciels, la gestion de projets ou la
gestion de données connexes. Cela implique qu’aucun outil d’intégration, de gestion des
métadonnées, de gouvernance, de profiling, de nettoyage et de rapprochement ne sont inclus.
La gouvernance des données est fondamentale pour réussir une implémentation à l’échelle
de l’entreprise, puisqu’elle réunit les processus opérationnels, les rôles et responsabilités
organisationnels ainsi que les bonnes pratiques.
Le Big Data peut-il remplacer un Data Warehouse ? Un exemple : un fournisseur de
télécommunications européen doit stocker dans une base de données toutes les transactions
d’appel pour une période de deux ans pour se conformer à la règlementation. Une solution
possible pourrait être de créer un grand Data Warehouse pour emmagasiner ces informations.
Mais il existe une alternative moins onéreuse, plus rapide et plus performante : installer un
cluster Hadoop ou une base de données NoSQL. Parfois connue sous le nom de “data
hoarding”, cette stratégie est actuellement utilisée par de nombreuses entreprises comme
moyen de stocker les informations avant de les traiter.
7
LIVRE BLANC La nouvelle vague de la gestion des données
Les défis informatiques répondent aux nouvelles exigences en matière de données Afin de satisfaire les nouvelles attentes des entreprises ainsi que leurs besoins croissants en
matière de traitement et analyse de volumes de plus en plus importants d’informations, les
services informatiques cherchent à moderniser leurs processus de gestion des données.
Cependant, les outils traditionnels échouent quand il s’agit d’intégrer, rechercher et analyser
de grandes quantités de données. Dans le passé, ajouter plus d’équipement (matériel et
logiciels) était la solution qui garantissait la disponibilité et l’évolutivité des informations. Mais
maintenant ce n’est plus le cas. Les informations doivent être disponibles 24 heures sur 24 et
7 jours sur 7. Et cela à travers une variété de canaux, allant du web aux dispositifs mobiles.
Gérer une volumétrie et une variété de données de plus en plus grandes
La volumétrie des données, en constante augmentation, suscite beaucoup de réflexions, y
compris dans ce livre blanc. Les services informatiques sont directement concernés, puisque
la croissance prévue des données globales générées est en hausse chaque année de 40%,
alors que les budgets alloués à la technologie informatique ne progressent que de 5%
(Source). Cependant, la préoccupation majeure est l’augmentation de la variété des données,
et on entend ici celles qui ne sont pas contenues dans une base ou dans un Data
Warehouse : référentiels de gestion de contenu, données de streaming (fichiers audio,
vidéos), images, blogs, forums de commentaires clients, capteurs de réseaux, données
transactionnelles, et plus encore. Selon des estimations d’IDC, d’ici 2015, 90% des
informations dans l’univers digital seront de type non structuré (Source). Ce qui implique que
les entreprises qui se focalisent uniquement sur la volumétrie sans prendre en compte les
caractéristiques des informations, telles que leur variété, auront des investissements plus
importants à prévoir.
Une recherche du cabinet d’étude Forrester, illustrée ci-dessous, souligne le problème auquel
les entreprises sont confrontées dans leurs efforts d’effectuer de meilleures analyses client,
tâche qui implique l’intégration de données structurées et non structurées provenant de
sources multiples.
8
LIVRE BLANC La nouvelle vague de la gestion des données
Source: Forrester Webinar avec Talend
Assurer la gouvernance et la qualité des données
En fonction de l’objectif d’un projet Big Data, une qualité médiocre de données aura
probablement un fort impact sur l’efficacité. On peut affirmer que des données incohérentes
ou invalides affecteront de manière exponentielle l’analyse dans le domaine des Big Data. Si
un enregistrement entre dans un système en tant que doublon, ou en tant que donnée
incorrecte ou incomplète, cela aura des répercussions sur beaucoup d’autres systèmes. Au
fur et à mesure que l’analyse Big Data augmente, les besoins en termes de validation,
standardisation, enrichissement et résolution des données augmentent à leur tour. Même
l’identification des liens peut être considérée comme une problématique de qualité des
données qui doit être résolue pour permettre la mise en place du Big Data.
Comme c’est le cas dans tous les domaines impliquant la gestion des données de l’entreprise,
le Big Data devra à terme se conformer aux standards établis ainsi qu’aux normes reconnues
pour le déploiement et le partage des éléments du projet.
Il n’y a pas si longtemps, le téraoctet (équivalent à 1012 octets) et le pétaoctet (1015 octets)
représentaient des dimensions très importantes. L’élément décisif d’un appel d’offre pour un
Data Warehouse pouv ait tout à fait tourner autour de la capacité de gérer un pétaoctet
d’informations. Désormais, des unités de mesure telles que l’exaoctet (1018 octets) et le
zettaoctet (1021 octets) pourraient bientôt devenir la norme.
9
LIVRE BLANC La nouvelle vague de la gestion des données
Dans un rapport récent, Gartner affirme que les entreprises intégrant en 2015 des types
variés d’informations et de sources à forte valeur pour les consolider dans une infrastructure
de gestion des données cohérente, auront des rendements supérieurs de 20% par rapport à
leurs concurrents. Toutefois, en 2015, 85% des entreprises auront échoué à adapter leur
infrastructure au "Big Data", aux contenus obtenus via les réseaux sociaux et aux nouveaux
dispositifs connectés. Cela signifie que tous les systèmes, même la plus grande plateforme
d’intégration actuellement disponible (le Data Warehouse), seront dépassés d’ici trois ou
quatre ans (Source).
10
LIVRE BLANC La nouvelle vague de la gestion des données
Stratégies pour la gestion évolutive du Big Data et des données d’entreprise De nombreuses entreprises ont construit leur architecture de données service par service,
afin de résoudre des problèmes de gestion spécifiques. Les « données d’entreprise », ou les
données dans les systèmes de l’entreprise, telles que les applications CRM et ERP, sont
ensuite réunies dans un Data Warehouse, au moyen d’outils d’intégration et de qualité, pour
être exploitées ultérieurement dans les phases de traitement, analyse, visualisation et gestion.
C’est un exemple de gestion globale des données pour les informations d’entreprise.
Aujourd’hui, avec la nécessité d’inclure dans l’analyse de grandes quantités de données non
structurées (2 à 10 fois le volume de données structurées), certaines entreprises pourraient
décider de créer une architecture Big Data séparée, ce qui constituerait un autre silo. Hélas,
beaucoup d’éditeurs sur le marché préconisent cette approche, puisque leurs outils ne sont
pas adaptés pour supporter un modèle de gestion globale des données prenant en compte
données structurées et non structurées. Avec cette démarche, les entreprises construisent
une infrastructure de données très problématique, car elle engendre :
- beaucoup de doublons d’ un silo à un autre, avec réutilisation limitée ;
- des pratiques incohérentes de gouvernance et de qualité de données au sein de
l’entreprise ;
- des coûts élevés d’exploitation, de maintenance et de licences logicielles.
Le Big Data devrait être traité exactement comme les autres données, dans le sens où il doit
être stocké, nettoyé et enrichi. Et il doit être exploité aussi, à savoir retrouvé par une requête
ou bien analysé au sein d’un système. Au fur et à mesure que les systèmes de l’entreprise
sont intégrés, le risque de problèmes en termes de qualité et de gouvernance des données
augmente. Gérer le Big Data ne signifie pas seulement déployer un cluster Hadoop ou
charger des données dans un système de fichiers Hadoop entre nœuds distribués, puis les
traiter avec MapReduce. La gestion des Big Data implique également de s’assurer que
l’environnement des données dans sa globalité incorpore des outils capables de gérer la
volumétrie, la vitesse de transfert, la variété et la complexité des informations mais aussi de
supporter la gestion du cycle de vie des logiciels, les fonctionnalités de service et de qualité
de données, ainsi que les procédures pour la gouvernance des données.
Une approche globale pour la gestion de toutes les données
Au lieu de gérer des silos de données structurées, non structurées et semi-structurées et les
relier entre eux (bottom-up), l’approche recommandée est de penser à la gestion des
11
LIVRE BLANC La nouvelle vague de la gestion des données
données de manière globale (top-down). Votre entreprise a besoin de gérer ses Big Data
comme elle le fait pour toutes ses autres données, même les données simples comme par
exemple les feuilles de calcul. Les données peuvent être localisées tant en local, que dans le
Cloud ou dans une application SaaS. Il peut s’agir de données transactionnelles ou de
navigation sur votre site web. Mais quoi qu’il en soit, l’entreprise doit être en mesure
d’effectuer le profiling, le dédoublonnage et le rapprochement de toutes ces données, ainsi
que de les rendre disponibles en tant que services pour être exploitées. Sans compter que,
souvent, les informations doivent être traitées et mises à disposition en temps réel. La
« gestion globale des données », permet d’appliquer les mêmes bonnes pratiques et de se
servir des mêmes outils pour tout type de données.
Heureusement pour les utilisateurs, il existe aujourd’hui des solutions qui permettent de créer
un environnement global de gestion de données sans compromettre le budget des services
informatiques. En effet, la plupart des fonctionnalités dans le domaine est maintenant
devenue une pratique courante, de telle sorte que les entreprises peuvent construire à
moindre coût leur infrastructure globale de gestion, tant de données structurées que non
structurées.
Les avantages d’une approche globale
Avec une approche de gestion globale des données destinée à toutes les informations de
l’entreprise, les avantages attendus sont les suivants :
• Amélioration de la qualité des données – les fonctionnalités de profiling,
rapprochement, dédoublonnage et monitoring de toutes les données maximisent
l’exhaustivité, l’exactitude et l’intégrité des informations, et par conséquent leur valeur
ajoutée pour l’entreprise.
• Amélioration de la transparence – la mise en place de processus de gouvernance
pour toutes les données permet aux entreprises de mieux mesurer l’utilisation des
informations, assurer une attribution appropriée des accès et établir des politiques et
des procédures internes.
12
LIVRE BLANC La nouvelle vague de la gestion des données
Diminution des coûts – la diminution du nombre de silos entraîne une diminution des processus de duplication. Grâce à la réutilisation des services pour les données, les projets peuvent être menés à terme plus rapidement et de manière moins onéreuse. De plus, les entreprises peuvent rentabiliser leurs outils de base, car ils dans interviennent la plupart des fonctions de gestion des données.
La gestion globale des données selon Talend Talend propose une plate-forme unifiée pour la gestion des données, où qu’elles se trouvent :
fichiers texte, bases de l’entreprise, spreadmarts ou clusters Big Data tels Hadoop. Les
solutions de la plate-forme Talend répondent à tous les besoins en matière de gestion de
données, y compris l’intégration des Big Data, la qualité et la gouvernance des données, la
gestion des données maître, la gestion des processus d’entreprise et l’intégration
d’applications.
Gérer des données signifie supporter un nombre élevé de demandes des plus diverses, et
Talend reconnaît cette réalité. Les utilisateurs ne doivent pas avoir besoin d’apprendre à
utiliser des environnements différents pour traiter le Big Data d’un côté et les données de
l’entreprise de l’autre. Cela permet d’économiser des coûts d’infrastructure, de licences et de
formation des utilisateurs, les frais liés à la gestion d’informations disparates, ainsi que du
temps dédié au développement du projet. À titre d’exemple, si vous souhaitez intégrer des
sources de Big Data en vous appuyant sur les outils graphiques de gestion de données de
Talend, vous pourrez intégrer également des sources NoSQL, les données de votre
entreprise et les données simples. Vous pourrez ensuite générer du code Hive, Pig et
d’autres langages de base. La qualité Big Data ainsi obtenue, reposant sur l’environnement
massivement parallèle de Hadoop, vous permettra d’optimiser l’exhaustivité, l’exactitude et
l’intégrité des informations, ainsi que le dédoublonnage. Grâce à l’environnement simple et
intuitif pour la gouvernance des données proposé par Talend, vous pourrez déployer votre
projet Big Data en maîtrisant chaque phase de planification et d’implémentation.
13
LIVRE BLANC La nouvelle vague de la gestion des données
À propos de Talend Les entreprises utilisent les solutions d’intégration de Talend pour tirer le meilleur parti de
leurs données, en fournissant un accès rapide et aisé à l’ensemble des données historiques,
transactionnelles et émergentes. A travers le support natif des plates-formes modernes de Big
Data, dont Hadoop et NoSQL, Talend réduit la complexité des programmes d’intégration et
permet aux départements informatiques de répondre plus rapidement aux besoins métiers.
Reposant sur des technologies open source et supportée par l’écosystème le plus étendu du
marché, la gamme unifiée de solutions de Talend est fournie sur la base d’un modèle de
souscription favorisant la prévisibilité des coûts. Elle couvre les Big Data, l’intégration de
données, la qualité des données, le MDM (Master Data Management), l’ESB (Enterprise
Service Bus) et la gestion des processus métiers (BPM).
A la différence des architectures d’intégration traditionnelles qui ne sont pas en mesure de
s’adapter pour supporter efficacement des besoins toujours plus complexes, les solutions
hautement évolutives de Talend répondent à tous les besoins d’intégration, actuels et
émergents.
Contacts
www.talend.com/contact
© Talend 2014 WP173-EN