Sommaire - bigdataparis.com · Sommaire Discours d’ouverture 2 Axelle LEMAIRE 2 Secrétaire...

Sommaire

Discours d’ouverture 2 Axelle LEMAIRE 2 Secrétaire d’Etat au Numérique, Ministère de l’Economie, de l’Industrie et du Numérique 2

Maître de la donnée, maître du monde 6 Gilles BABINET 6 Digital Champion auprès de la Commission européenne et cofondateur de Captain Dash 6 Stéphane GRUMBACH 6 Directeur de recherche, INRIA 6

Keynote 8 Marc CHEMIN 8 Cap Gemini 8

Keynote 9 Bernard OURGHANLIAN 9 Directeur technique et sécurité, Microsoft 9

Table ronde objets connectés : du MTOM aux wearable devices, en quoi les objets connectés révolutionnent le big data ? 10

Pascal BROSSET 10 SVP Innovation and CTO, Schneider Electric 10 Thomas SERVAL 10 Cofondateur, Kolibree 10 Mathias HERBERTS 10 Cofondateur, Cytizen Data 10 Hugues SEVERAC 10 VP Innovation France, AVIVA 10

Discours de clôture de la matinée : 12

Impact sociologique des objets connectés : l’homme augmenté, version 2.0 de l’humanité ? 12

Éric SADIN 12 Écrivain – Philosophe 12

Parcours retours d’expérience 13 I) Keynote 13

Pascal Arts 13 DLL 13

II) Big data or big change management ? 13 Abed AJRAOU 13 Solocal Group 13

III) Adoption Big data : Lean Startup, Horizon planning, rudiments de « VUCAnologie » au travers des expériences de NeoPost 14

Hugues LE BARS 14 Chief data officer – Neopost 14

IV) La transformation digitale du stade toulousain 14 Emmanuel SCHWEITZER 14 TIBCO 14 Vincent BONNET 14 Stade Toulousain 14

V) Ciblage et personnalisation : cas client FNAC 15 Camille BERLAND 15 FNAC 15 David BESSIS 15 Tinyclues 15

VI) La relation client chez La Poste Mobile 16 Benoît BOURDÉ 16 Dassault Systèmes 16 Olivier RENARD 16 DSI, La Poste Mobile 16

VII) Big Data analytics en entreprise : exemples concrets de création de valeur dans un marché en forte évolution 17

Fabrice de SALABERRY 17 Directeur général – SINEQUA 17 Daniel LE COGUIC 17 ATOS France & IMEA 17

VIII) Exploration de données : clé de voûte du succès d’un projet big data 18 Frédéric VAUTRAIN 18 Directeur Data Science, Viseo 18 Laurent LEFRANC 18 Head of Data Science Analytics, Altares Dun and Bradstreet 18 Yohan BENQUE 18 Head of Business Development, Altares Dun and Bradstreet 18

IX) Photobox big data : du batch au temps réel 19 Maxime MEZIN 19 Group Data & Photo Science Director, Photobox 19

X) Grandvision analyse le web social pour optimiser le parcours client 19 Pierre-Marie DESBAZEILLES 19 Directeur CRM & Digital, Grandvision 19 Sylvain ORNETTI, 19 Analyste de données, Dictanova 19

XI) Tableau et Criteo : le pouvoir des données et de la technologie 20 Damien LESAGE 20 BI analyst, Criteo 20 Edouard BEAUCOURT 20 Tableau 20

KEYNOTE INTEL : Restructurer son Datacenter pour répondre aux besoins métiers en termes de Big Data 21

Hadoop 2 – Point d’étape 22

Business Data lake : pour quoi faire et jusqu’où ? 24

Table ronde : Intégrer seul l’open source ou passer par un éditeur ? 26 Romain PICARD 26 Regional Director SEMEA, Cloudera 26 Xavier GUERIN 26 Responsable Business Development, Partners & Alliances EMEA chez MapR 26

Objectif et contexte business : piliers du traitement efficace des données 28

Témoignage utilisateur : Solocal Group (ex-PagesJaunes) 29

Big Data : Plate-forme hybride, équipe hybride ? 30

Keynote : MarkLogic 31 Ken KRUPA 31 CTO MarkLogic 31

Maîtriser les données de l’Entreprise 32 Elias BALTASSIS 32 Directeur big data and analytics, DCG 32 François BOURDONCLE 32 Cofondateur Exalead, Dassault Systèmes et Président, FB&CIE 32 Régis DELAYAT 32 DSI et administrateur du CIGREF, SCOR 32

Réglementation : quelles sont les nouveautés aux niveaux européen et français ? 34

Stéphane GREGOIRE 34 Chef du service des affaires économiques, CNIL 34 Thierry DOR 34 Avocat associé, en charge du droit de l’informatique et des nouvelles technologies, GIDE

LOYRETTE NOUEL 34

Table ronde : le big data en entreprise, comment dépasser les obstacles ? 36 Stéphane CLÉMENÇON 36 Responsable mastère spécialisé big data, Telecom Paristech 36 Yves DENNEULIN 36 Directeur, ENSIMAG 36

David NAÏM 36 Associé, responsable du pôle Stratégie, marketing et innovation, Ernst & Young 36 Hubert TOURNIER 36 Deputy to the group CIO & Deputy to the CEO, Groupement des Mousquetaires 36 Joannès VERMOREL 36 Enseignant à l’Ecole normale supérieure et PDG, LOKAD 36 Justin ZIEGLER 36 DSI, Priceminister 36

Keynote – Pax Data 38 Doug CUTTING 38 Hadoop Cofunder – Chief architect, Cloudera 38

Big data, ça change tout 39 Colin MAHONY 39 SVP and general manager, HP software big data 39

Remise des Trophées de l’Innovation Big data 2015 40 Jérôme SANDRINI 40 Vice-président, responsable des opérations globales big data, Atos 40 Steve PEGUET 40 Directeur Innovation France, Atos 40 Antoine CROCHET-DAMAIS 40 Journaliste, JDN 40

Parcours retours d’expérience 41 I) La transformation digitale : une opportunité 41

Marc GENEVOIS 41 Directeur des Opérations, SAP France 41

II) Assurances : le big data, un catalyseur de la transformation digitale de Covea 41

Guillaume LEMELE 41 Directeur des pôles logiciels du SI MMA, Covea 41 Sébastien LAYER 41 Architecte senior, Sentelis 41

III) Operational Analytics & internet of things, the next frontier ? 42 Erick BRETHENOUX 42 Director of business analytics & decision management strategy, IBM 42

IV) Comment le big data a gagné l’America’s Cup 42 Philippe PRESTI 42 Navigateur, Oracle Team USA 42 Éric DELFOSSE 42 Sales manager Big Data Oracle 42

V) Le projet Sinapse d’EDF R&D 43 Jérôme FREMONT 43 Ingénieur chercheur, EDF R&D 43 Cédric FAUVET 43 Responsable développement, Neo Technology France 43

VI) Projet Remind 44

Pierre DELORT 44 Président ANDSI et enseignant, Mines ParisTech 44 Vincent GUIGUE 44 Maître de Conférences, UPMC 44

VII) Cas client RTE: Enjeux et développements du big-data pour le gestionnaire du réseau de transport d’électricité 45

Nicolas OMONT 45 Ingénieur R&D, RTE France 45

VIII) Cassandra chez Chronopost pour traiter 1,5 milliard d’évènements par an 45

Alexander DEJANOVSKI 45 Ingénieur Expert EAI, Chronopost 45

IX) Big data, épidémiologie et nutrition : exemple du métagénome 46 Jean-Michel BATTO 46 Leader technique pour Metagenopolis, INRA 46

X) Plateforme big data + sig + 3d: comment Network Rail réduit ses coûts en digitalisant son réseau ferré 46

Stephen DYKE 46 Director – Asset Information (ORBIS), Network Rail 46

XI) Analyse imprédictible et interactive de téraoctets de données 47 Laurent DOLLE 47 Manager of software development, Amadeus 47

La puissance Big Data à la portée de tout développeur 48

Projet Drill : du SQL agile et self-service pour le Big Data 49

Hadoop et sécurité… C’est possible 50

Table ronde : Compétences et Big Data 51 Fabrice MARQUE 51 Directeur de l’activité conseil en vente et service client, Accenture 51 Ariane LIGER-BELAIR 51 Directeur académique, SAS 51 Mathieu COLAS 51 Responsable de l’offre Big Data, Capgemini Consulting 51

Cloud et Big Data : coûts maîtrisés et déploiements rapides ? 53

Monétisation des données : modèles et exemples 54

Big Data, mais Small App puissante et rapide à concevoir 56

2

Big Data Paris 2015

La Défense, les 10 et 11 mars 2015

Discours d’ouverture Axelle LEMAIRE Secrétaire d’Etat au Numérique, Ministère de l’Economie, de l’Industrie et du Numérique

Bonjour à tous et merci.

Vous êtes donc des spécialistes du big data, vous avez compris que la valeur de notre économie d’aujourd’hui, et plus encore celle de demain, sera cette data, cette donnée. On dit que la data est l’or noir ou le pétrole du 21ème siècle. Je ne suis pas persuadée que cette analogie soit heureuse, parce que les entreprises pétrolières ont longtemps agi comme des monopoles, comme des rentes, et ont épuisé les ressources naturelles de la planète, sans grande redistribution.

C’est la raison pour laquelle je souhaiterais que le modèle économique qui se forge autour de l’exploitation des données, publiques ou privées, ne soit pas forcément celui qui a prévalu au moment du pic de l’économie pétrolière au 20ème siècle.

Le succès de cette édition et de votre présence à tous montre que les prospecteurs sont nombreux, que vous espérez trouver dans l’immensité du monde numérique ce gisement qui changera tout, le business model, la marge ou la croissance. Ce n’est pas une tâche facile et vous êtes venus ici pour trouver des réponses, des solutions, que les nombreux exposants sont prêts à vous montrer.

Les données sont le carburant de l’économie numérique et bientôt de l’ensemble de l’économie, qui se numérise peu à peu. Elles sont bien plus que cela, car la valeur des données croît avec leur utilisation, avec leur circuit et leur réutilisation.

Nous observons un changement de paradigme sur la manière de faire des affaires et de concevoir un produit ou un service. Pour beaucoup d’acteurs, cela implique de mobiliser de nouvelles compétences, d’avoir le courage de repenser sa façon de produire ou de rendre des services. C’est l’objet de ces deux jours que de se confronter au big data, à ses possibilités et à ses impasses.

Je voudrais d’ailleurs féliciter les organisateurs, qui ont su bâtir un événement important, qui constitue maintenant un rendez-vous annuel sur le big data. Je le dis souvent, l’Europe a sans doute raté la décennie des OTT, des plateformes numériques produites par les géants de l’internet. Elle ne doit pas rater la décennie qui s’ouvre avec tout ce potentiel numérique, dont les perspectives sont encore à venir.

En France, nous avons une tradition mathématique, une tradition statistique. Nous avons des penseurs, des ingénieurs, des techniciens, qui savent déjà manipuler les données, et ce depuis des siècles. A l’heure du numérique, le potentiel est là, il s’agit maintenant de le faire éclore.

Comment faire du big data un relai de croissance ? La réponse est dans l’open innovation, l’innovation ouverte, dont on parle depuis 15 ans dans le monde des entreprises mais qui prend tout son sens aujourd’hui. La survie de nos entreprises traditionnelles dépendra de leurs capacités à s’ouvrir à toutes les formes d’innovation, en particulier celles qui viennent des jeunes entreprises innovantes, qui ont la capacité de bousculer les modèles de penser et de produire.

Comment le big data peut-il servir à réduire le chômage ou à améliorer l’action publique ? Vous cherchez à savoir si le big data pourra améliorer votre business model. En réalité, appliqué à toutes les sphères décisionnelles, il s’agit d’un outil formidable pour repenser la manière d’agir. Comme souvent, il n’y a pas de recettes magiques, mais je vais tracer quelques pistes que le Gouvernement souhaite engager sur ce sujet dans les prochains mois.

3

Big Data Paris 2015


Passer dans l’économie de la donnée suppose de s’inspirer des meilleurs, à commencer par les clients. Le big data, c’est l’abondance des données pour mieux comprendre, mieux piloter, mieux contrôler les réponses que nous apportons à nos problèmes. Il y a un mois par exemple, la Fondation Abbé Pierre se plaignait de l’absence de données sur le logement. Nous avons pris conscience de la fragilité de nos politiques publiques dans ce secteur. Si on libéralisait une partie des données détenues par les bailleurs sociaux, si on connaissait mieux les taux d’occupation des logements sociaux, le profil des personnes qui les occupent (non pour les identifier, mais pour connaître les usages du parc d’habitation social), les politiques publiques s’en trouveraient plus efficaces.

Il faut aller chercher l’innovation en-dehors des murs de l’entreprise. Ce sont souvent les start-ups et les entreprises nativement numériques qui maîtrisent le mieux les technologies et les usages big data. Il est ainsi judicieux d’investir dans des start-ups, de passer des marchés avec elles, pour bénéficier de leur agilité. C’est tout le sens pour les grands groupes de l’amendement à la loi de finance que j’avais défendu l’année dernière, pour permettre un amortissement fiscal sur cinq ans lorsque des grandes entreprises décident d’investir directement ou indirectement, par le biais de fonds d’investissement, dans le corporate venture.

Parce qu’il faut garder une maîtrise des données et de leur utilisation, nous invitons les grandes organisations à développer des plateformes, des API, pour permettre à d’autres entreprises innovantes de se connecter et de commencer à développer de nouveaux services. C’est cette vision du big data qui a été poussée dans le plan industriel mené à Bercy, porté par Paul Hermelin et François Bourdoncle. Renforcer cette collaboration entre les grands groupes et les start-ups dans un mode tourné vers les usages, c’est exactement le sens des challenges big data que nous avons lancés en novembre dernier et qui verront Axa ou Pôle emploi, par exemple, mettre des données à disposition.

Après quelques mois, nous sommes en plein dans les questions opérationnelles. Comment anonymiser les données ? Est-ce faisable d’un point de vue technique ? Est-ce souhaitable d’un point de vue juridique ? Est-ce nécessaire pour soutenir l’innovation ? Comment améliorer la qualité des données ? Ces données doivent-être protégées. Nous ne pouvons pas nier les risques et les contraintes réglementaires sur le big data et les données, notamment lorsqu’elles sont personnelles. Il serait malsain de penser qu’il ne faut aucune règle, de la même manière qu’il est illusoire de vouloir appliquer au big data la régulation que nous avons construite pour l’informatique dans les années 1970.

A l’époque, nous étions précurseurs. La France a été le premier pays à édicter une grande loi pour protéger les données en matière informatique et libertés. Cette loi doit être revue, actualisée à l’aune du numérique, à l’heure européenne, pour que l’accompagnement réglementaire permette de protéger et d’accompagner l’innovation. Nous avons en Europe le meilleur cadre de protection des données personnelles, car nous avons su anticiper les risques posés par le développement de l’informatique. D’autres continents, comme les Etats-Unis, ont probablement mieux tiré parti, de manière immédiate, de la donnée. Mais à quel prix ? Des scandales d’espionnage, une suspicion généralisée ont durablement dégradé la confiance dans le numérique et donc, à terme, le potentiel d’activité économique.

Certes les mentalités et les attentes culturelles vis-à-vis de cette protection des données personnelles varient d’un continent à l’autre, mais je suis persuadée qu’en Europe, des données protégées rendent notre économique attractive, tant pour les entreprises que pour les consommateurs particuliers. Il faut donc réaffirmer et renforcer nos principes, pour consolider la confiance.

Ces principes, ce sont les mêmes, à actualiser : la proportionnalité, la maîtrise des données par les individus, la sécurité des données. Nous essayons de porter ces principes dans le débat en cours au niveau européen, autour de trois axes.

4

Big Data Paris 2015


Il faut mieux responsabiliser les entreprises, par exemple en les incitant à recourir au privacy by design, quand elles imaginent des produits ou des services, mais aussi en augmentant les risques de sanction en cas de non-respect des règles édictées. Cette question des sanctions est en cours de discussion en ce moment à Bruxelles, autour du projet de règlement communautaire. Lorsqu’une très grande entreprise, dont la valeur économique, dont les bénéfices mondiaux dépendent totalement des données qui concernent ses clients, notre CNIL nationale doit-elle se contenter de sanctionner à hauteur de 150 000 voire 150 millions d’euros ? Le niveau de sanctions est disproportionné par rapport à d’autres sanctions, qui peuvent être édictées ailleurs, notamment contre des établissements bancaires outre-Atlantique. Il ne s’agit pas de s’inscrire dans une perspective sanctionnatrice, l’action publique doit se faire en amont, dans l’accompagnement et dans l’information. Mais en cas de non-respect des règles édictées au niveau européen, avec l’ensemble des Etats-membres, le niveau de sanction doit être augmenté.

Le deuxième axe de travail au niveau européen consiste en la modernisation des autorités de contrôle, qui doivent jouer un rôle d’accompagnement, technique et juridique. Je salue d’ailleurs la CNIL pour son travail dans le cadre de notre plan big data pour anticiper les besoins sur ce sujet. Notre régulateur doit-il être national, européen ? Certains Etats sont frileux à l’idée d’un fédéralisme régulateur en matière de données. C’est pourtant la position du gouvernement français qui, en dépit de l’excellence des travaux de son régulateur national, souhaite que, pour plus d’amplitude dans l’efficacité de l’action, l’Europe se saisisse collectivement de ces enjeux.

Troisième axe d’action : renforcer les droits des utilisateurs, par exemple en actant le principe de libre disposition de ses données ou la possibilité d’exercer son droit d’accès plus simplement, avec les moyens numériques qui permettent cette simplicité. Le projet de règlement en cours de discussion avance bien et des étapes décisives devraient être franchies dans les prochains mois. La volonté politique est présente et mon travail consiste à rallier l’ensemble de mes homologues européens à une vision ambitieuse de la protection des données. Il est essentiel que l’Europe fixe les règles, car nous sommes le continent le plus en avance sur ce sujet. Nous ne freinons pas l’innovation, au contraire, nous mettons en place un cadre juridique qui sera sécurisé, stable et qui permettra à l’économie de la donnée de s’amplifier. Alors que nous fêtons cette année les 800 ans de la Magna Carta, ce texte fondateur des libertés en Europe, j’aimerais que nous bâtissions, non le big data, mais la magna data européenne, une exploitation des données responsable et au service des individus.

Au-delà de cette protection des données personnelles, il faut déverrouiller dans les prochains mois, d’abord au niveau de la formation. Nous avons en France les meilleurs mathématiciens. Une école statistique qui fait référence est un atout décisif dans une compétition internationale, qui, de plus en plus, dépend également des ressources humaines et de la capacité d’un Etat de garder et d’attirer les meilleurs talents dans l’économie numérique. Les chefs du plan industriel big data au Ministère de l’Economie avaient bien identifié cette problématique et je vais consacrer les prochains mois à mettre en valeur avec eux et à développer avec les organismes de formation qui le souhaitent, des filières plus nombreuses pour former les personnes hybrides, qui sont si importantes pour le big data. Le numérique est transversal, il est essentiel que les formations, initiales ou continues, soient désormais en phase avec cette demande des marchés, nouvelle et urgente.

Cette formation big data est aussi l’un des enjeux majeurs de la formation continue, ce qui concerne un public beaucoup plus large, au-delà du cercle des experts confirmés dans ce domaine. Si tous nos brillants ingénieurs, qui ont fait de la finance et du trading, se mettaient à travailler pour des start-ups et des entreprises sur le big data, notre capacité productive serait décuplée. Plus globalement, si toutes nos grandes entreprises initiaient des programmes de formation continue internes à l’adresse de l’ensemble des salariés, notre pays se placerait en position de leader dans le monde sur ce sujet, de façon pérenne.

5

Big Data Paris 2015


L’autre enjeu à venir cette année, c’est l’industrie au sens large, et notamment les objets connectés. En consacrant l’innovation lab à cette thématique pendant ces deux jours, nous avons là aussi une filière importante, en France et à l’étranger. Combinée au big data, cette filière peut permettre de construire les champions de demain.

Le big data permet de passer d’une économie de produits à une économie de services. Comme le dit Gilles Babinet, « le big data, c’est penser l’homme et le monde autrement ». Ce n’est pas remettre en cause l’humanité, c’est la remettre au centre de la décision et, pour ce qui concerne le Gouvernement, de la décision publique. C’est l’essence même de la politique que d’avoir en mains toutes les données éclairées pour prendre une décision. J’espère donc que vous repartirez d’ici avec une vision data du monde.

Je vous souhaite un très bon Salon et je vous remercie de votre attention.

6

Big Data Paris 2015


Les deux jours de conférences sont animés par le journaliste Yann SERRA.

Maître de la donnée, maître du monde Gilles BABINET Digital Champion auprès de la Commission européenne et cofondateur de Captain Dash

Stéphane GRUMBACH Directeur de recherche, INRIA

Gilles BABINET constate que l’image de la France est parfois dépréciée à l’étranger. Cependant cette image a beaucoup évolué au cours des derniers mois, notamment avec la mise en œuvre de la French Tech, sous l’impulsion de la Fleur Pellerin et de Xavier Niel. L’Ecole 42 repose ainsi sur une pédagogie révolutionnaire et ses résultats sont spectaculaires. La halle Freyssinet a vocation quant à elle à accueillir 1 000 start-ups avant 2017 et constitue un exemple exceptionnel de l’éclosion de l’économie digitale en France. Les start-ups françaises se sont en outre fait remarquer au CES et CISCO veut à présent investir en France. L’image de la France a beaucoup changé grâce à ces trois faits.

La France dispose par ailleurs d’un vivier d’excellence en mathématiques et d’une école en statistique et en topologie de très haut niveau. Il s’agit là d’atouts importants, mais il faut encore réaliser beaucoup de travail. Les enjeux de demain consistent à inventer une nouvelle d’imaginer la médecine de demain, qui sera préventive, d’inventer l’Etat-plateforme, de construire l’usine de demain, de poser le droit des données. Les entrepreneurs doivent faire émerger le débat et faire en sorte que la France trouve une place de leader.

Stéphane GRUMBACH rappelle que l’intérêt pour le big data a explosé en 2011, avec la parution du rapport de McKinsey qui en démontrait l’importance économique. Cependant, il ne faut pas oublier le big user, qui est le moteur du big data. En effet, tout le monde aujourd’hui est lié avec un système qui gère des données le concernant. Il est donc important de conserver le contact avec l’utilisateur.

L’intermédiation est au cœur de ces systèmes et le big data est en grande partie à son service. Or l’essentiel des données et de l’intermédiation françaises sont hébergées aux Etats-Unis. Les systèmes américains apportent en effet des services aux utilisateurs et ces services deviennent incontournables. La tradition administrative française est quant à elle parfois peu adaptée à l’utilisateur.

En conclusion, le big data ne saurait être séparé du big user.

Yann SERRA demande en quoi Google, Facebook et Amazon ont fait la différence.

Stéphane GRUMBACH explique que cette différence réside dans la réflexion relative au service apporté à l’utilisateur. En France, les services proposés sont souvent peu adaptés à l’utilisateur.

Yann SERRA demande si les champions français sont encore en retard.

Gilles BABINET remarque que l’expérience utilisateur est fondamentale et qu’il convient de se préoccuper de son business model dans un second temps. Lorsque Google s’est développé, il n’avait aucune idée de son business model.

Yann SERRA en déduit qu’il faut donner la priorité à l’analyse des données pour comprendre les besoins des utilisateurs, peut-être davantage que le métier historique de l’entreprise.

Gilles BABINET confirme que la vision du monde par la donnée n’est pas suffisamment répandue en France.

7

Big Data Paris 2015


Stéphane GRUMBACH observe que cette économie de l’intermédiation est nouvelle, mais qu’elle est en train de grandement se développer.

L’intermédiation peut également changer l’Etat, car elle déplace le pouvoir vers le bas. C’est désormais l’utilisateur qui a le choix. Les plateformes rendent caducs de nombreux opérateurs, qui s’étaient trop éloignés de leurs clients. L’intermédiation abolit la différence entre celui qui fournit le service et celui qui le consomme, comme c’est le cas avec le covoiturage, qui est en train de devenir une réalité économique à présent.

8

Big Data Paris 2015


Keynote Marc CHEMIN Cap Gemini

Marc CHEMIN observe que la maîtrise du big data est indispensable. Ce phénomène est très disruptif, il passe par la collecte de la donnée, l’analyse et la mise en action suite à cette analyse.

Uber réalisera un chiffre d’affaires avoisinant les 10 milliards de dollars en 2015, soit 25 % de l’industrie mondiale du taxi. Airbnb propose quant à lui 28 % du parc hôtelier à Paris. Ces deux chiffres résument la bataille en cours pour les clients.

63 % des entreprises constatent à présent une rupture dans leur secteur, quel qu’il soit, et 43 % d’entre elles s’organisent pour capter la valeur associée au big data. Ces entreprises sont souvent concurrencées par des start-ups centrées sur le big data et 27 % d’entre elles ont déjà constaté qu’elles avaient perdu des clients.

Pour la France, 2015 sera donc l’année de l’action et les grandes entreprises axent leurs efforts sur leur stratégie digitale. Le big data représente une profonde modification de la chaîne de valeurs, avec le passage d’une logique de produits à une logique de services.

Les entreprises créent souvent un poste de chief data officer (32 % des entreprises l’ont déjà fait). Elles considèrent en effet que le sujet de la donnée est transversal.

La principale valeur du big data consiste en la génération d’usage en temps réel, par exemple l’adaptation de l’offre proposée à un client, etc. Dans plus de la moitié des cas, le principal frein est constitué par le processus actuel de développement, également informatique.

Les clients souhaitent quant à eux migrer une partie de leurs systèmes vers les nouvelles technologies, par exemple pour mettre en place des tarifications dynamiques. Ils souhaitent également être accompagnés.

A moyen terme, un duopole Chine/Etats-Unis se dessine, même si la France aura un rôle à jouer dans ce dispositif. Elle dispose en effet des meilleurs mathématiciens et de très bonnes start-ups. En matière de formation, des chaires de big data ont été mises en œuvre sur le territoire national. Il faut à présent former un grand nombre de techniciens susceptibles de gérer les données.

Le sujet des données personnelles est clé. Un travail a été engagé avec la CNIL pour que la gestion de la confidentialité des données devienne un avantage concurrentiel.

Pour le big data, 2015 sera le temps de l’action.

9

Big Data Paris 2015


Keynote Bernard OURGHANLIAN Directeur technique et sécurité, Microsoft

Bernard OURGHANLIAN explique que, pour Microsoft, l’internet des objets s’inscrit dans une politique plus large. La décennie à venir sera en effet celle de l’informatique ubiquitaire et de l’intelligence ambiante.

Les objets qui font partie de l’internet des objets, qu’ils soient connectés à internet ou non, génèrent beaucoup de données, qui sont ensuite analysées.

Microsoft est en train de terminer son travail consistant à rendre Windows modulaire. Windows 10 sera prêt pour l’internet des objets et verra la convergence complète de l’ensemble des API.

Cette modification représente un changement majeur du modèle d’affaires, qui s’accompagne d’un changement du modèle de monétisation. La plupart des objets ne communiquent pas ensemble pour l’heure. Pour discuter avec deux objets, il faut ainsi souvent passer par le cloud. Il est donc à présent nécessaire que l’interopérabilité devienne une réalité.

L’AllSeen Alliance a été créée dans ce but. Elle compte une centaine de membres et développe un framework opensource, selon un projet collaboratif.

Les services proposés par Windows permettent d’apporter de la valeur à l’utilisateur et pourront s’inscrire dans tous les environnements. Le potentiel de l’internet des objets est immense, sur le plan économique comme sociétal.

Dès lors, les données font office de nouvelle devise. A ce titre, il est toutefois nécessaire de bien garder en tête que ces données sont celles du client et non celles de Microsoft.

L’internet des objets concerne également directement les individus. Les lentilles de contact bioniques permettent ainsi de détecter le taux de sucre dans le sang et d’améliorer le traitement du diabète.

Microsoft a l’objectif d’aider ses partenaires à faire de l’internet des objets une réalité.

10

Big Data Paris 2015


Table ronde objets connectés : du MTOM aux wearable devices, en quoi les objets connectés révolutionnent le big data ?

Pascal BROSSET SVP Innovation and CTO, Schneider Electric

Thomas SERVAL Cofondateur, Kolibree

Mathias HERBERTS Cofondateur, Cytizen Data

Hugues SEVERAC VP Innovation France, AVIVA

Hugues SEVERAC explique que l’internet des objets constitue une véritable révolution, particulièrement disruptive. Il s’agit d’ailleurs plutôt pour le moment d’un intranet des machines. Dans le domaine de l’automobile, il s’agit d’un mouvement de fond. Cette situation est également sensible en ce qui concerne la maison connectée et dans le domaine de la santé.

Thomas SERVAL remarque que les business models les plus faciles à mettre en œuvre concernent le domaine assurable. Les caries peuvent par exemple être éliminées par une bonne prévention. Il s’agit donc d’une révolution technologique et scientifique. L’internet des objets peut également avoir un fort intérêt en matière de lutte contre le tabac. Les business models qui peuvent se plugger à un business model assurable sont ceux qui peuvent être le plus rentables.

Mathias HERBERTS observe que le machine learning entraîne la création de valeur. Il faut donc à présent fournir des outils qui facilitent le machine learning et l’accès à ce marché. Pour ce faire, il est toutefois nécessaire que les entreprises aient une vision des capteurs à insérer dans l’objet concerné et anticipent leurs besoins.

Pascal BROSSET signale que Schneider Electric a développé l’internet des objets dans son siège, en y installant des capteurs, sans savoir au préalable comment elle utiliserait ses données. Ce travail lui a permis de diminuer par deux sa consommation énergétique sur ce bâtiment (alors que cette consommation énergétique était déjà très faible) et d’optimiser l’organisation du travail sur son site. L’internet des objets permet ainsi de réaliser d’importantes économies, mais des compétences sont nécessaires pour analyser les données sans modélisation préalable.

Yann SERRA rappelle que les objets connectés doivent être fabriqués au préalable.

Pascal BROSSET précise que les capteurs qu’il évoquait ne coûtent pas cher du tout.

Thomas SERVAL constate que, pour fabriquer des objets simples, il faut être capable de prédire les applications des données, ce qui est complexe. Cependant, il arrive que l’utilisation des données ne donne pas de meilleurs résultats que la simple expérience et l’intuition. Il convient donc d’être modeste en ce qui concerne les enjeux du big data. Il faut également trouver de nouveaux business models, autres que par la publicité.

11

Big Data Paris 2015


Mathias HERBERTS insiste sur l’importance de faire comprendre aux utilisateurs que les données analysées leur appartiennent. La collecte de données n’a pas forcément de mauvaises intentions, mais permet de créer de la valeur.

Hugues SEVERAC remarque qu’effectivement, les données appartiennent aux clients, mais cette question de la possession des données peut intéresser les utilisateurs s’ils y trouvent un intérêt.

Thomas SERVAL signale que la loi informatique et libertés stipule que l’utilisateur doit être informé de l’utilisation finale de ses données. Cependant, les industriels ignorent parfois ce qu’ils vont faire de ces données, ce qui pose donc problème. Il est toutefois souvent possible d’anonymiser les données

Hugues SEVERAC observe qu’avec le big data, les données seront de plus personnalisées, ce qui permettra d’individualiser le service au maximum. Cette situation pose néanmoins des questions sur le principe de solidarité. Le législateur doit débattre sur cette question : « jusqu’où sommes-nous prêts à payer pour les autres ? »

Pascal BROSSET souhaite que les données anonymisées soient partagées, pour être croisées et que ce travail permette de progresser.

12

Big Data Paris 2015


Discours de clôture de la matinée : Impact sociologique des objets connectés : l’homme augmenté, version 2.0 de l’humanité ? Éric SADIN Écrivain – Philosophe

Éric SADIN constate que les données ont proliféré à partir de la première décennie du 21ème siècle. La seconde décennie de ce siècle a quant à elle été marquée par l’imprégnation de capteurs capables de saisir de l’information. Ce mouvement est parallèle à la capacité des systèmes à gérer les informations. Le mode de connaissance est à présent de l’ordre de l’immédiat, du temps réel, ce qui suscite de très nombreuses interrogations.

Yann SERRA demande si un problème de confiance est perceptible à présent.

Éric SADIN indique que les faits de la réalité sont interprétés, captés, mémorisés et engendrent des types d’informations multiples. La connaissance des choses du monde est donc de plus en plus intime. L’innovation technologique contribue à bousculer nombre d’acquis historiques, tels que l’intégrité physique, le libre choix humain, etc., ce qui pose des questions politico-juridiques, qui ne sont pas suffisamment étudiées.

Or il ne faut pas compter sur les compagnies privées pour porter ce souci éthique ou politico-juridique. Des contre-pouvoirs doivent donc être mis en place, ce qui n’est cependant pas le cas en réalité.

Les Google glasses, objet créé par des ingénieurs, permettent d’obtenir de nombreuses informations sur autrui, mais un sentiment collectif s’est développé. Les gens ont ainsi pris conscience qu’un seuil avait été franchi. Cet événement devrait constituer l’appel à une réflexion commune et les discussions sur les objets connectés seront confrontées à cette perception du seuil par les utilisateurs. Des lois ad hoc semblent nécessaires.

Avec le changement de modèle économique, la servicisation, chacun des actes sera connecté et, en retour, des services seront proposés. La société pourrait toutefois refuser cette évolution. La servicisation pourrait également correspondre à la marchandisation de toutes les séquences de la vie, un entrelacement ambigu entre les domaines médical et paramédical.

Le big data permet une grande quantité de mises en relation d’informations et pourrait annoncer de nécessaires rapports de force. Le domaine politico-juridique ne propose pas suffisamment de contrepouvoirs et la conscience des utilisateurs n’est pas suffisamment développée, si bien que s’ouvre à présent une autre séquence, marquée par moins de naïveté chez les individus.

Le big data correspond à une volonté de maîtrise, d’hyper-rationalisation des sociétés, mais n’est pas encore complètement écrit. Il s’écrira selon des jeux de contrepouvoirs avec les acteurs politiques et les citoyens. Ces rapports de force sont nécessaires, pour trouver des solutions acceptables pour tous.

13

Big Data Paris 2015


Parcours retours d’expérience

I) Keynote

Pascal Arts DLL

Pascal ARTS explique que DLL est une entreprise hollandaise qui opère dans plus de 35 pays et financer tout type actifs pour d’autres entreprises. DLL entend ainsi apporter des solutions à ses clients.

DLL utilise les données de ses clients et a développé une approche qui peut se décomposer en cinq étapes. Dans un premier temps, il importe de faire de la pédagogie auprès de ce client, puis de définir un concept avec lui et le stimuler, pour qu’il développe une pensée en-dehors des règles établies. Le concept co-construit doit cependant être réalisable. La communication est donc nécessaire pour finaliser le concept final. Enfin, la livraison constitue la dernière étape du projet de DLL.

Pour réaliser cette méthode, la compréhension mutuelle entre le client et DLL est très importante. Une fois que les informations sont chargées, DLL extrait les données nécessitant des précisions, en veillant toujours à ce que les lignes de communication soient aussi courtes que possibles.

Pour définir ce concept, trois semaines de travail ont été nécessaires, ainsi que 200 heures de développement. Le concept s’avère particulièrement efficace et permet d’obtenir des informations sur les services, les ventes, etc. Une application SAAS a en outre été créée, qui est désormais opérationnelle et proposée aux clients de DLL.

II) Big data or big change management ?

Abed AJRAOU Solocal Group

Abed AJRAOU estime que le big data n’est pas qu’un sujet technique, mais également fortement humain.

L’expression « big data » correspond à l’adressage business d’avancées techniques. Les projets big data nécessitent beaucoup d’énergie et un travail de longue haleine, notamment car le big data induit des changements humains, des formations internes et une veille technologique permanente, pour que les équipes soient toujours à la pointe. La technologie va en effet très vite.

Dans le domaine du big data, il faut positionner la donnée à un seul endroit, pour mieux l’analyser, ce qui change donc l’organisation du travail. Ce dernier est ainsi désormais organisé par donnée et non par métier.

Dans le big data, il faut également travailler en mode agile. L’expression de besoins ne peut en effet pas être complète et il faut s’adapter aux données qui sont collectées. Il n’est plus possible de travailler en mode projet avec un cycle long, mais il convient de raccourcir les cycles de travail. Les contraintes d’exploitation doivent aussi être prises en compte et la mise en production doit être la plus agile possible.

Le dernier changement a trait à la veille permanente qu’il faut mettre en œuvre. Le big data peut donc constituer un moyen de faire de la veille ainsi qu’une remise en cause permanente.

Le big data, c’est plus que de la technologie et ce nouveau champ induit beaucoup de changement. La formation est la clé du succès. Au lieu de travailler en silo, il faut

14

Big Data Paris 2015


construire un open data au sein de la société, ce qui pose également la question de la gouvernance.

Yann SERRA demande qui doit avoir la charge du big data dans l’entreprise.

Abed AJRAOU observe que c’est celui qui a le plus d’appétence sur ce sujet data au sein de l’entreprise.

Un intervenant remarque que ceux qui sont en charge de ce sujet ne disposent pas toujours de compétences en Javascript, ce qui pose parfois problème.

Abed AJRAOU indique que DC.JS permet de faire du D3 sans grande complexité Javascript. Il faut cependant avoir quelques notions de Javascript pour gérer les données, mais cet outil est désormais moins complexe qu’auparavant.

III) Adoption Big data : Lean Startup, Horizon planning, rudiments de « VUCAnologie » au travers des expériences de NeoPost

Hugues LE BARS Chief data officer – Neopost

Hugues LE BARS considère qu’avant même la donnée, le premier asset d’une société correspond à l’asset humain. NeoPost œuvre dans le domaine de l’affranchissement de courrier. Elle compte 6 000 employés et a été créée en 1926. Elle a donc connu de nombreuses transformations depuis sa création.

Il faut d’abord comprendre son organisation avant de la transformer. Les entreprises travaillent à présent dans un monde d’incertitude, de complexité et d’ambigüité, auxquelles, il faut répondre par la compréhension, la vision, l’agilité et la clarté. Il convient donc d’anticiper et d’accepter de parfois devoir changer d’avis.

Le comportement naturel de tout business est le déclin et ce phénomène s’accélère avec le big data. Il convient donc de poser un regard neuf sur l’organisation et de tester cette dernière. Dans cette organisation, il faut chercher systématiquement les problèmes, selon un modèle de ruptures.

Aucun business plan ne résiste au premier contact avec le client. Avec le Lean Startup, il faut poser une hypothèse de problème client et une hypothèse de solution. Or pour régler tout problème, il est nécessaire de rencontrer le client.

Le succès est une destination et l’échec constitue le voyage pour y parvenir. L’échec est en effet une leçon nécessaire.

La plupart des organisations disposent de nombreuses données, qui font figure de pétrole numérique, mais elles ne les utilisent pas. Le cœur du business de NeoPost est la supply chain manufacturing, qui contient une grande variété de données, disséminées partout dans le monde. Dans ce domaine, l’erreur est inacceptable et ces marchés sont fortement régulés. NeoPost développe donc des solutions à ses clients.

IV) La transformation digitale du stade toulousain

Emmanuel SCHWEITZER TIBCO

Vincent BONNET Stade Toulousain

Emmanuel SCHWEITZER signale que le Stade Toulousain est partenaire de TIBCO pour développer le FAST DATA. Le Stade Toulousain a en effet souhaité mettre en place une plateforme de big data pour analyser ses données, en mettant au point un CRM

15

Big Data Paris 2015


précis, tenant compte de l’interaction avec les fans. TIBCO a donc aidé le Stade Toulousain à créer cette solution.

Vincent BONNET explique que le Stade Toulousain est en pleine transformation digitale. Ce club de rugby formateur de talents, le plus titré d’Europe, est indépendant, aux niveaux capitalistique et financier. Son budget se monte à 34 millions d’euros et il ne compte pas de mécène et ne bénéficie que de très peu de subventions. Il est le club préféré des Français et dispose de la plus grande communauté au monde sur les réseaux sociaux. Son potentiel d’absorption de la data est donc très fort.

L’aléa sportif a un fort impact sur son développement économique. Il convient dès lors de lisser cet aléa et de distinguer le club de la marque. Il a donc fallu incorporer des notions provenant du monde de l’entreprise dans la mentalité du club et de ses dirigeants, définir de nouvelles ambitions et innover.

Les données sont récupérées dans le stade et le Club s’est doté d’un CRM. Les différents besoins des clients ont pu être identifiés et des offres marketing segmentantes sont en train d’être mises en place. Cette stratégie a été appliquée à tous les centres de profit du club. Il s’agit ainsi de fidéliser les clients existants et de partir à la conquête de nouveaux clients.

Il est à présent question de connecter l’enceinte et de proposer des services de dématérialisation, pour créer une véritable expérience fan pour le spectateur qui se rend au stade et le faire vivre avec le stade toulousain au quotidien.

D’autres travaux sont en cours, qui consistent à rentabiliser la base de données. Des process ont été mis en place pour développer ce projet. Les données sont ainsi déjà stockées sur une plateforme et analysées, tandis que leur exécution et segmentation ont déjà été initiées. Le Club a commencé la phase d’automatisation et envisage de développer à terme de nouvelles sources de profits.

Un intervenant demande si l’efficacité du nouveau système a déjà pu être mesurée.

Vincent BONNET répond de façon négative. Des phases de tests sont mises en place, dont les résultats n’ont toutefois pas encore pu être analysés. Ces analyses pourront sans doute être exploitées à partir du mois d’octobre.

Un intervenant demande si le Stade Toulousain a mis en œuvre des projets big data concernant ses sportifs.

Vincent BONNET confirme que la stratégie big data a commencé par le domaine sportif et les joueurs. Ces données sportives sont cependant très confidentielles.

V) Ciblage et personnalisation : cas client FNAC

Camille BERLAND FNAC

David BESSIS Tinyclues

Camille BERLAND rappelle que la FNAC a été créée en 1954. Cette entreprise a très tôt commencé à capter de la donnée.

David BESSIS signale que Tinyclues a été fondée en 2010 et a commencé à travailler avec la FNAC à l’été 2012, dans le domaine du ciblage de données.

Il est d’usage à présent de cibler les newsletters, pour toucher plus de produits et augmenter le revenu global. Les ciblages peuvent s’effectuer par sexe, âge et zone géographiques. Il est cependant possible d’aller plus loin sur ces sujets, grâce à des algorithmes.

16

Big Data Paris 2015


Camille BERLAND indique que de nombreux critères ont été mis en œuvre pour segmenter les clients de la FNAC. L’Entreprise a souhaité gagner en performance et en agilité dans cette mise en œuvre de la segmentation.

David BESSIS explique que ces données sont commerciales. Il s’agit ainsi de catalogues produits, d’historiques d’achats, de données sociodémographiques, etc., mais elles peuvent également être plus précises. Tinyclues valorise ces données dans des actions concrètes, en ciblant les clients susceptibles d’acheter.

Camille BERLAND indique qu’une cinquantaine de segments ont été travaillés dans le cadre d’un test de trois mois, dont les résultats se sont avérés spectaculaires. Le revenu a en effet augmenté de 70 % sur les adresses exclusives.

Un intervenant demande des précisions au sujet du rôle du back-office dans les campagnes.

Camille BERLAND répond que la FNAC a totalement piloté ses campagnes elle-même. Ce travail a amélioré la connaissance client des équipes. Pour autant, la machine n’a pas remplacé l’humain.

Une intervenante demande comment le biais des différentes sources a été géré.

David BESSIS explique que des algorithmes permettent de choisir les événements les plus prédictifs.

Un intervenant demande si des travaux ont été entrepris pour toucher les clients dormants.

Camille BERLAND confirme que les travaux de ciblage ont été mis en œuvre sur toutes les catégories de clients, notamment les moins actifs.

Une intervenante demande comment le risque de surapprentissage est géré.

David BESSIS observe que la stratégie globale d’apprentissage protège contre ce type de risques et vise à apprendre à partir du passé.

Un intervenant demande des précisions au sujet des actions de promotion de la FNAC.

Camille BERLAND répond qu’il peut s’agir de campagnes d’emailing ou d’autres solutions.

VI) La relation client chez La Poste Mobile

Benoît BOURDÉ Dassault Systèmes

Olivier RENARD DSI, La Poste Mobile

Benoît BOURDÉ indique que l’information est l’énergie de la relation client de demain, pour un engagement client optimal.

Exalead One Call adresse la relation client, basée sur un système 360° client dans lequel l’écoute du client est centrale. Le travail mené avec La Poste Mobile a trait à la donnée sur internet. Il s’agirait ainsi d’enrichir la base disponible afin d’augmenter le nombre d’engagements clients.

Olivier RENARD signale que La Poste Mobile est née en 2011. Il lui est très tôt apparu indispensable de mettre en place un CRM pour gérer sa relation client. Ce CRM est disruptif, car il ne fait pas cohabiter deux progiciels, mais s’adosse à une solution de type big data.

17

Big Data Paris 2015


Benoît BOURDÉ explique qu’une analyse a d’abord été effectuée, pour étudier le comportement des clients dans un but de prédiction d’attrition.

Olivier RENARD remarque que le résultat de cette étude a été corroboré dans les faits à hauteur de près de 90 %. L’Entreprise a donc pu proposer des actions concrètes à ses clients qui souhaitaient la quitter dans un futur proche.

Benoît BOURDÉ observe qu’il importe d’avoir une connaissance fine de ses informations clients pour se développer.

Olivier RENARD explique que les opérateurs souhaitent acquérir de nouveaux clients, en faisant preuve de davantage de prédiction sur leurs fichiers clients, anticiper les départs de clients et les retenir et éviter la fraude. Le CRM permet de travailler sur ces sujets.

Un intervenant demande pourquoi c’est la DSI qui s’est emparée de ce sujet chez La Poste Mobile.

Olivier RENARD rappelle que la DSI a également vocation à produire de la valeur ajoutée. Avec le big data, les entreprises sont assises sur un trésor qu’il faut faire fructifier. La DSI est particulièrement bien placée pour mener cette tâche à bien.

Un intervenant demande comment il est possible de retenir les clients après que leur départ probable a été identifié.

Olivier RENARD répond qu’il convient d’étudier le niveau de fiabilité de la prédiction dans un premier temps. Le marketing doit dans un second temps définir les bonnes campagnes pour retenir les clients.

Benoît BOURDÉ ajoute qu’il faut également analyser la réaction du client suite à la recommandation.

VII) Big Data analytics en entreprise : exemples concrets de création de valeur dans un marché en forte évolution

Fabrice de SALABERRY Directeur général – SINEQUA

Daniel LE COGUIC ATOS France & IMEA

Fabrice de SALABERRY indique que Sinequa a signé un accord avec Atos au niveau mondial. Cette entreprise travaille également avec le laboratoire pharmaceutique Astrazeneca, qui souhaite trouver une technologie qui lui permettra d’améliorer ses performances en R&D. L’application développée par SINEQUA permet de définir un profil de chercheur et de constituer facilement une équipe d’experts dédiés particulièrement compatible.

Les business benefits de la plateforme correspondent à la rapidité de mettre en place la meilleure équipe possible et de vérifier si des travaux n’ont pas déjà été menés par le passé sur le sujet en question. Les cycles de développement sont donc réduits, ce qui correspond à un enjeu fort au sein de l’industrie pharmaceutique.

L’autre cas d’application concerne un client, acteur important du monde des télécommunications. Ce client compte environ 50 millions de clients et rencontre un problème dans son centre d’appels. Son système d’information est complexe et compte de nombreuses applications, ce qui augmente le temps moyen des appels et le coût de la formation des téléacteurs. Sinequa a développé une plateforme qui a permis à cet opérateur d’augmenter le traitement de ses appels et la productivité de ses collaborateurs. La satisfaction du client a aussi été améliorée.

18

Big Data Paris 2015


Il semble ainsi primordial de garder à l’esprit l’importance des données non structurées. Ces données présentent en effet une grande valeur. Il est également très important de ne pas se contenter de son propre système d’information, de faire appel à des outils de NLP et de demander aux fournisseurs de mettre sur pied un prototype très conséquent. Il faut enfin choisir un très bon intégrateur, comme Sinequa l’a fait avec Atos.

Daniel LE COGUIC constate que trois grands mouvements sont en train de transformer l’industrie : l’IT modernisation, l’avènement du cloud et la révolution big data.

Le premier espace de traitement de la donnée est fonctionnel et sectoriel, le deuxième concerne la capture et la sécurisation de la donnée et le troisième est technologique. Il amène à penser les architectures de référence du futur.

Atos a construit le véhicule le plus puissant pour l’utilisation des substrats logiciels dans le domaine des big data. Pour Atos, cette nouvelle ère du big data représente une guerre dans laquelle les partenariats sont essentiels. Atos entend s’imposer comme un acteur majeur de ce nouveau monde.

VIII) Exploration de données : clé de voûte du succès d’un projet big data

Frédéric VAUTRAIN Directeur Data Science, Viseo

Laurent LEFRANC Head of Data Science Analytics, Altares Dun and Bradstreet

Yohan BENQUE Head of Business Development, Altares Dun and Bradstreet

Frédéric VAUTRAIN explique que Viseo investit énormément dans le domaine de la data.

Yohan BENQUE signale qu’Altares est expert data depuis 1873. Le positionnement de Viseo et d’Altarès est complémentaire et ces deux entreprises partagent des ambitions et des objectif communs dans le domaine de la data.

Une nouvelle révolution est en train d’être mise en œuvre avec le smart data. Chaque entreprise dispose en effet d’un potentiel de data, qu’il faut révéler.

Le big data correspond à une réflexion sur le besoin client et à une meilleure compréhension de cet enjeu. Le smart data correspond quant à lui au parcours utilisateur unique.

Frédéric VAUTRAIN rappelle qu’auparavant, l’analyse de données était très simple et très cadrée, contrairement à aujourd’hui. Actuellement, les données sont en effet très nombreuses et plus difficiles à cadrer. C’est pourquoi le rôle du data scientist est très délicat.

Pour valoriser le patrimoine data, il faut mener un processus itératif et collaboratif et rendre les données au métier, qui devra ensuite cadrer ses projets. Il s’agit donc de créer les conditions du dialogue entre les données et les métiers, grâce à des outils adaptés.

Laurent LEFRANC explique que le programme Dun Trade, projet big data avant l’heure, a été créé en 1968 aux Etats-Unis et en 1984 en Europe.

Récemment, Altares a développé d’autres solutions, plus proches des besoins de ses clients, et a créé un projet Data Driven, avec Viseo. Altares a donc collecté et analysé des données, puis a créé un algorithme, qui fonctionne selon trois stratégies paramétrables à volonté par le client. Cet algorithme se retrouve dans un applicatif métier, qui est enrichi

19

Big Data Paris 2015


quotidiennement par des données client et a été construit sur un socle digital pour prioriser des actions de recouvrement.

L’ensemble de ces projets big data permettent donc de générer de la valeur et d’augmenter le ROI.

Frédéric VAUTRAIN constate que le big data constitue un véritable vecteur d’innovation et ouvre de grandes opportunités. Il nécessite l’accompagnement d’experts métier, informatiques, data, ainsi qu’une vision stratégique.

IX) Photobox big data : du batch au temps réel

Maxime MEZIN Group Data & Photo Science Director, Photobox

Maxime MEZIN signale que Photobox est leader européen du livre photo et compte plus de 30 millions de membres en Europe.

Au début de l’année 2013, Photobox a constaté que ses traitements de rafraîchissement du datawarehouse étaient trop longs et a rencontré des problèmes de limitation en termes de stockage. Le business a demandé de croiser davantage de données, afin d’améliorer la satisfaction client, le ciblage CRM et le reporting.

Une étude a été menée avec l’aide d’Amazon et par le biais de Redshift. Cette étude tenait compte du temps de chargement, des performances, des fonctionnalités et de la flexibilité. Elle a permis de gagner du temps pour le chargement et d’améliorer la performance, en compressant les données ont été compressées sur Redshift. Le coût d’hébergement des données s’est également avéré sept fois moins cher avec Redshift, outil qui présente un bon niveau de sécurité qui plus est bon.

Le passage sur Redhsift était donc plus fiable, moins cher, a permis de démultiplier la capacité de stockage, d’améliorer les performances et de simplifier la scalabilité.

Un nouveau projet a donc été lancé, permettant de gérer la relation en temps réel. Il est en effet prévu d’intégrer des modèles de machine learning en temps réel et de sécuriser les données stockées dans ElastiCache en cas de crash.

Un intervenant demande des précisions au sujet des benefits business induits par le projet.

Maxime MEZIN indique que l’utilisation de Redshift a permis de gagner en confort de travail. La partie temps réel du projet a quant à elle effectivement permis de dégager des gains en matière de business.

X) Grandvision analyse le web social pour optimiser le parcours client

Pierre-Marie DESBAZEILLES Directeur CRM & Digital, Grandvision

Sylvain ORNETTI, Analyste de données, Dictanova

Sylvain ORNETTI explique que Dictanova accompagne les entreprises B to C pour leur permettre d’enrichir leurs connaissance et parcours client. Ses collaborateurs ont des profils de techniciens et d’analystes marketing.

Pierre-Marie DESBAZEILLES indique que Générale d’Optique connaît tout de ses clients et dispose de nombreuses données. Cependant, il s’agit d’un organisme de santé, qui est donc très contraint dans le domaine de l’utilisation de ses données.

20

Big Data Paris 2015


En décembre 2014, Dictanova a analysé des données de prises de parole sur internet afin de mener une étude sur l’achat web dès le mois de janvier de 2015. Au-delà des questions portant sur le prix, il semble ainsi que les clients soient réticents à commander un produit de santé sur internet. A la suite de cette étude, il a été décidé de déployer un système de chat, pour accompagner l’audience.

L’impact de la météo a en outre été étudié sur les achats en magasin. Il apparaît ainsi que la météo est particulièrement déterminante dans l’acte d’achat de lunettes. Un partenariat avec un voyagiste est à l’étude, afin d’augmenter les ventes.

Sylvain ORNETTI ajoute que son entreprise a collecté environ 5 000 prises de parole sur internet dans le cadre de l’étude menée pour Générale d’Optique. Ces prises de parole ont été sélectionnées et seules les plus qualitatives d’entre elles ont été analysées.

XI) Tableau et Criteo : le pouvoir des données et de la technologie

Damien LESAGE BI analyst, Criteo

Edouard BEAUCOURT Tableau

Edouard BEAUCOURT remarque que les données sont souvent difficilement accessibles. Tableau permet d’accéder à tout type de données de manière plus intuitive.

Damien LESAGE indique que Criteo travaille dans le domaine de la publicité en temps réel, basée sur la performance à grande échelle. La performance est en effet primordiale chez Criteo.

Cette entreprise a décidé de travailler avec Tableau car ses analystes avaient besoin d’un nouvel outil. Criteo innove beaucoup et a donc régulièrement besoin de nouveaux indicateurs. Elle dispose d’énormément de données et souhaitait un outil qui lui permette de se connecter directement à cette base de données.

Elle a migré vers Hadoop au début de l’année 2013 et, à la mi-2013, la technologie HP Vertica a finalement été choisie. Au début de l’année 2014, Tableau Serveur a été mis en production et les analystes ont été formés à cette technologie. A la mi-2014, cette formation a été accélérée et le nombre de nœuds sur le cluster Vertica a été augmenté. L’usage de Tableau Serveur a dès lors explosé et le serveur a migré au début de l’année 2015.

Tableau est utilisé directement sur Vertica et 800 utilisateurs s’y connectent chaque mois. En un an, 1 300 tableaux de bord ont été publiés et le nombre de vues par jour est passé de 1 000 en septembre 2014 à environ 4 000 à présent.

L’usage continue de grandir, il faudra donc migrer une nouvelle fois vers un nouvel environnement. Criteo externalisera certains processus, pour décharger Tableau et mettra en place un système de revue avant le passage en production. De nouvelles technologies, comme Impala, Presto et Spark seront testées et les analystes seront formés à ces technologies.

Un intervenant demande si des MOOCS ou des pistes de formation virtuelles sont mises en œuvre par Tableau.

Edouard BEAUCOURT répond que Tableau propose déjà des tutoriels en ligne, qui permettent d’accompagner les utilisateurs. Des webinars sont également proposés aux utilisateurs. Pour devenir un expert Tableau, il est nécessaire d’être accompagné. Tableau propose ainsi des formules de formation expertes.

21

Big Data Paris 2015


KEYNOTE INTEL : Restructurer son Datacenter pour répondre aux besoins métiers en termes de Big Data

José DIZ précise que l’objet de ces conférences, à destination des techniciens, est de décrire la culture Hadoop et plus généralement, celle du Big Data à travers l’étude de cas d’entreprises. Outre des conférences, deux tables rondes sont organisées au cours de ces deux journées. La première table ronde réunira des représentants de Cloudera, Hortonworks et MapR, pionniers de Hadoop. Ceux-ci seront invités à décrire quelle valeur ajoutée peut apporter un éditeur par rapport à une solution open source. La deuxième table ronde, à laquelle ont été invités des prestataires et éditeurs de renom, portera sur les compétences.

Moty FANIA, Principal Architect Big Data chez INTEL, indique que le Big Data peut être utilisé afin d’optimiser les revenus et l’efficience de l’activité. INTEL s’attache à renforcer la valeur ajoutée à partir de la Business Intelligence. Les entreprises peuvent être conduites à collecter un volume important de données, qu’elles soient structurées ou non (données issues des transactions ou des réseaux sociaux, géolocalisation, etc.). La collecte de Big Data permet d’identifier de nouvelles opportunités et d’innover, à condition de sélectionner la plate-forme adaptée à chaque activité et à chaque problématique business.

INTEL dispose d’un réseau de revendeurs. Afin d’exploiter les données internes et externes disponibles, INTEL suit un processus en trois étapes. Premièrement, il convient de regrouper les données issues des consommateurs partageant des caractéristiques communes, avant de les classer par potentiel de ventes et enfin, de classer les comptes. Cette stratégie a permis à INTEL d’enregistrer un revenu supplémentaire de plus de 35 millions de dollars à fin 2013. Grâce à un processus de feed-back continu, INTEL est en mesure d’envoyer aux consommateurs des propositions personnalisées.

L’optimisation des performances d’une campagne marketing requiert la définition d’un mix d’investissement, propre à chaque canal de distribution. La solution consiste à regrouper les sources de données clés pour construire une plate-forme d’analyse intégrée, capable de réaliser des analyses ad hoc. Par ailleurs, IoT et le Big Data permettent d’identifier une corrélation entre les échecs passés et les données disponibles, pour établir des prévisions et ainsi minimiser le risque d’échec futur. Il est possible d’enrichir les données, afin d’élargir les opportunités. Grâce aux analyses avancées portant sur l’offre, la demande et le prix, INTEL a pu générer une croissance de revenus de 264 millions de dollars.

A l’avenir, INTEL envisage la mise à disposition de data stores supplémentaires et souhaite développer les outils d’analyse in-Memory. Moty FANIA invite les participants à découvrir les initiatives d’INTEL dans ces domaines à l’adresse suivante :

www.intel.com/IT

José DIZ demande si le Big Data requiert des compétences particulières.

Mothy FANIA confirme que la collecte et l’analyse des métadonnées requièrent la mise en œuvre de compétences variées.

http://www.intel.com/IT

22

Big Data Paris 2015


Hadoop 2 – Point d’étape

Cédric CARBONE, cofondateur de Hadoop et d’Influence, précise qu’Hadoop est un système open source développé par la fondation Apache. Hadoop 2 fournit un environnement « scalable », distribué et fiable.

Hadoop 2 incorpore notamment le moteur d’exécution MapReduce, qui permet de comptabiliser le nombre de mots contenus dans un fichier. Chaque fichier est découpé ligne par ligne et se voit attribuer des clés de valeur. L’outil appelé Combiner permet d’opérer des microagrégations sur les nœuds de serveurs. Dans Hadoop 2, toute opération de map ou de reduce donne lieu à une écriture sur le disque dur. Hadoop 2 n’a pas été créé pour obtenir des résultats en temps réel, mais pour traiter des données volumineuses. Le système MapReduce est utilisé dans le cadre de la gestion de clusters et du data processing. Les fondateurs de Hadoop ont décidé de découper MapReduce pour isoler la partie data processing de la partie gestion de clusters – ce qui a donné naissance à Hadoop 2. Il est ainsi possible de réaliser non seulement du streaming, mais aussi de l’analyse de graphe, du machine learning, de l’analyse in-Memory, etc.

La solution Stinger, lancée à l’initiative de contributeurs d’Hortonworks et de Microsoft, vise à développer un Hive interactif, capable de réagir en quelques secondes grâce à une modification du moteur d’exécution. Stinger.next, dont le lancement complet est prévu pour 2015, renforcera l’interactivité, en garantissant l’obtention d’une réponse en moins d’une seconde. Grâce à Stinger.next, Hadoop 2 s’enrichira de nouvelles fonctionnalités.

Par ailleurs, l’outil Apache Spark permet de réaliser du data processing à large échelle. Il fonctionne avec Hadoop, en local. Spark inclut quatre sous-projets, dont Spark SQL, Spark streaming, Mllib et GraphX (analyse de graphes). Il s’agit du projet open source le plus actif à ce jour. En 2014, Apache Spark a remporté le Daytona Graysort Contest. Pour cette solution, Cédric CARBONE préconise l’utilisation du code Scala, bien que d’autres codes puissent être utilisés, comme JavaScript.

Spark Streaming permet, par exemple, de réaliser des analyses et de répondre en temps réel à des tweets. À la différence de Spark, Storm est utilisé exclusivement pour le streaming. Alors que Spark Streaming repose sur un modèle en micro batches, Storm utilise un processus record-at-a-time. Cependant, Spark peut générer un bien plus grand nombre d’évènements que Storm. Le framework de Spark garantit que l’évènement sera traité seulement une fois, alors que le framework de Storm s’assurera que l’évènement passe au moins une fois. Les développeurs devront donc être attentifs à cet égard. Spark présente l’avantage de rassembler une grande communauté d’utilisateurs.

Le sous-projet Machine Learning Library (Mllb) permet de collecter un grand nombre de données en un temps réduit. Grâce au collaborative filtering, il est possible de prédire plus facilement les goûts des consommateurs. Le collaborative filtering procède par constitution de groupes d’utilisateurs aux goûts similaires. Netflix a d’ailleurs utilisé ce modèle pour améliorer son algorithme.

En définitive, le temps réel est utile pour prédire des produits. Il s’agit d’offrir au client une expérience unique, grâce à la collecte des données relatives à la catégorie socioprofessionnelle, à la marque, aux interactions sur les réseaux sociaux. L’analyse de ces données permet d’adresser au client des offres ciblées. L’objectif du concept « Next produte to buy » est de cibler la bonne personne, avec le bon produit et le bon prix, au bon moment et sur le bon canal.

José DIZ demande si les nombreux modules évoqués l’année précédente sont encore utilisés.

23

Big Data Paris 2015


Cédric CARBONE répond qu’une partie d’entre eux est encore utilisée. Le framework Maout, par exemple, génère du Spark. Elastic Search peut être utilisé pour la recommandation, afin de répondre dans la milliseconde.

Plusieurs acteurs souhaiteraient héberger toutes leurs données dans Hadoop 2, afin de les utiliser pour le modèle transactionnel. Dans Hadoop 2, cette fonctionnalité est en cours de construction. Bien que les bases de données soient loin de disparaître, Hadoop 2 permet d’éviter les travers des bases de données fonctionnelles, en utilisant la bonne technologie au bon endroit.

24

Big Data Paris 2015


Business Data lake : pour quoi faire et jusqu’où ?

Nicolas MAILLARD, Ingénieur Solutions chez Hortonworks, précise que la société Hortonworks a été fondée en 2011 afin de répondre aux besoins des territoires et des entreprises. Afin de ne pas concurrencer les solutions développées par Yahoo, Hortonworks a choisi de créer des solutions open source. Hadoop a ainsi été enrichi de fonctionnalités dédiées à la sécurité des données. Hortonworks souhaitait que Hadoop soit utilisé plus largement que les solutions déployées par Yahoo, afin de favoriser le co-engineering.

La communauté Apache n’a pas vocation à créer de nouveaux projets, mais à adapter les projets existants aux besoins de l’entreprise et enfin, à travailler avec l’écosystème.

Un data lake est un point central, destiné à regrouper toutes les données de l’écosystème, dans un langage adapté à l’entreprise utilisatrice. Il répond à des besoins métiers et applicatifs clairs. Par exemple, il permet de créer des applicatifs data, destinés à stocker les nouvelles données issues des objets connectés, des réseaux sociaux et du streaming. En d’autres termes, le data lake comporte la promesse d’une approche agile de la donnée.

Plutôt que de distinguer de grands segments d’utilisateurs, il s’agit de s’intéresser à chacun des utilisateurs, en privilégiant ceux à fort potentiel. Le data lake, dont Hadoop 2 fait partie, vient étendre le SI et le système relationnel existant. À l’origine, Hadoop 2 n’était qu’un format de stockage, un paradigme de calcul et de répartition des ressources. S’il a très bien fonctionné à des fins d’indexation du web, il n’est pas applicable à l’ensemble des besoins, qui sont plutôt cycliques et itératifs. Afin de séparer le paradigme de calcul de la répartition des calculs, l’architecture YARN a été développée. Elle bénéficie de la puissance du cluster et du calcul pour traiter les données de la meilleure façon possible. Il est ainsi possible de lancer des requêtes très courtes. Pour conclure, le data lake permet d’optimiser les investissements, en réutilisant l’existant et repose sur une approche moderne de la data.

Depuis son introduction en 2013, le modèle YARN permet d’utiliser un seul cluster pour partager les ressources et construire des règles d’accès aux ressources. Il est possible de découper le cluster aussi bien verticalement qu’horizontalement.

Un intervenant demande s’il est préférable d’implanter Hadoop 2 sur des environnements virtualisés ou physiques.

Nicolas MAILLARD constate que de nombreux systèmes Hadoop sont implantés sur des environnements virtualisés. Ce système fonctionne très bien, à condition de bien comprendre les règles d’utilisation des ressources. Si le système est complètement virtualisé, sans s’assurer que les informations de topologie de la machine physique soient remontées à Hadoop 2, il peut s’avérer contre-performant.

Un intervenant souligne que les établissements bancaires pourraient être intéressés par ce type de solution, afin de réaliser des simulations. Peuvent-ils mettre en place un mini-environnement Hadoop 2, pour juger de l’intérêt de cette technologie avant un déploiement plus large ?

Nicolas MAILLARD répond qu’il est possible de déployer très rapidement des clusters de 4, 8 ou 16 nœuds pour utiliser Hadoop sur des machines physiques ou virtuelles. Ce processus est de plus en plus automatisé au bénéfice des clients qui souhaitent disposer d’un cluster principal et de clusters satellites, pour réaliser des requêtes spécifiques. Rien n’empêche de constituer des clusters de plus de 16 nœuds, par une simple modification du script.

25

Big Data Paris 2015


José DIZ demande s’il est possible de réaliser une analyse transactionnelle en temps réel dans un data lake Hadoop.

Nicolas MAILLARD relève que de nombreux efforts ont été accomplis pour permettre à Hadoop de répondre aux requêtes dans la seconde (Spark, Hive…). Cependant, le temps réel se prépare. Sans définition préalable du format, il est impossible de garantir à 100 % le temps réel. S’agissant de l’analyse transactionnelle, certaines couches ont une notion d’acidité. Il appartient à l’utilisateur d’organiser les blocs de données pour répondre à ses besoins. Hortonworks ne propose pas une solution clés en main, mais un potentiel de solutions.

26

Big Data Paris 2015


Table ronde : Intégrer seul l’open source ou passer par un éditeur ?

Romain PICARD Regional Director SEMEA, Cloudera

Xavier GUERIN Responsable Business Development, Partners & Alliances EMEA chez MapR

Romain PICARD précise que la société Cloudera a été créée en 2008 pour distribuer le logiciel open source Hadoop. Cloudera est devenu leader sur ce marché.

Xavier GUERIN indique que la société MapR a été créée en 2009 dans la Silicon Valley. Elle est également positionnée sur le marché de la distribution d’Hadoop, mais est sous-tendue par une philosophie différente de Cloudera.

José DIZ demande quel modèle économique ces sociétés ont adopté.

Xavier GUERIN explique que l’accès au code d’Hadoop 2 est libre, s’agissant d’un logiciel open source. MapR a choisi de se concentrer sur la simplification de cet outil, pour que l’ensemble des entreprises puissent créer de la valeur ajoutée sur ce framework. MapR supporte l’ensemble des outils de l’écosystème. MapR est donc un éditeur de logiciels. Elle s’est attachée à éliminer les défauts d’architecture constatés dans Hadoop 2, pour répondre aux besoins des entreprises souhaitant constituer un data lake et développer une approche Customer 360.

Romain PICARD précise que la valeur ajoutée d’une solution open source repose sur la rapidité de développement et la force d’une communauté (en l’occurrence Apache). Le Big Data, tout le monde en parle et tout le monde en fait. Or, l’objectif de Cloudera est de répondre aux problématiques métiers. Cloudera est le premier contributeur d’Hadoop 2. Elle a choisi un certain nombre de projets qui font sens pour les entreprises. Cloudera a été l’un des premiers à intégrer Spark et apporte à ses clients une expertise et un support.

José DIZ demande si Cloudera a développé des solutions open source qui lui sont propres.

Romain PICARD répond par l’affirmative. En particulier, Cloudera a créé un outil d’administration du cluster baptisé Cloudera Managers. Cloudera Operator est utilisé à des fins de sécurisation des données, moyennant le versement d’un loyer annuel.

José DIZ demande si des formations sont proposées aux clients.

Romain PICARD précise que la souscription est la première source de revenus de Cloudera, en tant qu’éditeur de logiciels. La formation à l’utilisation d’Hadoop 2 en constitue la deuxième source. La réussite des projets Big Data tient à la constitution d’une communauté, à la disponibilité des ressources et à la formation des personnes de l’entreprise.

José DIZ suppose que les formateurs doivent eux-mêmes être formés.

Xavier GUERIN indique que MapR s’attache à répondre aux besoins du marché, en identifiant la valeur ajoutée d’Hadoop 2 et en accompagnant les entreprises dans leur montée en compétences. En janvier, MapR a lancé trois bundles de découverte recouvrant 9 hardwares. La société a également mis en ligne la totalité de ses cours, en accès gratuit. Ces cours sont délivrés par un organisme de formation professionnelle.

27

Big Data Paris 2015


José DIZ demande pourquoi les clients s’adresseraient à MapR pour se former, dès lors que les cours sont en ligne.

Xavier GUERIN explique que la version gratuite du logiciel inclut l’ensemble des fonctionnalités, sans garantir une haute disponibilité. La version Entreprise assure un niveau de disponibilité de 99,99 % ; elle est déjà utilisée par 700 clients dans le monde. MapR propose un système en temps réel. Le passage de production nécessite un taux de disponibilité qui n’est pas offert par la version open source.

Romain PICARD indique que la philosophie de Cloudera est la suivante : tout les outils destinés à stocker et traiter les données resteront open source. Les éléments additionnels développés par Cloudera sont des éléments de différenciation, que Cloudera souhaite conserver.

José DIZ demande quelle réponse est apportée aux clients en termes de disponibilité.

Romain PICARD répond que Cloudera met à disposition des clients plusieurs fonctionnalités, dont Cloudera Manager.

Un intervenant s’interroge sur la compatibilité des différentes solutions.

Xavier GUERIN répond que les trois distributions open source garantissent la compatibilité des outils. MapR propose simplement des fonctionnalités supplémentaires pour accroître la performance. 50 % des clients de MapR sont issus d’une société de distribution concurrente. Ils s’adressent à MapR car ils sont à la recherche d’une solution disponible.

Romain PICARD précise que la version open source pure distribuée par Apache présente quelques lacunes. Par ailleurs, une solution open source permet de ne pas bloquer le client. S’agissant de l’interopérabilité, passer d’une solution de distribution à une autre est un vrai projet de migration. Il est préférable que l’entreprise choisisse une distribution en amont, qui lui permette de répondre à l’ensemble de ses besoins.

José DIZ invite les participants à conclure cette table ronde par une description des principales demandes formulées par leurs clients.

Romain PICARD indique que Hadoop 2 passe en production. La maturité des projets est variable. Il faut trouver un sponsor capable de fédérer l’IT et le métier pour ainsi tirer parti de cette technologie.

Xavier GUERIN relève que Darty est entrée en production, avec deux applications tournant sur le mainframe et Hadoop 2. Cdiscount est lui-même passé en production à Bordeaux et Paris. MapR les accompagne dans cette démarche. Les trois principales préoccupations des clients sont les suivantes : le data lake / data hub ; l’optimisation marketing et l’optimisation opérationnelle (maintenance prédictive, premiers projets d’IoT).

28

Big Data Paris 2015

Paris, les 10 et 11 mars 2015

Objectif et contexte business : piliers du traitement efficace des données

Jean-François WASSONG, CTO de FIFTY-FIVE, précise que la société FIFTY-FIVE appréhende l’activité digitale de ses clients de façon exhaustive pour traduire les objectifs métiers en processus techniques, grâce à l’expertise d’une équipe regroupant une centaine de personnes. Elle accompagne plus de 60 entreprises à devenir des champions digitaux.

Khalid MEHL, Data scientist chez FIFTY-FIVE, indique que la création de la solution Rank repose sur le constat de la prégnance de l’ordonnancement dans la performance. 80 % des clics sont effectués sur les trois premiers résultats sur Google. Dans le cas de l’e-commerce, Rank vise à optimiser non pas le taux de clics, mais le taux d’achats. L’entreprise parviendra à augmenter son taux de conversion en proposant à ses clients des produits qui correspondent à leurs attentes. Un algorithme dédié à chaque étape de l’entonnoir d’achat permet de prédire le taux de transformation de chaque article, en fonction de sa position dans les listes. Le développement de Rank repose sur un processus d’amélioration continue.

Jean-François WASSONG précise que la solution Rank suppose le déploiement d’une approche pluridisciplinaire, visant à s’assurer de la qualité des données collectées. Le processus est à la croisée de plusieurs exigences : agilité, réactivité et évolutivité. Plutôt que du code, les interventions consistent à manipuler des jeux de paramètres. Chaque nœud de traitement est en pleine maîtrise des différentes problématiques. Il est difficile d’avoir un outil unique assurant à la fois performance, souplesse, fiabilité, exhaustivité et facilité de prise en main. La solution Rank permet d’isoler les domaines d’excellence et d’industrialiser les échanges entre les outils.

Afin de convertir des données brutes en des variables exploitables, Khalid MEHL explique que la solution Rank construit un pivot, c'est-à-dire un format de données unifié. Cette partie est customisée. En amont du pivot, il convient de s’adapter à la réalité du site client (par exemple, nombre d’articles par ligne et par page), d’uniformiser les données et de fiabiliser la qualité de la collecte (filtrage des robots) et enfin, de s’adapter aux données de back-office. Une fois le pivot constitué, il convient de développer des routines sanity check visant à identifier les problèmes dans le tracking. Pour faire émerger des SmartData, la solution Rank isole des briques de traitements, qui sont exécutées en parallèle. Enfin, il importe de produire des outputs, par des DataSets d’apprentissage des algorithmes.

Jean-François WASSONG précise que l’agilité est la clé de la performance. La solution Rank permet véritablement de s’adapter aux exigences métier. FIFTY-FIVE considère que le « Data scientist » n’existe pas. Le Data scientist est constitué d’une équipe de statisticiens, d’ingénieurs et de consultants.

29

Big Data Paris 2015


Témoignage utilisateur : Solocal Group (ex-PagesJaunes)

Abed AJRAOU, Head of Business Intelligence chez Solocal Group (Pages Jaunes Groupe) considère que le Big Data n’est que le niveau final de la BI, puisque l’objectif final de la BI est de créer de la valeur pour l’activité. Finie la récré : passons aux mégadonnées. 4,3 millions de recherches sont effectués chaque jour sur Pages Jaunes, sur 17 000 applications mobiles. Toutes ces données doivent être analysées.

Les mégadonnées répondent à de nouveaux besoins. : text mining, traitement des clics en temps réel, analyse de la voix, interactions sociales… Pour bâtir un plan Data, il faut expérimenter. Jusqu’en 2014, l’architecture BI était construite en silos. Le stockage était limité à 16 To compressés, soit 80 To utiles. Il était impossible d’analyser les données non structurées et d’effectuer des opérations en temps réel. L’objectif de Solocal Group est de bâtir une architecture parfaitement compatible avec tous les types de données, structurés ou non. Plutôt qu’un data lake, Abed AJRAOU préfère utiliser le vocable d’open data group.

Solocal Group a ainsi développé l’application Real Time Business, qui permet aux dirigeants de voir leurs chiffres rafraîchis toutes les cinq minutes. Grâce à cette application, Solocal Group a remporté le prix Digital Talent. Il a également créé l’application Power Selector, qui permet de croiser un grand nombre de données et de détecter les potentiels de marché en France. Avec du DC.JS, il est possible de créer des frameworks Javascript purement open source. Solocal Group est convaincu de la puissance de l’open source, dans l’expérimentation Big Data. Il a choisi l’entreprise Cloudera comme Data Hub.

Par rapport à une base de données relationnelle, le NoSQL présente l’avantage de constituer des bases orientées en colonnes, dont les performances sont bien supérieures. Ces bases ne stockent la donnée qu’une seule fois. ETL, quant à lui, permet d’opérer des traitements sans une seule ligne de code. Zoomdata permet de réaliser du data storytelling, à des fins d’analyse. Enfin, Solocal Group utilise le framework open source Flink. Accelerate accompagne Solocal Group dans la montée de gamme.

Le partage de connaissances est un élément fondamental. Dans le cadre de l’association Dama France, Solocal Group a lancé trois groupes de travail (Big Data, Data Science, Data Gouvernance) – auxquels les participants sont conviés à adhérer.

Pour activer les projets Big Data, Abed AJRAOU encourage les participants à prendre leur bâton de pèlerin et :

expliquer ; démystifier ; donner du sens ; fédérer.

Il faut trouver le sponsor dans l’entreprise qui vous soutiendra, vous appuiera et vous mettra en lumière. Enfin, Abed AJRAOU encourage les entreprises à se lancer, car la technologie n’est plus une contrainte.

Un intervenant demande comment les entreprises peuvent suivre le rythme des évolutions des outils.

Abed AJRAOU précise qu’il convient en premier lieu de réaliser des tests. Si l’outil est source de valeur ajoutée, il faut le démontrer par l’expérimentation. Les entreprises doivent se reposer sur des exploitants qui comprennent que le monde évolue.

José DIZ constate que le monde a basculé vers le « Work in progress ».

Abed AJRAOU encourage les entreprises à déployer des versions bêta.

30

Big Data Paris 2015


Big Data : Plate-forme hybride, équipe hybride ?

José DIZ indique que cette conférence a pour objet de répondre à la question suivante : dans quelle mesure et de quelle manière peut-on faire collaborer les profils métiers et techniques sur une même plate-forme ?

Florian DOUETTEAU, CEO de Dataiku, relève qu’une start-up et une grande entreprise ont ceci en commun qu’elles doivent prendre les meilleures décisions possible. Le premier lieu de décision, dans l’entreprise, est le meeting. Depuis une trentaine d’années, l’outil informatique et notamment la Business Intelligence sont utilisés pour prendre des décisions de façon plus informelle.

La Big Data reposerait sur les 3V : « Volume, Variety, Velocity ». De fait, l’entreprise vit à l’heure de la donnée. Elle prend ses décisions en regardant les chiffres.

Plusieurs univers sont en confrontation, lorsqu’on évoque Big Data :

Data mining repositories ;

Data lake ;

Data Warehousing ;

Google-like platform.

Ces quatre systèmes, qui correspondent à des responsabilités différentes, peuvent coexister au sein d’une même entreprise. L’avenir de la BI reposerait sur une machine capable de prendre les décisions à la place de l’humain. L’intelligence artificielle consiste à bâtir des applications de machine learning pouvant répondre à certaines problématiques métiers.

Dans cet univers où tout est possible, le plus difficile est de choisir entre les différentes technologies existantes. Les projets qui réussissent supposent l’intervention d’une équipe pluridisciplinaire. Il faut trouver le bon niveau de confort pour permettre aux personnes qui la composent de travailler ensemble de la meilleure façon possible.

Par exemple, Solocal Group souhaitait mettre en place un système visant à automatiser la correction des termes de recherche. Chronopost, pour sa part, souhaitait déployer un système prédictif des livraisons à la demi-journée, dans un quartier donné. Ces projets critiques sont l’occasion de mettre en œuvre des infrastructures plus robustes, capables de supporter un volume important de données. Avec Big Data, le danger est le défaut de pertinence.

31

Big Data Paris 2015


Keynote : MarkLogic Ken KRUPA CTO MarkLogic

Ken KRUPA explique qu’avec Hadoop, les technologies de bases de données qui étaient habituelles sont en train d’être abandonnées. Hadoop est un système économique, peu onéreux, qui permet également de gérer des données non structurées. Cependant, il ne permet pas d’étudier les capacités en temps réel et son maniement nécessite beaucoup d’expertise. Ses évolutions sont en outre fréquentes et nombreuses évolutions et, même avec Hadoop, une base de données continue d’être nécessaire.

Enterprise NoSQL est un modèle de données flexibles et permet de gérer différents types de données, à la différence de Hadoop. Avec elle, la modélisation n’est pas un prérequis dans la base de données, ce qui constitue un avantage indéniable. Cet outil permet de plus de grandes scalabilité et élasticité. Le système des transactions acides, qui permet de visualiser des données à tout moment, est également disponible dans cet outil.

A l’entrée du 21ème siècle, un tel niveau de sécurité est nécessaire. La base de données doit être à la hauteur des attentes actuelles, qui sont particulièrement élevées. Elle doit donner la possibilité d’une convergence opérationnelle. Si l’analyse donne lieu à une intéressante découverte, le client souhaite en effet rapidement insérer cette information dans la base de données.

La technologie basée sur la sémantique constitue une nouvelle façon d’organiser les données, selon une méthode triple. Il s’agit ainsi d’encoder les faits en permettant à la machine d’améliorer sa compréhension des données. Pour prouver la qualité des données, la méthode sémantique est importante, car elle rapproche l’analyse de l’opérationnalité. Avec la méthode basée sur la sémantique, les bénéfices d’entreprise NoSQL sont donc nombreux.

Le concept de bi-temporalité est également important. Il s’agit ainsi d’établir une distinction entre le moment où un fait apparaît et celui où la base de donnée enregistre cette vérité. Sans transaction dans la base de données, la bi-temporalité n’est pas nécessaire. Toutes les bases de données relationnelles ne permettent par ailleurs pas de distinguer la bi-temporalité.

Enterprise NOSQL donne donc beaucoup de possibilités et permet notamment d’éviter de faire appel à de nombreux process ETL.

Les clients de MarkLogic mettent en place des hubs de données opérationnels et transversaux, qui leur permettent d’observer leur activité. Selon ces systèmes, c’est l’applicatif qui vient à la donnée et non plus la donnée qui passe d’un applicatif à un autre. Il est ainsi désormais possible de déclencher plusieurs workflows dans la même base de données.

MarkLogic est conçu pour les charges de travail analytiques et opérationnelles. Ses clients sont issus du monde bancaire et l’ont aidée à développer cette technologie et sa base de données bi-temporelles.

32

Big Data Paris 2015


Maîtriser les données de l’Entreprise Elias BALTASSIS Directeur big data and analytics, DCG

François BOURDONCLE Cofondateur Exalead, Dassault Systèmes et Président, FB&CIE

Régis DELAYAT DSI et administrateur du CIGREF, SCOR

Régis DELAYAT explique que les données constituent à la fois la matière première et le produit fini dans le monde de l’assurance, qui a donc développé une culture de la donnée.

SCOR s’appuie sur les données pour améliorer la tarification des risques, mesurer les sinistres et anticiper l’émergence de nouveaux risques. Elle lance régulièrement des chantiers sur ces questions et a par exemple mis en place une solution d’intelligence économique en Corée du Sud.

Elias BALTASSIS confirme que la donnée constitue un capital, qu’il est donc possible de faire fructifier. Les données sont en effet à présent considérées comme des actifs.

Yann SERRA demande s’il est possible d’acheter des données pour élargir son activité.

Elias BALTASSIS acquiesce. Il distingue les données internes, les données externes non exclusives (qui peuvent être achetées) et les données externes exclusives. Les acteurs de l’assurance sont de bons clients pour acheter des données.

François BOURDONCLE remarque que c’est l’économie qui est en train d’évoluer globalement vers des modèles industriels intégrés verticalement. Le pouvoir se concentre ainsi entre les mains de sociétés en situation de quasi-monopole. Plus ces sociétés sont puissantes, plus leur puissance augmente. Chacun de ces monopoles se construit sur un nouvel usage. Les entreprises doivent cependant comprendre que ce sont à présent de nouveaux concurrents, issus d’autres secteurs, qui donnent le tempo de l’innovation, et non plus leurs concurrents directs. L’industrie purement numérique s’intéresse ainsi à l’industrie réelle. Ces acteurs numériques peuvent en effet se permettre d’innover sans mettre en péril leurs sources de revenus. L’inaction coûte donc très cher et les entreprises historiques doivent accepter ces nouvelles réalités.

Elias BALTASSIS observe que le secteur numérique commence à mûrir et que celui de l’industrie se heurte à des barrières. Un changement de l’usage ne signifie en outre pas forcément un changement de l’industrie.

Régis DELAYAT signale que les risques subsisteront malgré le changement de modèle et seront même certainement exacerbés. Les entreprises doivent continuer à innover et imaginer de nouveaux business models, notamment en s’appuyant sur les données.

Yann SERRA demande qui doit prendre la responsabilité de chief data officer dans une entreprise.

Régis DELAYAT indique que c’est le DSI qui porte cette fonction chez SCOR. Cette responsabilité peut toutefois être portée par d’autres fonctions dans d’autres entreprises.

Elias BALTASSIS insiste sur l’importance du positionnement du chief data officer, plus que sur sa fonction de départ. Dans les entreprises purement basées sur l’information, le CDO siège souvent en comité exécutif, tandis que dans d’autres entreprises, il est placé sous la responsabilité du CIO. Dans d’autres entreprises encore, le CDO occupe une autre fonction, ce qui ôte toute valeur à l’informatique.

33

Big Data Paris 2015


François BOURDONCLE considère que le chief data officer doit être le PDG, car c’est lui qui porte la stratégie de l’entreprise.

Il estime par ailleurs que la révolution numérique est une révolution d’usage, conduite par des acteurs issus de secteurs physiques.

Elias BALTASSIS observe que ce n’est pas parce que Tesla Motors attaque la voiture traditionnelle que les constructeurs automobiles ne réagissent pas. Ce n’est ainsi pas parce qu’une industrie est attaquée qu’elle disparaît.

34

Big Data Paris 2015


Réglementation : quelles sont les nouveautés aux niveaux européen et français ? Stéphane GREGOIRE Chef du service des affaires économiques, CNIL

Thierry DOR Avocat associé, en charge du droit de l’informatique et des nouvelles technologies, GIDE LOYRETTE NOUEL

Stéphane GREGOIRE indique que la directive de 1995 régit la réglementation au niveau européen, mais un projet de règlement devrait être adopté à l’horizon 2016 et entrer en vigueur en 2018. Ce règlement devrait unifier la réglementation relative à la protection des données à caractère personnel. Au niveau français, la loi de 1978 est quant à elle susceptible d’être modifiée par un nouveau projet de loi numérique en cours de discussion.

Thierry DOR observe que le régime actuel est très complexe pour les entreprises européennes. En effet, les pratiques sont diverses en fonction des différents pays européens. Le projet de règlement devrait également permettre de simplifier les modalités et les différents systèmes déclaratifs.

Yann SERRA constate que la CNIL souffre d’une mauvaise image et demande des précisions au sujet du futur rôle de cette Commission.

Stéphane GREGOIRE explique que la CNIL a notamment pour but de créer des instruments de simplification rapides, en anticipation du règlement européen, qui définissent les conditions de mise en œuvre des différents traitements mis en œuvre par des entreprises. La CNIL a la volonté d’accompagner ces dernières sur ce sujet de la donnée, tout en conservant sa vocation de protection des libertés fondamentales et des individus. Elle a conscience que la donnée est désormais au cœur des modèles économiques des entreprises.

Thierry DOR remarque que de nombreux outils permettent aux entreprises de mieux gérer la protection des données à caractère personnel. Ces réglementations sont souvent observées sous l’angle de la protection des données, alors qu’elles témoignent aussi de la volonté de construire plus de fluidité et de partage. Il ne faut en outre pas oublier que les données qui ne sont pas à caractère personnel ne relèvent pas du champ de la réglementation.

Stéphane GREGOIRE note que la donnée peut constituer un moyen d’être plus compétitif. L’anonymisation constitue une bonne solution, qui permet d’utiliser les données facilement.

Yann SERRA s’enquiert des sanctions prévues en cas de fraude.

Thierry DOR répond que le texte du Parlement prévoit des sanctions pouvant aller jusque 100 millions d’euros d’amende ou de 5 % du chiffre d’affaires mondial de l’entreprise pénalisée. Ces sanctions seront revues à la baisse.

Stéphane GREGOIRE confirme que la partie sanction fait partie des missions de la CNIL. Cette dernière doit à présent adapter ses sanctions à la valeur de la donnée, mais entend piloter par l’accompagnement, et non par la sanction.

Thierry DOR signale que les sous-traitants seront soumis à certaines obligations selon le nouveau projet de règlement européen, auquel il faut donner la priorité.

35

Big Data Paris 2015


Stéphane GREGOIRE ajoute que ce règlement sera fondamental pour les années à venir.

Un intervenant demande si les données collectées par Google sont considérées comme anonymes.

Thierry DOR explique qu’une donnée qui peut être croisée pour être identifiée n’est pas une donnée anonyme. Une donnée anonyme est une donnée qui ne permet pas d’identifier un individu.

Un intervenant demande comment garantir que la législation suivra l’évolution technologique.

Stéphane GREGOIRE rappelle que, si la loi de 1978 a aujourd’hui 35 ans, elle a permis d’englober toutes les nouvelles technologies qui se sont succédé depuis lors. Cette loi contient en effet peu de références technologiques, ce qui lui permet d’accompagner l’évolution de la société.

Thierry DOR ajoute qu’elle a été revisitée en 2004. Cependant, le projet de règlement européen s’annonce complexe et pourrait être difficile à déchiffrer par les PME.

36

Big Data Paris 2015


Table ronde : le big data en entreprise, comment dépasser les obstacles ? Stéphane CLÉMENÇON Responsable mastère spécialisé big data, Telecom Paristech

Yves DENNEULIN Directeur, ENSIMAG

David NAÏM Associé, responsable du pôle Stratégie, marketing et innovation, Ernst & Young

Hubert TOURNIER Deputy to the group CIO & Deputy to the CEO, Groupement des Mousquetaires

Joannès VERMOREL Enseignant à l’Ecole normale supérieure et PDG, LOKAD

Justin ZIEGLER DSI, Priceminister

Johannès VERMOREL explique que tous les fondamentaux sur les stocks et les prix peuvent être améliorés par le big data, sans toutefois nécessiter beaucoup d’innovations.

Yves DENNEULIN ajoute que le big data permet également d’être plus efficace en matière de business.

Hubert TOURNIER considère que, dans le domaine du big data, les difficultés opérationnelles ne sont pas les plus importantes.

David NAÏM remarque que les grandes entreprises ne se demandent pas pourquoi elles vont se diriger vers la digitalisation, mais rencontrent pourtant des difficultés opérationnelles pour ce faire. Cette approche digitale nécessite en effet un changement de mentalité.

Justin ZIEGLER signale que Priceminister poursuit plusieurs projets associés à la data, ainsi qu’un projet autour de l’optimisation des stocks et de la tarification.

Joannes VERMOREL observe que les réflexions relatives au big data font souvent émerger des réflexions plus profondes.

Stéphane CLÉMENÇON fait état d’un besoin crucial de compétences dans le domaine du big data.

Yann SERRA demande s’il est facile de trouver des ressources capables de manipuler des algorithmes pour lire le big data.

Yves DENNEULIN répond de façon négative.

Stéphane CLÉMENÇON considère qu’il faut faire monter en compétences des personnes qui sont déjà en situation d’emploi. Les cursus des manipulateurs de données doivent être multidisciplinaires.

Justin ZIEGLER constate que la France forme de très bons ingénieurs et que de nombreux d’entre eux ont récemment créé des start-ups.

37

Big Data Paris 2015


David NAÏM indique que les entreprises ne comptent bien souvent que peu de collaborateurs présentant des profils de statisticiens. Ces collaborateurs rencontrent également des problèmes en matière d’avancement de carrière.

Joannès VERMOREL remarque que ces technologies avancent vite. Il faut donc être ambitieux dans le domaine de la formation interne.

Hubert TOURNIER rappelle qu’il est également possible de travailler les data en recourant à l’externe.

Yann SERRA demande si le CDO doit être un informaticien.

David NAÏM répond qu’une composante technologique est majeure dans ce poste et que le rôle de la DSI est très important dans le domaine de la data. Il faut également rendre le business plus transversal. Il est donc nécessaire que la Direction générale prenne conscience de l’importance stratégique du sujet data.

Johannès VERMOREL observe que les données sont produites par des logiciels dont le but premier n’est pourtant pas de faire de la donnée. Le CDO est ainsi souvent celui qui parvient à comprendre le portefeuille métier et à donner de la cohérence.

Justin ZIEGLER rappelle qu’au moment du développement de la BI, le besoin de créer un référentiel commun était déjà d’actualité.

Une intervenante demande s’il serait possible que les futurs data scientists soient issus des métiers et qu’ils se forment ensuite aux mathématiques.

Stéphane CLÉMENÇON indique qu’il s’agit d’un véritable challenge pédagogique, auquel il essaye de s’atteler. Il faudra apprendre à doter ces collaborateurs d’un socle de connaissances minimum.

Une intervenante précise que les compétences big data sont orientées vers les mathématiques informatiques et pas purement vers les mathématiques.

Stéphane DENNEULIN remarque que les mathématiques et l’informatique constituent un continuum.

Un intervenant demande des précisions sur l’éventuel manque de compétences en matière d’open source au sein des entreprises.

Hubert TOURNIER explique qu’il est nécessaire de faire monter les collaborateurs en compétence, notamment en matière d’études et d’exploitation production.

38

Big Data Paris 2015


Keynote – Pax Data Doug CUTTING Hadoop Cofunder – Chief architect, Cloudera

Dough CUTTING indique qu’il a initié le projet Hadoop, véritable révolution dans le domaine du traitement de données, fondée sur le commodity hardware et les logiciels open source.

Il est possible à présent de stocker les données brutes et de les transformer facilement, en utilisant la diversité des outils. La plateforme Hadoop a une vocation générale, en vue de la gestion et du traitement des données, qu’elle permet également de décloisonner et de consolider.

La collecte des données semble effrayer le public, notamment car des scandales ont révélé que certains gouvernements abusaient des données et les utilisaient à des fins néfastes. Cloudera entend éviter tout préjudice dans ce domaine.

Les données ont apporté des bénéfices en matière de santé et dans le domaine de la météo, par exemple. Il convient ainsi d’utiliser les données pour faire le bien.

Il est en outre avéré que, si l’enseignement est personnalisé, les résultats des élèves sont meilleurs. Les systèmes d’apprentissage en ligne peuvent ainsi être affinés par l’analyse de données personnelles. Afin de lutter contre les effets négatifs du changement climatique, la collecte des données permettrait également d’améliorer l’utilisation de l’énergie.

Ces collectes de données personnelles sont donc importantes, mais il faut créer un climat de confiance.

Les systèmes de cryptage sont intéressants, mais insuffisants. Il convient de mettre en place des règles, pour que ces technologies soient utilisées de façon sûre pour tous. Il est donc nécessaire d’améliorer la transparence pour créer la confiance. Les pratiques doivent être améliorées et des lignes rouges doivent être mises en place, afin de préciser les interdictions. Il n’est ainsi pas possible de publier des informations qui permettront d’identifier une personne sans sa permission. Le contrôle, pas forcément assuré par l’Etat mais par un dispositif d’autorégulation, est nécessaire pour la création d’un climat de confiance.

Il est donc possible d’éviter la surrèglementation et la création d’un climat de confiance, mais cela nécessite des efforts de la part de tous. Les professionnels de ces technologies ont le devoir de tenir leurs promesses.

39

Big Data Paris 2015


Big data, ça change tout Colin MAHONY SVP and general manager, HP software big data

L’expression big data est universelle et n’est jamais traduite, mais il est très difficile de l’expliquer.

Le volume d’informations et de données qui sont à présent stockées est énorme. Les moyens de collecter les données se sont en effet améliorés, mais il reste toujours très délicat de croiser les informations.

Par le passé, les technologies nous limitaient, mais à présent toutes les données et informations peuvent être collectées à l’état brut. Ces informations peuvent ainsi servir à prédire le futur.

A présent, il s’avère toutefois nécessaire de contrôler ces informations. Ces dernières doivent être déployées dans le cloud, rapidement et à grande échelle. Elles doivent ensuite être ouvertes et partagées.

De nombreux marchés nouveaux sont créés avec l’utilisation des données, comme le montre l’exemple de Blablacar. Dans le domaine de la santé, l’utilisation des données permet aussi de réaliser des progrès personnalisés.

Le big data est cyclique, il n’a ni début, ni fin. Il doit être utilisé à bon escient et être bien contrôlé. Il doit également être sécurisé, selon une approche holistique.

40

Big Data Paris 2015


Remise des Trophées de l’Innovation Big data 2015 Jérôme SANDRINI Vice-président, responsable des opérations globales big data, Atos

Steve PEGUET Directeur Innovation France, Atos

Antoine CROCHET-DAMAIS Journaliste, JDN

Jérôme SANDRINI indique que 2015 constitue une année charnière chez Atos en ce qui concerne le big data, avec des projets très importants menés dans ce domaine. Les entreprises commencent en effet à retirer un véritable bénéfice de la valeur de leurs données. Atos a donc créé une nouvelle ligne de service, Big data et Sécurité. Le Groupe Bull a en outre rejoint Atos en 2014 et a apporté avec lui des solutions big data.

Steeve PEGUET remercie les 51 participants aux Trophées de l’Innovation, qui ont déposé des dossiers de grande qualité. Les quatre gagnants ont su adresser l’innovation au sens large et Atos souhaite les accompagner dans une démarche d’open innovation, afin élargir la création de valeur.

Antoine CROCHET-DAMAIS salue le professionnalisme et l’expertise du jury.

Tellmeplus reçoit le premier Prix de l’Innovation big data 2015.

Coheris reçoit le deuxième Prix de l’Innovation big data 2015.

Safety line reçoit le troisième Prix de l’Innovation big data 2015.

Parkeon reçoit le Prix spécial Grand public de l’Innovation big data 2015.

41

Big Data Paris 2015


Parcours retours d’expérience

I) La transformation digitale : une opportunité

Marc GENEVOIS Directeur des Opérations, SAP France

Marc GENEVOIS explique que le premier internet, celui du contenu, a évolué ensuite vers l’internet des individus, avec le partage des photos. Il s’agit à présent de l’internet des objets. Dans cette période de transformation des métiers, des services et des modèles économiques, les DSI font face à des challenges, relatifs aux impacts de ces changements sur les systèmes d’information.

SAP a développé une expertise liée à la gestion de la donnée, dans une optique business. Dans ce domaine, l’internet des objets correspond à une plateforme unique, à des réseaux qui permettent de relier les objets et à d’applications qui rendent ces objets utilisables par des individus.

La plateforme Hana a notamment permis à SAP d’augmenter ses ventes, de faire de la maintenance prédictive, de faire baisser ses coûts, etc. Elle offre aux entreprises des fonctionnalités de base de données, de traitement des données et de plateforme d’applications, ainsi que des bibliothèques pour l’analyse prévisionnelle textuelle, spatiale et le reporting analytique.

Pour donner un exemple concret des applications de cette plateforme, le port de Hambourg a une croissance de 6 % par an, il est très important dans l’Europe du Nord, mais son environnement géographique limite ses capacités à croître. Cette plateforme lui a ainsi permis d’améliorer ses infrastructures en l’aidant à mieux utiliser ses données.

Yann SERRA observe que le modèle de SAP a changé avec la mise en place de cette plateforme Hana.

Marc GENEVOIS acquiesce. SAP travaille ainsi davantage présent avec des start-ups.

Une intervenante demande des précisions sur la possibilité de réduction des coûts que permet cette plateforme pour les assureurs.

Marc GENEVOIS indique que les assureurs peuvent par exemple mieux prévoir les populations à risque en utilisant cet outil.

Un intervenant demande si SAP est susceptible de fournir des données à ses clients l’avenir.

Marc GENEVOIS répond que cette piste n’est pas écartée.

II) Assurances : le big data, un catalyseur de la transformation digitale de Covea

Guillaume LEMELE Directeur des pôles logiciels du SI MMA, Covea

Sébastien LAYER Architecte senior, Sentelis

Guillaume LEMELE signale que COVEA a mené un programme stratégique, pour mieux gérer ses données et en faire un avantage concurrentiel. Dans ce programme, le big data occupe donc une place importante.

42

Big Data Paris 2015


Sébastien LAYER constate que les systèmes d’information ont connu des évolutions importantes au cours des années précédentes, qui ont conduit à un silotage de l’information. Il a ainsi fallu repositionner la donnée au centre du système d’information.

Sentelis s’est donc employé à développer un socle commun fondateur. Ce dernier est unique, il est capable d’héberger de multiples usages et accessible à l’ensemble des métiers. Dans ce modèle, les visions 360 ont trouvé un champ d’expression naturel.

Guillaume LEMELE explique que cette démarche d’architecture 3.0 et de socle unique a été mise en place progressivement, de 2013 à 2015.

Sébastien LAYER ajoute qu’il s’est avéré nécessaire d’industrialiser le socle, pour concilier l’enjeu de l’agilité avec l’obligation de la robustesse.

III) Operational Analytics & internet of things, the next frontier ?

Erick BRETHENOUX Director of business analytics & decision management strategy, IBM

Erick BRETHENOUX considère que l’analytique du futur ne verra le jour que si cela s’avère nécessaire. Les informations ne seront en effet diffusées que si elles sont nécessaires. L’information est très accessible aujourd’hui, mais les gens ont de moins en moins de temps pour en tirer parti. Il faut donc rendre l’information disponible au moment où les gens en ont besoin, sans disruption.

La confiance viendra du fait de donner une information pertinente et utile à l’utilisateur. Ces informations devront donc être appropriées, ce qu’elles ne sont pas toujours à présent. La transparence sera également nécessaire et l’utilisateur devra garder la main sur l’information.

Le calm computing consiste à protéger l’individu de toutes ces informations, qui seront filtrées pour que seules les plus intéressantes lui parviennent. Ce système peut être mis en place si les outils sont connectés entre eux. Les objets peuvent dès lors agir dans l’intérêt de l’utilisateur. Si ces informations lui parviennent trop rapidement, l’utilisateur peut prendre peur, mais si elles lui parviennent selon un rythme plus juste, elles peuvent s’avérer utiles.

IV) Comment le big data a gagné l’America’s Cup

Philippe PRESTI Navigateur, Oracle Team USA

Éric DELFOSSE Sales manager Big Data Oracle

Éric DELFOSSE rappelle que le sport de haut niveau analyse les données depuis toujours, mais pas en temps réel.

La gestion de la data constitue l’ADN d’Oracle, qui accompagne et fournit des solutions permettant de connecter les données et de les intégrer dans des plateformes. Oracle propose des solutions d’analytics dimensionnées pour le big data, qui permettent donc de faire le meilleur usage de ces données.

Philippe PRESTI indique que la Course de l’America date de 1851 et que le développement technologique est au cœur de cette épreuve. En 2013, l’exploitation des données a permis à Oracle de remporter huit manches d’affilée pour finalement combler son important retard sur Team New-Zealand et gagner la 34ème édition de la Course de l’America.

43

Big Data Paris 2015


Eric DELFOSSE observe qu’il a fallu mettre en relation des données sons, images, techniques et celles des bateaux concurrents pour optimiser la performance.

Philippe PRESTI confirme qu’Oracle a poussé très loin ce travail sur l’analyse des données. Ce travail a également permis à l’équipe d’évacuer le stress lié au côté émotif de l’épreuve. Il l’a ainsi aidée à supporter la pression et à maintenir une ambiance sereine en son sein. Il ne faut en effet pas perdre de vue qu’il y a toujours un côté humain derrière la data.

La 35ème édition de la Course de l’America se déroulera aux Bermudes en 2017. Les bateaux atteindront une taille de 19 mètres et Oracle embarquera des systèmes intelligents. L’entrainement durera deux ans et l’analyse des données permettra d’améliorer la technologie embarquée sur les bateaux.

V) Le projet Sinapse d’EDF R&D

Jérôme FREMONT Ingénieur chercheur, EDF R&D

Cédric FAUVET Responsable développement, Neo Technology France

Jérôme FREMONT explique que le réseau de distribution d’EDF compte 415 000 km de réseau à basse tension aérien et implique donc la gestion de nombreux équipements.

Dans le projet Sinapse, EDF intervient en support d’ERDF en ce qui concerne les technologies innovantes liées au big data et leur analyse.

EDF a d’abord travaillé sur la source des différentes données métier et a travaillé sur la qualité de ces données ainsi que sur la gestion des identifiants des équipements, avant d’en venir à l’analyse des données proprement dites. Elle a ensuite construit une plateforme data analytics pour étudier différentes solutions.

EDF a choisi de travailler avec la base de graphe Neo4j dans le cadre du projet Sinapse, suite à une première étude menée en 2013 sur les nouveaux moyens de stockage. Cette base est une solution libre, reconnue et dynamique, qui propose de nombreux outils. Dans cette base, les équipements sont figurés par des nœuds, ils sont reliés entre eux et ont ensuite été labellisés.

EDF a en outre décidé d’utiliser l’API Traversal, afin de pouvoir effectuer des traversées du réseau électrique, et donc du graphe Neo4j. Cet API présente ainsi de nombreux avantages et répond à de nombreuses contraintes d’utilisation.

Neo4j permet donc de réaliser des traitements au plus proche des données et de limiter les interfaces entre les bases de données. Cette base compte pour l’heure 360 000 nœuds, soit 1/30ème du réseau moyenne tension français et EDF entend passer de l’expérimentation à l’exploitation réelle.

Yann SERRA observe qu’une telle base de données graphe peut trouver de nombreuses applications.

Jérôme FREMONT confirme qu’elle est applicable pour tout type de réseaux, notamment les télécommunications.

Cédric FAUVET ajoute qu’elle peut s’appliquer aux moteurs de recommandations, aux analyses d’impacts, aux détections de fraude, etc. Elle permet également de personnaliser la recommandation en temps réel.

44

Big Data Paris 2015


VI) Projet Remind

Pierre DELORT Président ANDSI et enseignant, Mines ParisTech

Vincent GUIGUE Maître de Conférences, UPMC

Pierre DELORT explique que le marché du nucléaire se monte à 90 milliards d’euros en France et à 180 milliards d’euros en Europe. Le projet Remind a pour objectif d’améliorer l’efficacité et les délais dans les phases de démantèlement des installations nucléaires. Ces dernières sont des installations industrielles de longue vie et sont finalement peu connues. Leur démantèlement nécessite donc beaucoup de temps et énormément d’argent. Ce projet a également pour objectif d’utiliser les informations du démantèlement pour définir des modèles d’usure ou de vieillissement, remonter la chaîne de la valeur dans la conception des futurs équipements et appliquer ces modèles à d’autres filières de démantèlement.

Un démantèlement nucléaire repose sur un scénario, établi sur la base de documents créés durant la phase d’exploitation du réacteur et étudiés par des experts. L’application de technologies numériques pourrait être intéressante pour analyser ces documents, qui sont en très grand nombre.

Il n’est plus acceptable à présent de laisser les installations industrielles se dégrader et le marché du démantèlement a émergé. Ce marché est estimé pour le secteur maritime à plus de 5 milliards d’euros par an. Le projet Remind prévoit en outre de vendre à cette filière du conseil et de la stratégie industrielle, pour conduire les démantèlements.

Vincent GUIGUE indique qu’un mastère dédié aux data sciences a été créé à Paris 6. Le projet Remind intéresse les universitaires en raison de ses verrous technologiques. Il s’agit d’un système de recherche d’information, nécessitant le développement d’algorithmes pour accroître la valeur des données. Les verrous correspondent à la personnalisation de la solution proposée, l’aide à l’exploitation des documents et la dimensionnalité des données.

Il a ainsi fallu modéliser la probabilité d’intérêt des documents en fonction des utilisateurs et passer d’une modélisation générative à une modélisation discriminante, afin de distinguer les utilisateurs et accroître la personnalisation du système.

Dans un premier temps, les informations ont été recherchées dans les bases de données et dans un second temps, les documents ont été priorisés en fonction des critères des utilisateurs. Ces modélisations des utilisateurs doivent en outre être dynamiques et le système doit être intelligent.

Le risque le plus pertinent doit ainsi être bien appréhendé dans les documents liés à ce démantèlement. A ce titre, le machine learning est nécessaire.

La topologie du site constitue par ailleurs un élément essentiel pour analyser les données. Les experts ont ainsi dû proposer une navigation basée sur cette topologie géographique et construire une topologie documentaire pour améliorer la recherche. Il s’agit ainsi de bien mettre les risques en évidence.

Enfin, une installation neuve représente environ 100 téraoctets de données très hétérogènes. Des algorithmes efficaces et rapides sont donc nécessaires pour prendre en compte toutes ces données.

Un intervenant demande si des benchmarks ont été effectués.

Vincent GUIGUE répond de façon négative. Le projet n’est en effet pas encore suffisamment avancé.

45

Big Data Paris 2015


VII) Cas client RTE: Enjeux et développements du big-data pour le gestionnaire du réseau de transport d’électricité

Nicolas OMONT Ingénieur R&D, RTE France

Nicolas OMONT rappelle que RTE gère le réseau de transport électrique, qui couvre toute l’Europe.

Les besoins du big data de RTE ne correspondent pas à la gestion des clients, mais cette technologie pourrait s’avérer utile dans le cadre de simulations de Monte-Carlo et surtout pour les données d’exploitation, qui ont trait à la surveillance du réseau en temps réel.

Un data lab a été créé au sein de RTE, afin d’intégrer toutes les données, liées par exemple à la maintenance ou à l’environnement. Les premières études de ce data lab sont intéressantes en ce qu’elles permettent d’établir un lien entre des pannes et des données géographiques. Ces premières études ont cependant été menées sans architecture big Data.

RTE envisage toutefois de recourir au big data pour son département R&D. Cette entreprise compte également développer un datawarehouse. RTE souhaite en effet développer l’innovation numérique, afin de s’enrichir par des innovations qui ont été réalisées dans d’autres systèmes. Ces innovations devront conduire à améliorer les performances globales du système électrique.

VIII) Cassandra chez Chronopost pour traiter 1,5 milliard d’évènements par an

Alexander DEJANOVSKI Ingénieur Expert EAI, Chronopost

Alexander DEJANOVSKI explique que Cassandra a été notamment développée par Facebook et Apple.

Chronopost est leader dans le domaine de la livraison express de colis en France et a transporté 115 millions de colis en 2014. Elle utilise des solutions TIBCO pour ses 750 000 échanges quotidiens.

Sa base de données n’était cependant pas scalable et rencontrait des problèmes lors de pics d’activité. Des latences étaient également constatées dans les relations, au fil du développement de cette base, dont les statistiques étaient en outre calculées a posteriori.

Pour résoudre ces problèmes, Chronopost a donc décidé de se pencher sur les aspects big data et NoSQL. Un travail a été mené sur les flux opérationnels avant de passer à la phase de machine learning. Un POC NoSQL sur FUKS a ainsi été proposé et Cassandra a été choisie, car il s’agit d’un système simple, qui prévoit des réplications totalement intégrées. Sa tolérance aux pannes est de plus très grande et cette base est scalable linéairement. Avec Cassandra, les données sont en outre répliquées dans le cluster, sur lequel le client peut se rendre directement. Le langage y est le CQL, langage plutôt simple, mais il n’est pas possible d’y faire de relations, ni de requêtes analytiques.

Désormais, il n’y a plus de contention en production, les statistiques sont connues en temps réel et le traitement des messages est beaucoup plus rapide. A la rentrée, deux nouvelles offres Chronopost s’appuieront sur un stockage Cassandra.

Yann SERRA remarque que Cassandra correspond à une technologie très accessible.

Alexander DEJANOVSKI confirme que cette application du big data est très opérationnelle.

46

Big Data Paris 2015


IX) Big data, épidémiologie et nutrition : exemple du métagénome

Jean-Michel BATTO Leader technique pour Metagenopolis, INRA

Jean-Michel BATTO indique que le big data s’apparente à des signaux desquels il faut extraire du sens. Or cette extraction de sens est également possible avec une clustérisation de l’information.

L’épidémiologie est utilisée dans le domaine des statistiques humaines et permet des comparaisons entre populations.

A l’INRA, dès 2008, une approche par catalogue d’observations inconnues a été construite. Un agrégat de gènes inconnu a été développé, qui a permis de réduire le bruit et d’établir des comparaisons.

Une étude a été menée à partir de 2010 au sujet du métagénome et des bactéries, ainsi que des champignons qui le colonisent. Cette étude a été basée sur un catalogue non redondant de 3,3 millions de gènes de ces bactéries, parasites et virus. Dans ce cadre, des taux de corrélation ont été calculés, avec des GPU.

Il a ensuite été décidé de recourir à ParStream, qui travaille en mode compressé. Ce mode de travail assure en effet une meilleure fonctionnalité en matière de consommation d’énergie. Cette industrialisation a permis aux data scientists de réaliser des gains de productivité.

Il ressort ainsi de cette étude que ceux qui ont une faible diversité de bactéries sont en moins bonne santé. De plus, des détecteurs ont été construits, qui permettent de prédire la bonne santé des individus. Ces résultats ont été publiés dans Nature.

En 2010, le catalogue permettait de décrire spontanément 4 % des objets, contre 66 % des objets présent, grâce à cette approche par clusterisation et par comparaison avec des cohortes d’individus. Sans le calculateur GPU, qui a considérablement réduit les temps de calcul, ce projet aurait toutefois été impossible.

Un intervenant observe que cet exposé constitue un bon exemple des applications des pratiques innovantes du machine learning.

Jean-Michel BATTO répond que les participants à ce projet ont construit leurs propres outils dans ce domaine. Ils ont ainsi construit toute la chaîne d’analyse pour exploiter les données. L’utilisation de technologies avancées serait cependant bénéfique à ce projet.

X) Plateforme big data + sig + 3d: comment Network Rail réduit ses coûts en digitalisant son réseau ferré

Stephen DYKE Director – Asset Information (ORBIS), Network Rail

Stephen DYKE explique que l’objectif du programme Orbis consiste à fournir aux ingénieurs la capacité de mieux gérer le risque et de s’adapter au futur.

Network rail gère l’infrastructure, mais n’est pas propriétaire des trains. Le réseau ferré est victime de son succès au Royaume-Uni et la demande dans ce domaine a augmenté de 100 % sur la dernière décennie. Or l’infrastructure vieillit, alors que la fiabilité du réseau ferré est cruciale. Le programme Orbis est donc centré sur cette fiabilité.

Il s’agit avec ce programme de travailler dans le domaine de la maintenance préventive. Network Rail gère 20 000 km de réseau et a engrangé des revenus de 1,6 milliard de livres en 2014. Cette entreprise doit gérer 32 000 ponts et 6 000 passages à niveau et de très nombreux autres équipements.

47

Big Data Paris 2015


Le programme Data to intelligence a été mis en place selon une approche business plutôt que technologique. Dans ce programme, la mobilité de la force de travail est primordiale. Cette dernière a été dotée d’outils, notamment en guise d’aide à la prise de décisions.

L’un des sous-programmes de ce programme, RINM, est développé en partenariat avec CSC. Il consiste en l’analyse de nombreuses données, dont certaines sont des photographies en 3D. Le programme RINM donne des informations de type Google Map au réseau ferré, ainsi que des informations concernant par exemple les feuilles des arbres qui pourrissent et encombrent les voies. Il permet ainsi de savoir quels arbres doivent être coupés. Le réseau est photographié en détail tous les cinq ans et des algorithmes complexes sont mis en œuvre. Ce modèle est utilisé en quasi-temps réel et en cas de problème, l’information est renvoyée au gestionnaire du réseau, afin de garantir le moins d’impacts possibles sur les voyageurs et l’économie.

Yann SERRA demande Si Network Rail travaille également avec la SNCF.

Steve DYKE acquiesce. La SNCF a en effet accompli des avancées majeures sur ces sujets de digitalisation.

Une intervenant s’enquiert du coût du programme Orbis.

Steve DYKE fait état d’un programme sur sept ans, représentant un coût de 400 millions de livres, pour 1,5 à 2 milliards de livres de profit ou d’économies escomptés.

XI) Analyse imprédictible et interactive de téraoctets de données

Laurent DOLLE Manager of software development, Amadeus

Laurent DOLL explique que les compagnies aériennes et agences de voyages sont les principaux clients d’Amadeus, qui leur permet de réaliser des requêtes sans aucune contrainte technique ni fonctionnelle, sur un datawarehouse qui contient plusieurs années de données. Ces requêtes sont exécutées avec des réponses interactives.

Amadeus accompagne ses clients de l’acte d’achat à leur voyage et dispose d’une très importante base de données clients. Elle est propriétaire de ses data centers et 1,6 milliard de transactions sont effectuées chaque jour dans ses systèmes. Elle est proche de ses clients et compte 17 centres de R&D dans le monde entier. Elle investit beaucoup dans l’innovation (près de 3 milliards d’euros en dix ans). Cette société croît chaque année, avec un business model basé sur les transactions.

L’application Amadeus revenue accounting permet d’exécuter les requêtes imprédictibles et en temps réel. Il s’agit d’une application web, hébergée sur le cloud Amadeus. Cette application est récente et une centaine de collaborateurs travaillent sur ce sujet. Meta data search a en outre été développée avec une compagnie aérienne européenne importante, qui a migré vers le datawarehouse d’Amadeus. Ce projet semblait complexe d’un point de vue technique, mais Amadeus a su relever ces challenges techniques.

La technologie Mongo DB a été choisie pour développer cette application. Cette technologie devait en effet être user friendly, apporter des réponses très rapides et être scalable. Le microsharding permet de partitionner le DB. Les requêtes sont donc très efficaces et utilisent toute la puissance de la machine. Les utilisateurs peuvent également créer d’importantes requêtes avec Mongo DB. Les requêtes les plus rapides sont ainsi traitées en trois secondes, les résultats sont très consistants en l’absence de concurrence et des index pourront être mis en place sur les colonnes les plus utilisées.

48

Big Data Paris 2015


La puissance Big Data à la portée de tout développeur

William VAMBENEPE, Responsable Big Data Services chez Google Cloud Platform, indique que le cloud est parfaitement adapté au Big Data. Dès l’origine, Google a dû utiliser du Big Data. Il a besoin de produits efficaces, tout en minimisant les coûts par utilisateur. Google investit désormais dans le cloud.

Le cloud Dataflow permet la manipulation de données. Un même programme, écrit une fois, peut fonctionner soit en temps réel (en streaming), soit en batch. L’analyse en temps réel peut par exemple être utilisée afin de détecter les fraudes. L’exploitation des données est souvent réalisée en SQL, sinon en Java, en Python ou en Spark. Le cloud est très facile d’usage, puisque l’administration et la mise en place d’un cluster ne sont plus de responsabilité de l’utilisateur. Il permet de subvenir aux besoins, à tous les niveaux. Partager des données sur le cloud est beaucoup plus simple et beaucoup plus sûr qu’un cluster local. Sur le cloud, les données sont des ressources primaires : elles ont leur propre permission.

Le Cloud Dataflow est le résultat de 12 ans de progrès. Il s’agissait de tirer parti de pipelines de batches optimisés et du temps réel, pour créer un modèle unique. Les programmes qui utilisent ce modèle peuvent être exploités sur le service cloud de Google. Le processus est entièrement géré par Google. Lors d’une manipulation à grande échelle, les données sont regroupées. Dans le Cloud Dataflow, les watermarks et les triggers indiquent quand la fenêtre peut être analysée et que faire lorsque les données sont transmises en retard. Si l’utilisateur souhaite exécuter le programme sur le cloud de Google, le service Google met à disposition le nombre de machines optimal pour réaliser la tâche. Grâce à l’optimisation des workers, le temps d’exécution est considérablement diminué. Le cluster est ajusté automatiquement.

Le Cloud Dataflow est assorti d’un Direct Runner et d’un Service Runner. Grâce à un modèle de production productif et portable, les applications pourront être utilisées sur des modes différents (streaming, batch…) et sur la plate-forme de votre choix. Dès qu’un message est envoyé, il est conservé jusqu’à sa réception. Par ailleurs, le système BigQuery permet de lancer des analyses SQL à très grande échelle.

Afin de s’assurer que les clusters Hadoop et Spark soient bien intégrés avec le système Big Data, Google a créé des connecteurs, interfaces natives des clusters. En outre, l’outil Big Data Utile (BDU) optimise le déploiement de Spark.

En définitive, le cloud permet d’économiser du temps et de l’argent, tout en augmentant la productivité. William VAMBENEPE assure que les données demeurent de la propriété de l’utilisateur. Le système n’occasionne aucun transfert de propriété à Google.

49

Big Data Paris 2015


Projet Drill : du SQL agile et self-service pour le Big Data

Aurélien GOUJET, Directeur Technique avant-vente Europe du Sud chez MapR, précise que MapR compte 700 clients en production dans le monde. Darty et Cdiscount ont choisi MapR pour leur plan de reprise de l’activité.

MapR souhaitait mettre à la disposition de ses clients une plate-forme largement ouverte aux différentes applications de l’entreprise. Le projet Drill permet de brancher des applications, même si elles ne sont pas compatibles avec Hadoop. Ce projet open source vise à rendre le SQL interactif dans un environnement Big Data, avec ou sans modèle de données prédéterminé.

Le projet Drill ne se limite pas à des applications de type batch processing. De nouvelles applications comme les réseaux sociaux peuvent également tirer parti de cette plate-forme, à partir de nouveaux modèles d’accès aux données. Il est possible de structurer les différents niveaux de répertoire et de les croiser avec des données extérieures. Tous les types de données peuvent être requêtés et intégrés dans l’environnement SQL existant. Le Plug & Play permet une accessibilité aux données en self-service.

José DIZ craint que les performances du système soient réduites par l’envoi de plusieurs requêtes et l’exécution de traitements différents.

Aurélien GOUJET indique que ce système n’affecte pas les performances, car la gestion des disques est optimisée. Il est donc possible de constituer des groupes de machines dédiés à des besoins. Si nécessaire, les tâches sont redistribuées.

Un intervenant demande pourquoi les techniques Impala et Drill sont utilisées dans le même canal de distribution.

Aurélien GOUJET précise qu’Impala a été lancé un an et demi par Cloudera. Une version bêta de Drill a été créée neuf mois auparavant. MapR laisse à ses clients le choix d’utiliser plusieurs technologies.

50

Big Data Paris 2015


Hadoop et sécurité… C’est possible

Nicolas MAILLARD, Ingénieur Solutions chez Hortonworks, souligne que la sécurité recouvre cinq dimensions :

l’administration ; l’authentification ; l’autorisation ; l’audit de l’accès aux données ; la protection des données.

Jusqu’en 2014, chaque élément de Hadoop s’administrait indépendamment. En 2014, Hortonworks a acquis XA Secure, qui a donné lieu à la création de Ranger.

Pendant plus de vingt ans, Kerberos a été la technologie standard d’authentification. Hortonworks utilisait Apache Knox comme plate-forme d’entrée pour solliciter ses clusters. Avant Knox, les clients devaient générer leurs propres requêtes. Dorénavant, Knox redirige les requêtes vers les machines à même d’y répondre.

Ranger permet une sécurisation de l’ensemble des SI. Il peut être intégré au cluster, ou mis à disposition à l’extérieur du cluster. Un policy server administre en permanence les différentes policies et un audit server met à disposition des notes d’audit, pour les inclure dans un répertoire.

S’agissant de la protection des données, Hadoop a été enrichi de l’outil Provider, qui fournit des clés de décryptage.

Un intervenant craint que l’intégration de Kerberos sur des clusters existants entraîne une perte de performance.

Nicolas MAILLARD assure que les performances de requête ne sont pas amoindries, car Kerberos génère un token au début de la requête. En outre, le système d’administration Hadoop permet de sécuriser a posteriori le cluster. Kerberos ne communique qu’une seule fois pendant la durée de la requête. Le token a une durée de vie d’une journée.

Un intervenant s’enquiert du positionnement de Ranger par rapport à Sentry.

Nicolas MAILLARD estime que le service offert par Ranger est bien plus complet que celui de Sentry. Outre le stockage des données, il permet de sécuriser l’accès aux différents services.

Un intervenant souhaite obtenir des précisions sur la gestion des identifiants.

Nicolas MAILLARD précise que Knox permettra le partage de cookies et de sessions dès juin 2015.

51

Big Data Paris 2015


Table ronde : Compétences et Big Data Fabrice MARQUE Directeur de l’activité conseil en vente et service client, Accenture

Ariane LIGER-BELAIR Directeur académique, SAS

Mathieu COLAS Responsable de l’offre Big Data, Capgemini Consulting

José DIZ indique que le débat sera articulé autour de trois points :

comment faire évoluer les compétences existantes vers les nouveaux besoins ?

comment chacun perçoit-il la notion de data scientist ?

quelles initiatives ont été menées par les acteurs au titre de la formation ?

Mathieu COLAS indique qu’il convient de bien articuler les grandes sociétés et l’écosystème de l’innovation.

José DIZ demande si les informaticiens doivent acquérir de nouvelles compétences pour traiter les projets Big Data.

Mathieu COLAS explique que les projets Big Data mobilisent cinq types de compétences : celles des métiers, des préparateurs de données, des data scientists, des personnes capables d’optimiser la data visualization et enfin, celles des experts de l’architecture et de l’administration du SI. Les préparateurs de données doivent se former aux nouveaux outils. Bien que l’on ait coutume de présenter les data scientists comme un ensemble de compétences, il sera difficile de les recruter s’ils ne sont pas incarnés au travers d’un titre.

Ariane LIGER-BELAIR indique que l’esprit d’équipe est indispensable. Elle croit à l’équipe pluridisciplinaire, plutôt qu’à un data scientist qui ne pourra maîtriser tous les aspects du métier.

Fabrice MARQUE indique qu’en dehors des compétences informatiques, les projets Big Data impliquent des compétences statistiques, des compétences business et en matière de communication.

José DIZ demande si les entreprises présentes font appel à des entreprises dédiées à l’open source.

Fabrice MARQUE répond par l’affirmative. Accenture contribue elle-même à l’open data. Avec l’ESSEC et Centrale-Supelec, Accenture a lancé une chaire sur l’analyse et la valorisation des données. La première promotion a été amenée à étudier un cas pratique portant sur l’open data.

Mathieu COLAS précise que contrairement aux éditeurs, les sociétés de services sont impliquées dans l’open data. Le fait de participer activement à la communauté open data revêt une importance essentielle. Cette participation participe de la formation des data scientists. La curiosité est la qualité première attendue d’un data scientist. Une posture managériale particulière doit être adaptée à l’égard des data scientists. Sans marge de manœuvre, ils ne pourront contribuer à l’innovation.

Ariane LIGER-BELAIR relève que l’open source est moins sûr et moins industrialisable dans les processus.

52

Big Data Paris 2015


Un intervenant relève que chaque évolution technique a une incidence sur la data.

Mathieu COLAS indique que la problématique n’est pas tant celle de la rareté des compétences, que celle du positionnement des compétences. Parmi les compétences manquantes, les entreprises citent fréquemment les préparateurs de données et les architectes du SI. S’agissant des data scientists, Capgemini Consulting préfère recruter des profils alternatifs, qu’il encourage à se former. Outre une bonne connaissance des sources de données externes, le data scientist doit être capable d’animer une équipe et d’illustrer le travail effectué sur les algorithmes. Par ailleurs, une étude réalisée par Capgemini démontre l’existence d’une corrélation entre le niveau de succès d’une entreprise et son modèle organisationnel. Il y a une vraie vertu à centraliser les moyens dédiés au Big Data, qu’ils soient technologiques ou humains. Un grand constructeur automobile a transformé son centre de compétences en business unit.

José DIZ demande quelles actions sont engagées avec les universités et les écoles, à destination des étudiants et des entreprises.

Ariane LIGER-BELAIR précise que SAS est partenaire de nombreuses universités et grandes écoles. En outre, SAS a créé le programme Data scientist, destiné aux étudiants en fin de cycle qui souhaitent directement entrer sur le marché du travail. Ce programme porte sur la data visualization, l’analytique avancée, la communication, ainsi que les ressources humaines et les applications métier (axées sur les thématiques de la connaissance client et la fraude). Les étudiants sont accueillis en stage par SAS, ses clients ou ses partenaires, en vue d’une préembauche.

José DIZ demande quel est l’intérêt de former des personnes qui risquent de partir à la concurrence.

Fabrice MARQUE précise qu’Accenture recrute principalement des PhD au poste de data scientist. De nombreux data scientists sont issus de pays étrangers. Une organisation virtuelle pour leur permet de développer leurs compétences après leur recrutement. Accenture a récemment conclu un partenariat avec l’ESSEC. Grâce au rapprochement Centrale-Supelec/ESSEC, Accenture peut recruter des profils de managers. Cette formation s’adresse tant aux étudiants qu’aux praticiens.

Mathieu COLAS indique que Capgemini Consulting a conclu des partenariats avec des start-ups en France. Au-delà des compétences techniques et du background universitaire, le Data scientist doit absolument maîtriser l’usage de la donnée. C’est pourquoi Capgemini Consulting a mis en place une organisation permettant aux différentes implantations le partage des bonnes pratiques. Enfin, Capgemini intervient auprès des écoles pour faire part de son retour d'expérience.

53

Big Data Paris 2015


Cloud et Big Data : coûts maîtrisés et déploiements rapides ?

Stephan HADINGER, Manager Solutions Architecture chez Amazon Web Services, précise que le cloud permet d’allier une très grande flexibilité à l’objectif de maîtrise des coûts. Amazon met à disposition de ses clients le système S3, outil de stockage hautement durable, sans limites de capacité. Pour innover, Amazon se réfère uniquement aux retours de ses clients.

Plus d’un million de clients d’Amazon utilisent le Big Data, dans des domaines très variés. Au-delà d’une dizaine de To, il faut faire appel à des technologies différentes pour distribuer l’ensemble des traitements. L’analyse et la manipulation des données s’opèrent de manière itérative et expérimentale ; l’infrastructure ne doit pas être un obstacle.

Amazon Elastic MapReduce permet de gérer des clusters Hadoop. Grâce à ce système, l’utilisateur peut installer les outils de son choix et lancer immédiatement ses traitements. De nombreux clients choisissent le dataware Amazon RedShift, compatible avec l’ensemble des logiciels de recherche et de data visualization.

L’une des caractéristiques du Big Data est l’exécution de traitements en temps réel, à la seconde près. L’outil Amazon Kinesis garantit un traitement immédiat de la donnée. Par exemple, la société qui a développé le jeu Clash of Clans a choisi Kinesis pour analyser en temps réel le comportement des joueurs.

À l’exception des coûts d’usage, aucun investissement n’est nécessaire. Le stockage est facturé au Go stocké. En neuf ans d’existence, Amazon Web Services a baissé 48 fois les prix, grâce à l’amélioration de l’efficacité. Le coût unitaire sur les unités d’œuvre diminue à mesure que les volumes stockés augmentent.

Afin d’optimiser les coûts, le client peut choisir une machine Spot sur le marché aux enchères. Une fois le traitement terminé, la machine s’arrête et le client arrête de payer. Il peut arbitrer entre le temps de calcul et le prix. Dans le système proposé par AWS, la taille du cluster de calcul est adaptée en fonction du volume de la tâche.

Amazon a récemment introduit la toute nouvelle gamme de processeurs INTEL. Grâce à ce partenariat, Amazon atteint des fréquences qui excèdent habituellement les capacités des serveurs. Fort de son réseau de partenaires implantés dans le monde entier, AWS reste présent auprès de ses clients.

José DIZ note qu’il est souvent reproché aux services cloud les défaillances des outils de monitoring.

Stephane Hadinger indique qu’AWS dispose d’un écosystème de partenaires. Plus de 2 000 logiciels sont ainsi disponibles en quelques clics, sur la market place. Par ailleurs, AWS s’apprête à lancer un outil permettant de déployer de nouvelles versions des logiciels, ainsi que des produits de gestion des sources.

54

Big Data Paris 2015


Monétisation des données : modèles et exemples

Julien CABOT, de Quantmetry Data Science Consulting, indique que la monétisation des données vise à générer un revenu, direct et/ou indirect par l’exploitation des données, comme actif de l’organisation.

Quatre modèles de monétisation des données peuvent être distingués :

performance marketing et commerciale ; performance opérationnelle et financière ; commercialisation de données brutes enrichies, d’indicateurs ou de data-apps ; commercialisation de produits et de services intelligents.

La tendance est à la multiplication des modèles de monétisation des données. Limelight estime le marché des données à 1,4 milliard d'euros en France en 2013, dont 793 millions d'euros au titre de la collecte et de la vente de données. Ce marché a enregistré une croissance globale de 7 %, dont +14 % dans le ciblage et la diffusion.

Le potentiel de revenus issus de la connaissance des clients et des transactions associées est estimé à 475 milliards de dollars.

Il existe cinq niveaux de raffinage des données :

5. service (données « intelligentes ») ; 4. prédiction (données prédites, probabilités) ; 3. indicateur (données agrégées, calculées) ; 2. caractéristique (données validées, complétées, nettoyées) ; 1. donnée brute (données brutes de logs, capteurs, formulaires…).

Les constituants de la valeur des données sont les suivants :

• Utilisabilité Les données sont-elles utilisables, compréhensibles, utiles pour mes besoins ?

• Temps La fraîcheur des données permettra-t-elle de réagir rapidement et/ou

efficacement ?

• Précision La granularité et la significativité des données est-elle adaptée à mes besoins ?

• Exhaustivité L’exhaustivité et la complétude des données correspondent-elles à mes besoins ?

• Rareté La donnée est-elle facilement accessible et/ou largement diffusée ?

La valeur d’une donnée ne suffit pas à déterminer son prix. Tesco Bank a décidé de rapprocher les données du programme de fidélité de Tesco Retail avec les données bancaires. Ceci lui a permis d’enregistrer un revenu supplémentaire. Afin d’évaluer la part du revenu incrémental de Tesco Bank imputable aux données fournies par Tesco Retail, il convient de se référer à l’un de ces trois éléments :

la valeur comptable (coût de production des données pour Tesco Clubcard) ;

la valeur d’usage (revenu incrémental lié à l’utilisation des données) ;

la valeur de marché (basée sur les transactions).

Cinq types de solution peuvent donc être utilisés pour monétiser les données :

55

Big Data Paris 2015


5. service (Smart Web Service, Smart Business Process); 4. prédiction (modèle prédictif) ; 3. indicateur (DataMart, Data Visualization); 2. caractéristique (Data Lab) ; 1. donnée brute (Data lake).

Par ailleurs, le modèle Ascode consiste à déployer un modèle prédictif directement en production, sans phase de réinterprétation informatique (soit par régénération de code, soit par description). Il permet notamment de proposer, sous la forme de web services, de batches ou de scoring, des modèles sophistiqués qui sont difficiles à représenter dans des formats standards, sinon à interpréter.

L’API est probablement le mode le plus performant pour monétiser les données, quel que soit le niveau de raffinage.

Pour conclure, cinq étapes sont essentielles dans la stratégie de monétisation des données :

formuler des questions ; construire des scénarios de monétisation ; rechercher des données externes ; disposer de compétences analytiques pour raffiner la data ; associer un business case bien défini à une stratégie de monétisation.

56

BIG DATA 2015


Big Data, mais Small App puissante et rapide à concevoir

Charles MIGLIETTI, cofondateur et Président de Toucan Toco, propose de réconcilier le tryptique métier/DSI/solution autour de cycles courts. La Small App permet de déployer rapidement des solutions métiers.

Quid de l’utilisateur final, dans le stockage des données ? Les métiers ont besoin de valoriser l’information, pour travailler dans la bonne direction. Les géants de l’Internet tirent leur force de leur capacité à analyser leurs données, pour les intégrer dans un processus de décision hyper court. Pour connaître l’information, il faut pouvoir l’appréhender facilement. La Small App vise à simplifier l’expérience utilisateur. La question n’est pas tant celle du volume de la donnée, que de sa valorisation afin d’assouvir les besoins métiers.

L’utilisateur dispose toujours d’un temps limité pour visualiser la donnée. Il convient de valoriser les nouveaux supports – en partant du plus simple – car la technologie a dix ans d’avance sur l’usage. En d’autres termes, la simplicité est là pour créer l’usage. La simplicité et l’ergonomie créent la rétention d’utilisation. C’est l’utilisateur final qui permet de déterminer si l’information présentée est source de valeur.

Un intervenant demande comment Toucan Toco parvient à être écouté des DSI des grandes entreprises, lesquelles sont dotées de SI particulièrement volumineux.

Charles MIGLIETTI précise que l’intervention de Toucan Toco est centrée sur le besoin final et l’utilisation finale. Ce qui compte, c’est l’acceptation d’une approche simpliste et non holistique, répondant à des besoins très particuliers.

Document rédigé par la société Ubiqus – Tél : 01.44.14.15.16 – http://www.ubiqus.fr – [email protected]

Sommaire - bigdataparis.com · Sommaire Discours d’ouverture 2 Axelle LEMAIRE 2 Secrétaire...

Documents

Transcript of Sommaire - bigdataparis.com · Sommaire Discours d’ouverture 2 Axelle LEMAIRE 2 Secrétaire...