Cahier Big Data v5
Transcript of Cahier Big Data v5
Perspectives, cas d’usages & financements des projets
#BigData
Compte-rendu de la ConférenCe du 23 oCtobre 2014
2 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Édito
Le 23 octobre 2014, s’est tenue à Paris la conférence « Big Data : perspectives, cas d’usages et financements de projets ». Cet événement a été organisé conjointement par l’Alliance BIG DATA, Le Forum Atena et l’Institut Supérieur d’électronique de Paris (ISEP) avec le soutien d’Alma Consulting Group.
Ce document est un compte-rendu de cet événement. Il synthétise globalement l’ensemble des interventions et débats.
Vous pouvez retrouver la liste des intervenants en annexe du document.
À la frontière entre technologie et management, le Big Data est l’innovation business
numéro 1 de par les promesses de croissances qui entourent l’exploitation des grands
volumes de données.
Initialement traité par les géants du web autours du paradigme des 4V au sein de projet de
R&D majeurs (Hadoop, Cassandra, Hbase, Big Table, etc.), ce domaine technologique
s’est structuré pour former un écosystème aux acteurs multiples : de nombreux
éditeurs, consultants spécialisés et fournisseurs IT se sont saisis des besoins des organisations
(grandes entreprises ou Start up) en termes de traitements et utilisation de leurs données
et proposent des solutions technologiques présentées comme « clés en main ».
Aujourd’hui, ce marché explose car les organisations, conscientes de la valeur que peuvent
avoir leurs données, se lancent dans des projets Big Data. Cependant, malgré la relative
maturité de ces technologies, il faut respecter certaines conditions de mise en œuvre :
• Déterminerlanatureetlepérimètredesdonnéesconcernées;
• Choisirlabonnetechnologie,lebonoutil;
• Spécifierlesbesoinsfonctionnelsenfonctionsdesmétiersadressés;
• Anticiperlesproblématiquesliéesàl’intégritédesdonnées.
préa
mbul
e
3 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Chaque projet est différents de par la nature obligatoirement spécifique des données à
manipulées (Formats, qualité, etc.) et cela induits encore de nombreuses incertitudes (par
exemple concernant la visualisation ou l’assemblage de technologies hétérogènes) qui vont
au-delàdelasimplerecherchedel’outilleplusadaptéàsonbesoin.
Dès lors, on comprend que la réalisation d’un projet Big Data est un investissement. D’ailleurs,
l’étatFrançaisadéjàinvesti11,5millionsd’eurospour7projetssurleBigDataen2013.
Il existe deux modes de financement cumulatif pour cette typologie de projets de recherche :
• Financement direct via les programmes nationaux publics, les programmes européens
(H2020parexemple)etlesfinancementsnoncollaboratifs;
• Financement indirect via le dispositif du crédit impôt recherche (CIR).
L’accès aux différents programmes de financement direct est conditionné par le niveau de
maturité (mesuré via l’échelle des TRL) de la technologie faisant l’objet du projet.
Afind’aider lesprofessionnelsàoptimiser leurveille stratégiqueenmatièredefinancement
de projets de R&D, ALMA CG vient de lancer la première plateforme gratuite de recherche
d’appelsàprojetscollaboratifsR&Dnationauxeteuropéens.
Le financement indirect via le dispositif du Crédit Impôt Recherche (CIR et CII) est lui conditionné
par la levée d’incertitudes techniques. Face à une technologie présentant une maturité
relative et où des éditeurs proposent des solutions clés en mains, la frontière entre le
développement expérimental (CIR), l’innovation (CII) et le développement classique est très
ténue et nécessite une expertise dans ce domaine pour évaluer quel dispositif est le plus
adapté aux projets de R&D menés au sein de votre entreprise.
Ce guide a pour vocation d’aider les professionnels à trouver une solution de financement
pour leur projet Big Data.
Delphine CharpignyExperte scientifique & Technique
Alma CG
Thomas HornacConsultant / Expert BIG DATA
Alma CG
#1 Les opportunités & Les chaLLenges Du Big Data 5Qu’est-cequeleBigData? 5
Les facteurs clés d’émergence 6
Les opportunités offertes 6
L’évolution de la « business intelligence » 9
Lesdéfisàrelever 10
#2 Les appLications Du Big Data Dans La Banque, La cartographie & La santé 13Banque & Big data : les applications financières 13
Big Data, veille & réseaux sociaux : la cartographie des fraudes 14
BigData&Santé:lesapplicationsdansledomainemédical 15
#3 Les Dispositifs De soutien & De financement Des projets Big Data 17Lestypesdefinancementexistants 17
Les dispositifs européens de financement des projets Big Data 18
Lesdispositifsfrançaisdefinancementpublic 20
Sommaire
4 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
qu’est-ce que Le Big Data ?Le Big Data est aujourd’hui un « buzzword », que nous
entendons partout. Tous les jours un nouvel ouvrage
sortsurlesujet,àl’imagedu«BigDatapourlesnuls ».
Depuis le22août2014, leBigDataachangédenom
en France. En effet, le Journal Officiel de la République
Françaiseaannoncéqu’ilconvenaitàprésentdeparler
de « mégadonnées », que la Commission générale de
terminologie et néologie définit comme « des données structurées ou non, dont le très grand volume requiert des outils d’analyse adaptés ». La Commission précise
qu’il est également possible de parler de « données
massives», termequ’onpeutpréférerd’ailleursàcelui
de « mégadonnées » car il est lui-même antérieur au
« buzzword»BigData.
Au-delàdubuzz,leBigDatas’inscritdansunenouvelle
ère : notre monde est aujourd’hui régi par les données.
De plus en plus de gestes ou d’actions de notre quotidien
génèrent de la donnée, de l’utilisation d’un Pass Navigo
àl’envoid’unSMS.
#1 Les opportunités & challenges
du Big Data
En 60 secondes dans le monde
170 millions d’e-mails sont envoyés
770 000 requêtes sont réalisées sur Google
13 000 applications iPhone sont téléchargées
5 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
5 eB
Ces données sont d’une grande utilité pour de nombreuses applications et permettent par ailleurs de créer de
nouveaux services. Une entreprise a par exemple récemment proposé d’installer des capteurs sur des inhalateurs
contre l’asthme, afin de générer des données qui permettront de détecter la présence de facteurs allergisants en
différents lieux.
Les données du Big Data proviennent des utilisateurs, des capteurs, des appareils et de plus en plus, des objets du
quotidien. Cisco Systems parle ainsi d’un « Internet of everything ». D’après une étude du Massachussetts Institute of
Technology(MIT),en2020,lenombred’objetsconnectésdépasseramêmelenombred’ordinateurs,deSmartphones
et de tablettes connectés.
Le Big Data Peut être DéFini Par 4 termes en « V » :
• la Volumétrie,lesprojectionsfaisantétatde10zettabitsdedonnéesen2015;• la Variété des données,qu’ils’agissedetextes,dechiffres,devidéosoud’images;
• la Vélocité,quidésignelafréquenceàlaquellelesdonnéesparviennent,souventvariableetimprévisible;
• la Véracité, soit la confiance que l’on peut accorder aux données pour les intégrer dans les processus décisionnels.
•Walmart traite 1m de transactions par heure
•Google traite 24 Po de données par jour
•AT&T transfert 30 Po de données par jour
•90 trillion de courriers électroniques sont envoyés chaque année
•World of Warcraft utilise 1,3 Po de stockage
•Facebook,àl’époqueoùsabase d’utilisateursétaitde900M,avait25 Po de données compressées
•400 m tweets par jourenjuin2012•72 heures de vidéos sont
téléchargées vers le serveur de Youtube chaque minute
Volume de données créées
dans le mondeVariété
des donnéesVitesse
des données
2003
2012
2015
Web, e-mail, post Facebook, Tweets, blogs, photos, vidéos,
flux RSS, Wikipedia, données GPS, RFID, scanners POS
1YB=10^24Bytes1ZB=10^21Bytes1EB=10^18Bytes1PB=10^15Bytes1TB=10^12Bytes1GB=10^9Bytes
Eléménts Big Data
2,7 zB
10 zB (e)
L’objectif finalestd’extrairede laValeuràpartirde toutescesdonnées. L’informationdoitpermettredemieux
comprendre son propre business et de créer de nouveaux services.
6 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Veracité (IBM) Incertitude des informations
Les facteurs cLés D’émergencePlusieurs facteurs expliquent l’émergence du Big Data :
• labaisseducoûtdustockage,quipermetdestockertoujoursplusdedonnées;
• ledéveloppementducloudcomputing,quiautoriseleschercheurs,lesindustrielsetlesentreprisesàstockerles
donnéesqu’ilssouhaitent,parexempleenlouantdesressourcessurlemodèledu«payasyougo»;
• larecherchedecompétitivitédanslesaffairesetdedifférenciationvis-à-visdesconcurrents;
• la multiplication des structures et des formats des données, en lien notamment avec l’Open Data*;
• l’évolutiondesmodesd’interaction,enparticulieràtraverslesréseauxsociaux.
*Le mouvement «Open Data» (ou «données ouvertes») est une démarche de publication de données numériques en ligne selon une série de dix critères garantissant leur libre accès et réutilisation par tous.
Ainsi, une donnée brute est dite ouverte si elle est publiée de manière : complète, primaire, opportune, accessible, exploitable, non-discriminatoire, non-propriétaire, libre de droits, permanente et gratuite.
Les opportunités offertesle big data a véritablement transformé nos vies et trouve des appliCations dans de multiples sphères, touChant à l’entreprise, au CommerCe ou enCore à la vie quotidienne.Enmatièredevente,ilpermetdeproposerdespromotionscibléesenfonctionduprofilduclient,desesintérêts
et de ses préférences. Les recommandations d’achat proposées par Amazon en sont un exemple. Dans le sport au
quotidien,lerecueildesdonnéesindividuellesàtraverslesSmartWatchetd’autresapplications,permetdesefixer
des objectifs et de suivre ses progrès. S’agissant du service aux consommateurs, le Big Data a permis d’évoluer d’un service réactif (« reactive customer service ») à un service proactif (« proactive customer service ») et ainsi, de fidéliser ses clients.
LeBigDatas’intègred’ailleursdansunenouvelleidéeducommerce,quicorrespondàuneconnaissance«à360
degrés » du client : qui est-il ? Pourquoi est-il client de mon entreprise ? Quels sont ses comportements d’achat ?
Comment préfère-t-il interagir avec l’entreprise ?
Les réponses à cesquestionspeuvent êtreobtenuespar le systèmed’information interneà l’entreprise,mais
égalementàtraversdesdonnéesextérieures,provenantnotammentdel’activitéduclientsurlesréseauxsociaux.
Uneenquêtemenéeen2013parSAPauprèsd’unpanelde300managersdansl’industrierévèlequelesprincipales
attentesdesprofessionnelsvis-à-visduBigDataportenteffectivementsurunemeilleureconnaissancedesclients
pourpermettreuneanalyseprédictivedeleurcomportement,àdesfinsdefidélisation.L’utilisationduBigDataa
parexemplepermisàl’opérateurT-Mobilederéduirede50%lenombrederésiliationsenuntrimestre.
Les autres opportunités offertes par le Big Data concernent :• l’e-réputation:leBigDataapermisàNestlédegagnerquatreplacesdansleclassementduReputationInstitute’sIndex;
• l’optimisationdesprocessus;
• la sécurité publique : aux Pays-Bas, l’analyse des tweets permet aujourd’hui de repérer et de prévenir les
mouvements de foules.
7 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
8 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Sécurité PubliqueSuivi des réseaux sociaux, intégration des données spatiales et capteurs
Exemple : Serious Request 2012 > suivi des mouvements de foule via Twitter et capteurs, localisation de la force publique, intégration à l’aide de SIG
Une vision à 360° du clientIntégration des données des réseaux sociaux,
CRM, données transactionnelles, etc.
Exemple : T-mobile, opérateur telecom > Réduction de 50% dans les départs clients
en un trimestre
OptimisationAnalyse prédictive pour décerner les anomalies, optimisation des processes à l’aide de capteurs
et de données operationnelles
Exemple : Union Pacific Railroad> réduire les déraillements de trains, augmenter le transport par train, réduire les émissions CO2
E-réputationAnalyse des sentiments, suivi proactif des réseaux sociaux
Exemple : Nestlé, groupe agro-alimentaire > Gain de 4 places dans l’Index de la Reputation Institute grâce à une interaction 24 heures/24
L’évoLution De La « Business inteLLigence »Avant l’avènement du Big Data, les processus décisionnels étaient fondés sur des données statiques, stockées
dansdesbasesdedonnées.Lesdonnéesstatiquessontcollectéesàl’aided’unETL(Extract-Transform-Load)pour
alimenter des entrepôts de données (data warehouse). Un processus de fouille de données (datamining) permet
alors de réaliser du reporting pour les décideurs.
Pour mieux comprendre les données et les interconnecter, une étape de sémantisation des données a par la suite
été intégrée. En utilisant un ETL sémantique, les données sont placées dans un triple-store, décrivant les données
selonletriptyque«sujet,prédicat,objet».Letriple-storepermetderéaliserdesrequêtesflexiblespourextraireune
information nouvelle et proposer des analyses visuelles dynamiques.
À l’ère du Big Data, l’analyse combine des données statiques et du data stream. L’ETL sémantique est cette fois
utilisé en temps réel. Si le système n’est pas capable d’analyser toute la volumétrie des données reçues, il convient
d’effacercertainesdonnéesinutiles.Onparledeloadshedding.Lesrequêtessontcontinuesetseuleslesalertes,
c’est-à-direlesdonnéesquiintéressentledécideur,sontstockées.L’analysevisuelleestréaliséeentempsréel.
Données sémantiques (Big)Données sur le parcoursDonnées statiques
9 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
AnAlySE En tEmPS réEl
Enrichissement des connaissances
Traitementdefluxparoutil de constitution-extraction
sémantique
DéLESTAGE
questions continues/règLes commerciaLes
rAPPOrt StAtiqUE
Analyse de questions Ad-hoc
entrepôt De Données
Outil de constitution-extraction
Traitement par lots
Bases De Données
AnAlySE dE viSUElS
QuestionsflexiblesSPARQ
tripLestore
Outil de constitution-extraction
sémantique
Traitement par lots
Données structurées/ non structurées
Sortie
Interaction des utilisateurs
Stockage
Collecte d’informations
Sources de données
Données statiques
fLux De Données
capteurs
anaLyse De visueLs en temps réeL
Bases De Données/tripLestores
Ré
TR
O-A
CT
ION
Les Défis à reLeverdes défis sont à relever à Chaque étape de la Chaîne de traitement des données big data : ColleCte, stoCkage, analyse et visualisation.
Les Défis De La coLLecte Des Donnéesune première difficulté à lever tient à la variété des données. Il existe aujourd’hui
deux types de données : d’une part les données traditionnelles issues des bases de
production,etd’autrepart lesdonnéesnouvelles,qui sontelles-mêmesdeplusieurs
natures. Il peut s’agir de données Internet, de données sociales, multimédia, spatiales ou
encore de données issues de capteurs (machine to machine). L’étude réalisée par SAP
en2013soulignequelesentreprisesontaujourd’huiconsciencedel’intérêtd’incorporer
cesdonnéesnouvellesà leurprocessusdedécision.Lessolutionspréconiséespour
gérer l’hétérogénéité des données sont issues des technologies du Web sémantique.
une seconde difficulté tient à la vélocité des données. Lesfluxdedonnéesproviennenten continu de plusieurs applications, sans qu’il soit possible de contrôler l’ordre d’arrivée
desélémentsouleurtauxd’arrivée.Unfluxdedonnéesétantinfinipardéfinition,ilest
impossible de stocker l’ensemble des données qui parviennent. Pour autant, il convient
d’êtrecapablederéagirrapidementàl’arrivéedesfluxdedonnées.Lesoutilsdegestion
desfluxdedonnées(datastreammanagementsystems)permettentdenestockerque
les alertes. À la différence des systèmes de gestion des bases de données statiques
(data base management systems), les requêtes sont continues et les données sont
exploitées au fil de l’eau.
un troisième défi porte sur la provenance des données et sur leur qualité. Il convient
en effet que les informations qui décrivent la donnée soient suffisamment détaillées pour
faciliterleurexploitationetleurvalidation.Cetaspectrevêtuneimportanceparticulière
dans le cadre de l’Open Data.
Les Défis Du stockage Des DonnéesLes systèmes de gestion des bases de données relationnelles (notamment Oracle et
MySQL)nepermettentpasdestockerlevolumededonnéesàexploiteràl’èreduBig
Data. En effet, il est nécessaire pour cela de stocker les données sur des architectures
distribuées. Au vu de la multiplicité des requêtes, l’enjeu est d’éviter les jointures,
extrêmementcoûteuses.Pourrépondreauxattentesdesentreprises, lessolutionsde
stockagedoiventêtreflexiblesetcapablesd’absorber lespicsd’arrivéesdedonnées
(notion de « scalability »). Ces solutions doivent également répondre au besoin de
prédictibilité, de haute disponibilité et d’élasticité.
Pour autant, il ne s’agit pas d’abandonner les systèmes de gestion des bases de données
relationnelles. Si ces systèmes sont aujourd’hui insuffisants au regard du Big Data, ils
présentent des propriétés très intéressantes pour certaines applications. Le mouvement
«NoSQL»pour«notonlySQL»,crééen2009,s’inscritdanscetteperspective.
10 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Les bases de données NoSQL sont régies par le théorème CAP (Consistency-Availability-Partition Tolerance, soit
Cohérence-Disponibilité-Tolérance à la partition), proposéparBrewer et Lynch.selon ce théorème, dans un système distribué, il n’est pas possible d’assurer à la fois la cohérence des données et la disponibilité du système en tout temps. En d’autres termes, pour assurer la cohérence des données sur un serveur, il convient
desuspendre ladisponibilitéde l’application le tempsdevérifierqu’ellescorrespondentà ladernièremiseà
jour réalisée sur l’autre serveur du système. Si l’objectif est en revanche la disponibilité en tout temps, on parle
« d’eventual consistency », soit une cohérence assurée après un certain délai, qui correspond au temps de
synchronisation des serveurs. Dans le domaine des transports, privilégier la disponibilité du service de réservation
conduiraparexempleàdessituationsdesurbooking.
IlexistedifférentstypesdebasesdedonnéesNoSQL : lesbasesorientées« clé-valeur », lesbasesorientées
colonnes, les bases orientées documents et les bases orientées graphes.
Les Défis De L’anaLyse Des DonnéesDanslecadreduBigData,lafouilledesdonnéesdoitêtreréaliséedemanièredistribuée.
Si la distribution des traitements existait avant l’avènement du Big Data, celui-ci implique
désormais de chercher la donnée sur une multitude de serveurs. Le paradigme de
programmationMapReducedeHadooppermetderépondreàcebesoin.
Les défis posés par le Big Data portent sur l’analyse en temps réel, sur l’équilibrage de
la charge (load balancing) entre les différents serveurs utilisés et sur l’effacement de
données(loadshedding),pourlequelilexistepeud’algorithmesàcejour.
11 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
C-A-P : choississez-en deux
COhérEnCEThéorème CAP (E. Brewer, N. Lynch 2000)
Affirmation : chaque système distribué se trouve sur un côté du triangle.
cptoujours Cohérent, même dans une partition, mais une réplique atteignable peut refuser le serviCe sans l’aCCord des autres
tOlérAnCE à lA PArtitiOnap
une réplique atteignable fournit le serviCe même dans une partition,
mais peut être inCohérente.
diSPOnibilité
cadisponible, et Cohérent,
sauf s’il y a une partition.
c
a p
Les Défis De La visuaLisationEn termes d’analyse visuelle (visual analytics), le défi concerne essentiellement
le reporting dynamique en temps réel, et en particulier le choix des graphiques à
proposer au décideur.
Les défis présentés ici ne sont pas exhaustifs, mais correspondant aux axes de travail
de l’équipe de recherche de l’ISEP. Il existe de nombreux outils techniques pour
relever les défis posés par le Big Data. Leur nombre augmente continuellement et
l’enjeuestd’identifierl’outiladaptéàchaquesituation.
concLusion et perspectivesDe nombreuses questions scientifiques restent ouvertes et nécessitent encore d’importants travaux de recherche
pour y répondre. Ces questions portent sur des sujets tels que :
• l’agrégationdedonnéesprovenantdeplusieurssources;
• lacompréhensiondesdonnées;
• l’interconnexiondesdonnées;
• l’évolutiondestechnologiessémantiquespourlesadapterauBigData;
• l’optimisationdesressources;
• l’améliorationdel’analysevisuellepourrendrelereportingdynamiqueetintelligent;
• la protection des données.
12 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
13 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Banque & Big Data : Les appLications financières Depuis le début de l’ère informatique, on assiste à une augmentation des capacités de stockage et à une
diminution continue des temps de calcul. Ces deux faits, combinés avec la croissance exponentielle des
données disponibles, ont donné naissance à ce que l’on nomme aujourd’hui le Big Data, qui trouve des
applications dans tous les domaines. Dans la finance, une telle rupture est intervenue au début des années
90avecl’apparitiondesmarchéscotésélectroniques.
Aujourd’hui, les banques s’interrogent sur l’opportunité d’investir dans le Big Data, étant donné tout ce que celui-
ci implique en termes de réorganisation, de restructuration et de modification de la gouvernance. De manière
générale, une banque investira dans une nouvelle technologie si celle-ci lui permet d’améliorer sa performance ou
de mieux gérer les risques.
on peut distinguer trois aCtivités dans le domaine banCaire : l’aCtivité de détail, l’aCtivité d’investissement et la gestion des risques. le big data s’applique à ChaCune de Ces aCtivités.
Le Big Data et L’activité De DétaiLL’objectif d’une banque de détail est de répondre aux attentes de ses clients et d’en attirer de nouveaux.
Dès qu’une personne utilise une carte bleue ou consulte ses comptes sur internet, elle génère une donnée.
En résulte pour la banque une masse gigantesque d’informations qui, si elles sont bien traitées, lui permettent
d’améliorer sa connaissance de la clientèle et donc, de lui proposer des réponses personnalisées. Grâce à
l’information collectée dans le cadre du Big Data, la banque peut ainsi construire une stratégie marketing adaptée
àsesclientspotentiels.L’information collectée sur le comportement de ses clients lui permet également de détecter certaines anomalies et donc d’améliorer la lutte contre la fraude.
#2 Les applications du Big Data
dans la banque, la cartographie & la santé
14 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Le Big Data et L’activité D’investissement Les besoins d’une banque d’investissement sont différents de ceux d’une banque de détail. Dans la finance de
marché, où l’objectif est d’augmenter le profit par des opérations d’achat et de vente, le Big Data trouve deux appli-
cations essentielles :
• En ce qui concerne le trading électronique tout d’abord, les ordres passés sur les différents marchés constituent
unesommegigantesquededonnées,dontletraitementpourraitdonnernaissanceàdenouvelles stratégies d’arbitrage ou d’exécution d’ordres. Cet aspect est actuellement étudié par les chercheurs.
• S’agissant du trading classique,leBigDatapermetdéjàd’obtenir des informations sur les contreparties des opérations,auparavantdifficilesàcollecter.Aujourd’hui,denombreusesstartupsoffrentdessolutionscléen
maind’analyse,encontinu,de toute l’informationdisponible.Cesservicessedéveloppentessentiellementà
SingapouretdansunemoindremesureàLondres.ÀParis,quelquesfondsd’investissementontcommencéà
investir dans de telles solutions.
Le Big Data et La gestion Des risquesDes techniques associées au Big Data, dans le cadre notamment de simulations et méthodes dites de Monte-Carlo,
optimisentlesmesuresderisques.LeBigDatapermetdoncàlaBanqued’améliorersagestiondesrisquesetde
minimiser ses pertes.
Big Data, veiLLe & réseaux sociaux : La cartographie Des frauDesL’avènement du Big Data bouleverse entièrement l’activité de veille. Celle-ci s’inscrit traditionnellement dans une
recherche d’exhaustivité de l’information sur le sujet en surveillance. Or, les volumes échangés sur les réseaux
sociaux sont aujourd’hui tels, qu’il devient impossible de traiter manuellement l’ensemble des informations portant
sur un sujet donné.
Dans un premier temps, des solutions professionnelles de veille ont été développées, permettant d’obtenir ce que
l’on appelle des « metrics ». Ces solutions fournissent un ensemble de données quantitatives et qualitatives sur le
sujet en surveillance, renseignant par exemple sur les liens les plus diffusés, les tweets les plus relayés, les profils
d’utilisateurs relayant l’information, les lieux géographiques dont elle provient et les langues utilisées. Néanmoins,
lorsque l’on compte plusieurs dizaines, voire centaines de milliers de tweets, il reste impossible de disposer d’une
vision globale du sujet traité.
Dans ce contexte, il est utile de s’appuyer sur des logiciels de cartographie de l’information. En utilisant des filtres
et des algorithmes de détection pour regrouper des comptes Twitter en fonction de leur proximité dans un réseau,
la cartographie fait apparaître de nouvelles informations, sans qu’il soit nécessaire d’analyser chaque tweet dans
le détail.
Plusieurs outils sont disponibles, dont certains gratuitement. L’outil NodeXL permet par exemple d’extraire l’informa-
tionviasonproprecompteTwitter.L’extractionestnéanmoinslimitéeàquelquesmilliersdetweetsetilseranéces-
saire de passer par des solutions professionnelles pour récupérer l’ensemble des données. Une fois les données
récupérées, le logiciel Gephi, libre et gratuit, permet de cartographier les informations sur les relations d’abonnés,
demanièreextrêmementpertinente.Lelogiciel,développéen2008paruneentreprisefrançaise,constituelaréfé-
rence en la matière.
15 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
En cartographiant les relations de proximité entre les comptes sur le réseau, Gephi permet de réaliser des calculs
d’influenceetd’identifierlesfraudessurlesréseauxsociaux,c’est-à-direl’utilisationdefauxcomptespourpousser
une information. Les outils d’analyse traditionnels seuls ne permettent pas de détecter ces activités frauduleuses.
queLques exempLes De frauDesIl peut s’agir d’un client mécontent qui, pour interpeler l’entreprise et obtenir une réponse, fait retweeter son mes-
sage plusieurs centaines de fois par des robots.
D’autresexemples,plusdangereuxpourlesentreprisesciblées,concernentlesattaqueslancéesàl’encontrede
leur image, en particulier en période de crise, comme ce fut le cas pour un laboratoire pharmaceutique ciblé par
plusieurscentainesderobotsàl’époquedel’affaireduMédiator.
Plus récemment, la cartographie sur Gephi a permis de détecter une anomalie dans l’intense activité autour du
conflitopposantlejournal«LeParisien»àunebloggeusetenantlesiteInternet«TheParisienne».Plusde1000
messagesdesoutienà labloggeuseavaientétédiffusésparununiquecompte,etrediffuséspardescomptes
totalementàl’écartdesconversationsauseindelacommunauté.L’utilisationdelogicielsdeveilletraditionnelsa
par la suite permis de confirmer qu’il s’agissait effectivement de robots, révélant par exemple que la moitié de ces
comptes étaient localisés en Indonésie.
Une autre application intéressante de la cartographie est illustrée par l’exemple de l’analyse des tweets sur les
rumeurs de rachat d’Alstom par General Electrics. En utilisant Gephi, on a pu identifier une activité intense prove-
nant d’une communauté décalée par rapport au reste du réseau. Il ne s’agissait pas cette fois de robots, mais d’une
communauté qui échangeait, en portugais, sur une affaire de corruption au Brésil, sans lien avec le sujet en ques-
tion. En utilisant des logiciels de veille traditionnels, ces conversations seraient apparues noyées dans l’ensemble
du corpus de tweets concernant les rumeurs de rachat et Alstom n’aurait pas perçu l’importance d’intervenir éga-
lement sur cet aspect.
Big Data & santé : Les appLications Dans Le Domaine méDicaLLe monde de la santé s’intéresse énormément au Big Data et considère qu’il pourra, demain, révolutionner le
secteur. Les données de santé sont présentes en quantité considérable. Elles sont issues de la recherche, du
dossiermédical,despayeurspublicsouprivésetdupatient lui-mêmequi,deplusenplus,estvolontairepour
suivre ses paramètres. La multiplication des applications dites de « quantified self » (« mesure de soi ») est
égalementsusceptibledegénérerdesinformationsutilesàladétectiondenouveauxfacteursderisquesetainsi,
àl’améliorationdubien-êtreetdelasanté.
La quantité des données de santé progresse de façon exponentielle, à un rythme d’environ 40 % par an selon
les estimations. Ces données sont de natures diverses, qu’elles soient cliniques, textuelles ou technologiques.
L’imagerie médicale a connu une progression considérable dans les vingt dernières années et une nouvelle géné-
ration de données issues de la recherche sur le génome apporte de nombreux renseignements sur notre com-
plexité biologique.
Par ailleurs, les coûts d’acquisition des données et la vitesse d’obtention de résultats ont été significativement
réduits grâce au cloud computing.
Ces données présentent une valeur potentiellement immense, offrant la possibilité d’affiner les recherches de
nouvelles molécules et de mieux personnaliser le traitement en fonction du patient.
16 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Les applications du Big Data en matière de santé sont multiples, touchant tant la recherche que la médecine pra-
tique. Elles recouvrent la détection des facteurs de risques, l’épidémiologie, l’aide au diagnostic, le choix du traite-
ment et son suivi, ainsi que l’étude de l’efficacité et de l’adhérence au traitement.
Les progrès réalisés en matière de recherche pharmaceutique ces trente dernières années sont basés sur les
étudescliniques.Néanmoins,leprocessusd’innovationfondésurlesessaiscliniquesestextrêmementlong,coû-
teux et imparfait, le protocole expérimental étant structuré autour d’hypothèses et de critères de sélection définis
a priori.
LeBigData,enparticulierà travers lemonitoringdes traitementsen tempsréel,estporteurd’un réelespoirà
court terme, notamment en ce qui concerne les pathologies chroniques et la cancérologie. Il permettra de mieux
choisirlestraitementsetdemieuxlesadapteràlacomplexitédechaquepatient.Encroisantlesdonnéesd’expé-
rimentation et les informations spécifiques issues du Big Data en matière de bio-marqueurs et de génomique par
exemple, il sera possible de détecter des similarités et des cohérences qui permettront de cibler des candidats aux
traitements et d’anticiper, dès les phases de démarrage de la recherche, les réponses de différentes typologies de
patients.
Cesdonnéespermettrontégalementd’affinerlestypologiesdepathologies,àl’imagedestypesdediabètesou
de cancers du sein, pour orienter les patients vers les traitements les plus adaptées. L’augmentation du nombre
d’informations recueillies et la possibilité de réinjecter des résultats en temps réel dans la recherche, sont de nature
àréduireletempsnécessaireàlarechercheetàenaffinerlesrésultats.Unemeilleureconnaissancedespatients,
par l’analyse multidimensionnelle, permet en effet de les inclure dans les bons essais cliniques, avec les molécules
lesmieuxadaptéesàleurcas.
L’analyse prédictive, qui correspond à la compréhension des facteurs
influençant l’arrivée ou le développement d’une maladie, ou encore
son évolution pour un patient donné. Exemples : l’analyse des requêtes
Google pour détecter la présence de l’épidémie de grippe, ou encore la
géolocalisation des insectes vecteurs de maladies tropicales.
L’analyse prescriptive : La collecte d’informations en grand nombre
permettra en effet d’adapter les traitements à la réalité des patients et
d’affiner le protocole thérapeutique pour un patient donné.
Les algorithmes prédictifs issus du Big Data resteront bien évidemment des options supplémentaires données au
professionnel de santé. L’essentiel résidera toujours dans la relation entre le médecin et le patient. Pour autant, le
Big Data offre les clés d’une nouvelle médecine pour demain.
Pour schématiser, le big data trouve
deux niveaux d‘application
en santé
17 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Les types De financement existantsUnestartuppeutsolliciterdifférentstypesdefinancementsàchaqueétapedesoncycledevie.Àsacréation,elle
sollicitera des petits financements pour développer des technologies, des brevets, des prototypes. À cet effet, de
nombreux dispositifs sont disponibles en France. En phases de pré-amorçage et d’amorçage, elle peut faire appel
àdesbusinessangels.Puis,enphasededéveloppement,ellesetourneraversdesfondsd’investissement.Les
attentesetlesretoursdespremiersclientsfontgrandirl’entreprise,quimonteraengammepourrépondreàleurs
besoins.
#3 Les dispositifs de soutien & de financement
des projets Big Data
*TRL Technologie Readiness Level / FUI et pôles pour le Fonds Unique Interministériel et les pôles de compétitivité
Fiscalité Financementsnon collaboratifs
Financementseuropéens
reCh
erCh
e fo
ndam
ental
e
Financementsnationaux
reCh
erCh
e ap
pliqu
éedé
velop
peme
ntexp
érim
ental
Financements
TR
L*
9
8
7
6
5
4
3
2
1
CIMA
FUIPôles
BPIFrance
ADEME
EUREKA
ANR
HORIZON2020EUROSTARS2
LIFE+
FEDER
Agence de l’Eau
CEE
CII
JEI CIR
18 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Entermesdemarketing,l’entreprisechercheraégalementàmonterennotoriété.Pourcela,elledoitentrerdansle
jeu de la labellisation, en sollicitant notamment le label Jeune entreprise innovante (JEI).
L’entreprise peut également solliciter un Crédit d’Impôt recherche (CIR), afin de financer une partie de ses brevets,
ainsique le tempsde travailnécessaireà intégrerun tissudeR&D.Lesclientsde l’entrepriseontauxaussi la
possibilitédefinancer,parleCIR,unepartiedesprojetsqu’ilsontcommandéàl’Entreprise.Lesmécanismesde
financement,qu’ils’agisseduCIRouduCII,participentdoncàcréerunvéritablecerclevertueuxaubénéficedu
développement des startups.
En matière de financement, si les grands projets européens restent difficilement accessibles pour les PME, les fonds
FEDER(Fondseuropéendedéveloppementrégional)présententunintérêtcertainpourcréeretdévelopperdes
entreprisesinnovantes.Aujourd’hui,grâceàcesmécanismes,laFrenchTechestperformanteàl’échelleinternatio-
naleetadesatoutsàfairevaloir,notammentsurleBigData.
Les Dispositifs européens De financement Des projets Big Data
Le programme horizon 2020
il regroupe les finanCements de l’union européenne en matière de reCherChe et d’innovation. d’un montant de 80 milliards d’euros, il est struCturé en trois piliers :
1 2 3Excellence
scientifique
soutient la recherche académique
Défis sociétaux
finance de grands projets collaboratifs dans des domaines tels que la santé, l’agriculture et l’environnement.
Primauté industrielle
soutient le développement de
nouvelles technologies, dont le Big Data
19 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
S’agissantdesprojetsderecherche,laCommissioneuropéennefinancelesentreprisesàhauteurde100%pour
lescoûtsdepersonnelsetde25%pourlesfraisgénéraux.LaCommissionaparailleursmisenplaceundispositif
«actionsd’innovation»,quifinancelesphasesenavaldelarecherchefondamentaleàhauteurde70%pourles
fraisdepersonnels(100%pourlesstructuresàbutnonlucratif)etde25%pourlesfraisgénéraux.
En2014,lesfinancementsdelaCommissioneuropéennesurleBigDataontportésurdesprojetsrelatifsaucadre
contractueletlégal(projetFRAME),àlacréationderéseaux(projetUrbanDataScienceAcademy)etàlacréation
de plates-formes d’acteurs du Big Data (projet Big Data Europe). Quatre projets pilotes sur le Big Data ont par
ailleurs été financés, portant respectivement sur la finance, la santé, le secteur automobile et l’aquaculture.
En 2015, dans le cadre de Horizon 2020, la Commission financera des projets collaboratifs relatifs au
développement de technologies (architecture logicielle, algorithmes, structuration de données, visualisation) et
d’infrastructuresdestockagedesdonnées.Lesappelsàprojetsserontlancésenavril2015.
Dans le cadre d’un partenariat public-privé, la Commission européenne a récemment signé un Plan Big Data, dans
lequelelleinjectera500millionsd’eurosàpartirde2015.
instrument pme
Au niveau européen, les financements proposés par la précédente programmation ont essentiellement visé des
travaux de recherche fondamentale et appliquée. Les entreprises développant les prototypes devaient encore
franchirla«valléedelamort»avantd’accéderaumarché.Suiteàceconstat,laCommissioneuropéenneamisen
place le dispositif « actions d’innovation » pour financer la phase de mise sur le marché. Aujourd’hui, il existe donc
encorepeud’exemplesdeprojetslancéssurlemarchésuiteàcesfinancements.
un nouveau dispositif européen intitulé « instrument pme » vise à finanCer le projet d’une pme et non plus les projets Collaboratifs.
Le dispositif peut soutenir l’entreprise par étape, en fonction de la maturité du projet. Dans la première phase, celle
del’évaluationdelafaisabilité,l’entreprisepeutbénéficierd’unesubventionde50000euros.Danslaseconde
phase,quiconcerneledéveloppementduprototype,lasubventionpeutatteindre2millionsd’euros.Desappelsà
projetsontlancéstouslestroismois,etledispositifcourrajusqu’en2020.
instrument Pme est l’équivalent européen du Concours mondial d’innovation en France, ce dernier fléchant spécifiquement le Big Data parmi ses sept ambitions.
la première phase finance des études de faisabilité, des études de marché et des études de design ;
la seconde phase finance la conception des prototypes, à hauteur de 1 à 3 millions d’euros s’agissant du Concours mondial d’innovation ;
la troisième phase concerne la commercialisation, par un financement direct dans le Concours mondial d’innovation et par la mise à disposition de formations pour les lauréats dans instrument Pme.
Ces deux appels prévoient
trois phases
1
2
3
20 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
DanslapremièrephaseduConcoursmondiald’innovation,deuxvaguesd’appelsàprojetsontpermisdefinancer
cent entreprises, dont un grand nombre d’entreprises du Big Data.
La date limite de dépôt des dossiers pour la deuxième phase est fixée au 2 décembre. Il est prévu de retenir
une quarantaine de projets. Seul un petit nombre d’entreprises, les plus prometteuses, pourront bénéficier d’un
financement pour la phase 3.
S’agissantd’InstrumentPME,ladeuxièmevaguedel’appelàprojetsdelaphase1etlapremièrevaguedelaphase
2 sont encore ouvertes.
Ànoterqu’uneentreprisepeutpostulerseuleouencollaborationàInstrumentPME,etquecedernierneflèchepas
dethématiquespécifique.Pourpréparersacandidature,l’entreprisepeutparticiperàunatelierderelecturedes
dossiers organisé par Cap Digital.
Les Dispositifs français De financement puBLic
Le fonDs unique interministérieL (fui)
le fui finanCe des projets Collaboratifs de développement d’outils, à hauteur de 30 à 40 % selon la taille de l’entreprise. au niveau français, il existe également de nombreux autres dispositifs publiCs de finanCement.
Par ailleurs, laCommission Innovation2030, qui a fléché leBigData comme l’un des sept axes prioritaires, a
initiéunConcoursmondiald’innovation,visantàfavoriserledéveloppementd’entreprisesfrançaisesinnovantes.
Deuxappelsàprojetsontdéjàétépubliésen2014.
En matière de recherche fondamentale, l’Agence nationale de la recherche (ANR) finance de petits projets
collaboratifs académiques.
Enfin,unappelàprojetsBigData,associantCapDigital,Systematicetl’InstitutMinesTélécomaétéouverten2014.
L’enjeupourlesporteursdeprojetsestdes’orienterdanscepanoramadedispositifs.Ilconvientdegarderàl’esprit
queletauxdesuccèsmoyendesprojetsdéposésàl’échelleeuropéennenedépassepas15%.Pourêtreretenu,il
est nécessaire d’avoir un bon projet, un bon partenariat, une bonne proposition et un bon réseau.
fOCUS
21 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Le créDit impôt recherche (cir)
le Cir est un dispositif de finanCement indireCt qui permet aux entreprises de réCupérer 30 % de leurs Coûts éligibles investis en r&d, sous la forme d’un Crédit d’impôt.
Le Cir est un dispositif relativement complexe, en ce qu’il implique :• dedistinguercequirelèvedel’innovationetdelaR&Ddecequirelèvededispositifsclassiques;
• d’évaluerlescoûtséligibles;
• de respecter un certain formalisme dans les dossiers déposés.
Sur le premier aspect, l’évaluation se fonde sur les manuels de Frascati et les différentes instructions fiscales qui
définissent la recherche fondamentale, le développement expérimental ou encore la recherche appliquée. De
manière générale, un projet sera éligible au CIR s’il s’inscrit en rupture avec l’état des connaissances, en d’autres
termes, si les solutionsdéjàproposéesdans la littératureou sur lemarchénepermettentpasde répondre
aux besoins de l’entreprise. Dans le cas d’une réutilisation de techniques existantes, si le projet conduit à
desperformancestechniquesaméliorées,unemeilleureergonomieouàdesfonctionnalitéssupérieures,ilsera
éligible au Crédit d’impôt innovation (CII).
Prenons l’exemple d’un projet Big Data composé de deux parties : d’une part, le développement d’une nouvelle
plate-forme d’analyse prédictive en utilisant de nouveaux algorithmes pour la fouille de données, et d’autre part,
l’intégration des algorithmes dans un système de base de données Open Source. La première opération pourra
êtrefinancéeparleCIR,lasecondeseraplutôtéligibleauCII.
Une fois identifiées les activités éligibles au dispositif, il convient d’y affecter les coûts correspondants (frais
de personnels, de fonctionnement, d’investissement, de sous-traitance) et de retrancher les subventions de
recherche éventuellement reçues.
En termes de forme, il convient de documenter la rupture avec l’état de l’art et de collecter un ensemble
de pièces justificatives concernant les coûts affectés. Le dossier est ensuite examiné par les experts de
l’administration.
22 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets
Annexeintervention « état De L’art Du Big Data »• Qu’est-ce que le Big Data ? Quels sont les domaines concernés, les périmètres et les enjeux ?
parRajaChiky,Chercheuseetenseignanteàl’ISEP,DocteureenInformatiquedeTélécomParisTech
taBLe ronDe « Les cas D’usages : Banque, santé, cartographie »présidée par Bernard Normier, Vice-président APROGED en charge de la valorisation des contenus numériques
avec :
Omar Mehdi Roustoumi, Responsable du pôle « Quantitative Finance » MPG Partners
Marc Pansart, Directeur Open IT Innovation Lab SANOFI - Direction des Systèmes d’Information Sanofi
Guillaume Sylvestre, Consultant veille / e-réputation, Agence pour la Diffusion de l’Information Technologique (ADIT)
taBLe ronDe « Les Dispositifs majeurs De soutien et De financement »présidée par Gérard Peliks, Président de l’atelier sécurité de Forum ATENA
avec :
• L’innovation dans les secteurs banque, finance, assurances Jean-Luc Strauss, Practice Manager Altran, Secrétaire du Club Innovation Banque Finance Assurance
• Dispositifs de subvention pour le Big Data (national & européen) Michel Moulinet, Directeur marketing et expert en financements européens et transnationaux de l’innovation
Alma CG Grant Solutions
• Les projets Big Data peuvent-ils bénéficier du Cir ? Sébastien Beyssier, Consultant, expert Alma CG
• Les dispositifs de financement du Big Data
Stéphane Chauvin, Dirigeant de R2C system qui édite la solution MyDataBall
• Processus et apports d’une labellisation d’un projet r&D Big Data par un pôle de compétitivité
ChristelleAyache,ChargéedemissionprojetsR&DetresponsabledumarchéSanté/Bien-être-CapDigital
alma innovation et taxes @almacg_fr
12/14/16 rue Sarah Bernhardt92600Asnières-sur-Seine
Tél.:0141494100 Fax:0141494101
UNE PUBLICATION D’aLma COnsuLting grOuP SASaucapitalde70584912,72euros
RCSNanterreB414119735