Cahier Big Data v5

Perspectives, cas d’usages & financements des projets

#BigData

Compte-rendu de la ConférenCe du 23 oCtobre 2014

2 _ Cahier #BigData - Perspectives, cas d’usages & financements des projets

Édito

Le 23 octobre 2014, s’est tenue à Paris la conférence « Big Data : perspectives, cas d’usages et financements de projets ». Cet événement a été organisé conjointement par l’Alliance BIG DATA, Le Forum Atena et l’Institut Supérieur d’électronique de Paris (ISEP) avec le soutien d’Alma Consulting Group.

Ce document est un compte-rendu de cet événement. Il synthétise globalement l’ensemble des interventions et débats.

Vous pouvez retrouver la liste des intervenants en annexe du document.

À la frontière entre technologie et management, le Big Data est l’innovation business

numéro 1 de par les promesses de croissances qui entourent l’exploitation des grands

volumes de données.

Initialement traité par les géants du web autours du paradigme des 4V au sein de projet de

R&D majeurs (Hadoop, Cassandra, Hbase, Big Table, etc.), ce domaine technologique

s’est structuré pour former un écosystème aux acteurs multiples : de nombreux

éditeurs, consultants spécialisés et fournisseurs IT se sont saisis des besoins des organisations

(grandes entreprises ou Start up) en termes de traitements et utilisation de leurs données

et proposent des solutions technologiques présentées comme « clés en main ».

Aujourd’hui, ce marché explose car les organisations, conscientes de la valeur que peuvent

avoir leurs données, se lancent dans des projets Big Data. Cependant, malgré la relative

maturité de ces technologies, il faut respecter certaines conditions de mise en œuvre :

• Déterminerlanatureetlepérimètredesdonnéesconcernées;

• Choisirlabonnetechnologie,lebonoutil;

• Spécifierlesbesoinsfonctionnelsenfonctionsdesmétiersadressés;

• Anticiperlesproblématiquesliéesàl’intégritédesdonnées.

préa

mbul

e


Chaque projet est différents de par la nature obligatoirement spécifique des données à

manipulées (Formats, qualité, etc.) et cela induits encore de nombreuses incertitudes (par

exemple concernant la visualisation ou l’assemblage de technologies hétérogènes) qui vont

au-delàdelasimplerecherchedel’outilleplusadaptéàsonbesoin.

Dès lors, on comprend que la réalisation d’un projet Big Data est un investissement. D’ailleurs,

l’étatFrançaisadéjàinvesti11,5millionsd’eurospour7projetssurleBigDataen2013.

Il existe deux modes de financement cumulatif pour cette typologie de projets de recherche :

• Financement direct via les programmes nationaux publics, les programmes européens

(H2020parexemple)etlesfinancementsnoncollaboratifs;

• Financement indirect via le dispositif du crédit impôt recherche (CIR).

L’accès aux différents programmes de financement direct est conditionné par le niveau de

maturité (mesuré via l’échelle des TRL) de la technologie faisant l’objet du projet.

Afind’aider lesprofessionnelsàoptimiser leurveille stratégiqueenmatièredefinancement

de projets de R&D, ALMA CG vient de lancer la première plateforme gratuite de recherche

d’appelsàprojetscollaboratifsR&Dnationauxeteuropéens.

Le financement indirect via le dispositif du Crédit Impôt Recherche (CIR et CII) est lui conditionné

par la levée d’incertitudes techniques. Face à une technologie présentant une maturité

relative et où des éditeurs proposent des solutions clés en mains, la frontière entre le

développement expérimental (CIR), l’innovation (CII) et le développement classique est très

ténue et nécessite une expertise dans ce domaine pour évaluer quel dispositif est le plus

adapté aux projets de R&D menés au sein de votre entreprise.

Ce guide a pour vocation d’aider les professionnels à trouver une solution de financement

pour leur projet Big Data.

Delphine CharpignyExperte scientifique & Technique

Alma CG

Thomas HornacConsultant / Expert BIG DATA

Alma CG

#1 Les opportunités & Les chaLLenges Du Big Data 5Qu’est-cequeleBigData? 5

Les facteurs clés d’émergence 6

Les opportunités offertes 6

L’évolution de la « business intelligence » 9

Lesdéfisàrelever 10

#2 Les appLications Du Big Data Dans La Banque, La cartographie & La santé 13Banque & Big data : les applications financières 13

Big Data, veille & réseaux sociaux : la cartographie des fraudes 14

BigData&Santé:lesapplicationsdansledomainemédical 15

#3 Les Dispositifs De soutien & De financement Des projets Big Data 17Lestypesdefinancementexistants 17

Les dispositifs européens de financement des projets Big Data 18

Lesdispositifsfrançaisdefinancementpublic 20

Sommaire


qu’est-ce que Le Big Data ?Le Big Data est aujourd’hui un « buzzword », que nous

entendons partout. Tous les jours un nouvel ouvrage

sortsurlesujet,àl’imagedu«BigDatapourlesnuls ».

Depuis le22août2014, leBigDataachangédenom

en France. En effet, le Journal Officiel de la République

Françaiseaannoncéqu’ilconvenaitàprésentdeparler

de « mégadonnées », que la Commission générale de

terminologie et néologie définit comme « des données structurées ou non, dont le très grand volume requiert des outils d’analyse adaptés ». La Commission précise

qu’il est également possible de parler de « données

massives», termequ’onpeutpréférerd’ailleursàcelui

de « mégadonnées » car il est lui-même antérieur au

« buzzword»BigData.

Au-delàdubuzz,leBigDatas’inscritdansunenouvelle

ère : notre monde est aujourd’hui régi par les données.

De plus en plus de gestes ou d’actions de notre quotidien

génèrent de la donnée, de l’utilisation d’un Pass Navigo

àl’envoid’unSMS.

#1 Les opportunités & challenges

du Big Data

En 60 secondes dans le monde

170 millions d’e-mails sont envoyés

770 000 requêtes sont réalisées sur Google

13 000 applications iPhone sont téléchargées


5 eB

Ces données sont d’une grande utilité pour de nombreuses applications et permettent par ailleurs de créer de

nouveaux services. Une entreprise a par exemple récemment proposé d’installer des capteurs sur des inhalateurs

contre l’asthme, afin de générer des données qui permettront de détecter la présence de facteurs allergisants en

différents lieux.

Les données du Big Data proviennent des utilisateurs, des capteurs, des appareils et de plus en plus, des objets du

quotidien. Cisco Systems parle ainsi d’un « Internet of everything ». D’après une étude du Massachussetts Institute of

Technology(MIT),en2020,lenombred’objetsconnectésdépasseramêmelenombred’ordinateurs,deSmartphones

et de tablettes connectés.

Le Big Data Peut être DéFini Par 4 termes en « V » :

• la Volumétrie,lesprojectionsfaisantétatde10zettabitsdedonnéesen2015;• la Variété des données,qu’ils’agissedetextes,dechiffres,devidéosoud’images;

• la Vélocité,quidésignelafréquenceàlaquellelesdonnéesparviennent,souventvariableetimprévisible;

• la Véracité, soit la confiance que l’on peut accorder aux données pour les intégrer dans les processus décisionnels.

•Walmart traite 1m de transactions par heure

•Google traite 24 Po de données par jour

•AT&T transfert 30 Po de données par jour

•90 trillion de courriers électroniques sont envoyés chaque année

•World of Warcraft utilise 1,3 Po de stockage

•Facebook,àl’époqueoùsabase d’utilisateursétaitde900M,avait25 Po de données compressées

•400 m tweets par jourenjuin2012•72 heures de vidéos sont

téléchargées vers le serveur de Youtube chaque minute

Volume de données créées

dans le mondeVariété

des donnéesVitesse

des données

2003

2012

2015

Web, e-mail, post Facebook, Tweets, blogs, photos, vidéos,

flux RSS, Wikipedia, données GPS, RFID, scanners POS

1YB=10^24Bytes1ZB=10^21Bytes1EB=10^18Bytes1PB=10^15Bytes1TB=10^12Bytes1GB=10^9Bytes

Eléménts Big Data

2,7 zB

10 zB (e)

L’objectif finalestd’extrairede laValeuràpartirde toutescesdonnées. L’informationdoitpermettredemieux

comprendre son propre business et de créer de nouveaux services.


Veracité (IBM) Incertitude des informations

Les facteurs cLés D’émergencePlusieurs facteurs expliquent l’émergence du Big Data :

• labaisseducoûtdustockage,quipermetdestockertoujoursplusdedonnées;

• ledéveloppementducloudcomputing,quiautoriseleschercheurs,lesindustrielsetlesentreprisesàstockerles

donnéesqu’ilssouhaitent,parexempleenlouantdesressourcessurlemodèledu«payasyougo»;

• larecherchedecompétitivitédanslesaffairesetdedifférenciationvis-à-visdesconcurrents;

• la multiplication des structures et des formats des données, en lien notamment avec l’Open Data*;

• l’évolutiondesmodesd’interaction,enparticulieràtraverslesréseauxsociaux.

*Le mouvement «Open Data» (ou «données ouvertes») est une démarche de publication de données numériques en ligne selon une série de dix critères garantissant leur libre accès et réutilisation par tous.

Ainsi, une donnée brute est dite ouverte si elle est publiée de manière : complète, primaire, opportune, accessible, exploitable, non-discriminatoire, non-propriétaire, libre de droits, permanente et gratuite.

Les opportunités offertesle big data a véritablement transformé nos vies et trouve des appliCations dans de multiples sphères, touChant à l’entreprise, au CommerCe ou enCore à la vie quotidienne.Enmatièredevente,ilpermetdeproposerdespromotionscibléesenfonctionduprofilduclient,desesintérêts

et de ses préférences. Les recommandations d’achat proposées par Amazon en sont un exemple. Dans le sport au

quotidien,lerecueildesdonnéesindividuellesàtraverslesSmartWatchetd’autresapplications,permetdesefixer

des objectifs et de suivre ses progrès. S’agissant du service aux consommateurs, le Big Data a permis d’évoluer d’un service réactif (« reactive customer service ») à un service proactif (« proactive customer service ») et ainsi, de fidéliser ses clients.

LeBigDatas’intègred’ailleursdansunenouvelleidéeducommerce,quicorrespondàuneconnaissance«à360

degrés » du client : qui est-il ? Pourquoi est-il client de mon entreprise ? Quels sont ses comportements d’achat ?

Comment préfère-t-il interagir avec l’entreprise ?

Les réponses à cesquestionspeuvent êtreobtenuespar le systèmed’information interneà l’entreprise,mais

égalementàtraversdesdonnéesextérieures,provenantnotammentdel’activitéduclientsurlesréseauxsociaux.

Uneenquêtemenéeen2013parSAPauprèsd’unpanelde300managersdansl’industrierévèlequelesprincipales

attentesdesprofessionnelsvis-à-visduBigDataportenteffectivementsurunemeilleureconnaissancedesclients

pourpermettreuneanalyseprédictivedeleurcomportement,àdesfinsdefidélisation.L’utilisationduBigDataa

parexemplepermisàl’opérateurT-Mobilederéduirede50%lenombrederésiliationsenuntrimestre.

Les autres opportunités offertes par le Big Data concernent :• l’e-réputation:leBigDataapermisàNestlédegagnerquatreplacesdansleclassementduReputationInstitute’sIndex;

• l’optimisationdesprocessus;

• la sécurité publique : aux Pays-Bas, l’analyse des tweets permet aujourd’hui de repérer et de prévenir les

mouvements de foules.



Sécurité PubliqueSuivi des réseaux sociaux, intégration des données spatiales et capteurs

Exemple : Serious Request 2012 > suivi des mouvements de foule via Twitter et capteurs, localisation de la force publique, intégration à l’aide de SIG

Une vision à 360° du clientIntégration des données des réseaux sociaux,

CRM, données transactionnelles, etc.

Exemple : T-mobile, opérateur telecom > Réduction de 50% dans les départs clients

en un trimestre

OptimisationAnalyse prédictive pour décerner les anomalies, optimisation des processes à l’aide de capteurs

et de données operationnelles

Exemple : Union Pacific Railroad> réduire les déraillements de trains, augmenter le transport par train, réduire les émissions CO2

E-réputationAnalyse des sentiments, suivi proactif des réseaux sociaux

Exemple : Nestlé, groupe agro-alimentaire > Gain de 4 places dans l’Index de la Reputation Institute grâce à une interaction 24 heures/24

L’évoLution De La « Business inteLLigence »Avant l’avènement du Big Data, les processus décisionnels étaient fondés sur des données statiques, stockées

dansdesbasesdedonnées.Lesdonnéesstatiquessontcollectéesàl’aided’unETL(Extract-Transform-Load)pour

alimenter des entrepôts de données (data warehouse). Un processus de fouille de données (datamining) permet

alors de réaliser du reporting pour les décideurs.

Pour mieux comprendre les données et les interconnecter, une étape de sémantisation des données a par la suite

été intégrée. En utilisant un ETL sémantique, les données sont placées dans un triple-store, décrivant les données

selonletriptyque«sujet,prédicat,objet».Letriple-storepermetderéaliserdesrequêtesflexiblespourextraireune

information nouvelle et proposer des analyses visuelles dynamiques.

À l’ère du Big Data, l’analyse combine des données statiques et du data stream. L’ETL sémantique est cette fois

utilisé en temps réel. Si le système n’est pas capable d’analyser toute la volumétrie des données reçues, il convient

d’effacercertainesdonnéesinutiles.Onparledeloadshedding.Lesrequêtessontcontinuesetseuleslesalertes,

c’est-à-direlesdonnéesquiintéressentledécideur,sontstockées.L’analysevisuelleestréaliséeentempsréel.

Données sémantiques (Big)Données sur le parcoursDonnées statiques


AnAlySE En tEmPS réEl

Enrichissement des connaissances

Traitementdefluxparoutil de constitution-extraction

sémantique

DéLESTAGE

questions continues/règLes commerciaLes

rAPPOrt StAtiqUE

Analyse de questions Ad-hoc

entrepôt De Données

Outil de constitution-extraction

Traitement par lots

Bases De Données

AnAlySE dE viSUElS

QuestionsflexiblesSPARQ

tripLestore

Outil de constitution-extraction

sémantique

Traitement par lots

Données structurées/ non structurées

Sortie

Interaction des utilisateurs

Stockage

Collecte d’informations

Sources de données

Données statiques

fLux De Données

capteurs

anaLyse De visueLs en temps réeL

Bases De Données/tripLestores

Ré

TR

O-A

CT

ION

Les Défis à reLeverdes défis sont à relever à Chaque étape de la Chaîne de traitement des données big data : ColleCte, stoCkage, analyse et visualisation.

Les Défis De La coLLecte Des Donnéesune première difficulté à lever tient à la variété des données. Il existe aujourd’hui

deux types de données : d’une part les données traditionnelles issues des bases de

production,etd’autrepart lesdonnéesnouvelles,qui sontelles-mêmesdeplusieurs

natures. Il peut s’agir de données Internet, de données sociales, multimédia, spatiales ou

encore de données issues de capteurs (machine to machine). L’étude réalisée par SAP

en2013soulignequelesentreprisesontaujourd’huiconsciencedel’intérêtd’incorporer

cesdonnéesnouvellesà leurprocessusdedécision.Lessolutionspréconiséespour

gérer l’hétérogénéité des données sont issues des technologies du Web sémantique.

une seconde difficulté tient à la vélocité des données. Lesfluxdedonnéesproviennenten continu de plusieurs applications, sans qu’il soit possible de contrôler l’ordre d’arrivée

desélémentsouleurtauxd’arrivée.Unfluxdedonnéesétantinfinipardéfinition,ilest

impossible de stocker l’ensemble des données qui parviennent. Pour autant, il convient

d’êtrecapablederéagirrapidementàl’arrivéedesfluxdedonnées.Lesoutilsdegestion

desfluxdedonnées(datastreammanagementsystems)permettentdenestockerque

les alertes. À la différence des systèmes de gestion des bases de données statiques

(data base management systems), les requêtes sont continues et les données sont

exploitées au fil de l’eau.

un troisième défi porte sur la provenance des données et sur leur qualité. Il convient

en effet que les informations qui décrivent la donnée soient suffisamment détaillées pour

faciliterleurexploitationetleurvalidation.Cetaspectrevêtuneimportanceparticulière

dans le cadre de l’Open Data.

Les Défis Du stockage Des DonnéesLes systèmes de gestion des bases de données relationnelles (notamment Oracle et

MySQL)nepermettentpasdestockerlevolumededonnéesàexploiteràl’èreduBig

Data. En effet, il est nécessaire pour cela de stocker les données sur des architectures

distribuées. Au vu de la multiplicité des requêtes, l’enjeu est d’éviter les jointures,

extrêmementcoûteuses.Pourrépondreauxattentesdesentreprises, lessolutionsde

stockagedoiventêtreflexiblesetcapablesd’absorber lespicsd’arrivéesdedonnées

(notion de « scalability »). Ces solutions doivent également répondre au besoin de

prédictibilité, de haute disponibilité et d’élasticité.

Pour autant, il ne s’agit pas d’abandonner les systèmes de gestion des bases de données

relationnelles. Si ces systèmes sont aujourd’hui insuffisants au regard du Big Data, ils

présentent des propriétés très intéressantes pour certaines applications. Le mouvement

«NoSQL»pour«notonlySQL»,crééen2009,s’inscritdanscetteperspective.


Les bases de données NoSQL sont régies par le théorème CAP (Consistency-Availability-Partition Tolerance, soit

Cohérence-Disponibilité-Tolérance à la partition), proposéparBrewer et Lynch.selon ce théorème, dans un système distribué, il n’est pas possible d’assurer à la fois la cohérence des données et la disponibilité du système en tout temps. En d’autres termes, pour assurer la cohérence des données sur un serveur, il convient

desuspendre ladisponibilitéde l’application le tempsdevérifierqu’ellescorrespondentà ladernièremiseà

jour réalisée sur l’autre serveur du système. Si l’objectif est en revanche la disponibilité en tout temps, on parle

« d’eventual consistency », soit une cohérence assurée après un certain délai, qui correspond au temps de

synchronisation des serveurs. Dans le domaine des transports, privilégier la disponibilité du service de réservation

conduiraparexempleàdessituationsdesurbooking.

IlexistedifférentstypesdebasesdedonnéesNoSQL : lesbasesorientées« clé-valeur », lesbasesorientées

colonnes, les bases orientées documents et les bases orientées graphes.

Les Défis De L’anaLyse Des DonnéesDanslecadreduBigData,lafouilledesdonnéesdoitêtreréaliséedemanièredistribuée.

Si la distribution des traitements existait avant l’avènement du Big Data, celui-ci implique

désormais de chercher la donnée sur une multitude de serveurs. Le paradigme de

programmationMapReducedeHadooppermetderépondreàcebesoin.

Les défis posés par le Big Data portent sur l’analyse en temps réel, sur l’équilibrage de

la charge (load balancing) entre les différents serveurs utilisés et sur l’effacement de

données(loadshedding),pourlequelilexistepeud’algorithmesàcejour.


C-A-P : choississez-en deux

COhérEnCEThéorème CAP (E. Brewer, N. Lynch 2000)

Affirmation : chaque système distribué se trouve sur un côté du triangle.

cptoujours Cohérent, même dans une partition, mais une réplique atteignable peut refuser le serviCe sans l’aCCord des autres

tOlérAnCE à lA PArtitiOnap

une réplique atteignable fournit le serviCe même dans une partition,

mais peut être inCohérente.

diSPOnibilité

cadisponible, et Cohérent,

sauf s’il y a une partition.

c

a p

Les Défis De La visuaLisationEn termes d’analyse visuelle (visual analytics), le défi concerne essentiellement

le reporting dynamique en temps réel, et en particulier le choix des graphiques à

proposer au décideur.

Les défis présentés ici ne sont pas exhaustifs, mais correspondant aux axes de travail

de l’équipe de recherche de l’ISEP. Il existe de nombreux outils techniques pour

relever les défis posés par le Big Data. Leur nombre augmente continuellement et

l’enjeuestd’identifierl’outiladaptéàchaquesituation.

concLusion et perspectivesDe nombreuses questions scientifiques restent ouvertes et nécessitent encore d’importants travaux de recherche

pour y répondre. Ces questions portent sur des sujets tels que :

• l’agrégationdedonnéesprovenantdeplusieurssources;

• lacompréhensiondesdonnées;

• l’interconnexiondesdonnées;

• l’évolutiondestechnologiessémantiquespourlesadapterauBigData;

• l’optimisationdesressources;

• l’améliorationdel’analysevisuellepourrendrelereportingdynamiqueetintelligent;

• la protection des données.



Banque & Big Data : Les appLications financières Depuis le début de l’ère informatique, on assiste à une augmentation des capacités de stockage et à une

diminution continue des temps de calcul. Ces deux faits, combinés avec la croissance exponentielle des

données disponibles, ont donné naissance à ce que l’on nomme aujourd’hui le Big Data, qui trouve des

applications dans tous les domaines. Dans la finance, une telle rupture est intervenue au début des années

90avecl’apparitiondesmarchéscotésélectroniques.

Aujourd’hui, les banques s’interrogent sur l’opportunité d’investir dans le Big Data, étant donné tout ce que celui-

ci implique en termes de réorganisation, de restructuration et de modification de la gouvernance. De manière

générale, une banque investira dans une nouvelle technologie si celle-ci lui permet d’améliorer sa performance ou

de mieux gérer les risques.

on peut distinguer trois aCtivités dans le domaine banCaire : l’aCtivité de détail, l’aCtivité d’investissement et la gestion des risques. le big data s’applique à ChaCune de Ces aCtivités.

Le Big Data et L’activité De DétaiLL’objectif d’une banque de détail est de répondre aux attentes de ses clients et d’en attirer de nouveaux.

Dès qu’une personne utilise une carte bleue ou consulte ses comptes sur internet, elle génère une donnée.

En résulte pour la banque une masse gigantesque d’informations qui, si elles sont bien traitées, lui permettent

d’améliorer sa connaissance de la clientèle et donc, de lui proposer des réponses personnalisées. Grâce à

l’information collectée dans le cadre du Big Data, la banque peut ainsi construire une stratégie marketing adaptée

àsesclientspotentiels.L’information collectée sur le comportement de ses clients lui permet également de détecter certaines anomalies et donc d’améliorer la lutte contre la fraude.

#2 Les applications du Big Data

dans la banque, la cartographie & la santé


Le Big Data et L’activité D’investissement Les besoins d’une banque d’investissement sont différents de ceux d’une banque de détail. Dans la finance de

marché, où l’objectif est d’augmenter le profit par des opérations d’achat et de vente, le Big Data trouve deux appli-

cations essentielles :

• En ce qui concerne le trading électronique tout d’abord, les ordres passés sur les différents marchés constituent

unesommegigantesquededonnées,dontletraitementpourraitdonnernaissanceàdenouvelles stratégies d’arbitrage ou d’exécution d’ordres. Cet aspect est actuellement étudié par les chercheurs.

• S’agissant du trading classique,leBigDatapermetdéjàd’obtenir des informations sur les contreparties des opérations,auparavantdifficilesàcollecter.Aujourd’hui,denombreusesstartupsoffrentdessolutionscléen

maind’analyse,encontinu,de toute l’informationdisponible.Cesservicessedéveloppentessentiellementà

SingapouretdansunemoindremesureàLondres.ÀParis,quelquesfondsd’investissementontcommencéà

investir dans de telles solutions.

Le Big Data et La gestion Des risquesDes techniques associées au Big Data, dans le cadre notamment de simulations et méthodes dites de Monte-Carlo,

optimisentlesmesuresderisques.LeBigDatapermetdoncàlaBanqued’améliorersagestiondesrisquesetde

minimiser ses pertes.

Big Data, veiLLe & réseaux sociaux : La cartographie Des frauDesL’avènement du Big Data bouleverse entièrement l’activité de veille. Celle-ci s’inscrit traditionnellement dans une

recherche d’exhaustivité de l’information sur le sujet en surveillance. Or, les volumes échangés sur les réseaux

sociaux sont aujourd’hui tels, qu’il devient impossible de traiter manuellement l’ensemble des informations portant

sur un sujet donné.

Dans un premier temps, des solutions professionnelles de veille ont été développées, permettant d’obtenir ce que

l’on appelle des « metrics ». Ces solutions fournissent un ensemble de données quantitatives et qualitatives sur le

sujet en surveillance, renseignant par exemple sur les liens les plus diffusés, les tweets les plus relayés, les profils

d’utilisateurs relayant l’information, les lieux géographiques dont elle provient et les langues utilisées. Néanmoins,

lorsque l’on compte plusieurs dizaines, voire centaines de milliers de tweets, il reste impossible de disposer d’une

vision globale du sujet traité.

Dans ce contexte, il est utile de s’appuyer sur des logiciels de cartographie de l’information. En utilisant des filtres

et des algorithmes de détection pour regrouper des comptes Twitter en fonction de leur proximité dans un réseau,

la cartographie fait apparaître de nouvelles informations, sans qu’il soit nécessaire d’analyser chaque tweet dans

le détail.

Plusieurs outils sont disponibles, dont certains gratuitement. L’outil NodeXL permet par exemple d’extraire l’informa-

tionviasonproprecompteTwitter.L’extractionestnéanmoinslimitéeàquelquesmilliersdetweetsetilseranéces-

saire de passer par des solutions professionnelles pour récupérer l’ensemble des données. Une fois les données

récupérées, le logiciel Gephi, libre et gratuit, permet de cartographier les informations sur les relations d’abonnés,

demanièreextrêmementpertinente.Lelogiciel,développéen2008paruneentreprisefrançaise,constituelaréfé-

rence en la matière.


En cartographiant les relations de proximité entre les comptes sur le réseau, Gephi permet de réaliser des calculs

d’influenceetd’identifierlesfraudessurlesréseauxsociaux,c’est-à-direl’utilisationdefauxcomptespourpousser

une information. Les outils d’analyse traditionnels seuls ne permettent pas de détecter ces activités frauduleuses.

queLques exempLes De frauDesIl peut s’agir d’un client mécontent qui, pour interpeler l’entreprise et obtenir une réponse, fait retweeter son mes-

sage plusieurs centaines de fois par des robots.

D’autresexemples,plusdangereuxpourlesentreprisesciblées,concernentlesattaqueslancéesàl’encontrede

leur image, en particulier en période de crise, comme ce fut le cas pour un laboratoire pharmaceutique ciblé par

plusieurscentainesderobotsàl’époquedel’affaireduMédiator.

Plus récemment, la cartographie sur Gephi a permis de détecter une anomalie dans l’intense activité autour du

conflitopposantlejournal«LeParisien»àunebloggeusetenantlesiteInternet«TheParisienne».Plusde1000

messagesdesoutienà labloggeuseavaientétédiffusésparununiquecompte,etrediffuséspardescomptes

totalementàl’écartdesconversationsauseindelacommunauté.L’utilisationdelogicielsdeveilletraditionnelsa

par la suite permis de confirmer qu’il s’agissait effectivement de robots, révélant par exemple que la moitié de ces

comptes étaient localisés en Indonésie.

Une autre application intéressante de la cartographie est illustrée par l’exemple de l’analyse des tweets sur les

rumeurs de rachat d’Alstom par General Electrics. En utilisant Gephi, on a pu identifier une activité intense prove-

nant d’une communauté décalée par rapport au reste du réseau. Il ne s’agissait pas cette fois de robots, mais d’une

communauté qui échangeait, en portugais, sur une affaire de corruption au Brésil, sans lien avec le sujet en ques-

tion. En utilisant des logiciels de veille traditionnels, ces conversations seraient apparues noyées dans l’ensemble

du corpus de tweets concernant les rumeurs de rachat et Alstom n’aurait pas perçu l’importance d’intervenir éga-

lement sur cet aspect.

Big Data & santé : Les appLications Dans Le Domaine méDicaLLe monde de la santé s’intéresse énormément au Big Data et considère qu’il pourra, demain, révolutionner le

secteur. Les données de santé sont présentes en quantité considérable. Elles sont issues de la recherche, du

dossiermédical,despayeurspublicsouprivésetdupatient lui-mêmequi,deplusenplus,estvolontairepour

suivre ses paramètres. La multiplication des applications dites de « quantified self » (« mesure de soi ») est

égalementsusceptibledegénérerdesinformationsutilesàladétectiondenouveauxfacteursderisquesetainsi,

àl’améliorationdubien-êtreetdelasanté.

La quantité des données de santé progresse de façon exponentielle, à un rythme d’environ 40 % par an selon

les estimations. Ces données sont de natures diverses, qu’elles soient cliniques, textuelles ou technologiques.

L’imagerie médicale a connu une progression considérable dans les vingt dernières années et une nouvelle géné-

ration de données issues de la recherche sur le génome apporte de nombreux renseignements sur notre com-

plexité biologique.

Par ailleurs, les coûts d’acquisition des données et la vitesse d’obtention de résultats ont été significativement

réduits grâce au cloud computing.

Ces données présentent une valeur potentiellement immense, offrant la possibilité d’affiner les recherches de

nouvelles molécules et de mieux personnaliser le traitement en fonction du patient.


Les applications du Big Data en matière de santé sont multiples, touchant tant la recherche que la médecine pra-

tique. Elles recouvrent la détection des facteurs de risques, l’épidémiologie, l’aide au diagnostic, le choix du traite-

ment et son suivi, ainsi que l’étude de l’efficacité et de l’adhérence au traitement.

Les progrès réalisés en matière de recherche pharmaceutique ces trente dernières années sont basés sur les

étudescliniques.Néanmoins,leprocessusd’innovationfondésurlesessaiscliniquesestextrêmementlong,coû-

teux et imparfait, le protocole expérimental étant structuré autour d’hypothèses et de critères de sélection définis

a priori.

LeBigData,enparticulierà travers lemonitoringdes traitementsen tempsréel,estporteurd’un réelespoirà

court terme, notamment en ce qui concerne les pathologies chroniques et la cancérologie. Il permettra de mieux

choisirlestraitementsetdemieuxlesadapteràlacomplexitédechaquepatient.Encroisantlesdonnéesd’expé-

rimentation et les informations spécifiques issues du Big Data en matière de bio-marqueurs et de génomique par

exemple, il sera possible de détecter des similarités et des cohérences qui permettront de cibler des candidats aux

traitements et d’anticiper, dès les phases de démarrage de la recherche, les réponses de différentes typologies de

patients.

Cesdonnéespermettrontégalementd’affinerlestypologiesdepathologies,àl’imagedestypesdediabètesou

de cancers du sein, pour orienter les patients vers les traitements les plus adaptées. L’augmentation du nombre

d’informations recueillies et la possibilité de réinjecter des résultats en temps réel dans la recherche, sont de nature

àréduireletempsnécessaireàlarechercheetàenaffinerlesrésultats.Unemeilleureconnaissancedespatients,

par l’analyse multidimensionnelle, permet en effet de les inclure dans les bons essais cliniques, avec les molécules

lesmieuxadaptéesàleurcas.

L’analyse prédictive, qui correspond à la compréhension des facteurs

influençant l’arrivée ou le développement d’une maladie, ou encore

son évolution pour un patient donné. Exemples : l’analyse des requêtes

Google pour détecter la présence de l’épidémie de grippe, ou encore la

géolocalisation des insectes vecteurs de maladies tropicales.

L’analyse prescriptive : La collecte d’informations en grand nombre

permettra en effet d’adapter les traitements à la réalité des patients et

d’affiner le protocole thérapeutique pour un patient donné.

Les algorithmes prédictifs issus du Big Data resteront bien évidemment des options supplémentaires données au

professionnel de santé. L’essentiel résidera toujours dans la relation entre le médecin et le patient. Pour autant, le

Big Data offre les clés d’une nouvelle médecine pour demain.

Pour schématiser, le big data trouve

deux niveaux d‘application

en santé


Les types De financement existantsUnestartuppeutsolliciterdifférentstypesdefinancementsàchaqueétapedesoncycledevie.Àsacréation,elle

sollicitera des petits financements pour développer des technologies, des brevets, des prototypes. À cet effet, de

nombreux dispositifs sont disponibles en France. En phases de pré-amorçage et d’amorçage, elle peut faire appel

àdesbusinessangels.Puis,enphasededéveloppement,ellesetourneraversdesfondsd’investissement.Les

attentesetlesretoursdespremiersclientsfontgrandirl’entreprise,quimonteraengammepourrépondreàleurs

besoins.

#3 Les dispositifs de soutien & de financement

des projets Big Data

*TRL Technologie Readiness Level / FUI et pôles pour le Fonds Unique Interministériel et les pôles de compétitivité

Fiscalité Financementsnon collaboratifs

Financementseuropéens

reCh

erCh

e fo

ndam

ental

e

Financementsnationaux

reCh

erCh

e ap

pliqu

éedé

velop

peme

ntexp

érim

ental

Financements

TR

L*

9

8

7

6

5

4

3

2

1

CIMA

FUIPôles

BPIFrance

ADEME

EUREKA

ANR

HORIZON2020EUROSTARS2

LIFE+

FEDER

Agence de l’Eau

CEE

CII

JEI CIR


Entermesdemarketing,l’entreprisechercheraégalementàmonterennotoriété.Pourcela,elledoitentrerdansle

jeu de la labellisation, en sollicitant notamment le label Jeune entreprise innovante (JEI).

L’entreprise peut également solliciter un Crédit d’Impôt recherche (CIR), afin de financer une partie de ses brevets,

ainsique le tempsde travailnécessaireà intégrerun tissudeR&D.Lesclientsde l’entrepriseontauxaussi la

possibilitédefinancer,parleCIR,unepartiedesprojetsqu’ilsontcommandéàl’Entreprise.Lesmécanismesde

financement,qu’ils’agisseduCIRouduCII,participentdoncàcréerunvéritablecerclevertueuxaubénéficedu

développement des startups.

En matière de financement, si les grands projets européens restent difficilement accessibles pour les PME, les fonds

FEDER(Fondseuropéendedéveloppementrégional)présententunintérêtcertainpourcréeretdévelopperdes

entreprisesinnovantes.Aujourd’hui,grâceàcesmécanismes,laFrenchTechestperformanteàl’échelleinternatio-

naleetadesatoutsàfairevaloir,notammentsurleBigData.

Les Dispositifs européens De financement Des projets Big Data

Le programme horizon 2020

il regroupe les finanCements de l’union européenne en matière de reCherChe et d’innovation. d’un montant de 80 milliards d’euros, il est struCturé en trois piliers :

1 2 3Excellence

scientifique

soutient la recherche académique

Défis sociétaux

finance de grands projets collaboratifs dans des domaines tels que la santé, l’agriculture et l’environnement.

Primauté industrielle

soutient le développement de

nouvelles technologies, dont le Big Data


S’agissantdesprojetsderecherche,laCommissioneuropéennefinancelesentreprisesàhauteurde100%pour

lescoûtsdepersonnelsetde25%pourlesfraisgénéraux.LaCommissionaparailleursmisenplaceundispositif

«actionsd’innovation»,quifinancelesphasesenavaldelarecherchefondamentaleàhauteurde70%pourles

fraisdepersonnels(100%pourlesstructuresàbutnonlucratif)etde25%pourlesfraisgénéraux.

En2014,lesfinancementsdelaCommissioneuropéennesurleBigDataontportésurdesprojetsrelatifsaucadre

contractueletlégal(projetFRAME),àlacréationderéseaux(projetUrbanDataScienceAcademy)etàlacréation

de plates-formes d’acteurs du Big Data (projet Big Data Europe). Quatre projets pilotes sur le Big Data ont par

ailleurs été financés, portant respectivement sur la finance, la santé, le secteur automobile et l’aquaculture.

En 2015, dans le cadre de Horizon 2020, la Commission financera des projets collaboratifs relatifs au

développement de technologies (architecture logicielle, algorithmes, structuration de données, visualisation) et

d’infrastructuresdestockagedesdonnées.Lesappelsàprojetsserontlancésenavril2015.

Dans le cadre d’un partenariat public-privé, la Commission européenne a récemment signé un Plan Big Data, dans

lequelelleinjectera500millionsd’eurosàpartirde2015.

instrument pme

Au niveau européen, les financements proposés par la précédente programmation ont essentiellement visé des

travaux de recherche fondamentale et appliquée. Les entreprises développant les prototypes devaient encore

franchirla«valléedelamort»avantd’accéderaumarché.Suiteàceconstat,laCommissioneuropéenneamisen

place le dispositif « actions d’innovation » pour financer la phase de mise sur le marché. Aujourd’hui, il existe donc

encorepeud’exemplesdeprojetslancéssurlemarchésuiteàcesfinancements.

un nouveau dispositif européen intitulé « instrument pme » vise à finanCer le projet d’une pme et non plus les projets Collaboratifs.

Le dispositif peut soutenir l’entreprise par étape, en fonction de la maturité du projet. Dans la première phase, celle

del’évaluationdelafaisabilité,l’entreprisepeutbénéficierd’unesubventionde50000euros.Danslaseconde

phase,quiconcerneledéveloppementduprototype,lasubventionpeutatteindre2millionsd’euros.Desappelsà

projetsontlancéstouslestroismois,etledispositifcourrajusqu’en2020.

instrument Pme est l’équivalent européen du Concours mondial d’innovation en France, ce dernier fléchant spécifiquement le Big Data parmi ses sept ambitions.

la première phase finance des études de faisabilité, des études de marché et des études de design ;

la seconde phase finance la conception des prototypes, à hauteur de 1 à 3 millions d’euros s’agissant du Concours mondial d’innovation ;

la troisième phase concerne la commercialisation, par un financement direct dans le Concours mondial d’innovation et par la mise à disposition de formations pour les lauréats dans instrument Pme.

Ces deux appels prévoient

trois phases

1

2

3


DanslapremièrephaseduConcoursmondiald’innovation,deuxvaguesd’appelsàprojetsontpermisdefinancer

cent entreprises, dont un grand nombre d’entreprises du Big Data.

La date limite de dépôt des dossiers pour la deuxième phase est fixée au 2 décembre. Il est prévu de retenir

une quarantaine de projets. Seul un petit nombre d’entreprises, les plus prometteuses, pourront bénéficier d’un

financement pour la phase 3.

S’agissantd’InstrumentPME,ladeuxièmevaguedel’appelàprojetsdelaphase1etlapremièrevaguedelaphase

2 sont encore ouvertes.

Ànoterqu’uneentreprisepeutpostulerseuleouencollaborationàInstrumentPME,etquecedernierneflèchepas

dethématiquespécifique.Pourpréparersacandidature,l’entreprisepeutparticiperàunatelierderelecturedes

dossiers organisé par Cap Digital.

Les Dispositifs français De financement puBLic

Le fonDs unique interministérieL (fui)

le fui finanCe des projets Collaboratifs de développement d’outils, à hauteur de 30 à 40 % selon la taille de l’entreprise. au niveau français, il existe également de nombreux autres dispositifs publiCs de finanCement.

Par ailleurs, laCommission Innovation2030, qui a fléché leBigData comme l’un des sept axes prioritaires, a

initiéunConcoursmondiald’innovation,visantàfavoriserledéveloppementd’entreprisesfrançaisesinnovantes.

Deuxappelsàprojetsontdéjàétépubliésen2014.

En matière de recherche fondamentale, l’Agence nationale de la recherche (ANR) finance de petits projets

collaboratifs académiques.

Enfin,unappelàprojetsBigData,associantCapDigital,Systematicetl’InstitutMinesTélécomaétéouverten2014.

L’enjeupourlesporteursdeprojetsestdes’orienterdanscepanoramadedispositifs.Ilconvientdegarderàl’esprit

queletauxdesuccèsmoyendesprojetsdéposésàl’échelleeuropéennenedépassepas15%.Pourêtreretenu,il

est nécessaire d’avoir un bon projet, un bon partenariat, une bonne proposition et un bon réseau.

fOCUS


Le créDit impôt recherche (cir)

le Cir est un dispositif de finanCement indireCt qui permet aux entreprises de réCupérer 30 % de leurs Coûts éligibles investis en r&d, sous la forme d’un Crédit d’impôt.

Le Cir est un dispositif relativement complexe, en ce qu’il implique :• dedistinguercequirelèvedel’innovationetdelaR&Ddecequirelèvededispositifsclassiques;

• d’évaluerlescoûtséligibles;

• de respecter un certain formalisme dans les dossiers déposés.

Sur le premier aspect, l’évaluation se fonde sur les manuels de Frascati et les différentes instructions fiscales qui

définissent la recherche fondamentale, le développement expérimental ou encore la recherche appliquée. De

manière générale, un projet sera éligible au CIR s’il s’inscrit en rupture avec l’état des connaissances, en d’autres

termes, si les solutionsdéjàproposéesdans la littératureou sur lemarchénepermettentpasde répondre

aux besoins de l’entreprise. Dans le cas d’une réutilisation de techniques existantes, si le projet conduit à

desperformancestechniquesaméliorées,unemeilleureergonomieouàdesfonctionnalitéssupérieures,ilsera

éligible au Crédit d’impôt innovation (CII).

Prenons l’exemple d’un projet Big Data composé de deux parties : d’une part, le développement d’une nouvelle

plate-forme d’analyse prédictive en utilisant de nouveaux algorithmes pour la fouille de données, et d’autre part,

l’intégration des algorithmes dans un système de base de données Open Source. La première opération pourra

êtrefinancéeparleCIR,lasecondeseraplutôtéligibleauCII.

Une fois identifiées les activités éligibles au dispositif, il convient d’y affecter les coûts correspondants (frais

de personnels, de fonctionnement, d’investissement, de sous-traitance) et de retrancher les subventions de

recherche éventuellement reçues.

En termes de forme, il convient de documenter la rupture avec l’état de l’art et de collecter un ensemble

de pièces justificatives concernant les coûts affectés. Le dossier est ensuite examiné par les experts de

l’administration.


Annexeintervention « état De L’art Du Big Data »• Qu’est-ce que le Big Data ? Quels sont les domaines concernés, les périmètres et les enjeux ?

parRajaChiky,Chercheuseetenseignanteàl’ISEP,DocteureenInformatiquedeTélécomParisTech

taBLe ronDe « Les cas D’usages : Banque, santé, cartographie »présidée par Bernard Normier, Vice-président APROGED en charge de la valorisation des contenus numériques

avec :

Omar Mehdi Roustoumi, Responsable du pôle « Quantitative Finance » MPG Partners

Marc Pansart, Directeur Open IT Innovation Lab SANOFI - Direction des Systèmes d’Information Sanofi

Guillaume Sylvestre, Consultant veille / e-réputation, Agence pour la Diffusion de l’Information Technologique (ADIT)

taBLe ronDe « Les Dispositifs majeurs De soutien et De financement »présidée par Gérard Peliks, Président de l’atelier sécurité de Forum ATENA

avec :

• L’innovation dans les secteurs banque, finance, assurances Jean-Luc Strauss, Practice Manager Altran, Secrétaire du Club Innovation Banque Finance Assurance

• Dispositifs de subvention pour le Big Data (national & européen) Michel Moulinet, Directeur marketing et expert en financements européens et transnationaux de l’innovation

Alma CG Grant Solutions

• Les projets Big Data peuvent-ils bénéficier du Cir ? Sébastien Beyssier, Consultant, expert Alma CG

• Les dispositifs de financement du Big Data

Stéphane Chauvin, Dirigeant de R2C system qui édite la solution MyDataBall

• Processus et apports d’une labellisation d’un projet r&D Big Data par un pôle de compétitivité

ChristelleAyache,ChargéedemissionprojetsR&DetresponsabledumarchéSanté/Bien-être-CapDigital

[email protected]

alma innovation et taxes @almacg_fr

12/14/16 rue Sarah Bernhardt92600Asnières-sur-Seine

Tél.:0141494100 Fax:0141494101

UNE PUBLICATION D’aLma COnsuLting grOuP SASaucapitalde70584912,72euros

RCSNanterreB414119735

mailto:innovation-taxes%40almacg.com%0D?subject=

http://www.almacg.fr/

https://www.linkedin.com/company/alma-innovation-&-taxes

https://twitter.com/almacg_fr

Cahier Big Data v5

Documents

Transcript of Cahier Big Data v5