Big data : vers une nouvelle science des risques ?

18
Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data et science des risques 1

description

Big data : vers une nouvelle science des risques ? . Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences. Organisation. Big data en bref Big data : mythe et réalité Exemple : la sa nté (u ne vision d’ignorant). Big data en bref. - PowerPoint PPT Presentation

Transcript of Big data : vers une nouvelle science des risques ?

Assurances

Big data : vers une nouvelle science des risques ?

Serge AbiteboulINRIA et ENS CachanConseil national du numrique et Acadmie des sciencesBig data et science des risques1OrganisationBig data en brefBig data : mythe et ralitExemple : la sant (une vision dignorant)

Big data et science des risques2Big data en brefBig data et science des risques3

Le Big DataLe big data ou La dataData ce nest pas pluriel ? En franais : Grosses donnesMoins glamour ?

Big data et science des risques4Crash course en Big DataLa socit moderne gnre des volumes de donnes infernauxDouble tous les 18 moisCes donnes ont une valeur considrable Sant, science, environnement, scurit, transport... Le Big data: croiser les donnes Trs structures et propres dune entreprise/organisationAvec la masse de donnes moins structures/plus sales du WebDes donnes personnelles (comme des emails)Des donnes de rseaux sociauxEt des flux de donnes (gnres par ex. par des senseurs)Valoriser ces donnesDcouvrir de nouvelles connaissances Offrir de nouveaux servicesBig data et science des risques5Crash course: tches principalesLanalyse de donnes Un vieux problmeTches principalesAcquisition : aller chercher les donnes, e.g., outils ETL Intgration : e.g., transformer dans un schma unique, aligner les donnesNettoyage: e.g., liminer les rplicas, rsoudre les contradictions, grer les donnes manquantesCrowd sourcing: interagir avec des humains pour obtenir des donnes, rsoudre les contradictionsInterrogation : requte, souscription, visualisationAnalyse statistique : frequent item setLanalyse de donnes ne rpond pas des problmes souvent complexesFouille : quelles sont les questions intressantes ?Utilisation : comment utiliser ces donnes ?Etc.

Big data et science des risques6DifficultsTaille des donnes: cest Big! Traoctets, plusHtrognit: structures, ontologies, multilinguismeVlocit: importance du temps, taux de changement/d'arriveEspace : localisationProtection des donnes: donnes prives, rglementationQualit: erreurs, incompltude, confiance, Et encore de la qualit: provenance, fraicheur...

Et la complexit : un algorithme en n3 sur un milliard denregistrements reste hors de porte mme avec mille machines

Big data et science des risques7Pour tuer quelques ides reuesLa grande mode est au paralllisme massif style HadoopSuper techno venue des moteurs de rechercheNe marche que sur les problmes trs paralllesTechnologie encore assez bas niveau (a samliore)videmment, a impressionne (de moins en moins)Cest funMais si votre data est Big et si vous recherchez lefficacit, interrogez vous :Vos donnes sont-elles vraiment Big ?Ne suffirait-il pas de gonfler votre machine en RAM/en SSD ?Peut-on rduire la dimension en chantillonnant ?Big data et science des risques8

Big data : mythe et ralitBig data et science des risques9Big data Le mythe On va rsoudre les problmes de lhumanitOn a plus en plus de donnes bientt toutes les donnesUn coup dalgo et on va rsoudre le cancer, la pauvret, etc.En analysant ces donnes, nous pouvons faire des prdications de plus en plus fines maisCela reste des statistiques Limites dues la complexit en la taille des donnesEt videmment une norme place au hasardOn va srement rsoudre des problmes MaisBig data et science des risques10Big data La ralitCe quon observe surtout pour linstants

Les socits utilisent des donnes privesPour des buts commerciaux principalement pub ciblesPlus il y a de donnes, plus ils gagnent dargentLes tats utilisent des donnes privesPour se protger du terrorismePour surveiller leurs citoyens (surtout dans certains pays)Plus il y a de donnes, plus ltat est puissant

Big data et science des risques11Et si on utilisait cette techno pour rsoudre de vrais problmesPrvoir et mieux y rpondre des crises sanitaires des problmes d'environnement des catastrophes naturelles Aider rsoudre les problmes deSant, transport, pauvret, Organiser un suivi personnalisDes personnes en difficultsDes personnes gesDes lves en difficultBig data et science des risques12

Exemple : la sant (une vision dignorant)Big data et science des risques13

Les soins personnalissToutes les donnes mdicales de la personneSon gnomeToutes ses donnes socialesSoins personnalissMesures prdictives

Les polices personnalisesPlus chres pour les personnes risquePersonnes trop risque non assures Mutualisation des risques de plus en plus limite Cest la mme science qui rend a possibleQuel monde souhaitons-nous?Big data et science des risques14Exemple : La santProblme : les donnes personnellesMes achats, ma golocalisation, mes courrielsMes donnes mdicales, fiscales, assurances Mes donnes dans les rseaux sociauxPeut-tre celles de mes amisMes donnes gnomiques23andMe: pour 99$ squencement de votre gnome et publication sur le WebEt ma vie prive ?

2 exemples de problmes rcents :Instagram et reventeFacebook et embauche

Big data et science des risques15Les donnes personnelles appartiennent la personneLes entreprises/tats nen sont que les dpositaires temporairesUne religion personnelle qui appartiennent mes donnes ?Big data et science des risques16Comment pouvoir faire quand mme des statistiques ?Lanonymisation des donnesEn garantissant lanonymat de chacun - compliquPar exemple, differential privacyLe propritaire des donnes a le droit de choisir ce quon fait de ses donnesCondition dutilisationDureResponsabilit lgales de ceux qui dtiennent ces donnes

Big data et science des risques17

Big data et science des risques18