Comment travailler sur des données sans y avoir...

22
Comment travailler sur des données sans y avoir accès? Thomas Baudel, IBM France Lab Séminaire CERNA ‘Anonymisa@on des données en recherche’ 3/7/19

Transcript of Comment travailler sur des données sans y avoir...

Page 1: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Comment travailler sur des données sans y avoir

accès? ThomasBaudel,IBMFranceLab

SéminaireCERNA‘Anonymisa@ondesdonnéesenrecherche’3/7/19

Page 2: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Sommaire Enjeuxdelaprotec@ondesdonnéesàIBM

•  100ansd’expérience•  donnéessensiblesavantd’êtrepersonnelles.•  ‘lesdonnéessontauclient’

Soclecommunpourlaprotec@ondesdonnées

•  Forma@ongénéraliséeetrépétée(inspirantlecoursEthics&STICs)

•  Auditindépendant•  Lignesdedéfenses

ConclusionEventaildetechniquespourtravailleréthiquementetlégalementsurdesdonnéessensibles(pasdecasd’usagedel’anonymisa@on)Accepterlescoûtsinduitsparuneges@onresponsabledesdonnées.

7histoiresvécuesd’u@lisa@onouaccèsàdesdonnéessensibles1.  Thèseéconomieindustriellesurladétec@onet

préven@ondelafraudeauxmutuelles:donnéesdesanté,résultatsconfiden@els.

2.  SmartDeliveries:projetderecherchesurdestournéesdelivraison,avecpublica@ons

3.  Testsdeperformancechezunprocesseurdetransac@onsbancairessansaccèsauxdonnées

4.  Miseàjourdelogicielenproduc@ongérantdesdonnéessensibles

5.  Prototypaged’unsystèmedeno@fica@ongéolocaliséeàdesfinsmarke@ng

6.  Visualisa@ondedossierspa@entspourunservicehospitalier.

7.  Requêtedesuppressiondedonnéespersonnellescross-entreprise

Page 3: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Enjeux de la protection des données pour une très grande entreprise de technologie informatique •  IBM,300000employésdanspresquetouslespaysdumonde,uneentreprisedeplusde100ans,fondéepourtraiterladonnéepersonnelleenmasse.

•  1890:tabulatricesHollerithpourtraiterlesdonnéesduUScensus.

•  ToutlesystèmedetransfertinterbancairereposesurdesmainframesIBMdepuis50ans.

1.  Sécuritédesdonnéesetdesprocess:uneprioritégénérale,non-spécifiquesauxdonnéespersonnelles.NoscadrescontractuelsusuelssontpluscontraignantsqueleRGPD.

2.  Pournousdis@nguerdelaconcurrence,leslogan‘vosdonnéessontàvous’estunpointd’accrocheimportantpourl’entreprise.Nouscomptonsdessuspournousdis@nguer.

3.  Nombreuxmé@ers:conseil,infogérance,développement,recherche…avecuneexposi@onaurisqueetdesexigencesvariées.

Page 4: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Un socle commun pour la protection des données (et la conformité en général) Forma@on•  Forma@onobligatoireannuelle(2heures)pourtoutlepersonnel,sousformedeMOOC.

->inspira*ondirectedelaforma*on‘Ethics&STICs’pourU.Paris-Saclay(aveclesupportdelqCERNA)•  +forma@onsorientées‘conformitéetéthique’spécialiséesparmé@er:commercial,consultant,développeur,technicien…aveccer@fica@ons.

•  +centre(s)deressources

Audit•  Organisa@ond’auditinterne‘Businesscontrols’,rakachéeàladirec@onmondiale

•  Responsabilitéau-delàdelaseuleprotec@ondesdonnées:processus,bâ@ments,contenudessystèmes…

•  Un‘comitéd’éthique’auxpouvoirsetbudgetconséquents.

•  Pra@quecourante(pluri-centenaire)desindustriesfortementréglementées.

hkps://www.ethics.org/

Enpréoccupa@onaddi@onnelle,mesuredel’efficacitéglobaledudisposi@f:Nombreetgravitédesanomaliesconstatéesouprojetées+

Pertesdeproduc@vitéentrainéesparlaforma@onetlesprocéduresdeconformité.

Page 5: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,
Page 6: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Autour du dispositif TheIns(tuteofInternalAuditors(IIA)ThreeLinesofDefenseModel:•  TheIIAissued

"TheThreeLinesofDefenseinEffec@veRiskManagementandControl"Posi@onPaperinJanuary2013.TheThreeLinesofDefensemodelprovidesasimpleandeffec@vewaytoenhancecommunica@onsonriskmanagementandcontrolbyclarifyingessen@alrolesandresponsibili@es.

•  ThefirstlineofdefenseistheOpera@onalLineownerwhoownsandmanagesriskonadaytodaybasis.

•  ThesecondlineofdefenseincludesRiskManagement,BusinessControlsandCompliancefunc@onsthatprovideframeworksandoversightacrosstheenterprisetomonitorandassistthefirstlineofdefenseineffec@vemanagementofknownandemergingrisks.

•  ThethirdlineofdefenseisInternalAuditthatprovidesindependentassurance.

(onleverraenapplica@ondanslesexemples)

Surlesdonnéeselles-mêmesetl’anonymisa(on:

L’accentestmissurlesusagespermisounonetlecontrôled’accèsplutôtquesurl’u@lisa@ondetransforma@onspourrendredesdonnéesouprocesssensiblesaccessiblesàd’autresusages.

Onsupposequ’iln’estpaspossiblededétournerunedonnéeouunprocesspourunusageautrequeceluipourlequelilestconçu:pra@quepourlaconformité,plusennuyeuxpourladécouverte‘parsérendipité’.

LeRGPDestaussiconçudanscetesprit:cen’estpastantl’existencedesdonnéesettraitementsquiestcri@que,maisbienl’usagequienestfait.

Page 7: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

7 histoires vécues d’utilisation ou accès à des données sensibles 1.  Thèseéconomieindustriellesurladétec@onetpréven@ondelafraude

auxmutuelles:donnéesdesanté,ré[email protected].  SmartDeliveries:projetderecherchesurdestournéesdelivraison,avec

publica@ons3.  Correc@fsdeperformancechezunprocesseurdetransac@onsbancaires,

sansaccèsauxdonnées4.  Miseàjourdelogicielenproduc@ongérantdesdonnéessensibles5.  Prototypaged’unsystèmedeno@fica@ongéolocaliséeàdesfins

marke@ng6.  Visualisa@ondedonnéespa@entspourunhôpital.7.  Requêtedesuppressiondedonnéespersonnellescross-entreprise

Page 8: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Thèse en économie industrielle: contexte

Contratdeservices+infogérancesurunnouveausystèmededétec@ondefraudeauxremboursementsmutuelles.

Analyselesdemandesderemboursement,établiunprofilage(parrègles)etremontedesdemandessuspectesàremonterpouraudit(ounon).Lecontrôleurdesdonnéesestlamutuelle.

Plus-valueducontrat:unethèsecoencadréeavecunlaboratoired’économieindustriellepouranalyserleretoursurinves@ssementdusystème.

Enlukecontrelafraude,lapréven@[email protected]éven@on,Dé[email protected]?C’estlebutdelathèse.

Page 9: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Nature des travaux •  A/Btes@ng:informer(oupas)lesprestatairessurl’emploidenouveauxou@lsdedétec@on,mesurerlechangementdescomportementsetleslevéesd’alertes.

•  Installerlenouveaudesystèmededétec@on,etmesurerlesretoursdusystèmeetsonimpactindépendammentdesmesuresprisesprécédemment.

• Modéliserpoures@merlanon-détec@onetlesfauxposi@fs.

⇒ accèscompletoupresqueauxdemandesderemboursement,quisontdesdonnéesmédicalesetfinancières.Lapseudonymisa@onn’estpasréaliste.

Page 10: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Centre d’accès sécurisé aux données

Lathèsedémarréefin2015serasoutenuefin2019.

Page 11: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Novel real time data gathering systems

(traffic and parking)

Mobility portal

Centralized data warehouse

3 axes of development

Develop high-value services, with self-sustaining business models

Optimizing traffic regulation Through 1h prediction

Real-time, multimodal, accessible travel planner

Optimizing freight and professional moves

Page 12: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Optimisation de tournées de livraison

Transporters,Maintenance

crew managers…City regulation

center

Drivers

Smart Deliveries

advance informationon planned mobilitydemand

Planned vehicletours

Known and forecasttrafic conditions

Optimized tour plansand trafic alerts

mission tracking

Web application

Mobile application

City Monitoring center(such as IBM IOC-IIT)

Global demand taken into account to spread trafic optimally

Original demand10:00 -> 120 trucks at Part-Dieu11:00 -> 160 trucks at Presqu’Ile

Optimized plans10:00 -> 60 trucks at Part-Dieu, 80 trucks at Presqu’Ile11:00 -> 80 trucks at Presqu’Ile 60 trucks at Part-Dieu

Page 13: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Optimisation de tournées de livraison

•  2012-2013:lestransporteurscommencentàgénéraliserlagéolocalisa@ondeleurscamions

•  3partenairesgrostransporteursacceptentdefournirdesdonnéesdetournéesréaliséespourop@misa@on,intéressésparlerésultatpoten@el.

•  Lesdonnéessontcekefois-cifourniesparlestransporteurs(contrôleurs)avecuncontratspécifique.

•  Lesdes@na@onssontdescommerces,lestournéessontnumérotées:àpriori,pasdedonnéespersonnelles,maisdonnéessensibles.

Page 14: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Pour la publication •  Lesdonnéesdelavillesontpubliques,avecunelicencespécifique(droitderegardsurlesusages):data.grandlyon.fr

•  Agréga(on,floutage,etcommunica(ondecertainescolonnesseulement(tempsdeparcours,sansoriginenides@na@on)àunchercheurdemandantcesdonnées.

Round categories 183

Rounds 1,715Routes ~65,000

Routes after full cleansing

31,444

Routes per round 18

Average round travel time

2h24

Average trip time 10 min

Stddev trip time 15 min

Actual Optimized Savings

distance: 63km 47km 25%time: 12630s 10744s 20%Arrives at 12h19 11h48 30min

Page 15: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Résoudre un bug sans accès aux données ni aux programmes. •  Undesplusgrandscentresdetraitementdetransac@onsparcarteaumonde:desmillionsdetransac@onsparjour,SLAmaximal.

•  Chaquetransac@onengendreledéclenchementderèglesdeconformité,développéeseninterneetconfiden@elles,pourdétecterdesirrégularitéspoten@elles.

•  Leclientseplaintdeproblèmesdeperformance,laR&Destimpliquée.•  Aucunaccès,niauxdonnées,niauxprogrammesn’estautorisé.•  Seuleunedescrip@ondusystèmeinstalléetdelavolumétriedesbasesderèglessontfournies,ainsiquelapossibilitédedemanderdessta@s@quessurlesprofilsd’éxécu@on.

Page 16: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Solution: •  Reproduc@ondelasolu@onmatériellecomplètedansundatacenterdetest

•  Créa@ondebasesderèglessynthé@ques•  Créa@ond’unsystèmed’alimenta@onendonnéessynthé@ques•  Tuningdesdonnéesetrèglessynthé@quesjusqu’àobtenirdesprofilsderéponsesimilaireauxprofilsderéponseconstatéschezleclient

•  Résolu@ondesproblèmes.•  Beaucoupplusdetravailquesidonnéesetprogrammesétaientaccessibles.

Lasynthèsededonnéesar(ficiellesàpar(rd’indicateursoudemodèles(réelsouimaginés)devraitêtreunchampderechercheplusac(f.Quelquesar(cles,maisbeaucoupdecasd’usage(tests,performance,démos…).

Page 17: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Maintenance logicielle ‘en nuage’ •  C.estdeliverymanagerpourunelignedeproduitsd’automa@sa@ondeladécision,fourniedansunserviceennuage.

•  Périodiquement,nécessitédemekreàjourlelogiciel(con@nuousdelivery)quiaccèdeàtouteslesdonnéesclientsetfournileservice.

•  Danscecas,lesmachinesducentrededonnéessontaccessiblespardoubleauthen@fica@on,avectraçageintégraldetouteslescommandesréaliséesparlemainteneur.

⇒ Pourchaquemachineàmekreàjour,ilfautunedouble-authen@fica@onpourlancerlescriptdemiseàjour:cequipourraitsefaireparunsimplescriptallantsurtouteslesmachinesréclamedesmanipula@onsfas@dieuses.

⇒ accepta@ondescoûtssupplémentairesaunomdelasécurité.

Page 18: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Geofencing pour applications marketing

• Quepeut-onoffrircommenouvellesapplica@onsdel’informa@quemobileavecdesfonc@onsdecaptureducontexte(posi@onetno@fica@onsdiverses)?

•  Travailexpérimentalmenéparuneéquipededéveloppeursavecunegrandeenseigne.Lebutdel’expérienceestdepermekredecréerdesno@fica@onsdutype:S’ilpleutetquel’u*lisateurestàproximitédumagasinXX,alorsproposerlemessage‘nousvousoffronsuncaféenaTendantlafindel’averse’

Page 19: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Geofencing II

Etudesdefaisabilitétechniquelocale(lesdéveloppeurscommesujetsdeleurexpérience)Réalisa@ond’uneconsolepermekantlikéralementdesupervisertouteslesno@fica@onsreçuesdetouslessujets.Etudeetdiscussionspourenvisageruneexpérimenta@oninvivo.

“…Justasthewaristooimportanttobele[tothegenerals,humanexperimenta*onistooimportanttobele[totheresearchersandlawyers.Ifanexperimentisgoodenoughforyourbestcustomer,it’sgoodenoughforyourbestfriend.”M.Schrage

Page 20: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Visualisation de dossiers patients Lesmédecinsontbesoind’accéderàdesvisualisa@[email protected]éesmédicales.

Cons@tu@ondedossiersar@ficiels,«àlamain»inspirésdecasréels,parunesecrétairemédicaleetuninterne.Cesonttouteslesdonnéesdetravailquenousavons.

Miseenplacedulogicielettestsdansl’enceintedel’hôpital,dansleserviceconcerné(donnéesnon-anonymes,sinonpasdetestabilitéparlesmédecins).

Page 21: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Conclusion I : et l’anonymisation dans tous cela? Lestechnologiesu@liséespoureffectuerdescalculssurdonnéessensibles:

•  Calculsansaccèsauxdonnées(CASD)•  Agréga@on/Floutagepourrendupublic•  Synthèsededonnéesar@ficielles(deplusieurstypes)•  Traçageintégraldesac@onsréalisées•  Êtresonproprecobayepourdesapplica@onsàcaractèresensible.•  Minimiserl’usaged’iden@fiantsexplicites/traçageintégraldesfluxdedonnéeslorsquedesiden@fiantsexplicitessontu@lisés.

•  Travailleràl’aveugleoupresque(avecforteslimites)

+forma@ongénéraliséeavecrappelsrégulierset3lignesdedéfensedeprotec@ondesdonnées.

Page 22: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,

Conclusion II •  Anonymisa@on–pseudonymisa@on:pasvraimentdecasd’usageflagrantdanslescasprésentés.L’anonymisa@onfaitcraindrelaperted’informa@onu@les,lapseudonymisa@onestunsimplegarde-fou,maistrèsinsuffisante.

•  Accepterlessurcoutsliésàlaprotec@ondesdonnées,entoutescirconstances.

•  Selonuneenquètedestackoverflow,enanalysededonnées:60%dutempspasséencollec@ondedonnéesetformatage,20%featuresengineeringetanalyse,20%[email protected]éessensibles,cenepeutêtrequeplus,soitdescoûtsde3à5foisletempsd’étudeproprementdit.

•  Unepistederecherche:synthèsededonnéesar@ficiellesÀbasedesta@s@quesexternes(modèlegraphiqueconstruitàlamain)Àbasededonnéessensibles(synthèsedemodèlegraphiqueetregénéra@on)Calculhomomorphique‘simplifié’