Confidentialité des données michel béra

Post on 05-Jun-2015

518 views 0 download

description

Confidentialité des données michel béra

Transcript of Confidentialité des données michel béra

Michel BERA Professeur du Conservatoire national des arts et métiers

Chaire de modélisation statistique du risque, département IMATH

Mardi 9 juillet 2014 Université d’été de l’Institut des actuaires

Confidentialité des données

Ce dont je ne parlerai pas (extraits)

•  La data science -> voir exposé suivant! •  Le juridique -> voir la conférence au Groupe Big Data de

Fabrice Naftalski (partner, E&Y) •  La CNIL : de nombreuses actions sur les données

personnelles sont parfaitement interdites, mais peu le savent (ex : arrêt pages jaunes, banque avec filiale assurantielle captive, données génétiques)

•  L’audit demandé à l’Institut des données de santé par le rapport Bras (2013) : Gouvernance et utilisation des données de santé

Le « Snowden Point » (6 juin 2013)

•  C’est un « tipping point » (point de basculement sociologique)

•  Brutalement toute la « population » se rend compte que des données massives sont collectées et utilisées à des fins commerciales, voire mystérieuses (militaires, etc.)

•  Besoin de protection, de « confidentialité des données » : sorte d’approche Amish face aux données..

Esther Dyson (USA)

•  Toute personne devrait être en mesure de « négocier » librement la mise à disposition par elle des données qui la concerne (PC Forum - 1995 ?)

•  C’était avant la « découverte » de la théorie des réseaux sociaux! (Barabasi, Linked)

•  Problème du « banc de poissons » •  Problème de la mutualisation •  Problème de la cohorte (permet la « preuve »)

De quoi peut-on parler : de la protection des données personnelles (1)

•  Première question: que font les américains? •  rechercher des solutions « technologiques » (ici

data science) – cf Rapport Obama (mai14) •  construire (et breveter) des méthodes

scientifiques –  La k-anonymisation (Latanya Sweeney, Professor of

Government and Technology in Residence at Harvard University) – 2002

–  La K-indistinguability (micro-aggregation) : clusters -> Defays –  Le floutage (confidentialité différentielle) Cynthia Dwork

•  Mettre en place des standards mondiaux (ex : MIT Open PDS)

De quoi peut-on parler : de la protection des données personnelles (2)

•  Seconde question: que font les français? •  chercher des solutions « technologiques » : ex :

La « bulle » du CASD : Antoine Frachot/GENES •  Construire des algorithmes de cryptage (FOIN :

Fonction d’occultation des informations nominatives) – Catherine Quantin

•  Les systèmes souverains d’hébergement de données et de puissance de calcul (ex : Cloudwatt, Thalès)

•  Définir et gérer des stratégies « open data »

Un focus sur les données de santé US

•  Gros travail sur les notions de « statistical de-identification » (HIPAA – Health Insurance Portability and Accountability Act)

•  Papiers « terrifiants » réguliers en grand public: –  En génomique (ré-identification) –  En données de comportement (géolocalisation, 5

points pour identifier à 95% une personne, etc.) –  Attaques de ré-identification (Laura Sweeney again) –  etc.

Conclusion •  Le modèle français peut faire école européenne a

minimis (CNIL et al.) •  Il est sot de se priver d’avancées extraordinaires pour le

bien-être des peuples par un excès de précautions/floutage/anonymisation (ex : sida)

•  Principe d’un ordre de travail sur les données, qui rend la main à l’homme en final : Data Driven -> Evidence Based -> commission d’experts statuant sur les recommandations de la machine, pour que l’homme reste au centre

•  Application à la confidentialité des données personnelles : le « data driven open data » (DDOD)

Merci pour votre attention …