Confidentialité des données michel béra

10
Michel BERA Professeur du Conservatoire national des arts et métiers Chaire de modélisation statistique du risque, département IMATH Mardi 9 juillet 2014 Université d’été de l’Institut des actuaires Confidentialité des données

description

Confidentialité des données michel béra

Transcript of Confidentialité des données michel béra

Page 1: Confidentialité des données   michel béra

Michel BERA Professeur du Conservatoire national des arts et métiers

Chaire de modélisation statistique du risque, département IMATH

Mardi 9 juillet 2014 Université d’été de l’Institut des actuaires

Confidentialité des données

Page 2: Confidentialité des données   michel béra
Page 3: Confidentialité des données   michel béra

Ce dont je ne parlerai pas (extraits)

•  La data science -> voir exposé suivant! •  Le juridique -> voir la conférence au Groupe Big Data de

Fabrice Naftalski (partner, E&Y) •  La CNIL : de nombreuses actions sur les données

personnelles sont parfaitement interdites, mais peu le savent (ex : arrêt pages jaunes, banque avec filiale assurantielle captive, données génétiques)

•  L’audit demandé à l’Institut des données de santé par le rapport Bras (2013) : Gouvernance et utilisation des données de santé

Page 4: Confidentialité des données   michel béra

Le « Snowden Point » (6 juin 2013)

•  C’est un « tipping point » (point de basculement sociologique)

•  Brutalement toute la « population » se rend compte que des données massives sont collectées et utilisées à des fins commerciales, voire mystérieuses (militaires, etc.)

•  Besoin de protection, de « confidentialité des données » : sorte d’approche Amish face aux données..

Page 5: Confidentialité des données   michel béra

Esther Dyson (USA)

•  Toute personne devrait être en mesure de « négocier » librement la mise à disposition par elle des données qui la concerne (PC Forum - 1995 ?)

•  C’était avant la « découverte » de la théorie des réseaux sociaux! (Barabasi, Linked)

•  Problème du « banc de poissons » •  Problème de la mutualisation •  Problème de la cohorte (permet la « preuve »)

Page 6: Confidentialité des données   michel béra

De quoi peut-on parler : de la protection des données personnelles (1)

•  Première question: que font les américains? •  rechercher des solutions « technologiques » (ici

data science) – cf Rapport Obama (mai14) •  construire (et breveter) des méthodes

scientifiques –  La k-anonymisation (Latanya Sweeney, Professor of

Government and Technology in Residence at Harvard University) – 2002

–  La K-indistinguability (micro-aggregation) : clusters -> Defays –  Le floutage (confidentialité différentielle) Cynthia Dwork

•  Mettre en place des standards mondiaux (ex : MIT Open PDS)

Page 7: Confidentialité des données   michel béra

De quoi peut-on parler : de la protection des données personnelles (2)

•  Seconde question: que font les français? •  chercher des solutions « technologiques » : ex :

La « bulle » du CASD : Antoine Frachot/GENES •  Construire des algorithmes de cryptage (FOIN :

Fonction d’occultation des informations nominatives) – Catherine Quantin

•  Les systèmes souverains d’hébergement de données et de puissance de calcul (ex : Cloudwatt, Thalès)

•  Définir et gérer des stratégies « open data »

Page 8: Confidentialité des données   michel béra

Un focus sur les données de santé US

•  Gros travail sur les notions de « statistical de-identification » (HIPAA – Health Insurance Portability and Accountability Act)

•  Papiers « terrifiants » réguliers en grand public: –  En génomique (ré-identification) –  En données de comportement (géolocalisation, 5

points pour identifier à 95% une personne, etc.) –  Attaques de ré-identification (Laura Sweeney again) –  etc.

Page 9: Confidentialité des données   michel béra

Conclusion •  Le modèle français peut faire école européenne a

minimis (CNIL et al.) •  Il est sot de se priver d’avancées extraordinaires pour le

bien-être des peuples par un excès de précautions/floutage/anonymisation (ex : sida)

•  Principe d’un ordre de travail sur les données, qui rend la main à l’homme en final : Data Driven -> Evidence Based -> commission d’experts statuant sur les recommandations de la machine, pour que l’homme reste au centre

•  Application à la confidentialité des données personnelles : le « data driven open data » (DDOD)

Page 10: Confidentialité des données   michel béra

Merci pour votre attention …