Séminaire « Open Data, quels enjeux pour la protection des ...
Transcript of Séminaire « Open Data, quels enjeux pour la protection des ...
1
Séminaire « Open Data, quels enjeux pour la protection des données personnelles ?», 9 juillet 2013
Compte rendu
Sommaire
Introduction ..................................................................................................................................................... 1
Rappel du cadre juridique de l’Open data .............................................................................................. 2
Table ronde n° 1 : Données publiques, données personnelles, données anonymes : où est la
frontière ? ................................................................................................................................................................... 4
Table ronde n° 2 : Données publiques, données personnelles : quelle gouvernance et quels
modèles économiques ? ......................................................................................................................................... 8
Atelier n° 1 : Comment anonymiser ? ..................................................................................................... 11
Atelier n° 2 : Quels droits des personnes dans l’Open Data ? ........................................................ 13
Atelier n° 3 : Comment faciliter l’accès des chercheurs aux données publiques ?................... 16
Atelier n° 4 : Open data et au-delà… ...................................................................................................... 20
Conclusion ...................................................................................................................................................... 23
Introduction
-Isabelle FALQUE-PIERROTIN, présidente de la CNIL ; -Henri VERDIER, directeur d’Etalab.
La Présidente de la CNIL, Isabelle FALQUE-PIERROTIN introduit la journée en soulignant
qu’il s’agit d’une étape dans le cadre d’une démarche générale de concertation avec les
acteurs de l’Open data, qui se veut la plus ouverte et constructive possible.
La CNIL, consciente des bénéfices démocratiques et économiques de l’Open data, y est
résolument favorable.
Si la CNIL s’intéresse au sujet alors que les données personnelles ne sont a priori pas les
premières concernées par l’Open data, c’est essentiellement parce que la frontière entre les
différentes catégories de données — personnelles ou publiques ; anonymes ou
indirectement identifiantes ; etc. — n’est pas toujours claire. Pour construire un Open data
légitime et durable, il est donc primordial de s’interroger au plan éthique sur la place des
données personnelles, de l’anonymisation, du consentement, etc.
2
La réutilisation des données personnelles mises à disposition dans le cadre de l’Open
Data pose la question de l’articulation des législations sur la protection des données
personnelles et sur la réutilisation des informations du secteur public : l’Open data contribue
à garantir le droit d’accès aux informations publiques et la liberté de réutilisation par tous
des données ouvertes … alors que la loi « Informatique et Libertés » s’appuie, elle, sur la
finalité d’un traitement de données pour apprécier la proportionnalité de ses
caractéristiques (nature des données traitées, durée de conservation, destinataires, …). En
réalité, cette question nous invite à repenser globalement la notion de gouvernance
publique des données. Le directeur d’Etalab1, Henri VERDIER, remercie la CNIL d’avoir
organisé ce séminaire et d’y avoir associé Etalab. Selon lui, il est nécessaire de sortir de
l’idée selon laquelle, à partir d’un certain niveau de transparence, on porterait
nécessairement atteinte à la vie privée. Transparence et vie privée ne se situent pas sur un
même axe, et ne sont pas en opposition.
L’Open data est un outil de modernisation de l’action publique et participe d’un objectif
d’intérêt général en démocratie : garantir l’opacité du citoyen et la transparence de l’État, là
où les États non démocratiques font l’inverse. Dans une démocratie aboutie, l’État doit
rendre des comptes et protéger le citoyen : l’Open data s’érige comme l’une des composantes
de cette transparence.
En réalité, la presque totalité des données gouvernementales qui sont ouvertes n’ont
aucun caractère personnel. L’État publie surtout des cartes, des chiffres bruts et des
indicateurs généraux.
Cependant, nous entrons dans une période de « révolution de la donnée ». La « mise en
données du monde 2 » qui en résulte doit nous conduire à redéfinir nos manières d’agir, à
créer des infrastructures cognitives d’un nouveau genre. C’est tout l’intérêt de réflexions,
comme celles de cette journée, permettant de clarifier les enjeux réels de la question de
l’Open Data et des données personnelles.
Rappel du cadre juridique de l’Open data
-Serge DAËL, président de la CADA ;
La loi n°78-753 du 17 juillet 1978 modifiée (dite loi CADA) constitue, dans sa version
actuelle, le fondement du droit d’accès individuel aux documents administratifs (cf. art. 2 et
6 de la loi « Cada » — après occultation des données de vie privée), de l’obligation ou de la
possibilité de publier des actes administratifs, de diffuser d’autres documents administratifs
(opérations soumises à la fois aux lois CNIL et CADA en présence de données
personnelles), ainsi que du droit de réutilisation des informations publiques à d’autres fins
que la mission de service public qui a justifié leur collecte. 1 La mission Etalab est un service du Premier ministre chargé de l'ouverture des données publiques de l’Etat. Au
sein du Secrétariat général pour la modernisation de l’action publique (SGMAP), Etalab coordonne l’action des
services étatiques pour faciliter la réutilisation la plus large possible de leurs informations publiques. Etalab
administre le portail unique interministériel « data.gouv.fr » destiné à rassembler et à mettre à disposition
l’ensemble des informations publiques de l’Etat, de ses établissements publics et, si elles le souhaitent, des
collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service
public. 2 Selon la formule utilisée par Le Monde Diplomatique dans un titre du numéro de juillet 2013.
3
La réutilisation d’informations publiques s’inscrit dans de ce que l’on appelle
aujourd’hui l’Open Data (l’ouverture des données), dont l’objet est l’accès libre et gratuit aux
informations du secteur public en vue :
De contribuer à des activités privées — des développements réalisés par des
opérateurs économiques ;
de permettre la transparence du débat public.
Parmi les autres textes qui régissent d’une manière ou d’une autre l’Open data, peuvent
être cités :
- la directive 2003/98/CE du 17 novembre 2003 concernant la réutilisation des
informations du secteur public (qui vient d’être modifiée par la directive 2013/37/CE
du 26 juin 2013 dont les dispositions devront être transposées avant le 18 juillet
2015) ;
- la directive 95/46/CE du 24 octobre 1995 sur le traitement des données à caractère
personnel ;
- la loi no 78-17 du 6 janvier 1978 modifiée dite « Informatique et Libertés » ;
- le décret du 21 février 2011 créant la mission Etalab ;
- la circulaire du 26 mai 2011 relative à la création du portail interministériel des
données publiques ;
- et le Code pénal, en particulier le chapitre VI du titre II du livre II.
La notion de « données publiques » est une notion propre à l’économie numérique et à
une philosophie de la gouvernance issue de l’Open data. Cette notion n’existe pas en droit
positif, qui ne connaît que les notions de « données à caractère personnel » et « informations
publiques » (contenues dans un document dont la communication constitue un droit).
Les textes relatifs à la mission Etalab comportent d’une part, des dispositions
impératives à propos des informations publiques de l’État et de ses établissements publics
(sauf en matière d’enseignement, de recherche et de culture), d’autre part, des dispositions
incitatives sur les informations publiques des collectivités territoriales et des autres
personnes de droit public.
La législation sur la réutilisation des informations publiques crée plusieurs obligations à
la charge des administrations :
La signature d’une licence n’est pas obligatoire, sauf en cas de paiement d’une
redevance. Elle n’en est pas moins très souhaitable ne serait-ce que pour assurer
l’information du réutilisateur.
En principe, aucune exclusivité ne doit être accordée, à moins qu’elle ne soit
nécessaire à l’exercice d’une mission de service public.
La gratuité n’est pas exigée par la loi, même si celle-ci la permet. En ce qui concerne
les catégories d’informations de l’État et de ses établissements publics administratifs,
une redevance peut être calculée conformément aux dispositions de l’article 15 de la
loi du 17 juillet 1978, sous réserve d’en justifier l’existence et de l’inscrire sur une liste
fixée par décret (pour les redevances instituées avant le 1er juillet 2011, la liste a été
publiée).
Certaines données personnelles (par exemple concernant des agents publics) directement
identifiantes font l’objet de publicité légale (exemple des arrêtés de nomination, les
4
promotions, distinctions honorifiques, etc.) et de ce fait ne bénéficient pas du même niveau
de protection en ce qui concerne l’accès et la publication.
Aux termes de l’article 13 de la loi CADA, les informations publiques comportant des
données personnelles peuvent être réutilisées, soit si la personne concernée y a consenti,
soit si elles ont été rendues anonymes ou, à défaut, si une disposition législative ou
réglementaire le permet. La question de l'anonymisation des données mêle des enjeux
économiques et de libertés publiques. Plusieurs questions se posent :
- Jusqu’à quand faut-il parler d’identification indirecte ?
- Qui doit anonymiser les données ? A la lecture des dispositions de la loi
« Cada », l’opération ne devrait pas être assurée par le réutilisateur, mais par
l’administration détentrice des données ou ses sous-traitants.
- Qui doit assumer la charge financière des opérations d’anonymisation ?
- Comment procéder à l’anonymisation ? Cette question est délicate car il ne
s’agit pas seulement de rayer les nom et prénom.
- Quelle est l’efficacité réelle des mesures d'anonymisation adoptées ? À cet
égard, seule l’anonymisation manuelle, « artisanale », au cas par cas, semble
aujourd’hui opérationnelle, faute d’outils techniques performants.
- Qui est habilité à procéder au recueil préalable du consentement de la personne
concernée en cas de réutilisation de données non anonymisées ?
Il ne faut pas se faire d’illusion : l’anonymisation des données ne résoudra pas la totalité
des problèmes d’identification : les données ainsi expurgées peuvent souvent redevenir
indirectement identifiantes, pour peu qu’on les rapproche d’autres sources d’informations.
♦♦♦
Table ronde n° 1 : Données publiques, données personnelles, données anonymes : où est la frontière ?
-Simon Chignard, consultant, conférencier et auteur de « L’Open data, comprendre l’ouverture des données publiques » ; -Michel Isnard, chef de l’unité des affaires juridiques et contentieuses à l’INSEE ; -Jérémie Valentin, chef de Projet Open data de la Ville de Montpellier ; -Claire Gallon, cofondatrice et administratrice de Liber’TIC.
L’objectif de la table ronde est d’abord de tenter de mieux cerner les contours des notions
clés de données personnelles et d’anonymat et de s’entendre sur le champ couvert par les
données personnelles incluses dans les informations publiques susceptibles de faire l’objet
de communication, de mise à disposition sur une plateforme Open Data et de réutilisation:
Quelles sont les données personnelles susceptibles d’être concernées par l’Open data ?
Qu’entend-on par données personnelles ? Par données anonymes ? Comment anonymiser
les données ?
Sophie VULLIET-TAVERNIER, directrice des études, de l’innovation et de la prospective
(DEIP) de la CNIL et animatrice de cette table ronde, rappelle en préambule, en quoi la
CNIL est concernée par l’Open Data : la notion de donnée à caractère personnel est
largement définie dans la directive de 1995 et dans la loi du 6 janvier 1978 modifiée (article
5
2); de plus, la CNIL applique cette définition en considérant la nature et le nombre des
données, l’importance de l’échantillon, les caractéristiques du traitement, etc. (cf. annexe 1 :
Présentation).
Elle donne ensuite la parole à Simon CHIGNARD , consultant et auteur de L’Open Data :
comprendre l’ouverture des données publiques, en lui demandant si, à son sens et au vu de son
expérience et des préoccupations quotidiennes des collectivités locales engagées dans
l’Open Data , la problématique des données personnelles constitue aujourd’hui un frein ou
est susceptible de constituer un frein à l’ouverture des données publiques ?
S’il n’existe pas de définition de ce qu’est une « donnée ouverte », la donnée personnelle
et la vie privée en tracent une frontière naturelle, qui n’en est pas moins floue. Pour illustrer
la problématique, Simon CHIGNARD cite l’exemple du fichier des prénoms donnés dans
l’année aux nouveau-nés d’une commune. Ce fichier, vendu par l’INSEE au niveau
national, est « ouvert » sur le portail Open Data de plusieurs municipalités. Cependant, sur
certains sites de collectivités locales, certains prénoms « rares » n’y figurent pas en-deçà
d’un seuil (5, 6 ou 10 occurrences minimales pour un prénom), lequel varie d’une commune
à l’autre sans raison apparente, et sans que l’on sache vraiment l’origine de cette règle
(certaines municipalités invoquant la CNIL). Cette pratique n’est pas sans conséquence :
selon Simon Chignard, de 40 % à 60 % des prénoms ne figurent pas dans ces fichiers, d’où
le manque de fiabilité et donc d’intérêt de ces bases de données, et ce alors même que les
risques d’atteinte à la vie privée résultant de la diffusion de ce type de données ne semblent
pas, en première approche, très élevés. L’intervenant s’appuie sur cet exemple pour mettre
en évidence l’attente de règles et de recommandations pratiques, notamment de la part de
la CNIL.
Simon CHIGNARD fait par ailleurs remarquer que, dans l’Open data, la valeur n’est pas
dans la donnée mais dans la réutilisation qui en sera faite. Or, Ces réutilisations sont
souvent impossibles à anticiper d’où la question du respect effectif du principe de finalité.
Il relève que le caractère personnel des informations publiques est souvent mis en avant
ou invoqué pour justifier le refus de les communiquer ou de les mettre à disposition en
Open Data, ce qui restreint la liberté de réutilisation. Aussi souhaite-t-il que le débat ne se
limite pas aux cas sensibles (archives, données de santé, décisions de justice, etc.) et qu’il
permette de déboucher sur des conseils pratiques à l’intention des administrations,
collectivités territoriales et réutilisateurs afin de leur permettre de déterminer en pleine
connaissance de cause si les bases de données dont la mise à disposition est envisagée
comportent ou non un risque réel de réidentification des personnes et d’impact sur leur vie
privée.
Michel ISNARD, chef de l’unité des affaires juridiques et contentieuses de l’INSEE,
rappelle le principe du secret statistique de l’article 6 de la loi n°51-711 du 7 juin 1951, avant
de présenter les trois modalités de diffusion d’informations auxquelles l’INSEE a recours
(cf. annexe 2 : Présentation) :
des données agrégées, diffusées sous forme de tableaux ;
des données individualisées mais anonymes, excluant tout élément permettant une
identification, même indirecte (cf. fichiers « Grand Public » et fichiers de Production et
de Recherche, destinés aux chercheurs) ;
des données individuelles « confidentielles » incluant des éléments permettant
l’identification directe ou indirecte des personnes concernées, qui ne peuvent être
diffusées que sous certaines conditions, notamment après examen du projet par le
6
comité du secret statistique (dont fait partie la CNIL). L’accès aux données de ce type,
réservé aux chercheurs, s’effectue à partir du Centre d’accès sécurisé distant (CASD)
géré par le Groupe des Écoles nationales d’économie et statistique (GENES).
L’INSEE peut refuser de transmettre les données s’il estime que celles-ci sont couvertes
par le secret statistique. La loi « Cada » ne vise certes pas expressément le secret statistique,
pour autant les notions de secret industriel et commercial, de secret fiscal et, de façon plus
générale, de respect dû à la vie privée reprennent les intérêts définissant le secret
statistique.
Michel ISNARD expose un cas pratique pour illustrer les difficultés de la diffusion des
données anonymisées de l’INSEE : les statistiques sur les revenus des habitants. Il évoque la
technique du « carroyage des données ») qui consiste à découper le territoire national en
carreaux de 200 mètres de côté et à localiser les données dans ces carreaux afin de donner
une certaine stabilité dans le temps à leurs modalités de diffusion et permettre de comparer
« l’évolution d’un même carreau ». Cette méthode est surtout utilisée pour les données
fiscales. L’idée de départ était de donner aux géographes une idée du capital géographique
(données sociodémographiques ou niveau de revenus de la population par carreau). Or, du
fait de l’inégale répartition de la population sur le territoire, un carreau sur deux est vide et
un bon nombre d’autres carreaux sont trop peu peuplés pour garantir l’anonymat des
données. Après recoupement avec un autre fichier, épousant par exemple les limites
administratives des communes, il devient possible d’identifier la situation de certaines
personnes. L’évolution des limites territoriales de certaines communes doit également être
prise en considération. Ce dispositif de carroyage n’étant actuellement plus satisfaisant, la
CNIL va être saisie de cette difficulté pour laquelle l’INSEE a envisagé plusieurs pistes de
solution.
Jérémie VALENTIN, chef de projet Open data pour la ville de Montpellier, souligne que
jusqu’à présent la question des données personnelles n’a pas constitué une préoccupation
majeure. En effet, sur plus d’une centaine de jeux de données disponibles, seule une dizaine
concerne peu ou prou des données personnelles.
Il n’a été confronté à cette question qu’à 3 reprises :
les données qui se rapportent à des agents de la collectivité ;
les quelques données qui concernent des citoyens, telles que les données des permis
de construire (numéros de dossiers, nom d’architecte, nom et prénom du
propriétaire), dont il conviendrait, selon lui, d’éviter qu’elles ne soient utilisées par
des promoteurs3 ;
3 [cf http://www.cada.fr/urbanisme,6227.html] la Cada a rappelé que « constituait un document communicable à
une entreprise la liste des permis de construire d’une commune [contenant des données personnelles : cote archives
du dossier, numéro de permis, nom et prénom du bénéficiaire, lieu de construction, mentions sur la nature de la
construction, année du permis] mais que sa réutilisation à des fins commerciales devait satisfaire aux exigences du
chapitre II de la loi du 17 juillet 1978 ainsi qu’aux dispositions de la loi du 6 janvier 1978 (20073182). Dans le cas d’un
registre des autorisations d’occupation des sols, qui contient des données à caractère personnel [numéro
d’enregistrement de la demande, dates de dépôt et date d’affichage de celle-ci, nature des travaux, nom et
adresse du demandeur, adresse du terrain, référence cadastrale et superficie, nature de la décision, numéro
d’affichage, dates de commencement et d’achèvement des travaux, conformité et éventuelles informations], elle a
rappelé qu’il appartient à l’administration de mettre en garde la société ayant sollicité la communication sur les obligations
qui lui incombent en vertu du chapitre II de la loi du 17 juillet 1978 et de la loi du 6 janvier 1978, notamment son article
36, qui subordonne la réalisation d’un traitement de données à caractère personnel à des fins commerciales à l’accord exprès
de la personne concernée ou à l’autorisation préalable de la CNIL » (20080010).
7
les données relatives aux membres d’associations, qui supposent le recueil préalable
du consentement des personnes concernées.
S’agissant des permis de construire, il est demandé si le fait qu’ils soient accessibles pour
une certaine finalité, affichés sur le terrain à titre de publicité légale ou communicables à
tout demandeur pour sa parfaite information, donne le droit d’en permettre la mise à
disposition pour une toute autre finalité.
Force est de reconnaître qu’aujourd’hui, les procédés d’anonymisation des fichiers
utilisés sont artisanaux : la suppression de certains champs se fait manuellement, au cas par
cas, au risque de laisser passer des données identifiantes (par exemple des metadonnées).
Un besoin de conseils pratiques se fait ressentir là aussi.
Une autre question se posera prochainement à propos de la publication des statistiques
annuelles sur les mariages : les informations publiées pourront-elles intégrer sans risque
des informations concernant le sexe des mariés ?
De manière générale, le CIL (Correspondant Informatique et Libertés) n’est actuellement
pas associé officiellement aux projets Open data ; ce qui n’interdit pas qu’il puisse être
ponctuellement consulté.
Jérémie VALENTIN propose que les personnes en charge de l’Open data puissent
bénéficier d’une journée de sensibilisation à la CNIL et puissent demander un audit par la
CNIL des catégories de données concernées.
Claire GALLON, cofondatrice et administratrice de l’association Liber’TIC, clôture cette
première table ronde. Liber’TIC se donne pour mission d’encourager la réutilisation des
données ouvertes mises à disposition sur les plateformes Open data. Il y a trois ans, aucune
donnée personnelle ne se trouvait parmi ces données. Aujourd’hui, quelques jeux de
données contiennent des données personnelles, notamment par recoupement avec des
données récupérées sur d’autres sources que les portails Open Data. Claire Gallon souligne
le fait que les réseaux sociaux disposent de données bien plus précises et riches que celles
mises à disposition sur les plateformes d’Open Data. Le principal frein au développement de
l’Open data vient en réalité des producteurs d’informations publiques et de recherche, qui
manquent de règles précises.
Elle insiste sur le fait que l’anonymisation entraîne toujours une perte d’informations.
Or, le manque de finesse des données est un frein à leur réutilisation. En conclusion, Claire
GALLON préconise une anonymisation en amont des données pour permettre leur
réutilisation « paisible et légale ».
Au cours des débats organisés avec la salle, il est précisé que :
un des principes voulus pas l’Open data est d’exclure toute déclaration / formalité
préalable d’usage (à l’exception justement des données personnelles dont la
réutilisation est soumise aux dispositions de la loi informatique et libertés) et toute
discrimination entre les réutilisateurs ;
toutes les informations du secteur public relèvent in fine de la propriété de l’Etat, quel
que soit leur détenteur ;
l’appréciation des mesures d’anonymisation à effectuer dépend aussi des données qui
sont accessibles par ailleurs, par le producteur de données ou toute autre personne
(article 2 de la loi IL) ;
le groupe européen des autorités de protection des données (dit le G 29) travaille
actuellement sur un avis, à paraître en fin d’année, relatif aux modalités
d’anonymisation ;
8
des statisticiens réfléchissent actuellement au niveau européen à de nouvelles
méthodes d’anonymisation sur la base de scénarios d’intrusion.
Gaëtan GORCE, sénateur et membre de la CNIL, déclare ne pas être hostile à l’Open data,
mais rappelle que le droit au secret est un des principes de la démocratie. C’est pourquoi il
estime que chaque collectivité devrait au préalable mesurer l’impact possible sur la vie
privée de la diffusion de toute nouvelle donnée publique susceptible, dans leur
réutilisation, de permettre une réidentification des personnes. Il souhaiterait également que
la responsabilité du réutilisateur puisse être engagée en cas de violation des règles
applicables.
Benjamin OOGHE-TABANOU, cofondateur du collectif Regards citoyens, demande, à
propos des données carroyées, s’il ne pourrait pas être envisagé qu’elles puissent être le cas
échéant agrégées là ou un risque de réidentification est constaté.
Michel ISNARD répond que l’INSEE réfléchit à une telle approche. Il ajoute cependant
que cette solution pourrait toutefois ôter tout intérêt à la base, la valeur ajoutée du
carroyage étant de fournir une donnée géographique sur un espace constant dans le temps.
Un agent de la CNIL rappelle que le projet de règlement européen, en son considérant 23
(comme le considérant 26 de la directive de 1995), indique qu’« il y a lieu d'appliquer les
principes de protection à toute information concernant une personne identifiée ou identifiable. Pour
déterminer si une personne est identifiable, il convient de considérer l'ensemble des moyens
susceptibles d'être raisonnablement mis en œuvre, soit par le responsable du traitement, soit par
une autre personne, pour identifier ladite personne. Il n'y a pas lieu d'appliquer les principes de
protection aux données qui ont été rendues suffisamment anonymes pour que la personne
concernée ne soit plus identifiable ». Le terme « raisonnablement » et la dernière phrase ne
figurent pas dans la loi « Informatique et Libertés » modifiée en 2004.
♦♦♦
Table ronde n° 2 : Données publiques, données personnelles : quelle gouvernance et quels modèles économiques ?
-Mohammed Adnene Trojette, auditeur à la Cour des Comptes ; -Thomas Saint- aubin, responsable du pôle de la stratégie à la Direction de l’Information Légale et Administrative ; -Benjamin Ooghe-Tabanou, cofondateur du collectif Regards citoyens ; -Charles Népote, chef de projet « Partage des données publiques » à la FING ; -Jean-Marc Lazard, directeur et cofondateur d’OpenDataSoft ; -François Bancilhon, directeur de Datapublica.
Romain LACOMBE, chargé d’innovation et de développement à Etalab, anime la table
ronde.
Il précise en préambule que la table ronde a pour objet de réfléchir sur le cadre juridique de
la réutilisation des données, la responsabilité des réutilisateurs, les outils susceptibles de
maîtriser les risques pour la vie privée (modalités d’accès aux données, contenu des
licences, etc.), ainsi que la portée du consentement à la réutilisation de ses données. Quel
cadre pour la réutilisation des données ? Quelle responsabilité pour les réutilisateurs ?
Quels outils pour maîtriser l’impact « vie privée » (modalités pratiques pour accéder aux
9
données, contenu des licences, …) ? Le consentement à la réutilisation de ses données : vraie
ou fausse garantie ? Comment le recueillir ? Quelle valorisation pour l’Etat, des données
qu’il détient ?
Mohammed Adnène TROJETTE, auditeur à la Cour des comptes, a été chargé par le
Premier ministre d'une mission sur l'ouverture des données publiques (Open Data) et les
redevances de réutilisation (le rapport devrait être rendu cet été 20134). Interrogé sur la
valorisation possible pour l’Etat des données publiques il souligne qu’actuellement il
n’existe pas vraiment d’étude disponible sur ce que peut rapporter le marché de l’Open
Data5. Il regrette l’absence d’informations synthétiques sur les données ouvertes, les cas
dans lesquels des redevances sont dues, ainsi que sur les conditions de réutilisation fixées
dans les licences. La mission qu’il effectue montre que l’instauration des redevances est
souvent motivée par des difficultés budgétaires des administrations et par les réticences de
celles-ci à diffuser leurs données. A cet égard, la protection des données aujourd’hui
constitue souvent un alibi pour ne pas fournir les données mais les progrès techniques en
matière d’anonymisation constituent une vraie opportunité économique pour promouvoir
l’ouverture des données.
Thomas SAINT-AUBIN, responsable du pôle stratégie à la Direction de l’Information
Légale et Administrative (DILA), intervenant en son nom personnel, évoque les différentes
catégories juridiques qui existent en matière de données, que ce soient les lois CADA et
CNIL ou celles en matière de droit d’auteur. Ces contextes différents montrent qu’il est
possible de challenger les logiques binaires « vie privée / transparence », en jouant sur la
granularité de l’ouverture et les licences. Dans ce cas, il faudrait inventer des systèmes de
licences différenciées sur les données personnelles qui permettent d’indiquer clairement ce
qu’on autorise et n’autorise pas en termes de réutilisation. Le système pourrait alors
s’inspirer de celui existant pour le droit d’auteur avec les licences Creative Commons : on
peut imaginer des politiques d’accès, de diffusion et de réutilisation de ses données
personnelles, avec des déclinaisons selon que ces données sont disponibles en stock
(permettant le téléchargement des données) ou en flux (permettant l’utilisation via une
API), et que ces données soient nominatives ou non, pseudonymisées, anonymisées…
Thomas SAINT-AUBIN imagine ainsi un système emboité de diverses catégories de
« Licences d’Informations Publiques »
Un tel référentiel de permissions et de contraintes serait une manière innovante de
penser la relation entre la personne et les données la concernant. Tout comme certains ont
ainsi imaginé des licences « copyleft » en opposition au « copyright » on pourrait imaginer
un concept de « privacyleft », permettant à la personne de revenir sur les permissions
accordées si le réutilisateur ne respecte pas les contraintes.
Pour conserver le modèle français de droit à la vie privée face à la vision anglo-saxonne
de la privacy, il faut en tout cas selon Thomas SAINT-AUBIN combiner nouveaux outils
juridiques et nouveaux outils techniques : l’usage d’une interface de programmation applicative
(API) par le ministère de la justice lors des alertes enlèvements permet ainsi, en conservant
la maîtrise des données diffusées, de garantir le droit à l’oubli.
4 Le rapport devrait être prochainement rendu public (http://simplification.modernisation.gouv.fr/mesure/publier-un-rapport-sur-le-modele-economique-des-redevances-dutilisation-des-donnees-publiques/?public=&thematique=ouverture-des-donnees)
10
Benjamin OOGHE-TABANOU, cofondateur du collectif Regards Citoyens, travaille depuis
4 ans sur la mise à disposition des données de la vie politique (cf. www.nosdéputés.fr et
www.nossénateurs.fr) afin de faciliter un contrôle et un dialogue citoyen. Il se dit à la fois
engagé dans le numérique et militant du respect de la vie privée. Malgré son attachement à
la CNIL, il reste perplexe face à ses récentes prises de position qui peuvent donner à penser
que la Commission s’érige « contre la transparence de la vie publique ». Il craint en effet que
le respect des données personnelles ne soit instrumentalisé par certains pour s’opposer à la
diffusion des informations publiques et faire obstacle à la transparence de la vie publique.
Il cite l’exemple de l’avis rendu dans le cadre des projets de décret dits « Sunshine Act6 »
par lequel la CNIL propose des mesures techniques restreignant l’indexation sur les
données personnelles, ce qui empêcherait tout traitement en masse des données et
interdirait de mettre au jour des liens existant entre groupes pharmaceutiques et médecins.
Les citoyens pourraient uniquement accéder aux données concernant un médecin
déterminé. Cette solution empêcherait ainsi la transparence recherchée pourtant
initialement par le législateur.
De par l'expérience de manipuler des données nominatives relatives à l'activité des
parlementaires, Regards Citoyens estime indispensable de bien distinguer les notions
d'informations privées et de données nominatives démocratiques non personnelles. Dans
les récents débats parlementaires relatifs à la transparence de la vie publique, l'association
s'est ainsi exprimée contre la publication des déclarations de patrimoine des élus et
décideurs publics par souci du respect de la vie privée. Elle estime en revanche que les
informations démocratiques nominatives telles que l'évolution de ces patrimoines ou les
liens d'intérêts déclarés ont vocation, dans une ambition de transparence, à être des
données publiques et réutilisables.
Est présentée la démarche entreprise par Regards Citoyens pour obtenir la liste des
personnes auditionnées par l’Assemblée nationale entre 2007 et 2010 à partir de
l’exploitation des listes de personnes auditionnées annexées à certains des rapports officiels
publics des députés. Les « citoyens » ont pu compléter ces listes en précisant les noms et
activités des personnes auditionnées (par une démarche collaborative d’enrichissement des
données dite « crowdsourcing »). L’objectif de cette étude de Regards Citoyens et
Transparency International France était de mesurer la place des groupes de pression parmi les
personnes auditionnées. Il regrette d’avoir eu des difficultés pour obtenir une réponse claire
de la CNIL sur la possibilité de mettre en ligne ces données. Trois courriers de la CNIL ont
été reçus par l'association : l'un demandant l'anonymisation (septembre 2010), l'autre
évoquant un problème d'interprétation de la loi CADA (février 2011) et un troisième rédigé
un an après la publication de l'étude7. Dans le doute, l’ensemble a été anonymisé, seule
l’identité des structures pour lesquelles les personnes auditionnées travaillent est accessible.
Benjamin OOGHE-TABANOU estime qu’au-delà de l’Open data qui, par définition, ne
concerne pas les données personnelles, il serait préférable que la CNIL consacre plutôt ses
6 Décret du 21 mai 2013 relatif à la transparence des avantages accordés par les entreprises produisant ou commercialisant des produits à finalités sanitaire et cosmétique destinés à l’Homme ; dans son avis sur le texte, la CNIL, afin de concilier l’objectif de transparence voulu par le législateur et la protection des données personnelles prévues par la loi du 6 janvier 1978 , a demandé que soient protégées du référencement par tout moteur de recherche externe les données identifiantes déposées sur le site internet. Cette position a été interprétée comme empêchant désormais de mener des études ciblées sur le réseau d’influence de tel ou tel laboratoire. 7 Cf. correspondances de la CNIL du 20 septembre 2010, de février 2011 et du 3 janvier 2012
11
séminaires sur le Big Data dont les impacts sur la vie privée sont en revanche avérés et plus
inquiétants jour après jour.
Charles NEPOTE, chef du projet « Partage des données publiques » à la FING, estime que
le développement de l’Open data ne doit pas être compris comme uniquement lié à des
opportunités économiques. Son objectif est plutôt la sérendipité8 et donc le « dé-contrôle »
en amont sur les réutilisations : il faut accepter d’être surpris par les usages qui seront faits
des données. C’est pour cela que l’Open data s’accommode si mal des notions de finalité
définie. Globalement, Charles Népote considère que nous assistons en fait à un mouvement
croissant d’« autonomisation » des données. À cet égard, il regrette l’absence des acteurs du
crowdsourcing. Il se dit également surpris que les acteurs publics ne parlent pas davantage
d’éthique des données et évoque l’exemple du conseil général de Saône et Loire qui a créé
un comité d’éthique sur les questions d’Open data.
Jean-Marc LAZARD, directeur et cofondateur d’OpenDataSoft, décrit le processus que
suivent les acteurs publics dans leur démarche d’Open data et le rôle que joue son entreprise
dans leur accompagnement. Selon les cas, les acteurs publics cherchent en effet des
solutions « clés en main » ou bien souhaitent développer eux-mêmes des solutions
techniques et des plateformes. Globalement, ces projets imposent aux acteurs publics de
mener une réflexion sur le patrimoine informationnel et sur la gouvernance des données.
Selon lui, un aspect positif de l'Open data ne doit pas être négligé : il pousse les acteurs
publics à s’interroger sur la qualité de la donnée dont ils disposent.
François BANCILHON, directeur de Datapublica, estime qu’il faut dépasser le rôle
d’épouvantail que certains font jouer à la CNIL. Le problème principal vient de ce que le
principe de finalité apparait contradictoire et, en tout état de cause, est fortement remis en
question, avec la mécanique de l’Open data. Cependant, il ne faut pas se focaliser sur ces
aspects difficiles. Avant toute chose, il reste de nombreuses informations publiques
dépourvues de donnée à caractère personnel et qui ne sont toujours pas accessibles (ex. la
carte scolaire). Pour autant, là où le problème existe, François Bancilhon estime que les
règles de protection des données doivent concerner les usages plutôt que les données.
♦♦♦
L’après-midi était organisé autour de 4 ateliers ayant lieu en parallèle. Les participants à la
journée étaient libres d’assister et de participer à n’importe lequel de ces ateliers, et ceux-ci
étaient entièrement dédiés à l’échange et au débat entre les participants, à partir d’une
animation générale par des agents de la CNIL et des experts invités. Les éléments de
compte-rendu sont essentiellement issus des notes prises par les animateurs et par les
participants eux-mêmes, sur un outil de prise de note collaboratif en ligne mis en place
pour l’occasion. Ils ne sont donc pas exhaustifs.
Atelier n° 1 : Comment anonymiser ?
Atelier animé par Gwendal Le Grand, chef du service de l’expertise informatique à la CNIL
8 Néologisme, signifiant “Fait de faire une découverte par hasard et par sagacité, souvent alors que l’on cherchait autre chose » http://fr.wiktionary.org/wiki/s%C3%A9rendipit%C3%A9
12
Gwendal LE GRAND présente la problématique de l’anonymisation : anonymiser, ce
n’est pas seulement supprimer toute mention des nom et prénoms : il faut aussi supprimer
tout lien, direct ou indirect, entre des données et une personne physique identifiée ou
susceptible de l’être. La CNIL n’impose pas de méthodes d’anonymisation particulières. Il
est parfois difficile de trouver la meilleure technique, celle qui tiendra compte de ce qu’il est
nécessaire de conserver. Quelques-unes de ces techniques, plus ou moins robustes, sont
présentées : la suppression, le masquage, la substitution etc. (cf. présentation en annexe).
Il y a plusieurs manières de réidentifier des personnes :
par croisement de données internes, en apparence non personnelles, qui étaient
jusque là séparées (la combinaison de deux données qui, séparément, semblaient être
anonymes peut devenir indirectement nominative) ;
par croisement de données non personnelles avec des sources externes de données
personnelles (le croisement d’un fichier anonymisé avec un autre qui ne l’est pas peut
lever l’anonymat des données du premier fichier).
Le pseudonymat peut rendre la réidentification plus difficile tout en permettant la
traçabilité. Il suffit pour cela d’avoir recours :
à une table de correspondance secrète ;
à un chiffrement réversible ;
à un procédé de hachage avec clé secrète, c’est-à-dire au remplacement des données
identifiantes par un nombre calculé grâce à une fonction irréversible. Cependant,
même s’il n’existe pas de fonction inverse, rien n’interdit de rejouer la fonction...
La pseudonymisation peut être faite plusieurs fois, avec plusieurs clés secrètes.
Quelques exemples d’anonymisation, basés sur des techniques plus ou moins robustes,
sont examinés :
- Le passe Navigo.
- AOL a proposé à des chercheurs des données censées être anonymes. L’adresse IP /
le cookie avait été remplacé(e) par un numéro. Mais les mots-clés portaient souvent
sur des proches, des centres d’intérêt et toute sorte d’informations qui, une fois
corrélées les unes avec les autres, redevenaient personnelles !
- Le double hachage du NIR avec l’algorithme FOIN.
Dans aucun de ces exemples, il n’y a d’anonymisation absolue. Tout dépend des
circonstances, des objectifs et des informations disponibles par ailleurs.
Le docteur Dominique BLUM propose deux « mauvais » exemples d’anonymisation
dans le domaine de la santé (cf. présentation en annexe) :
Un cas « d’appauvrissement enrichi » : des données de moyens séjours en milieu
hospitalier ont été diffusées. Il s’agissait d’un cas d’« Open data sans le savoir, avant
l’heure, dans des conditions risquées ». En effet, la procédure d’anonymisation n’était
pas efficace, dès lors que 90 % des dates de séjour étaient re-constituables.
Un cas de « ré-identification de notoriété », le fait que le même hachage soit
systématiquement utilisé pour tout patient séjournant à l’hôpital conduit à retrouver
facilement les patients qui ont été hospitalisés à plusieurs reprises.
Le docteur BLUM en conclut que les services de l’État devraient disposer d’une personne
chargée de réfléchir à ces questions, une sorte de « CIL Open data ». Il recommande que
seuls des extraits de base soient transmis, selon les usages envisagés, plutôt que la base
intégrale ; et que l’accès soit contrôlé.
13
Nicolas SOULIÉ, chercheur en économie à l’université de Paris-Sud, explique les
précautions prises pour pouvoir disposer d’une base de données anonymisées des plaintes
reçues à la CNIL et ce dans le cadre d’un travail de recherche financé par l’ANR
(programme ESPRI, présentation en annexe).
Nicolas de CORDES, chercheur à Orange Labs, présente un cas réel sur des données
téléphoniques de Côte d’Ivoire : après un premier « nettoyage » , une base de données a été
communiquée à un cercle restreint de partenaires qui ont proposé de supprimer certaines
catégories de données pour préserver l’anonymat (ex. : les données de communication des
zones très peu peuplées ; les données correspondant à la période d’un déplacement
important remarqué durant un laps de temps très court). À l’issue de la phase
d’anonymisation, la base a été communiquée à un cercle plus large, qui s’est engagé, sur
l’honneur, à ne pas faire un usage malveillant des données. Il serait certainement possible
d’améliorer au plan technique l’anonymisation des donnéesLes débats font d’abord
ressortir un problème de terminologie : l'anonymisation n’est souvent qu’une
pseudonymisation.
L’un des intérêts de l’anonymisation est de simplifier le travail des personnes qui vont
réutiliser les données, en les dispensant de toute formalité CNIL.
Est-il possible de procéder à une anonymisation complète et définitive de données
personnelles ? Il convient sans doute de distinguer entre une anonymisation « absolue » et
une anonymisation « relative » qui serait fonction de l’analyse de risques.
Plus on anonymise des données et moins elles sont utiles : l’anonymisation se traduit
toujours par une perte d'information. Il serait préférable d’inscrire la logique de
l’anonymisation dans le contexte d’une analyse de risques (cf. sur ce point règlement
européen sur les données statistiques).
La réalisation de scénarii d'intrusion peut permettre de réduire les risques de
réidentification des personnes concernées. On peut aussi faire appel à des « friendly hackers »
pour limiter ces risques. Une autre solution pourrait consister à gérer des clés différentes
par destinataire afin de limiter les possibilités de chaînage.
Qui doit payer pour ces sécurités ? Ne devrait-ce pas être celui qui souhaite utiliser la
base de données pour créer de la valeur à partir d’elle ? Il y aurait cependant lieu de
considérer le cas particulier des chercheurs universitaires.
Les participants ont conclu l’atelier sur le besoin de recommandations pratiques
expliquant comment il est possible d’anonymiser des données personnelles.
♦♦♦
Atelier n° 2 : Quels droits des personnes dans l’Open Data ?
Atelier co-animé par Simon CHIGNARD et Delphine CARNEL, juriste à la CNIL, en
soutien Alexandre QUINTARD de la mission Etalab et Sophie VULLIET-TAVERNIER,
directrice des études, de l’innovation et de la prospective à la CNIL ;
Le débat s’engage autour des limites de la notion de donnée à caractère personnel à
partir d’un cas concret évoqué par un représentant d’un conseil général : cette collectivité
14
territoriale a mis en ligne un système d’information géographique9 (SIG) où sont localisés
les arbres remarquables et / ou d'alignement. Or, la décision a été prise d’exclure du
traitement les informations concernant la localisation des arbres situés sur une propriété
privée, en application d’un principe de précaution défini par la collectivité elle-même.
A priori, il a en effet été considéré qu’il s’agissait de données personnelles dans la mesure
où ces éléments sont rattachés à des parcelles privées pour lesquelles l’identité du locataire
et/ou du propriétaire peut être connue par croisement (via un annuaire, l’extrait de propriété
cadastrale communicable de « façon ponctuelle » en application du Livre des procédures fiscales,
Google Maps, etc).
Cet exemple, qui peut paraître anodin, suscite de nombreuses réactions et échanges au
sein de l’atelier, certains estimant que cette appréciation est excessive et disproportionnée
eu égard aux risques potentiels d’atteinte à la vie privée, d’autres considérant qu’il s’agit
somme toute de faire application de la loi qui donne comme on le sait une définition
extrêmement large de la notion de donnée à caractère personnel. En tout état de cause, il
constitue une illustration finalement très topique des difficultés que rencontrent
aujourd’hui les acteurs de l’Open data pour apprécier si la loi Informatique et Libertés a
vocation ou non à s’appliquer, et témoigne de la nécessité pour la CNIL de diffuser des
recommandations pratiques.
Interrogé sur le point de savoir si la CNIL recevait beaucoup de plaintes sur les
questions d’Open data, un représentant des services de la CNIL indique que les plaintes
reçues par la CNIL à propos de données rendues publiques se rapportent plus souvent au
principe même de leur diffusion (exemple des comptes rendus municipaux mentionnant
l’arrêt maladie d’un agent municipal, l’allocation d’une prestation pécuniaire à telle famille
dans le besoin) qu'à leur réutilisation.
Un juriste de la CNIL explique qu’il existe parfois une confusion sur le régime de
protection applicable aux données personnelles qui font l’objet d’une publicité légale,
souvent considérées à tort comme librement réutilisables avec les souhaits de diffusion sur
Internet pour l’information du plus grand nombre.
L’Open Data se présente dès lors comme une opportunité pour revoir les modalités de
production, de communication et de publicité légale des informations du secteur public afin
de faire jouer pleinement la liberté de réutilisation.
Le plus difficile est de faire face à des données qui sont redevenues identifiantes après
croisement de plusieurs sources.
Un participant témoigne que, dans les collectivités territoriales, il est fréquent que les
correspondants « Informatique et Libertés » et les chefs de projet Open Data ne se
connaissent pas… Il en irait de même pour les CIL et les PRADA (personnes relais de la loi
« Cada »).
Un autre explique que de nombreuses mairies refusent, à tort, de transmettre les listes
électorales aux personnes qui sont habilitées à les demander, au motif que ces dernières ne
leur précisaient pas l'usage qui en sera fait. La CADA a dû rappeler que la seule restriction
posée par la loi concerne « un usage purement commercial ».Tout ceci témoigne d’une
méconnaissance des règles applicables, compréhensible compte-tenu de leur complexité et
9 Cf. http://opendata.hauts-de-seine.net/jeu-de-donnees/arbres-remarquables-du-territoire-des-hauts-
de-seine-hors-proprietes-privees#.UdwB0xa_DLk
15
de la difficulté à les interpréter, d’où un besoin impératif de faire de la pédagogie en la
matière.
La transposition de la directive du 26 juin 2013 sur la réutilisation des informations du
secteur public pourrait aussi fournir l’occasion d’une clarification et d’une simplification de
ces règles ainsi que d’une meilleure articulation entre la loi CADA et la loi Informatique et
Libertés. Ainsi, la notion d’« information publique », qui n’est pas clairement définie dans la
loi, devrait être précisée à l’occasion de la transposition de la directive.
De même les notions d’anonymisation et de consentement telles que prévues à l’article
13 de la loi CADA ne devraient-elles pas être précisées ou à tout le moins les modalités de
consentement définies ? Ne convient-il pas aussi de revoir la contradiction résultant de
l’article 13 (exigence du consentement) et l’article 32 VI de la loi Informatique et Libertés
(possibilité de dérogation à l’obligation d’information en cas de réutilisation des données à
des fins statistiques) ?
S’agissant de la loi Informatique et Libertés, sans remettre en cause la définition même
de la donnée personnelle, ne convient-il pas d’adapter les modalités d’application de la loi
selon que les jeux de données sont plus ou moins identifiants (et selon le niveau de risques)
et selon les types de réutilisation (notamment statistique) ?
Plusieurs questions générales sont posées :
- À quel moment l’intérêt du public pour une plus grande transparence de l’action
administrative peut-il l’emporter sur le risque d’atteinte à la vie privée ?
- Le cadre de protection, apporté par la loi « Informatique et Libertés » couplée à la loi
« Cada », ne devrait-il pas être modulé au regard des risques d’usage détourné
identifiés ?
Ne faudrait-il pas proposer un opt out en matière d’Open data ? Quant au niveau de
précision susceptible d’être utilisé dans la localisation des jeux de données, la question se
pose tout particulièrement à propos des données des relevés orthophotographiques10.
- À partir de quel niveau de précision ces relevés sont-ils soumis à la loi
« Informatique et Libertés » ?
- Ne faudrait-il pas répondre en fonction des risques attachés à ces publications, et
donc de ce qu’elles montrent ? Par exemple : voit-on une personne en train de
bronzer ? Distingue-t-on l'accès des maisons ? Google Street View floute certaines
parties des images diffusées, parfois de façon automatique, pour partie sur
demande. A été rappelée la stricte position adoptée par l’Allemagne face aux googles
street cars en exigeant de Google le recueil du consentement avant le passage des
voitures et la collecte des données.
Mais comment le droit d'opposition pourrait-il être organisé a posteriori ? La question se
pose dans des termes très différents pour les bases de données téléchargées, qu’il semble
impossible de modifier a posteriori.
Plusieurs pistes de travail sont envisagées dans l’attente de la modification éventuelle de
la loi CADA comme de la loi Informatique et Libertés :
Pourrait-on s'appuyer d’avantage sur les CIL ? Ne faudrait-il pas indiquer clairement
les voies de recours sur les plateformes Open data ?
Pourrait-on établir une liste de données personnelles publiques dont la réutilisation
ne pose pas a priori de problème ?
10 Relevés aériens ou satellitaires géo référencés dans un système de coordonnées (ex IGN).
16
Ne conviendrait-il pas de faire des recommandations pratiques à partir des cas
particuliers déjà soumis à la CNIL ? Appartient-il à la CNIL de définir des seuils
d’agrégation de données permettant d’attester de leur anonymat ?
Une solution privilégiant une approche pragmatique et qui s’inspire du service
récemment mis en place au Royaume-Uni pourrait être de construire une collaboration
transversale entre la CNIL, la CADA/Etalab et l'INSEE (cf. la plateforme UKANON). Ce
type d’outil permettrait d’identifier les difficultés, méthodes et bonnes pratiques en
matière d’anonymisation, ce qui rejoint les éléments du débat soulevant le rôle du Big
Data (cf. note de présentation en annexe).
♦♦♦
Atelier n° 3 : Comment faciliter l’accès des chercheurs aux données publiques ?
Atelier animé par Geoffrey Delcroix, de la direction des études, de l’innovation et de la
prospective à la CNIL
Trois sujets ont successivement été abordés :
1. un exemple d’accès sécurisé à des données statistiques économiques très sensibles de
l’INSEE à partir du Centre d'accès sécurisé distant aux données ;
2. la question spécifique de l’utilisation à des fins de recherche de données de santé ;
3. la question de l’utilisation des données issues du web social par les chercheurs, en
particulier en sciences sociales.
Cet atelier vise à prolonger l’atelier sur l’anonymisation en dehors de l’Open data « pur et
parfait ». Si l’anonymisation est possible et efficace, les données personnelles disparaissent
et, avec elles, les barrières à une réutilisation libre et sans contrôle des données.
Mais l'anonymisation induit généralement une perte de qualité d'information, quelle que
soit la technique utilisée, au risque de restreindre la valeur ajoutée que l’on peut tirer de
l’exploitation d’une base de données. Il paraît donc utile d’explorer également les
conditions dans lesquelles il serait possible de concevoir un espace dans lequel la
réutilisation, mieux encadrée, permettrait des travaux à valeur ajoutée sur des données
personnelles, c’est-à-dire qui ne pourraient normalement pas être utilisées sans recueil d’un
consentement spécifique des intéressés. Les travaux de recherche bénéficieraient
particulièrement de la création de tels espaces.
Il s’agit donc de compléter le champ de la gouvernance des données, qui ne devrait pas
se limiter à l’Open data :
17
Détenues par une institution publique Détenues par un acteur privé
Données identifiantes
Données anonymes
Accès/utilisations Encadrés
(CASD)
Restitution (smart disclosure – MesInfos)
Open Data(data.gouv.fr)
Open Data privé(sncf / ratp)
Schéma de gouvernance des réutilisations de données
1. Kamel GADOUCHE présente le service offert à des chercheurs par le CASD. Créé il y a
près de trois ans pour mieux valoriser les données détenues par l'INSEE (ex. :
fiscalité, entreprises, etc.), ce système offre un accès sur « abonnement » à des
données individuelles, sécurisées et soumises à la confidentialité, telles que des
données individuelles très détaillées et couvertes donc par le secret statistique (loi n°
51-711 du 7 juin 1951).
Il ne s'agit donc pas d'Open data au sens strict : si le système donne accès à des données
brutes INSEE, dont on n’a retiré que le nom, le prénom, le NIR..., elles ne sont pas librement
réutilisables. Bien au contraire, leur utilisation est très sécurisée.
Le domaine couvert par le CASD s’est progressivement élargi hors des données INSEE
(ex. : données du ministère de l’agriculture etc. ; données fiscales sur les individus, après
adoption d’un projet de loi en cours etc.). D’autres extensions possibles vers d'autres types
de données et de producteur des données sont possibles en fonction des demandes.
Des accès privilégiés du même type existent depuis longtemps dans d'autres pays, hors
du monde numérique : des centres d'accès sécurisés physiques existent depuis 30 ans aux
États-Unis (Université de Cornell) et au Canada (StatCanada).
Lors du lancement du projet, deux verrous devaient être levés :
Le verrou juridique, qui fut levé en 2008 avec la modification de la loi sur le secret
statistique qui a ouvert aux chercheurs l'accès à des données détaillées sur les
ménages et individus.
Le verrou technique, qui s’est traduit par des contraintes de sécurité drastiques.
En pratique, dans les centres physiques, les chercheurs accèdent aux données dans un
lieu confiné. Ils sont fouillés avant et après la consultation. Pour le CASD, l’enjeu consistait
à offrir aux chercheurs un accès à distance sur un serveur central depuis leur institution de
recherche, ce qui compliquait les problèmes de sécurité.
18
Le CASD a donc développé un boîtier spécifique : la SD-box, qui leur permet de
travailler à distance sur les données sans avoir jamais la possibilité de récupérer les données
du serveur. L’environnement de travail intègre donc l’ensemble des outils nécessaires au
traitement des données. Pour pouvoir exporter ses résultats, un chercheur doit demander
leur vérification préalable par un opérateur du CASD. Cet environnement « étanche » est
aussi surnommé « bulle ».
L’authentification forte s’effectue au moyen d’une carte à puce et de l’empreinte digitale,
conservée sur un support mobile. Ces contraintes rassurent le producteur de données et
permettent aux chercheurs de travailler dans des conditions scientifiques satisfaisantes. Il a
fallu trouver un compromis entre bonnes conditions d'accès et sécurité.
Pour obtenir un accès, le chercheur doit déposer un dossier décrivant son projet de
recherche, qui est évalué par le comité du secret statistique, composé de représentants de
l’INSEE, de la CNIL, des syndicats et des producteurs de données. La délibération du
comité du secret statistique doit ensuite être suivie d’une décision de la direction des
Archives. Le chercheur déclare avoir connaissance des articles de loi et des sanctions qu’il
encourt en cas de violation des règles applicables. Il doit également suivre une demi-
journée de sensibilisation aux aspects juridiques et de sécurité.
La période d'habilitation est de 3 ans. La durée moyenne des projets est de 2 ans. Si au
bout de 3 ans la recherche n'est pas terminée, une procédure simplifiée de prolongation fait
intervenir le comité du secret statistique. Les chercheurs peuvent consulter l’ensemble des
catégories de données accessibles par l'intermédiaire du CASD. Mais ils ne peuvent traiter
que celles pour lesquelles ils ont été habilités.
L’accès est payant (83 € HT par mois comprenant un serveur, un accès, 20
entrées/sorties). En France, 500 chercheurs utilisent ces données pour environ 200 projets.
130 boîtiers sont déjà déployés (le boîtier peut être partagé entre plusieurs chercheurs qui
ont chacun leur carte avec identification par empreinte digitale). Beaucoup d'économistes et
de sociologues sont concernés, avec l’arrivée progressive d'autres chercheurs venant des
différents ministères (par exemple INRA pour l'agriculture).
Le CASD a été choisi comme équipement d'excellence dans un projet réunissant le
Genes, l’Insee, le GIS Quételet, HEC, ENS Cachan, l’École Polytechnique autour de ce projet
de mise à disposition des données de manière sécurisée. Par ailleurs, le Genes et l’Institut
Mines Telecom ont remporté en 2012 un appel à projet pour la création en France d’une
plateforme Big data tournant sur une infrastructure Hadoop. Ce projet devrait normalement
donner à la plateforme du CASD la possibilité d’intégrer dans son environnement d’autres
types de données, telles que des données issues du web. Le but serait d’offrir des solutions
de type « Big data » sans pour autant sortir des données de la « bulle », mais plutôt en
faisant entrer dans la bulle des données extérieures.
Plusieurs projets européens de centres d’accès sécurisés sont en cours : DwB (réseau de
centres d'accès sécurisé européens), Dara (projet Eurostat : centre d'accès sécurisé pour les
données européennes).
Le CASD est en quelque sorte un tiers de confiance entre l’organisme producteur de
données et les chercheurs. Il se charge de réaliser des appariements sécurisés pour mettre à
disposition des chercheurs des données enrichies. Il s’agit d’une méthode de confinement et
de « libération » sécurisée de la donnée —, pour permettre à des chercheurs d’accéder à des
données qui ne peuvent pas être rendues publiques à cause de leurs aspects individuels.
19
Cela permet une ouverture plus grande des données : les fournisseurs ne pourront plus
invoquer des motifs de sécurité pour refuser de fournir leurs données. Il organise une sorte
d'« Open data indirect », des chercheurs jouant le rôle d'intermédiaire par leurs travaux et
publications entre la donnée et le grand public.
La discussion a permis de souligner que cette approche était et devait être
complémentaire de l’Open data, comme une sorte de « deuxième cercle ».
Cela ne va pas pour autant sans quelques craintes associés : l’existence d’espaces de ce
type pourrait donner un prétexte à certains détenteurs de données, sacrifiant à des réactions
corporatistes (le secret légitimant prestige et pouvoir) de nouveaux arguments contre
l’ouverture des données, par exemple, en arguant que l’existence d’un tel procédé vient
combler entiérement le besoin de transparence et de réutilisation, alors qu’il n’a que
vocation à permettre un accès à des données confidentielles qui autrement ne seraient pas
accessibles du tout.
L’échange aura permis de constater qu’il n’existe aucune définition générique du
chercheur. Il ne s’agit pas seulement d’universitaires, ni même de chercheurs publics. Quid
de la question de la « recherche citoyenne » ? Les collectifs citoyens et les associations (ex. :
la CRIIRAD) pourraient-ils aujourd’hui demander à accéder au CASD ? La réponse à cette
question reste en suspens : Si cette demande est à des fins de recherche scientifique ou
historique, la loi leur permet d’en faire la demande mais il pourrait être nécessaire d’au
moins s'associer à un organisme de recherche et de montrer que le sujet de recherche ne
représente pour eux aucun intérêt personnel ou économique.
Plutôt que de disposer de droits exorbitants du droit commun, les chercheurs ne
devraient-ils pas plutôt pouvoir bénéficier d’une extension de finalité ou d’un recueil du
consentement incluant la recherche, sous réserve de procédures éthiques, juridiques et
techniques spécifiques ?
2. La CNIL reçoit par an 800 demandes d’autorisation de recherche dans le secteur de la
santé. Les données de santé ont une double finalité du point de vue de l’intérêt
général : permettre la bonne administration des soins ; permettre des recherches en
santé publique (détection d’épidémies, d’interactions médicamenteuses…).
Mais la finalité de la constitution des grandes bases de données médicales (SNIIRAM,
PMSI) n'est pas la santé publique : un grand nombre de bases de données constituées à des
fins administratives ne sont toujours pas accessibles par les chercheurs. Il faudrait donc
qu’ils puissent partir des données réelles de santé publique (données d'administration des
soins, bases médico-administratives).
Mais l'identifiant des bases médico-administratives est le NIR. Les appariements de
fichiers sont donc rendus extrêmement difficiles du fait du régime protecteur dont bénéficie
le NIR. La protection dont jouit le NIR a donc des effets négatifs en matière de santé
publique. L’habilitation des chercheurs dans ce domaine relève du parcours du combattant.
3. Les données du web social constituent un gisement de nouvelles données numérique
utilisables pour des recherches « in vivo », par exemple pour des chercheurs en
sciences sociales et humaines. Or, selon la loi, toute donnée publique (au sens de
librement accessible) n’est pas pour autant librement réutilisable.
Normalement, la solution pour passer de l’une à l’autre réside dans le recueil du
consentement des intéressés. Mais comment interroger les personnes concernées si leur
20
consentement n'a pas déjà été recueilli ? À moins de contacter des millions d’utilisateurs de
smartphones, des réseaux mobiles, de services de réseaux sociaux…
Dans certains cas, l’objet même de la recherche implique de ne pas délivrer une
information trop complète, sinon on risque de biaiser les comportements et de déformer les
résultats de la recherche. Et que faire si on ne peut pas informer et recueillir le
consentement ? Pour ajouter encore de la complexité, les données du web social peuvent
être soit directement soit indirectement accessibles. C’est ainsi que, sur Facebook, certaines
données ne sont accessibles qu’à des cercles restreints (les amis), mais elles restent
accessibles… par Facebook ou par l’intermédiaire d’applications tierces installées par les
amis.
Ce sujet renvoie à un problème de « concurrence internationale » entre chercheurs :
Facebook passe des accords avec des équipes de chercheur, soit maison (Facebook data
science team), soit d'universités, en particulier américaines (Stanford, UCSD...). Ces
chercheurs ont accès à des informations concernant des centaines de milliers de comptes
Facebook dont on a retiré les nom et prénom…
En France, le travail sur des bases de données « réalistes » est beaucoup plus complexe
pour des chercheurs. Cela induit :
un risque, fictif ou réel, de « délocalisation » des projets ou équipes de recherches ;
un risque de relégation des chercheurs français, contraints de travailler sur des bases
de données toujours identiques, peu pertinentes, anciennes et déjà très explorées.
C’est ainsi que la base des courriels internes de la société Enron, publiée par la justice
américaine, est très utilisée par des chercheurs français. Mais cette base a des limites
scientifiques. Les grandes revues scientifiques internationales à comité de lecture ont
tendance à privilégier les articles qui s’appuient sur des bases plus pertinentes et plus
représentatives au plan scientifique.
La CNIL constate, quant à elle, une certaine autocensure des chercheurs, persuadés que
des projets ambitieux sont impossibles et seront bloqués par les dispositifs d’évaluation
éthique et juridique.
♦♦♦
Atelier n° 4 : Open data et au-delà…
Atelier animé par Charles Népote et Daniel Kaplan (FING) / en soutien Romain Lacombe
(Etalab) et Olivier Desbiey (CNIL)
La thématique de cet atelier était volontairement ouverte et prospective en proposant
aux participants de réfléchir à des sujets connexes allant au-delà de l'Open Data
traditionnel.
Il s'agissait en particulier d'échanger sur les initiatives visant restituer les données aux
individus qu'elles concernent – c'est à dire une forme d'Open Data au service de chaque
citoyen – et dans ce contexte de s'interroger sur la libération de données ne provenant pas
seulement du secteur public mais pouvant émaner d'acteurs privés.
L'atelier s'est déroulé en 3 temps :
21
1. Présentation par Daniel Kaplan et Charles Népote des différentes initiatives type
« Smart Disclosure »
La FING est revenu sur le projet « Mes Infos » qu'elle pilote actuellement et les autres
initiatives existantes de par le monde partageant la même philosophie au Royaume-Uni
(MiData) et aux Etats-Unis (Smart Disclosure).
Daniel Kaplan a ainsi rappelé qu'à l'origine de Mes Infos se trouve la question de savoir
« ce qui se passerait si les administrations et les entreprises qui détiennent des informations à propos
d'individus leurs donnaient accès à ces données ? ». Si ces organisations détiennent des
informations sur les individus c'est parce qu'elles en ont besoin dans le cadre de leur
relation pour pouvoir les contacter, mieux comprendre leurs besoins, leur faire des offres
personnalisées, ... L'ensemble de ces arguments peut ainsi être retourné et appliqué aux
individus qui pourraient eux aussi être en mesure de mieux gérer leurs relations avec ces
organisations s'ils avaient la possibilité 1) d'avoir accès à ces mêmes données 2) de disposer
d'outils pour comprendre et tirer de la valeur de leurs propres données. C'est en ce sens que
le projet Mes Infos croise les réflexions d'autres communautés comme celle du VRM11 ou du
Quantified Self où l'on voit émerger de nouveaux intermédiaires qui fournissent des services
à valeur ajoutée aux individus sur la base de leurs données (mieux se connaître, être mieux
informé, outillé pour arbitrer des choix de vie, de consommation, ...). Dans le cadre de son
expérimentation prévue pour démarrer en septembre 2013 pour une durée de 6 mois avec
300 utilisateurs finaux, la FING fédère de grands acteurs issus du monde bancaire, de la
mobilité, opérateur de télécommunications, acteurs du Web, ... afin de tester en France
l'émergence d'un écosystème autour de la valorisation des données personnelles. Cet
écosystème serait composé de grandes entreprises, de leurs clients-utilisateurs et de ré-
utilisateurs qui vont proposer aux participants des services pour comprendre leurs
données.
L'initiative américaine « Smart disclosure » littéralement « divulgation intelligente » est
probablement le projet comparable (en partie du moins) le plus avancé et s'incarne par des
« buttons » de couleurs différentes correspondant à des verticaux que l'on va retrouver sur
les portails des services publics américains permettant aux individus de télécharger des
données les concernant dans un format interopérable (lisible par des machines) : green
button pour l’énergie, blue button pour la santé et purple button pour les données relatives
aux diplômes... Une nouvelle fois, la philosophie annoncée est une mise en capacité des
individus pour qu'ils soient dans les meilleures conditions pour opérer des choix « Personal
data can empower consumer to make better choices ». On retrouve un fondement similaire au
Royaume-Uni où la vision du projet MiData est d'aider le consommateur dans des
situations concrètes lorsqu'il doit par exemple contracter avec un fournisseur d'énergie ou
un opérateur mobile.
Dans une perspective « Informatique et Libertés» ces initiatives peuvent être
appréhendées comme un renouveau du droit d'accès et de rectification, plus fluide car
« APIsé », une forme de « droit d'accès 2.0 ».
2. Rapports d'étonnement et enjeux soulevés par ces nouvelles formes de restitution des
données aux citoyens-clients-consommateurs
11 VRM pour vendor relationship managment qui constituerait le symétrique des outils de CRM des entreprises.
22
Un premier point de débat qui a surgi assez rapidement a été la question de l'apparition
de nouveaux risques de piratage de données personnelles qui pourraient surgir en raison
de la centralisation d'une quantité importante d'informations relatives à des individus. Ces
nouveaux modèles faisant généralement appel à une plateforme pour proposer des services
et faire le lien entre les entreprises et les individus, ces plateformes pouvant constituer des
« pots de miel » de choix pour des pirates mal intentionnés...Sur cet aspect, l'enjeu dans la
technique de restitution et d'accès aux données et plus généralement l’architecture de la
plateforme ne sont pas neutres. Une stratégie reposant sur des API décentralisées peut par
exemple permettre de circonscrire en partie ces risques en permettant la centralisation des
services et de la valeur ajoutée sur la plateforme mais pas la centralisation des données.
Ce point rejoignant plus globalement le thème de la confiance dans ce type de système :
au-delà des questions de fuites de données, comment est-on sûr que les individus ne vont
pas se retrouver sur-sollicités avec des appels de télémarketing tous les soirs ? Comment
sont gérées les autorisations par les individus de mise en relation par les fournisseurs de
service potentiels ? Comment se manifeste le contrôle de l'utilisateur ?
Sur ces interrogations, Daniel Kaplan a rappelé que ces initiatives s'inscrivaient dans le
cadre de la Loi I&L et que par ailleurs le niveau de granularité des autorisations
qu'accorderaient les individus à des applications ou services faisait pleinement partie des
aspects à expérimenter, et qu'il fallait éviter de tomber dans des « autorisations parapluie »
permettant de faire tout et n'importe quoi sur les données existantes.
Enfin, les autres points de discussion concernaient les conditions d'émergence de tels
écosystèmes avec le problème classique de « la poule et de l'œuf » – représentés par les
utilisateurs et les organisations – durant la phase d'amorçage de la plateforme. Dans les
pays anglo-saxons c'est l'Etat qui assume cette fonction et joue ce rôle de coordinateur. C'est
pour cette raison que le projet de La Fing12 s'est basé sur de grandes entreprises « pour
amorcer la pompe ».
3. Réflexion ouverte sur un cas d'usage concret mêlant données publiques et données
issues des individus
La dernière partie de l'atelier a en effet consisté à réfléchir sur un secteur particulier, en
l’occurrence celui de l'immobilier : quelles étaient les données disponibles qui pouvaient
impacter ce marché en introduisant une dynamique intermédiaire entre l'Open Data et les
programmes type smart disclosure, où des données initialement produites par des individus
ont une valeur pour la collectivité dans son ensemble.
Le cas de la startup israélienne Waze qui a conçu son modèle économique sur le
crowdsourcing pour construire un service de cartographie et de guidage GPS a été présenté
comme source d'inspiration où les données générées individuellement par chaque
utilisateur enrichissent les informations de trafic en temps réel et profitent à l'ensemble de
la communauté.
Ce travail a permis d'imaginer la richesse que pouvait offrir le recoupement de données
publiques (ex. : mesures de la pollution, statistiques,...), de données privées (ex. : évolution
des prix) et de données « crowdsourcées » issues d'individus (ex. : données d'une station
12 L'Etat accompagne financièrement le projet au travers de la DGCIS.
23
météo personnelle type Netatmo). Ce scénario a une nouvelle fois placé au centre des
débats la question de l'anonymisation des données issues des individus (cf. atelier 1).
♦♦♦
Conclusion
De nombreuses problématiques ont été abordées au cours de cette première journée
« Open CNIL ». Elles pourraient être résumées en ces termes.
a. Les données personnelles semblent encore peu présentes dans les jeux de
données aujourd’hui mises à disposition dans le cadre de l’open data et les
quelques exemples évoqués ne présentent pas ou peu de risques pour les
individus ;
b. Les acteurs de l’open data semblent peu formés et informés sur les enjeux
réels de la protection des données personnelles ;
c. Dès lors, ils éprouvent de réelles difficultés pour apprécier au cas par cas si
les données dont la mise à disposition et la réutilisation sont prévues peuvent,
ou non, être rattachées à des personnes physiques identifiables ;
d. En conséquence, le principe de précaution semble jouer de façon excessive,
d’où une attitude de prudence sinon de frilosité quant à la mise à disposition
des données ;
e. Il apparait également que le respect des règles de protection des données
personnelles peut servir d’alibi pour ne pas mettre à disposition des jeux de
données ;
f. Sur le plan de la gouvernance de l’open data appliqué aux données
personnelles, il s’avère que tant au plan national que local, les producteurs
comme les réutilisateurs ont aujourd’hui peu de contacts avec la CNIL ou
avec les CIL et expriment un besoin d’informations et de conseils pratiques.
g. En tout état de cause, la question se pose de savoir s’il ne serait pas opportun
de promouvoir une démarche d’analyse des risques auprès des producteurs
d’informations
h. On constate qu’aujourd’hui peu d’outils sont mis à disposition des
producteurs de données pour assurer l’anonymisation ; de plus, les
administrations, pour des raisons financières, éprouvent de réelles difficultés
à prendre en charge les opérations d’anonymisation. D’ailleurs, ce que
recouvre les notions d’anonymisation et de pseudonymisation n’est pas
toujours évident ; un besoin d’information et de mise à disposition de
solutions techniques d’anonymisation comme de recommandations d’usage
semble exister d’autant qu’est exprimée la crainte d’un risque important de
perte d’informations et d’appauvrissement du fait de l’anonymisation des
données, et donc la nécessité de trouver un juste équilibre ;
i. Côté réutilisateurs, plusieurs font le constat de la difficulté en pratique
d’appliquer la loi et notamment le principe de finalité quelque peu battu en
brèche par la logique même de l’open data (cf sur ce point article de
24
F.Bancilhon13). S’agissant de l’open data, le principe de finalité ne devrait-il
pas être « revisité » de façon à raisonner en termes de familles de finalités ?
Par ailleurs, la règle du consentement préalable des intéressés prévu à l’article
13 de la loi Cada semble très peu appliquée aujourd’hui, quasiment aucune
mesure d’organisation n’ayant été mise en place ; Enfin, se pose la question
de savoir si des données librement accessibles, car faisant l’objet de publicité
légale ou issues du web social, peuvent ou non être collectées pour d’autres
usages…
13 « Comment la CNIL devrait-elle aborder l’open data ? » http://www.data-publica.com/content/2013/03/comment-la-cnil-devrait-elle-aborder-lopen-data-par-francois-bancilhon/