Séminaire « Open Data, quels enjeux pour la protection des ...

1

Séminaire « Open Data, quels enjeux pour la protection des données personnelles ?», 9 juillet 2013

Compte rendu

Sommaire

Introduction ..................................................................................................................................................... 1

Rappel du cadre juridique de l’Open data .............................................................................................. 2

Table ronde n° 1 : Données publiques, données personnelles, données anonymes : où est la

frontière ? ................................................................................................................................................................... 4

Table ronde n° 2 : Données publiques, données personnelles : quelle gouvernance et quels

modèles économiques ? ......................................................................................................................................... 8

Atelier n° 1 : Comment anonymiser ? ..................................................................................................... 11

Atelier n° 2 : Quels droits des personnes dans l’Open Data ? ........................................................ 13

Atelier n° 3 : Comment faciliter l’accès des chercheurs aux données publiques ?................... 16

Atelier n° 4 : Open data et au-delà… ...................................................................................................... 20

Conclusion ...................................................................................................................................................... 23

Introduction

-Isabelle FALQUE-PIERROTIN, présidente de la CNIL ; -Henri VERDIER, directeur d’Etalab.

La Présidente de la CNIL, Isabelle FALQUE-PIERROTIN introduit la journée en soulignant

qu’il s’agit d’une étape dans le cadre d’une démarche générale de concertation avec les

acteurs de l’Open data, qui se veut la plus ouverte et constructive possible.

La CNIL, consciente des bénéfices démocratiques et économiques de l’Open data, y est

résolument favorable.

Si la CNIL s’intéresse au sujet alors que les données personnelles ne sont a priori pas les

premières concernées par l’Open data, c’est essentiellement parce que la frontière entre les

différentes catégories de données — personnelles ou publiques ; anonymes ou

indirectement identifiantes ; etc. — n’est pas toujours claire. Pour construire un Open data

légitime et durable, il est donc primordial de s’interroger au plan éthique sur la place des

données personnelles, de l’anonymisation, du consentement, etc.

2

La réutilisation des données personnelles mises à disposition dans le cadre de l’Open

Data pose la question de l’articulation des législations sur la protection des données

personnelles et sur la réutilisation des informations du secteur public : l’Open data contribue

à garantir le droit d’accès aux informations publiques et la liberté de réutilisation par tous

des données ouvertes … alors que la loi « Informatique et Libertés » s’appuie, elle, sur la

finalité d’un traitement de données pour apprécier la proportionnalité de ses

caractéristiques (nature des données traitées, durée de conservation, destinataires, …). En

réalité, cette question nous invite à repenser globalement la notion de gouvernance

publique des données. Le directeur d’Etalab1, Henri VERDIER, remercie la CNIL d’avoir

organisé ce séminaire et d’y avoir associé Etalab. Selon lui, il est nécessaire de sortir de

l’idée selon laquelle, à partir d’un certain niveau de transparence, on porterait

nécessairement atteinte à la vie privée. Transparence et vie privée ne se situent pas sur un

même axe, et ne sont pas en opposition.

L’Open data est un outil de modernisation de l’action publique et participe d’un objectif

d’intérêt général en démocratie : garantir l’opacité du citoyen et la transparence de l’État, là

où les États non démocratiques font l’inverse. Dans une démocratie aboutie, l’État doit

rendre des comptes et protéger le citoyen : l’Open data s’érige comme l’une des composantes

de cette transparence.

En réalité, la presque totalité des données gouvernementales qui sont ouvertes n’ont

aucun caractère personnel. L’État publie surtout des cartes, des chiffres bruts et des

indicateurs généraux.

Cependant, nous entrons dans une période de « révolution de la donnée ». La « mise en

données du monde 2 » qui en résulte doit nous conduire à redéfinir nos manières d’agir, à

créer des infrastructures cognitives d’un nouveau genre. C’est tout l’intérêt de réflexions,

comme celles de cette journée, permettant de clarifier les enjeux réels de la question de

l’Open Data et des données personnelles.

Rappel du cadre juridique de l’Open data

-Serge DAËL, président de la CADA ;

La loi n°78-753 du 17 juillet 1978 modifiée (dite loi CADA) constitue, dans sa version

actuelle, le fondement du droit d’accès individuel aux documents administratifs (cf. art. 2 et

6 de la loi « Cada » — après occultation des données de vie privée), de l’obligation ou de la

possibilité de publier des actes administratifs, de diffuser d’autres documents administratifs

(opérations soumises à la fois aux lois CNIL et CADA en présence de données

personnelles), ainsi que du droit de réutilisation des informations publiques à d’autres fins

que la mission de service public qui a justifié leur collecte. 1 La mission Etalab est un service du Premier ministre chargé de l'ouverture des données publiques de l’Etat. Au

sein du Secrétariat général pour la modernisation de l’action publique (SGMAP), Etalab coordonne l’action des

services étatiques pour faciliter la réutilisation la plus large possible de leurs informations publiques. Etalab

administre le portail unique interministériel « data.gouv.fr » destiné à rassembler et à mettre à disposition

l’ensemble des informations publiques de l’Etat, de ses établissements publics et, si elles le souhaitent, des

collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service

public. 2 Selon la formule utilisée par Le Monde Diplomatique dans un titre du numéro de juillet 2013.

3

La réutilisation d’informations publiques s’inscrit dans de ce que l’on appelle

aujourd’hui l’Open Data (l’ouverture des données), dont l’objet est l’accès libre et gratuit aux

informations du secteur public en vue :

De contribuer à des activités privées — des développements réalisés par des

opérateurs économiques ;

de permettre la transparence du débat public.

Parmi les autres textes qui régissent d’une manière ou d’une autre l’Open data, peuvent

être cités :

- la directive 2003/98/CE du 17 novembre 2003 concernant la réutilisation des

informations du secteur public (qui vient d’être modifiée par la directive 2013/37/CE

du 26 juin 2013 dont les dispositions devront être transposées avant le 18 juillet

2015) ;

- la directive 95/46/CE du 24 octobre 1995 sur le traitement des données à caractère

personnel ;

- la loi no 78-17 du 6 janvier 1978 modifiée dite « Informatique et Libertés » ;

- le décret du 21 février 2011 créant la mission Etalab ;

- la circulaire du 26 mai 2011 relative à la création du portail interministériel des

données publiques ;

- et le Code pénal, en particulier le chapitre VI du titre II du livre II.

La notion de « données publiques » est une notion propre à l’économie numérique et à

une philosophie de la gouvernance issue de l’Open data. Cette notion n’existe pas en droit

positif, qui ne connaît que les notions de « données à caractère personnel » et « informations

publiques » (contenues dans un document dont la communication constitue un droit).

Les textes relatifs à la mission Etalab comportent d’une part, des dispositions

impératives à propos des informations publiques de l’État et de ses établissements publics

(sauf en matière d’enseignement, de recherche et de culture), d’autre part, des dispositions

incitatives sur les informations publiques des collectivités territoriales et des autres

personnes de droit public.

La législation sur la réutilisation des informations publiques crée plusieurs obligations à

la charge des administrations :

La signature d’une licence n’est pas obligatoire, sauf en cas de paiement d’une

redevance. Elle n’en est pas moins très souhaitable ne serait-ce que pour assurer

l’information du réutilisateur.

En principe, aucune exclusivité ne doit être accordée, à moins qu’elle ne soit

nécessaire à l’exercice d’une mission de service public.

La gratuité n’est pas exigée par la loi, même si celle-ci la permet. En ce qui concerne

les catégories d’informations de l’État et de ses établissements publics administratifs,

une redevance peut être calculée conformément aux dispositions de l’article 15 de la

loi du 17 juillet 1978, sous réserve d’en justifier l’existence et de l’inscrire sur une liste

fixée par décret (pour les redevances instituées avant le 1er juillet 2011, la liste a été

publiée).

Certaines données personnelles (par exemple concernant des agents publics) directement

identifiantes font l’objet de publicité légale (exemple des arrêtés de nomination, les

4

promotions, distinctions honorifiques, etc.) et de ce fait ne bénéficient pas du même niveau

de protection en ce qui concerne l’accès et la publication.

Aux termes de l’article 13 de la loi CADA, les informations publiques comportant des

données personnelles peuvent être réutilisées, soit si la personne concernée y a consenti,

soit si elles ont été rendues anonymes ou, à défaut, si une disposition législative ou

réglementaire le permet. La question de l'anonymisation des données mêle des enjeux

économiques et de libertés publiques. Plusieurs questions se posent :

- Jusqu’à quand faut-il parler d’identification indirecte ?

- Qui doit anonymiser les données ? A la lecture des dispositions de la loi

« Cada », l’opération ne devrait pas être assurée par le réutilisateur, mais par

l’administration détentrice des données ou ses sous-traitants.

- Qui doit assumer la charge financière des opérations d’anonymisation ?

- Comment procéder à l’anonymisation ? Cette question est délicate car il ne

s’agit pas seulement de rayer les nom et prénom.

- Quelle est l’efficacité réelle des mesures d'anonymisation adoptées ? À cet

égard, seule l’anonymisation manuelle, « artisanale », au cas par cas, semble

aujourd’hui opérationnelle, faute d’outils techniques performants.

- Qui est habilité à procéder au recueil préalable du consentement de la personne

concernée en cas de réutilisation de données non anonymisées ?

Il ne faut pas se faire d’illusion : l’anonymisation des données ne résoudra pas la totalité

des problèmes d’identification : les données ainsi expurgées peuvent souvent redevenir

indirectement identifiantes, pour peu qu’on les rapproche d’autres sources d’informations.

♦♦♦

Table ronde n° 1 : Données publiques, données personnelles, données anonymes : où est la frontière ?

-Simon Chignard, consultant, conférencier et auteur de « L’Open data, comprendre l’ouverture des données publiques » ; -Michel Isnard, chef de l’unité des affaires juridiques et contentieuses à l’INSEE ; -Jérémie Valentin, chef de Projet Open data de la Ville de Montpellier ; -Claire Gallon, cofondatrice et administratrice de Liber’TIC.

L’objectif de la table ronde est d’abord de tenter de mieux cerner les contours des notions

clés de données personnelles et d’anonymat et de s’entendre sur le champ couvert par les

données personnelles incluses dans les informations publiques susceptibles de faire l’objet

de communication, de mise à disposition sur une plateforme Open Data et de réutilisation:

Quelles sont les données personnelles susceptibles d’être concernées par l’Open data ?

Qu’entend-on par données personnelles ? Par données anonymes ? Comment anonymiser

les données ?

Sophie VULLIET-TAVERNIER, directrice des études, de l’innovation et de la prospective

(DEIP) de la CNIL et animatrice de cette table ronde, rappelle en préambule, en quoi la

CNIL est concernée par l’Open Data : la notion de donnée à caractère personnel est

largement définie dans la directive de 1995 et dans la loi du 6 janvier 1978 modifiée (article

5

2); de plus, la CNIL applique cette définition en considérant la nature et le nombre des

données, l’importance de l’échantillon, les caractéristiques du traitement, etc. (cf. annexe 1 :

Présentation).

Elle donne ensuite la parole à Simon CHIGNARD , consultant et auteur de L’Open Data :

comprendre l’ouverture des données publiques, en lui demandant si, à son sens et au vu de son

expérience et des préoccupations quotidiennes des collectivités locales engagées dans

l’Open Data , la problématique des données personnelles constitue aujourd’hui un frein ou

est susceptible de constituer un frein à l’ouverture des données publiques ?

S’il n’existe pas de définition de ce qu’est une « donnée ouverte », la donnée personnelle

et la vie privée en tracent une frontière naturelle, qui n’en est pas moins floue. Pour illustrer

la problématique, Simon CHIGNARD cite l’exemple du fichier des prénoms donnés dans

l’année aux nouveau-nés d’une commune. Ce fichier, vendu par l’INSEE au niveau

national, est « ouvert » sur le portail Open Data de plusieurs municipalités. Cependant, sur

certains sites de collectivités locales, certains prénoms « rares » n’y figurent pas en-deçà

d’un seuil (5, 6 ou 10 occurrences minimales pour un prénom), lequel varie d’une commune

à l’autre sans raison apparente, et sans que l’on sache vraiment l’origine de cette règle

(certaines municipalités invoquant la CNIL). Cette pratique n’est pas sans conséquence :

selon Simon Chignard, de 40 % à 60 % des prénoms ne figurent pas dans ces fichiers, d’où

le manque de fiabilité et donc d’intérêt de ces bases de données, et ce alors même que les

risques d’atteinte à la vie privée résultant de la diffusion de ce type de données ne semblent

pas, en première approche, très élevés. L’intervenant s’appuie sur cet exemple pour mettre

en évidence l’attente de règles et de recommandations pratiques, notamment de la part de

la CNIL.

Simon CHIGNARD fait par ailleurs remarquer que, dans l’Open data, la valeur n’est pas

dans la donnée mais dans la réutilisation qui en sera faite. Or, Ces réutilisations sont

souvent impossibles à anticiper d’où la question du respect effectif du principe de finalité.

Il relève que le caractère personnel des informations publiques est souvent mis en avant

ou invoqué pour justifier le refus de les communiquer ou de les mettre à disposition en

Open Data, ce qui restreint la liberté de réutilisation. Aussi souhaite-t-il que le débat ne se

limite pas aux cas sensibles (archives, données de santé, décisions de justice, etc.) et qu’il

permette de déboucher sur des conseils pratiques à l’intention des administrations,

collectivités territoriales et réutilisateurs afin de leur permettre de déterminer en pleine

connaissance de cause si les bases de données dont la mise à disposition est envisagée

comportent ou non un risque réel de réidentification des personnes et d’impact sur leur vie

privée.

Michel ISNARD, chef de l’unité des affaires juridiques et contentieuses de l’INSEE,

rappelle le principe du secret statistique de l’article 6 de la loi n°51-711 du 7 juin 1951, avant

de présenter les trois modalités de diffusion d’informations auxquelles l’INSEE a recours

(cf. annexe 2 : Présentation) :

des données agrégées, diffusées sous forme de tableaux ;

des données individualisées mais anonymes, excluant tout élément permettant une

identification, même indirecte (cf. fichiers « Grand Public » et fichiers de Production et

de Recherche, destinés aux chercheurs) ;

des données individuelles « confidentielles » incluant des éléments permettant

l’identification directe ou indirecte des personnes concernées, qui ne peuvent être

diffusées que sous certaines conditions, notamment après examen du projet par le

http://www.legifrance.gouv.fr/affichTexteArticle.do?cidTexte=JORFTEXT000000888573&idArticle=LEGIARTI000006528413&dateTexte=&categorieLien=cid

6

comité du secret statistique (dont fait partie la CNIL). L’accès aux données de ce type,

réservé aux chercheurs, s’effectue à partir du Centre d’accès sécurisé distant (CASD)

géré par le Groupe des Écoles nationales d’économie et statistique (GENES).

L’INSEE peut refuser de transmettre les données s’il estime que celles-ci sont couvertes

par le secret statistique. La loi « Cada » ne vise certes pas expressément le secret statistique,

pour autant les notions de secret industriel et commercial, de secret fiscal et, de façon plus

générale, de respect dû à la vie privée reprennent les intérêts définissant le secret

statistique.

Michel ISNARD expose un cas pratique pour illustrer les difficultés de la diffusion des

données anonymisées de l’INSEE : les statistiques sur les revenus des habitants. Il évoque la

technique du « carroyage des données ») qui consiste à découper le territoire national en

carreaux de 200 mètres de côté et à localiser les données dans ces carreaux afin de donner

une certaine stabilité dans le temps à leurs modalités de diffusion et permettre de comparer

« l’évolution d’un même carreau ». Cette méthode est surtout utilisée pour les données

fiscales. L’idée de départ était de donner aux géographes une idée du capital géographique

(données sociodémographiques ou niveau de revenus de la population par carreau). Or, du

fait de l’inégale répartition de la population sur le territoire, un carreau sur deux est vide et

un bon nombre d’autres carreaux sont trop peu peuplés pour garantir l’anonymat des

données. Après recoupement avec un autre fichier, épousant par exemple les limites

administratives des communes, il devient possible d’identifier la situation de certaines

personnes. L’évolution des limites territoriales de certaines communes doit également être

prise en considération. Ce dispositif de carroyage n’étant actuellement plus satisfaisant, la

CNIL va être saisie de cette difficulté pour laquelle l’INSEE a envisagé plusieurs pistes de

solution.

Jérémie VALENTIN, chef de projet Open data pour la ville de Montpellier, souligne que

jusqu’à présent la question des données personnelles n’a pas constitué une préoccupation

majeure. En effet, sur plus d’une centaine de jeux de données disponibles, seule une dizaine

concerne peu ou prou des données personnelles.

Il n’a été confronté à cette question qu’à 3 reprises :

les données qui se rapportent à des agents de la collectivité ;

les quelques données qui concernent des citoyens, telles que les données des permis

de construire (numéros de dossiers, nom d’architecte, nom et prénom du

propriétaire), dont il conviendrait, selon lui, d’éviter qu’elles ne soient utilisées par

des promoteurs3 ;

3 [cf http://www.cada.fr/urbanisme,6227.html] la Cada a rappelé que « constituait un document communicable à

une entreprise la liste des permis de construire d’une commune [contenant des données personnelles : cote archives

du dossier, numéro de permis, nom et prénom du bénéficiaire, lieu de construction, mentions sur la nature de la

construction, année du permis] mais que sa réutilisation à des fins commerciales devait satisfaire aux exigences du

chapitre II de la loi du 17 juillet 1978 ainsi qu’aux dispositions de la loi du 6 janvier 1978 (20073182). Dans le cas d’un

registre des autorisations d’occupation des sols, qui contient des données à caractère personnel [numéro

d’enregistrement de la demande, dates de dépôt et date d’affichage de celle-ci, nature des travaux, nom et

adresse du demandeur, adresse du terrain, référence cadastrale et superficie, nature de la décision, numéro

d’affichage, dates de commencement et d’achèvement des travaux, conformité et éventuelles informations], elle a

rappelé qu’il appartient à l’administration de mettre en garde la société ayant sollicité la communication sur les obligations

qui lui incombent en vertu du chapitre II de la loi du 17 juillet 1978 et de la loi du 6 janvier 1978, notamment son article

36, qui subordonne la réalisation d’un traitement de données à caractère personnel à des fins commerciales à l’accord exprès

de la personne concernée ou à l’autorisation préalable de la CNIL » (20080010).

http://www.casd.eu/

http://www.cada.fr/urbanisme,6227.html

http://www.cada.fr/conseil-20073182,20073182.html

http://www.cada.fr/conseil-20080010,20080010.html

7

les données relatives aux membres d’associations, qui supposent le recueil préalable

du consentement des personnes concernées.

S’agissant des permis de construire, il est demandé si le fait qu’ils soient accessibles pour

une certaine finalité, affichés sur le terrain à titre de publicité légale ou communicables à

tout demandeur pour sa parfaite information, donne le droit d’en permettre la mise à

disposition pour une toute autre finalité.

Force est de reconnaître qu’aujourd’hui, les procédés d’anonymisation des fichiers

utilisés sont artisanaux : la suppression de certains champs se fait manuellement, au cas par

cas, au risque de laisser passer des données identifiantes (par exemple des metadonnées).

Un besoin de conseils pratiques se fait ressentir là aussi.

Une autre question se posera prochainement à propos de la publication des statistiques

annuelles sur les mariages : les informations publiées pourront-elles intégrer sans risque

des informations concernant le sexe des mariés ?

De manière générale, le CIL (Correspondant Informatique et Libertés) n’est actuellement

pas associé officiellement aux projets Open data ; ce qui n’interdit pas qu’il puisse être

ponctuellement consulté.

Jérémie VALENTIN propose que les personnes en charge de l’Open data puissent

bénéficier d’une journée de sensibilisation à la CNIL et puissent demander un audit par la

CNIL des catégories de données concernées.

Claire GALLON, cofondatrice et administratrice de l’association Liber’TIC, clôture cette

première table ronde. Liber’TIC se donne pour mission d’encourager la réutilisation des

données ouvertes mises à disposition sur les plateformes Open data. Il y a trois ans, aucune

donnée personnelle ne se trouvait parmi ces données. Aujourd’hui, quelques jeux de

données contiennent des données personnelles, notamment par recoupement avec des

données récupérées sur d’autres sources que les portails Open Data. Claire Gallon souligne

le fait que les réseaux sociaux disposent de données bien plus précises et riches que celles

mises à disposition sur les plateformes d’Open Data. Le principal frein au développement de

l’Open data vient en réalité des producteurs d’informations publiques et de recherche, qui

manquent de règles précises.

Elle insiste sur le fait que l’anonymisation entraîne toujours une perte d’informations.

Or, le manque de finesse des données est un frein à leur réutilisation. En conclusion, Claire

GALLON préconise une anonymisation en amont des données pour permettre leur

réutilisation « paisible et légale ».

Au cours des débats organisés avec la salle, il est précisé que :

un des principes voulus pas l’Open data est d’exclure toute déclaration / formalité

préalable d’usage (à l’exception justement des données personnelles dont la

réutilisation est soumise aux dispositions de la loi informatique et libertés) et toute

discrimination entre les réutilisateurs ;

toutes les informations du secteur public relèvent in fine de la propriété de l’Etat, quel

que soit leur détenteur ;

l’appréciation des mesures d’anonymisation à effectuer dépend aussi des données qui

sont accessibles par ailleurs, par le producteur de données ou toute autre personne

(article 2 de la loi IL) ;

le groupe européen des autorités de protection des données (dit le G 29) travaille

actuellement sur un avis, à paraître en fin d’année, relatif aux modalités

d’anonymisation ;

8

des statisticiens réfléchissent actuellement au niveau européen à de nouvelles

méthodes d’anonymisation sur la base de scénarios d’intrusion.

Gaëtan GORCE, sénateur et membre de la CNIL, déclare ne pas être hostile à l’Open data,

mais rappelle que le droit au secret est un des principes de la démocratie. C’est pourquoi il

estime que chaque collectivité devrait au préalable mesurer l’impact possible sur la vie

privée de la diffusion de toute nouvelle donnée publique susceptible, dans leur

réutilisation, de permettre une réidentification des personnes. Il souhaiterait également que

la responsabilité du réutilisateur puisse être engagée en cas de violation des règles

applicables.

Benjamin OOGHE-TABANOU, cofondateur du collectif Regards citoyens, demande, à

propos des données carroyées, s’il ne pourrait pas être envisagé qu’elles puissent être le cas

échéant agrégées là ou un risque de réidentification est constaté.

Michel ISNARD répond que l’INSEE réfléchit à une telle approche. Il ajoute cependant

que cette solution pourrait toutefois ôter tout intérêt à la base, la valeur ajoutée du

carroyage étant de fournir une donnée géographique sur un espace constant dans le temps.

Un agent de la CNIL rappelle que le projet de règlement européen, en son considérant 23

(comme le considérant 26 de la directive de 1995), indique qu’« il y a lieu d'appliquer les

principes de protection à toute information concernant une personne identifiée ou identifiable. Pour

déterminer si une personne est identifiable, il convient de considérer l'ensemble des moyens

susceptibles d'être raisonnablement mis en œuvre, soit par le responsable du traitement, soit par

une autre personne, pour identifier ladite personne. Il n'y a pas lieu d'appliquer les principes de

protection aux données qui ont été rendues suffisamment anonymes pour que la personne

concernée ne soit plus identifiable ». Le terme « raisonnablement » et la dernière phrase ne

figurent pas dans la loi « Informatique et Libertés » modifiée en 2004.

♦♦♦

Table ronde n° 2 : Données publiques, données personnelles : quelle gouvernance et quels modèles économiques ?

-Mohammed Adnene Trojette, auditeur à la Cour des Comptes ; -Thomas Saint- aubin, responsable du pôle de la stratégie à la Direction de l’Information Légale et Administrative ; -Benjamin Ooghe-Tabanou, cofondateur du collectif Regards citoyens ; -Charles Népote, chef de projet « Partage des données publiques » à la FING ; -Jean-Marc Lazard, directeur et cofondateur d’OpenDataSoft ; -François Bancilhon, directeur de Datapublica.

Romain LACOMBE, chargé d’innovation et de développement à Etalab, anime la table

ronde.

Il précise en préambule que la table ronde a pour objet de réfléchir sur le cadre juridique de

la réutilisation des données, la responsabilité des réutilisateurs, les outils susceptibles de

maîtriser les risques pour la vie privée (modalités d’accès aux données, contenu des

licences, etc.), ainsi que la portée du consentement à la réutilisation de ses données. Quel

cadre pour la réutilisation des données ? Quelle responsabilité pour les réutilisateurs ?

Quels outils pour maîtriser l’impact « vie privée » (modalités pratiques pour accéder aux

9

données, contenu des licences, …) ? Le consentement à la réutilisation de ses données : vraie

ou fausse garantie ? Comment le recueillir ? Quelle valorisation pour l’Etat, des données

qu’il détient ?

Mohammed Adnène TROJETTE, auditeur à la Cour des comptes, a été chargé par le

Premier ministre d'une mission sur l'ouverture des données publiques (Open Data) et les

redevances de réutilisation (le rapport devrait être rendu cet été 20134). Interrogé sur la

valorisation possible pour l’Etat des données publiques il souligne qu’actuellement il

n’existe pas vraiment d’étude disponible sur ce que peut rapporter le marché de l’Open

Data5. Il regrette l’absence d’informations synthétiques sur les données ouvertes, les cas

dans lesquels des redevances sont dues, ainsi que sur les conditions de réutilisation fixées

dans les licences. La mission qu’il effectue montre que l’instauration des redevances est

souvent motivée par des difficultés budgétaires des administrations et par les réticences de

celles-ci à diffuser leurs données. A cet égard, la protection des données aujourd’hui

constitue souvent un alibi pour ne pas fournir les données mais les progrès techniques en

matière d’anonymisation constituent une vraie opportunité économique pour promouvoir

l’ouverture des données.

Thomas SAINT-AUBIN, responsable du pôle stratégie à la Direction de l’Information

Légale et Administrative (DILA), intervenant en son nom personnel, évoque les différentes

catégories juridiques qui existent en matière de données, que ce soient les lois CADA et

CNIL ou celles en matière de droit d’auteur. Ces contextes différents montrent qu’il est

possible de challenger les logiques binaires « vie privée / transparence », en jouant sur la

granularité de l’ouverture et les licences. Dans ce cas, il faudrait inventer des systèmes de

licences différenciées sur les données personnelles qui permettent d’indiquer clairement ce

qu’on autorise et n’autorise pas en termes de réutilisation. Le système pourrait alors

s’inspirer de celui existant pour le droit d’auteur avec les licences Creative Commons : on

peut imaginer des politiques d’accès, de diffusion et de réutilisation de ses données

personnelles, avec des déclinaisons selon que ces données sont disponibles en stock

(permettant le téléchargement des données) ou en flux (permettant l’utilisation via une

API), et que ces données soient nominatives ou non, pseudonymisées, anonymisées…

Thomas SAINT-AUBIN imagine ainsi un système emboité de diverses catégories de

« Licences d’Informations Publiques »

Un tel référentiel de permissions et de contraintes serait une manière innovante de

penser la relation entre la personne et les données la concernant. Tout comme certains ont

ainsi imaginé des licences « copyleft » en opposition au « copyright » on pourrait imaginer

un concept de « privacyleft », permettant à la personne de revenir sur les permissions

accordées si le réutilisateur ne respecte pas les contraintes.

Pour conserver le modèle français de droit à la vie privée face à la vision anglo-saxonne

de la privacy, il faut en tout cas selon Thomas SAINT-AUBIN combiner nouveaux outils

juridiques et nouveaux outils techniques : l’usage d’une interface de programmation applicative

(API) par le ministère de la justice lors des alertes enlèvements permet ainsi, en conservant

la maîtrise des données diffusées, de garantir le droit à l’oubli.

4 Le rapport devrait être prochainement rendu public (http://simplification.modernisation.gouv.fr/mesure/publier-un-rapport-sur-le-modele-economique-des-redevances-dutilisation-des-donnees-publiques/?public=&thematique=ouverture-des-donnees)

http://simplification.modernisation.gouv.fr/mesure/publier-un-rapport-sur-le-modele-economique-des-redevances-dutilisation-des-donnees-publiques/?public=&thematique=ouverture-des-donnees



10

Benjamin OOGHE-TABANOU, cofondateur du collectif Regards Citoyens, travaille depuis

4 ans sur la mise à disposition des données de la vie politique (cf. www.nosdéputés.fr et

www.nossénateurs.fr) afin de faciliter un contrôle et un dialogue citoyen. Il se dit à la fois

engagé dans le numérique et militant du respect de la vie privée. Malgré son attachement à

la CNIL, il reste perplexe face à ses récentes prises de position qui peuvent donner à penser

que la Commission s’érige « contre la transparence de la vie publique ». Il craint en effet que

le respect des données personnelles ne soit instrumentalisé par certains pour s’opposer à la

diffusion des informations publiques et faire obstacle à la transparence de la vie publique.

Il cite l’exemple de l’avis rendu dans le cadre des projets de décret dits « Sunshine Act6 »

par lequel la CNIL propose des mesures techniques restreignant l’indexation sur les

données personnelles, ce qui empêcherait tout traitement en masse des données et

interdirait de mettre au jour des liens existant entre groupes pharmaceutiques et médecins.

Les citoyens pourraient uniquement accéder aux données concernant un médecin

déterminé. Cette solution empêcherait ainsi la transparence recherchée pourtant

initialement par le législateur.

De par l'expérience de manipuler des données nominatives relatives à l'activité des

parlementaires, Regards Citoyens estime indispensable de bien distinguer les notions

d'informations privées et de données nominatives démocratiques non personnelles. Dans

les récents débats parlementaires relatifs à la transparence de la vie publique, l'association

s'est ainsi exprimée contre la publication des déclarations de patrimoine des élus et

décideurs publics par souci du respect de la vie privée. Elle estime en revanche que les

informations démocratiques nominatives telles que l'évolution de ces patrimoines ou les

liens d'intérêts déclarés ont vocation, dans une ambition de transparence, à être des

données publiques et réutilisables.

Est présentée la démarche entreprise par Regards Citoyens pour obtenir la liste des

personnes auditionnées par l’Assemblée nationale entre 2007 et 2010 à partir de

l’exploitation des listes de personnes auditionnées annexées à certains des rapports officiels

publics des députés. Les « citoyens » ont pu compléter ces listes en précisant les noms et

activités des personnes auditionnées (par une démarche collaborative d’enrichissement des

données dite « crowdsourcing »). L’objectif de cette étude de Regards Citoyens et

Transparency International France était de mesurer la place des groupes de pression parmi les

personnes auditionnées. Il regrette d’avoir eu des difficultés pour obtenir une réponse claire

de la CNIL sur la possibilité de mettre en ligne ces données. Trois courriers de la CNIL ont

été reçus par l'association : l'un demandant l'anonymisation (septembre 2010), l'autre

évoquant un problème d'interprétation de la loi CADA (février 2011) et un troisième rédigé

un an après la publication de l'étude7. Dans le doute, l’ensemble a été anonymisé, seule

l’identité des structures pour lesquelles les personnes auditionnées travaillent est accessible.

Benjamin OOGHE-TABANOU estime qu’au-delà de l’Open data qui, par définition, ne

concerne pas les données personnelles, il serait préférable que la CNIL consacre plutôt ses

6 Décret du 21 mai 2013 relatif à la transparence des avantages accordés par les entreprises produisant ou commercialisant des produits à finalités sanitaire et cosmétique destinés à l’Homme ; dans son avis sur le texte, la CNIL, afin de concilier l’objectif de transparence voulu par le législateur et la protection des données personnelles prévues par la loi du 6 janvier 1978 , a demandé que soient protégées du référencement par tout moteur de recherche externe les données identifiantes déposées sur le site internet. Cette position a été interprétée comme empêchant désormais de mener des études ciblées sur le réseau d’influence de tel ou tel laboratoire. 7 Cf. correspondances de la CNIL du 20 septembre 2010, de février 2011 et du 3 janvier 2012

http://www.nosdéputés.fr/

http://www.nossénateurs.fr/

http://www.cnil.fr/linstitution/actualite/article/article/la-transparence-des-liens-dinterets-dans-le-secteur-de-santeen-questions/

11

séminaires sur le Big Data dont les impacts sur la vie privée sont en revanche avérés et plus

inquiétants jour après jour.

Charles NEPOTE, chef du projet « Partage des données publiques » à la FING, estime que

le développement de l’Open data ne doit pas être compris comme uniquement lié à des

opportunités économiques. Son objectif est plutôt la sérendipité8 et donc le « dé-contrôle »

en amont sur les réutilisations : il faut accepter d’être surpris par les usages qui seront faits

des données. C’est pour cela que l’Open data s’accommode si mal des notions de finalité

définie. Globalement, Charles Népote considère que nous assistons en fait à un mouvement

croissant d’« autonomisation » des données. À cet égard, il regrette l’absence des acteurs du

crowdsourcing. Il se dit également surpris que les acteurs publics ne parlent pas davantage

d’éthique des données et évoque l’exemple du conseil général de Saône et Loire qui a créé

un comité d’éthique sur les questions d’Open data.

Jean-Marc LAZARD, directeur et cofondateur d’OpenDataSoft, décrit le processus que

suivent les acteurs publics dans leur démarche d’Open data et le rôle que joue son entreprise

dans leur accompagnement. Selon les cas, les acteurs publics cherchent en effet des

solutions « clés en main » ou bien souhaitent développer eux-mêmes des solutions

techniques et des plateformes. Globalement, ces projets imposent aux acteurs publics de

mener une réflexion sur le patrimoine informationnel et sur la gouvernance des données.

Selon lui, un aspect positif de l'Open data ne doit pas être négligé : il pousse les acteurs

publics à s’interroger sur la qualité de la donnée dont ils disposent.

François BANCILHON, directeur de Datapublica, estime qu’il faut dépasser le rôle

d’épouvantail que certains font jouer à la CNIL. Le problème principal vient de ce que le

principe de finalité apparait contradictoire et, en tout état de cause, est fortement remis en

question, avec la mécanique de l’Open data. Cependant, il ne faut pas se focaliser sur ces

aspects difficiles. Avant toute chose, il reste de nombreuses informations publiques

dépourvues de donnée à caractère personnel et qui ne sont toujours pas accessibles (ex. la

carte scolaire). Pour autant, là où le problème existe, François Bancilhon estime que les

règles de protection des données doivent concerner les usages plutôt que les données.

♦♦♦

L’après-midi était organisé autour de 4 ateliers ayant lieu en parallèle. Les participants à la

journée étaient libres d’assister et de participer à n’importe lequel de ces ateliers, et ceux-ci

étaient entièrement dédiés à l’échange et au débat entre les participants, à partir d’une

animation générale par des agents de la CNIL et des experts invités. Les éléments de

compte-rendu sont essentiellement issus des notes prises par les animateurs et par les

participants eux-mêmes, sur un outil de prise de note collaboratif en ligne mis en place

pour l’occasion. Ils ne sont donc pas exhaustifs.

Atelier n° 1 : Comment anonymiser ?

Atelier animé par Gwendal Le Grand, chef du service de l’expertise informatique à la CNIL

8 Néologisme, signifiant “Fait de faire une découverte par hasard et par sagacité, souvent alors que l’on cherchait autre chose » http://fr.wiktionary.org/wiki/s%C3%A9rendipit%C3%A9

http://fr.wiktionary.org/wiki/s%C3%A9rendipit%C3%A9

12

Gwendal LE GRAND présente la problématique de l’anonymisation : anonymiser, ce

n’est pas seulement supprimer toute mention des nom et prénoms : il faut aussi supprimer

tout lien, direct ou indirect, entre des données et une personne physique identifiée ou

susceptible de l’être. La CNIL n’impose pas de méthodes d’anonymisation particulières. Il

est parfois difficile de trouver la meilleure technique, celle qui tiendra compte de ce qu’il est

nécessaire de conserver. Quelques-unes de ces techniques, plus ou moins robustes, sont

présentées : la suppression, le masquage, la substitution etc. (cf. présentation en annexe).

Il y a plusieurs manières de réidentifier des personnes :

par croisement de données internes, en apparence non personnelles, qui étaient

jusque là séparées (la combinaison de deux données qui, séparément, semblaient être

anonymes peut devenir indirectement nominative) ;

par croisement de données non personnelles avec des sources externes de données

personnelles (le croisement d’un fichier anonymisé avec un autre qui ne l’est pas peut

lever l’anonymat des données du premier fichier).

Le pseudonymat peut rendre la réidentification plus difficile tout en permettant la

traçabilité. Il suffit pour cela d’avoir recours :

à une table de correspondance secrète ;

à un chiffrement réversible ;

à un procédé de hachage avec clé secrète, c’est-à-dire au remplacement des données

identifiantes par un nombre calculé grâce à une fonction irréversible. Cependant,

même s’il n’existe pas de fonction inverse, rien n’interdit de rejouer la fonction...

La pseudonymisation peut être faite plusieurs fois, avec plusieurs clés secrètes.

Quelques exemples d’anonymisation, basés sur des techniques plus ou moins robustes,

sont examinés :

- Le passe Navigo.

- AOL a proposé à des chercheurs des données censées être anonymes. L’adresse IP /

le cookie avait été remplacé(e) par un numéro. Mais les mots-clés portaient souvent

sur des proches, des centres d’intérêt et toute sorte d’informations qui, une fois

corrélées les unes avec les autres, redevenaient personnelles !

- Le double hachage du NIR avec l’algorithme FOIN.

Dans aucun de ces exemples, il n’y a d’anonymisation absolue. Tout dépend des

circonstances, des objectifs et des informations disponibles par ailleurs.

Le docteur Dominique BLUM propose deux « mauvais » exemples d’anonymisation

dans le domaine de la santé (cf. présentation en annexe) :

Un cas « d’appauvrissement enrichi » : des données de moyens séjours en milieu

hospitalier ont été diffusées. Il s’agissait d’un cas d’« Open data sans le savoir, avant

l’heure, dans des conditions risquées ». En effet, la procédure d’anonymisation n’était

pas efficace, dès lors que 90 % des dates de séjour étaient re-constituables.

Un cas de « ré-identification de notoriété », le fait que le même hachage soit

systématiquement utilisé pour tout patient séjournant à l’hôpital conduit à retrouver

facilement les patients qui ont été hospitalisés à plusieurs reprises.

Le docteur BLUM en conclut que les services de l’État devraient disposer d’une personne

chargée de réfléchir à ces questions, une sorte de « CIL Open data ». Il recommande que

seuls des extraits de base soient transmis, selon les usages envisagés, plutôt que la base

intégrale ; et que l’accès soit contrôlé.

13

Nicolas SOULIÉ, chercheur en économie à l’université de Paris-Sud, explique les

précautions prises pour pouvoir disposer d’une base de données anonymisées des plaintes

reçues à la CNIL et ce dans le cadre d’un travail de recherche financé par l’ANR

(programme ESPRI, présentation en annexe).

Nicolas de CORDES, chercheur à Orange Labs, présente un cas réel sur des données

téléphoniques de Côte d’Ivoire : après un premier « nettoyage » , une base de données a été

communiquée à un cercle restreint de partenaires qui ont proposé de supprimer certaines

catégories de données pour préserver l’anonymat (ex. : les données de communication des

zones très peu peuplées ; les données correspondant à la période d’un déplacement

important remarqué durant un laps de temps très court). À l’issue de la phase

d’anonymisation, la base a été communiquée à un cercle plus large, qui s’est engagé, sur

l’honneur, à ne pas faire un usage malveillant des données. Il serait certainement possible

d’améliorer au plan technique l’anonymisation des donnéesLes débats font d’abord

ressortir un problème de terminologie : l'anonymisation n’est souvent qu’une

pseudonymisation.

L’un des intérêts de l’anonymisation est de simplifier le travail des personnes qui vont

réutiliser les données, en les dispensant de toute formalité CNIL.

Est-il possible de procéder à une anonymisation complète et définitive de données

personnelles ? Il convient sans doute de distinguer entre une anonymisation « absolue » et

une anonymisation « relative » qui serait fonction de l’analyse de risques.

Plus on anonymise des données et moins elles sont utiles : l’anonymisation se traduit

toujours par une perte d'information. Il serait préférable d’inscrire la logique de

l’anonymisation dans le contexte d’une analyse de risques (cf. sur ce point règlement

européen sur les données statistiques).

La réalisation de scénarii d'intrusion peut permettre de réduire les risques de

réidentification des personnes concernées. On peut aussi faire appel à des « friendly hackers »

pour limiter ces risques. Une autre solution pourrait consister à gérer des clés différentes

par destinataire afin de limiter les possibilités de chaînage.

Qui doit payer pour ces sécurités ? Ne devrait-ce pas être celui qui souhaite utiliser la

base de données pour créer de la valeur à partir d’elle ? Il y aurait cependant lieu de

considérer le cas particulier des chercheurs universitaires.

Les participants ont conclu l’atelier sur le besoin de recommandations pratiques

expliquant comment il est possible d’anonymiser des données personnelles.

♦♦♦

Atelier n° 2 : Quels droits des personnes dans l’Open Data ?

Atelier co-animé par Simon CHIGNARD et Delphine CARNEL, juriste à la CNIL, en

soutien Alexandre QUINTARD de la mission Etalab et Sophie VULLIET-TAVERNIER,

directrice des études, de l’innovation et de la prospective à la CNIL ;

Le débat s’engage autour des limites de la notion de donnée à caractère personnel à

partir d’un cas concret évoqué par un représentant d’un conseil général : cette collectivité

14

territoriale a mis en ligne un système d’information géographique9 (SIG) où sont localisés

les arbres remarquables et / ou d'alignement. Or, la décision a été prise d’exclure du

traitement les informations concernant la localisation des arbres situés sur une propriété

privée, en application d’un principe de précaution défini par la collectivité elle-même.

A priori, il a en effet été considéré qu’il s’agissait de données personnelles dans la mesure

où ces éléments sont rattachés à des parcelles privées pour lesquelles l’identité du locataire

et/ou du propriétaire peut être connue par croisement (via un annuaire, l’extrait de propriété

cadastrale communicable de « façon ponctuelle » en application du Livre des procédures fiscales,

Google Maps, etc).

Cet exemple, qui peut paraître anodin, suscite de nombreuses réactions et échanges au

sein de l’atelier, certains estimant que cette appréciation est excessive et disproportionnée

eu égard aux risques potentiels d’atteinte à la vie privée, d’autres considérant qu’il s’agit

somme toute de faire application de la loi qui donne comme on le sait une définition

extrêmement large de la notion de donnée à caractère personnel. En tout état de cause, il

constitue une illustration finalement très topique des difficultés que rencontrent

aujourd’hui les acteurs de l’Open data pour apprécier si la loi Informatique et Libertés a

vocation ou non à s’appliquer, et témoigne de la nécessité pour la CNIL de diffuser des

recommandations pratiques.

Interrogé sur le point de savoir si la CNIL recevait beaucoup de plaintes sur les

questions d’Open data, un représentant des services de la CNIL indique que les plaintes

reçues par la CNIL à propos de données rendues publiques se rapportent plus souvent au

principe même de leur diffusion (exemple des comptes rendus municipaux mentionnant

l’arrêt maladie d’un agent municipal, l’allocation d’une prestation pécuniaire à telle famille

dans le besoin) qu'à leur réutilisation.

Un juriste de la CNIL explique qu’il existe parfois une confusion sur le régime de

protection applicable aux données personnelles qui font l’objet d’une publicité légale,

souvent considérées à tort comme librement réutilisables avec les souhaits de diffusion sur

Internet pour l’information du plus grand nombre.

L’Open Data se présente dès lors comme une opportunité pour revoir les modalités de

production, de communication et de publicité légale des informations du secteur public afin

de faire jouer pleinement la liberté de réutilisation.

Le plus difficile est de faire face à des données qui sont redevenues identifiantes après

croisement de plusieurs sources.

Un participant témoigne que, dans les collectivités territoriales, il est fréquent que les

correspondants « Informatique et Libertés » et les chefs de projet Open Data ne se

connaissent pas… Il en irait de même pour les CIL et les PRADA (personnes relais de la loi

« Cada »).

Un autre explique que de nombreuses mairies refusent, à tort, de transmettre les listes

électorales aux personnes qui sont habilitées à les demander, au motif que ces dernières ne

leur précisaient pas l'usage qui en sera fait. La CADA a dû rappeler que la seule restriction

posée par la loi concerne « un usage purement commercial ».Tout ceci témoigne d’une

méconnaissance des règles applicables, compréhensible compte-tenu de leur complexité et

9 Cf. http://opendata.hauts-de-seine.net/jeu-de-donnees/arbres-remarquables-du-territoire-des-hauts-

de-seine-hors-proprietes-privees#.UdwB0xa_DLk

http://opendata.hauts-de-seine.net/jeu-de-donnees/arbres-remarquables-du-territoire-des-hauts-de-seine-hors-proprietes-privees#.UdwB0xa_DLk

http://opendata.hauts-de-seine.net/jeu-de-donnees/arbres-remarquables-du-territoire-des-hauts-de-seine-hors-proprietes-privees#.UdwB0xa_DLk

15

de la difficulté à les interpréter, d’où un besoin impératif de faire de la pédagogie en la

matière.

La transposition de la directive du 26 juin 2013 sur la réutilisation des informations du

secteur public pourrait aussi fournir l’occasion d’une clarification et d’une simplification de

ces règles ainsi que d’une meilleure articulation entre la loi CADA et la loi Informatique et

Libertés. Ainsi, la notion d’« information publique », qui n’est pas clairement définie dans la

loi, devrait être précisée à l’occasion de la transposition de la directive.

De même les notions d’anonymisation et de consentement telles que prévues à l’article

13 de la loi CADA ne devraient-elles pas être précisées ou à tout le moins les modalités de

consentement définies ? Ne convient-il pas aussi de revoir la contradiction résultant de

l’article 13 (exigence du consentement) et l’article 32 VI de la loi Informatique et Libertés

(possibilité de dérogation à l’obligation d’information en cas de réutilisation des données à

des fins statistiques) ?

S’agissant de la loi Informatique et Libertés, sans remettre en cause la définition même

de la donnée personnelle, ne convient-il pas d’adapter les modalités d’application de la loi

selon que les jeux de données sont plus ou moins identifiants (et selon le niveau de risques)

et selon les types de réutilisation (notamment statistique) ?

Plusieurs questions générales sont posées :

- À quel moment l’intérêt du public pour une plus grande transparence de l’action

administrative peut-il l’emporter sur le risque d’atteinte à la vie privée ?

- Le cadre de protection, apporté par la loi « Informatique et Libertés » couplée à la loi

« Cada », ne devrait-il pas être modulé au regard des risques d’usage détourné

identifiés ?

Ne faudrait-il pas proposer un opt out en matière d’Open data ? Quant au niveau de

précision susceptible d’être utilisé dans la localisation des jeux de données, la question se

pose tout particulièrement à propos des données des relevés orthophotographiques10.

- À partir de quel niveau de précision ces relevés sont-ils soumis à la loi

« Informatique et Libertés » ?

- Ne faudrait-il pas répondre en fonction des risques attachés à ces publications, et

donc de ce qu’elles montrent ? Par exemple : voit-on une personne en train de

bronzer ? Distingue-t-on l'accès des maisons ? Google Street View floute certaines

parties des images diffusées, parfois de façon automatique, pour partie sur

demande. A été rappelée la stricte position adoptée par l’Allemagne face aux googles

street cars en exigeant de Google le recueil du consentement avant le passage des

voitures et la collecte des données.

Mais comment le droit d'opposition pourrait-il être organisé a posteriori ? La question se

pose dans des termes très différents pour les bases de données téléchargées, qu’il semble

impossible de modifier a posteriori.

Plusieurs pistes de travail sont envisagées dans l’attente de la modification éventuelle de

la loi CADA comme de la loi Informatique et Libertés :

Pourrait-on s'appuyer d’avantage sur les CIL ? Ne faudrait-il pas indiquer clairement

les voies de recours sur les plateformes Open data ?

Pourrait-on établir une liste de données personnelles publiques dont la réutilisation

ne pose pas a priori de problème ?

10 Relevés aériens ou satellitaires géo référencés dans un système de coordonnées (ex IGN).

16

Ne conviendrait-il pas de faire des recommandations pratiques à partir des cas

particuliers déjà soumis à la CNIL ? Appartient-il à la CNIL de définir des seuils

d’agrégation de données permettant d’attester de leur anonymat ?

Une solution privilégiant une approche pragmatique et qui s’inspire du service

récemment mis en place au Royaume-Uni pourrait être de construire une collaboration

transversale entre la CNIL, la CADA/Etalab et l'INSEE (cf. la plateforme UKANON). Ce

type d’outil permettrait d’identifier les difficultés, méthodes et bonnes pratiques en

matière d’anonymisation, ce qui rejoint les éléments du débat soulevant le rôle du Big

Data (cf. note de présentation en annexe).

♦♦♦

Atelier n° 3 : Comment faciliter l’accès des chercheurs aux données publiques ?

Atelier animé par Geoffrey Delcroix, de la direction des études, de l’innovation et de la

prospective à la CNIL

Trois sujets ont successivement été abordés :

1. un exemple d’accès sécurisé à des données statistiques économiques très sensibles de

l’INSEE à partir du Centre d'accès sécurisé distant aux données ;

2. la question spécifique de l’utilisation à des fins de recherche de données de santé ;

3. la question de l’utilisation des données issues du web social par les chercheurs, en

particulier en sciences sociales.

Cet atelier vise à prolonger l’atelier sur l’anonymisation en dehors de l’Open data « pur et

parfait ». Si l’anonymisation est possible et efficace, les données personnelles disparaissent

et, avec elles, les barrières à une réutilisation libre et sans contrôle des données.

Mais l'anonymisation induit généralement une perte de qualité d'information, quelle que

soit la technique utilisée, au risque de restreindre la valeur ajoutée que l’on peut tirer de

l’exploitation d’une base de données. Il paraît donc utile d’explorer également les

conditions dans lesquelles il serait possible de concevoir un espace dans lequel la

réutilisation, mieux encadrée, permettrait des travaux à valeur ajoutée sur des données

personnelles, c’est-à-dire qui ne pourraient normalement pas être utilisées sans recueil d’un

consentement spécifique des intéressés. Les travaux de recherche bénéficieraient

particulièrement de la création de tels espaces.

Il s’agit donc de compléter le champ de la gouvernance des données, qui ne devrait pas

se limiter à l’Open data :

17

Détenues par une institution publique Détenues par un acteur privé

Données identifiantes

Données anonymes

Accès/utilisations Encadrés

(CASD)

Restitution (smart disclosure – MesInfos)

Open Data(data.gouv.fr)

Open Data privé(sncf / ratp)

Schéma de gouvernance des réutilisations de données

1. Kamel GADOUCHE présente le service offert à des chercheurs par le CASD. Créé il y a

près de trois ans pour mieux valoriser les données détenues par l'INSEE (ex. :

fiscalité, entreprises, etc.), ce système offre un accès sur « abonnement » à des

données individuelles, sécurisées et soumises à la confidentialité, telles que des

données individuelles très détaillées et couvertes donc par le secret statistique (loi n°

51-711 du 7 juin 1951).

Il ne s'agit donc pas d'Open data au sens strict : si le système donne accès à des données

brutes INSEE, dont on n’a retiré que le nom, le prénom, le NIR..., elles ne sont pas librement

réutilisables. Bien au contraire, leur utilisation est très sécurisée.

Le domaine couvert par le CASD s’est progressivement élargi hors des données INSEE

(ex. : données du ministère de l’agriculture etc. ; données fiscales sur les individus, après

adoption d’un projet de loi en cours etc.). D’autres extensions possibles vers d'autres types

de données et de producteur des données sont possibles en fonction des demandes.

Des accès privilégiés du même type existent depuis longtemps dans d'autres pays, hors

du monde numérique : des centres d'accès sécurisés physiques existent depuis 30 ans aux

États-Unis (Université de Cornell) et au Canada (StatCanada).

Lors du lancement du projet, deux verrous devaient être levés :

Le verrou juridique, qui fut levé en 2008 avec la modification de la loi sur le secret

statistique qui a ouvert aux chercheurs l'accès à des données détaillées sur les

ménages et individus.

Le verrou technique, qui s’est traduit par des contraintes de sécurité drastiques.

En pratique, dans les centres physiques, les chercheurs accèdent aux données dans un

lieu confiné. Ils sont fouillés avant et après la consultation. Pour le CASD, l’enjeu consistait

à offrir aux chercheurs un accès à distance sur un serveur central depuis leur institution de

recherche, ce qui compliquait les problèmes de sécurité.

18

Le CASD a donc développé un boîtier spécifique : la SD-box, qui leur permet de

travailler à distance sur les données sans avoir jamais la possibilité de récupérer les données

du serveur. L’environnement de travail intègre donc l’ensemble des outils nécessaires au

traitement des données. Pour pouvoir exporter ses résultats, un chercheur doit demander

leur vérification préalable par un opérateur du CASD. Cet environnement « étanche » est

aussi surnommé « bulle ».

L’authentification forte s’effectue au moyen d’une carte à puce et de l’empreinte digitale,

conservée sur un support mobile. Ces contraintes rassurent le producteur de données et

permettent aux chercheurs de travailler dans des conditions scientifiques satisfaisantes. Il a

fallu trouver un compromis entre bonnes conditions d'accès et sécurité.

Pour obtenir un accès, le chercheur doit déposer un dossier décrivant son projet de

recherche, qui est évalué par le comité du secret statistique, composé de représentants de

l’INSEE, de la CNIL, des syndicats et des producteurs de données. La délibération du

comité du secret statistique doit ensuite être suivie d’une décision de la direction des

Archives. Le chercheur déclare avoir connaissance des articles de loi et des sanctions qu’il

encourt en cas de violation des règles applicables. Il doit également suivre une demi-

journée de sensibilisation aux aspects juridiques et de sécurité.

La période d'habilitation est de 3 ans. La durée moyenne des projets est de 2 ans. Si au

bout de 3 ans la recherche n'est pas terminée, une procédure simplifiée de prolongation fait

intervenir le comité du secret statistique. Les chercheurs peuvent consulter l’ensemble des

catégories de données accessibles par l'intermédiaire du CASD. Mais ils ne peuvent traiter

que celles pour lesquelles ils ont été habilités.

L’accès est payant (83 € HT par mois comprenant un serveur, un accès, 20

entrées/sorties). En France, 500 chercheurs utilisent ces données pour environ 200 projets.

130 boîtiers sont déjà déployés (le boîtier peut être partagé entre plusieurs chercheurs qui

ont chacun leur carte avec identification par empreinte digitale). Beaucoup d'économistes et

de sociologues sont concernés, avec l’arrivée progressive d'autres chercheurs venant des

différents ministères (par exemple INRA pour l'agriculture).

Le CASD a été choisi comme équipement d'excellence dans un projet réunissant le

Genes, l’Insee, le GIS Quételet, HEC, ENS Cachan, l’École Polytechnique autour de ce projet

de mise à disposition des données de manière sécurisée. Par ailleurs, le Genes et l’Institut

Mines Telecom ont remporté en 2012 un appel à projet pour la création en France d’une

plateforme Big data tournant sur une infrastructure Hadoop. Ce projet devrait normalement

donner à la plateforme du CASD la possibilité d’intégrer dans son environnement d’autres

types de données, telles que des données issues du web. Le but serait d’offrir des solutions

de type « Big data » sans pour autant sortir des données de la « bulle », mais plutôt en

faisant entrer dans la bulle des données extérieures.

Plusieurs projets européens de centres d’accès sécurisés sont en cours : DwB (réseau de

centres d'accès sécurisé européens), Dara (projet Eurostat : centre d'accès sécurisé pour les

données européennes).

Le CASD est en quelque sorte un tiers de confiance entre l’organisme producteur de

données et les chercheurs. Il se charge de réaliser des appariements sécurisés pour mettre à

disposition des chercheurs des données enrichies. Il s’agit d’une méthode de confinement et

de « libération » sécurisée de la donnée —, pour permettre à des chercheurs d’accéder à des

données qui ne peuvent pas être rendues publiques à cause de leurs aspects individuels.

19

Cela permet une ouverture plus grande des données : les fournisseurs ne pourront plus

invoquer des motifs de sécurité pour refuser de fournir leurs données. Il organise une sorte

d'« Open data indirect », des chercheurs jouant le rôle d'intermédiaire par leurs travaux et

publications entre la donnée et le grand public.

La discussion a permis de souligner que cette approche était et devait être

complémentaire de l’Open data, comme une sorte de « deuxième cercle ».

Cela ne va pas pour autant sans quelques craintes associés : l’existence d’espaces de ce

type pourrait donner un prétexte à certains détenteurs de données, sacrifiant à des réactions

corporatistes (le secret légitimant prestige et pouvoir) de nouveaux arguments contre

l’ouverture des données, par exemple, en arguant que l’existence d’un tel procédé vient

combler entiérement le besoin de transparence et de réutilisation, alors qu’il n’a que

vocation à permettre un accès à des données confidentielles qui autrement ne seraient pas

accessibles du tout.

L’échange aura permis de constater qu’il n’existe aucune définition générique du

chercheur. Il ne s’agit pas seulement d’universitaires, ni même de chercheurs publics. Quid

de la question de la « recherche citoyenne » ? Les collectifs citoyens et les associations (ex. :

la CRIIRAD) pourraient-ils aujourd’hui demander à accéder au CASD ? La réponse à cette

question reste en suspens : Si cette demande est à des fins de recherche scientifique ou

historique, la loi leur permet d’en faire la demande mais il pourrait être nécessaire d’au

moins s'associer à un organisme de recherche et de montrer que le sujet de recherche ne

représente pour eux aucun intérêt personnel ou économique.

Plutôt que de disposer de droits exorbitants du droit commun, les chercheurs ne

devraient-ils pas plutôt pouvoir bénéficier d’une extension de finalité ou d’un recueil du

consentement incluant la recherche, sous réserve de procédures éthiques, juridiques et

techniques spécifiques ?

2. La CNIL reçoit par an 800 demandes d’autorisation de recherche dans le secteur de la

santé. Les données de santé ont une double finalité du point de vue de l’intérêt

général : permettre la bonne administration des soins ; permettre des recherches en

santé publique (détection d’épidémies, d’interactions médicamenteuses…).

Mais la finalité de la constitution des grandes bases de données médicales (SNIIRAM,

PMSI) n'est pas la santé publique : un grand nombre de bases de données constituées à des

fins administratives ne sont toujours pas accessibles par les chercheurs. Il faudrait donc

qu’ils puissent partir des données réelles de santé publique (données d'administration des

soins, bases médico-administratives).

Mais l'identifiant des bases médico-administratives est le NIR. Les appariements de

fichiers sont donc rendus extrêmement difficiles du fait du régime protecteur dont bénéficie

le NIR. La protection dont jouit le NIR a donc des effets négatifs en matière de santé

publique. L’habilitation des chercheurs dans ce domaine relève du parcours du combattant.

3. Les données du web social constituent un gisement de nouvelles données numérique

utilisables pour des recherches « in vivo », par exemple pour des chercheurs en

sciences sociales et humaines. Or, selon la loi, toute donnée publique (au sens de

librement accessible) n’est pas pour autant librement réutilisable.

Normalement, la solution pour passer de l’une à l’autre réside dans le recueil du

consentement des intéressés. Mais comment interroger les personnes concernées si leur

20

consentement n'a pas déjà été recueilli ? À moins de contacter des millions d’utilisateurs de

smartphones, des réseaux mobiles, de services de réseaux sociaux…

Dans certains cas, l’objet même de la recherche implique de ne pas délivrer une

information trop complète, sinon on risque de biaiser les comportements et de déformer les

résultats de la recherche. Et que faire si on ne peut pas informer et recueillir le

consentement ? Pour ajouter encore de la complexité, les données du web social peuvent

être soit directement soit indirectement accessibles. C’est ainsi que, sur Facebook, certaines

données ne sont accessibles qu’à des cercles restreints (les amis), mais elles restent

accessibles… par Facebook ou par l’intermédiaire d’applications tierces installées par les

amis.

Ce sujet renvoie à un problème de « concurrence internationale » entre chercheurs :

Facebook passe des accords avec des équipes de chercheur, soit maison (Facebook data

science team), soit d'universités, en particulier américaines (Stanford, UCSD...). Ces

chercheurs ont accès à des informations concernant des centaines de milliers de comptes

Facebook dont on a retiré les nom et prénom…

En France, le travail sur des bases de données « réalistes » est beaucoup plus complexe

pour des chercheurs. Cela induit :

un risque, fictif ou réel, de « délocalisation » des projets ou équipes de recherches ;

un risque de relégation des chercheurs français, contraints de travailler sur des bases

de données toujours identiques, peu pertinentes, anciennes et déjà très explorées.

C’est ainsi que la base des courriels internes de la société Enron, publiée par la justice

américaine, est très utilisée par des chercheurs français. Mais cette base a des limites

scientifiques. Les grandes revues scientifiques internationales à comité de lecture ont

tendance à privilégier les articles qui s’appuient sur des bases plus pertinentes et plus

représentatives au plan scientifique.

La CNIL constate, quant à elle, une certaine autocensure des chercheurs, persuadés que

des projets ambitieux sont impossibles et seront bloqués par les dispositifs d’évaluation

éthique et juridique.

♦♦♦

Atelier n° 4 : Open data et au-delà…

Atelier animé par Charles Népote et Daniel Kaplan (FING) / en soutien Romain Lacombe

(Etalab) et Olivier Desbiey (CNIL)

La thématique de cet atelier était volontairement ouverte et prospective en proposant

aux participants de réfléchir à des sujets connexes allant au-delà de l'Open Data

traditionnel.

Il s'agissait en particulier d'échanger sur les initiatives visant restituer les données aux

individus qu'elles concernent – c'est à dire une forme d'Open Data au service de chaque

citoyen – et dans ce contexte de s'interroger sur la libération de données ne provenant pas

seulement du secteur public mais pouvant émaner d'acteurs privés.

L'atelier s'est déroulé en 3 temps :

21

1. Présentation par Daniel Kaplan et Charles Népote des différentes initiatives type

« Smart Disclosure »

La FING est revenu sur le projet « Mes Infos » qu'elle pilote actuellement et les autres

initiatives existantes de par le monde partageant la même philosophie au Royaume-Uni

(MiData) et aux Etats-Unis (Smart Disclosure).

Daniel Kaplan a ainsi rappelé qu'à l'origine de Mes Infos se trouve la question de savoir

« ce qui se passerait si les administrations et les entreprises qui détiennent des informations à propos

d'individus leurs donnaient accès à ces données ? ». Si ces organisations détiennent des

informations sur les individus c'est parce qu'elles en ont besoin dans le cadre de leur

relation pour pouvoir les contacter, mieux comprendre leurs besoins, leur faire des offres

personnalisées, ... L'ensemble de ces arguments peut ainsi être retourné et appliqué aux

individus qui pourraient eux aussi être en mesure de mieux gérer leurs relations avec ces

organisations s'ils avaient la possibilité 1) d'avoir accès à ces mêmes données 2) de disposer

d'outils pour comprendre et tirer de la valeur de leurs propres données. C'est en ce sens que

le projet Mes Infos croise les réflexions d'autres communautés comme celle du VRM11 ou du

Quantified Self où l'on voit émerger de nouveaux intermédiaires qui fournissent des services

à valeur ajoutée aux individus sur la base de leurs données (mieux se connaître, être mieux

informé, outillé pour arbitrer des choix de vie, de consommation, ...). Dans le cadre de son

expérimentation prévue pour démarrer en septembre 2013 pour une durée de 6 mois avec

300 utilisateurs finaux, la FING fédère de grands acteurs issus du monde bancaire, de la

mobilité, opérateur de télécommunications, acteurs du Web, ... afin de tester en France

l'émergence d'un écosystème autour de la valorisation des données personnelles. Cet

écosystème serait composé de grandes entreprises, de leurs clients-utilisateurs et de ré-

utilisateurs qui vont proposer aux participants des services pour comprendre leurs

données.

L'initiative américaine « Smart disclosure » littéralement « divulgation intelligente » est

probablement le projet comparable (en partie du moins) le plus avancé et s'incarne par des

« buttons » de couleurs différentes correspondant à des verticaux que l'on va retrouver sur

les portails des services publics américains permettant aux individus de télécharger des

données les concernant dans un format interopérable (lisible par des machines) : green

button pour l’énergie, blue button pour la santé et purple button pour les données relatives

aux diplômes... Une nouvelle fois, la philosophie annoncée est une mise en capacité des

individus pour qu'ils soient dans les meilleures conditions pour opérer des choix « Personal

data can empower consumer to make better choices ». On retrouve un fondement similaire au

Royaume-Uni où la vision du projet MiData est d'aider le consommateur dans des

situations concrètes lorsqu'il doit par exemple contracter avec un fournisseur d'énergie ou

un opérateur mobile.

Dans une perspective « Informatique et Libertés» ces initiatives peuvent être

appréhendées comme un renouveau du droit d'accès et de rectification, plus fluide car

« APIsé », une forme de « droit d'accès 2.0 ».

2. Rapports d'étonnement et enjeux soulevés par ces nouvelles formes de restitution des

données aux citoyens-clients-consommateurs

11 VRM pour vendor relationship managment qui constituerait le symétrique des outils de CRM des entreprises.

http://fing.org/?Presentation,808

http://www.data.gov/consumer/page/consumer-about

https://www.gov.uk/government/news/the-midata-vision-of-consumer-empowerment

22

Un premier point de débat qui a surgi assez rapidement a été la question de l'apparition

de nouveaux risques de piratage de données personnelles qui pourraient surgir en raison

de la centralisation d'une quantité importante d'informations relatives à des individus. Ces

nouveaux modèles faisant généralement appel à une plateforme pour proposer des services

et faire le lien entre les entreprises et les individus, ces plateformes pouvant constituer des

« pots de miel » de choix pour des pirates mal intentionnés...Sur cet aspect, l'enjeu dans la

technique de restitution et d'accès aux données et plus généralement l’architecture de la

plateforme ne sont pas neutres. Une stratégie reposant sur des API décentralisées peut par

exemple permettre de circonscrire en partie ces risques en permettant la centralisation des

services et de la valeur ajoutée sur la plateforme mais pas la centralisation des données.

Ce point rejoignant plus globalement le thème de la confiance dans ce type de système :

au-delà des questions de fuites de données, comment est-on sûr que les individus ne vont

pas se retrouver sur-sollicités avec des appels de télémarketing tous les soirs ? Comment

sont gérées les autorisations par les individus de mise en relation par les fournisseurs de

service potentiels ? Comment se manifeste le contrôle de l'utilisateur ?

Sur ces interrogations, Daniel Kaplan a rappelé que ces initiatives s'inscrivaient dans le

cadre de la Loi I&L et que par ailleurs le niveau de granularité des autorisations

qu'accorderaient les individus à des applications ou services faisait pleinement partie des

aspects à expérimenter, et qu'il fallait éviter de tomber dans des « autorisations parapluie »

permettant de faire tout et n'importe quoi sur les données existantes.

Enfin, les autres points de discussion concernaient les conditions d'émergence de tels

écosystèmes avec le problème classique de « la poule et de l'œuf » – représentés par les

utilisateurs et les organisations – durant la phase d'amorçage de la plateforme. Dans les

pays anglo-saxons c'est l'Etat qui assume cette fonction et joue ce rôle de coordinateur. C'est

pour cette raison que le projet de La Fing12 s'est basé sur de grandes entreprises « pour

amorcer la pompe ».

3. Réflexion ouverte sur un cas d'usage concret mêlant données publiques et données

issues des individus

La dernière partie de l'atelier a en effet consisté à réfléchir sur un secteur particulier, en

l’occurrence celui de l'immobilier : quelles étaient les données disponibles qui pouvaient

impacter ce marché en introduisant une dynamique intermédiaire entre l'Open Data et les

programmes type smart disclosure, où des données initialement produites par des individus

ont une valeur pour la collectivité dans son ensemble.

Le cas de la startup israélienne Waze qui a conçu son modèle économique sur le

crowdsourcing pour construire un service de cartographie et de guidage GPS a été présenté

comme source d'inspiration où les données générées individuellement par chaque

utilisateur enrichissent les informations de trafic en temps réel et profitent à l'ensemble de

la communauté.

Ce travail a permis d'imaginer la richesse que pouvait offrir le recoupement de données

publiques (ex. : mesures de la pollution, statistiques,...), de données privées (ex. : évolution

des prix) et de données « crowdsourcées » issues d'individus (ex. : données d'une station

12 L'Etat accompagne financièrement le projet au travers de la DGCIS.

23

météo personnelle type Netatmo). Ce scénario a une nouvelle fois placé au centre des

débats la question de l'anonymisation des données issues des individus (cf. atelier 1).

♦♦♦

Conclusion

De nombreuses problématiques ont été abordées au cours de cette première journée

« Open CNIL ». Elles pourraient être résumées en ces termes.

a. Les données personnelles semblent encore peu présentes dans les jeux de

données aujourd’hui mises à disposition dans le cadre de l’open data et les

quelques exemples évoqués ne présentent pas ou peu de risques pour les

individus ;

b. Les acteurs de l’open data semblent peu formés et informés sur les enjeux

réels de la protection des données personnelles ;

c. Dès lors, ils éprouvent de réelles difficultés pour apprécier au cas par cas si

les données dont la mise à disposition et la réutilisation sont prévues peuvent,

ou non, être rattachées à des personnes physiques identifiables ;

d. En conséquence, le principe de précaution semble jouer de façon excessive,

d’où une attitude de prudence sinon de frilosité quant à la mise à disposition

des données ;

e. Il apparait également que le respect des règles de protection des données

personnelles peut servir d’alibi pour ne pas mettre à disposition des jeux de

données ;

f. Sur le plan de la gouvernance de l’open data appliqué aux données

personnelles, il s’avère que tant au plan national que local, les producteurs

comme les réutilisateurs ont aujourd’hui peu de contacts avec la CNIL ou

avec les CIL et expriment un besoin d’informations et de conseils pratiques.

g. En tout état de cause, la question se pose de savoir s’il ne serait pas opportun

de promouvoir une démarche d’analyse des risques auprès des producteurs

d’informations

h. On constate qu’aujourd’hui peu d’outils sont mis à disposition des

producteurs de données pour assurer l’anonymisation ; de plus, les

administrations, pour des raisons financières, éprouvent de réelles difficultés

à prendre en charge les opérations d’anonymisation. D’ailleurs, ce que

recouvre les notions d’anonymisation et de pseudonymisation n’est pas

toujours évident ; un besoin d’information et de mise à disposition de

solutions techniques d’anonymisation comme de recommandations d’usage

semble exister d’autant qu’est exprimée la crainte d’un risque important de

perte d’informations et d’appauvrissement du fait de l’anonymisation des

données, et donc la nécessité de trouver un juste équilibre ;

i. Côté réutilisateurs, plusieurs font le constat de la difficulté en pratique

d’appliquer la loi et notamment le principe de finalité quelque peu battu en

brèche par la logique même de l’open data (cf sur ce point article de

24

F.Bancilhon13). S’agissant de l’open data, le principe de finalité ne devrait-il

pas être « revisité » de façon à raisonner en termes de familles de finalités ?

Par ailleurs, la règle du consentement préalable des intéressés prévu à l’article

13 de la loi Cada semble très peu appliquée aujourd’hui, quasiment aucune

mesure d’organisation n’ayant été mise en place ; Enfin, se pose la question

de savoir si des données librement accessibles, car faisant l’objet de publicité

légale ou issues du web social, peuvent ou non être collectées pour d’autres

usages…

13 « Comment la CNIL devrait-elle aborder l’open data ? » http://www.data-publica.com/content/2013/03/comment-la-cnil-devrait-elle-aborder-lopen-data-par-francois-bancilhon/

http://www.data-publica.com/content/2013/03/comment-la-cnil-devrait-elle-aborder-lopen-data-par-francois-bancilhon/

http://www.data-publica.com/content/2013/03/comment-la-cnil-devrait-elle-aborder-lopen-data-par-francois-bancilhon/

Séminaire « Open Data, quels enjeux pour la protection des ...

Documents

Transcript of Séminaire « Open Data, quels enjeux pour la protection des ...