Big Data: de nouveaux outils à combiner aux savoirs établis et à encadrer par la délibération...

9
Statistique et société, Vol. 2, N° 4 décembre 2014 www.statistique-et-societe.fr | © Société Française de Statistique (SFdS) 33 A la différence de la statistique classique qui repose sur des conventions et sur des hypothèses, les algorithmes qui fouillent les mégadonnées en font surgir sans médiation apparente des corrélations qui suggèrent en « temps réel » (sur le mode de l’alerte, de la recommandation, de l’aide à la décision), des actions immédiatement exécutables. Ces algorithmes sont la source de multiples profilages, qui délimitent les opportunités de chacun, à la place de normes communes. Porteuse de services étendus et personnalisés, aussi bien que de découvertes scientifiques, la révolution numérique est aussi un risque pour tout ce qui ne se laisse pas réduire à la rationalité économique, et notamment pour la justice sociale et pour la délibération collective. Les individus entrent presque tous dans le jeu, en permettant l’exploitation de leurs « traces », parce que les architectures de choix ne leur laissent voir que les côtés positifs de leur consentement. Plutôt que vers un renforcement de leur pouvoir sur leurs données personnelles, c’est vers un contrôle public des systèmes de décision susceptibles d’affecter les personnes qu’il faudrait se diriger, à travers la loi ou grâce à des codes de déontologie professionnelle Statistique & Société : Votre réflexion envisage les BigData à la fois comme une nouvelle source de savoir et comme une nouvelle source de pouvoir – la fameuse « gouvernementalité algorithmique ». Nous allons aborder ces deux aspects successivement, si vous le voulez bien. D’abord, en quoi l’exploitation des mégadonnées est-elle pour vous différente de la mise en œuvre traditionnelle des outils de la statistique ? Antoinette Rouvroy : Pour moi, BigData signifie surtout le franchissement d’un seuil à partir duquel nous serions contraints (par la quantité, la complexité, la rapidité de prolifération des données) d’adopter une rationalité purement statistique, inductive, se bornant à repérer des patterns, c’est-à-dire des motifs formés par les corrélations observées entre des données numériques, indépendamment de toute explication causale. La répétition de ces « motifs » au sein de grandes quantités de données leur confèrerait une valeur prédictive. Ainsi voit- on apparaître, grâce à la visualisation algorithmique des relations subtiles entre les données, un tout nouveau type de « savoir », exploitable dans une multitude de domaines. L’ « intelligence » des algorithmes consiste en leur capacité à traiter statistiquement ces quantités massives, BigData : de nouveaux outils à combiner aux savoirs établis et à encadrer par la délibération publique Entretien avec Antoinette ROUVROY Chercheuse en Philosophie du Droit au Fonds National de la Recherche Scientifique (Belgique), rattachée au Centre de recherche Droit, Information, Société, Université de Namur

description

Entretien avec Antoinette Rouvroy, Statistique et société.

Transcript of Big Data: de nouveaux outils à combiner aux savoirs établis et à encadrer par la délibération...

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS) 33

    A la diffrence de la statistique classique qui repose sur des conventions et sur des hypothses, les algorithmes qui fouillent les mgadonnes en font surgir sans mdiation apparente des corrlations qui suggrent en temps rel (sur le mode de lalerte, de la recommandation, de laide la dcision), des actions immdiatement excutables. Ces algorithmes sont la source de multiples profilages, qui dlimitent les opportunits de chacun, la place de normes communes. Porteuse de services tendus et personnaliss, aussi bien que de dcouvertes scientifiques, la rvolution numrique est aussi un risque pour tout ce qui ne se laisse pas rduire la rationalit conomique, et notamment pour la justice sociale et pour la dlibration collective. Les individus entrent presque tous dans le jeu, en permettant lexploitation de leurs traces , parce que les architectures de choix ne leur laissent voir que les cts positifs de leur consentement. Plutt que vers un renforcement de leur pouvoir sur leurs donnes personnelles, cest vers un contrle public des systmes de dcision susceptibles daffecter les personnes quil faudrait se diriger, travers la loi ou grce des codes de dontologie professionnelle

    Statistique & Socit : Votre rflexion envisage les BigData la fois comme une nouvelle source de savoir et comme une nouvelle source de pouvoir la fameuse gouvernementalit algorithmique . Nous allons aborder ces deux aspects successivement, si vous le voulez bien. Dabord, en quoi lexploitation des mgadonnes est-elle pour vous diffrente de la mise en uvre traditionnelle des outils de la statistique ?

    Antoinette Rouvroy : Pour moi, BigData signifie surtout le franchissement dun seuil partir duquel nous serions contraints (par la quantit, la complexit, la rapidit de prolifration des donnes) dadopter une rationalit purement statistique, inductive, se bornant reprer des patterns, cest--dire des motifs forms par les corrlations observes entre des donnes numriques, indpendamment de toute explication causale. La rptition de ces motifs au sein de grandes quantits de donnes leur confrerait une valeur prdictive. Ainsi voit-on apparatre, grce la visualisation algorithmique des relations subtiles entre les donnes, un tout nouveau type de savoir , exploitable dans une multitude de domaines. L intelligence des algorithmes consiste en leur capacit traiter statistiquement ces quantits massives,

    BigData : de nouveaux outils combiner aux savoirstablis et encadrerpar la dlibration publique

    Entretien avec Antoinette ROUVROYChercheuse en Philosophie du Droit au Fonds National de la Recherche Scientifique (Belgique), rattache au Centre de recherche Droit, Information, Socit, Universit de Namur

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS)34

    complexes (textes, images, sons, localisations, trajectoires,), relativement peu structures, de donnes dans un temps record, pour en faire surgir non pas des relations causales explicatives mais des corrlations statistiquement signifiantes entre des lments a priori sans rapport.

    S&S : Cest donc trs diffrent de la dmarche classique adopte par la statistique publique ?

    AR : Lorsquon compare les pratiques statistiques nourries par les BigData aux statistiques classiques, on constate une srie de glissements, tant du point de vue des finalits que du point de vue des pratiques et techniques impliques.

    Lune des finalits classiques des statistiques est lobjectivation, la confirmation dhypothses poses a priori, alors que les nouvelles pratiques statistiques impliques dans le traitement des BigData visent prcisment dispenser davoir poser des hypothses a priori, et de dcouvrir celles-ci directement dans les mgadonnes par la grce dalgorithmes capables dy dtecter des corrlations statistiquement signifiantes. Une autre des finalits classiques des statistiques est la quantification : elle consiste rendre commensurables ou comparables entre eux, en les exprimant sous une forme chiffre, des lments de ralit htrognes. Ainsi, le benchmarking des chercheurs permet-il de comparer entre elles les performances de chercheurs spcialiss dans des domaines de recherche trs diffrents. De telles oprations de benchmarking prsupposent une srie de conventions dquivalence toujours imparfaites, controverses -, tablies lissue de discussions parfois longues entre reprsentants des disciplines concernes. En aval, elles permettent, ou obligent, suivant lvaluation positive ou ngative que lon peut faire de ces systmes, utiliser, pour valuer les mrites des uns et des autres, un langage commun, qui est celui des chiffres. Les pratiques statistiques nourries par les BigData scartent galement de cette finalit dorganisation de la commensurabilit : le datamining ne vise pas tablir de commensurabilit qui permette la discussion, mais, prenant au srieux lincommensurabilit irrductible des situations, dispense davoir discuter en faisant surgir des mgadonnes elles-mmes, automatiquement et si possible en temps rel, les patterns, profils ou catgories les plus oprationnels en fonction des finalits (de gestion des ressources humaines, de scurit, de marketing, etc.). Avec les BigData, nous ne sommes plus dans le monde un peu lent et conflictuel des conventions de quantification ouvertes sur lespace public : le datamining sinscrit dans un systme dimmanence totale, dans lequel la collecte des donnes nest plus oriente ni limite par aucun systme de catgories conventionnelles antcdentes ; on a supprim la couche dintermdiation que constituait la catgorie statistique et instaur, du mme coup, un rgime dindistinction entre la ralit et sa reprsentation.

    Enfin, dans la statistique classique, lide que lon ne prend pas en compte la totalit des donnes disponibles est trs importante. On slectionne les donnes sur lesquelles on veut travailler, alors que les ambitions dominantes des promoteurs dapplications nourries par les BigData reposent sur lidal dune coextension de la base statistique au rel (numris) lui-mme. Dans le contexte des pratiques statistiques classiques la slection consiste aussi ne pas tenir compte des points trop loigns de la moyenne ou de la normale , les considrer comme sources derreurs et de perturbations, les considrer comme du bruit exclure de la base statistique. Lambition des applications nourries par les BigData est dviter cette slectivit et ainsi, vritablement, dpuiser tout le possible en tenant compte des cas les plus singuliers, les plus loigns de la moyenne ou de la normale . A la diffrence des objets statistiques plus classiques propos desquels on peut toujours argumenter quils ne sont pas reprsentatifs de la ralit, quils accordent trop ou pas assez dimportance aux situations singulires, les modlisations algorithmiques nourries par les BigData ont lair dabsorber tout ce qui ntait pas pris en compte par les statistiques classiques : les points trop loigns de la moyenne (qui pouvaient faire dire que les statistiques, a ne vaut que pour les grands nombres, pas pour les cas individuels), ce qui nentrait pas dans les cases , cest--dire dans les catgories statistiques tablies par convention Dans le monde des BigData, on peut prendre en compte

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS) 35

    tous les points, y compris les plus atypiques, et on peut justement chercher analyser les comportements les plus rares : on smancipe de tout rapport la moyenne et la normale . Ds lors, la personnalisation automatique des interactions administratives, scuritaires, commerciales etc. lchelle industrielle nest plus un oxymore.

    Les statisticiens devraient se tenir fermement aux rgles de leur discipline

    Souligner ces diffrences, ce nest pas nier lintrt pour les statisticiens dinvestir dans ces nouvelles donnes et ces nouvelles mthodes, bien au contraire. Il me parat tout fait vident que dans de nombreux domaines de la connaissance (gntique, pidmiologie, astronomie, climatologie, etc.), les BigData ont un extraordinaire potentiel de reconfiguration de la perception, avec tout ce que cette rvolution de laccs au rel peut ouvrir comme perspectives indites ne ft-ce que parce quelle nous dbarrasse partiellement du joug perceptuel impos aux sens ordinaires (qui nous rend invitablement prisonniers dun point de vue toujours trop partial et dune perspective toujours trop partielle). Mais les dispositifs nourris par les BigData sont un mode particulier de production de ce qui compte comme rel .

    Il sagit donc de ne pas se laisser leurrer par les promesses dobjectivit par la totalit et par lautomaticit que certains profrent, et dtre conscients de ce quils risqueraient de perdre sils prenaient ces promesses pour argent comptant.

    Jinsiste particulirement sur le caractre de convention sociale attach aux dfinitions statistiques : selon Alain Desrosires, l rsident la fois la fragilit et la force, des statistiques. Les statisticiens devraient se tenir fermement aux rgles de leur discipline, aux modes de vridiction qui leur sont propres et qui nont pas cder devant les classifications produites par les algorithmes de datamining. Si, en raison de leur origine conventionnelle, les objets statistiques servant de rfrences dans les dbats publics sont toujours suspects de rpercuter et de naturaliser les biais, prjugs et normativits sociales dominantes, labsence de convention prsidant au profilage algorithmique ne garantit quune objectivit de faade qui naturalise de manire cette fois absolument invisible, les normativits sociales rendues indiscutables.

    S&S : Comment la nouvelle rationalit de lexploitation des BigData permet elle de mettre en place de nouveaux moyens de gouverner les personnes ?

    AR : En exploitant les profils induits par les corrlations, on peut dtecter, sans avoir les rencontrer ni les interroger personnellement, ni mme les identifier prcisment, les risques et opportunits dont sont porteuses les personnes. Les algorithmes produisent des catgorisations impersonnelles, volutives en continu, en fonction des attitudes, des trajectoires, etc. Etre profil consiste tre apprhend dans un rseau de formes perces qui ne peuvent jamais nous contenir totalement, mais qui tracent, en pointills mobiles, nos trajectoires venir. tre profil de telle ou telle manire affecte les opportunits qui nous sont disponibles, et, ainsi, lespace de possibilits qui nous dfinit : le gouvernement algorithmique ne sintresse pas tant ce que nous avons fait et faisons, qu ce que nous aurions pu faire ou pourrions faire dans lavenir, cest notre dimension potentielle , virtuelle donc, quil sadresse. La spcificit, ou la radicale nouveaut de la gouvernementalit algorithmique tient notamment en ceci quelle affecte les individus en neutralisant (en privant deffets disruptifs, sans pour autant les supprimer) leurs dimensions inactuelles (la dimension de la spontanit, de la potentialit), sans pour autant les assujettir aucune norme - la diffrence de la discipline - ni mobiliser leurs capacits dentendement et de volont - la diffrence de la loi.

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS)36

    Lexemple le plus connu est celui du marketing : si lon en croit Eric Schmidt, directeur chez Google, bientt la technologie deviendra tellement efficace quil deviendra trs difficile pour les personnes de voir ou consommer quelque chose qui naurait pas t prvu pour elles. En sens inverse, aucune norme sociale nous avons vu dj que le monde des BigData stait mancip de tout rapport la normale ou la moyenne - nimpose ni ne suggre de limites lexploitation des possibilits de profit : une personne ayant des addictions, drogue au chocolat par exemple, se verra inviter acheter indfiniment le produit sans aucune autre limite que sa propre satit. Il risque de devenir de plus en plus difficile de rsister la manipulation digitale : dune part, le temps rel est un temps dans lequel les humains nont pas la possibilit de prendre du recul relativement leurs propres pulsions (dachat, par exemple), un temps dans lequel on fonctionne sur le mode de lalerte et du rflexe, plutt que sur le mode de la rflexivit ; dautre part, chaque consommateur se retrouve seul face la sollicitation, parce celle-ci est adapte ce quil a de singulier, excluant de ce fait toute possibilit de rsister ensemble. Il en rsulte que nous navons plus mme former ni formuler par nous mmes nos dsirs : ceux-ci nous prcdent sous une forme adapte la fois loffre et ce que chacun de nous a de plus singulier, de plus loign des grands nombres.

    Autre exemple : un programme de financement de lUnion Europenne suscite des innovations techniques favorisant le maintien des personnes ges leur domicile. Avec les meilleures intentions du monde, les visionnaires du futur qui rpondent cet appel doffres proposent dquiper dun trs grand nombre de capteurs les appartements des personnes ges, pour permettre dintervenir face toute forme dvnement ou de comportement inattendu (une chute, une immobilit prolonge, des dplacements nocturnes, un dfaut de prise dun mdicament,). A aucun moment ces innovateurs, proccups de rduire toute incertitude, ne pensent quune certaine intimit peut tre pour ces personnes indispensable, ft-ce au prix de leur scurit. Il ne sagit pas dun simple pas supplmentaire dans le progrs technique. Ces appareils ne sont pas faits pour faire quelque chose notre place : ce sont des appareils qui vont nous faire faire des choses, en vertu dune notion de besoin dtect en temps rel partir des enregistrements qui seront faits, et donc selon une normativit immanente qui fait lconomie de la volont des personnes elles-mmes, et de toute dlibration autour de la nature de ces besoins.

    S&S : On pourrait arriver des situations extrmes avec les objets connects, comme dans le cas de ce bracelet mis au point par une socit amricaine, que lon porterait en permanence pour diminuer le cot de son assurance automobile, si on accepte que soient ainsi mesurs les temps dexercice physique et de sommeil

    AR : Cest un trs bon exemple. En matire dassurance, le profilage par des algorithmes peut permettre de former des groupes de plus en plus restreints, volutifs, de manire ajuster en permanence les primes demandes aux risques de sinistres : la logique actuarielle est alors pousse lextrme, au dtriment des principes de mutualisation qui fondent lassurance, et qui supposent quon accepte lexistence dune part irrductible dincertitude. Toute incertitude est vue comme un rsidu neutraliser par un raffinement de lalgorithme. Les catgories produites par le datamining ne sont pas ncessairement justes ni quitables . Elles le seraient si, par exemple, les notions de justice actuarielle (en fonction de laquelle toute distinction de traitement conomiquement rationnelle serait actuariellement juste, chacun ayant contribuer au fonctionnement de lassurance en payant des primes ajustes son risque, cest--dire la probabilit quil bnficie, plus tard, de la compensation dun dommage qui se serait ralis) et de justice sociale se recouvraient parfaitement, ce qui nest bien videmment pas le cas. Une distinction de traitement qui exclurait par exemple systmatiquement les personnes victimes de violences conjugales du bnfice de lassurance vie, quels que soient le sexe, lorigine sociale de ces personnes, sur base dune attribution de profil de risque tabli par une mthode inductive de datamining, pourrait bien tre algorithmiquement et conomiquement rationnelle ,

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS) 37

    actuariellement justifie, et socialement injuste. On peroit bien, en loccurrence, le danger associ au dploiement dun rgime de vrit numrique impartial et oprationnel mais qui dispenserait de toute discussion politique, de toute dcision collective, et de toute contestation relative aux critres de besoin, de mrite, de dangerosit, de capacits qui prsident aux catgorisations bureaucratique et/ou scuritaire des individus et comportements. Notons en passant que lindividualisation parfaite des risques et opportunits signifierait tout aussi bien la fin de la raison dtre des assurances, dont le rle premier nest certainement pas dindividualiser la charge des risques mais au contraire, de constituer des contrats sociaux restreints entre des personnes, les assurs, qui, soumis des risques comparables, sengagent prendre en charge collectivement les coups du sort qui sabattraient sur certains dentre eux. Le datamining permettrait le passage dune socit actuarielle une socit post-actuarielle.

    Lalliance des visionnaires bienveillants et des commerants intresss

    S&S : Cest donc ce que vous appelez gouverner au moyen dalgorithmes , en visant spcifiquement les algorithmes qui partir danalyses de donnes comportementales ou autres proposent des actions qui nont plus qu tre excutes. Mais qui est l-derrire ? Qui promeut ce genre dalgorithmes ?

    AR : Je nai pas une thorie du complot, rassurez-vous ! Je constate une curieuse convergence, parmi les promoteurs dune gouvernementalit algorithmique, entre des groupes dopinions qui a priori semblent trs loigns, mais qui ne le sont pas tant que cela en ralit. Dune part, un courant anarchiste pro-cyberntique ou crypto-anarchiste voit dans les applications en rseaux la promesse dune socit sans tat ni institutions on rejoint lide de lim-mdiation, dune sortie de la logique de la reprsentation. On pourrait penser, navement, que ce rve dimmanence corresponde aux idaux de la pense critique hrite des annes 1960-1970 (Gilles Deleuze, Flix Guattari, Michel Foucault,) ; mais alors que cette pense critique tait vritablement une pense du virtuel , une pense de louverture au non numrisable, au non matrisable, ce quoi nous assistons aujourdhui avec cette modlisation du social mme le social numris, cest une clture du numrique sur lui-mme, une neutralisation du possible. Dautre part, la gouvernementalit algorithmique sinscrit parfaitement dans la continuit de la gouvernementalit nolibrale dont elle nest en somme quun perfectionnement . Appuys sur une forme d idologie technique , ces gens conoivent lidal dune socit qui se gouvernerait toute seule, en temps rel, la priori tant que les individus, une fois mancips du joug des institutions, se trouveraient dans une situation de parfaite galit en termes de moyens et de bien-tre. La possibilit de modliser le social sans intermdiation, en dehors des conventions imposes par des autorits de toutes natures, rejoint leurs rves. Ils essaient de faire du design utile , avec une relle bienveillance, mais sans prendre garde quils ont un certain point de vue qui nest pas forcment celui des utilisateurs. Ils auraient intrt sentourer danthropologuesou de philosophes, qui pourraient leur rappeler les limites de lidologie technique, qui renvoie dans larrire-fond invisible les constructions techniques, et les visions du monde qui les sous-tendent, et qui propose la place une interprtation globale du rel cense valoir par elle-mme, comme si le rel lui-mme parlait 1. Dautre part, les promoteurs habituels dune gouvernance mondiale de type nolibrale se retrouvent trs bien dans le projet dune gouvernementalit algorithmique destituant lEtat et lespace de dlibration publique. Trs prosaquement, les grandes socits multinationales ont bien vu quavec les systmes fonds sur des algorithmes, toute distinction de traitement des individus qui serait conomiquement justifie devient automatiquement lgitime : lmancipation de toute norme libre de toute contrainte, de tout scrupule, les objectifs de maximisation des profits. Ainsi des enthousiasmes trs libertariens sarticulent des intrts qui font peu de cas de la libert !

    1. Pierre Macherey, Idologie : le mot, lide, la chose. Langue, discours, idologie, sujet, sens : de Thomas Herbert Michel Pcheux , 17/01/2007, http://stl.recherche.univ lille3.fr/seminaires/philosophie/macherey/macherey20062007/macherey17012007.html

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS)38

    S&S : Alors, selon vous, il faut rejeter tout en bloc ?

    AR : Ce nest certainement pas ce que je dis. Je vois de nombreux domaines scientifiques comme lastronomie, lpidmiologie, la climatologie, la gntique, etc. dans lesquels les BigData vont permettre de faire des dcouvertes inattendues, et trs intressantes, surtout si on sait les combiner aux savoirs tablis et aux thories existantes. Et bien sr, de multiples applications utiles sont la porte des BigData en aval de ces dcouvertes.En revanche, quand il sagit dinterventions dans la vie des personnes et dans la vie sociale, jessaie dattirer lattention sur les risques de cette nouvelle forme de gouvernementalit pour la justice sociale et pour la dlibration publique, les deux tant bien entendu lis. Le danger dinjustice sociale est dmultipli si les procdures mises en place excluent de fait les espaces de dlibration publique. Les conclusions se prsentent comme des vrits numriques impartiales et oprationnelles, qui dispenseraient de toute discussion politique, de toute dcision collective, et de toute contestation relative aux critres de besoin, de mrite, de dangerosit, de capacits qui prsident aux catgorisations bureaucratique et/ou scuritaire des individus et comportements.

    S&S : En multipliant leurs traces numriques, et en permettant lutilisation de ces donnes, les individus entrent massivement dans ce jeu. Pourquoi ne sont-ils pas plus mfiants ?

    AR : En ce qui concerne les donnes caractre personnel (dont on sait quelles ne sont pas absolument ncessaires aux oprations de profilage des personnes, qui peuvent trs bien tre ralises en nutilisant que des donnes anonymes, des mtadonnes, etc.), le succs des rgles de conservation des donnes par dfaut ou, pour le dire autrement, le manque de succs des options permettant de droger cette rgle de conservation des donnes tient, si lon en croit Cass R. Sunstein, se fondant sur lconomie comportementale, la combinaison de trois facteurs principaux : 1) Le premier facteur est linertie des comportements ds lors queffacer ses traces demande un effort dont on ne sait au juste sil vaut vraiment la peine, tant donn que chacune des donnes manant de nos activits en ligne nous parat nous-mmes, a priori (indpendamment des oprations de recoupement, de croisement, de modlisation auxquelles elles pourraient contribuer), de peu dimportance. La rgle par dfaut, quand bien mme nous avons la possibilit dy droger trs facilement en quelques clics prvaudra toujours lorsque lenjeu ponctuel, actuel, napparat pas significatif aux yeux de linternaute. 2) Le second facteur favorisant la rgle de conservation par dfaut consiste en ceci que, dans une situation dincertitude quant la marche suivre, lutilisateur moyen aura tendance considrer que la rgle par dfaut, puisquelle a t pense par dautres que lui, rputs plus experts et puisquelle est probablement suivie par la plupart des autres personnes, est sans doute la meilleure option pour lui aussi. 3) Enfin, le troisime facteur consiste dans le fait que les individus soient gnralement plus sensibles au risque de perdre un avantage dont ils ont ou croient avoir la jouissance en se maintenant dans la situation dans laquelle ils se trouvent qu lopportunit de gagner quelque chose en changeant. Cest une variante du phnomne dinertie mais travers laquelle les concepteurs, les designers , les marketeurs peuvent avoir une prise sur les individus : ils peuvent rduire la probabilit que les utilisateurs scartent de la rgle par dfaut dans lajustement des rgles de confidentialit en voquant tout ce quils ont perdre dans la mesure o la rtention des traces numriques est ce qui permet de leur offrir un service plus personnalis, plus adapt leurs besoins en temps rel en fonction du lieu o ils se trouvent, ou de leurs gots, un service plus rapide et efficace, et que leffacement leur fera perdre tous ces avantages suffira gnralement viter que lutilisateur ne scarte de la rgle par dfaut.

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS) 39

    Superviser les architectures de choix

    S&S : Que suggrez-vous ?

    AR : Cette question des architectures de choix - qui affectent le consentement des personnes la conservation de leurs donnes, mais aussi leurs propensions faire confiance aux recommandations dachat automatises qui leur sont envoyes, ou se fier aux rankings de Google pour valuer la pertinence et la valeur des contenus informationnels fournis par le moteur de recherche - est trs importante : ce sont elles qui conditionnent en partie la capacit des personnes intervenir de faon rflchie et non pas de faon rflexe. Une supervision thique et juridique des architectures de choix spcifiques aux plateformes est mettre en place, qui soit fonde sur une typologie fine des acteurs et de leurs intrts, suivant que ces intrts sont plus ou moins aligns sur les intrts des utilisateurs : un hpital ne devrait pas tre trait de la mme faon quun commerant. Il sagirait de mnager la possibilit de processus de vridiction et de justification, donc de mises lpreuve des productions des catgorisations manant des BigData en tenant compte de la nature des intrts en jeu. Suivant une typologie fine des acteurs et surtout de leurs intrts, il est possible de distinguer les situations dans lesquelles les acteurs ceux qui exploitent les donnes dune part, et ceux que lon appelle parfois un peu abusivement les utilisateurs (consommateurs, citoyens, qui sont aussi, en partie, les producteurs des donnes) ont des intrts aligns et les situations o cest linverse. Exemples : lhpital et les patients ont, en principe, mme si ce nest pas toujours compltement le cas, des intrts aligns, cest--dire convergents vers la gurison, bonne pour le patient, pour la rputation de lhpital, etc. alors quune compagnie daviation et les voyageurs peuvent avoir des intrts dsaligns, la compagnie souhaitant faire payer les voyageurs le plus cher possible tout en restant concurrentiels, et les voyageurs ayant, eux, intrt payer le moins cher possible. Le profilage peut jouer soit dans lintrt des deux parties, soit dans lintrt de lune dentre elles seulement, au dtriment de lautre. Ainsi la classification des patients dans certains profils thrapeutiques est dans lintrt tant de lhpital que du patient, alors que le profilage des voyageurs dans un certain profil en fonction de leur prdisposition vouloir payer un certain prix pour un certain voyage (la personnalisation ou le profilage algorithmique permettent dajuster les prix en fonction de la disposition payer [willingness to pay] de chaque client ; au plus le client aura besoin de voyager telle date rapproche, au plus cher sera son billet), est le plus souvent dfavorable au voyageur (la somme quil aura dbourser pour voyager tant adapte llasticit de sa disposition acheter un billet en fonction dune volution des prix ). En fonction, donc, des applications, et des intrts en jeu, il importe, afin de protger la partie faible (celle qui subit, gnralement, une asymtrie dinformation, ntant pas au courant des logiques de traitement de donnes qui prsident aux dcisions qui laffectent et ne se sachant pas profile ), de veiller assurer des possibilits de contester les productions algorithmiques ( catgorisations ou profilages ).

    En ce qui concerne les algorithmes eux-mmes, je ne crois absolument pas la possibilit de les rendre transparents , comme certains le proposent aujourdhui. A la technicit des processus algorithmiques et aux perspectives de dispositifs auto-apprenants les rendant difficilement intelligibles pour le commun des mortels sajoutent les obstacles juridiques imposs par le secret industriel ou le secret-dfense. Mais je crois au recours la loi, et aux codes de dontologie. Le projet de nouveau rglement europen sur la protection des donnes contient un article, dj prsent dans la directive de 1995 et dans la loi franaise de 1978, qui stipule que :

    Toute personne a le droit de ne pas tre soumise une mesure produisant des effets juridiques son gard ou laffectant de manire significative prise sur le seul fondement dun traitement automatis destin valuer certains aspects

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS)40

    personnels propres cette personne physique ou analyser ou prvoir en particulier le rendement professionnel de celle-ci, sa situation conomique, sa localisation, son tat de sant, ses prfrences personnelles, sa fiabilit ou son comportement ()

    Au-del de la loi, je crois possible de persuader les acteurs du domaine de lintrt quils ont se doter de codes professionnels pour encadrer leurs pratiques. Ils ont accs des possibilits de manipulation de lintellect des gens ! Certains des grands principes formant lossature des rgimes juridiques de protection des donnes caractre personnel pourraient rester trs inspirants moyennant une srie dadaptations (dans le contexte des BigData, nous navons plus affaire que minimalement des donnes caractre personnel, les donnes ne servant plus tant identifier qu catgoriser, etc.). Je pense notamment au principe de loyaut de la collecte des donnes qui pourrait contribuer discipliner certaines pratiques de smarter marketing qui, au lieu de sappuyer sur les capacits dentendement et de volont des consommateurs, capitalisent au contraire sur les faiblesses de leur volont et de leur entendement, dtectes en temps rel, de manire les faire passer lacte dachat sans quils aient eu loccasion de mme comprendre leurs propres motivations, ou encore des pratiques de marketing qui nont pas pour but de vendre quoi que ce soit mais seulement de recueillir davantage dinformations sur les consommateurs de manire mieux les profiler. Je parle ici de marketing et cela parat trivial, mais on peut imaginer que ces mmes techniques soient utilises des fins dindividualisation de la communication lectorale, par exemple, ou des fins de conditionnement des enfants la surconsommation ds le plus jeune ge. Lenjeu, cest notre intgrit mentale.

    S&S : Si lon vous suit bien, ce nest pas la protection des donnes caractre personnel qui est le point fondamental ?

    AR : Nous navons appris nous mfier que des traitements automatiss de donnes caractre personnel : or celles-ci ninterviennent que marginalement dans les phnomnes qui nous intressent ici. Une sorte de ftichisation de la donne personnelle renforce par le droit positif actuel nous fait passer ct de ce qui fait aujourdhui problme. Les nouvelles formes de pouvoir qui sexercent sur les individus passent beaucoup moins par les traitements de donnes caractre personnel et lidentification des individus que par des catgorisations impersonnelles, volutives en continu, des opportunits et des risques, cest--dire des formes de vie (attitudes, trajectoires,). Un profil, ce nest en ralit personne personne ny correspond totalement, et aucun profil ne vise quune seule personne, identifie ou identifiable. Ce nest pas le risque didentification qui est le plus dangereux, cest le risque de catgorisation, sans outil de critique des catgories et de rcalcitrance par rapport elles. Et donc, ce nest pas plus de priv quil nous faut, cest au contraire plus despace public .

    S&S : Finalement, est-ce quon nest pas un peu dans une Querelle des Anciens et des Modernes ? Que devrions-nous dire aux jeunes gnrations, de statisticiens, ou simplement de citoyens ?

    AR : Je lai dj dit : je ne suis pas une adversaire des BigData, jen perois trs bien les avantages en termes davancement de la connaissance scientifique et en termes de nouveaux services utiles. Mais jen perois les dangers, dautant plus marqus que nous vivons actuellement dans une sorte de bulle spculative propos des BigData. Jaimerais faire partager cette vision quilibre.

    Aux statisticiens je dirais : engagez-vous dans ce mouvement, mais conservez vos principes professionnels et la lucidit de vos prdcesseurs sur linsertion sociale de leur discipline et sur son rle dans la constitution dun espace public de dlibration.

    Pour le reste, jai bon espoir, et je me rjouis du dbat qui sinstaure en France notamment propos des possibilits et des risques des BigData. En ces temps de crise de la reprsentation et

  • Statistique et socit, Vol. 2, N 4 dcembre 2014www.statistique-et-societe.fr | Socit Franaise de Statistique (SFdS) 41

    dasschement de lespace public, ces dbats sont une occasion pour repenser collectivement des questions essentielles. Quelle partie de nos fonctions cognitives voulons-nous dlguer des algorithmes ? Dans quel rythme temporel voulons-nous vivre ? Quelle place voulons-nous faire la mmoire des tentatives, de lineffectu (seules les choses effectues laissent des traces numriques, rejetant dans loubli les projets trop tt abandonns, les utopies non tentes par nos prdcesseurs, mais qui sont autant de sources dinspiration pour lavenir) ? Et surtout, comment mnager encore lespace de lvnement, de limprvisibilit toujours renouvele, et donc de la libert ?