Open Data - Rencontre Bi-départementale des EPN 26-07

Post on 15-Apr-2017

680 views 1 download

Transcript of Open Data - Rencontre Bi-départementale des EPN 26-07

La révolution des données numériquesUne conférence de Simon Chignard et Charles Nepote,proposée par la Fing,

Propos liminairesDe quoi parle-t-on ?

Données ? De quoi parle-t-on ?Des atomes d’information structurés et factuels :mesures, statistiques, description, coordonnées, horaires, budgets, données en temps réel, etc.

Plus précisément, par exemple :hauteur, longueur, durée, délai, matière, quantité, consommation, prix, températures, vitesses, etc.

Données <> médiasDonnées <> documentsDonnées <> informations

Données numériques ?Atomes d’information manipulables sans transformation par des systèmes informatiques

Données numériques ou pas ?

Données numériques ?Atomes d’information manipulables sans transformation par des systèmes informatiques

Données numériquesou pas ?

La donnée: un objet difficile à saisirLa donnée c’est intangible (on ne peut pas la toucher).

La donnée c’est toujours construit, contrairement à ce que laisse croire l’étymologie du mot (latin datum: ce qui est donné, qui ne fait pas débat, ce qui est exogène).

Yann-Moulier Boutang: “se méfier du naturalisme des données”

Quantifier (au sens: mettre en nombre), c’est faire des choix, établir des priorités, … Même les unités de mesure sont des conventions construites (ex. 1 mètre)

Et si la donnée était une matière première… ce serait ?

Portrait-robot de la donnée comme matière premièreUne matière première de plus en plus disponibleque l’on produit en plus grande quantité, de manière consciente ou inconsciente (“traces numériques”)dont les coûts de production, de collecte et de stockage diminuent chaque année

Une matière qui ne s’épuise pas quand on la consommequi prend de la valeur quand elle circule, pas quand on la stocke (thésaurisation)

Une matière dont la valeur est souvent dans la réutilisation, pas uniquement dans l’usage initial

1. Un nouveau monde de données

Le paysage des données ?

1984

Réseau Sentinelles

2008 - Google Flu Trends

1984 - 2015 Sentinelles, Google Flu Trends: même ambition mais pourtant

source de données, intentionalité, méthodes différentescoeur de métier vs. sous-produit de l’activité principaleporté par l’acteur public vs. par une multinationale...

1984-2015

On passe d’une donnée rare à une donnée abondante

Ce qui change (1) : la productionModes de production et d'exploitation ont fortement évoluéPuissance de traitement, de stockage, de mise en réseauFinesse et multiplication des capteursInformatique personnelle (dont base de données)Capteurs « grand public » (météo, santé, GPS, etc.)

... et vont continuer d'évoluerCapteurs personnels toujours plus fins et touchant toujours plus de domaine (montre verte, capteurs ingérables)Internet des objets“Digital labour”Mesure de soi (quantified self)… vers un nouveau web : le web des données

Ce qui change (1) : la production

Bracelet de mesure corporellejawbone.com

Ce qui change (1) : la production

La montre verte

Des capteurs moins chers

tomorrow-lab.com : DIY Traffic viewer

Ce qui change (2) : les producteursLe crowdsourcing : la coproduction des données par les “foules”Des pratiques anciennes toujours plus poussées en botanique, astronomie, etc.Un champ du crowdsourcing qui paraît sans limiteOpenStreetMap dans la cartographieDonnées environnementales (montre verte)Cartographie des caméras de surveillanceCapteurs « do it yourself » en tous genres pour moins de 100€ : comptage d'automobiles, mesures de consommations énergétiques, etc.Multisourcing (privé-public / privé-privé / public-privé-public)

Ce qui change (2) : les producteurs

L'extraction des données des infobox de wikipédia

+pages de catégories listant les œuvres conservées dans tel

musée

=

reconstitution possible de véritables petits catalogues des

oeuvres

openstreetmap.org : de qualité fréquemment supérieure à la concurrence

Ce qui change (2)

OpenFoodFacts

nest : thermostat apprenant :collecte vos données d'usage pour anticiper vos besoins

Ce qui change (2)

asthmapolis : capteur connecté d'inhalation de ventoline et réseau communautaire au service des asthmatiques (alerte, cartographies...)

Ce qui change (1 et 2) : production/producteursDes producteurs toujours plus nombreuxIndividus de tous types : adultes, enfants, professionnels, amateurs, etc.Organisations de tous types : entreprises, acteurs publics, associations, communautés (parfois informelles)

Des producteurs militants aux motivations les plus diversesDes “malgré eux”, obligés de produire des données pour accéder à un serviceDes M. Jourdain, qui produisent des données sans même le savoir

Qui ne produit pas de données ? Qu’est-ce qui ne produit pas de données ?

Ce qui change (3) : la quantité, les big dataUne quantité de données accumulée chaque jour plus vertigineuse

Cette quantité autorise de nouvelles perspectivesconstruire des modèles ne sert plus à rien ...... les réponses sont dans ces très grands volumes de données

La “fin de la théorie” ? (Chris Anderson)

Ce qui change (4) : la pluralité des sourcesPlein de manières différentes de mesurer le même phénomène (les “proxies”)

Exemple: “Combien de touristes sur les Champs Elysées ?”Enquête quantitative sur le terrainAnalyse des transactions de cartes bancaires (commerces)Analyse des logs de connexion de téléphonie (Orange, SFR)Repérage des photos prises sur les lieux et publiés sur Flickr… mais aussi à partir des tweets (cf. Tourists vs. Locals page suivante)

Conséquence : les données-monopoles sont de plus en plus rares et bien souvent, si vous n’ouvrez pas vos données, d’autres le feront à votre place

Tourists vs. Locals

Ce qui change (5) :1 donnée => de multiples usagesUne donnée n’a plus un seul usage pré-déterminé (valeur de réutilisation)On parle d’autonomisation de la donnéeUne donnée génère également d’autres données qui auront d’autres usages (ombre portée)

Certaines données racontent beaucoup d’autres choses que leurs usages premiers :Analyse des logs de connexion de téléphonie (Orange, SFR)Contenus publiés sur les grandes plate-formes web 2.0 (Flickr, Twitter, Facebook, Foursquare, etc.)les requêtes passées aux moteurs de recherchele wifi de votre téléphoneetc.

Ce qui change (5) :1 donnée => de multiples usages

Projet BANO : base adresse nationale en open data, illustration de la pluralité des sources (cadastre + open data local + contributeurs OSM)

Ce qui change (6) : l’ouverture des données (open data)Une idée de départ : les données produites par les acteurs publics devraient être réutilisablesUne idée déjà à l’oeuvre dans les communautés “Open*” : Wikipédia, Wikidata, OpenStreetMap, OpenFoodFacts, etc.Une idée qui s’étend aux entreprises

Un champ qui booste l’innovation car les données sont rendues très accessibles

Ce qui change (2+4+6) : l’ouverture des données (open data)

pluralité des producteurs(dont extension des co-producteurs)

+pluralité des sources (proxies)

+sources en open data

=Si vous n’ouvrez pas vos données,

d’autres le feront à votre place

Ce qui change (7) : les données liéesdes données exprimées dans une même "langue" (RDF)des identifiants uniques réutilisables pour chaque donnée (URI). Ex. http://data.bnf.fr/11907966/victor_hugo/des requêtes multi-sources indépendantes des outils (SPARQL)des bases de données reliées entre ellesbien adapté aux grands volumes de données froides : données encyclopédiques, bibliothéconomie, muséographie, référentiels administratifs, etc.

Ce qui change (7) : les données liées

Ce qui change (8) : les données, éthique et privacyOn dépasse le cadre des données personnelles stricto sensu : des données qui deviennent réidentifiantesLa société face aux défis du big data : vers de nouvelles formes de régulationPar ailleurs, toutes les données sont-elles bonnes à partager

Ce qui change : nouveau paysage, nouveau vocabulaireLes data : les données. La data : le matériauLe crowdsourcing, une entrée par le mode de production : données collectées collaborativement, par les « foules »Big Data, une entrée par la quantité et la technique : « grosses données », volumes de données TRÈS importants Small Data : des données pertinentes adaptées à la compréhension humaine, une entrée par les usages et usagersOpen Data vs Closed Data (peu utilisé), une entrée par le droit : des données librement réutilisables (+ faciles d’accès)Self Data : des données relatives à soi, une entrée par la destinationLe quantified self : “quantification de soi”, une pratique de collecte de données par soi-même, sur soi-même

Que fait-on avec les données ?Plein de trucs !

On répond à des questionsQuel est le prénom masculin le plus donné à Nice au cours des 5 dernières années ?Combien de femmes ont une licence sportive de handball dans ma commune ?Quelle commune de France accueille le plus grand nombre de personnes redevables de l’ISF (impôt de solidarité sur la fortune) ?Qui sont les 200 premiers titres de presse aidés par l’Etat en 2013 ?Combien d’accidents corporels en 2012 sur la route que j’emprunte tous les matins ?...

On prend des décisionsDois-je ouvrir mon magasin dans cette rue du centre-ville ?Est-ce que cette formation me permettra de trouver un emploi rapidement ?Est-ce que c’est rentable d’investir dans des panneaux solaires dans ma commune ?Est-ce qu’il vaut mieux prendre les avions d’Air France ou ceux d’Easy Jet entre Nice et Paris ?

On représente des phénomènes complexesVisualisation de l’offre de transports de Rennes dans une vidéo

On représente des phénomènes complexes / on débatLa répartition des aides à la presse en France (Samuel Azoulay à partir de données data.gouv.fr)

On représente des phénomènes complexes / on influenceLes morts par arme à feux ont baissé après le vote de la loi “Stand Your Ground” ?

On représente des phénomènes complexes / on révèleLes noms de rues comme révélateurs des inégalités hommes-femmes ?

On vous fait des recommandations

On essaie de prédire l’avenir

FiveThirtyEight

pause 5’à suivre : les données ce n’est pas trivial

Les données, c’est pas trivial Les difficultés que l’on rencontre,les défis que cela nous pose

L’objet “donnée”On ne croise pas des données tous les matins en sortant dans la rueOn ne peut pas “toucher” des données (intangible)Un objet ingrat, aride

Des données de qualité variable (1)

Des données de qualité variable (2)

Les Mairies de France ? (par Christian Quest)

Des données peu standardiséesTouche la plupart des données hors quelques domaines comme :les transports (GTFS)les données géographiques (GPX, KML, etc.)les oeuvres (Dublin core, MARC, etc.)...Un des gros problèmes de “l’offre” actuelleDes conséquences lourdespas de capitalisation des savoirs techniquesdes données difficiles à croiser (ex. prénoms)un marché et des usages qui peinent à décoller

Des données pas faciles à trouverLes liens profonds sont souvent mal référencés sur les moteurs de recherche, il faut donc d’abord identifier la source qui peut héberger les données…

Exemple: quelle est la qualité des eaux de baignade des plages de Vallauris - Golfe Juan ?recherche sur Googlesite de la municipalité avec données datant de 2011 …un site dédié au niveau national, mais difficile à trouver

Des données avec lesquelles on raconte n’importe quoi ?

Source des données: OMS via Gapminder

Corrélation ne fait pas causalité !

Des données pas faciles à manipulerGros fichiers : exemple fichier des licenciés sportifs par commune de France : fichier .csv de 120 Mo

TRÈS GROS fichiers : exemple, le DAMIR (Dépenses d'assurance maladie hors prestations hospitalières)un fichier de 30 Go pour une année1 milliard 500 millions de lignes pour 6 ans

formats techniques (OSM)

L’open data a-t-il changé tout ça ?

Les transformations de l'open data

Ce que l’open data a effectivement produit (5 ans plus tard)Les acteurs publics, un des premiers réutilisateurs : un des succès indéniables et un vrai facteur de modernisation de l'action publiquePour les acteurs publics, également, un rôle “d’enabler” (capacitation) assumé et lisible : revalorisation de l’action publique, rapprochement avec les nouveaux acteurs économiques, etc.Quelques vrais services utiles aux populationsLes données comme objet de débatLa possibilité de jouer, d’explorer, de manipuler de vrais données pour acculturer et faire grandir tous les acteurs

Un paysage des usagers trèsmitigéEn deuxième lieu, un profil type : un individu, jeune, mâle, geekSouvent militantAssez souvent étudiant, en libéral ou en inter-contratRecherchant une visibilité ou du fun : méritocratie, montrer son savoir-faire pour se « vendre », s'amuser...D'autres publics présents mais très minoritairesDes start-ups, quelques PME « techno », des chercheurs, à peu près aucune PME traditionnellePeu de business « pure » open dataPeu ou pas de femmes, d'enfants, de personnes âgéesPeu d'association, de médias

… un paysage des usagers qui s’explique aisément Aridité des matériaux : de sèches colonnes de chiffres et de code

Une pertinence et une qualité des données aléatoires qui oblige à un gros travail de retraitement et/ou de croisement

Une importante barrière technique à l'usage

Un vrai manque de lisibilité du côté de l'offre :Des données pas assez présentes là où sont les gensUn manque d'éditorialisation qui ne facilite pas la compréhensionDes sachants plus portés sur le code que sur de la médiation

Une acculturation aux données encore faible

Capacitation du plus grand nombre

Écosystème riche et ouvert

Une appropriation large par l’ensemble

du tissu économique

Une réelle appropriation de

l'économie sociale et solidaire

Donner du pouvoir à ceux qui en ont déjà

Un sujet de spécialistes en vase clôt

La naissance de monopoles industriels

De meilleurs services pour des citoyens aisés et insérés

La médiation aux données, besoin criant mais peu adresséTrès peu d’acteursEPN à travers les cartopartiesles “cantines” numériques, espaces de co-working, etc.quelques très rares spécialistes (ANACT, Altercarto…)Quelles médiationsla mode des événements “en cloche” : hackathons, concours, camps, cartoparties, etc.une vraie stimulation de l’écosystème local ...... mais beaucoup de déchet, le soufflé retombe viteun vrai besoin de médiations continues

La médiation aux données :quelques principesRendre lisible, tangible, sensible, à l’échelle des individusManipuler, apprendre par le “faire” : tant qu’une personne n’a pas manipulée, elle ne se rend pas compte de ces problèmesProduire des données : un bon producteur/ouvreur de données est un bon réutilisateurUne démarche ouverte et collective, parce qu’avec des choses si neuves l’apprentissage collectif est tellement plus efficace

Le nouveau monde de données requiert de nouvelles médiations qui sont en cours d’invention, de test.

???

En 1973, 16000 habitants de Mazamet et la Prévention routière livrent une campagne qui marque

toute la France.

Développer des outils

Initier, expérimenter et déployer des méthodes de médiation autour de la donnée

Le 02 octobre 2015 HappyTIC 2015 – Grenoble

#Dataviz_rra : exemple d’outils

Le 02 octobre 2015 HappyTIC 2015 – Grenoble

Développer les ressources

Le 02 octobre 2015 HappyTIC 2015 – Grenoble

Favoriser l’émergence d’un réseau d’acteurs impliqués dans l’ouverture, la diffusion, la collecte, le traitement et la médiation de la donnée

Développer les usages

Le 02 octobre 2015 HappyTIC 2015 – Grenoble

Convaincre les acteurs publics de l'intérêt de l’ouverture et de la réutilisation des données.

L’infolab, un “lab” ouvert pour les donnéesDès l’origine pensé pour défendre 3 valeurs :ouvertaccessiblecontinu

3 grandes missions de médiation :initiation/formation“incubation”débat

Une très grande variété de formes : thématique, en réseau, de branche, spécialisé sur des publics, etc.

Parmi les résultats de la campagne Infolab

Parmi les résultats de la campagne InfolabUn travail sur les compétences relatives aux donnéesUne charte des infolabs en version betaUn portail de référence pour la communauté : http://infolabs.ioEn cours de finalisation ou publication :La conception/test/documentation d’un ensemble de méthodologies de base, clé en main, pour non-spécialistesUne base de données collaborative de plus de 170 ressources utiles à la médiation aux donnéesUn module de formation à la médiation aux donnéesPlus de 20 projets/réflexions d'infolabs en cours : Lyon, Grenoble, Brest, Poitou-Charentes, Marseille, Axa, GRdF, etc.Tous nos travaux sont réutilisables sous licence Creative Commons CC-BY

Parmi les résultats de la campagne Infolab