Open Data - Rencontre Bi-départementale des EPN 26-07

75
La révolution des données numériques Une conférence de Simon Chignard et Charles Nepote, proposée par la Fing,

Transcript of Open Data - Rencontre Bi-départementale des EPN 26-07

Page 1: Open Data - Rencontre Bi-départementale des EPN 26-07

La révolution des données numériquesUne conférence de Simon Chignard et Charles Nepote,proposée par la Fing,

Page 2: Open Data - Rencontre Bi-départementale des EPN 26-07

Propos liminairesDe quoi parle-t-on ?

Page 3: Open Data - Rencontre Bi-départementale des EPN 26-07

Données ? De quoi parle-t-on ?Des atomes d’information structurés et factuels :mesures, statistiques, description, coordonnées, horaires, budgets, données en temps réel, etc.

Plus précisément, par exemple :hauteur, longueur, durée, délai, matière, quantité, consommation, prix, températures, vitesses, etc.

Données <> médiasDonnées <> documentsDonnées <> informations

Page 4: Open Data - Rencontre Bi-départementale des EPN 26-07

Données numériques ?Atomes d’information manipulables sans transformation par des systèmes informatiques

Données numériques ou pas ?

Page 5: Open Data - Rencontre Bi-départementale des EPN 26-07

Données numériques ?Atomes d’information manipulables sans transformation par des systèmes informatiques

Données numériquesou pas ?

Page 6: Open Data - Rencontre Bi-départementale des EPN 26-07

La donnée: un objet difficile à saisirLa donnée c’est intangible (on ne peut pas la toucher).

La donnée c’est toujours construit, contrairement à ce que laisse croire l’étymologie du mot (latin datum: ce qui est donné, qui ne fait pas débat, ce qui est exogène).

Yann-Moulier Boutang: “se méfier du naturalisme des données”

Quantifier (au sens: mettre en nombre), c’est faire des choix, établir des priorités, … Même les unités de mesure sont des conventions construites (ex. 1 mètre)

Page 7: Open Data - Rencontre Bi-départementale des EPN 26-07

Et si la donnée était une matière première… ce serait ?

Page 8: Open Data - Rencontre Bi-départementale des EPN 26-07

Portrait-robot de la donnée comme matière premièreUne matière première de plus en plus disponibleque l’on produit en plus grande quantité, de manière consciente ou inconsciente (“traces numériques”)dont les coûts de production, de collecte et de stockage diminuent chaque année

Une matière qui ne s’épuise pas quand on la consommequi prend de la valeur quand elle circule, pas quand on la stocke (thésaurisation)

Une matière dont la valeur est souvent dans la réutilisation, pas uniquement dans l’usage initial

Page 9: Open Data - Rencontre Bi-départementale des EPN 26-07

1. Un nouveau monde de données

Page 10: Open Data - Rencontre Bi-départementale des EPN 26-07

Le paysage des données ?

Page 11: Open Data - Rencontre Bi-départementale des EPN 26-07

1984

Page 12: Open Data - Rencontre Bi-départementale des EPN 26-07

Réseau Sentinelles

Page 13: Open Data - Rencontre Bi-départementale des EPN 26-07

2008 - Google Flu Trends

Page 14: Open Data - Rencontre Bi-départementale des EPN 26-07

1984 - 2015 Sentinelles, Google Flu Trends: même ambition mais pourtant

source de données, intentionalité, méthodes différentescoeur de métier vs. sous-produit de l’activité principaleporté par l’acteur public vs. par une multinationale...

1984-2015

On passe d’une donnée rare à une donnée abondante

Page 15: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (1) : la productionModes de production et d'exploitation ont fortement évoluéPuissance de traitement, de stockage, de mise en réseauFinesse et multiplication des capteursInformatique personnelle (dont base de données)Capteurs « grand public » (météo, santé, GPS, etc.)

... et vont continuer d'évoluerCapteurs personnels toujours plus fins et touchant toujours plus de domaine (montre verte, capteurs ingérables)Internet des objets“Digital labour”Mesure de soi (quantified self)… vers un nouveau web : le web des données

Page 16: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (1) : la production

Bracelet de mesure corporellejawbone.com

Page 17: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (1) : la production

La montre verte

Page 18: Open Data - Rencontre Bi-départementale des EPN 26-07

Des capteurs moins chers

tomorrow-lab.com : DIY Traffic viewer

Page 19: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (2) : les producteursLe crowdsourcing : la coproduction des données par les “foules”Des pratiques anciennes toujours plus poussées en botanique, astronomie, etc.Un champ du crowdsourcing qui paraît sans limiteOpenStreetMap dans la cartographieDonnées environnementales (montre verte)Cartographie des caméras de surveillanceCapteurs « do it yourself » en tous genres pour moins de 100€ : comptage d'automobiles, mesures de consommations énergétiques, etc.Multisourcing (privé-public / privé-privé / public-privé-public)

Page 20: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (2) : les producteurs

Page 21: Open Data - Rencontre Bi-départementale des EPN 26-07

L'extraction des données des infobox de wikipédia

+pages de catégories listant les œuvres conservées dans tel

musée

=

reconstitution possible de véritables petits catalogues des

oeuvres

Page 22: Open Data - Rencontre Bi-départementale des EPN 26-07

openstreetmap.org : de qualité fréquemment supérieure à la concurrence

Page 23: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (2)

OpenFoodFacts

Page 24: Open Data - Rencontre Bi-départementale des EPN 26-07

nest : thermostat apprenant :collecte vos données d'usage pour anticiper vos besoins

Page 25: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (2)

asthmapolis : capteur connecté d'inhalation de ventoline et réseau communautaire au service des asthmatiques (alerte, cartographies...)

Page 26: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (1 et 2) : production/producteursDes producteurs toujours plus nombreuxIndividus de tous types : adultes, enfants, professionnels, amateurs, etc.Organisations de tous types : entreprises, acteurs publics, associations, communautés (parfois informelles)

Des producteurs militants aux motivations les plus diversesDes “malgré eux”, obligés de produire des données pour accéder à un serviceDes M. Jourdain, qui produisent des données sans même le savoir

Qui ne produit pas de données ? Qu’est-ce qui ne produit pas de données ?

Page 27: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (3) : la quantité, les big dataUne quantité de données accumulée chaque jour plus vertigineuse

Cette quantité autorise de nouvelles perspectivesconstruire des modèles ne sert plus à rien ...... les réponses sont dans ces très grands volumes de données

La “fin de la théorie” ? (Chris Anderson)

Page 28: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (4) : la pluralité des sourcesPlein de manières différentes de mesurer le même phénomène (les “proxies”)

Exemple: “Combien de touristes sur les Champs Elysées ?”Enquête quantitative sur le terrainAnalyse des transactions de cartes bancaires (commerces)Analyse des logs de connexion de téléphonie (Orange, SFR)Repérage des photos prises sur les lieux et publiés sur Flickr… mais aussi à partir des tweets (cf. Tourists vs. Locals page suivante)

Conséquence : les données-monopoles sont de plus en plus rares et bien souvent, si vous n’ouvrez pas vos données, d’autres le feront à votre place

Page 29: Open Data - Rencontre Bi-départementale des EPN 26-07

Tourists vs. Locals

Page 30: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (5) :1 donnée => de multiples usagesUne donnée n’a plus un seul usage pré-déterminé (valeur de réutilisation)On parle d’autonomisation de la donnéeUne donnée génère également d’autres données qui auront d’autres usages (ombre portée)

Certaines données racontent beaucoup d’autres choses que leurs usages premiers :Analyse des logs de connexion de téléphonie (Orange, SFR)Contenus publiés sur les grandes plate-formes web 2.0 (Flickr, Twitter, Facebook, Foursquare, etc.)les requêtes passées aux moteurs de recherchele wifi de votre téléphoneetc.

Page 31: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (5) :1 donnée => de multiples usages

Projet BANO : base adresse nationale en open data, illustration de la pluralité des sources (cadastre + open data local + contributeurs OSM)

Page 32: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (6) : l’ouverture des données (open data)Une idée de départ : les données produites par les acteurs publics devraient être réutilisablesUne idée déjà à l’oeuvre dans les communautés “Open*” : Wikipédia, Wikidata, OpenStreetMap, OpenFoodFacts, etc.Une idée qui s’étend aux entreprises

Un champ qui booste l’innovation car les données sont rendues très accessibles

Page 33: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (2+4+6) : l’ouverture des données (open data)

pluralité des producteurs(dont extension des co-producteurs)

+pluralité des sources (proxies)

+sources en open data

=Si vous n’ouvrez pas vos données,

d’autres le feront à votre place

Page 34: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (7) : les données liéesdes données exprimées dans une même "langue" (RDF)des identifiants uniques réutilisables pour chaque donnée (URI). Ex. http://data.bnf.fr/11907966/victor_hugo/des requêtes multi-sources indépendantes des outils (SPARQL)des bases de données reliées entre ellesbien adapté aux grands volumes de données froides : données encyclopédiques, bibliothéconomie, muséographie, référentiels administratifs, etc.

Page 35: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (7) : les données liées

Page 36: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change (8) : les données, éthique et privacyOn dépasse le cadre des données personnelles stricto sensu : des données qui deviennent réidentifiantesLa société face aux défis du big data : vers de nouvelles formes de régulationPar ailleurs, toutes les données sont-elles bonnes à partager

Page 37: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce qui change : nouveau paysage, nouveau vocabulaireLes data : les données. La data : le matériauLe crowdsourcing, une entrée par le mode de production : données collectées collaborativement, par les « foules »Big Data, une entrée par la quantité et la technique : « grosses données », volumes de données TRÈS importants Small Data : des données pertinentes adaptées à la compréhension humaine, une entrée par les usages et usagersOpen Data vs Closed Data (peu utilisé), une entrée par le droit : des données librement réutilisables (+ faciles d’accès)Self Data : des données relatives à soi, une entrée par la destinationLe quantified self : “quantification de soi”, une pratique de collecte de données par soi-même, sur soi-même

Page 38: Open Data - Rencontre Bi-départementale des EPN 26-07

Que fait-on avec les données ?Plein de trucs !

Page 39: Open Data - Rencontre Bi-départementale des EPN 26-07

On répond à des questionsQuel est le prénom masculin le plus donné à Nice au cours des 5 dernières années ?Combien de femmes ont une licence sportive de handball dans ma commune ?Quelle commune de France accueille le plus grand nombre de personnes redevables de l’ISF (impôt de solidarité sur la fortune) ?Qui sont les 200 premiers titres de presse aidés par l’Etat en 2013 ?Combien d’accidents corporels en 2012 sur la route que j’emprunte tous les matins ?...

Page 40: Open Data - Rencontre Bi-départementale des EPN 26-07

On prend des décisionsDois-je ouvrir mon magasin dans cette rue du centre-ville ?Est-ce que cette formation me permettra de trouver un emploi rapidement ?Est-ce que c’est rentable d’investir dans des panneaux solaires dans ma commune ?Est-ce qu’il vaut mieux prendre les avions d’Air France ou ceux d’Easy Jet entre Nice et Paris ?

Page 41: Open Data - Rencontre Bi-départementale des EPN 26-07

On représente des phénomènes complexesVisualisation de l’offre de transports de Rennes dans une vidéo

Page 42: Open Data - Rencontre Bi-départementale des EPN 26-07

On représente des phénomènes complexes / on débatLa répartition des aides à la presse en France (Samuel Azoulay à partir de données data.gouv.fr)

Page 43: Open Data - Rencontre Bi-départementale des EPN 26-07

On représente des phénomènes complexes / on influenceLes morts par arme à feux ont baissé après le vote de la loi “Stand Your Ground” ?

Page 44: Open Data - Rencontre Bi-départementale des EPN 26-07

On représente des phénomènes complexes / on révèleLes noms de rues comme révélateurs des inégalités hommes-femmes ?

Page 45: Open Data - Rencontre Bi-départementale des EPN 26-07

On vous fait des recommandations

Page 46: Open Data - Rencontre Bi-départementale des EPN 26-07

On essaie de prédire l’avenir

FiveThirtyEight

Page 47: Open Data - Rencontre Bi-départementale des EPN 26-07

pause 5’à suivre : les données ce n’est pas trivial

Page 48: Open Data - Rencontre Bi-départementale des EPN 26-07

Les données, c’est pas trivial Les difficultés que l’on rencontre,les défis que cela nous pose

Page 49: Open Data - Rencontre Bi-départementale des EPN 26-07

L’objet “donnée”On ne croise pas des données tous les matins en sortant dans la rueOn ne peut pas “toucher” des données (intangible)Un objet ingrat, aride

Page 50: Open Data - Rencontre Bi-départementale des EPN 26-07

Des données de qualité variable (1)

Page 51: Open Data - Rencontre Bi-départementale des EPN 26-07

Des données de qualité variable (2)

Les Mairies de France ? (par Christian Quest)

Page 52: Open Data - Rencontre Bi-départementale des EPN 26-07

Des données peu standardiséesTouche la plupart des données hors quelques domaines comme :les transports (GTFS)les données géographiques (GPX, KML, etc.)les oeuvres (Dublin core, MARC, etc.)...Un des gros problèmes de “l’offre” actuelleDes conséquences lourdespas de capitalisation des savoirs techniquesdes données difficiles à croiser (ex. prénoms)un marché et des usages qui peinent à décoller

Page 53: Open Data - Rencontre Bi-départementale des EPN 26-07

Des données pas faciles à trouverLes liens profonds sont souvent mal référencés sur les moteurs de recherche, il faut donc d’abord identifier la source qui peut héberger les données…

Exemple: quelle est la qualité des eaux de baignade des plages de Vallauris - Golfe Juan ?recherche sur Googlesite de la municipalité avec données datant de 2011 …un site dédié au niveau national, mais difficile à trouver

Page 54: Open Data - Rencontre Bi-départementale des EPN 26-07

Des données avec lesquelles on raconte n’importe quoi ?

Source des données: OMS via Gapminder

Corrélation ne fait pas causalité !

Page 55: Open Data - Rencontre Bi-départementale des EPN 26-07

Des données pas faciles à manipulerGros fichiers : exemple fichier des licenciés sportifs par commune de France : fichier .csv de 120 Mo

TRÈS GROS fichiers : exemple, le DAMIR (Dépenses d'assurance maladie hors prestations hospitalières)un fichier de 30 Go pour une année1 milliard 500 millions de lignes pour 6 ans

formats techniques (OSM)

Page 56: Open Data - Rencontre Bi-départementale des EPN 26-07

L’open data a-t-il changé tout ça ?

Page 57: Open Data - Rencontre Bi-départementale des EPN 26-07

Les transformations de l'open data

Page 58: Open Data - Rencontre Bi-départementale des EPN 26-07
Page 59: Open Data - Rencontre Bi-départementale des EPN 26-07

Ce que l’open data a effectivement produit (5 ans plus tard)Les acteurs publics, un des premiers réutilisateurs : un des succès indéniables et un vrai facteur de modernisation de l'action publiquePour les acteurs publics, également, un rôle “d’enabler” (capacitation) assumé et lisible : revalorisation de l’action publique, rapprochement avec les nouveaux acteurs économiques, etc.Quelques vrais services utiles aux populationsLes données comme objet de débatLa possibilité de jouer, d’explorer, de manipuler de vrais données pour acculturer et faire grandir tous les acteurs

Page 60: Open Data - Rencontre Bi-départementale des EPN 26-07

Un paysage des usagers trèsmitigéEn deuxième lieu, un profil type : un individu, jeune, mâle, geekSouvent militantAssez souvent étudiant, en libéral ou en inter-contratRecherchant une visibilité ou du fun : méritocratie, montrer son savoir-faire pour se « vendre », s'amuser...D'autres publics présents mais très minoritairesDes start-ups, quelques PME « techno », des chercheurs, à peu près aucune PME traditionnellePeu de business « pure » open dataPeu ou pas de femmes, d'enfants, de personnes âgéesPeu d'association, de médias

Page 61: Open Data - Rencontre Bi-départementale des EPN 26-07

… un paysage des usagers qui s’explique aisément Aridité des matériaux : de sèches colonnes de chiffres et de code

Une pertinence et une qualité des données aléatoires qui oblige à un gros travail de retraitement et/ou de croisement

Une importante barrière technique à l'usage

Un vrai manque de lisibilité du côté de l'offre :Des données pas assez présentes là où sont les gensUn manque d'éditorialisation qui ne facilite pas la compréhensionDes sachants plus portés sur le code que sur de la médiation

Une acculturation aux données encore faible

Page 62: Open Data - Rencontre Bi-départementale des EPN 26-07

Capacitation du plus grand nombre

Écosystème riche et ouvert

Une appropriation large par l’ensemble

du tissu économique

Une réelle appropriation de

l'économie sociale et solidaire

Donner du pouvoir à ceux qui en ont déjà

Un sujet de spécialistes en vase clôt

La naissance de monopoles industriels

De meilleurs services pour des citoyens aisés et insérés

Page 63: Open Data - Rencontre Bi-départementale des EPN 26-07

La médiation aux données, besoin criant mais peu adresséTrès peu d’acteursEPN à travers les cartopartiesles “cantines” numériques, espaces de co-working, etc.quelques très rares spécialistes (ANACT, Altercarto…)Quelles médiationsla mode des événements “en cloche” : hackathons, concours, camps, cartoparties, etc.une vraie stimulation de l’écosystème local ...... mais beaucoup de déchet, le soufflé retombe viteun vrai besoin de médiations continues

Page 64: Open Data - Rencontre Bi-départementale des EPN 26-07

La médiation aux données :quelques principesRendre lisible, tangible, sensible, à l’échelle des individusManipuler, apprendre par le “faire” : tant qu’une personne n’a pas manipulée, elle ne se rend pas compte de ces problèmesProduire des données : un bon producteur/ouvreur de données est un bon réutilisateurUne démarche ouverte et collective, parce qu’avec des choses si neuves l’apprentissage collectif est tellement plus efficace

Le nouveau monde de données requiert de nouvelles médiations qui sont en cours d’invention, de test.

Page 65: Open Data - Rencontre Bi-départementale des EPN 26-07

???

Page 66: Open Data - Rencontre Bi-départementale des EPN 26-07

En 1973, 16000 habitants de Mazamet et la Prévention routière livrent une campagne qui marque

toute la France.

Page 67: Open Data - Rencontre Bi-départementale des EPN 26-07

Développer des outils

Initier, expérimenter et déployer des méthodes de médiation autour de la donnée

Le 02 octobre 2015 HappyTIC 2015 – Grenoble

Page 68: Open Data - Rencontre Bi-départementale des EPN 26-07

#Dataviz_rra : exemple d’outils

Le 02 octobre 2015 HappyTIC 2015 – Grenoble

Page 69: Open Data - Rencontre Bi-départementale des EPN 26-07

Développer les ressources

Le 02 octobre 2015 HappyTIC 2015 – Grenoble

Favoriser l’émergence d’un réseau d’acteurs impliqués dans l’ouverture, la diffusion, la collecte, le traitement et la médiation de la donnée

Page 70: Open Data - Rencontre Bi-départementale des EPN 26-07

Développer les usages

Le 02 octobre 2015 HappyTIC 2015 – Grenoble

Convaincre les acteurs publics de l'intérêt de l’ouverture et de la réutilisation des données.

Page 71: Open Data - Rencontre Bi-départementale des EPN 26-07
Page 72: Open Data - Rencontre Bi-départementale des EPN 26-07

L’infolab, un “lab” ouvert pour les donnéesDès l’origine pensé pour défendre 3 valeurs :ouvertaccessiblecontinu

3 grandes missions de médiation :initiation/formation“incubation”débat

Une très grande variété de formes : thématique, en réseau, de branche, spécialisé sur des publics, etc.

Page 73: Open Data - Rencontre Bi-départementale des EPN 26-07

Parmi les résultats de la campagne Infolab

Page 74: Open Data - Rencontre Bi-départementale des EPN 26-07

Parmi les résultats de la campagne InfolabUn travail sur les compétences relatives aux donnéesUne charte des infolabs en version betaUn portail de référence pour la communauté : http://infolabs.ioEn cours de finalisation ou publication :La conception/test/documentation d’un ensemble de méthodologies de base, clé en main, pour non-spécialistesUne base de données collaborative de plus de 170 ressources utiles à la médiation aux donnéesUn module de formation à la médiation aux donnéesPlus de 20 projets/réflexions d'infolabs en cours : Lyon, Grenoble, Brest, Poitou-Charentes, Marseille, Axa, GRdF, etc.Tous nos travaux sont réutilisables sous licence Creative Commons CC-BY

Page 75: Open Data - Rencontre Bi-départementale des EPN 26-07

Parmi les résultats de la campagne Infolab