Miettes de données - Keynote BDA 2015

41
Accommoder les miettes de données : Ingrédients, Recettes et Astuces Amélie Marian Arnaud Sahuguet BDA, Porquerolles, 2 Octobre 2015 1

Transcript of Miettes de données - Keynote BDA 2015

Page 1: Miettes de données - Keynote BDA 2015

Accommoder les miettes de données : Ingrédients, Recettes et Astuces

Amélie Marian – Arnaud Sahuguet

BDA, Porquerolles, 2 Octobre 2015

https://goo.gl/dgAWnp

1

Page 2: Miettes de données - Keynote BDA 2015

Dramatis Personae

Amelie Marian@ameliemarian

Arnaud Sahuguet@sahuguet

Paris IX DauphineColumbia Univ., PhD

X – ENPC – Paris VIUniv. of Pennsylvania, PhD

Bell Labs / Alcatel-LucentGoogleThe Governance Lab @ NYU

2

Page 3: Miettes de données - Keynote BDA 2015

Les objectifs de ce keynote

vous rappeler que c'est un sujet d'actualité brûlant

définir les concepts, e.g. miettes, small data, big data

présenter les axes de recherches liés aux miettes de données

vous convaincre de vous lancer dans l'aventure

rappeler que votre expertise est essentielle à un plus large débat3

Page 4: Miettes de données - Keynote BDA 2015

4

Page 5: Miettes de données - Keynote BDA 2015

Plus malin que l’ogre BigData ?

… et a été dénoncée par Rite Aid pour “excessive transactions”Se cacher devient suspect

http://time.com/83200/privacy-internet-big-data-opt-out/

?

5

Elle a caché sa grossesse sur internet...Social medias

Achats en cash ou gift card

Tor pour surfer le web

Janet Vertesi, Assistant Professor of Sociology à Princeton a essayé

Page 6: Miettes de données - Keynote BDA 2015

Finance

Web of Things/Quantified Self

Administration

Commerce

Services Web/Réseaux Sociaux

Transport

Mobile

Santé / Assurance

Services

Loisirs

6

Page 7: Miettes de données - Keynote BDA 2015

miette :sous-produit digital de nos activités quotidiennes, telles que couriel, texto, appel téléphonique, achat, transport, jeux, etc.

7

“J'ai laissé des bouts de moi au creux de chaque endroitUn peu de chair à chaque empreinte de mes pas”Jean-Jacques Goldman, 1987.

Page 8: Miettes de données - Keynote BDA 2015

Dessine-moi une miette

8

Page 9: Miettes de données - Keynote BDA 2015

Taxonomie basée sur l'origine des miettes

Directement depuis l'utilisateur

Miette fournie- initiée- transactionnelle- publiée par l'utilisateur

Miette observée- par engagement- non-anticipée- passive

9

Depuis le fournisseur de service

Miette dérivée- computationelle- notationelle

Miette inferrée- statistique- modèle plus avancé

Source: OECD 2014, Martin Abrams

Page 10: Miettes de données - Keynote BDA 2015

Taxonomie pour les réseaux sociauxService data: data you give to SP in order to use it.

Disclosed data: data you post on your own pages.

Entrusted data: data you post on other people's pages.

Incidental data: data other people post about you.

10

Behavioral data: data collected by SP about your habits.

Derived data: data derived from all other data.

Source: IEEE Privacy & Security, 2010, by Bruce Schneier

Page 11: Miettes de données - Keynote BDA 2015

Taxonomie basée sur la nature des miettes

11

Transport

Communications

Commerce

Loisirs

Santé, Bien-être

Activités Citoyennes

Education

Travail

Social

Page 12: Miettes de données - Keynote BDA 2015

Soupe de "Data"big, small, personal, etc.

12

Page 13: Miettes de données - Keynote BDA 2015

BIG DATA vs small data

13

small data

BIG DATA

Page 14: Miettes de données - Keynote BDA 2015

L'intérêt des miettes

14

e.g. personalisation

e.g. quantified self, IoT.

e.g. data philanthropyUber, Google FluTrends, Twitter

Page 15: Miettes de données - Keynote BDA 2015

Ce dont on ne va pas parler...Big Data

Analytics

Learning

EthiquesDroit à l’oubli

Big Brother

Patriot Act / Loi de renseignement

Beaucoup de choses à dire...

RèglementationCNIL

HIPAA

ProprietéA besoin d’une vraie réflexion

15

Page 16: Miettes de données - Keynote BDA 2015

La vie d'une miette

16

Page 17: Miettes de données - Keynote BDA 2015

La vie d'une miette

17

Page 18: Miettes de données - Keynote BDA 2015

Interêt PersonnelApplication:

"Personal Information Management"

18

Page 19: Miettes de données - Keynote BDA 2015

Suivre les miettes pour retracer ses pas

19

Quel est le restaurant où j’ai mangé la dernière fois qu’on est allé au ski ?

Dates du voyage: Email de réservation, Calendrier, GPS

Nom du restaurant: Relevé de CB, checkin Foursquare

Quand est-ce que j’ai vu Sihem pour la dernière fois?

Email et SMS avec Sihem

Photos où Sihem et moi sommes taguées au même endroitLes informations existent, mais sont difficiles à accéder et connecter

Page 20: Miettes de données - Keynote BDA 2015

Projet Digital Self à Rutgers University

Les miettes de données sont riches en contexte

Des travaux en Psychologie ont montré qu’on se souvient des informations/événements à partir d’indices de contexte

Qui, Quand, Où, Quoi, Pourquoi, Comment

Nous proposons un PIMS basé sur des données contextuelles.

Extrait les miettes de données Intègre les données fragmentéesPermet la recherche sur les données

personellesCrée une base de connaissances personelle

En collaboration avec:Thu NguyenAlex BorgidaDaniela ViannaValia KalokyriAlicia-Michelle YongChaolun Xia

20

Page 21: Miettes de données - Keynote BDA 2015

Digital Self Architecture

21

•Collection de données–Identification, récupération, stockage, – Personal Extraction Tool:

https://github.com/ameliemarian/DigitalSelf•Integration de données

–Modèle de données unifié–Multidimensionnel, contextuel–Analyse NLP

w5h Model •Recherche

–basée sur des travaux sur la mémoire–contextuelle, imprécise

w5h Search •Base de connaissance

–Identifier des connections et séquences–Intégrer les comportements et réactions

Page 22: Miettes de données - Keynote BDA 2015

w5h - Modèle de données Contextuel

•Différents types de contexte–Metadata–Application data –Environnement–Inférence

•Cognitive Psychology–le contexte peut être utliser pour rappeller et stocker l’information

22

Who, When, WhereMetadata, Environnement, Inférence

WhatContenu de la miette

WhyTâche; fait le lien entre des miettesInférence

HowComment a-t-on enregistré la

miette, Application Data

Page 23: Miettes de données - Keynote BDA 2015

Preliminary Results - MRR

En gras: significance statistique (p<0.05)23

w5hrecherche contextuelle, index w5h

Text Index texte natif Mongodb sur données modelisée en w5h

SolrIndex texte sur données extraites

Page 24: Miettes de données - Keynote BDA 2015

Base de Connaissances Personnelle (PKB)Dimension Why

Connecter des miettes en identifiant les processes dont elles font partie (e.g., aller à un concert)

Ontologies de processes

Algorithmes de reconnaissance

24

Page 25: Miettes de données - Keynote BDA 2015

Application II"small data for good"

25

Page 26: Miettes de données - Keynote BDA 2015

Intérêt Général & Gouvernance 2.0

26

« Améliorer la vie des gens en améliorant la façon dont les décisions sont prises. »

Data Driven

Collaborative

Participatory

Page 27: Miettes de données - Keynote BDA 2015

Les Données Ouvertes

27

« […] that can be freely used, re-used and redistributed by anyone – subject only, at most, to the requirement to attribute and sharealike. » Open Data Handbook.

En 2013, mandat de la Maison Blanche pour ouvrir les données.

Etude McKinsey qui évalue à $3 milliards la valeur de l'open data.

Plus d'un million de jeux de données.

En France,

Open Civic Data: Of the People, By the People, For the People.Sahuguet et al. 2015.

RDF

open data

data models

Page 28: Miettes de données - Keynote BDA 2015

sdX project à Cornell Tech (Estrin et al.) smalldata.io

« Creating community infrastructure for small data apps and services »

Exemples de projet de recherche- correlation entre sommeil et activité sur les réseaux sociaux

- pilote pour aider les gens qui souffrent de problèmes de dos

Les défis- collecte de données & intégration

- modèle de données, meta-données et langage de requête

- stockage (privacy at rest) et contrôle d'accès

- analyse, modèles, visualisation28

ML

privacy trust

data models

UX

Page 29: Miettes de données - Keynote BDA 2015

La collecte de données

2 problèmes intéressants

29

La création d'expériences- trouver les bons sujets

- leur expliquer comment les données vont être utilisées

- les convaincre de donner leurs données

- garantir la confidentialité des données

Exemple de requête : utilisateur iOS, vivant à New York, avec un compte Twitter actif et un sensor de sommeil.PAMYADL

RDF

privacy trust

social

data models

crowd

UX

Page 30: Miettes de données - Keynote BDA 2015

Comment inciter aux dons de donnéesP × B + D > C: a ‘calculus’ for Open DataP: probabilité que l'ouverture des données apporte de la valeur à son propriétaire.

B: bénéfice pour le propriétaire des données.

D: bénéfice global

C: coût30

privacy trust

social

open data

Page 31: Miettes de données - Keynote BDA 2015

Problématiques de recherche

31

Page 32: Miettes de données - Keynote BDA 2015

Revenons au Petit Poucet

32

Les compagnies se gavent de nos miettes de données

Comment les transformer en petits cailloux blancs?

Page 33: Miettes de données - Keynote BDA 2015

Défis de rechercheCapture des données

software, e.g. eye tracking

hardware, e.g. IoT

crowdsourcing

Integration de données

Alignement d’objets

Identification d’entités, PKB

Ontologies de tâches personnelles

Stockage et Archivage

Personal clouds

Synchronization

Recherche

Five “R”s

33

Privacy

Encryption

Partage d’information

Interface Homme-Machine (HCI)

Comment les utilisateurs partagent leurs données

Comment les utilisateurs consultent leur données

Personal Data Analytics

Apprentissage

Prediction, alertes

Données clairsemées

Page 34: Miettes de données - Keynote BDA 2015

Au-delà de la technologie

34

Page 35: Miettes de données - Keynote BDA 2015

Même si nous avions promis de ne pas en parler

- la gouvernance des données

- la notion de propriété des données

- les incitations

- les cadres juridiques

- le rôle que nous, scientifiques, avons à jouer

« Data science sans conscience n'est que ruine de l'âme. » #gargantua2.0

« Est-on la somme de ses miettes numériques ? » Bac Philo 2016, Académie de Toulon

35

Page 36: Miettes de données - Keynote BDA 2015

Les miettes, une tradition scientifique bien française

36

Page 37: Miettes de données - Keynote BDA 2015

FAIM FIN.et bon appétit.

Mais avant de vous laisser partir,

temps pour quelques questions.

37

Page 38: Miettes de données - Keynote BDA 2015

Références bibliographiques,

Conseils de lecture

38

Page 39: Miettes de données - Keynote BDA 2015

Researchers wrestle with a privacy problem, Nature Sep 2015.

As we may think, Vannevar Bush, the Atlantic Monthly, 1945.

Beyond total capture: a constructive critique of Lifelogging, Sellen and Whitaker, CACM 2010.

The Black Box Society, Frank Pasquale, 2015

39

Page 40: Miettes de données - Keynote BDA 2015

Data extraction•A tool for personal data extraction. D. Vianna, A.-M. Yong, C. Xia, A. Marian, and T. NguyenPIMS:•Personal Information Management. W. Jones and J. Teevan, editors. U of Washington Press, 2007.•Seetrieve, Gyllstrom and Soules, IUI 2008.Societal issues•Managing your digital life with a Personal information management system, Serge Abiteboul, Benjamin André, Daniel Kaplan, Comm. of the ACM•http://mesinfos.fing.org•http://www.midatalab.org.uk•https://www.data.gov/consumer/smart-disclosure-policy

40

Page 41: Miettes de données - Keynote BDA 2015

Data Integration:•Principles of Data integration, Doan, Halevy, Ives, 2012.•Principles of dataspace systems, Halevy, Franklin, and Maier. CACM, 2006.Security and trust•Management of Personal Information Disclosure: The Interdependence of Privacy, Security, and Trust, Clare-Marie Karat, John Karat, and Carolyn Brodie•Secure Personal Data Servers: a Vision Paper. T Allard et al. VLDB, 2010.Knowledge management•Ontology for PIMS: OntoPIM, Katifori, Poggi, Scannapieco, et al. 2005•Networked Environment for Personal, Ontology-based Management of Unified Knowledge (NEPOMUK).

41