Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de...

52
Big Graph Data Forum Teratec 2013 Julien Laugel MFG Labs www.mfglabs.com twitter: @mfg_labs [email protected] @roolio MFG Labs 35 rue de Châteaudun 75009 Paris, France

Transcript of Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de...

Page 1: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Big Graph DataForum Teratec 2013

Julien LaugelMFG Labs

www.mfglabs.com twitter: @mfg_labs

[email protected]@roolio

MFG Labs35 rue de Châteaudun 75009 Paris, France

Page 2: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

2

SOMMAIREMFG Labs

Contexte : les 3 V aujourd’hui

Les bases de données graphe

Les solutions actuelles

Les challenges

Page 3: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

MFG Labs

3

Page 4: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Un ADN mathématique

4

Jean-Michel Lasry (CEO)Professor of university Paris Dauphine

Pierre-Louis LionsFields Medal 1994

- Fondé en 2010 par 2 mathématiciens

- MFG: “Mean Field Games”

- Initialement société de conseil dédié aux applications des MFG en économie

Page 5: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

5

Les activités de MFG Labs

Recherche Mathématique Big Data Stratégie Digitale

Page 6: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

6

Contexte : les 3 V aujourd’hui

Page 7: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Reste-t-il des challenges pour la trinité BigData?

VolumeVelocityVariety

7

L’ère post-Map/Reduce

Page 8: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

VOLUME

8

bases de données MPP

Map/Reduce (Hadoop)

Spark

Page 10: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

VARIÉTÉ

10

Données non-structurées

Données semi-structurées

Données textuelles

Page 11: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Problématiques «maitrisées»

11

Stockage=> Systèmes de Fichiers Distribués

Tâches fortement parallélisables=> Map/Reduce

Bases de données distribuée à faible latence d’écriture=> BigTable, Dynamo

Page 13: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Le constat

13

Les technologies Big Data traditionnelles ne savent pas gérer les gros graphes de données

•Traversée de graphe trop couteuse (itérations)

•Partitionnement des données non trivial

Page 14: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

BIG GRAPHS

14

à l’échelle sociale : Facebook 1milliard de noeuds 144 milliards de relations

à l’échelle du web : 50 milliards de noeuds 1000 milliards de liens

à l’échelle du cerveau : 100 milliards de noeuds 100 000 milliards de liens

Page 15: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

15

Les bases de données graphe

Page 16: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Définition

16

Page 17: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Le modèle property graph

17

nom: Herculetype: demi-dieu

nom: Jupitertype : dieu

nom: Alcmènetype : humain

pèrenature: généalogique

mèrenature: généalogique

Page 18: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

L’enjeu

18

Page 21: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

21

Exemples

Page 22: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Unique IDForrest Gump Tom Hanks

Interconnecter des sources

Social Graph(500 millions edges)

Open Graph(40 millions objects)

Knowledge Graph(1 billion entities)

watched

Forrest Gump(on YouTube)

Cloud Atlas(on Flixster)

Clément

wants to watch

Unique IDCloud Atlas

School friendsCoworkers

Jean

Forrest Gump(on Allociné)

22

Page 23: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Recherche de similarités via les utilisateurs

Page 24: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Recherche de similarités entre concepts

Page 25: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Détections d’influenceurs

Page 26: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Diffusion dans un graphe

Page 28: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

28

Découvrir les structures endogènes

Page 29: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les solutions actuelles

29

Page 30: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Un paysage de plus en plus fragmenté

30

Page 31: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

31

La fin de l’hégémonie des bases de données relationnelles

Page 32: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

32

Map/Reduce

Page 33: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

33

Bases de données orientées colonnes

Page 34: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

34

Bases de données de flux

Page 35: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

35

Stores Clé/Valeur

Page 36: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

36

Bases de données orientées documents

Page 37: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

37

Quid du processing des graphes ?

Frameworks

Bases de données

Page 38: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les frameworks

38

Page 39: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les frameworks

39

Parallélisme de Données :Map/Reduce : Systeme de fichier distribué

GraphX : Primitives de parallélisme de graphe implémentées sur une abstraction data-parallèle

Parallélisme de Graphe («Think like a vertex»):

Bulk Synchronous Processing (BSP) Modification des noeuds synchrone Partitionnement des noeuds

Graphlab v2 Modification des noeuds asynchrone Partitionnement des liens

Page 40: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les bases de données

40

Page 41: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les bases de données

41

Jung

iGraph

networkX

Taille

Rap

idité

de

la t

rave

rsée

de

grap

he

Page 42: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Qui utilise quoi?

42

Neo4J en passe de devenir le PostgreSQL du graphe

Les gros acteurs de la Silicon Valley utilisent Giraph, ou des systèmes spécifiques à leur besoin

Hadoop reste encore utilisé dans ce domaine

GraphX est une alternative prometteuse

Graphlab est à la pointe du développement au niveau algorithmique

Titan + Faunus aussi très intéressant à suivre pour un couple stockage+processing

Page 43: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les langages

43

Page 44: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les langages

44

• SPARQL, OWL (bases de données sémantiques)

• Impératif : Gremlin «suivre» les relations Expliciter les algorithmes (breadth-first , depth-first...)

• Déclaratif : Cypher Description du pattern à rechercher

Page 45: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Le Langage Cypher

45

Simple description du pattern recherché

Page 46: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les outils de visualisation

46

Page 47: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Une spécialité française

47

Gephi: http://gephi.org

Page 48: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Une spécialité française

48

Tulip : http://tulip.labri.fr

Page 49: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Une spécialité française

49

Graphstream : http://http://graphstream-project.org/

Page 50: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les challenges

50

Page 51: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

Les Challenges

51

1. Rendre les bases de données graphes «mainstream»

2. Emergence d’un standard pour les très gros graphes

3. Traitement des graphes en flux de données

4. Le «big graph processing» permettra l’accélération du «big machine learning»

5. Le sujet est complexe, et ouvre de grandes opportunités à qui saura gérer les aspects infrastructure algorithmes langage de requête visualisation

Page 52: Big Graph Data Forum Teratec 2013©sentations/A3... · 2016-08-09 · 1. Rendre les bases de données graphes «mainstream» 2. Emergence d’un standard pour les très gros graphes

www.mfglabs.com twitter: @mfg_labs [email protected]

@roolio

MFG Labs35 rue de Châteaudun 75009 Paris, France