Graphes de terrain · 2014. 9. 5. · Permet de comparer des graphes de tailles différentes...

Post on 11-Jun-2021

0 views 0 download

Transcript of Graphes de terrain · 2014. 9. 5. · Permet de comparer des graphes de tailles différentes...

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Graphes de terrainProblématiques générales et cas de la métrologie de l’internet

Clémence Magnien

LIP6 – CNRS and Université Pierre et Marie CurieÉquipe Complex Networks

clemence.magnien@lip6.fr

1/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

2/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

3/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Graphes de terrain

informatique : internet, web, pair-à-pair, usages, etc

sciences sociales : collaboration, amitié, contacts sexuels,échanges, économie, etc

biologie : cerveau, gènes, protéines, écosystèmes, etc

linguistique : synonymie, co-occurrence, etc

transport : routier, aérien, électrique, etc

etc, etc

réseaux de relations

contextes très différents

4/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Graphes de terrain

Contextes différents, mais

Propriétés communes→ Ressemblance

Problématiques communes

5/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Problématique – Mesure

opération de mesure

graphe réel vue obtenue

Impossible de mesurer l’objet complet :

Taille

Contraintes techniques

. . .

6/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Problématique – Métrologie

opération de mesure

?inférence

graphe réel vue obtenue

que peut on dire sur l’objet réel à partir de la mesure ?

Comparer aux instituts de sondage

Vue représentative : complexe

Ici, choix limité sur la procédure de mesure

impact sur les propriétés observées ?impact des propriétés sur la vue?

mesures ciblant certaines propriétés?...

7/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Problématique – Analyse

décrire

extraire de l’information pertinente

statistiques structure

densitédegrés

densité localecorrélations

...

8/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Problématique – Analyse

décrire

extraire de l’information pertinente

statistiques structure

densitédegrés

densité localecorrélations

...

8/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Problématique – Modélisation

Modèle : générateur de graphes

génération de graphes réalistes

(i.e. ayant les propriétés observées)

motivations : approches formelles, simulation, explication

9/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Problématique – Algorithmique

Taille

→ problèmes classiques à revisiter→ restrictions en espace

10/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Problématique – Algorithmique

Taille

→ problèmes classiques à revisiter→ restrictions en espace

+ problèmes spécifiques

10/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Notations

On note :

n = |V | le nombre de sommets

m = |E | le nombre d’arêtes

u et v sont voisins s’il y a une arête entre eux.

Degré : d◦(v) : nombre de voisins de v

11/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

12/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

13/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Degré moyen, densité

degré moyen du graphe, d◦(G)

moyenne des degrés de tous les sommets

14/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Degré moyen, densité

densité du graphe, δ

= probabilité d’existence de tout lien

= à quel point tout le monde est lié

δ =2m

n(n − 1)

14/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Densité

En pratique, densité faible pour les graphes de terrain.

Faible ?

Degré moyen très faible par rapport à n

15/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Connexité

Composante connexe : ensemble maximal de sommets t. q. ∃ unchemin entre toutes les paires de sommets.

Graphe connexe : une seule composante connexe

16/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Connexité

Pour les graphes de terrain

En général, composante géante→ Contient la plupart des sommets

17/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distance

Pour les graphes de terrain

En général, distances courtes (∼ log(n))

Expérience de Milgram“Six degrés de séparation”Kevin Bacon game

18/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distribution des degrés (1/2)

Distribution des degrés :4 nœuds, degrés : 2 3 3 1

19/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distribution des degrés (1/2)

Distribution des degrés :4 nœuds, degrés : 2 3 3 1

Distribution : combien de nœuds ont degré k, en fonction de k.

1 → 1, 2 → 1, 3 →2

1 2 3

1

2

19/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Loi de puissance (power-law)

Loi de puissance

Nk ∼ k−α

droite en échelle log-log

Distribution hétérogène : proche d’une loi de puissance

Loi de puissance

droite en échelle log-logsur plusieurs ordres de

grandeur

6=

Hétérogène

plusieurs ordres degrandeur

proche d’une droite enéchelle log-log

20/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Exemple

1

10

100

1000

10000

100000

1e+06

1 10 100 1000 10000 100000 1e+06 1

10

100

1000

10000

100000

1 10 100 1000 10000 100000

21/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distributions hétérogènes : échelle log-log

0

50000

100000

150000

200000

250000

300000

350000

400000

450000

0 50000 100000 150000 200000 250000 1

10

100

1000

10000

100000

1e+06

1 10 100 1000 10000 100000 1e+06

échelle linéaire échelle logarithmique

22/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distributions hétérogènes vs homogènes

0

2000

4000

6000

8000

10000

12000

0 5 10 15 20 25 30 35 1

10

100

1000

10000

100000

1e+06

1 10 100 1000 10000 100000 1e+06

Homogène

Notion de normalité (et d’exceptions)

Hétérogène

Tous les comportements existent→ pas de notion de normalité

23/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distributions normalisées

Distribution des degrés, deux choix :

Nk : nombre de sommets de degré k

pk : fraction de sommets de degré k

→ Distribution normalisée

pk = Nk

n

Permet de comparer des graphes de tailles différentes

Notations :

〈k〉 =∑

kpk : moyenne

〈k2〉 =∑

k2pk : deuxième moment (dispersion)

24/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distribution cumulative inverse

Nk : nombre de nœuds de degré égal à k

Ck : nombre de nœuds de degré inférieur ou égal à k

0

2000

4000

6000

8000

10000

12000

0 5 10 15 20 25 30 35 0

10000

20000

30000

40000

50000

60000

70000

80000

90000

100000

0 5 10 15 20 25 30 35

Échelle linéaire

25/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distribution cumulative inverse

Nk : nombre de nœuds de degré égal à k

Ck : nombre de nœuds de degré inférieur ou égal à k

1

10

100

1000

10000

100000

1 10 100 1

10

100

1000

10000

100000

1 10 100

Échelle log-log

25/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distribution cumulative inverse

Nk : nombre de nœuds de degré égal à k

Ck : nombre de nœuds de degré inférieur ou égal à k

Échelle

Distributions homogènes/hétérogènes

Se distingue sur la distribution normale ou cumulative

Ex : loi de puissance

Nk ∼ k−α =⇒ Ck ∼ k−α+1

25/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Distribution des degrés (2/2)

Pour les graphes de terrain

En général, distributions des degrés hétérogènes

26/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Coefficient de clustering

coefficient de clustering cc(v)

= probabilité que deux voisins de v soient reliés

= # paires de voisins reliés / # paires de voisins= densité locale

27/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Coefficient de clustering

Coefficient de clustering du graphe :moyenne sur tous les sommets de degré ≥ 2

Pour les graphes de terrain

En général, clustering fort

Plusieurs ordres de grandeur au dessus de la densité

28/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

29/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Définir les communautés

But

Rechercher une structure interne au graphe.

Définition

intuitive: personnes partageant un intérêt commun, pages webau contenu similaire...

structurelle: zone du graphe dense en liens

30/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Communautés: démarche usuelle

Partition communautaire (un nœud appartient à une et uneseule communauté)

Optimisation d’un estimateur de qualité:la modularité:

Q =∑

I

(eII − a2I )

(≃ −1: structure anti-communautaire,≃ 0 : pas ou peu de structure,≃ 1 : fortement structuré)

31/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Propriétés communes – conclusion

La plupart des graphes de terrain ont des propriétés communes :

densité faibleconnexité comp. géantedistances faiblesdegrés hétérogènesclustering fortcommunautés oui

32/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

33/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Graphes aléatoires – Motivation

Propriétés observées normales ?Réponse : comparer à un graphe aléatoire

tiré au hasard (avec proba. uniforme) dans l’ensemble des graphes(d’une taille donnée)

Propriétés communes à l’immense majorité des graphes→ propriétés attendues

34/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Modèle d’Erdös-Rényi

Gn,p

n sommets

Chaque arête existe avec probablité p

35/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Notion de propriété attendue

Exemple : graphe aléatoire, n = m = 4950

Résultat : clique de 100 sommets (les autres ont degré 0)

Étonnant ?

Probabilité d’avoir degré 0 : q = (1 − p)n−1 ∼ 0.14.

Nombre attendu de sommets de degré 0 :

nq ∼ 683683 6= 6= 6= 4850

→ on ne peut pas obtenir ce graphe par tirage aléatoire(autre processus en jeu)

36/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Notion de propriété attendue

Exemple : graphe aléatoire, n = m = 4950

Résultat : clique de 100 sommets (les autres ont degré 0)

Étonnant ?

Probabilité d’avoir degré 0 : q = (1 − p)n−1 ∼ 0.14.

Nombre attendu de sommets de degré 0 :

nq ∼ 683683 6= 6= 6= 4850

→ on ne peut pas obtenir ce graphe par tirage aléatoire(autre processus en jeu)

36/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Notion de propriété attendue

Exemple : graphe aléatoire, n = m = 4950

Résultat : clique de 100 sommets (les autres ont degré 0)

Étonnant ?

Probabilité d’avoir degré 0 : q = (1 − p)n−1 ∼ 0.14.

Nombre attendu de sommets de degré 0 :

nq ∼ 683683 6= 6= 6= 4850

→ on ne peut pas obtenir ce graphe par tirage aléatoire(autre processus en jeu)

36/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Propriétés des graphes aléatoires

Densité

Connexité

Distance moyenne, diamètre

37/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Propriétés des graphes aléatoires

Densité fixée

Connexité composante géante, taille O(n)(pour m ≥ O(n))

Distance moyenne, diamètre ∼ log(n)(pour m ≥ O(n))

37/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Propriétés des graphes aléatoires

Distribution des degrés

Coeffecient de clustering

37/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Propriétés des graphes aléatoires

Distribution des degrés homogène

Coeffecient de clustering = δ

37/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Propriétés des graphes aléatoires

de terrain aléatoiredensité faible faibleconnexité comp. géante comp. géantedistances faibles faiblesdegrés hétérogènes homogènesclustering fort faiblecommunautés oui non

37/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Graphes d’Erdös-Rényi – Conclusion

Les graphes de terrain sont très différents des graphes aléatoiresd’Erdös-Rényi

Conséquences

Leur ressemblance est significative

Les graphes d’ER ne sont pas des bons modèles (simulations,preuves, . . . )

→ Autres modèles ?

38/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Graphes aléatoires à distribution des degrés fixés

Distribution des degrésp1, p2, p3, . . .

Tirer les degrés des sommets selon la distribution1 2 4 3 2 1 3

Associer à chaque sommet des demi-arêtes

Tirer au hasard des paires de demi-arêtes

39/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

PropriétésStructure communautaireGraphes aléatoires

Propriétés – Comparaison

de terrain aléatoire degrés fixésdensité faible faible faibleconnexité comp géante comp géante comp géantedistances faibles faibles faiblesdegrés hétérogènes homogènes hétérogènesclustering fort faible faiblecommunautés oui non non

→ le clustering n’est pas une conséquence des degrés hétérogènes

40/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

41/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Topologie de l’internet

Exploration : traceroute

Quelques sources, bcp de destinations :

On sait qu’on ne voit pas tout

Vue représentative ? (→ biais ?)

42/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Distribution des degrés

Une propriété dont on a beaucoup parlé :Distribution des degrés de l’internet en loi de puissance

[Pansiot, Grad, 1998Faloutsos, Faloutsos, Faloutsos, 1999]

43/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Distribution des degrés observée surprenante → biais ?

Conséquences :

Diminuer le biais

Mesure depuis un plus grand nombre de sources

Estimer le biais

Études théoriques et expérimentales

44/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

45/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

46/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Multiplier les sources et les destinations

Intérêt d’utiliser plusieurs sources et destinations

→ Quantité d’information ?→ Diminution du biais ?

47/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Quantité d’information

[On the Marginal Utility of Network Topology MeasurementsBarford, Bestavros, Byers, Crovella, 2001]

Idée

Utiliser des données issues de mesures (vs simulation)

Estimer le nombre de nœuds/liens vus en fonction du nombrede sources/destinations

48/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Données

Deux jeux de données

8 sources

1277 destinations

1 traceroute toute les 30 minutes

7 mois (?)

12 sources

> 300 000 destinations

même méthode de mesure

durée ?

49/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Données

Note :

Intérêt de répêter les mesures ?

Load-balancing, . . .→ répêter donne plus d’informations

Plus de détails dans un cours suivant

49/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Méthodologie

Estimer le nombre de nœuds vus en fonction :

du nombre de sources

du nombre de destinations

s sources, d destinations→s × d choix possibles

Beaucoup d’informationsInterprétation ?

50/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Méthodologie

Ce qu’on veut :

nb sources

nb IP vues

50/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Méthodologie

Ce qu’on veut :

nb sources

nb IP vues

même chose pour les destinations

50/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Problème

nb sources

nb IP vues

3

Nombre d’IP vues avec 3 sources : quelles 3 sources ?

51/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Exemple

une source → ensemble des IP vues

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

s1 + s3 + s6 →5 IPs1 + s4 + s5 →10 IP

Pas de choix naturel

52/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Exemple

une source → ensemble des IP vues

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

s1 + s3 + s6 →5 IPs1 + s4 + s5 →10 IP

Pas de choix naturel

52/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Stratégie gloutonne

À chaque étape :ajouter la source qui ajoute le plus d’informations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

53/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Stratégie gloutonne

À chaque étape :ajouter la source qui ajoute le plus d’informations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

1 sources : s1

53/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Stratégie gloutonne

À chaque étape :ajouter la source qui ajoute le plus d’informations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

2 sources : s1s5

53/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Stratégie gloutonne

À chaque étape :ajouter la source qui ajoute le plus d’informations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

3 sources : s1s5s4

53/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Stratégie gloutonne

À chaque étape :ajouter la source qui ajoute le plus d’informations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

4 sources : s1s5s4s2

53/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Stratégie gloutonne

À chaque étape :ajouter la source qui ajoute le plus d’informations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

5 sources : s1s5s4s2s3

53/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Stratégie gloutonne

À chaque étape :ajouter la source qui ajoute le plus d’informations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

6 sources : s1s5s4s2s3s6

53/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Stratégie gloutonne

À chaque étape :ajouter la source qui ajoute le plus d’informations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

sources : s1s5s4s2s3s6

Motivation : “meilleur” des cas

53/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Complexité

Union de deux ensembles

complexité minimum : taille du plus petit(dépend de l’implémentation)

Deuxième étape

calcul de n − 1 unions→ (n − 1) × k si tous les ensembles ont taille k.

À l’étape i

n − i unions→ (n − i) × k

54/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Complexité

À l’étape i

n − i unions→ (n − i) × k

k(n − 1 + n − 2 + . . . + 2 + 1)= kn(n−1)

2O(kn

2)

Long si on a un grand nombre de sources

54/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

Premier jeu de données

55/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

Deuxième jeu de données

55/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Observations

Convergence de la courbe :les dernières sources n’apportent quasiment pas d’informations →marginal utility

à discuter plus tard

56/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Utilité des destinations

Dans l’idéal, approche inverse :Chaque destination → ensemble des IP vues

Stratégie gloutonne coûteuse→ stratégie aléatoire

Pour une source

À chaque étape :

Rajouter une destination au hasard

Comparer les courbes pour toutes les sources

57/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

58/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Observations

Croissance linéaire :apport similaire pour toutes les destinations

59/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Différence entre sources et destinations

Différence entre les courbes→ différence entre les sources et les destinations ?

s sources, d destinations ⇐⇒ d sources, s destinations

→ Importance de la stratégie utilisée pour les courbesgloutonne, aléatoire

60/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Différence entre sources et destinations

Différence entre les courbes→ différence entre les sources et les destinations ?

s sources, d destinations ⇐⇒ d sources, s destinations

→ Importance de la stratégie utilisée pour les courbesgloutonne, aléatoire

60/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Différence entre sources et destinations

Différence entre les courbes→ différence entre les sources et les destinations ?

s sources, d destinations ⇐⇒ d sources, s destinations

→ Importance de la stratégie utilisée pour les courbesgloutonne, aléatoire

60/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Critiques

Papier intéressant, mais :

Manque de détails sur :

→ disparité entre les sources(une source voit seulement 184 nœuds (> 4000 pour la plus

grande))→ influence de la stratégie

Question : choix des sources plus important que le nombre ?

61/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Critiques

Dernières sources : peu d’apport en soiLa stratégie gloutonne conditionne l’allure de la courbepas de stratégie naturelle

61/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Pour mieux comprendre

Comparer les différentes stratégies

62/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Données

[Ouédraogo, Magnien, 2009]

Données11 sources

3 000 destinations

100 traceroutes par jour

∼ 2 mois

63/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Différence entre les sources

Nombre d’IP vues par sources

Varie entre :

∼ 16 500

∼ 26 500

Toutes les sources ne sont pas équivalentes

64/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Influence des sources ou des destinations

Trois stratégies naturelles

gloutonne

aléatoire

gloutonne-minajouter la source qui apporte le moins d’information

65/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Influence des sources ou des destinations

Stratégie gloutonne 6= maximum possible avec k sources

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, e, f }

s3 : {a, c , d , g}

66/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Influence des sources ou des destinations

Stratégie gloutonne 6= maximum possible avec k sources

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, e, f }

s3 : {a, c , d , g}

1 sources : s1

66/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Influence des sources ou des destinations

Stratégie gloutonne 6= maximum possible avec k sources

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, e, f }

s3 : {a, c , d , g}

2 sources : s1s2

66/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Influence des sources ou des destinations

Stratégie gloutonne 6= maximum possible avec k sources

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, e, f }

s3 : {a, c , d , g}

3 sources : s1s2s3

66/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Influence des sources ou des destinations

Stratégie gloutonne 6= maximum possible avec k sources

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, e, f }

s3 : {a, c , d , g}

3 sources : s1s2s3

s2 + s3 : 7 IP

Représentativité du maximum ?Coût du calcul du maximum

66/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Influence des sources ou des destinations

Autres stratégies

Max → max sur 1000 ordres aléatoires

Min → min sur 1000 ordres aléatoires

Aléatoire → moyenne sur 1000 ordres aléatoires

67/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Influence des sources ou des destinations

Exemple

s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}

s4 : {g , h}s5 : {i , j , k}s6 : {a, d}

s3 s4 s6 s5 s2 s1

2 4 5 8 10 11s5 s6 s2 s4 s3 s1

3 5 7 9 10 11Min 2 4 5 8 10 11Max 3 5 7 9 10 11

Moyenne 2.5 4.5 6 8.5 10 11

67/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

15000

20000

25000

30000

35000

40000

45000

0 2 4 6 8 10 12

M’(k)Random maxRandom avg.Random min

m’(k)

Influence des sources

68/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

0 500 1000 1500 2000 2500 3000

M(k)Random maxRandom avg.Random min

m’(k)

Influence des destinations

69/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Observations

Toutes les courbes finissent au même point : n

Glouton + moyenne : comportements similaires pour lessources et les destinatiosn

Variabilité plus grande en pratique pour les sourcesPeu de sources

70/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Conclusion

Utilité diminue, ne devient pas nulleChoix des sources peut-être plus important que le nombre

71/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Outline

1 Introduction – Contexte

2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires

3 Topologie de l’internet

4 MétrologieInfluence des sources et des destinationsBiais sur les degrés

72/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Biais lié à l’exploration

[Sampling Biases in IP Topology MeasurementsLakhina, Byers, Crovella, Xie, 2003]

Principe : simulations

Générer des graphes → topologie

Simuler des traceroute → mesure

Observer les résultats

Caractère explicatif

73/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Implémentation

Générer des graphes

Aléatoires → Erdös-Rényi

Degrés fixés → modèle de configurations

74/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Implémentation – traceroute

Comment simuler traceroute ?Plusieurs possibilités

75/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Implémentation – traceroute

Comment simuler traceroute ?Plusieurs possibilités

Choix courants

route = plus court chemin (faux mais on n’a pas mieux)

Plus court chemin

Un seul/tous les plus courts chemins ?

Si un seul, lequel ?

75/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Choix des auteurs

Associer un poids à chaque lien (→ graphe pondéré)

1 + ǫ, ǫ ∈ [−1/n, 1/n]

Longueur d’un chemin : somme des poids des liens→Tous les chemins ont des longueurs différentes

76/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Choix des auteurs

Associer un poids à chaque lien (→ graphe pondéré)

1 + ǫ, ǫ ∈ [−1/n, 1/n]

Longueur d’un chemin : somme des poids des liens→Tous les chemins ont des longueurs différentes

0.99 0.98

1.01 0.99

76/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Simulations

Examen de deux hypothèses

Graphes d’Erdös-Rényi (degrés homogènes)

n = 100 000

m = 750 000 (d◦(G) = 15)

sources : 1, 5, 10

destinations : 1000Choisies au hasard

Distribution des degrés fixés (hétérogène)

n ∼ 100 000

m ∼ 190 000

loi de puissance, α ∼ 2.1

77/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

Graphes d’Erdös-Rényi

1

10

100

1000

10000

100000

1 10 100

originals=1, d=1000

78/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

Graphes d’Erdös-Rényi

1

10

100

1000

10000

100000

1 10 100

originals=1, d=1000s=5, d=1000

78/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

Graphes d’Erdös-Rényi

1

10

100

1000

10000

100000

1 10 100

originals=1, d=1000s=5, d=1000

s=10, d=1000

78/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

Graphes à degrés fixés hétérogènes

1e-06

1e-05

0.0001

0.001

0.01

0.1

1

1 10 100 1000 10000 100000 1e+06

originals=1, d=1000

79/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

Graphes à degrés fixés hétérogènes

1e-06

1e-05

0.0001

0.001

0.01

0.1

1

1 10 100 1000 10000 100000 1e+06

originals=1, d=1000s=5, d=1000

79/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Résultats

Graphes à degrés fixés hétérogènes

1e-06

1e-05

0.0001

0.001

0.01

0.1

1

1 10 100 1000 10000 100000 1e+06

originals=1, d=1000s=5, d=1000

s=10, d=1000

79/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Observations

Distribution observée 6= distribution réelle

Graphes aléatoires : différence qualitativehomogène → hétérogène

Graphes à degrés fixés : différence quantitativepente, degré max, . . .

Attention :Graphes aléatoires : Degré maximum observé ∼ 30→impossible de conclure sur l’hétérogénéité

80/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Observations

Distribution observée 6= distribution réelle

Graphes aléatoires : différence qualitativehomogène → hétérogène

Graphes à degrés fixés : différence quantitativepente, degré max, . . .

Attention :Graphes aléatoires : Degré maximum observé ∼ 30→impossible de conclure sur l’hétérogénéité

80/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Conclusion de l’article

On peut avoir une differenceDistribution observée hétérogène 6 =⇒ distribution réellehétérogène

Pas de conclusion sur la distribution réelle

81/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Discussion (1/2)

Résultat très important

D’un point de vue théorique

Besoin de faire attention en pratique

Quelles conclusions tirer en pratique ?

Distribution observée hétérogène

→ Distribution réelle homogène ?→ Distribution réelle hétérogène ?

82/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Discussion (2/2)

Cas de graphes aléatoires :Degré maximal observé :proche du degré moyen du graphe.

En pratique, degré maximum observé > 1000→ graphe aléatoire de degré moyen = 1000 ?

→distribution réelle probablement hétérogèneBesoin de plus d’études

83/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biais

Biais dans l’échantillon des noeuds?

Pour chaque nœud : comparer le degré observé au vrai degré

84/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biais

Biais dans l’échantillon des noeuds?

distrib. observée / distrib. dugraphe

distrib. des vrais degrés / dis-trib. du graphe

Avec 1 source

84/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biais

Biais dans l’échantillon des noeuds?

distrib. observée / distrib. dugraphe

distrib. des vrais degrés / dis-trib. du graphe

Avec 5 sources

84/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biais

Biais dans l’échantillon des noeuds?

distrib. observée / distrib. dugraphe

distrib. des vrais degrés / dis-trib. du graphe

Avec 10 sourcesLes nœuds sont choisis sans biais sur le degré

84/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biaisBiais dans l’échantillon des liens?

degré observé vs degré réelAvec 1 source

85/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biaisBiais dans l’échantillon des liens?

degré observé vs degré réelAvec 5 sources

85/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biaisBiais dans l’échantillon des liens?

degré observé vs degré réelAvec 10 sources

85/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biaisVisibilité des arêtes en fonction de leur distance à la source

gauche : 10 000 sommets droite : 1 000 000 sommets

86/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Sources du biaisVisibilité des arêtes en fonction de leur distance à la source

gauche : 10 000 sommets droite : 1 000 000 sommets

Plus une arête est loin de la source,moins elle a de chances d’être vue

86/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Échantillon donné → biais ?Étant donné un échantillon (et pas le graphe original),peut-on savoir s’il y a du biais ?

87/87

Introduction – ContextePropriétés des graphes de terrain

Topologie de l’internetMétrologie

Influence des sources et des destinationsBiais sur les degrés

Échantillon donné → biais ?Étant donné un échantillon (et pas le graphe original),peut-on savoir s’il y a du biais ?

Probabilité d’avoir degré d et distance h

Les nœuds les plus éloignés ont les plus faibles degrés87/87