BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à...

37
© 2012 Affini-Tech - Diffusion restreinte 1 BIG DATA et DONNéES SEO Vincent Heuschling [email protected] @vhe74

Transcript of BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à...

Page 1: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 1

BIG DATA et

DONNéES SEO

Vincent Heuschling

[email protected]

@vhe74

Page 2: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 2

Agenda

• Affini-Tech

• SEO ?

• Application

• Généralisation

Page 3: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 3

Société

Page 4: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 4

3 Piliers

Une démarche intégrée de bout en bout

Intégration, Mise en Oeuvre, Conseil et Formation

Business

&

Analyses

Technos Sciences BigData

Hadoop

NoSQL

Cloud

Méthodes projets

Outils de

reporting

& Data-

visualisation

Modélisation

Statistiques (R)

Machine Learning

Page 5: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 5

BigData Data-

Science Data-Viz

Collecter

Stocker

Traiter

Analyser

Valoriser

Présenter

Organiser

Votre infrastructure Notre Cloud

Page 6: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 6

Métiers

Applications

Infrastructures

Mktg &

Ventes Finance Production

Stats Apps Data-Viz

Partenaires sectoriels

Partenaires technologiques

Page 7: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 7

Métiers

Applications

Infrastructures

Opportunité Bigdata

Data-Mining

Applications

Data-visualisations

Hybridation

Infrastructures

Page 8: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 8

Code

Agile Data

POC Sprint Sprint

Code Code

Page 9: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

D3.j

s

COLLECTER | STOCKER | ANALYSER | PARTAGER

© 2013 Affini-Tech - Diffusion restreinte

Page 10: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 10

SEO ?

Page 11: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 11

Définir quels éléments du site sont à

forte valeur

Les promouvoir vers les moteurs de

recherches (linking, etc...)

Mesurer et étudier le positionnement du

site sur des recherches vis à vis de sa

concurrence

Obtenir les meilleures

positions dans la page de

réponse de Google.

Page 12: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 12

CRAWL et VISITES

Organiser le contenu des pages (Pagerank)

Faire Crawler les pages par Google

Augmentation

directe du trafic

Page 13: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 13

Cercle VERTUEUX

de la DATA

Collecter

Analyser Produire

Mesurer

Page 14: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 14

RésUltats

Page 15: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 15

Application

Page 16: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 16

ANNUAIRE

• 2000 Professions

• 40000 Communes

• 100 M de requêtes par mois

• Small data : SEO = env 100 Go /an

Page 17: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 17

Combien ? 10 visites SEO (hors marque)

30 visites SEO (marque)

90 visites non SEO

20 crawl

x7 à x10 au total (pages + ressources)

Nécessité de filtrer à la source

Page 18: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 18

Similarités et Classifications

Recommandation &

intelligence collective

OpenData

TROUVER 400K NOUVELLES URLS À

PROMOUVOIR PARMI 84M ?

Page 19: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 19

Professions

Communes

Grandes

catégories,

segments et

moyennes

Analyse à la

granularité la plus

fine

Page 20: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 20

Professions

Communes

RECOMMANDATIONS

Page 21: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte

AUGMENTER LA DONNÉE

a b c

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

Data a b c

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

m n n

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

+ Insee a b c

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

m n n

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

x y z

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

+ Opendata

Une information plus riche

Un ciblage plus pertinent

Page 22: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 22

OUTILS

Collecter

Pig

Traiter Analyser

Page 23: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 23

TYPES de REQUETES

Analyse par zones de géographique

Données socio-économiques

Recherches de similarités

Analyse au niveau Url (granularité fine)

Impact du Crawl sur les visites

Page 24: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 24

Pipeline

Logs Visites

seo

Data

géo-éco Insee

Crawl

seo

Similarit. Urls.

Page 25: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 25

Long TAIL

• Très grosses concentrations

d’activités sur certaines localités.

1: 3003

2: 399

10: 243

50: 100

100: 54

500: 4

Map/Reduce !!

PIG Skewed joins

Page 26: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 26

HEATMAPS

Activités (10500)

Départements

(96)

Volume de

visites

Page 27: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 27

MEsurer : Rankings

Collecte des réponses Google (30x

par recherche = dizaines de millions

par mois)

Forte croissance de la volumétrie

Classifier et Segmenter par produit,

par thématiques.

Page 28: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 28

Page 29: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 29

OUTILS

Collecter

Pig

Traiter

D3.js

Visualiser Stocker

Analyser

Page 30: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2012 Affini-Tech - Diffusion restreinte 31

GENERALISATION

Page 31: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 32

• Applicable à toute transaction

• Des données brutes

• Augmenter la donnée

• Similarités et Classifications

• Recommandations

Page 32: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 33

Lecture Nettoyage

Machine

Learning

Open-

data

Data-

Visualisation

Agrégation

Croisement

DAta-PIPELINE

Page 33: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 34

: ETL & DW

Transactionnel BI Applications DataMarts

Non-Structuré

ETL & DW

Page 34: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 35

: EDW

Transactionnel BI Applications

Non-Structuré

ETL & DW & DataMarts

Page 35: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 36

Applications

& Machine Learning

Visualisations

Tableau & JS Opendata

Plateformes

Page 36: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 37

• "With data collection, 'the sooner the better' is always the best answer"

• Marissa Mayer, Yahoo CEO

Page 37: BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

© 2013 Affini-Tech - Diffusion restreinte 38

Merci !

• Vincent Heuschling

• Gsm : 06 61 88 76 71

• Email : [email protected]

• Web : http://www.affini-tech.com

• Twitter : @affinitech & @vhe74