BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à...
-
Upload
phungnguyet -
Category
Documents
-
view
213 -
download
0
Transcript of BIG DATA et DONNéES SEO - asprom.com · 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à...
© 2012 Affini-Tech - Diffusion restreinte 1
BIG DATA et
DONNéES SEO
Vincent Heuschling
@vhe74
© 2013 Affini-Tech - Diffusion restreinte 2
Agenda
• Affini-Tech
• SEO ?
• Application
• Généralisation
© 2012 Affini-Tech - Diffusion restreinte 3
Société
© 2013 Affini-Tech - Diffusion restreinte 4
3 Piliers
Une démarche intégrée de bout en bout
Intégration, Mise en Oeuvre, Conseil et Formation
Business
&
Analyses
Technos Sciences BigData
Hadoop
NoSQL
Cloud
Méthodes projets
Outils de
reporting
& Data-
visualisation
Modélisation
Statistiques (R)
Machine Learning
© 2012 Affini-Tech - Diffusion restreinte 5
BigData Data-
Science Data-Viz
Collecter
Stocker
Traiter
Analyser
Valoriser
Présenter
Organiser
Votre infrastructure Notre Cloud
© 2012 Affini-Tech - Diffusion restreinte 6
Métiers
Applications
Infrastructures
Mktg &
Ventes Finance Production
Stats Apps Data-Viz
Partenaires sectoriels
Partenaires technologiques
© 2012 Affini-Tech - Diffusion restreinte 7
Métiers
Applications
Infrastructures
Opportunité Bigdata
Data-Mining
Applications
Data-visualisations
Hybridation
Infrastructures
© 2012 Affini-Tech - Diffusion restreinte 8
Code
Agile Data
POC Sprint Sprint
Code Code
D3.j
s
COLLECTER | STOCKER | ANALYSER | PARTAGER
© 2013 Affini-Tech - Diffusion restreinte
© 2012 Affini-Tech - Diffusion restreinte 10
SEO ?
© 2013 Affini-Tech - Diffusion restreinte 11
Définir quels éléments du site sont à
forte valeur
Les promouvoir vers les moteurs de
recherches (linking, etc...)
Mesurer et étudier le positionnement du
site sur des recherches vis à vis de sa
concurrence
Obtenir les meilleures
positions dans la page de
réponse de Google.
© 2013 Affini-Tech - Diffusion restreinte 12
CRAWL et VISITES
Organiser le contenu des pages (Pagerank)
Faire Crawler les pages par Google
Augmentation
directe du trafic
© 2013 Affini-Tech - Diffusion restreinte 13
Cercle VERTUEUX
de la DATA
Collecter
Analyser Produire
Mesurer
© 2013 Affini-Tech - Diffusion restreinte 14
RésUltats
© 2012 Affini-Tech - Diffusion restreinte 15
Application
© 2013 Affini-Tech - Diffusion restreinte 16
ANNUAIRE
• 2000 Professions
• 40000 Communes
• 100 M de requêtes par mois
• Small data : SEO = env 100 Go /an
© 2013 Affini-Tech - Diffusion restreinte 17
Combien ? 10 visites SEO (hors marque)
30 visites SEO (marque)
90 visites non SEO
20 crawl
x7 à x10 au total (pages + ressources)
Nécessité de filtrer à la source
© 2012 Affini-Tech - Diffusion restreinte 18
Similarités et Classifications
Recommandation &
intelligence collective
OpenData
TROUVER 400K NOUVELLES URLS À
PROMOUVOIR PARMI 84M ?
© 2013 Affini-Tech - Diffusion restreinte 19
Professions
Communes
Grandes
catégories,
segments et
moyennes
Analyse à la
granularité la plus
fine
© 2013 Affini-Tech - Diffusion restreinte 20
Professions
Communes
RECOMMANDATIONS
© 2013 Affini-Tech - Diffusion restreinte
AUGMENTER LA DONNÉE
a b c
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
Data a b c
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
m n n
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
+ Insee a b c
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
m n n
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
x y z
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
+ Opendata
Une information plus riche
Un ciblage plus pertinent
© 2013 Affini-Tech - Diffusion restreinte 22
OUTILS
Collecter
Pig
Traiter Analyser
© 2013 Affini-Tech - Diffusion restreinte 23
TYPES de REQUETES
Analyse par zones de géographique
Données socio-économiques
Recherches de similarités
Analyse au niveau Url (granularité fine)
Impact du Crawl sur les visites
© 2013 Affini-Tech - Diffusion restreinte 24
Pipeline
Logs Visites
seo
Data
géo-éco Insee
Crawl
seo
Similarit. Urls.
© 2013 Affini-Tech - Diffusion restreinte 25
Long TAIL
• Très grosses concentrations
d’activités sur certaines localités.
1: 3003
2: 399
10: 243
50: 100
100: 54
500: 4
Map/Reduce !!
PIG Skewed joins
© 2013 Affini-Tech - Diffusion restreinte 26
HEATMAPS
Activités (10500)
Départements
(96)
Volume de
visites
© 2013 Affini-Tech - Diffusion restreinte 27
MEsurer : Rankings
Collecte des réponses Google (30x
par recherche = dizaines de millions
par mois)
Forte croissance de la volumétrie
Classifier et Segmenter par produit,
par thématiques.
© 2013 Affini-Tech - Diffusion restreinte 28
© 2012 Affini-Tech - Diffusion restreinte 29
OUTILS
Collecter
Pig
Traiter
D3.js
Visualiser Stocker
Analyser
© 2012 Affini-Tech - Diffusion restreinte 31
GENERALISATION
© 2013 Affini-Tech - Diffusion restreinte 32
• Applicable à toute transaction
• Des données brutes
• Augmenter la donnée
• Similarités et Classifications
• Recommandations
© 2013 Affini-Tech - Diffusion restreinte 33
Lecture Nettoyage
Machine
Learning
Open-
data
Data-
Visualisation
Agrégation
Croisement
DAta-PIPELINE
© 2013 Affini-Tech - Diffusion restreinte 34
: ETL & DW
Transactionnel BI Applications DataMarts
Non-Structuré
ETL & DW
© 2013 Affini-Tech - Diffusion restreinte 35
: EDW
Transactionnel BI Applications
Non-Structuré
ETL & DW & DataMarts
© 2013 Affini-Tech - Diffusion restreinte 36
Applications
& Machine Learning
Visualisations
Tableau & JS Opendata
Plateformes
© 2013 Affini-Tech - Diffusion restreinte 37
• "With data collection, 'the sooner the better' is always the best answer"
• Marissa Mayer, Yahoo CEO
© 2013 Affini-Tech - Diffusion restreinte 38
Merci !
• Vincent Heuschling
• Gsm : 06 61 88 76 71
• Email : [email protected]
• Web : http://www.affini-tech.com
• Twitter : @affinitech & @vhe74