Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO
-
Author
search-foresight -
Category
Internet
-
view
306 -
download
2
Embed Size (px)
Transcript of Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

EXPLOITER LES DONNÉES D'OUTILS
AVANCÉS POUR OPTIMISER SES TEXTES
POUR LE SEO
MERCREDI 30 MARS 2016
LAURIE SERRANO – SF LABS
INGÉNIEURE EN TRAITEMENT AUTOMATIQUE DU LANGAGE
Petit Déjeuner
Search Foresight

La recherche façon Google

Intelligence ou volume de données ?

RankBrain et TensorFlow
Traitement sémantique des requêtes
Algorithme de « machine learning »
Fondé sur Word2vec
Mis en place début 2015
Architecture logicielle pour développer des systèmes de
« machine learning »
Diffusée en open source en novembre 2015
Utilisée par les équipes Google depuis 2011
A la base de nombreuses solutions Google (dont RankBrain)

Word2vec

Word embeddings : le buzz du moment !
Mot → vecteur numérique à n dimensions
Algorithme de « machine learning » : réseau de neurones
artificiels
Objectif : obtenir une représentation vectorielle la plus proche
possible de la réalité linguistique
Projection dans un espace multi-dimensionnel → relations
entre mots
Relations sémantiques mais aussi syntaxiques
« Phrase embeddings » : processus équivalent pour les
expressions

Sémantique distributionnelle : une histoire ancienne !
“ You shall know a word by the company it keeps ”(J. R. Firth, 1957)
Le distributionnalisme (Z. Harris, 1954)
– les unités de la langue sont interchangeables
– les unités apparaissant dans des contextes similaires sont sémantiquement proches

Word2vec : mode d’emploi
Matériel nécessaire :
– Du texte, beaucoup de texte…
Plusieurs implémentations disponibles :
– Logiciel fourni par Google (binaires et exemples d’utilisation)
– Framework Gensim (Python)
– Framework DeepLearning4J (Java)
– GloVe
Paramétrage nécessaire :
– Architecture du réseau de neurones (CBOW, Skip Gram)
– Nombre de dimensions des vecteurs
– etc.
Des modèles vectoriels disponibles :
– Google News (100 milliards de mots) pour Word2vec
– Wikipédia (6 milliards de mots) pour GloVe
– etc.

Application au SEO

Suggestion de mots-clés
Climate change

Suggestion de mots-clés
Leonardo DiCaprio

Suggestion de mots-clés
Mad cow

Similarité sémantique
Similarité entre pages Web
– Détection des « (near-)duplicate content »
– Améliorer le maillage interne
Similarité entre mots-clés, expressions-clés
– Elargir le positionnement d’un site
– Suggérer du nouveau contenu

Regroupement thématique
« Clustering » de mots-clés
Découpage de l’espace vectoriel
Apprentissage non-supervisé
– K-means
– Clustering hiérarchique
Optimiser la catégorisation des sites Web
Anticiper et suivre l’évolution d’un secteur de marché
Améliorer l’analyse sémantique concurrentielle

Des questions ?