Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

EXPLOITER LES DONNÉES D'OUTILS

AVANCÉS POUR OPTIMISER SES TEXTES

POUR LE SEO

MERCREDI 30 MARS 2016

LAURIE SERRANO – SF LABS

INGÉNIEURE EN TRAITEMENT AUTOMATIQUE DU LANGAGE

Petit Déjeuner

Search Foresight

La recherche façon Google

Intelligence ou volume de données ?

RankBrain et TensorFlow

Traitement sémantique des requêtes

Algorithme de « machine learning »

Fondé sur Word2vec

Mis en place début 2015

Architecture logicielle pour développer des systèmes de

« machine learning »

Diffusée en open source en novembre 2015

Utilisée par les équipes Google depuis 2011

A la base de nombreuses solutions Google (dont RankBrain)

Word2vec

Word embeddings : le buzz du moment !

Mot → vecteur numérique à n dimensions

Algorithme de « machine learning » : réseau de neurones

artificiels

Objectif : obtenir une représentation vectorielle la plus proche

possible de la réalité linguistique

Projection dans un espace multi-dimensionnel → relations

entre mots

Relations sémantiques mais aussi syntaxiques

« Phrase embeddings » : processus équivalent pour les

expressions

Sémantique distributionnelle : une histoire ancienne !

“ You shall know a word by the company it keeps ”(J. R. Firth, 1957)

Le distributionnalisme (Z. Harris, 1954)

– les unités de la langue sont interchangeables

– les unités apparaissant dans des contextes similaires sont sémantiquement proches

Word2vec : mode d’emploi

Matériel nécessaire :

– Du texte, beaucoup de texte…

Plusieurs implémentations disponibles :

– Logiciel fourni par Google (binaires et exemples d’utilisation)

– Framework Gensim (Python)

– Framework DeepLearning4J (Java)

– GloVe

Paramétrage nécessaire :

– Architecture du réseau de neurones (CBOW, Skip Gram)

– Nombre de dimensions des vecteurs

– etc.

Des modèles vectoriels disponibles :

– Google News (100 milliards de mots) pour Word2vec

– Wikipédia (6 milliards de mots) pour GloVe

– etc.

Application au SEO

Suggestion de mots-clés

Climate change


Leonardo DiCaprio


Mad cow

Similarité sémantique

Similarité entre pages Web

– Détection des « (near-)duplicate content »

– Améliorer le maillage interne

Similarité entre mots-clés, expressions-clés

– Elargir le positionnement d’un site

– Suggérer du nouveau contenu

Regroupement thématique

« Clustering » de mots-clés

Découpage de l’espace vectoriel

Apprentissage non-supervisé

– K-means

– Clustering hiérarchique

Optimiser la catégorisation des sites Web

Anticiper et suivre l’évolution d’un secteur de marché

Améliorer l’analyse sémantique concurrentielle

Des questions ?

Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Internet

Transcript of Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO