Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

15
EXPLOITER LES DONNÉES D'OUTILS AVANCÉS POUR OPTIMISER SES TEXTES POUR LE SEO MERCREDI 30 MARS 2016 LAURIE SERRANO – SF LABS INGÉNIEURE EN TRAITEMENT AUTOMATIQUE DU LANGAGE Petit Déjeuner Search Foresight

Transcript of Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Page 1: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

EXPLOITER LES DONNÉES D'OUTILS

AVANCÉS POUR OPTIMISER SES TEXTES

POUR LE SEO

MERCREDI 30 MARS 2016

LAURIE SERRANO – SF LABS

INGÉNIEURE EN TRAITEMENT AUTOMATIQUE DU LANGAGE

Petit Déjeuner

Search Foresight

Page 2: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

La recherche façon Google

Page 3: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Intelligence ou volume de données ?

Page 4: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

RankBrain et TensorFlow

Traitement sémantique des requêtes

Algorithme de « machine learning »

Fondé sur Word2vec

Mis en place début 2015

Architecture logicielle pour développer des systèmes de

« machine learning »

Diffusée en open source en novembre 2015

Utilisée par les équipes Google depuis 2011

A la base de nombreuses solutions Google (dont RankBrain)

Page 5: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Word2vec

Page 6: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Word embeddings : le buzz du moment !

Mot → vecteur numérique à n dimensions

Algorithme de « machine learning » : réseau de neurones

artificiels

Objectif : obtenir une représentation vectorielle la plus proche

possible de la réalité linguistique

Projection dans un espace multi-dimensionnel → relations

entre mots

Relations sémantiques mais aussi syntaxiques

« Phrase embeddings » : processus équivalent pour les

expressions

Page 7: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Sémantique distributionnelle : une histoire ancienne !

“ You shall know a word by the company it keeps ”(J. R. Firth, 1957)

Le distributionnalisme (Z. Harris, 1954)

– les unités de la langue sont interchangeables

– les unités apparaissant dans des contextes similaires sont sémantiquement proches

Page 8: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Word2vec : mode d’emploi

Matériel nécessaire :

– Du texte, beaucoup de texte…

Plusieurs implémentations disponibles :

– Logiciel fourni par Google (binaires et exemples d’utilisation)

– Framework Gensim (Python)

– Framework DeepLearning4J (Java)

– GloVe

Paramétrage nécessaire :

– Architecture du réseau de neurones (CBOW, Skip Gram)

– Nombre de dimensions des vecteurs

– etc.

Des modèles vectoriels disponibles :

– Google News (100 milliards de mots) pour Word2vec

– Wikipédia (6 milliards de mots) pour GloVe

– etc.

Page 9: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Application au SEO

Page 10: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Suggestion de mots-clés

Climate change

Page 11: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Suggestion de mots-clés

Leonardo DiCaprio

Page 12: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Suggestion de mots-clés

Mad cow

Page 13: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Similarité sémantique

Similarité entre pages Web

– Détection des « (near-)duplicate content »

– Améliorer le maillage interne

Similarité entre mots-clés, expressions-clés

– Elargir le positionnement d’un site

– Suggérer du nouveau contenu

Page 14: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Regroupement thématique

« Clustering » de mots-clés

Découpage de l’espace vectoriel

Apprentissage non-supervisé

– K-means

– Clustering hiérarchique

Optimiser la catégorisation des sites Web

Anticiper et suivre l’évolution d’un secteur de marché

Améliorer l’analyse sémantique concurrentielle

Page 15: Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Des questions ?