Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Post on 13-Apr-2017

306 views 2 download

Transcript of Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

EXPLOITER LES DONNÉES D'OUTILS

AVANCÉS POUR OPTIMISER SES TEXTES

POUR LE SEO

MERCREDI 30 MARS 2016

LAURIE SERRANO – SF LABS

INGÉNIEURE EN TRAITEMENT AUTOMATIQUE DU LANGAGE

Petit Déjeuner

Search Foresight

La recherche façon Google

Intelligence ou volume de données ?

RankBrain et TensorFlow

Traitement sémantique des requêtes

Algorithme de « machine learning »

Fondé sur Word2vec

Mis en place début 2015

Architecture logicielle pour développer des systèmes de

« machine learning »

Diffusée en open source en novembre 2015

Utilisée par les équipes Google depuis 2011

A la base de nombreuses solutions Google (dont RankBrain)

Word2vec

Word embeddings : le buzz du moment !

Mot → vecteur numérique à n dimensions

Algorithme de « machine learning » : réseau de neurones

artificiels

Objectif : obtenir une représentation vectorielle la plus proche

possible de la réalité linguistique

Projection dans un espace multi-dimensionnel → relations

entre mots

Relations sémantiques mais aussi syntaxiques

« Phrase embeddings » : processus équivalent pour les

expressions

Sémantique distributionnelle : une histoire ancienne !

“ You shall know a word by the company it keeps ”(J. R. Firth, 1957)

Le distributionnalisme (Z. Harris, 1954)

– les unités de la langue sont interchangeables

– les unités apparaissant dans des contextes similaires sont sémantiquement proches

Word2vec : mode d’emploi

Matériel nécessaire :

– Du texte, beaucoup de texte…

Plusieurs implémentations disponibles :

– Logiciel fourni par Google (binaires et exemples d’utilisation)

– Framework Gensim (Python)

– Framework DeepLearning4J (Java)

– GloVe

Paramétrage nécessaire :

– Architecture du réseau de neurones (CBOW, Skip Gram)

– Nombre de dimensions des vecteurs

– etc.

Des modèles vectoriels disponibles :

– Google News (100 milliards de mots) pour Word2vec

– Wikipédia (6 milliards de mots) pour GloVe

– etc.

Application au SEO

Suggestion de mots-clés

Climate change

Suggestion de mots-clés

Leonardo DiCaprio

Suggestion de mots-clés

Mad cow

Similarité sémantique

Similarité entre pages Web

– Détection des « (near-)duplicate content »

– Améliorer le maillage interne

Similarité entre mots-clés, expressions-clés

– Elargir le positionnement d’un site

– Suggérer du nouveau contenu

Regroupement thématique

« Clustering » de mots-clés

Découpage de l’espace vectoriel

Apprentissage non-supervisé

– K-means

– Clustering hiérarchique

Optimiser la catégorisation des sites Web

Anticiper et suivre l’évolution d’un secteur de marché

Améliorer l’analyse sémantique concurrentielle

Des questions ?