Twitter: extraction, regroupement et visualisation pour la veille stratégique

29
Twitter : extraction, regroupement et visualisation pour la veille stratégique Alina STOICA, Philippe SUIGNARD, Lambert PEPIN EDF R&D

description

Intervention de Philippe Suignard - EDF R&D

Transcript of Twitter: extraction, regroupement et visualisation pour la veille stratégique

Page 1: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Twitter : extraction, regroupement et visualisation pour la veille stratégique

Alina STOICA, Philippe SUIGNARD, Lambert PEPIN

EDF R&D

Page 2: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Plan de la présentation

Introduction

Présentation du réseau social Twitter

Exemple de visualisations de tweets

Expérimentation sur un corpus de tweets parlant d’EDF

Conclusion et perspectives

Page 3: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Introduction

Contexte de veilleConcurrentielle et stratégique sur l’Entreprise

Recherche permanente de l’amélioration de la qualité de la relation avec les clients

Que dit-on d’EDF dans la presse, sur Internet, blogs, forum, réseaux sociaux…?

Twitter occupe une place intéressante réseau social très populaire en France dont le nombre d’utilisateurs a connu une

augmentation récente très importante

format de message court qui oblige les rédacteurs à adopter un style très synthétique

tout en leur permettant d’inclure des liens vers les sources d’origine

particulièrement bien adapté à la diffusion et à la propagation d’information

Twitter offre un accès, relativement facile, à ses contenus

Twitter constitue un support idéal pour contribuer à la veille qu’EDF réalise de manière

continue

Mais pour être efficace, cette veille doit être outillée afin de faciliter le travail du veilleur

C’est cette phase d’outillage que nous décrivons dans la suite de cette présentation…

… qui présente un ensemble de méthodes et outils qui vont nous aider à analyser

« ce qui se dit sur EDF »

Page 4: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Le réseau social Twitter

Twitter : site de micro-bloggingCréé en mars 2006 par Jack Dorsey

« To tweet » signifie gazouiller, pépier

1 tweet = 1 message d’au plus 140 caractères, exemple :

Les tweets sont publics: on peut voir les tweets

d’une personne (éventuellement la suivre, @compte)

contenant un mot clé, un hashtag (ex: #EDF) etc.

peuvent être « re-tweetés (RT ….)

Twitter et droit d’auteurA qui appartiennent les tweets ?

Retweet : droit de courte citation s’applique ?

Texte court ne peut pas être protégé mais slogans publicitaires le sont

Licence TweetCChttp://scinfolex.wordpress.com/2009/06/27/twitter-et-le-droit-dauteur-des-relations-complexes/

http://fr.wikipedia.org/wiki/Twitter

RT @MoreNicolas: Le compteur #Linky , son fonctionnement et ses avantages expliqués!

http://goo.gl/T7VEe

Page 5: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Le réseau social Twitter

Evolution du nombre d’utilisateursUSA (1), Brésil (2), Japon (3), …,

Argentine (17), France (18),

Allemagne (19), etc.

Enquête de Semiocast : 500 millions de comptes.

Nombre très important de création de comptes

au premier semestre 2012 : 30 millions aux

États-Unis. Les USA, pays n°1 dans le monde sur

Twitter, représentent ainsi 27,4 % des comptes

Twitter du globe, et 25,8 % des messages publics.

http://semiocast.com/publications/2012_07_30_Twitter_reaches_half_a_billion_accounts_140m_in_the_US

Paris 7ème ville

Page 6: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Le réseau social Twitter

Qui est sur Twitter ?

Un peu tout le monde !EDF, Henri Proglio, des centrales nucléaires

RTE, ERDF…

Gaz de France, GrDF

Banques (CA, S. Générale…)

La Poste

Opérateurs télécoms (Orange, SFR…)

Grands journaux

… et bien d’autres

Page 7: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Le réseau social Twitter

Interface

Texte du tweet

Nombre de tweets

Abonnements

Abonnés

Compte

Liste des tweets

reçus

Page 8: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Le réseau social Twitter

Typologie de Tweets

Réaction à des sites WebTexte libre

Réaction à des émissions de Télé (http://www.tvtweet.fr)

06/05/2012

Page 9: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Le réseau social Twitter : attention à la contrefaçon !

Comment acheter des « followers » sur Twitter ?C’est la question que se sont posée deux journaux : 27 000 followers

pour 202 dollars d’un côté et 50 000 followers pour 33 € de l’autre ! En fait l’offre est

pléthorique et planétaire, elle va de 0,15 c€ par follower pour des offres « bas de

gamme », jusqu’à 0,2 € par followers pour des offres ayant pignon sur rue avec garantie

de « vrais utilisateurs » comme ce que propose la société Boostic.

La RATP, l’humour et twitterLe 05/09/2012, la RATP a ouvert un compte Twitter pour quatre de ses lignes :

@ligne1_RATP, @Ligne4_RATP, @Ligne12_RATP et @Ligne13_RATP. L'objectif

consistait à tester ce canal d'information en temps réel pour l'étendre ensuite à

l'ensemble des lignes en fonction de l’intérêt du public.

Le lendemain, des internautes se sont amusés à subtiliser l’identité du service en créant

des comptes aux noms de la plupart des lignes de la RATP (puisque le service n’avait

pour l’instant été créé que pour 4 lignes):

Ligne14_RATP : « Attention, ce métro ne prend plus de voyageurs ! (Je dois être léger pour la course

avec @Ligne7_RATP) »

Ligne7_RATP : « Je passe et repasse par Maison Blanche. Je n’ai toujours pas vu le président Obama. »

Ligne7_RATP : « J’ai entamé les démarches pour que le Pont Neuf soit renommé le Pont Sept. »

La RATP a ensuite réagi et récupéré la propriété des « faux » comptes. Puis elle a créé

un site rassemblant les tweets les plus savoureux !

Page 10: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux existants : VoxCivitas (1/6)Outil, fortement interactif,

d’analyse visuelle

permettant de naviguer au

sein d’une base de

données composées de

vidéos et de tweets relatifs

à ces vidéos. L’application

permet de visualiser les

tweets au fur à mesure de

la lecture de la vidéo, ou

encore de naviguer dans

ces tweets et de se

positionner sur la vidéo au

moment de l’émission du

tweet. Cette application

s’appuie sur les discours de

B. Obama pendant la

campagne électorale

américaine.

Page 11: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux existants : Nokia Internet Pulse (2/6)

Cet outil balaie

automatiquement le site de

micro-bloging en fonction

de mots clés particuliers,

puis classe, en deux

catégories, les messages

relevés, ceux faisant acte

de sentiments positifs, et

ceux qui véhiculent plutôt

un message négatif.

L'ensemble des données

est organisé sur une plate-

forme en ligne, qui met en

avant un nuage de mots-

clés correspondant aux

commentaires des

internautes

Page 12: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux existants : TweetTopicExplorer (3/6)

Cet outil commence par

récupérer les tweets d’un

compte donné et les

assemble en un nuage de

bulles créées à partir des

mots les plus fréquents des

tweets émis par ce

compte.

Page 13: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux existants : twitInfo (4/6)

Permet d’explorer un

événement, comme un

discours ou une rencontre

sportive, en détectant et

labellisant

automatiquement des pics

dans le flux d’arrivée des

tweets, et en proposant une

interface regroupant

géolocalisation, sentiments,

liens populaires et tweets

significatifs

Page 14: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux existants : twitt3D (5/6)

Récupère les tweets d’un

compte donné et les affiche

avec la photo de leur

auteur, le tout en trois

dimensions. Permet une

navigation 3D dans

l’ensemble de ces tweets.

Page 15: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux existants : « twitter tongue »(6/6)

Récupère les tweets d’une

ville (New-York et Londres)

à l’aide de la localisation,

détecte la langue du tweet

et l’affiche sur une carte.

Permet de situer sur une

carte les nationalités des

personnes.

http://infosthetics.com/archives/2013/02/new_york_london_mapped_according_to_the_languages_that_are_tweeted.html

Page 16: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux réalisés (1/3)Inspirés de « StoryFlow » et « StreamGraph », notamment fait pour représenter

l’évolution des entrées des films au cours du temps.

Analogie entre tweets et films : apparition puis décroissance plus ou moins

rapide.

Avantage : mettent en évidence les thèmes ou films ayant réalisés beaucoup

d’entrées et ceux restés longtemps présents au box-office.

StoryFlow

Page 17: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux réalisés (2/3)Pour chaque période (ici le jour), calcul de la liste des thèmes (terme générique pour

désigner un cluster, une méta-donnée, etc.) et leur occurrence ;

Classement des thèmes par ordre décroissant

Affichage de chaque thème proportionnellement à son occurrence, en plaçant le plus

important en haut de l’écran ;

Si le thème a déjà été rencontré par le passé, on lui

attribue la même couleur que précédemment, si le thème

n’a pas encore été rencontré on lui attribue une nouvelle

couleur.

Si le thème ne se trouve pas dans la période concernée

(comme A en période J sur la figure 5), on regarde si on

va le retrouver ultérieurement. Si c’est le cas, alors on lui

attribue la taille la plus petite qui soit et on le fait passer

sous l’axe des ordonnées, ce qui permet de maintenir une

continuité visuelle. Cette particularité n’existe pas dans

l’algorithme d’origine.

Ensuite on relie les thèmes entre deux périodes

successives via des courbes de Béziers afin de produire

un rendu « lissé ».

Page 18: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des tweets

Travaux réalisés (3/3)

En jouant sur la largeur des barres et sur leur espacement, on fait apparaître

des phénomènes différents. Ainsi, sur la figure :

à gauche, un faible espacement inter-barre met d’avantage en évidence les thèmes et leur

score pour une période donnée ;

à droite, un espacement inter-barre plus important et une taille de barre plus petite mettent

d’avantage en évidence les évolutions d’un thème au cours du temps.

Page 19: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Expérimentation sur corpus de tweets parlant d’EDF

Collecte d’un corpus EDFCollecte des tweets grâce à l’API Twitter (recherche par mot clé)

Twitter permet uniquement de rechercher les tweets récents (3 à 6 jours), d’où un

processus de collecte permanent

Pour les tweets, permet de récupérer :

identifiant, auteur, texte, date et heure

Pour les auteurs :

identifiant, followers, image

Collecte des tweets contenant « EDF » publiés entre le 3 mars 2011 et le 25 juin

2011

Elimination de tweets parlant de sport (EDF = « Equipe de France » !) en utilisant

une liste de mots liés au sport (« entraineur », « match », « football », «Deschamp»

etc.)

23 574 tweets

8 567 tweets

Page 20: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Expérimentation sur corpus de tweets parlant d’EDF :

regroupement des tweets quasiment identiques

Objectif : Regrouper les tweets ayant des contenus très similaires

Similarité des textes des tweetsUtilisation de l’ensemble de mots d’un tweet = tous les mots du tweet sauf:

noms précédés par «@»

URLs

le mot final, s’il est suivi par « … » et il n’y a pas d’espace entre le mot et « … » (mot tronqué)

mots « blancs » (« y », « en », « à », « et » et les articles définis et indéfinis).

Pour deux tweets A et B, utilisation de la distance de

Jaccard améliorée

Où nA = le nb. de mots dans l’ensemble du tweet A

nAB = le nb. de mots communs aux deux ensembles

Remarque: dist(A,B) = 0 si les ensembles des mots sont identiques (à l’ordre des mots près) et

dist(A,B) = 1 si les deux ensembles n’ont aucun mot en commun

Page 21: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Expérimentation sur corpus de tweets parlant d’EDF :

regroupement des tweets quasiment identiques

Méthode de clusteringContraintes du clustering

La distance de Jaccard améliorée entre deux tweets d’un même cluster est au plus d

L’écart de temps maximal entre deux tweets consécutifs d’un même cluster est au plus t

Clustering hiérarchique qui tire profit de la contrainte temporelle

il n’est pas nécessaire d’évaluer à chaque étape les distances entre tous les clusters, mais seulement les

distances entre chaque cluster et ceux des quelques jours précédents

Gain de temps

Etapes1- chaque tweet est attribué à un cluster (qui ne contient que lui) et à un jour (son

jour de publication) ;

2 - on fait un clustering hiérarchique des tweets d’un même jour

3 - on répète jusqu’à ce qu’on ne puisse plus fusionner des clusters :

pour chaque jour j, on calcule la distance entre les clusters du jour j et ceux des

jours précédents (j-1 jusqu’à j-t)

on choisit le couple de clusters pour lequel la distance est minimale (et inférieure

à d) et on fusionne les deux clusters

Page 22: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Corpus EDF, les HashtagsHasthtags fréquents (par thématique):

nucléaire : #nucleaire (384), #areva (165), #fukushima(208), #tepco (41) ;

nouveau compteur déployé dans la région lyonnaise : #erdf (64), #linky (63), #lyon (22) ;

écologie : #eelv (58), #hulot (53), #renouvelable (23) ;

énergie en général : #energie (50), #production (36) ;

emploi : #emploi (38).

Résultat du clustering

Nous utilisons les 4114 clusters obtenus pour d=0,6 et t=3 jours

2853 clusters contiennent un seul tweet

le plus grand cluster comprend 155 tweets

Expérimentation sur corpus de tweets parlant d’EDF

Seuil distance d Seuil temps t nb. clusters0,50 1 jour 4618

0,55 1 jour 4494

0,60 1 jour 4310

0,65 1 jour 3197

0,55 2 jours 4553

0,55 2 jours 4419

0,60 2 jours 4214

0,50 3 jours 4 494

0,55 3 jours 4 349

0,60 3 jours 4114

Page 23: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Exemple de regroupement@alexbongibault : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » -http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-

de-40_1503641_3244.html

@vodka083 : RT @lemondefr : « Avec une petite éolienne, j'ai baissé ma facture EDF

de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-

facture-edf-de-40_1503641_3244.html

@chikkitita : Adoptons tous une éolienne RT @lemondefr [TEMOIGNAGES] « Avec

une petite éolienne, j'ai baissé ma facture EDF de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-

de-40_1503641_3244.html

@homeenergyperf : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% »

Invités à faire part de leur expérience en matière... http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-

de-40_1503641_3244.html

Expérimentation sur corpus de tweets parlant d’EDF

Page 24: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Autre exemple de regroupement@Francetweets : Chantage politique sur les tarifs d’EDF: Il fallait oser!

@Supdeco : Chantage politique sur les tarifs d’EDF

@liberation_fr : Chantage politique sur les tarifs d’EDF

@Dgcourriel : RT @liberation_fr: Chantage politique sur les tarifs d’EDF

Expérimentation sur corpus de tweets parlant d’EDF

Page 25: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des clusters

Cette visualisation permet de voir rapidement :

Les périodes qui ont connu beaucoup de tweets ;

Les clusters importants en volume caractérisés par des barres de couleur en haut de la courbe

Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue et s’étalent sur plusieurs

jours, contrairement à ceux qui ont une faible durée de vie.

Expérimentation sur corpus de tweets parlant d’EDF

Page 26: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Visualisation des hashtags

Cette visualisation permet de voir rapidement la distribution des hashtags dans le corpus

Expérimentation sur corpus de tweets parlant d’EDF

Page 27: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Expérimentation sur corpus de tweets parlant d’EDF

Un outil permettant de naviguer dans les tweetsRecherche par mot clé, date, semaine, mois, RT

Visualisation sous la forme de courbe

Nuage de mots clé

Page 28: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Conclusion et perspectives

Chaine de traitement s’appuyant sur TwitterÀ l’état de prototype

Récupération des données, filtrage, regroupement et visualisation

Plusieurs pistes d’améliorations envisagées :

la phase dite de regroupement, qui consiste à regrouper des contenus très proches

produit une liste de « clusters » trop grande. Il faudra sans doute opérer un

deuxième niveau de « clustering » pour obtenir des groupes de « clusters », ces

groupes étant plus thématiques que les premiers ;

un module de détection de sentiments et d’opinions pourrait être intégré dans la

chaine de traitements. Il permettrait de rechercher ou visualiser les « clusters »

positifs ou négatifs. Pour cela nous nous appuierons sur des outils du commerce.

Evaluation d’un point de vue métierCe travail devra être testé d’un point de vue métier, c'est-à-dire par ou avec les

personnes concernées par la veille, ceci afin de voir dans quelle mesure un tel outil peut

être intéressant et complémentaire avec les outils et pratiques existants.

Cette confrontation permettra aussi de faire évoluer la chaine de traitements décrite

dans cet article.

Page 29: Twitter: extraction, regroupement et visualisation pour la veille stratégique

Merci

V.S.S.T.'2012 : 24 - 25 mai, Ajaccio

Twitter : extraction, regroupement et visualisation pour la veille stratégique

Alina STOICA, Philippe SUIGNARD, Lambert PEPIN

EDF R&D