Présentation Lingway

42
www.lingway.com Opinion Mining Etat de l’art et exemples d’applications Documation / MIS 22 mars 2012 [email protected] [email protected]

description

Présentation Lingway au salon MIS 2012

Transcript of Présentation Lingway

Page 1: Présentation Lingway

www.lingway.com

Opinion MiningEtat de l’art et exemples d’applications

Documation / MIS 22 mars 2012

[email protected]@lingway.com

Page 2: Présentation Lingway

Qui sommes nous ?

Une société spécialisée sur l’analyse des données tex tuelles� Transformer une information non structurée en données utilisables par des logiciels� Une centaine de clients dans différents domaines� Une offre e-Reputation lancée il y a un peu plus d’un an

Un laboratoire de Sciences-PO� Spécialiste de la sociologie des nouveaux médias� Ouvrage de Dominique Boullier et Audrey Lohard « opinion mining »

Le projet iPinion 2010-2011� Avec Sciences-PO MEDIALAB et PIKKO� Projet CAP DIGITAL, financement Ministère de l’ Industrie

>

2

Page 3: Présentation Lingway

e-Réputation: un enjeu incontournable

Selon plusieurs études concordantes, en gros:

Les 3/4 des français sont des internautes

Les 3/4 des internautes consultent Internet avant d’a cheter un produit

La moitié des internautes consultent les avis des aut res avant de choisir un produit

L’analyse des opinions est au cœur de la e-réputation

3

Page 4: Présentation Lingway

Opinion mininget sentiment analysisMéthodes et outils

Dominique Boullieret Audrey Lohard

Page 5: Présentation Lingway

Opinion Mininget Sentiment Analysis

Dominique BoullierEt Audrey Lohard

Page 6: Présentation Lingway

Les SHS Sciences Humaines et Sociales et l’opinion mining� Traditions

� quantitatives: questionnaires et de sondages� qualitatives: entretiens

� = des opinions provoquées et attribuées à des auteurs aux propriétés socio-démographiquesprédéfinies

� Web� des opinions spontanées dans une conversation sans

auteur à identité fiable� Mais des opinions quantifiables en masse et

analysables en détail (qualiquantitatif)

� (Tarde): la sociologie devrait être la « science des conversations »

Page 7: Présentation Lingway

Un état de l’art académique

� Sources:� TAL (NLP)� Linguistique de corpus

� Text mining (Fouille de texte)� Opinion mining (spécialisée web)� Sentiment analysis (analyse de

tonalité)

Page 8: Présentation Lingway

Les Défis Fouille de Textes (DEFT)

� 2005 : identification du locuteur d'un discours.� 2006 : segmentation thématique de textes.� 2007 : détection de l'opinion exprimée dans un texte, quatre corpus, deux à trois classes (positif, neutre, négatif) par corpus.

� 2008 : classification automatique de textes en genre et en thème.

� 2009 : Analyse multilingue d'opinion� 2010 : Étude de la variation diachronique et

diatopique du français : identification de la période et du lieu de publication d'articles de presse.

� 2011: la variation diachronique en corpus de presse et l'appariement d'articles scientifiques et de résumés.

Page 9: Présentation Lingway

État de l’art commercial

� Prérequis avant toute analyse de tonalité

� Sourcing (mots-clés ou bouquets)� L’actuelle ruée sur Twitter, l’oubli des blogs

� Extraction� Nettoyage� Base de données des verbatims

Page 10: Présentation Lingway

Sourcing et influence

� Risques � niveler tous les verbatims� attribuer a priori un poids plus grand à

certains émetteurs

� Théorie de l’influence � Avec un indicateur « MédialabInfluence Ranking » domaine par domaine

Page 11: Présentation Lingway

Rôle des experts

� Connaissance du domaine toujours requise� Pour le sourcing� Pour la structure de traitement de la

base de données� Pour le traitement

� Retour de pertinence

� Les solutions prétendument tout automatiques sont sans intérêt

Page 12: Présentation Lingway

Ce que l’on mesure en analyse de tonalité n’est pas assez distingué

� Avis� Jugement� Évaluation� Sentiment� Goût� Récits d’expérience

Page 13: Présentation Lingway

Méthodes

� Détection de phrases subjectives� Dictionnaires de mots

� Niveau de l’analyse: � n-grams vs document� en fait le niveau de la phrase est le plus

pertinent

� Analyseur syntaxique et sémantique nécessaires avec méthodes d’apprentissage (non statistiques)

Page 14: Présentation Lingway
Page 15: Présentation Lingway

Utilité et limites� E-reputation? Oui mais sans la stratégie et

au-delà pour la relation client

� Limites� Non traitement des figures rhétoriques par

exemple � D’où limites pour les analyses politiques sur des

thèmes� Ok pour des produits/ services/ entités bien

identifiées� Veiller à pouvoir identifier Target and features

Page 16: Présentation Lingway

Des exemples de réalisationBasés sur la plateformeLINGWAY e-Reputation

16

Page 17: Présentation Lingway

Pages et messagesPages et

messages

Transformation en données structurées personnes, lieux, marques, thèmes, tonalités,

avis, etc.

Transformation en données structurées personnes, lieux, marques, thèmes, tonalités,

avis, etc.

Analyseurs sémantiques =

Logiciels + dictionnaires

Base de données de

textes enrichis et structurés

MOTS CLES

Liste de sourceswww.xxx.com…

Page 18: Présentation Lingway

Analyse du contenu: exemple sur un forum

Page 19: Présentation Lingway

Contenu analysé, structuré automatiquement

Page 20: Présentation Lingway

Exemple: suivi de médicaments

20

Page 21: Présentation Lingway

Exemple: Que se dit-il sur les médicaments dans les blogs et forums ?

21

Page 22: Présentation Lingway

Thèmes + et – associés aux benzodiazépines

22

Page 23: Présentation Lingway

23

« angoisse » est un élément du lexique marqué comme

« Négatif »

Verbatims négatifs autour de l’angoisse

Page 24: Présentation Lingway

24

Inversion de la tonalité: Exemples :

� La négation

� Certains verbes à tonalité positive

Verbatims positifs autour de l’angoisse

Page 25: Présentation Lingway

Les différents types d’extraction

Les Entités nommées� Entités nommées standard

• Noms de personnes, de sociétés, de lieux• E-mails, téléphone, URLs, dates, evènements, N°siret, …

Les Thèmes� Thèmes contrôlés (catégorisation selon des thématiques prédéfinies)� Thèmes libres ( qui ne sont pas préalablement connus)

La Tonalité� Identification d’une opinion, d’ un avis à l‘égard d’une personne, d’un

produit, d’une société, d’une marque…

25

Page 26: Présentation Lingway

Extraction d’entités nommées standard

Sur la base de � Lexiques de prénoms, noms de villes, régions, pays, sociétés� Règles contextuelles : Marqueurs d’introduction de noms de

personnes, de lieu ou d’organisation� Exemples avec noms de personnes, d’organisations et de lieux

26

Page 27: Présentation Lingway

Extraction de thèmes puis de la tonalité

En français

27

Page 28: Présentation Lingway

Types de tonalités dans les lexiques

Types de tonalité utilisés dans les lexiques� Négatif / positif / positif

ambigu / négatif ambigu� deux fonctions : Intensifieur

et Modérateur qui influent grandement sur la tonalitécelle des mots qui leur sont proches.

Multilingue� Anglais, Français, Espagnol� Plusieurs autres langues en

préparation sur la base des dictionnaires Lingway

Type de

tonalité

Exemples d’entrées des lexiques de

tonalité

Positif Embellie, agréable, adorer,

agréablement

Negatif Horreur, déplorable, détester,

horriblement, en dépit de

Positif ambigu rentabilité

Négatif

ambigu

coût

Modérateur Diminution, limiter, Peu

Intensifieur Augmentation, progresser,

impressionnant, manifestement

28

Page 29: Présentation Lingway

Importance de l’Analyse linguistique

Importance analyse morpho-syntaxique : la tonalitéd’un mot peu dépendre de sa catégorie

En français on distingue « bien » adjectif positif de « bien »adverbe intensifieur

En anglais, l'analyse permet de distinguer le nom « good » qui est neutre, de l'adjectif « good » qui est positif.

29

Page 30: Présentation Lingway

Analyse de la tonalité : Exemples FR

Texte avec séquences analysées comme négatives

Texte avec séquences analysées comme positives

30

Page 31: Présentation Lingway

L’analyse lnguistique de la phrase

� Une phrase comprend souvent plusieurs opinions qu’il faut savoir identifier

31

Page 32: Présentation Lingway

Analyse de la tonalité : cas simples

32

Page 33: Présentation Lingway

Analyse de la tonalité : cas simples

Négatif� Exemples en français

� Exemples en anglais

� Exemples en espagnol

Les mots encadrés sont à l’origine de tonalité de la séquence

33

Page 34: Présentation Lingway

Impact des intensifieurs (FR)

Les intensifieurs permettent de révéler la tonalitéd’un mot ambigu positif comme « rentabilité »

Mais aussi de renforcer celle de mots déjà positifs comme « efficace »

séquence neutre

séquences positives

34

Page 35: Présentation Lingway

Impact des intensifieurs(EN)

L’intensifieur « increase » révèle la tonalité positive de « benefit »

Exemple de renforcement de la tonalité sur un mot déjà négatif comme « disaster »

séquence neutre

séquence positive

35

Page 36: Présentation Lingway

L’inversion de tonalité

Négation de verbes (ne pas, ne plus, …)

Négations de noms (aucun, pas de, zéro)

36

Page 37: Présentation Lingway

L’inversion de tonalité

Verbes négatifs inversant la tonalité de leurs compléments et/ou sujet

37

Page 38: Présentation Lingway

L’inversion de tonalité

Impact des « modérateurs »

38

Page 39: Présentation Lingway

Exemples avec plusieurs inversions

Verbe modérateur à la forme négative

Double négation de verbe

39

Page 40: Présentation Lingway

En conclusion

Les technologies du TAL sont indispensables2 cas d’utilisation

Sans révision� Même si l’analyse

automatique ne marche pas à 100%, les résultats sont globalement significatifs

Avec révision� 3 à 5 fois plus rapide

que sans ce type d’outil d’aide à la lecture

40

Page 41: Présentation Lingway

Quelques cas

Constructeur automobile� Suivi des critiques de la marque, community management

Marques de grandes consommation� Suivi des opinions sur les « valeurs » mises en avant

� Environnement, Ethique, Qualité…� Base de données de suivi permanent des marques

Assurances� Analyse des remontées sur les réseaux sociaux

Telecoms� Suivi du lancement de nouvelles offres

Administration� Veille « sujets sensibles »

41

Page 42: Présentation Lingway

MERCI…[email protected]@sciences-po.fr

42