13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT,...

17
Séminaire DIXIT - Les nouvelles frontières de la « data intelligence » : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? Odile Quesnel - Responsable ArgusLab

Transcript of 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT,...

Page 1: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

Séminaire DIXIT - Les nouvelles frontières de la « data intelligence » :

content analytics, machine-learning, prédictif

13 avril 2015

LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE

Expérience informationnelle et exploitation analytique des données :

comment aller au-delà des discours très généraux sur les données

massives et le machine learning ?

Odile Quesnel - Responsable ArgusLab

Page 2: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 2 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

L’ARGUS, SES SERVICES & SON TERRAIN DE JEU

Page 3: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 3 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

DEVELOPPEMENT &

ANTICIPATION

VEILLE

STRATEGIQUE

ANALYSE

STRATEGIQUE

CONTACT

STRATEGIQUE

REPUTATION &

INFLUENCE

VEILLE

MEDIA

ANALYSE

MEDIA

ENGAGEMENT

MEDIA

ARGUS DE LA PRESSE

ENJEUX & EXPERTISES

Page 4: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 4 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

SOCIAL MEDIA & TERRITOIRES DE L’INFORMATION

• Un monde en permanence « augmenté »

• le data exhaust bouscule les processus de production et d’accès aux contenus

Dans ce contexte de données massives les cloisonnements traditionnels tombent

Les décideurs attendent des réponses de la part des professionnels de l’information, de la communication comme du marketing

Apprécier les contenus nécessite de passer par du cross-media

Page 5: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 5 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

UN PEU DE THEORIE

Page 6: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 6 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

DE QUOI PARLE-T-ON ?

Jordan Awan

Page 7: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 7 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

• S’agit-il de prédire un prix, ou une catégorie ? • Souhaite-t-on un apprentissage au fil de l’eau ou statique ? • Quelles variables cibles souhaite-ton prédire au moyen de quelles variables prédictives ? • A-t-on par avance une idée du type de relation qui lie les variables prédictives à la variable cible ? => Plusieurs types d'algorithmes ML à choisir et à appliquer en fonction de l'objectif et du type de données

D’après Melanie Warrick

MAIS ENCORE ?

Ce qui manque par la connaissance « objective » et un modèle explicatif nous le chercherons par les données

S’il n’y a pas d’algorithme idéal nous avons des données pour apprendre

Le Machine Learning a donc pour objectif d’élaborer et d’optimiser des algorithmes pour optimiser des processus d’apprentissage et concevoir des modèles prédictifs.

Page 8: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 8 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

Apprentissage supervisé • Anticiper la gestion des stations de vélos en libre

accès sachant que …. • Eviter d’être pollué par des messages publicitaires

sachant que … La classification consiste à identifier les classes d'appartenance de nouveaux objets à partir d'exemples antérieurs connus La régression prédit les valeurs possibles d'une ou plusieurs variables à partir des anciennes valeurs relevées

Apprendre d’une relation , la phase d’apprentissage consiste à trouver les bonnes questions à poser pour catégoriser correctement un ensemble Généraliser à partir de ce qu'on connaît déjà

Apprentissage non supervisé • Répartir un ensemble de prospects en niches

quand on ignore la segmentation du marché • Prévoir quels seront les clients potentiels pour

un produit, à partir des données d’achat de déplacement

• des données qui peuvent se classer dans un

trop grand nombre de catégories. Découvrir des structures cachées dans les données plutôt que de « généraliser » à partir d’un corpus exemple. Il ne s’agit pas de « profiler » complètement les processus Si les corrélations n’expliquent pas tout, elles aident à détecter certains motifs ou régularités.

APPRENDRE ?

Construire des systèmes autonomes que l’on pourra « éduquer » sur la base d’un corpus d’exemples pertinents pré existant ou que le système fera émerger

Page 9: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 9 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

http://www.ted.com/talks/fei_fei_li_how_we_re_teachin

g_computers_to_understand_pictures#t-477527

NOS MACHINES LES PLUS INTELLIGENTES SONT TOUJOURS AVEUGLES

Modèles de réseaux neuronaux :

le laboratoire d’IA de Stanford dirigé par

Fei Fei Li a créé un logiciel capable de

reconnaître des scènes fixes photographiés

et de les décrire en langage naturel .

Projet de catégorisation en crowdsourcing

Page 10: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 10 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

Que dit l’ordinateur quand il voit une image

OU COMMENT ENSEIGNER AUX MACHINES A COMPRENDRE UNE PHOTO

La machine a appris comme un enfant de 0 à 3 ans,

Le défi suivant est d’aller de 3 à 13 ans

Elle fait des erreurs

Page 11: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 11 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

ALGORITHMES ET MACHINE LEARNING A L’ARGUS

DE LA THEORIE A L’ACTION

Page 12: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 12 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

8 500 Publications Presse France & International

270 Radios et TV

10 500 Sites Internet éditoriaux France & International

60 000 contacts et influenceurs médias & sociaux

Web social : blogs & réseaux sociaux

Web corporate & Institutionnel

QUELLES ROUTES TRACER ?

Des contenus hétérogènes dans leur forme et leur langage Des données structurées et qualifiées Des données à extraire pour donner du sens

• Vision à 360 de son marché • Connaître les évolutions et les tendances • Identifier les menaces & opportunités • Détecter & analyser les leviers de croissance • Détecter de nouveaux prospects • Détection et suivi des signaux d’alertes ……..

Un territoire complexe et mouvant

Un monde à révéler

Apprendre à partir des jeux de données Identifier des schémas via l’exploration

Des données correctement préparées & des stratégies soigneusement considérées Des outils et des méthodologies qui mobilisent :

• Traitement automatique de la langue • Modèles algorithmiques et apprentissage

automatique • Content analytics

De multiples destinations

Page 13: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 13 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

Lever les contraintes

de format

Des contenus cross

media et des données

intelligibles

Des données enrichies et

contextualisées

Systèmes de

représentation et de

navigation pour

exploiter contenus et

connaissance

extraite en contexte

UNE CHAÎNE DE VALEUR POUR DES SPHÈRES D’USAGES MULTIPLES

Data scientist

Linguiste

Développeur

Chief Data Officer

Architecte

Linguiste - Mathématicien

Page 14: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 14 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

LEVER LES CONTRAINTES DE FORMAT

OCR - Reconnaissance automatique de caractères • Comparer sur un corpus de formes connues • Retenir les formes les plus proches • Traiter sur méthodes linguistiques et

contextuelles pour réduire le nombre d'erreurs de reconnaissance

Reconnaissance automatique de la parole Hypothèse de transcription avec une mesure de confiance sur des modèles de langue et acoustiques

D’après Pascale Sébillot Inria

Page 15: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 15 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

DES DONNEES INTELLIGIBLES & ENRICHIES

Extraction de relations

Apprentissage d’un classificateur classant chaque phrase avec au moins deux EN et un déclencheur

=> relation / pas de relation

=> relation positive ou négative

Catégorisation des contenus textuels

Classificateur de texte par l’apprentissage, à partir d’une série des documents pré-classifiés ou de caractéristiques de catégories d’intérêts

L’’algorithme ventile dans des classes différenciées et ce sur la base du critère de similarité entre documents

Analyse de sentiments

Apprentissage de l’orientation sémantique des mots ou des expressions

Un mot a un contexte qui contribue au sens

Signaux forts et faibles Algorithme de « régression linéaire Comptages de présence d’information sur des périodes => montrer une tendance constatée. Une dimension prédictive => faire intervenir d’autres variables comme la durée de la tendance sur les périodes passées, le nombre de médias qui en parlent, etc.

Page 16: 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA ... · LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ARGUS DE LA PRESSE 16 Valoriser le contenu Aider à la décision

ARGUS DE LA PRESSE 16 LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT

Valoriser le contenu Aider à la décision Exploiter la mesure

Tendances

Aider au repérage

“Prendre ce que l’on a et le faire parler”

Produire de la valeur sur le contenu :

Mesure Indicateurs

Proposer des endroits à écouter Etudier viralité

Cartographier relations et interactions cross media

Rechercher

DES FONCTIONS ADAPTÉES A CHAQUE SPHÈRE D’USAGE

Comprendre la propagation d’une information, les processus de contamination - Explorer dans une multitude de signaux

=> Des modèles existants et de nouveaux modèles à construire

• Dans des formes variées de trajectoires de notoriété. discriminer ce qui relève de la « contagion » et ce qui ressort des différentes formes d’éditorialisation cross media

Faire émerger une histoire pertinente Découverte de faits intéressants Mise en évidence de tendances cachées => D’une histoire complexe à un graphique interactif, personnalisable