Fouille de données Web

download Fouille de données Web

of 77

  • date post

    05-Jan-2017
  • Category

    Documents

  • view

    217
  • download

    1

Embed Size (px)

Transcript of Fouille de données Web

  • Fouille de

    donnes Web

    1

  • Plan du cours1. Le pr-traitement des donnes

    2. Mthodes non supervises

    3. Mthodes non supervises

    4. Mthodes semi-supervises

    5. Fouille de donnes Web

    2

  • 3

    Fouille du Web

    1. Introduction 2. Fouille de contenus Web 3.Fouille de structure

    1. Indicateurs structurels 2. Evaluation de la qualit des pages Web 3.Dcouvertes de communauts

    4.Fouille des usages du Web

  • Introduction

  • 5

    Objectifs

    Appliquer des mthodes de fouille de donnes sur des donnes provenant du Web ou de ses services

    Principe

    Particularits du Web Un rpertoire immense, distribu grande chelle, largement

    htrogne de donne de type hyper-texte, hyper-mdia, fortement connectes

    Le Web est une collection immense de document plus : Des liens entre ces documents Et des informations associes lutilisation e ces documents

  • Exemple dapplications

    - Fouiller ce que retourne un moteur de recherche

    - Identifier les pages/acteurs qui font autorit

    - Identification de communauts

    - Classification de documents Web

    - Analyse des logs dutilisation des sites

    - Amliorer les rponses des moteurs de recherche

  • TaxonomieWeb Content Mining

    Web Structure Mining

    Web Usage Mining

    Analyse de sentiment, classification thmatique, dcouverte de controverse, recherche dinformation,

    Dcouverte de leader/pages qui font autorit, extraction de communauts,

    Dcouverte de chemin de navigation frquents, caractrisation des internautes,

  • 8

    Analyse de contenus Web

  • Quest ce que la fouille de texte ?

    - A pour objectif de trouver, de faon automatique, quelque chose dutile dans un corpus de texte

    - Diffrent de la recherche dinformation

    - Diffrent de linterrogation dune BD relationnelle

  • Exemples dapproches de fouille de texte (1)

    - Analyse dassociation de mots-cl ou de termes - Classification de documents / sentiments - Regroupement de documents

    - Selon lauteur

    - Selon la source

    - Selon leur proximit smantique

    - Recherche dinformation intelligente- Extraction dinformation- Dtection davis frauduleux

  • Exemples dapproches de fouille de texte (2)

    - Dcouverte de phrases frquentes - Segmentation automatique de texte - Rsum automatique - Dtection dvnements -

  • 12

    Donnes- Un jeu de donnes dapprentissage - Dcrites selon un ensemble dattributs et dotes dune classe (le thme

    du document)

    RsultatUn modle pour prdire la classe du document

    Techniques- Classification baysienne nave - SVM -

    Classification thmatique

  • 13

    Problmatique- Soit D un ensemble de documents - Prdire si le document est positif ou ngatif - Essentiel pour les sites marchands - Assez proche de la classification thmatique - Lessentiel des approches se situe au niveau du document

    Classification de sentiments

    Catgories dapproches- Bases sur les sentiments exprims dans chaque phrase - Bases sur les caractristiques du produit

  • 14

    Un algorithme en 3 temps1. Etiquetage morpho-syntaxique et filtrage des phrases

    2. Caractrisation de lorientation smantique de chaque phrase retenue

    3. Agrgation des caractrisations

    Classification de sentiments Bases sur les phrases

    Approche propose par Turney en 2002 la confrence ACL

    Rsultats- Prcision de 84% sur des avis automobiles

    - Prcision de 66% sur des critiques de films

  • 15

    Etiquetage et filtre- Etiqueter les mots en fonction de sa catgorie grammaticale

    - Ne conserver que les phrases contenant des adverbes ou des adverbes

    - Problme dambigut

    - Solution :

    Extraction de deux mots conscutifs (lun est ladjectif ou ladverbe et lautre est le contexte Filtre par rapport un motif dfini par lauteur, e.g., un adjectif suivi dun nom

    Classification de sentiments Bases sur les phrases

    Etape 1

  • 16

    Calcul de lorientation smantique des phrases retenues- Calcul de linformation mutuelle ponctuelle (pointwise mutual information)

    - Calcul de lorientation smantique

    - Probabilits calcules partir des pages retournes par un moteur de

    recherche

    Classification de sentiments Bases sur les phrases

    Etape 2

  • 17

    Classification- On considre lorientation smantique moyenne

    - Le texte sera positif si la moyenne est suprieure 0 et ngatif

    sinon

    Classification de sentiments Bases sur les phrases

    Etape 3

  • Recherche dinformation

    Donnes Des documents Une requtes

    Rsultat U n e l i s t e o r d o n n e d e

    documents pertinents

    Moteur de RI

    DocumentDocumentDocumentDocumentDocument

    CorpusRequte

  • Recherche dInformation Intelligente

    Smantique des mots- Gestion de la synonymie - Identification de lambigut

    Prise en compte de lordre des mots- hot dog stand in the amusement park - hot amusement stand in the dog park

    Prise en compte des interactions entre le systme et lutilisateur - direct feedback - indirect feedback

    Autorit de la source Le Monde est a priori une source plus fiable que le cousin de mon

    cousin

  • 20

    DonnesUn corpus de documents Une requte bien forme

    RsultatsTrouver les phrases/paragraphes pertinents Ignorer les informations non-pertinentes Agrger les diffrentes facettes retrouves

    Extraction dinformation

  • 21

    Extraction dinformation Exemple

    Salvadoran President-elect Alfredo Cristiania condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti Natinal Liberation Front (FMLN) of the crime. Garcia Alvarado, 56, was killed when a bomb placed by urban guerillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. According to the police and Garcia Alvarados driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.

    Type dincident : attentat Commanditaire : guerilla urbaine Cible : Roberto Garcia Alvarado

  • Extraction dinformation Schma

    Extractiondinformations

    Synthse

    Corpus

    Requte

    Sous-Requte

    Sous-Requte Extractiondinformations

    Agregation

  • 23

    Contexte- Opinions de plus en plus dterminantes dans lacte dachat - Recrudescence des faux avis

    Dtection dopinions frauduleuses

    Objectifs- Promouvoir un produit - Critiquer un produit concurrent - Ennuyer le lecteur - Tromper les solutions de dtection automatique davis frauduleux

    Actions- Rdaction davis dithyrambiques - Rdiger des avis injustement ngatifs et diffamatoires

  • 24

    Rdacteur isol- Bonne rputation initiale via la rdaction davis de qualit - Inscription avec des identifiants de connexion diffrents sur diffrents PC - Le rdacteur donne une bonne note mais critique fortement le produit - Rdaction dun avis trs critique sur un produit concurrent ou (exclusif)

    un avis trs favorable sur le produit promouvoir

    Dtection dopinions frauduleuses Techniques utilises

    Groupe de rdacteurs- Chaque membre du groupe value le mme produit (diminution de la

    dviation) - Chaque membre du groupe value le produit juste aprs sa sortie - Chaque membre du groupe value un produit des temps diffrents - Division du groupe : un qui critique la concurrence, lautre qui encense le

    produit promouvoir

  • 25

    Approches supervises- Peut tre vu comme un problme de classification - Jeu dapprentissage est difficile trouver - Plusieurs types de features peuvent tre considres:

    - Bases sur la review - Bases sur le reviewer - Bases sur le produit

    - Regression logistique efficace dans ce contexte

    Dtection dopinions frauduleuses Techniques de dtection

    Approches non supervises- Analyse du comportement des reviewers - Analyse base sur les avis - Analyse base sur les logs de serveurs

  • 26

    Dtection dopinions frauduleuses Analyse du comportement des reviewers

    - Dtection des avis prcoces

    Avis frauduleux frquents au lancement dun produit, effet pic

    - Contrebalancer systmatiquement les nouveaux avis

    Rpondre un avis positif (resp. ngatif) par un avis ngatif (resp.

    positif)

    - Comparer les avis dun mme utilisateur

    Comparaison sur produits similaires, en fonction de la marque

    - Comparer lheure de rdaction des avis

    Fraudeur : de nombreux avis dans priode courte

  • 27

    Dtection dopinions frauduleuses Analyse des avis

    - Comparaison des avis dun mme utilisateur

    Recherche de copies quasi conformes

    - Dtection de notes aberrantes

    On suppose que les avis frauduleux sont minoritaires

    - Comparer les avis sur plusieurs sites

    Adaptation de la technique prcdente au cas multi-sites

    - Dtecter des pics de notations

    Regarder la distribution temporelle davis similaires

  • 28

    Dtection dopinions frauduleuses Analyse des logs des serveurs

    - Etude des avis mis par la mme IP

    Si une mme IP utilise par plusieurs comptes et que ces comptent

    rdigent plusieurs avis sur le mme produit (ou produits de mme marques), il sagit dun bon indice de fraude

    Conclusion gnrale

    Seule la combinaison de ces approches savre efficace !

  • 29

    Fouille de structures

  • 30

    (1970) Les chercheurs ont propos une mthode pour valuer la qualit de leurs publication scientifiques

    Evaluation de produitsNon pas base sur ses caractristiques ou la publicit mais sur les opinions d