Plan du cours Ini$a$on à la fouille de...

10
Ini$a$on à la fouille de textes Julien Velcin – Laboratoire ERIC DUT STID, IUT Lumière Lyon 2 Mardi 23 mai 2017 hJp://mediamining.univ-lyon2.fr/velcin Plan du cours De l’analyse des données textuelles exemple de données textuelles essai de défini$on et principales difficultés quelques applica$ons phares Mise en pra$que représenter les données textuelles principales techniques de neJoyage quelques ou$ls de visualisa$on construire un moteur de recherche simple Plan du cours De l’analyse des données textuelles exemple de données textuelles essai de défini$on et principales difficultés quelques applica$ons phares Mise en pra$que représenter les données textuelles principales techniques de neJoyage quelques ou$ls de visualisa$on construire un moteur de recherche simple De (très) nombreuses sources de données textuelles Sites web : ar$cles de presse blogs, forums cri$ques de produits (ebay, amazon, allociné) encyclopédies (wikipedia, freebase) Réseaux et médias sociaux : Facebook, TwiJer, Flickr, LinkedIn … Données ouvertes (open data) : data.gov, ParisData… Humanités numériques : données historiques (patrimoine) nombreux corpus disponibles

Transcript of Plan du cours Ini$a$on à la fouille de...

Ini$a$onàlafouilledetextes

JulienVelcin–LaboratoireERIC

DUTSTID,IUTLumièreLyon2

Mardi23mai2017

hJp://mediamining.univ-lyon2.fr/velcin

Planducours

•  Del’analysedesdonnéestextuelles– exemplededonnéestextuelles

– essaidedéfini$onetprincipalesdifficultés

– quelquesapplica$onsphares

•  Miseenpra$que

–  représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple

Planducours

•  Del’analysedesdonnéestextuelles– exemplededonnéestextuelles– essaidedéfini$onetprincipalesdifficultés

– quelquesapplica$onsphares

•  Miseenpra$que

–  représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple

De(très)nombreusessourcesde

donnéestextuelles

•  Sitesweb:–  ar$clesdepresse–  blogs,forums

–  cri$quesdeproduits(ebay,amazon,allociné)

–  encyclopédies(wikipedia,freebase)•  Réseauxetmédiassociaux:

–  Facebook,TwiJer,Flickr,LinkedIn…•  Donnéesouvertes(opendata):

–  data.gov,ParisData…•  Humanitésnumériques:

–  donnéeshistoriques(patrimoine)

–  nombreuxcorpusdisponibles

Hiddenforobviousreasons

Ar$clesscien$fiques Brevets

Planducours

•  Del’analysedesdonnéestextuelles– exemplededonnéestextuelles

– essaidedéfini>onetprincipalesdifficultés– quelquesapplica$onsphares

•  Miseenpra$que

–  représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple

Bigdata,leWebettoutça…

•  Bigdata:–  VdeVolume

–  VdeVélocité–  VdeVariété(texte,image,vidéo,son,tags…)

Etc.

•  LeWWWestunesourcephénoménalede

données,enpar$culiertextuelle

•  Maisilexistebeaucoupd’autressources:

mémoired’entreprise,donnéesdupatrimoine…

Dequelvolumeparle-ton?

•  Techniquementinfini,onparlede«bigdata»

•  16à18milliardsdepagesindexéesparBingetentre

45et50milliardsparGoogleau14/03/16(source:hJp://www.worldwidewebsize.com)

•  1milliondeserveursàtraverslemondetraitent

~1milliardsderequêtesparjour(source:

hJp://atkinsbookshelf.wordpress.com/tag/how-many-servers-does-

google-have/au3/01/14)

•  175millionsdetweetsenvoyéschaquejouren2012

Surcharged’informa$on

Imagecredit:Go-Globe.com

Etcen’estpasfini…

•  Deplusenplusdedonnéesnumériques:

1zeJabyte=1000000000000000000000byte

SourceIDC,citédansTheEconomisten2011

Unesolu$on:lasciencedes

données(datascience)!

Valoriserlesgrandesmassesdedonnées:

•  Rechercherl’informa$on

duhautverslebas(topdown)

•  Extrairedesconnaissancesu$les(pépites)àpar$rdesdonnées(bo.omup)

•  Deplusenplusdesapprocheshybrides

Liensavecledatamininget

l’informa$quedécisionnelleProbléma$ques

•  Récupéra$on,extrac$on•  Stockagedesdonnées•  Représenta$on,indexa$on•  Analysedesdonnées•  Visualisa$on,explora$on•  Evalua$on•  Prisededécision

Pourlesdonnéestextuelles

•  Extrac$on,stockagedesdonnées:è Commentgérerl’hétérogénéitédesformats?

è Quellestructuredestockage?

•  Représenta$on,indexa$on:è Quelleestlameilleurereprésenta$on?

è Commentindexerlesdonnéesdemanièreefficace?

•  Analysedesdonnées:è Commentcomparerdesdonnéestextuelles?

è Quelsalgorithmeschoisir?

«Quelques»difficultés

•  Volumeimportant,vocabulairetrèsvaste(erreurs,

abrévia$ons,argot,néologismes,nomspropres…)

•  Ecartentrelasurfacedesmotsetleursens

•  Rela$onsimplicitesentrelesmots:synonymie,polysémie,

liensdesubordina$on,co-références,etc.

•  Ambiguitéséman$que:«Ilvoitlegarçonavecses

luneJes»(quipossèdelesluneJes?)

•  Suivantlatâche,lareprésenta$onestdifférente

•  Similaritéentredeuxtextes(àpar$rdequelséléments,

malédic$ondeladimension)

24

Uncasd’étude:le«HuffPos»

25

•  Enlienaveclesréseauxsociaux

•  Organiséenthéma$ques

•  Ar$clescommentés

•  Communautédebloggers

•  Lejournalistepeutjoueràlafoislerôledecurateuretde

communitymanager

26Julien Velcin - présentation ARC6 18 Octobre 2012

Fouilledetextes:origines

•  Intelligencear$ficielle(IA)– TraitementAutoma$quedesLangues(TAL)

•  Sta$s$ques– Sta$s$questextuelles

•  Linguis$que– Linguis$quecomputa$onnelle

•  Puis:– Basesdedonnées,fouillededonnées…

Fouilledetextes:défini$on

•  Chercherdesinforma>onsintéressantespourrésoudredestâchespluscomplexesoupour

découvrirdesconnaissancesàpar$rde

donnéestextuelles

•  Informa$onintéressante:

– u$le(pourprendreunedécisionourésoudreunetâcheplusdifficile)

– nouvelle(au-delàd’uneévidence)– dehautniveau(allerverslaséman$que)

Planducours

•  Del’analysedesdonnéestextuelles– exemplededonnéestextuelles

– essaidedéfini$onetprincipalesdifficultés

– quelquesapplica>onsphares

•  Miseenpra$que

–  représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple

Unepremièreapplica$onphare:la

Recherched’Informa$on(1)

•  Lesmoteursderecherchemodernesu$lisent

lesdernièresinnova$onsenRI

•  Donnéestextuellesetstructure•  Cesmoteurscombinent:

–  indexa$ondesdonnéesduWeb

– enrichissementdelarequêteformulée

– es$ma$ondelafiabilitédespages

Recherched’informa$on(2)

•  Desrobots(crawler,spider)indexent:– mots-clefs

– concepts•  Créa$ond’unindexinversé•  Différentscritères:

– correspondanceentrelarequêteetlapage– crédibilitédusiteWeb(PageRank,HITS)

– structure,richesse,diversité– miseàjourrégulière,nouveautés

etc.

31

Recherched’informa$on(3)

•  Modèledecorrespondance:

– DocumentD=unensembledemotsclefspondérés

–  RequêteQ=unensembledemotsclefsnonpondérés

–  R(D,Q)=Σiw(t

i,D),oùt

iestdansQ

•  Denombreuxmodèlespossibles:

– booléen(0ou1),– vectoriel,– probabiliste…

32

Recherched’informa$on(4)

•  PageRankdeGoogle:

•  Assigneunevaleurnumériqueàchaquepage,en

fonc$ondesliensentrepages

•  d:dampingfactor(0.85)

•  D’autrecritèrespossibles,parex.Laproximitéentre

lesmotsclefs(«…informa$onretrieval…»mieux

que«…informa$on…retrieval…»)

A B ∑+−=i i

i

ICIPRddAPR)()()1()(

I1

I2

33

Recherched’informa$on(5)

34hJp://search.carrot2.org/stable/search

Recherched’informa$on(6)

•  U$liserlessnippetsretournésparlesmoteursde

recherche:

•  Text/Documentclusteringpourorganiserles

snippetsavecuneméthodedeclustering

•  E$queJelescatégoriesavecdesexpressionsfréquentes,maisd’autressolu$onsexistent(ex.:

en$tésnommées)

35

Maiségalement:

analysedesdiscussionsenligne

•  Mo$va$on:

–  beaucoupdedonnéesdisponibles,souventsous-exploitées

–  crucialpourcapterl’opiniondesinternautes•  Contribu$ons:

–  recommanderdesmessagesclefs(Stavrianouetal.,09,10)

–  extraireleréseausociallatent(Fores$eretal.,11)–  détecterdescélébritésdanslesforums(Fores$eretal.,12)

–  iden$fierlesrôlesdanslesdiscussions(Anukhinetal.,12)

36

37ProjetDecarboNet:hJp://demos.gate.ac.uk/decarbonet/sen$ment/ ProjetPulseweb:hJp://pulseweb.cortext.net

Planducours

•  Del’analysedesdonnéestextuelles– exemplededonnéestextuelles

– essaidedéfini$onetprincipalesdifficultés

– quelquesapplica$onsphares

•  Miseenpra>que–  représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple