Plan du cours Ini$a$on à la fouille de...
Transcript of Plan du cours Ini$a$on à la fouille de...
Ini$a$onàlafouilledetextes
JulienVelcin–LaboratoireERIC
DUTSTID,IUTLumièreLyon2
Mardi23mai2017
hJp://mediamining.univ-lyon2.fr/velcin
Planducours
• Del’analysedesdonnéestextuelles– exemplededonnéestextuelles
– essaidedéfini$onetprincipalesdifficultés
– quelquesapplica$onsphares
• Miseenpra$que
– représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple
Planducours
• Del’analysedesdonnéestextuelles– exemplededonnéestextuelles– essaidedéfini$onetprincipalesdifficultés
– quelquesapplica$onsphares
• Miseenpra$que
– représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple
De(très)nombreusessourcesde
donnéestextuelles
• Sitesweb:– ar$clesdepresse– blogs,forums
– cri$quesdeproduits(ebay,amazon,allociné)
– encyclopédies(wikipedia,freebase)• Réseauxetmédiassociaux:
– Facebook,TwiJer,Flickr,LinkedIn…• Donnéesouvertes(opendata):
– data.gov,ParisData…• Humanitésnumériques:
– donnéeshistoriques(patrimoine)
– nombreuxcorpusdisponibles
Ar$clesscien$fiques Brevets
Planducours
• Del’analysedesdonnéestextuelles– exemplededonnéestextuelles
– essaidedéfini>onetprincipalesdifficultés– quelquesapplica$onsphares
• Miseenpra$que
– représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple
Bigdata,leWebettoutça…
• Bigdata:– VdeVolume
– VdeVélocité– VdeVariété(texte,image,vidéo,son,tags…)
Etc.
• LeWWWestunesourcephénoménalede
données,enpar$culiertextuelle
• Maisilexistebeaucoupd’autressources:
mémoired’entreprise,donnéesdupatrimoine…
Dequelvolumeparle-ton?
• Techniquementinfini,onparlede«bigdata»
• 16à18milliardsdepagesindexéesparBingetentre
45et50milliardsparGoogleau14/03/16(source:hJp://www.worldwidewebsize.com)
• 1milliondeserveursàtraverslemondetraitent
~1milliardsderequêtesparjour(source:
hJp://atkinsbookshelf.wordpress.com/tag/how-many-servers-does-
google-have/au3/01/14)
• 175millionsdetweetsenvoyéschaquejouren2012
Surcharged’informa$on
Imagecredit:Go-Globe.com
Etcen’estpasfini…
• Deplusenplusdedonnéesnumériques:
1zeJabyte=1000000000000000000000byte
SourceIDC,citédansTheEconomisten2011
Unesolu$on:lasciencedes
données(datascience)!
Valoriserlesgrandesmassesdedonnées:
• Rechercherl’informa$on
duhautverslebas(topdown)
• Extrairedesconnaissancesu$les(pépites)àpar$rdesdonnées(bo.omup)
• Deplusenplusdesapprocheshybrides
Liensavecledatamininget
l’informa$quedécisionnelleProbléma$ques
• Récupéra$on,extrac$on• Stockagedesdonnées• Représenta$on,indexa$on• Analysedesdonnées• Visualisa$on,explora$on• Evalua$on• Prisededécision
Pourlesdonnéestextuelles
• Extrac$on,stockagedesdonnées:è Commentgérerl’hétérogénéitédesformats?
è Quellestructuredestockage?
• Représenta$on,indexa$on:è Quelleestlameilleurereprésenta$on?
è Commentindexerlesdonnéesdemanièreefficace?
• Analysedesdonnées:è Commentcomparerdesdonnéestextuelles?
è Quelsalgorithmeschoisir?
«Quelques»difficultés
• Volumeimportant,vocabulairetrèsvaste(erreurs,
abrévia$ons,argot,néologismes,nomspropres…)
• Ecartentrelasurfacedesmotsetleursens
• Rela$onsimplicitesentrelesmots:synonymie,polysémie,
liensdesubordina$on,co-références,etc.
• Ambiguitéséman$que:«Ilvoitlegarçonavecses
luneJes»(quipossèdelesluneJes?)
• Suivantlatâche,lareprésenta$onestdifférente
• Similaritéentredeuxtextes(àpar$rdequelséléments,
malédic$ondeladimension)
24
Uncasd’étude:le«HuffPos»
25
• Enlienaveclesréseauxsociaux
• Organiséenthéma$ques
• Ar$clescommentés
• Communautédebloggers
• Lejournalistepeutjoueràlafoislerôledecurateuretde
communitymanager
26Julien Velcin - présentation ARC6 18 Octobre 2012
Fouilledetextes:origines
• Intelligencear$ficielle(IA)– TraitementAutoma$quedesLangues(TAL)
• Sta$s$ques– Sta$s$questextuelles
• Linguis$que– Linguis$quecomputa$onnelle
• Puis:– Basesdedonnées,fouillededonnées…
Fouilledetextes:défini$on
• Chercherdesinforma>onsintéressantespourrésoudredestâchespluscomplexesoupour
découvrirdesconnaissancesàpar$rde
donnéestextuelles
• Informa$onintéressante:
– u$le(pourprendreunedécisionourésoudreunetâcheplusdifficile)
– nouvelle(au-delàd’uneévidence)– dehautniveau(allerverslaséman$que)
Planducours
• Del’analysedesdonnéestextuelles– exemplededonnéestextuelles
– essaidedéfini$onetprincipalesdifficultés
– quelquesapplica>onsphares
• Miseenpra$que
– représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple
Unepremièreapplica$onphare:la
Recherched’Informa$on(1)
• Lesmoteursderecherchemodernesu$lisent
lesdernièresinnova$onsenRI
• Donnéestextuellesetstructure• Cesmoteurscombinent:
– indexa$ondesdonnéesduWeb
– enrichissementdelarequêteformulée
– es$ma$ondelafiabilitédespages
Recherched’informa$on(2)
• Desrobots(crawler,spider)indexent:– mots-clefs
– concepts• Créa$ond’unindexinversé• Différentscritères:
– correspondanceentrelarequêteetlapage– crédibilitédusiteWeb(PageRank,HITS)
– structure,richesse,diversité– miseàjourrégulière,nouveautés
etc.
31
Recherched’informa$on(3)
• Modèledecorrespondance:
– DocumentD=unensembledemotsclefspondérés
– RequêteQ=unensembledemotsclefsnonpondérés
– R(D,Q)=Σiw(t
i,D),oùt
iestdansQ
• Denombreuxmodèlespossibles:
– booléen(0ou1),– vectoriel,– probabiliste…
32
Recherched’informa$on(4)
• PageRankdeGoogle:
• Assigneunevaleurnumériqueàchaquepage,en
fonc$ondesliensentrepages
• d:dampingfactor(0.85)
• D’autrecritèrespossibles,parex.Laproximitéentre
lesmotsclefs(«…informa$onretrieval…»mieux
que«…informa$on…retrieval…»)
A B ∑+−=i i
i
ICIPRddAPR)()()1()(
I1
I2
33
Recherched’informa$on(5)
34hJp://search.carrot2.org/stable/search
Recherched’informa$on(6)
• U$liserlessnippetsretournésparlesmoteursde
recherche:
• Text/Documentclusteringpourorganiserles
snippetsavecuneméthodedeclustering
• E$queJelescatégoriesavecdesexpressionsfréquentes,maisd’autressolu$onsexistent(ex.:
en$tésnommées)
35
Maiségalement:
analysedesdiscussionsenligne
• Mo$va$on:
– beaucoupdedonnéesdisponibles,souventsous-exploitées
– crucialpourcapterl’opiniondesinternautes• Contribu$ons:
– recommanderdesmessagesclefs(Stavrianouetal.,09,10)
– extraireleréseausociallatent(Fores$eretal.,11)– détecterdescélébritésdanslesforums(Fores$eretal.,12)
– iden$fierlesrôlesdanslesdiscussions(Anukhinetal.,12)
36
37ProjetDecarboNet:hJp://demos.gate.ac.uk/decarbonet/sen$ment/ ProjetPulseweb:hJp://pulseweb.cortext.net
Planducours
• Del’analysedesdonnéestextuelles– exemplededonnéestextuelles
– essaidedéfini$onetprincipalesdifficultés
– quelquesapplica$onsphares
• Miseenpra>que– représenterlesdonnéestextuelles– principalestechniquesdeneJoyage– quelquesou$lsdevisualisa$on– construireunmoteurderecherchesimple