Tutoriel sur les Topic Models - Institut de Recherche en ...· Tutoriel sur les Topic Models Thibaut

download Tutoriel sur les Topic Models - Institut de Recherche en ...· Tutoriel sur les Topic Models Thibaut

of 30

  • date post

    13-Sep-2018
  • Category

    Documents

  • view

    215
  • download

    0

Embed Size (px)

Transcript of Tutoriel sur les Topic Models - Institut de Recherche en ...· Tutoriel sur les Topic Models Thibaut

  • Tutoriel sur les Topic Models

    Thibaut THONETthonet@irit.fr

    Slides et figures inspirs voire honteusement repris de divers tutoriels :

    Julien VELCIN StatLearn 16 (http://alturl.com/s2sj8)

    David BLEI KDD 11 (https://www.cs.princeton.edu/~blei/kdd-tutorial.pdf)

    Vitomir KOVANOVIC, Srecko JOKSIMOVIC et Dragan GASEVIC LAK 15(http://slideshare.net/vitomirkovanovic/topic-modeling-for-learning-analytics-researchers-lak15-tutorial)

    20 mai 2016

    http://alturl.com/s2sj8https://www.cs.princeton.edu/~blei/kdd-tutorial.pdfhttp://slideshare.net/vitomirkovanovic/topic-modeling-for-learning-analytics-researchers-lak15-tutorialhttp://slideshare.net/vitomirkovanovic/topic-modeling-for-learning-analytics-researchers-lak15-tutorial

  • Motivation

    Reprsentation des documents sous forme de matrice terme-documentDocs

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

    Terms

    data 1 1 0 0 2 0 0 0 0 0 1 2 1 1 1 0 1 0 0 0introduction 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1mining 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0network 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1package 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0

    Grande dimensionalit des donnes et sparsit de la matrice terme-document = besoinde rduction de dimension + dcouvrir les thmes latents communs aux diffrents documents

    Un document peut traiter de plusieurs thmes= problme de soft clustering

    2 / 20

  • Une premire solution : LSA

    LSA (Latent Semantic Analysis), propos par Deerwester et al (Journal of the American Societyfor Information Science, 1990), applique une dcomposition en valeurs singulires (SVD) lamatrice terme-document et permet den obtenir une approximation de rang infrieur.

    4! Problme : quelle signification donner un mot associ des thmes de poids ngatifs ?= Faible interprtabilit des matrices formes par LSA

    3 / 20

  • Deux alternatives : NMF et pLSA

    NMF (Non-negative Matrix Factorization), propos par Paatero et Tapper (Environmetrics,1994), effectue galement une dcomposition matricielle mais en contraignant la positivitdes matrices de dcomposition.

    pLSA (probabilistic Latent Semantic Analysis), propos par Hofmann (SIGIR 1999), est uneversion probabiliste de LSA. Les poids (p. ex. prpondrance dun thme dans undocument P(t |d)) sont dsormais des probabilits, donc positives et interprtables.

    4! Problmes : surapprentissage et modle pas rellement gnratif = impossibledappliquer le modle de nouveaux documents (c--d hors de lensemble dapprentissage)

    4 / 20

  • La solution ultime : LDA

    LDA (Latent Dirichlet Allocation), propos par Blei et al (NIPS 2001), est une alternative pLSAcompltement gnrative, inspire par les modles graphiques probabilistes.

    Aperu gnral de lapplication de LDA une collection de documents :

    5 / 20

  • Reprsentation graphique de LDA

    Reprsentation de LDA sous forme de modle graphique :

    Les noeuds reprsentent les variables alatoiresLes noeuds griss reprsentent les variables observs ou fixes (constantes)Une arte entre deux noeuds indique une dpendance conditionnellePlate notation : les rectangles indiquent la rplication des variables

    6 / 20

  • Histoire gnrative de LDA

    Lhistoire gnrative permet de complter la reprsentation graphique dun Topic Model. Elledcrit avec plus de prcision linteraction entre les variables alatoires (noeuds).

    1. Pour chaque thme j {1, . . . ,T}, tirer une distribution de mots j partir de DirichletW ().2. Pour chaque document d {1, . . . ,D} :

    (a) Tirer une distribution de thmes d partir de DirichletT () ;

    (b) Pour chaque mot dindice n {1, . . . ,Nd} dans le document d :i. Tirer un thme zd,n partir de MultinomialT (d ) ;ii. Tirer un mot wd,n partir de MultinomialW (zd,n ).

    7 / 20

  • Calcul du modle LDA ?

    On souhaiterait calculer la probabilit postrieure du modle, c--d la probabilit jointe desvariables alatoires latentes = {d}, = {j} et z = {zd,n} sachant les observations des motsdans les documents w = {wd,n} et les paramtres fixs et .

    p(, , z|w ;, )

    =p(, , z,w ;, )

    z

    p(, , z,w ;, ) d d

    =

    Tt=1

    p(t ;)D

    d=1

    p(d ;)Nd

    n=1

    p(zd,n|d ) p(wd,n|zd,n )

    z

    Tt=1

    p(t ;)D

    d=1

    p(d ;)Nd

    n=1

    p(zd,n|d ) p(wd,n|zd,n ) d d

    4! Constante de normalisation difficile calculer cause du couplage entre z, et .= Ncessit dutiliser une mthode dinfrence approche !

    8 / 20

  • Infrence approche

    Deux principaux types de mthodes pour raliser linfrence approche du modle LDA :

    Infrence baysienne variationnelle, galement nomme esprance-maximisationvariationnelle, qui dtermine une distribution plus simple la plus proche (au sens de ladivergence de Kullback-Leibler) de la vraie probabilit postrieure.4! Lalgorithme converge seulement vers un optimum local et les formules de mise--joursont longues et fastidieuses driver

    chantillonnage de Gibbs, approche stochastique relative aux mthodes Markov chainMonte Carlo, qui construit une chane de Markov dont la probabilit stationnaire est laprobabilit postrieure.

    Stochastique = exploration de lespace des variables latentes = optimum global

    Simple driver et implmenter = prototypage facilit

    9 / 20

  • chantillonnage de Gibbs appliqu LDA

    Lchantillonneur de Gibbs gnre des chantillons z(t) ={

    z(t)d,n}

    d,n. Chaque chantillon

    comprend un assignement de thme z(t)d,n pour chaque mot la place n de chaque document

    d . Pour un chantillon t , chaque assignement z(t)d,n est tire suivant :

    p(zd,n = j|z(d,n),wd,n = k ,w(d,n))

    Combien de fois le thme japparait dans le doc. d ? #{zd,n = j}(d,n) +#{zd,n}(d,n) Combien de motsdans le doc. d ?

    +T

    Combien de fois le mot k estassoci au thme j dans la collection ? #{zd,n = j,wd,n = k}(d,n) +#{zd,n = j,wd,n}(d,n)

    Combien de fois le thme japparait dans la collection ?

    +W

    la fin de lchantillonnage de Gibbs, on peut estimer d (distribution des thmes pardocument) et j (distribution des mots par thme) pour chaque chantillon t :

    (t)d,j =

    #{z(t)d,n = j}+

    #{z(t)d,n}+ T(t)j,k =

    #{z(t)d,n = j,wd,n = k}+

    #{z(t)d,n = j,wd,n}+ W

    10 / 20

  • chantillonnage de Gibbs appliqu LDA : un exemple

    Image tire du livre Modles statistiques pour laccs linformation textuelle de Eric Gaussier et Franois Yvon (2011).

    11 / 20

  • chantillonnage de Gibbs appliqu LDA : un exemple

    Image tire du livre Modles statistiques pour laccs linformation textuelle de Eric Gaussier et Franois Yvon (2011).

    11 / 20

  • Que renvoie LDA concrtement ?

    12 / 20

  • Que renvoie LDA concrtement ?

    12 / 20

  • Exemple de thmes dcouverts par LDA

    13 / 20

  • Exemples de topic models drivs de LDA (1)

    Aspect Sentiment Unification Model (ASUM) par Jo et Oh (WSDM 2011)

    14 / 20

  • Exemples de topic models drivs de LDA (2)

    Viewpoint and Opinion Discovery Unification Model (VODUM) par Thonet et al (ECIR 2016)

    15 / 20

  • Exemples de topic models drivs de LDA (3)

    Topics over Time (TOT) par Wang et McCallum (KDD 2006)

    16 / 20

  • Exemples de topic models drivs de LDA (4)

    Gaussian Latent Dirichlet Allocation par Das et al (ACL 2015)

    17 / 20

  • Conclusion : pourquoi utiliser un topic model ?

    Mthode non supervise ingale, utilise au del de linformatique (SHS)

    Grande flexibilitPossibilit dintgrer des dimensions latentes supplmentaires (autres que le thme)Application des donnes varies (textes, images, musiques, entits nommes, . . . )

    Applications multiples :Rsum automatiqueRecherche dinformationFouille/exploration/visualisation de donnesSystmes de recommandation. . .

    Pour aller plus loin : topic models non-paramtriques

    18 / 20

  • Rfrences

    Blei, D. M., & McAuliffe, J. D. (2007). Supervised Topic Models. In Proceedings of the 21st AnnualConference on Neural Information Processing Systems (pp. 121128).

    Blei, D. M., Ng, A. Y., & Jordan, M. I. (2001). Latent Dirichlet Allocation. In Proceedings of the 15th AnnualConference on Neural Information Processing Systems (pp. 601608).

    Das, R., Zaheer, M., & Dyer, C. (2015). Gaussian LDA for Topic Models with Word Embeddings. InProceedings of the 53rd Annual Meeting of the Association for Computational Linguistics (pp. 795804).

    Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by LatentSemantic Analysis. Journal of the American Society for Information Science, 41(6), 391407.

    Hofmann, T. (1999). Probabilistic Latent Semantic Indexing. In Proceedings of the 22nd AnnualInternational ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 5057).

    Jo, Y., & Oh, A. H. (2011). Aspect and Sentiment Unification Model for Online Review Analysis. InProceedings of the 4th ACM International Conference on Web Search and Data Mining (pp. 815824).

    Paatero, P., & Tapper, U. (1994). Positive Matrix Factorization: A Non-negative Factor Model with OptimalUtilization of Error Estimates of Data Values. Environmetrics, 5(2), 111126.

    Thonet, T., Cabanac, G., Boughanem, M., & Pinel-Sauvagnat, K. (2016). VODUM: A Topic Model UnifyingViewpoint, Topic and Opinion Discovery. In Proceedings of the 38th European Conference on IR Research(pp. 533545).

    Wang, X., & McCallum, A. (2006). Topics over Time: A Non-Markov Continuous-Time Model of TopicalTrends. In Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery andData Mining (pp. 424433).

    19 / 20

  • Questi