Download - Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET [email protected] Slides et figures inspirés voire honteusement repris

Transcript
Page 1: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Tutoriel sur les Topic Models

Thibaut [email protected]

Slides et figures inspirés voire honteusement repris de divers tutoriels :

Julien VELCIN à StatLearn ’16 (http://alturl.com/s2sj8)

David BLEI à KDD ’11 (https://www.cs.princeton.edu/~blei/kdd-tutorial.pdf)

Vitomir KOVANOVIC, Srecko JOKSIMOVIC et Dragan GASEVIC à LAK ’15(http://slideshare.net/vitomirkovanovic/topic-modeling-for-learning-analytics-researchers-lak15-tutorial)

20 mai 2016

Page 2: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Motivation

Représentation des documents sous forme de matrice terme-documentDocs

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Terms

data 1 1 0 0 2 0 0 0 0 0 1 2 1 1 1 0 1 0 0 0introduction 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1mining 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0network 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1package 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0

Grande dimensionalité des données et sparsité de la matrice terme-document =⇒ besoinde réduction de dimension + découvrir les thèmes latents communs aux différents documents

Un document peut traiter de plusieurs thèmes=⇒ problème de soft clustering

2 / 20

Page 3: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Une première solution : LSA

LSA (Latent Semantic Analysis), proposé par Deerwester et al (Journal of the American Societyfor Information Science, 1990), applique une décomposition en valeurs singulières (SVD) à lamatrice terme-document et permet d’en obtenir une approximation de rang inférieur.

4! Problème : quelle signification donner à un mot associé à des thèmes de poids négatifs ?=⇒ Faible interprétabilité des matrices formées par LSA

3 / 20

Page 4: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Deux alternatives : NMF et pLSA

NMF (Non-negative Matrix Factorization), proposé par Paatero et Tapper (Environmetrics,1994), effectue également une décomposition matricielle mais en contraignant la positivitédes matrices de décomposition.

pLSA (probabilistic Latent Semantic Analysis), proposé par Hofmann (SIGIR 1999), est uneversion probabiliste de LSA. Les poids (p. ex. prépondérance d’un thème dans undocument P(t |d)) sont désormais des probabilités, donc positives et interprétables.

4! Problèmes : surapprentissage et modèle pas réellement génératif =⇒ impossibled’appliquer le modèle à de nouveaux documents (c-à-d hors de l’ensemble d’apprentissage)

4 / 20

Page 5: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

La solution « ultime » : LDA

LDA (Latent Dirichlet Allocation), proposé par Blei et al (NIPS 2001), est une alternative à pLSAcomplètement générative, inspirée par les modèles graphiques probabilistes.

Aperçu général de l’application de LDA à une collection de documents :

5 / 20

Page 6: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Représentation graphique de LDA

Représentation de LDA sous forme de modèle graphique :

Les noeuds représentent les variables aléatoiresLes noeuds grisés représentent les variables observés ou fixées (constantes)

Une arête entre deux noeuds indique une dépendance conditionnellePlate notation : les rectangles indiquent la réplication des variables

6 / 20

Page 7: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Histoire générative de LDA

L’histoire générative permet de compléter la représentation graphique d’un Topic Model. Elledécrit avec plus de précision l’interaction entre les variables aléatoires (noeuds).

1. Pour chaque thème j ∈ {1, . . . ,T}, tirer une distribution de mots φj à partir de DirichletW (β).

2. Pour chaque document d ∈ {1, . . . ,D} :(a) Tirer une distribution de thèmes θd à partir de DirichletT (α) ;

(b) Pour chaque mot d’indice n ∈ {1, . . . ,Nd} dans le document d :i. Tirer un thème zd,n à partir de MultinomialT (θd ) ;ii. Tirer un mot wd,n à partir de MultinomialW (φzd,n ).

7 / 20

Page 8: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Calcul du modèle LDA ?

On souhaiterait calculer la probabilité postérieure du modèle, c-à-d la probabilité jointe desvariables aléatoires latentes θ = {θd}, φ = {φj} et z = {zd,n} sachant les observations des motsdans les documents w = {wd,n} et les paramètres fixés α et β.

p(θ, φ, z|w ;α, β)

=p(θ, φ, z,w ;α, β)∑

z

∫θ

∫φ

p(θ, φ, z,w ;α, β) dφ dθ

=

T∏t=1

p(φt ;β)D∏

d=1

p(θd ;α)

Nd∏n=1

p(zd,n|θd ) p(wd,n|φzd,n )

∑z

∫θ

∫φ

T∏t=1

p(φt ;β)D∏

d=1

p(θd ;α)

Nd∏n=1

p(zd,n|θd ) p(wd,n|φzd,n ) dφ dθ

4! Constante de normalisation difficile à calculer à cause du couplage entre z, θ et φ.

=⇒ Nécessité d’utiliser une méthode d’inférence approchée !

8 / 20

Page 9: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Inférence approchée

Deux principaux types de méthodes pour réaliser l’inférence approchée du modèle LDA :

Inférence bayésienne variationnelle, également nommée espérance-maximisationvariationnelle, qui détermine une distribution plus simple la plus proche (au sens de ladivergence de Kullback-Leibler) de la vraie probabilité postérieure.4! L’algorithme converge seulement vers un optimum local et les formules de mise-à-joursont longues et fastidieuses à dériver

Échantillonnage de Gibbs, approche stochastique relative aux méthodes Markov chainMonte Carlo, qui construit une chaîne de Markov dont la probabilité stationnaire est laprobabilité postérieure.

Stochastique =⇒ exploration de l’espace des variables latentes =⇒ optimum global

Simple à dériver et à implémenter =⇒ prototypage facilité

9 / 20

Page 10: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Échantillonnage de Gibbs appliqué à LDA

L’échantillonneur de Gibbs génère des échantillons z(t) ={

z(t)d,n

}d,n

. Chaque échantillon

comprend un assignement de thème z(t)d,n pour chaque mot à la place n de chaque document

d . Pour un échantillon t , chaque assignement z(t)d,n est tirée suivant :

p(zd,n = j|z−(d,n),wd,n = k ,w−(d,n)) ∝

Combien de fois le thème japparait dans le doc. d ?︷ ︸︸ ︷#{zd,n′ = j}−(d,n) +α

#{zd,n′}−(d,n)︸ ︷︷ ︸Combien de motsdans le doc. d ?

+Tα×

Combien de fois le mot k estassocié au thème j dans la collection ?︷ ︸︸ ︷#{zd′,n′ = j,wd′,n′ = k}−(d,n) +β

#{zd′,n′ = j,wd′,n′}−(d,n)︸ ︷︷ ︸Combien de fois le thème j

apparait dans la collection ?

+Wβ

À la fin de l’échantillonnage de Gibbs, on peut estimer θd (distribution des thèmes pardocument) et φj (distribution des mots par thème) pour chaque échantillon t :

θ̂(t)d,j =

#{z(t)d,n′ = j}+ α

#{z(t)d,n′}+ Tα

φ̂(t)j,k =

#{z(t)d′,n′ = j,wd′,n′ = k}+ β

#{z(t)d′,n′ = j,wd′,n′}+ Wβ

10 / 20

Page 11: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Échantillonnage de Gibbs appliqué à LDA : un exemple

Image tirée du livre Modèles statistiques pour l’accès à l’information textuelle de Eric Gaussier et François Yvon (2011).

11 / 20

Page 12: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Échantillonnage de Gibbs appliqué à LDA : un exemple

Image tirée du livre Modèles statistiques pour l’accès à l’information textuelle de Eric Gaussier et François Yvon (2011).

11 / 20

Page 13: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Que renvoie LDA concrètement ?

12 / 20

Page 14: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Que renvoie LDA concrètement ?

12 / 20

Page 15: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Exemple de thèmes découverts par LDA

13 / 20

Page 16: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Exemples de topic models dérivés de LDA (1)

Aspect Sentiment Unification Model (ASUM) par Jo et Oh (WSDM 2011)

14 / 20

Page 17: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Exemples de topic models dérivés de LDA (2)

Viewpoint and Opinion Discovery Unification Model (VODUM) par Thonet et al (ECIR 2016)

15 / 20

Page 18: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Exemples de topic models dérivés de LDA (3)

Topics over Time (TOT) par Wang et McCallum (KDD 2006)

16 / 20

Page 19: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Exemples de topic models dérivés de LDA (4)

Gaussian Latent Dirichlet Allocation par Das et al (ACL 2015)

17 / 20

Page 20: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Conclusion : pourquoi utiliser un topic model ?

Méthode non supervisée inégalée, utilisée au delà de l’informatique (SHS)

Grande flexibilitéPossibilité d’intégrer des dimensions latentes supplémentaires (autres que le thème)Application à des données variées (textes, images, musiques, entités nommées, . . . )

Applications multiples :Résumé automatiqueRecherche d’informationFouille/exploration/visualisation de donnéesSystèmes de recommandation. . .

Pour aller plus loin : topic models non-paramétriques

18 / 20

Page 21: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Références

Blei, D. M., & McAuliffe, J. D. (2007). Supervised Topic Models. In Proceedings of the 21st AnnualConference on Neural Information Processing Systems (pp. 121–128).

Blei, D. M., Ng, A. Y., & Jordan, M. I. (2001). Latent Dirichlet Allocation. In Proceedings of the 15th AnnualConference on Neural Information Processing Systems (pp. 601–608).

Das, R., Zaheer, M., & Dyer, C. (2015). Gaussian LDA for Topic Models with Word Embeddings. InProceedings of the 53rd Annual Meeting of the Association for Computational Linguistics (pp. 795–804).

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by LatentSemantic Analysis. Journal of the American Society for Information Science, 41(6), 391–407.

Hofmann, T. (1999). Probabilistic Latent Semantic Indexing. In Proceedings of the 22nd AnnualInternational ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 50–57).

Jo, Y., & Oh, A. H. (2011). Aspect and Sentiment Unification Model for Online Review Analysis. InProceedings of the 4th ACM International Conference on Web Search and Data Mining (pp. 815–824).

Paatero, P., & Tapper, U. (1994). Positive Matrix Factorization: A Non-negative Factor Model with OptimalUtilization of Error Estimates of Data Values. Environmetrics, 5(2), 111–126.

Thonet, T., Cabanac, G., Boughanem, M., & Pinel-Sauvagnat, K. (2016). VODUM: A Topic Model UnifyingViewpoint, Topic and Opinion Discovery. In Proceedings of the 38th European Conference on IR Research(pp. 533–545).

Wang, X., & McCallum, A. (2006). Topics over Time: A Non-Markov Continuous-Time Model of TopicalTrends. In Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery andData Mining (pp. 424–433).

19 / 20

Page 22: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Questions

Questions ?

20 / 20

Page 23: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Supplément : la distribution de Dirichlet (1)

La distribution de Dirichlet est une distribution de probabilité multivariée continue définiepar un vecteur de paramètres réels positifs α.

α contrôle la forme et la sparsité de la distribution. Si toutes les composantes de α sontégales, la distribution est dite symétrique (hypothèse courante pour les Topic Models).

Une distribution de Dirichlet de dimension T a pour support le simplexe (= généralisation dutriangle) de dimension T − 1 : si θ ∼ DirichletT (α), alors 0 < θt < 1 et

∑Tt=1 θt = 1.

=⇒ θ est un paramètre adapté aux distributions multinomiale ou catégorique : on dit queDirichlet est un prior conjugué aux distributions multinomiale et catégorique.

20 / 20

Page 24: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Supplément : la distribution de Dirichlet (2)

Différents tirages de θ pour des distributions de Dirichlet symétriques :

20 / 20

Page 25: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Supplément : échantillonnage de Gibbs – un exemple simple (1)

On considère deux variables aléatoires x1 et x2 de probabilité jointe p(x1, x2).

On connait leur probabilité marginale conditionnelle p(x1|x2) et p(x2|x1).

On veut approximer leur probabilité jointe p(x1, x2), qui est difficile à calculer

L’échantillonnage de Gibbs permet de générer successivement T échantillons{

x (t)}Tt=1

avec x (t) = (x (t)1 , x (t)

2 ), distribués suivant p(x1, x2) :

1. Initialiser aléatoirement x (0)1 et x (0)

2

2. Construire l’échantillon x (t+1) = (x (t+1)1 , x (t+1)

2 ) :

(a) Tirer aléatoirement x (t+1)1 suivant la probabilité marginale conditionnelle p(x1|x

(t)2 )

(b) Tirer aléatoirement x (t+1)2 suivant la probabilité marginale conditionnelle p(x2|x

(t+1)1 )

3. Répéter jusqu’à ce que t = T

Les échantillons générés permettent alors d’approximer la probabilité jointe p(x1, x2) :

p(x1 = i, x2 = j) ≈1T

T∑t=1

δ(x (t)1 , i)× δ(x (t)

2 , j)

20 / 20

Page 26: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Supplément : échantillonnage de Gibbs – un exemple simple (2)

Image tirée du livre Information Theory, Inference, and Learning Algorithms de David MacKay (2003).

20 / 20

Page 27: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Supplément : principe général de l’échantillonnage de Gibbs

On considère n variables aléatoires x1, . . . , xn de probabilité jointe p(x1, . . . , xn).

On suppose que cette probabilité jointe p(x1, . . . , xn) est difficile à calculer (par exemple àcause de la constante de normalisation) =⇒ on souhaite l’approximer.On suppose cependant disposer de la probabilité marginale conditionnelle de chaque xjsachant les autres xk , k 6= j : p(xj |x1, . . . , xj−1, xj+1, . . . , xn).

L’échantillonnage de Gibbs permet de générer successivement T échantillonsx (t) = (x (t)

1 , . . . , x (t)n ), distribués suivant p(x1, . . . , xn) :

1. Initialiser aléatoirement x (t)

2. Construire l’échantillon x (t+1) = (x (t+1)1 , . . . , x (t+1)

n ) en tirant aléatoirement x (t+1)j

suivant la probabilité marginale conditionnelle p(x (t+1)j |x (t+1)

1 , . . . , x (t+1)j−1 , x (t)

j+1, . . . , x(t)n )

3. Répéter jusqu’à ce que t = T

Les échantillons générés permettent alors d’approximer la probabilité jointe p(x1, . . . , xn) :

p(x1, . . . , xn) ≈1T

T∑t=1

δ(x (t), x)

20 / 20

Page 28: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Supplément : comment évaluer les résultats obtenus par LDA ?

Évaluation qualitative : évaluer la qualité des thèmes découverts

Enquête utilisateurs (couteux) ; utile aussi pour comparer deux topic models (test A/B)

Inspection manuelle de « quelques » thèmes (biaisé : on choisit les meilleurs thèmes)

PMI : évaluation automatique de la cohérence basée sur un corpus (p. ex. Wikipédia)

Évaluation quantitative : évaluer la généralisation/prédiction des données par le modèle

Perplexité : mesure la capacité d’un modèle probabiliste à généraliser (mais pastoujours corrélée avec les jugements de qualité des utilisateurs)

Clustering : vérifie si les thèmes directement découverts par le modèle sont corrects

Classification : utilise les distributions de LDA (p. ex. θ) comme features dans unmodèle supervisé (p. ex. SVM) pour classer les thèmes des documents (ne permetpas de savoir si les thèmes découverts sont réellement corrects)

20 / 20

Page 29: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Supplément : exemples de topic models dérivés de LDA (5)

Supervised Latent Dirichlet Allocation (SLDA) par Blei et McAuliffe (NIPS 2007)

20 / 20

Page 30: Tutoriel sur les Topic Models - Institut de Recherche en ... · Tutoriel sur les Topic Models Thibaut THONET thonet@irit.fr Slides et figures inspirés voire honteusement repris

Supplément : création d’un nouveau topic model : TODO list

Vous avez une idée de topic model pour modéliser un phénomène et souhaitez en faire un article.

Quels éléments l’article doit-il contenir ?

Choisir des notations claires et non ambiguës (parfois non trivial) ;

Donner le modèle graphique décrivant les dépendances entre variables aléatoires ;

Écrire l’histoire générative du topic model pour expliciter les dépendances ;

Donner les formules d’inférence du modèle (échantillonneur de Gibbs ou inférencevariationnelle)

20 / 20