Apprentissage statistique pour donn es complexes base de...

Apprentissage statistique pour données complexesà base de modèles génératifs

Julien JACQUES

Université Lille 1, France & CNRS & Inria

Strasbourg, 15/01/2013

Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 1 / 48

Apprentissage statistique

Apprentissage statistiqueL’apprentissage statistique définit et estime un lien entre des variablesexplicatives X et une variable réponse Y :

Y ∈ Y lien←−−− X = (X1, . . . , Xp) ∈ X .

Y peut êtrequantitative (typiquement Y = R) −→ régression,

catégorielle (typiquement Y = {g1, . . . , gK}),si de plus Y est

observée −→ classification supervisée,non observée −→ classification non supervisée.


Apprentissage statistique des données complexes

Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles

génératifs.




génératifs.

Données complexes ?




génératifs.


données usuelles




génératifs.


données usuelles

catégorielleG




génératifs.


données usuelles données complexes

catégorielleG

structure−−−−−−−−→

sur Gdonnées de rang

données ordinales




génératifs.



catégorielleG



données ordinales

continuesR

p




génératifs.



catégorielleG



données ordinales

continuesR

p p →∞−−−−→

grande dimension (p >> n)

données fonctionnelles




génératifs.



catégorielleG



données ordinales

continuesR

p p →∞−−−−→



tout type




génératifs.



catégorielleG



données ordinales

continuesR

p p →∞−−−−→



tout typeévolution de−−−−−−−−−−−→la population

apprentissage 6= prédiction




génératifs.

Modèles génératifs?Qu’est-ce?

modèle spécifiant la distribution jointe de (X , Y ).




génératifs.

Modèles génératifs?Qu’est-ce?

modèle spécifiant la distribution jointe de (X , Y ).

Pourquoi utiliser de tels modèles?

compétitifs en prédiction,

signifiants (paramètres interprétables),

risque associé à une prédiction,

utilisable en classification supervisée, semi-supervisée et nonsupervisée.


Objectif de mes travaux de recherche

ObjectifDévelopper des outils d’apprentissage statistique

estimation de densité (modélisation),

classification (supervisée ou non)

modèle de régression,

pour différents types de données complexes.

Pour cela, nous procédons comme suit:

définir des modèles probabilistes spécifiques à chaque type dedonnées complexes (si besoin),

considérer des modèles de mélanges pour la classification,

proposer des procédures d’estimation,

développer un package R associé.


Modèles génératifs pour rangs multivariéset application au clustering

Julien JACQUES et Christophe BIERNACKI

Université Lille 1, France & CNRS & Inria

Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 5 / 48

Plan

1 Motivation

2 Le modèle ISR univarié

3 Applications I

4 Extension au clustering

5 Applications II

6 Perspectives


Plan

1 Motivation


3 Applications I


5 Applications II

6 Perspectives


Définition et notations

DéfinitionRang : classement de m objets selon un ordre de préférence

Exemple :Lieux de vacances : O1 : campagne,O2 : montagne et O3 : merEx. de préférence : 1er la mer, 2e la campagne et 3e la montagne

Notations

Ordering : x = (3, 1, 2) = (1st

O3,2nd

O1,3th

O2)

Ranking : x−1 = (2, 3, 1) = (O1

2nd,O2

3th,O3

1st)

x , x−1 ∈ Pm (permutations des m premiers entiers).

Hypothèses : rangs complets et sans ex-aequo.


Interêt des données de rang

Activités humaines impliquant des préférences, attitudes ou choix

Google SportSociologie PolitiqueEconomie PsychologieBiologie Marketing

. . .

Un rang résulte souvent d’un autre type de donnée !


Modèles de références pour données de rang (1/2)

Thurstone (1927)Rang issu de notes continues

1 Note (cachée) des objets :

z = (z1, . . . , zm)⇒ x−1 = rank(z)

2 Modèle sur z : z ∼ Nm(ξ,Σ)

3 Modèle sur x : intégration multidimensionnelle. . .

Multi-stage (Luce 1959, Plackett 1975)

p(x) =

m−1∏

j=1

vj

vj + vj+1 + . . . + vm.

vj : probabilité que Oxj soit préféré à tous les autres objets


Modèles de références pour données de rang (2/2)

Comparaison par paire (Kendall & Smith 1940)

p(x) ∝∏

1≤i<j≤m

pij

pij : probabilité de préférer Oxi à Oxj

Mallows Φ model (∼1950)parcimonie + reparamétrisation

⇒ pr(x ;µ, θ) ∝ exp(−θdK (x , µ))

dK (x , µ) : distance de Kendall entre x = (x1, . . . , xm) et µ

µ = (µ1, . . . , µm) : rang de référence et mode

θ ∈ R+ : paramètre de dispersion (θ = 0 : uniformité)


Motivations pour un nouveau modèle

Deux hypothèses fondamentales1 un rang x est le résultat d’un algo. de tri, dont l’opération

élémentaire est la comparaison par paire des objets2 x 6= µ⇔ erreurs de comparaisons

minimiser l’erreur de classementm

minimiser le nombre de comparaisons par paire

Les modèles existantsmulti-stage : “modèlise” un tri par sélection

Mallows : comparaisons exhaustives de toutes les paires







Algorithme optimal

Lorsque m ≤ 10, il s’agit de l’algorithme de tri par insertion







Notre travail !1 Nouveau modèle univarié basé sur le tri par insertion2 Étendre au cas multivarié + rangs partiels + classification


Plan

1 Motivation


3 Applications I


5 Applications II

6 Perspectives


Rappel sur le tri par insertion

y : rang d’entrée de l’algo.

x : rang de sortie

sans erreur avec erreurstep j unsorted sorted

start y = 1 3 2 -

1 3 2 1

2 23

?↔ 1

1 3

3 -2 ?

↔ 1 3

1 2?↔ 3

x = 1 2 3

step j unsorted sorted

start y = 1 3 2 -

1 3 2 x(1) = 1

2 23

?↔ 1

x(2) = 3 1

3 -2 ?

↔ 3 1

3 2?↔ 1

x = 3 1 2


Notations

Données :x = (x1, . . . , xm) : rang observéy = (y1, . . . , ym) : ordre de présentation latent des objets

Paramètres :µ = (µ1, . . . , µm) : rang de référenceπ ∈ [0, 1] : probabilité de bonne comparaison par paire

Exemple : µ = (1, 2, 3) et y = (1, 3, 2)


Expression du modèle

Probabilité de x conditionnelle à y

pr(x |y ;µ, π) = πgood(x,y ,µ) (1− π)bad(x,y ,µ)

good(x , y , µ) : nombre total de bonnes comparaisons de paires

bad(x , y , µ) : nb total de mauvaises comparaisons de paires

Ordre de présentation y latent⇒ marginalisation sur tous les y possibles (p(y) = m!−1)

Le modèle ISR (Biernacki & Jacques 2012)

pr(x ;µ, π) = m!−1∑

y

pr(x |y ;µ, π)


Expressions de good(x , y , µ) et bad(x , y , µ)

On définit à l’étape j de l’algorithme de classement :

A−j (x , y) : élts de y déjà rangés, dans x , avant l’objet courant Oyj ,

A+j (x , y) : élt de y déjà rangé, dans x , juste après Oyj ,

δii′(µ) = 1{µ−1i < µ−1

i′ } : 1 si Oi rangé, dans µ, avant Oi′ , 0 sinon

On a alors

good(x , y , µ) =∑m

j=1

∑

i∈A−

j (x,y)

δyi yj (µ)

︸︷︷︸

# bons classements avant

+∑

i∈A+j (x,y)

δyj yi (µ)

︸︷︷︸

bon classement juste après ?

bad(x , y , µ) =

m∑

j=1

#A−j (x , y) + #A+

j (x , y)

︸︷︷︸

all(x, y) : nb total comparaisons

−good(x , y , µ)


Illustration des notations

step j unsorted sorted A−j A+

j

start y = 1 3 2 - - -1 3 2 x (1) = 1 {} {}

2 23 ?↔ 1

{} {1}x (2) = 3 1

3 -2 ?↔ 3 1

{3, 1} {}3 2 ?↔ 1

x = 3 1 2


Les propriétés d’ISR

Réduction de l’espace de π

Symétrie : pr(x ; µ̄, 1− π) = pr(x ;µ, π) ⇒ π ∈ [12 , 1]

Bon comportement

µ est le mode et µ̄ est l’anti-mode (π > 12 )

pr(µ;µ, π)− pr(x ;µ, π) est une fonction croissante de π :plus π est grand, plus la loi est piquée autour de son mode

la distribution est uniforme pour π = 12 , Dirac en µ si π = 1

les paramètres (µ, π) sont identifiables si π > 12


Illustration de la distribution ISR

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

2 4 1 3

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

2 4 1 3

µ = (1, 2, 4, 3) et π = 0.83 µ = (2, 4, 1, 3) et π = 0.68


Idée des preuves : exemple pour uniformité (1)

A(x, y) =nb. total de comparaisons faites pour retourner x à partir de y

Lemme 1 : ∀ x , y , τ ∈ Pm, A(x , y) = A(τx , τy)

First we prove that A−j (x, y) = A−

j (τx, τy). For any j = 1, . . . , m, we have (notice that i isalways such that 1 ≤ i < j)

A−j (τx, τy) = #{i : (τx)−1

(τy)i< (τx)−1

(τy)j} = #{i : (x−1τ−1τy)i < (x−1τ−1τy)j}

= #{i : (x−1y)i < (x−1y)j} = #{i : x−1yi

< x−1yj

} = A−j (x, y).

By noticing that A+j (x, y) = 1{A−

j (x, y) + 1 ≤ j − 1} we deduce also that

A+j (x, y) = A+

j (τx, τy). Consequently, Aj (x, y) = Aj(τx, τy) and, so, A(x, y) = A(τx, τy).

Lemme 2 : ∀ x , y , µ, τ ∈ Pm, p(x |y ; µ,12) = p(τx |τy ; µ,

12)

When π = 12 , we obtain by using Lemma 1

p(τx|τy ;µ, 12 ) =

“

12

”A(τx,τy)=“

12

”A(x,y)= p(x|y ;µ, 1

2 ).


Idée des preuves : exemple pour uniformité (2)

Proposition : ∀ x , µ ∈ Pm, p(x ; µ,12) = m!−1

Let e be the identity permutation of Pm. Using firstly Lemma 2 and then using the fact thatp(.|e;µ, 1

2 ) is a probability distribution on Pm, we have

p(x; µ, 12 ) ∝

X

y∈Pm

p(x|y ; µ, 12 ) =

X

y∈Pm

p(y−1x|y−1y ;µ, 12 ) =

X

y∈Pm

p(y−1x|e; µ, 12 ) = 1.

Autres propriétésReposent encore sur les permutations. . .


Estimation des paramètres d’ISR

Maximum de vraisemblance

Données : x = (x1, . . . , xn)

l(µ, π; x) =

n∑

i=1

ln

1

m!

∑

y i

p(x i |y i ;µ, π)

difficile à maximiser car données manquantes y = (y1, . . . , yn)

algorithme d’optimisation classique : EM

Point clé : log-vraisemblance complétée facile à optimiser

lc(µ, π; x, y) =

n∑

i=1

∑

y∈Pm

1{y = y i} ln(

1m!

p(x i |y ;µ, π)

)


Algorithme EM (itération {q})

Étape E : calcul de E(µ,π){q} [lc(µ, π; x, y)|x]

E(µ,π){q} [lc(µ, π; x, y)|x] =n∑

i=1

∑

y∈Pm

t{q}iy ln

(1

m!p(x i |y ;µ, π)

)

où la probabilité conditionnelle que y i = y est notée

t{q}iy ∝ p(x i |y ; (µ, π){q})

Étape M : calculer (µ, π){q+1} maximisant cette espérance

µ{q+1} discret : maximisation en parcourant tout Pm

π{q+1} ∝n∑

i=1

∑

y∈P

t{q}iy good(x i , y , µ{q+1})


Utilisation de EM

Propriétésmonotonie

dépendance à l’initialisation (maxima locaux)

Initialisation

on montre que limn→∞

p(π ∈ [f 1/(m−1)0︸︷︷︸

π̂−

, f 2/(m2−m)0 ]) = 1

où f0 fréquence modale empirique

on tirera π{0} dans cet intervalle et µ{0} ∈ Pm

DifficultéPm trop volumineux à parcourir (#Pm = m!) si m ≥ 8


Réduction du coût d’estimation (1)

PropositionNx : nb d’indiv. égaux à x dans un n-échantillon ISR(µ, π)

hα(π) =Nb de x dont la fréquence est ≥ à celle du mode avecproba. α

hα(π) = #{x : p(Nx ≥ Nµ;µ, π) ≥ α}

⇒ asymptotiquement, pour tout µ ∈ Pm et π ∈ [12 , 1] :

hα(π) ≤ hα

(π̂−

)

Réduction du nombre de µ possibles

estim. hα (π̂−) par bootstrap paramétrique (indep. de µ !)

sélection des hα (π̂−) rangs les plus fréquents dans x commecandidats pour µ


Réduction du coût d’estimation (2)

Algorithme SEM-Gibbs (m ≥ 8)

Etape SE : générer des y{q}i ∼ multinomial(t{q}

iy )

Gibbs : éviter le calcul des t{q}iy par une séquence de Gibbs

(y i{q,r+1}j , ·) ∼ p

“

y ij , y i

j+1|(y1, . . . , yj−1)i{q,r+1}, (yj+2, . . . , ym)i{q,r}, x1, . . . , xn; (µ, π){q}

”

pour j ∈ {1, . . . , m − 2} avec

(ym−1, ym)i{q,r+1} ∼ p“

y im−1, y i

m|(y1, . . . , ym−2)i{q,r+1}, x1, . . . , xn; (µ, π){q}”

.

Etape M : comme avant mais avec les y{q}i

Approximation de la log-vraisemblance (m ≥ 8)

l(µ, π; x) = −nX

i=1

ln

0

@

X

y∈Pm

1

p(x i |y ;µ, π)p(y |x i ; µ, π)

1

A ≈ −nX

i=1

ln

0

@

1

S

SX

s=1

1

p(x i |y i,s; µ, π)

1

A


Plan

1 Motivation


3 Applications I


5 Applications II

6 Perspectives


6 jeux de données réelles

Data set Quizz m n µ∗ Objects O1, . . . ,Om

Rank the four national football teams according to increasing number of victories in the football World CupFootball Yes 4 40 (1,2,4,3) France, Germany, Brasil, ItalyRank chronologically these Quentin Tarantino moviesCinema Yes 4 40 (3,2,4,1) Inglourious Basterds, Pulp Fiction

Reservoir Dogs, Jackie BrownRank five words according to strength of association (least to most associated) with the target word “Idea”Word Yes 5 98 None Thought, Play, Theory,association Dream, AttentionRank seven sports according to their preference in participatingSports Yes 7 130 None Baseball, Football, Basketball,

Tennis, Cycling, Swimming, JoggingResults of the four nations rugby league, from 1882 to 1909 (except years where they were tie)Rugby 4N No 4 20 None England, Scotland, Ireland, WallesElections parlementaires irlandaises de 2002Election Yes 14 24901 None 14 candidats

12490 complets sur 64081 au total (où 96% sélectionnent 1 ou 2 candidats)Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 29 / 48

Évaluation de SEM-Gibbs

SEM-Gibbs : B = 30, Q = 100, R = 10, 10 runs

EM : seuil de croissance de l = 10e−6

K̄ (µ̂EM, µ̂SEM-gibbs) |π̂EM − π̂SEM-gibbs| lEM − lSEM-Gibbsdata set mean best worst mean best worst mean best worstFootball 0.00 0.00 0.00 0.004 0.001 0.007 0.02 0.00 0.04Cinema 0.00 0.00 0.00 0.003 0.000 0.006 0.01 0.00 0.02Rugby 0.05 0.00 0.17 0.007 0.000 0.013 0.35 0.00 1.15Words 0.00 0.00 0.00 0.001 0.000 0.002 0.02 0.01 0.02Sports 0.01 0.00 0.05 0.002 0.000 0.005 0.09 0.00 0.40


Résultats

data set model µ̂ π̂/θ̂ l p̂-value #µFootball ISR (1, 2, 4, 3) 0.834 -88.53 0.001 1

Φ (1, 2, 4, 3) 1.106 -89.17 0.001 1Cinema ISR (4, 3, 2, 1) 0.723 -111.94 0.042 14

Φ (4, 3, 2, 1) 0.628 -112.12 0.029 2Rugby ISR (2, 4, 1, 3) 0.681 -58.68 0.538 12

Φ (2, 4, 1, 3) 0.528 -58.33 0.395 2Words ISR (2, 5, 4, 3, 1) 0.879 -275.43 0.001 1

Φ (2, 5, 4, 3, 1) 1.431 -251.27 0.019 1Sports ISR (1, 3, 2, 4, 5, 7, 6) 0.564 -1102.12 0.999 2†

Φ (1, 3, 4, 2, 5, 6, 7) 0.083 -1102.84 1 11Election ISR (13, 4, 1, 2, 3, 5, 6 0.682 -48329.76 0.999 6

7, 8, 9, 10, 11, 12, 14)Φ (4, 13, 2, 5, 1, 14, 7 0.164 -60157.38 0.999 38

6, 10, 8, 9, 12, 3, 11)

Les 2 modèles sont de bons compétiteurs.

Stratégie efficace de réduction du nombre de candidats pour µ.

Cohérence de π/θ : π̂football > π̂cinema and θ̂football > θ̂cinema.

Les modèles ont même µ̂ sauf pour “Sports” et “Election”: ISR plus cohérent ?

Paramètre π de ISR plus facile à interpréter.


Illustration par polytopes

empirique estimée par ISR

“Football”

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 1 3

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

2 4 1 3

“Rugby 4N”

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 1 3

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 22 1 3 4

2 1 4 3

2 3 1 4

2 3 4 1

2 4 3 1

3 1 2 4

3 1 4 23 2 1 4

3 2 4 13 4 1 2

3 4 2 1

4 1 2 3

4 1 3 2

4 2 1 3

4 2 3 1

4 3 1 2

4 3 2 1

2 4 1 3


Plan

1 Motivation


3 Applications I


5 Applications II

6 Perspectives


Mélange multivarié de modèles ISR

Rang multivarié

Dimension p : x = (x1, . . . , xp)

mj objets par dimension (1 ≤ j ≤ p) : x j = (x j1, . . . , x jmj )

K -mélange d’ISR multivariésHyp. d’indépendance conditionnelle aux classes (Everitt 1984)

p(x ; θ) =K

X

k=1

pk

| {z }

mélange

pY

j=1

ISR(µjk ,π

jk ) univarié

z }| {

1mj !

X

y∈Pmj

p(x j |y ; µjk , π

jk )

| {z }

ISR multivarié

Proportions pk : pk ∈ [0, 1] et∑K

k=1 pk = 1

Paramètre général : θ = (πjk , µ

jk , pk)k=1,...,K ,j=1,...,p


Rangs partiels

Très courants, surtout en dernières positions

Chaque dimension x j de x peut être pleine ou partielle

x̌ j : rang x j avec positions x jℓ non observée remplacée par 0

x̂ j : rang x j avec positions x jℓ observée remplacée par 0

x j = x̂ j + x̌ j

Au final : x̌ = (x̌1, . . . , x̌p) et x̂ = (x̂1, . . . , x̂p)

Exemple (p = 1 et m1 = 5)

x̌ = (2, 5, 0, 0, 3)⇒ x̂ =

{(0, 0, 1, 4, 0)(0, 0, 4, 1, 0)

⇒ x =

{(2, 5, 1, 4, 3)(2, 5, 4, 1, 3)


Log-vraisemblances

Échantillon : x̌z = (z1, . . . , zK ) : zk = 1 si groupe k , zk = 0 sinonVariables latentes : x̂, y = {y1, . . . , yn}, z = {z1, . . . , zn}(x i , y i , z i) sont des réalisations i.i.d.

Log-vraisemblance observée

l(θ; x̌) =nX

i=1

ln

0

B

@

KX

k=1

pk

pY

j=1

1

mj !

X

y∈Pmj

X

x∈Xji

p(x|y ; µjk , π

jk)

1

C

A

X ji : rangs x j

i compatibles avec x̌ ji

Log-vraisemblance complétée

lc(θ; x, y, z) =nX

i=1

KX

k=1

zki

pX

j=1

ln

pk

mj !p(x j

i |yji ; µ

jk , πj

k)

!

Non linéaire pour certaines variables + combinatoire : EM difficile. . .


Algorithme SEM-Gibbs

Étape SE : (x̂, y, z){q} ∼ (x̂, y, z)|x̌;θ{q}

Gibbs : échantillonnage sans calcul de la loi conditionnelle

Étape M : maximise lc en utilisant (x̂, y, z){q}

Choix de θ̂

QSEM itérations, chauffe de BSEM itérations

Pour chaque {µjk} distinct, calculer π̄

jk et p̄k

Garder (p̄k , µjk , π̄

jk )1≤j≤p,1≤k≤K associé à la plus grande l

En fait, on utilise une approximation de l (voir univarié)

Du label switching peut arriver (Stephens 2000). . .

. . . mais quasiment impossible si classes séparées

La sélection de modèle éliminera les classes peu séparées


Détail de l’étape SE

Génère y j{q}i |{z{q−1}

i , x j{q−1}i , (µk , πk ){q−1}}

→ besoin d’un Gibbs interne (similaire cas univarié)

Génère z{q}i |{y

{q}i , x{q−1}

i ;θ{q−1}}→ facile et classique

Génère x̂ j{q}i |{z{q}

i , y j{q}i , x̌ j

i ;θ{q−1}}

→ besoin d’un Gibbs interne (similaire à y)

Au moins mj (mj−1)2 (max. Kendall) itérations pour que la proba

d’atteindre chaque rang soit non nulle


Détail de l’étape M

p{q}k = 1

n

∑ni=1 zk{q}

i

Algorithme interne pour chercher (µ,π){q}

Génère µj{q,r+1}k |{x̌, x̂{q}

, y{q}, z{q}; πj{q,r}k }

→ Gibbs interne (similaire à y) justifié par

p(µ|x, y, z; π, p) ∝ exp(lc(θ; x, y, z)) (avec prior uniforme sur µ)

πj{q,r+1}k ∝

∑ni=1 zk

i good(x̌ ji , x̂ j{q}

i , y j{q}i , µ

j{q,r+1}k )

Au moins mj (mj−1)2 (max. Kendall) itérations pour que la proba

d’atteindre chaque rang soit non nulle

On retient le couple (πk , µk )j{q+1} maximisant lc


Choix du nombre K de classes

Choix du nombre K de classesOn choisit K

BIC = −2l(θ̂; x̌) + (Kp + K − 1) log(n),


Plan

1 Motivation


3 Applications I


5 Applications II

6 Perspectives


SEM-Gibbs: sensibilité rangs incomplets

Deux classes bivariées bien séparées (mj = 5)Données manquantes:

2 objets : d%3 objets : d

2 %

4 objets : d4 %

1000 × K̄ (µ, µ̂SEM-gibbs)/Kmax 1000 × |π − π̂SEM-gibbs|

n→ 200 4 000 200 4 000 200 4 000 200 40 200 4 000 200 4 000d j k mean best worst mean best worst0 1 1 0 0 0 0 0 0 25 5 23 4 27 60 1 2 0 0 0 0 0 0 13 6 11 5 17 70 2 1 0 0 0 0 0 0 2 2 1 1 4 20 2 2 0 0 0 0 0 0 22 2 21 2 23 35 1 1 0 0 0 0 0 0 14 71 11 70 16 725 1 2 0 0 0 0 0 0 44 70 38 70 48 715 2 1 0 0 0 0 0 0 17 41 15 41 20 425 2 2 0 0 0 0 0 0 30 22 28 21 32 23

10 1 1 0 2 0 0 0 50 21 101 14 89 39 29910 1 2 2 0 0 0 10 0 88 84 83 57 109 8710 2 1 0 0 0 0 0 0 28 65 23 46 49 3910 2 2 0 0 0 0 0 0 51 30 41 13 66 3120 1 1 0 0 0 0 0 0 110 128 90 67 130 13620 1 2 41 5 10 0 60 50 164 140 144 133 181 19720 2 1 0 0 0 0 0 0 50 66 34 04 66 7420 2 2 0 4 0 0 0 50 67 99 49 61 85 431


Concours de l’Eurovision (1)

Principe

Plus grand concours musical au monde (une quarantaine de pays)

Chaque pays membre soumet une chanson télédiffusée en direct. . .

. . . puis classe ses 10 chansons étrangères préférées

Données

Votes des n = 34 pays participant entre 2007 et 2012 (p = 6 ans)

Seulement 8 pays ont participé aux 6 finales :1: France, 2: Germany, 3: Greece, 4: Romania, 5: Russia, 6: Spain, 7: Ukraine, 8: UK

Uniquement les votes pour ces 8 pays sont considérés : mj = 8

57.7% des éléments de rangs sont absents !

Estimation du modèlePackage RankClust pour R.



Choix du nombre de classes⇒ BIC

1 2 3 4 5 6

3000

3100

3200

3300

3400

Number of groups (K)

BIC

ISR

⇒ 5 classes



k pk1 0.3532 0.0883 0.2354 0.1765 0.147

2007 2008 2009k µ1

k π1k µ2

k π2k µ3

k π3k

1 (3,7,5,2,4,6,8,1) 0.831 (3,5,7,6,2,4,8,1) 0.874 (3,1,8,2,4,7,6,5) 0.8452 (5,7,3,2,1,8,4,6) 0.915 (5,1,7,3,2,4,6,8) 0.889 (1,5,3,2,6,7,4,8) 0.8863 (5,7,3,4,6,2,8,1) 0.888 (7,5,3,6,4,8,1,2) 0.886 (5,7,8,1,4,3,2,6) 0.7474 (7,5,3,6,4,2,8,1) 0.921 (5,7,1,3,4,6,8,2) 0.852 (8,1,4,2,6,3,5,7) 0.8925 (7,5,4,6,3,2,8,1) 0.911 (5,1,7,4,3,2,8,6) 0.921 (5,1,8,3,7,6,2,4) 0.949

2010 2011 2012k µ4

k π4k µ5

k π5k µ6

k π6k

1 (3,7,2,1,6,4,5,8) 0.838 (3,6,7,1,2,4,8,5) 0.763 (6,5,2,4,3,8,7,1) 0.8632 (2,5,4,3,7,1,8,6) 0.875 (2,8,5,3,6,7,4,1) 0.967 (2,5,8,6,7,1,4,3) 0.8813 (4,3,2,1,5,7,6,8) 0.855 (7,8,1,2,5,4,3,6) 0.789 (5,4,7,2,6,8,3,1) 0.8254 (2,4,1,8,5,7,6,3) 0.972 (2,8,4,1,7,6,3,5) 0.889 (5,2,4,7,3,1,6,8) 0.9095 (2,7,5,6,4,1,3,8) 0.869 (5,7,3,8,2,4,6,1) 0.803 (5,7,3,1,4,8,2,6) 0.703

InteprétationClasse 5 : Ukraine et Russie (7 et 5) toujours bien classés (alliance ?)

Possible d’approfondir l’interprétation des classes par les paramètres. . .



Révélation d’alliances géographiquesG1 (rouge) : pays d’Europe de l’ouest

G2 (bleu) : pays du nord

G3 (jaune) : pays méditérranéens

G4 (vert) : pays plutôt dispersés

G5 (gris) : pays d’Europe de l’est


Plan

1 Motivation


3 Applications I


5 Applications II

6 Perspectives


Le modèle ISR

Optimal lorsque m ≤ 10: minimise le nombre d’erreurs

ISR robuste à l’hyp. sur la nature du tri

Paramètres interprétables

Premier modèle de clustering de rang multivariés partiels

Package RankClust pour R


Le modèle ISR

Optimal lorsque m ≤ 10: minimise le nombre d’erreurs

ISR robuste à l’hyp. sur la nature du tri

Paramètres interprétables

Premier modèle de clustering de rang multivariés partiels

Package RankClust pour R

Nombreuses perspectives...Si les ordres de présentations étaient connus ?

Modèles particuliers (π1 = . . . = πK , πk non constant...)Appliquer la même démarche à d’autres types de données:

données ordinales : algorithme de recherche


Apprentissage statistique pour donn es complexes base de...

Documents

Transcript of Apprentissage statistique pour donn es complexes base de...