Apprentissage statistique pour donn es complexes base de...
Transcript of Apprentissage statistique pour donn es complexes base de...
Apprentissage statistique pour données complexesà base de modèles génératifs
Julien JACQUES
Université Lille 1, France & CNRS & Inria
Strasbourg, 15/01/2013
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 1 / 48
Apprentissage statistique
Apprentissage statistiqueL’apprentissage statistique définit et estime un lien entre des variablesexplicatives X et une variable réponse Y :
Y ∈ Y lien←−−− X = (X1, . . . , Xp) ∈ X .
Y peut êtrequantitative (typiquement Y = R) −→ régression,
catégorielle (typiquement Y = {g1, . . . , gK}),si de plus Y est
observée −→ classification supervisée,non observée −→ classification non supervisée.
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 2 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Données complexes ?
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Données complexes ?
données usuelles
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Données complexes ?
données usuelles
catégorielleG
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Données complexes ?
données usuelles données complexes
catégorielleG
structure−−−−−−−−→
sur Gdonnées de rang
données ordinales
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Données complexes ?
données usuelles données complexes
catégorielleG
structure−−−−−−−−→
sur Gdonnées de rang
données ordinales
continuesR
p
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Données complexes ?
données usuelles données complexes
catégorielleG
structure−−−−−−−−→
sur Gdonnées de rang
données ordinales
continuesR
p p →∞−−−−→
grande dimension (p >> n)
données fonctionnelles
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Données complexes ?
données usuelles données complexes
catégorielleG
structure−−−−−−−−→
sur Gdonnées de rang
données ordinales
continuesR
p p →∞−−−−→
grande dimension (p >> n)
données fonctionnelles
tout type
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Données complexes ?
données usuelles données complexes
catégorielleG
structure−−−−−−−−→
sur Gdonnées de rang
données ordinales
continuesR
p p →∞−−−−→
grande dimension (p >> n)
données fonctionnelles
tout typeévolution de−−−−−−−−−−−→la population
apprentissage 6= prédiction
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Modèles génératifs?Qu’est-ce?
modèle spécifiant la distribution jointe de (X , Y ).
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Apprentissage statistique des données complexes
Centre d’intérêt de mes travauxApprentissage statistique des données complexes à base de modèles
génératifs.
Modèles génératifs?Qu’est-ce?
modèle spécifiant la distribution jointe de (X , Y ).
Pourquoi utiliser de tels modèles?
compétitifs en prédiction,
signifiants (paramètres interprétables),
risque associé à une prédiction,
utilisable en classification supervisée, semi-supervisée et nonsupervisée.
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 3 / 48
Objectif de mes travaux de recherche
ObjectifDévelopper des outils d’apprentissage statistique
estimation de densité (modélisation),
classification (supervisée ou non)
modèle de régression,
pour différents types de données complexes.
Pour cela, nous procédons comme suit:
définir des modèles probabilistes spécifiques à chaque type dedonnées complexes (si besoin),
considérer des modèles de mélanges pour la classification,
proposer des procédures d’estimation,
développer un package R associé.
Julien JACQUES (Lille 1) Apprentissage Statistique 15/01/2013 4 / 48
Modèles génératifs pour rangs multivariéset application au clustering
Julien JACQUES et Christophe BIERNACKI
Université Lille 1, France & CNRS & Inria
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 5 / 48
Plan
1 Motivation
2 Le modèle ISR univarié
3 Applications I
4 Extension au clustering
5 Applications II
6 Perspectives
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 6 / 48
Plan
1 Motivation
2 Le modèle ISR univarié
3 Applications I
4 Extension au clustering
5 Applications II
6 Perspectives
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 7 / 48
Définition et notations
DéfinitionRang : classement de m objets selon un ordre de préférence
Exemple :Lieux de vacances : O1 : campagne,O2 : montagne et O3 : merEx. de préférence : 1er la mer, 2e la campagne et 3e la montagne
Notations
Ordering : x = (3, 1, 2) = (1st
O3,2nd
O1,3th
O2)
Ranking : x−1 = (2, 3, 1) = (O1
2nd,O2
3th,O3
1st)
x , x−1 ∈ Pm (permutations des m premiers entiers).
Hypothèses : rangs complets et sans ex-aequo.
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 8 / 48
Interêt des données de rang
Activités humaines impliquant des préférences, attitudes ou choix
Google SportSociologie PolitiqueEconomie PsychologieBiologie Marketing
. . .
Un rang résulte souvent d’un autre type de donnée !
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 9 / 48
Modèles de références pour données de rang (1/2)
Thurstone (1927)Rang issu de notes continues
1 Note (cachée) des objets :
z = (z1, . . . , zm)⇒ x−1 = rank(z)
2 Modèle sur z : z ∼ Nm(ξ,Σ)
3 Modèle sur x : intégration multidimensionnelle. . .
Multi-stage (Luce 1959, Plackett 1975)
p(x) =
m−1∏
j=1
vj
vj + vj+1 + . . . + vm.
vj : probabilité que Oxj soit préféré à tous les autres objets
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 10 / 48
Modèles de références pour données de rang (2/2)
Comparaison par paire (Kendall & Smith 1940)
p(x) ∝∏
1≤i<j≤m
pij
pij : probabilité de préférer Oxi à Oxj
Mallows Φ model (∼1950)parcimonie + reparamétrisation
⇒ pr(x ;µ, θ) ∝ exp(−θdK (x , µ))
dK (x , µ) : distance de Kendall entre x = (x1, . . . , xm) et µ
µ = (µ1, . . . , µm) : rang de référence et mode
θ ∈ R+ : paramètre de dispersion (θ = 0 : uniformité)
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 11 / 48
Motivations pour un nouveau modèle
Deux hypothèses fondamentales1 un rang x est le résultat d’un algo. de tri, dont l’opération
élémentaire est la comparaison par paire des objets2 x 6= µ⇔ erreurs de comparaisons
minimiser l’erreur de classementm
minimiser le nombre de comparaisons par paire
Les modèles existantsmulti-stage : “modèlise” un tri par sélection
Mallows : comparaisons exhaustives de toutes les paires
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 12 / 48
Motivations pour un nouveau modèle
Deux hypothèses fondamentales1 un rang x est le résultat d’un algo. de tri, dont l’opération
élémentaire est la comparaison par paire des objets2 x 6= µ⇔ erreurs de comparaisons
minimiser l’erreur de classementm
minimiser le nombre de comparaisons par paire
Algorithme optimal
Lorsque m ≤ 10, il s’agit de l’algorithme de tri par insertion
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 12 / 48
Motivations pour un nouveau modèle
Deux hypothèses fondamentales1 un rang x est le résultat d’un algo. de tri, dont l’opération
élémentaire est la comparaison par paire des objets2 x 6= µ⇔ erreurs de comparaisons
minimiser l’erreur de classementm
minimiser le nombre de comparaisons par paire
Notre travail !1 Nouveau modèle univarié basé sur le tri par insertion2 Étendre au cas multivarié + rangs partiels + classification
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 12 / 48
Plan
1 Motivation
2 Le modèle ISR univarié
3 Applications I
4 Extension au clustering
5 Applications II
6 Perspectives
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 13 / 48
Rappel sur le tri par insertion
y : rang d’entrée de l’algo.
x : rang de sortie
sans erreur avec erreurstep j unsorted sorted
start y = 1 3 2 -
1 3 2 1
2 23
?↔ 1
1 3
3 -2 ?
↔ 1 3
1 2?↔ 3
x = 1 2 3
step j unsorted sorted
start y = 1 3 2 -
1 3 2 x(1) = 1
2 23
?↔ 1
x(2) = 3 1
3 -2 ?
↔ 3 1
3 2?↔ 1
x = 3 1 2
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 14 / 48
Notations
Données :x = (x1, . . . , xm) : rang observéy = (y1, . . . , ym) : ordre de présentation latent des objets
Paramètres :µ = (µ1, . . . , µm) : rang de référenceπ ∈ [0, 1] : probabilité de bonne comparaison par paire
Exemple : µ = (1, 2, 3) et y = (1, 3, 2)
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 15 / 48
Expression du modèle
Probabilité de x conditionnelle à y
pr(x |y ;µ, π) = πgood(x,y ,µ) (1− π)bad(x,y ,µ)
good(x , y , µ) : nombre total de bonnes comparaisons de paires
bad(x , y , µ) : nb total de mauvaises comparaisons de paires
Ordre de présentation y latent⇒ marginalisation sur tous les y possibles (p(y) = m!−1)
Le modèle ISR (Biernacki & Jacques 2012)
pr(x ;µ, π) = m!−1∑
y
pr(x |y ;µ, π)
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 16 / 48
Expressions de good(x , y , µ) et bad(x , y , µ)
On définit à l’étape j de l’algorithme de classement :
A−j (x , y) : élts de y déjà rangés, dans x , avant l’objet courant Oyj ,
A+j (x , y) : élt de y déjà rangé, dans x , juste après Oyj ,
δii′(µ) = 1{µ−1i < µ−1
i′ } : 1 si Oi rangé, dans µ, avant Oi′ , 0 sinon
On a alors
good(x , y , µ) =∑m
j=1
∑
i∈A−
j (x,y)
δyi yj (µ)
︸ ︷︷ ︸
# bons classements avant
+∑
i∈A+j (x,y)
δyj yi (µ)
︸ ︷︷ ︸
bon classement juste après ?
bad(x , y , µ) =
m∑
j=1
#A−j (x , y) + #A+
j (x , y)
︸ ︷︷ ︸
all(x, y) : nb total comparaisons
−good(x , y , µ)
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 17 / 48
Illustration des notations
step j unsorted sorted A−j A+
j
start y = 1 3 2 - - -1 3 2 x (1) = 1 {} {}
2 23 ?↔ 1
{} {1}x (2) = 3 1
3 -2 ?↔ 3 1
{3, 1} {}3 2 ?↔ 1
x = 3 1 2
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 18 / 48
Les propriétés d’ISR
Réduction de l’espace de π
Symétrie : pr(x ; µ̄, 1− π) = pr(x ;µ, π) ⇒ π ∈ [12 , 1]
Bon comportement
µ est le mode et µ̄ est l’anti-mode (π > 12 )
pr(µ;µ, π)− pr(x ;µ, π) est une fonction croissante de π :plus π est grand, plus la loi est piquée autour de son mode
la distribution est uniforme pour π = 12 , Dirac en µ si π = 1
les paramètres (µ, π) sont identifiables si π > 12
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 19 / 48
Illustration de la distribution ISR
1 2 3 4
1 2 4 3
1 3 2 4
1 3 4 2
1 4 2 3
1 4 3 22 1 3 4
2 1 4 3
2 3 1 4
2 3 4 1
2 4 3 1
3 1 2 4
3 1 4 23 2 1 4
3 2 4 13 4 1 2
3 4 2 1
4 1 2 3
4 1 3 2
4 2 1 3
4 2 3 1
4 3 1 2
4 3 2 1
2 4 1 3
1 2 3 4
1 2 4 3
1 3 2 4
1 3 4 2
1 4 2 3
1 4 3 22 1 3 4
2 1 4 3
2 3 1 4
2 3 4 1
2 4 3 1
3 1 2 4
3 1 4 23 2 1 4
3 2 4 13 4 1 2
3 4 2 1
4 1 2 3
4 1 3 2
4 2 1 3
4 2 3 1
4 3 1 2
4 3 2 1
2 4 1 3
µ = (1, 2, 4, 3) et π = 0.83 µ = (2, 4, 1, 3) et π = 0.68
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 20 / 48
Idée des preuves : exemple pour uniformité (1)
A(x, y) =nb. total de comparaisons faites pour retourner x à partir de y
Lemme 1 : ∀ x , y , τ ∈ Pm, A(x , y) = A(τx , τy)
First we prove that A−j (x, y) = A−
j (τx, τy). For any j = 1, . . . , m, we have (notice that i isalways such that 1 ≤ i < j)
A−j (τx, τy) = #{i : (τx)−1
(τy)i< (τx)−1
(τy)j} = #{i : (x−1τ−1τy)i < (x−1τ−1τy)j}
= #{i : (x−1y)i < (x−1y)j} = #{i : x−1yi
< x−1yj
} = A−j (x, y).
By noticing that A+j (x, y) = 1{A−
j (x, y) + 1 ≤ j − 1} we deduce also that
A+j (x, y) = A+
j (τx, τy). Consequently, Aj (x, y) = Aj(τx, τy) and, so, A(x, y) = A(τx, τy).
Lemme 2 : ∀ x , y , µ, τ ∈ Pm, p(x |y ; µ,12) = p(τx |τy ; µ,
12)
When π = 12 , we obtain by using Lemma 1
p(τx|τy ;µ, 12 ) =
“
12
”A(τx,τy)=“
12
”A(x,y)= p(x|y ;µ, 1
2 ).
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 21 / 48
Idée des preuves : exemple pour uniformité (2)
Proposition : ∀ x , µ ∈ Pm, p(x ; µ,12) = m!−1
Let e be the identity permutation of Pm. Using firstly Lemma 2 and then using the fact thatp(.|e;µ, 1
2 ) is a probability distribution on Pm, we have
p(x; µ, 12 ) ∝
X
y∈Pm
p(x|y ; µ, 12 ) =
X
y∈Pm
p(y−1x|y−1y ;µ, 12 ) =
X
y∈Pm
p(y−1x|e; µ, 12 ) = 1.
Autres propriétésReposent encore sur les permutations. . .
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 22 / 48
Estimation des paramètres d’ISR
Maximum de vraisemblance
Données : x = (x1, . . . , xn)
l(µ, π; x) =
n∑
i=1
ln
1
m!
∑
y i
p(x i |y i ;µ, π)
difficile à maximiser car données manquantes y = (y1, . . . , yn)
algorithme d’optimisation classique : EM
Point clé : log-vraisemblance complétée facile à optimiser
lc(µ, π; x, y) =
n∑
i=1
∑
y∈Pm
1{y = y i} ln(
1m!
p(x i |y ;µ, π)
)
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 23 / 48
Algorithme EM (itération {q})
Étape E : calcul de E(µ,π){q} [lc(µ, π; x, y)|x]
E(µ,π){q} [lc(µ, π; x, y)|x] =n∑
i=1
∑
y∈Pm
t{q}iy ln
(1
m!p(x i |y ;µ, π)
)
où la probabilité conditionnelle que y i = y est notée
t{q}iy ∝ p(x i |y ; (µ, π){q})
Étape M : calculer (µ, π){q+1} maximisant cette espérance
µ{q+1} discret : maximisation en parcourant tout Pm
π{q+1} ∝n∑
i=1
∑
y∈P
t{q}iy good(x i , y , µ{q+1})
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 24 / 48
Utilisation de EM
Propriétésmonotonie
dépendance à l’initialisation (maxima locaux)
Initialisation
on montre que limn→∞
p(π ∈ [f 1/(m−1)0︸ ︷︷ ︸
π̂−
, f 2/(m2−m)0 ]) = 1
où f0 fréquence modale empirique
on tirera π{0} dans cet intervalle et µ{0} ∈ Pm
DifficultéPm trop volumineux à parcourir (#Pm = m!) si m ≥ 8
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 25 / 48
Réduction du coût d’estimation (1)
PropositionNx : nb d’indiv. égaux à x dans un n-échantillon ISR(µ, π)
hα(π) =Nb de x dont la fréquence est ≥ à celle du mode avecproba. α
hα(π) = #{x : p(Nx ≥ Nµ;µ, π) ≥ α}
⇒ asymptotiquement, pour tout µ ∈ Pm et π ∈ [12 , 1] :
hα(π) ≤ hα
(π̂−
)
Réduction du nombre de µ possibles
estim. hα (π̂−) par bootstrap paramétrique (indep. de µ !)
sélection des hα (π̂−) rangs les plus fréquents dans x commecandidats pour µ
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 26 / 48
Réduction du coût d’estimation (2)
Algorithme SEM-Gibbs (m ≥ 8)
Etape SE : générer des y{q}i ∼ multinomial(t{q}
iy )
Gibbs : éviter le calcul des t{q}iy par une séquence de Gibbs
(y i{q,r+1}j , ·) ∼ p
“
y ij , y i
j+1|(y1, . . . , yj−1)i{q,r+1}, (yj+2, . . . , ym)i{q,r}, x1, . . . , xn; (µ, π){q}
”
pour j ∈ {1, . . . , m − 2} avec
(ym−1, ym)i{q,r+1} ∼ p“
y im−1, y i
m|(y1, . . . , ym−2)i{q,r+1}, x1, . . . , xn; (µ, π){q}”
.
Etape M : comme avant mais avec les y{q}i
Approximation de la log-vraisemblance (m ≥ 8)
l(µ, π; x) = −nX
i=1
ln
0
@
X
y∈Pm
1
p(x i |y ;µ, π)p(y |x i ; µ, π)
1
A ≈ −nX
i=1
ln
0
@
1
S
SX
s=1
1
p(x i |y i,s; µ, π)
1
A
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 27 / 48
Plan
1 Motivation
2 Le modèle ISR univarié
3 Applications I
4 Extension au clustering
5 Applications II
6 Perspectives
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 28 / 48
6 jeux de données réelles
Data set Quizz m n µ∗ Objects O1, . . . ,Om
Rank the four national football teams according to increasing number of victories in the football World CupFootball Yes 4 40 (1,2,4,3) France, Germany, Brasil, ItalyRank chronologically these Quentin Tarantino moviesCinema Yes 4 40 (3,2,4,1) Inglourious Basterds, Pulp Fiction
Reservoir Dogs, Jackie BrownRank five words according to strength of association (least to most associated) with the target word “Idea”Word Yes 5 98 None Thought, Play, Theory,association Dream, AttentionRank seven sports according to their preference in participatingSports Yes 7 130 None Baseball, Football, Basketball,
Tennis, Cycling, Swimming, JoggingResults of the four nations rugby league, from 1882 to 1909 (except years where they were tie)Rugby 4N No 4 20 None England, Scotland, Ireland, WallesElections parlementaires irlandaises de 2002Election Yes 14 24901 None 14 candidats
12490 complets sur 64081 au total (où 96% sélectionnent 1 ou 2 candidats)Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 29 / 48
Évaluation de SEM-Gibbs
SEM-Gibbs : B = 30, Q = 100, R = 10, 10 runs
EM : seuil de croissance de l = 10e−6
K̄ (µ̂EM, µ̂SEM-gibbs) |π̂EM − π̂SEM-gibbs| lEM − lSEM-Gibbsdata set mean best worst mean best worst mean best worstFootball 0.00 0.00 0.00 0.004 0.001 0.007 0.02 0.00 0.04Cinema 0.00 0.00 0.00 0.003 0.000 0.006 0.01 0.00 0.02Rugby 0.05 0.00 0.17 0.007 0.000 0.013 0.35 0.00 1.15Words 0.00 0.00 0.00 0.001 0.000 0.002 0.02 0.01 0.02Sports 0.01 0.00 0.05 0.002 0.000 0.005 0.09 0.00 0.40
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 30 / 48
Résultats
data set model µ̂ π̂/θ̂ l p̂-value #µFootball ISR (1, 2, 4, 3) 0.834 -88.53 0.001 1
Φ (1, 2, 4, 3) 1.106 -89.17 0.001 1Cinema ISR (4, 3, 2, 1) 0.723 -111.94 0.042 14
Φ (4, 3, 2, 1) 0.628 -112.12 0.029 2Rugby ISR (2, 4, 1, 3) 0.681 -58.68 0.538 12
Φ (2, 4, 1, 3) 0.528 -58.33 0.395 2Words ISR (2, 5, 4, 3, 1) 0.879 -275.43 0.001 1
Φ (2, 5, 4, 3, 1) 1.431 -251.27 0.019 1Sports ISR (1, 3, 2, 4, 5, 7, 6) 0.564 -1102.12 0.999 2†
Φ (1, 3, 4, 2, 5, 6, 7) 0.083 -1102.84 1 11Election ISR (13, 4, 1, 2, 3, 5, 6 0.682 -48329.76 0.999 6
7, 8, 9, 10, 11, 12, 14)Φ (4, 13, 2, 5, 1, 14, 7 0.164 -60157.38 0.999 38
6, 10, 8, 9, 12, 3, 11)
Les 2 modèles sont de bons compétiteurs.
Stratégie efficace de réduction du nombre de candidats pour µ.
Cohérence de π/θ : π̂football > π̂cinema and θ̂football > θ̂cinema.
Les modèles ont même µ̂ sauf pour “Sports” et “Election”: ISR plus cohérent ?
Paramètre π de ISR plus facile à interpréter.
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 31 / 48
Illustration par polytopes
empirique estimée par ISR
“Football”
1 2 3 4
1 2 4 3
1 3 2 4
1 3 4 2
1 4 2 3
1 4 3 22 1 3 4
2 1 4 3
2 3 1 4
2 3 4 1
2 4 1 3
2 4 3 1
3 1 2 4
3 1 4 23 2 1 4
3 2 4 13 4 1 2
3 4 2 1
4 1 2 3
4 1 3 2
4 2 1 3
4 2 3 1
4 3 1 2
4 3 2 1
1 2 3 4
1 2 4 3
1 3 2 4
1 3 4 2
1 4 2 3
1 4 3 22 1 3 4
2 1 4 3
2 3 1 4
2 3 4 1
2 4 3 1
3 1 2 4
3 1 4 23 2 1 4
3 2 4 13 4 1 2
3 4 2 1
4 1 2 3
4 1 3 2
4 2 1 3
4 2 3 1
4 3 1 2
4 3 2 1
2 4 1 3
“Rugby 4N”
1 2 3 4
1 2 4 3
1 3 2 4
1 3 4 2
1 4 2 3
1 4 3 22 1 3 4
2 1 4 3
2 3 1 4
2 3 4 1
2 4 1 3
2 4 3 1
3 1 2 4
3 1 4 23 2 1 4
3 2 4 13 4 1 2
3 4 2 1
4 1 2 3
4 1 3 2
4 2 1 3
4 2 3 1
4 3 1 2
4 3 2 1
1 2 3 4
1 2 4 3
1 3 2 4
1 3 4 2
1 4 2 3
1 4 3 22 1 3 4
2 1 4 3
2 3 1 4
2 3 4 1
2 4 3 1
3 1 2 4
3 1 4 23 2 1 4
3 2 4 13 4 1 2
3 4 2 1
4 1 2 3
4 1 3 2
4 2 1 3
4 2 3 1
4 3 1 2
4 3 2 1
2 4 1 3
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 32 / 48
Plan
1 Motivation
2 Le modèle ISR univarié
3 Applications I
4 Extension au clustering
5 Applications II
6 Perspectives
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 33 / 48
Mélange multivarié de modèles ISR
Rang multivarié
Dimension p : x = (x1, . . . , xp)
mj objets par dimension (1 ≤ j ≤ p) : x j = (x j1, . . . , x jmj )
K -mélange d’ISR multivariésHyp. d’indépendance conditionnelle aux classes (Everitt 1984)
p(x ; θ) =K
X
k=1
pk
| {z }
mélange
pY
j=1
ISR(µjk ,π
jk ) univarié
z }| {
1mj !
X
y∈Pmj
p(x j |y ; µjk , π
jk )
| {z }
ISR multivarié
Proportions pk : pk ∈ [0, 1] et∑K
k=1 pk = 1
Paramètre général : θ = (πjk , µ
jk , pk)k=1,...,K ,j=1,...,p
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 34 / 48
Rangs partiels
Très courants, surtout en dernières positions
Chaque dimension x j de x peut être pleine ou partielle
x̌ j : rang x j avec positions x jℓ non observée remplacée par 0
x̂ j : rang x j avec positions x jℓ observée remplacée par 0
x j = x̂ j + x̌ j
Au final : x̌ = (x̌1, . . . , x̌p) et x̂ = (x̂1, . . . , x̂p)
Exemple (p = 1 et m1 = 5)
x̌ = (2, 5, 0, 0, 3)⇒ x̂ =
{(0, 0, 1, 4, 0)(0, 0, 4, 1, 0)
⇒ x =
{(2, 5, 1, 4, 3)(2, 5, 4, 1, 3)
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 35 / 48
Log-vraisemblances
Échantillon : x̌z = (z1, . . . , zK ) : zk = 1 si groupe k , zk = 0 sinonVariables latentes : x̂, y = {y1, . . . , yn}, z = {z1, . . . , zn}(x i , y i , z i) sont des réalisations i.i.d.
Log-vraisemblance observée
l(θ; x̌) =nX
i=1
ln
0
B
@
KX
k=1
pk
pY
j=1
1
mj !
X
y∈Pmj
X
x∈Xji
p(x|y ; µjk , π
jk)
1
C
A
X ji : rangs x j
i compatibles avec x̌ ji
Log-vraisemblance complétée
lc(θ; x, y, z) =nX
i=1
KX
k=1
zki
pX
j=1
ln
pk
mj !p(x j
i |yji ; µ
jk , πj
k)
!
Non linéaire pour certaines variables + combinatoire : EM difficile. . .
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 36 / 48
Algorithme SEM-Gibbs
Étape SE : (x̂, y, z){q} ∼ (x̂, y, z)|x̌;θ{q}
Gibbs : échantillonnage sans calcul de la loi conditionnelle
Étape M : maximise lc en utilisant (x̂, y, z){q}
Choix de θ̂
QSEM itérations, chauffe de BSEM itérations
Pour chaque {µjk} distinct, calculer π̄
jk et p̄k
Garder (p̄k , µjk , π̄
jk )1≤j≤p,1≤k≤K associé à la plus grande l
En fait, on utilise une approximation de l (voir univarié)
Du label switching peut arriver (Stephens 2000). . .
. . . mais quasiment impossible si classes séparées
La sélection de modèle éliminera les classes peu séparées
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 37 / 48
Détail de l’étape SE
Génère y j{q}i |{z{q−1}
i , x j{q−1}i , (µk , πk ){q−1}}
→ besoin d’un Gibbs interne (similaire cas univarié)
Génère z{q}i |{y
{q}i , x{q−1}
i ;θ{q−1}}→ facile et classique
Génère x̂ j{q}i |{z{q}
i , y j{q}i , x̌ j
i ;θ{q−1}}
→ besoin d’un Gibbs interne (similaire à y)
Au moins mj (mj−1)2 (max. Kendall) itérations pour que la proba
d’atteindre chaque rang soit non nulle
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 38 / 48
Détail de l’étape M
p{q}k = 1
n
∑ni=1 zk{q}
i
Algorithme interne pour chercher (µ,π){q}
Génère µj{q,r+1}k |{x̌, x̂{q}
, y{q}, z{q}; πj{q,r}k }
→ Gibbs interne (similaire à y) justifié par
p(µ|x, y, z; π, p) ∝ exp(lc(θ; x, y, z)) (avec prior uniforme sur µ)
πj{q,r+1}k ∝
∑ni=1 zk
i good(x̌ ji , x̂ j{q}
i , y j{q}i , µ
j{q,r+1}k )
Au moins mj (mj−1)2 (max. Kendall) itérations pour que la proba
d’atteindre chaque rang soit non nulle
On retient le couple (πk , µk )j{q+1} maximisant lc
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 39 / 48
Choix du nombre K de classes
Choix du nombre K de classesOn choisit K
BIC = −2l(θ̂; x̌) + (Kp + K − 1) log(n),
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 40 / 48
Plan
1 Motivation
2 Le modèle ISR univarié
3 Applications I
4 Extension au clustering
5 Applications II
6 Perspectives
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 41 / 48
SEM-Gibbs: sensibilité rangs incomplets
Deux classes bivariées bien séparées (mj = 5)Données manquantes:
2 objets : d%3 objets : d
2 %
4 objets : d4 %
1000 × K̄ (µ, µ̂SEM-gibbs)/Kmax 1000 × |π − π̂SEM-gibbs|
n→ 200 4 000 200 4 000 200 4 000 200 40 200 4 000 200 4 000d j k mean best worst mean best worst0 1 1 0 0 0 0 0 0 25 5 23 4 27 60 1 2 0 0 0 0 0 0 13 6 11 5 17 70 2 1 0 0 0 0 0 0 2 2 1 1 4 20 2 2 0 0 0 0 0 0 22 2 21 2 23 35 1 1 0 0 0 0 0 0 14 71 11 70 16 725 1 2 0 0 0 0 0 0 44 70 38 70 48 715 2 1 0 0 0 0 0 0 17 41 15 41 20 425 2 2 0 0 0 0 0 0 30 22 28 21 32 23
10 1 1 0 2 0 0 0 50 21 101 14 89 39 29910 1 2 2 0 0 0 10 0 88 84 83 57 109 8710 2 1 0 0 0 0 0 0 28 65 23 46 49 3910 2 2 0 0 0 0 0 0 51 30 41 13 66 3120 1 1 0 0 0 0 0 0 110 128 90 67 130 13620 1 2 41 5 10 0 60 50 164 140 144 133 181 19720 2 1 0 0 0 0 0 0 50 66 34 04 66 7420 2 2 0 4 0 0 0 50 67 99 49 61 85 431
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 42 / 48
Concours de l’Eurovision (1)
Principe
Plus grand concours musical au monde (une quarantaine de pays)
Chaque pays membre soumet une chanson télédiffusée en direct. . .
. . . puis classe ses 10 chansons étrangères préférées
Données
Votes des n = 34 pays participant entre 2007 et 2012 (p = 6 ans)
Seulement 8 pays ont participé aux 6 finales :1: France, 2: Germany, 3: Greece, 4: Romania, 5: Russia, 6: Spain, 7: Ukraine, 8: UK
Uniquement les votes pour ces 8 pays sont considérés : mj = 8
57.7% des éléments de rangs sont absents !
Estimation du modèlePackage RankClust pour R.
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 43 / 48
Concours de l’Eurovision (2)
Choix du nombre de classes⇒ BIC
1 2 3 4 5 6
3000
3100
3200
3300
3400
Number of groups (K)
BIC
ISR
⇒ 5 classes
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 44 / 48
Concours de l’Eurovision (3)
k pk1 0.3532 0.0883 0.2354 0.1765 0.147
2007 2008 2009k µ1
k π1k µ2
k π2k µ3
k π3k
1 (3,7,5,2,4,6,8,1) 0.831 (3,5,7,6,2,4,8,1) 0.874 (3,1,8,2,4,7,6,5) 0.8452 (5,7,3,2,1,8,4,6) 0.915 (5,1,7,3,2,4,6,8) 0.889 (1,5,3,2,6,7,4,8) 0.8863 (5,7,3,4,6,2,8,1) 0.888 (7,5,3,6,4,8,1,2) 0.886 (5,7,8,1,4,3,2,6) 0.7474 (7,5,3,6,4,2,8,1) 0.921 (5,7,1,3,4,6,8,2) 0.852 (8,1,4,2,6,3,5,7) 0.8925 (7,5,4,6,3,2,8,1) 0.911 (5,1,7,4,3,2,8,6) 0.921 (5,1,8,3,7,6,2,4) 0.949
2010 2011 2012k µ4
k π4k µ5
k π5k µ6
k π6k
1 (3,7,2,1,6,4,5,8) 0.838 (3,6,7,1,2,4,8,5) 0.763 (6,5,2,4,3,8,7,1) 0.8632 (2,5,4,3,7,1,8,6) 0.875 (2,8,5,3,6,7,4,1) 0.967 (2,5,8,6,7,1,4,3) 0.8813 (4,3,2,1,5,7,6,8) 0.855 (7,8,1,2,5,4,3,6) 0.789 (5,4,7,2,6,8,3,1) 0.8254 (2,4,1,8,5,7,6,3) 0.972 (2,8,4,1,7,6,3,5) 0.889 (5,2,4,7,3,1,6,8) 0.9095 (2,7,5,6,4,1,3,8) 0.869 (5,7,3,8,2,4,6,1) 0.803 (5,7,3,1,4,8,2,6) 0.703
InteprétationClasse 5 : Ukraine et Russie (7 et 5) toujours bien classés (alliance ?)
Possible d’approfondir l’interprétation des classes par les paramètres. . .
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 45 / 48
Concours de l’Eurovision (4)
Révélation d’alliances géographiquesG1 (rouge) : pays d’Europe de l’ouest
G2 (bleu) : pays du nord
G3 (jaune) : pays méditérranéens
G4 (vert) : pays plutôt dispersés
G5 (gris) : pays d’Europe de l’est
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 46 / 48
Plan
1 Motivation
2 Le modèle ISR univarié
3 Applications I
4 Extension au clustering
5 Applications II
6 Perspectives
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 47 / 48
Le modèle ISR
Optimal lorsque m ≤ 10: minimise le nombre d’erreurs
ISR robuste à l’hyp. sur la nature du tri
Paramètres interprétables
Premier modèle de clustering de rang multivariés partiels
Package RankClust pour R
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 48 / 48
Le modèle ISR
Optimal lorsque m ≤ 10: minimise le nombre d’erreurs
ISR robuste à l’hyp. sur la nature du tri
Paramètres interprétables
Premier modèle de clustering de rang multivariés partiels
Package RankClust pour R
Nombreuses perspectives...Si les ordres de présentations étaient connus ?
Modèles particuliers (π1 = . . . = πK , πk non constant...)Appliquer la même démarche à d’autres types de données:
données ordinales : algorithme de recherche
Julien JACQUES (Lille 1) Classification de rangs à base de modèles 20/12/2012 48 / 48