Apprentissage Statistique - Laboratoire d'informatique de...

199
Apprentissage Statistique Master IAD - Université Paris 6 P. Gallinari [email protected] http://www-connex.lip6.fr/~gallinar/ Année 2013-2014 Partie 1

Transcript of Apprentissage Statistique - Laboratoire d'informatique de...

Page 1: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique

Master IAD - Université Paris 6P. Gallinari

[email protected]://www-connex.lip6.fr/~gallinar/

Année 2013-2014Partie 1

Page 2: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Introduction

Page 3: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 3

Apprentissage à partir d'exemples

Données z1, ..., zN Machine Fθ Critère C But extraire de l'information à partir des données, expliquer les

données information pertinente pour la tâche étudiée information pertinente pour d'autres données du même type

Utilisation inférence sur de nouvelles données

Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement

Page 4: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 4

Exemples - problèmes d'apprentissage

Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus

Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa

Challenge + Google car But : suivre route Critère : distance parcourue

Extraction d'information dans une base de texte Données : (texte + requête, (information pertinente)) But : extraire l'information correspondant à la requête Critère : Rappel / Précision

Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ?

Page 5: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 5

Modélisation d'utilisateur Données : (Traces utilisateur - contenu accédé) But : analyser/ catégoriser le comportement de l'utilisateur, Ciblage

clientèle, aide navigation, interfaces adaptatives Critère : ? Evaluation : ?

Plus difficile : Traduction Recherche d'information bases textes, images – vidéos Extraction d’information (e.g. web) Compréhension de texte / scène visuelle – extraction de sens Découverte dans data-warehouse .... Données : i.e. représenter l'information ?? But ?? Critère ??

Page 6: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 6

Données : diversité

Page 7: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 7

Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07

Terrabytes of Warehoused Data

25 49 94 100500

1,000

5,000

Amaz

on

Kore

a

Teleco

m

AT&T

Y! L

iveS

tor

Y! P

anam

a

War

ehou

se

Walm

art

Y! M

ain

war

ehou

se

GRAND CHALLENGE PROBLEMS OF DATA PROCESSING

TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET

Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE

Millions of Events Processed Per Day

50 120 2252,000

14,000

SABRE VISA NYSE Y! Panama Y! DataHighway

Page 8: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Petabytes (10^15)

Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street

Photos Telecoms: AT&T transfers about 30 petabytes of data

through its networks each day Physics: The experiments in the Large Hadron Collider

produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability

to store memories is equivalent to about 2.5 petabytes of binary data

Apprentissage Statistique - P. Gallinari 8

Page 9: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/

Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment

analysis Convert 350 billion annual meter readings to better predict power consumption

Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster

Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer

satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety

and number of sources grows.

Apprentissage Statistique - P. Gallinari 9

Page 10: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Gartner Hype Cycle: Big Data

Apprentissage Statistique - P. Gallinari 10

Page 11: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 11

Page 12: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 12

Données : ce que ca change

Nouveaux problèmes Recommandation CRM Analyse utilisateur, click through data, … …

Utilisation intensive des données Là ou on faisait “à la main” Traduction Scoring moteurs de recherche ….

Page 13: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 13

Données dans la pratique de l’apprentissage

Ensemble D’Apprentissage Mettre au point le modèle

De Test Evaluer les performances du modèle appris

De Validation Apprentissage de méta-paramètres

Page 14: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 14

Place de l’apprentissage

L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise

3 points de vue complémentaires Recherche : algorithmes et théorie Business : $$ Utilisateur : intégration, puissance et facilité d’utilisation

Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation

Page 15: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 15

Apprentissage supervisé

Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée) (x1, d1) , (x2, d2) , … , (xN, dN)

But Au moyen d'un algorithme d'apprentissage, découvrir

l’association d = Fθ (x) En utilisant les données d’appprentissage Qui offre une bonne généralisation

i.e. d = Fθ (x) si x hors de l'ensemble d'apprentissage mais généré par le même phénomène

Utilisation discrimination, identification, prévision, approximation …

Page 16: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 16

Apprentissage non supervisé

Ensemble d'apprentissage Uniquement des données d’entrée x1, x2,… , xN

But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les

données Utilisation estimation de densité, extraction de similarités

Page 17: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 17

Apprentissage semi supervisé

Ensemble d’apprentisage étiquetés – faible quantité ((x1, d1) , (x2, d2) , … , (xN, dN) non étiquetés – grande quantité xN+1, xN+2, … , xN+M

But Extraire l’information des exemples non étiquetés utile pour

l’étiquetage Apprendre conjointement à partir des deux ensembles

d’exemples Utilisation grandes masses de données où l’étiquetage est possible mais

trop coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes

instances d’un problème

Page 18: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 18

Apprentissage par Renforcement

Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative) (x1, d1) , (x2, d2) , … , (xN, dN) Les xi peuvent être des séquences (temporal credit

assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.

But Apprendre des actions optimales

Utilisation commande, décision séquentielle, recherche

opérationnelle, jeux, programmation dynamique, navigation, ...

Page 19: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 19

Domaines d’application industriels classiques – à partir de 1990

Défense : classification signaux, fusion donnée, commandevéhicules, suivi de cibles

Traitement de documents : compétitions ARPA, systèmes OCRspécialisés (fax, banque,..)

Finance - Banque - Assurance : détection fraude (systèmescommerciaux largement répandus), prévision, trading, gestionportefeuille

Prévision - Marketing : consommation (eau - electricité), prévisiontrafic, séries financières

Industrie pétrolière : analyse de données sismiques (traces,detection de pics), commande (raffineries).

Télécommunications : diagnostic, routage, traitement signal,contrôle d'admission (ATM), modélisation trafic

Capteurs : capteurs gaz, nez électronique, rétines artificielles Industrie du transport : modélisation et commande VLSI - circuits dédiés : accélérateurs, chips dédiés RN

Page 20: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 20

Domaines d’application en Data Mining

Web : recherche d'information, filtrage d'information Text mining catégorisation, filtrage extraction d'information textuelle : e.g. recherche BD

journaux, bibliothèques virtuelles, veille technologique, Question Answering , ...

Multi-média : image + son, indexation d'informations e.g. BD vidéo Data mining : BD entreprise (Data-wharehouse), infos produits, infos

clients, ciblage clientèle ... Analyse comportement e.g. telecoms : serveurs web, accès services

commerciaux, internet - intranet, aide accès information Web2.0 : les communautés Mobiles : personnalisation, accès information Biologie - analyse de séquences, de structures Automobile ...

Page 21: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 21

Challenges de l’apprentissage

Passage à l’échelle Quantité de données, taille données

Dynamicité Flux

Distribué Complexité des données et des problèmes Données structurées standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !!

Nouveaux problèmes, nouveaux usages

Page 22: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 22

Un exemple : Perceptron (1960 Rosenblatt)

Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil :

F(x) = sgn [ i wi xi ]Classe 1 = x : F[ x ] = 1Classe 2 = x : F[ x ] = -1

Rétine Cellules d’association x Cellule de décision F(x)

w

Page 23: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 23

L'algorithme du perceptron (2 classes)

Sortie désirée d = ± 1

Décision :

C'est un algorithme de correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable

n

i iixwxF1

)sgn()(

Initialiser W (0)Répeter (t)

Pour i = 1 à NSi di(w(t).xi) 0 alors w(t+1) = w(t) + di.xi

Jusqu'à convergence

Page 24: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 24

Fonction discriminante linéaire

Surface de décision: hyperplan F(x) = 0 Quelques propriétés w est le vecteur normal de l'hyperplan, il défini son

orientation distance de x à H : r = F(x) / || w || w0 = 0 : H passe par l'origine

Vecteur forme étendu (notation par défaut) x' = (1, x) w' = (w0, w) Fonction de décision : F(x') = w ’.x'

0

n

1i ii0 wxw w w.x F(x)

Page 25: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 25

Géométrie de la discrimination linéaire

W

F(x) < 0

F(x) > 0wxF )(

La partie de l'image avec l'ID de relation rId9 n'a pas été trouvé dans le fichier.

F(x) = 0

Page 26: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 26

Le perceptron effectue une descente de gradient

Fonction de coût et gradient

Demo http://lcn.epfl.ch/tutorial/english/

CgradwwwC

wC

Cgrad

dxwC

dw.xC

w

n

w

dxi

dx

...

...

.

.

1

classés mal ),(

classés mal ),(

Page 27: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 27

Cas multiclasses

p classes = p " problèmes 2 classes " : Ci contre le reste Règle de décision : x Ci si Fi(x) > 0 et Fj(x) < 0 pour j

i pb : régions indéfinies

Approche générale construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces.

Régions convexes : limitation des classifieurs linéaires

Page 28: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 28

Propriétés Probabilité de séparabilité linéaire (Cover 1965)

Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie) L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de

dimension n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m

formes. P(m,n) : probabilité qu'une dichotomie soit linéairement

séparable.

n im

m

nm siC

nm si nmL

0 1

2),(

P m n

m n

C m nmmi

n( , )

1

211

0

si

si

0 2 4

n1

10

m/n+1

P(m,n)

0.5

1

Page 29: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 29

Propriétés Théorème de convergence du perceptron (Novikov 1962)

Si

les données peuvent être séparées avec une marge , i.e.

l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois

Alors après au plus corrections, l'algorithme converge

RxxR ,/

).(minsup wxd iiiW

22

R

Page 30: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 30

Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964)

Si les données sont séparables elles sont en nombre infini règle arrêt : après la kème correction, lesdonnées présentées sont reconnues correctement

alors le perceptron converge enétapes avec une probabilité , l'erreur de test est <

)1ln(lnln21

kmk

2

2

)1ln(lnln41

R

Rl

1

Page 31: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 31

Overtraining / généralisation en regression

Exemple (Bishop 06)

Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation

Page 32: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 32

Algorithmes d'apprentissage numérique

Données statiques Réseaux de neurones Arbres décision / régression Méthodes issues de la statistique : estimation de densité paramétrique,

non paramétrique Décision k-ppv Fonctions noyau, machines à vecteurs supports…

Données séquentielles AR, ARMA, ARMAX, etc Réseaux de neurones récurrents Chaines de Markov, Modèles de Markov Cachés, champs conditionnels

de Markov Données structurées recherche actuelle : modèles relationnels

Page 33: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Formalisation du problème de l'apprentissage

Page 34: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 34

Formalisme

Données : vecteurs aléatoires (z), p(z)Machine :

θ : paramètres du modèle

Risque théorique :

Solution optimale :

FF

z

z dzzpzczcER )()()(

RF minarg*

Page 35: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 35

Apprentissage à partir d'exemples

Données : Risque empirique :

Principes inductifs

Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique La fonction qui minimise le risque théorique est

approximée par qui optimise le risque empirique Est-ce un bon principe ? Généralisation ?

NiizD ..1

N

i

i FzcN

C1

),(1

*F

NF

Page 36: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 36

Autres principes inductifs

Maximum de vraisemblance : Equivalent a :

Cadre Bayesien : p(modèle/Données) p(Données/Modèle)P(Modèle)

P(W) : loi à priori sur le modèle p(D/W) : vraisemblance p(W/D) : probabilité a posteriori Maximum a posteriori :

!! nécessite une hypothèse a priori sur le modèle

)()/()/( pDpDp

)/( maxarg DpWMAP

)/( maxarg

DpWMV

)/(log maxarg

DpWMV

Page 37: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 37

Problèmes d'apprentissage : exemples

Discrimination z = (x, d) ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs

Régression z = (x, d) un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques

Estimation de densité z = x ensemble de fonctions réelles R : espérance (vraisemblance) C : somme

1,0d F

sinon 1

)( si 0),,(

xFdFdxc

Rd F

2)(),,( xFdFdxc

F)(ln),( xpFxc

Page 38: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage supervisé

Modèles discriminantsRéseaux de neuronesMachines à noyaux

Modèles génératifs

Page 39: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage supervisé

Réseaux de neurones

Page 40: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 40

Description informelle

Caractéristiques

Eléments simples interconnectés Echange d'information au moyen des connexions Calcul distribué et coopératif

Page 41: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 41

Domaine pluridisciplinaire

Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique

Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory,

apprentissage...)

Page 42: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 42

Exemple : réseau linéaire

Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )

Apprentissage Dynamique Caractéristiques : Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique

Visible units Hidden units

SIGNAL DECISIONW

W

WW

W

WW

WW

1

2

3

4

5

6

78

9

Visible units

Page 43: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 43

Fondements biologiques

Le neurone Soma Arbre des dendrites Axone Flot d'information axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses

Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise

vers le soma. Comportement du neurone + mémoire ?

Page 44: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 44

Neurones et Types de neurones

Page 45: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 45

Composants du neurone

Page 46: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 46

Historique rapide

43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities"

40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries anti-

aeriennes) Boucle de rétro-action

Page 47: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 47

48 - 50 Von Neuman : réseaux d'automates 49 Hebb : apprentissage dans les réseaux d'automates 55 - 60 Rosenblatt : Perceptron

Widrow - Hoff : Adaline

70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ...

2006 - .. Deep neural networks, restricted Boltzmann

machines,…

Page 48: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 48

Optimisation dans les RNAlgorithmes de gradient Principe : la direction de descente D, le pas de gradient sont

déterminés à partir d'informations locales sur la fonction de coût C(W), i.e. approximations au 1er ou 2nd ordre.

Exemples :

tttt DWW 1

Initialiser W0

ItérerCritère d'arrêt

Plus grande pente

Initialiser W0

Itérer Choisir un exemple xt

Critère d'arrêt

Gradient adaptatif

(w(t))()1( Ctwtw

))(()()1( twctwtw

Page 49: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 49

Explication :

Approximation quadratique locale de la fonction à optimiser :

H : Hessien de la fonction de coût Méthode de Newton : En pratique : 1er ordre ou approximations du 2nd ordre Exemple 2nd ordre :

Méthodes de quasi-Newton : approximation de H-1 itérativement. Forme générale :

H' : approximation de H-1 sans calculer les dérivées secondes : minimisation suivant la direction

Méthodes générales Convergence vers un optimum local

)()()(

)()(21)()()()(

11

1111

tttt

ttT

tttT

tttt

WWHWQWQ

WWHWWWQWWWQWQ

0)( 1 tWQ

)(11 ttt WQHWW

))(),(,,,'(''

)('

111

1

ttttttt

ttttWQWQWWHFHH

WQHWW

)(' tt WQH

Page 50: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 50

Exemple : FW fonction linéaire réelle C erreur quadratique

nj

jj xwxwxF..1

.)(

N

i

ii dxFN

C1

2))((1

nwC

wC

wC

...)(1

i nk

ij

iikk

i nk

iikk

jj

xdxwN

dxwwNw

C..1..1

2 ))(1)(1

Page 51: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 51

Le neurone

C'est un automate caractérisé par des signaux d'entrée x1 , … , xn

une fonction de transition y = F ( x1 , … , xn )

x2

x1

xn

y = F(x)

Page 52: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 52

Différent types de neurones

Le neurone distanceA = || x - w||2

g : Id, F(x) = e-(A/k)

Le neurone produit scalaireA = k wk xk

avec différentes fonctions g: Id,seuil,sigmoïde :th :

A

a

g(x) g(x)

kAexF

11)(

kAkA

kAkA

eeeexF

)(

x2

x1

xn

y = F(x)

Page 53: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 53

Adaline (Adaptive Linear Element)

Architecture

Risque empirique : moindres carrésC(W) = [ 1 / N] . k [ w. xk - dk ] 2

x2

x1

xn

y = F(x)

Page 54: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 54

Algorithme : Widrow-Hoff - gradient stochastique

xt est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local

A comparer avec le gradient classique qui calcule le gradient sur le risque empirique

Initialiser W(0)ItererChoisir aléatoirement un exemple (xt,dt)w(t+1) = w(t) - (t) . [ w(t) xt - dt ] xt

Critère d'arrêt

Initialiser W(0)Itererw(t+1) = w(t) - (t) . k [ w(t) xk - dk ] xk

Critère d'arrêt

Page 55: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 55

Apprentissage hors ligne vs apprentissage adaptatif

ck erreur sur la forme k de l'ensemble d'apprentissage

Gradient sur C Gradient adaptatif sur c

Q qk

W W

k

kcN

C 1

Page 56: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 56

Extension multidimensionnelle Données : x1,…, xN n, d1,…, dN p, y1,…, yN p

Modèle : dk = W xk k 1,…,N i.e. D = W X

Fonction de coûtC(W) = || D - W X ||2

Algorithme: Widrow-Hoff W(t+1) = W(t) - (t)[ W x - d].x

Page 57: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 57

Calcul de l'association optimale par l'algèbre linéaire

L'équation D = W X a une solution ssi D = D X+ X où X+ est la matrice pseudo-inverse de X

La solution générale est donnée par:

W = D X+ + Z ( I - X X+) (*)

où Z est une matrice arbitraire de même dimension que W

Quand D = W X n'a pas de solution exacte (*) est solution de MinW ||D - W X||2 i.e. (*) est la solution optimale de MinW ||D - W X||2

Page 58: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 58

Modèles flexibles

Perceptron Multicouches Réseau avec: des couches externes: entrée et sortie des couches internes ou cachées

Les entrées sont présentées sur lapremière couche et propagées decouche en couche:xi = g [Ai ] avec Ai = j wij xj

La sortie calculée sur la dernièrecouche: yk = F(xk)est ensuite comparée à la sortie désirée dk

y

x

Input

Output

hidden layers

d

Page 59: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 59

Fonction de coût : C(W) = 1/N k = 1..N ck, avec ck=||dk - yk ||2 = j=1..p (dk

j – ykj )2

Algorithme : Widrow-Hoff wij(t) = wij(t-1) - (t) ct / wij(t)

g prend généralement une des deux formes suivantes Sigmoïde

tangente hyperbolique

j jj xwwA 0

Kvevg

1

1)(

KvKv

KvKv

ee

eevg

)(

kk jkjj ijiii xwwgwwgxGy 00)(

Page 60: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 60

Algorithme gradient adaptatif PMC

Initialiser W(0)Itérer•présenter un exemple xt

• propager les états en avant de couche en couche :xi = g( Ai)

• comparer: sortie calculée yt

sortie désirée dt

• calculer l'erreur sur les cellules de sortie: eti = ( yt

i - dti)

• rétro-propager l'erreur de la couche de sortie vers la couched'entrée:

si i est une cellule de sortie : zi = 2 . eti. g ' (Ai)

sinon: zi =(h whi (t) zh ) . g ' (Ai)où h indexe les cellules vers lesquelles i envoie sa sortie

• modifier les poids en arrière: wij (t) = - (t) . zi . xj

•exemple suivant

Page 61: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 61

Contrôle de la complexité

En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité Tout bon logiciel d’apprentissage incorpore des techniques de contrôle

de la complexité Cf partie théorique du cours

Nombreuses méthodes Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés

Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,

etc) Apprentissage bayesien Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du

modèle Méthodes d’ensembles Boosting, bagging, etc

….

Page 62: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 62

Regularisation

Hadamard Un problème est bien posé si Il existe une solution Elle est unique La solution est stable

Exemple de problème mal posé (Goutte 1997)

Tikhonov Propose des méthodes pour transformer un problème mal posé en

problème bien posé

Page 63: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 63

Régularisation empirique pour les réseaux de neurones Régularisation : Contrôler la variance de la solution en contraignant la

fonctionnelle Optimiser C = C1 + C2(F) C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids) Exemples : forcer les poids inutiles à des valeurs faibles

–> biaise la solution en diminuant les poids utiles

–> 2 groupes de poids autour de c

—> cellules cachées + poids

Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres"

i i

i

cwcwC/1

/2

22

2

i i

i

i i

i

cwcw

chchC

/1/

/1/

2

22

2

22

2

i

iwC 22

Page 64: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 64

Autres idées pour le problème de la généralisation dans les réseaux de neurones

Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau.

Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu

1994 ; Bishop 1994) Réseaux à convolution

Page 65: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 65

Exemple (Cibas et al, 95, 96)

Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde :

3 classes C1, C2, C3 engendrées respectivement par :

u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation

1 5 9 13 17 21

6 6 6

h 3

h 2h 1

26)(1

10)(1

2)(1

32

31

21

huuhx

huuhx

huuhx

Page 66: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 66

Evolution des performances pendant l'apprentissage

Figure 1 a (left), b (right): evolution of the performances (mean square error) during training for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hidden layer.

0

5

10

15

35

60

5

10

15

3560

Page 67: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 67

Effet de la régularisation

Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim)

h=60-WD

h=15-estim

h=60-estimh=15-ord

h=60-ord

h=60-ord

h=15-ord

h=15-estimh=60-estimh=60-WD

Page 68: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 68

Fonctions à Base Radiale

Réseau à deux couches Notations wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée

Risque : moindres carrés

Couche de sortie

g = IdCouche intermédiaire

y

x

j jj xwwA 0

2wxA

2)( A

eAg

2

.0)( jj ijiii wxgwwxGy

Page 69: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 69

La fonction sigmoïde

Distribution de la famille exponentielle :

, : paramètres de la loi, ( paramètre de position , paramètre de dispersion).

Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ...

Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. :

Alors

)),()())/(((),,( xcabxxp T exp

)),()())/((()/( xcabxCxp iT

ii exp

)(1

1)/(bxwi T

exCP

Page 70: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 70

Capacités d'approximation des PMC

Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989)) Théorème 1: Soit f une fonction saturante continue, alors l'espace

des fonctions de la forme est dense dans l’espace des fonctions continues sur le cube unité C(I). i.e. h C(I)et > 0, g / < sur I.

Théorème 2: Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors > 0, il existe une fonction de la forme et un ensemble D I tel que (D) = 1 - et < sur D.

(Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute

mesure de probabilité m sur Rn , l'espace des fonctions de la forme est uniformément dense sur les

compacts de C(Rn).

)()( .1 xwfvxg tj

nj jc

)()( xhxg

)()( .1 xwfvxg tj

nj jc

)()( xFxg

)()( .1 xwfvxg tj

nj jc

Page 71: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 71

Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est

intégrable, alors l'espace des fonctions de la forme :

est dense dans L1(Rn) ssi .

Nj

j

jj

wxfvxg 1

. )(.)(

nR

dxxf 0)(

Page 72: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 72

Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov

Toute fonction h de C(I) peut s'écrire sous la forme

où les fonctions g et f sont des fonctions continues d'une variable.

Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant

m = 2n + 1n/(m-n) + v < / ||h||h(1/m) < v(m - n)/(2m - 3n)v > 0

h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant :

f(d)= sup|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p.

))((),...,( 121 11

nq

np ppqqn xfgxxh

Page 73: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 73

Interprétation probabiliste des sorties

Risque théorique R = E ( [ d - h(x) ] 2) Le min de R est obtenu pour h*(x) = E[d | x ]

C(W) = E ( [ d - F(x,W) ]2 )= E ( [ d - h*(x) ]2 ) + E ( [ h*(x) - F(x,W) ] 2)

h*(x) = E[d | x ] est bien la solution optimale

Dans l’espace des hypothèses, W* / R(W*) = MinW Rminimise simultanément : E ( [ d - F(x,W) ]2 ) LMSE E ( [ h*(x) - F(x,W) ]2 ) meilleure approximation LMS

de E[d | x ]

Page 74: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 74

Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i hi*= P( Ci/ x ) i.e. F( . , W*) meilleure approximation LMS de la fonction

discriminante de Bayes (solution optimale). Sorties binaires hi*= P( di = 1| x )

Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i Décision : sortie la plus faible.

L’importance de la précision sur les sorties : dépend de l'utilisation (classification OU estimation de probabilité conditionnelle).

)/(]/[ 1 xjPxdE mj iji

Page 75: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 75

Fonctions de coût

Différentes fonctions de coût sont utilisées, suivant les problèmes, ou les modèles

LMSE Regression Souvent utilisé en

classification Classification, Hinge,

logistique Classification Exemples y R, d -1, 1

Hinge, logistique sont ici des approximations de l’erreur de classification

))exp(1ln(),(

1),(

(marge) .

log

2

yddyc

yddyc(y-d)(y,d)c

dyz

istique

hinge

MSE

Figure from Bishop 2006

Page 76: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage supervisé

Machines à noyaux

Page 77: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 77

Introduction

Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension

- éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des

calculs "efficaces" Exemples :

Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre Vapnik)

Processus Gaussien (généralisent : régression logistique, cadre Bayesien)

Page 78: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 78

Représentation DualeExemple introductif : le perceptron

Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1

i : mesure de la difficulté àclassifier iFonction de décision :

G = (xi.xj)i,j = 1..N : Matrice de Gram

Perceptron Dual = 0Répeter (t)Pour i = 1 à NSi

alors i = i (t) + 1Jusqu'à convergence

Fonction de décision :

W(0) = 0

Perceptron PrimalW(0) = 0Répeter (t)Pour i = 1 à N

Si di(W(t).xi) 0alors W(t+1) = W(t) + di.xi

Jusqu'à convergence

0)(1

N

j

ijjji xxdd

n

iii xwxF

1)()( sgn

N

i

ixidi

W1

N

ixixid

ixF

1).()( sgn

Page 79: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 79

Représentation Duale

La plupart des machines à apprentissage linéaires ont une représentation duale Exemples Adaline, regression, regression ridge, etc

L’information sur les données est entièrement fournie par la matrice de Gram : G = (xi.xj) i,j = 1..N, qui joue un rôle central

La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage

Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur X2, par

K(x,z) = < Φ(x), Φ(z)>où Φ est une fonction de X dans un espace muni d’un produit

scalaire

Page 80: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 80

Produit Scalaire et Noyaux

Projection non linéaire dans un espace de (éventuellement très) grande dimension H

Machine linéaire dans H - Primal :

Machine linéaire dans H - Dual :

Calculer les produits scalaires dans l'espace initial : choisir F /

avec K : fonction noyau (i.e. symétrique)

avec : npRR pn

bxwxF ipi

i

)()(1..

bxxdxFxdWNi

ii

i

Ni

ii

i

)()()( )(1..1..

)',()'().( xxKxx

bxxKdxFNi

ii

i 1..

),()(

Page 81: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 81

Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de

H : les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir

d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K.

Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples ACP, Analyse discriminante, regression, etc

Page 82: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 82

Caractérisation des noyaux

Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = x1,…, xN, K(x,x') une fonction symétrique sur X,

K est une fonction noyau ssi la matrice est positive semi-définie (valeurs propres 0)

Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement

ssi est fini

Nji

ji xxK 1,)),((K

1)'(.)()',(

iii xxxxK

dxxgg 2)(/

0')'()()',( dxdxxgxgxxK

Page 83: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 83

Caractérisation des noyauxEspace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine

fini peut s’écrire sous la forme d’un produit scalaire :

avec Φ : x Φ(x) F espace de Hilbert ssi c’est une fonction symétrique et toutes les matrices formées par la

restriction de K à un échantillon fini sur X sont semi-définies positives).

Résultat à la base de la caractérisation effective des fonctions noyaux Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer

)(),(),( zxzxK

Page 84: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 84

L’espace de Hilbert associé à K :

Le produit scalaire défini sur cet espace :

l

iiiii liRXxNlxKF

1..1,,,/,.)(

l

iij

n

jii

l

ijiji

n

j

n

jjj

l

iii

zfxgzxKgf

xKgxKf

1 11 1

11

)()(),( ,

,.)((.) ,,.)((.)Soient

Page 85: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Noyau auto-reproduisant

Si on prend g(.) = K(x,.), alors

)(),( ,.)(,1

xfxxKxKfl

iii

Page 86: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 86

Exemples de noyaux

2 d de polynomes des ensemble ss i.e.

),)2(,).(()(/ avec )().(),(

).(),(

21n

: 2 d de monomes les tousi.e.

).()(/)( avec )().(),(

).)(.(.),(

.),(

,1,1,,

2

,1,,

1,

2

1

2

ccxxxx(x)zxzxK

czxzxK

xxxxzxzxK

zzxxzxzxK

zxzxK

niinjijiji

njijiji

n

jijiji

n

iii

Page 87: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 87

Exemples de noyaux

).(

gaussien noyau exp

d ordred' polynome )1.(

),(2

cxvxSigmoïde

xx

xx

xxK

i

i

di

i

Page 88: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 88

Construction des noyaux en pratique

Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles

Pour construire des noyaux, on procède par combinaison à partir de noyaux connus

Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) …..

Page 89: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 89

Machines à vecteurs support

Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression,

densité Idées Projeter -non linéairement- les données dans un espace de

"très" grande taille H Faire une séparation linéaire de bonne qualité dans cet

espace Raisonner dans H, mais résoudre le problème

d'optimisation dans l'espace de départ (noyaux)

Page 90: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 90

Notion de marge

WxF )(

W

Wb

H : F(x) = W.x + b = 0

Marge géométrique pour xi :

Marge de W pr à ens. D :Mini(M(xi))

Hyperplan de marge maximale :

MaxW(Mini(M(xi)))

)()(Wbx

WWdxM iii

Page 91: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 91

Marge géométrique vs marge fonctionnelle

Marge géométrique di.F(xi)/||w||

Marge fonctionnelle di.F(xi)

Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle.

Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique.

Page 92: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 92

Prémisses : Séparation linéaire à hyperplan optimal (1974) Hyp : D linéairement séparable

Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e. di.F(xi) 1 , i

avec une marge maximale M =

i.e. : Problème Primal :

1 avec , 1.. i

Niii ddxD

wwxFd ii

i

1)(.min

1)(...

Minimiser 2

ii xFdCS

W

Page 93: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 93

Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1

Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support

F* dépend uniquement du produit scalaire xi.x

support support

i i .x)(* x*i i

ii

ii xdxFdw

Marge

Vecteurs Supports

Page 94: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 94

Apprentissage :

On résoud le problème d'optimisation dit dual :

Problème minimisation quadratique sous contraintes

0et 0.

.)( Maximiser

ii

,

ii

ji

jjji

ii

dCS

xxddL ii

Page 95: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 95

Machines à vecteurs supports

Faire une séparation à marge max. dans un espace défini par une fonction noyau.

Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant par .xxi ),( xxK i

bxxKdxF

xxKxx

bxxdxFxdW

RR

SVx

ii

i

SVx SVx

ii

iii

i

pn

i

i i

..

.. ..

),()(

)',()'().(

)()()( )(

:

Page 96: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 96

Apprentissage : On résoud le problème d'optimisation dual :

Problème minimisation quadratique sous contraintes dans l ’espace de départ

Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points

support. Seuls les produits scalaires K apparaissent, et pas les .

0et 0.

),()( Maximiser

ii

,

ii

ji

jijiji

ii

dCS

xxKddL

Page 97: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 97

Propriétés de généralisation -exemples

Th 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ

Th 2 Si l'hyperplan optimal passe par l'origine et a pour marge

Alors

Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out).

1ageapprentissexemples#supports]vecteurs[#))](([

ExerreurPE

qxNiq i ,1../

N

][))](([

2

2

qExerreurPE

Page 98: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 98

Cas non linéairement séparable

Marges molles L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique autoriser des erreurs, i.e. prendre pour contraintes :

ηi = 0, xi est correctement classifié et est du bon coté de la marge 0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge ηi > 1, xi est mal classé ηi : slack variable

0

1))(.(

i

iii bxWd

Page 99: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 99

But Maximiser la marge tout en pénalisant les points qui sont mal

classés Formalisation Plusieurs expressions possibles du problème L’une des plus courantes :

C fixé par validation croisée joue le rôle de paramètre de régularisation

NiNibxwd

CS

CwwMin

ii

N

i

..1,0 ..1,1).(

..

marge) lamax (i.e. ).(

i

i

1

i

Page 100: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 100

Marges molles – formulation duale

0et 0.

),()( Maximiser

ii

,

ii

ji

jijiji

ii

dCCS

xxKddL

Page 101: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 101

Algorithmes d’optimisation

Algorithmes d’optimisation standard pour la programmation quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO)

Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to

the class CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten

Joachims. SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem.

Algorithm (hinge loss) Training Time Primal cost Test Error

SVMLight 23642 secs 0.2275 6.02%

SVMPerf 66 secs 0.2278 6.03%

Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02%

Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01%

Page 102: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 102

Annexe : OptimisationProblèmes sous contraintes égalités, inégalités

Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R

On considère le problème primal suivant (Pb. 0) :

mjwhkiwg

RwwfMin

j

i

n

..1,0)(..1,0)(

sContrainte Sous )),((

Page 103: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 103

Optimisation non contrainte

Fermat Une C.N. pour que w* soit un min. de f(w) est

Si f est convexe c’est une Condition Suffisante

F est convexe si ∀ ∈ 0,1 , 1 1

0*)(

wwf

Page 104: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 104

OptimisationLagrangien On considère le (Pb. 1) :

On définit le Lagrangien L pour (Pb. 1) par

les βi sont les coefficients de Lagrange

mjwhCS

RwwfMin

j

n

..1,0)( ..

)),((

m

ijj whwfwL

1)()(),(

Page 105: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 105

OptimisationTh. Lagrange

Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point

Si L(w, *) est une fonction convexe de w, c’est une C.S.

0*)*,(

0*)*,(

wLw

wL

Page 106: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

OptimisationLagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) :

m

jjj

k

iii whwgwfwL

11

)()()(),(

Page 107: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 107

OptimisationTh. Kuhn et Tucker

On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hjaffines (hi = A.w – b)

1 CNS pour que w* soit un optimum est qu’il existe α* et β* /

kikiwg

kiwg

wLw

wL

i

i

ii

..1,0*..1,0*)(

..1,0*)(*

0*)*,*,(

0*)*,*,(

Rq :

Soit une contrainte est active (αi* ≠ 0) et gi(w*) = 0), w* est un point frontière de la région admissible

Soit elle est inactive ((αi* = 0) et w* est dans la région admissible

Page 108: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 108

Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale

suivante :

Rq : est une fonction de , uniquement

0 S.C.

)),,(inf ( Maximiser ,

wLw

),,(inf wLw

Page 109: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 109

SVM – formulations primale et duale

SVM Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = (xi ,di)i = 1..N linéairement séparables Formulation similaire pour le cas non linéairement séparable

Pb. Primal

Lagrangien primal

Lagrangien dual

Nibxwd

CSwwMin

ii ..1,1).(

.. marge) lamax (i.e. ).(

0

)1).((.21),,(

1

i

N

i

iii bxwdwwbwL

N

i

jiji

jiN

ii xxddbwL

11).(

21),,(

Page 110: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 110

SVM – formulations primale et duale

Pb. Dual

Fonction de décision

Ni

d

CS

xxddbwL

i

N

ii

i

N

i

jiji

jiN

ii

..1,0

0

..

).(21),,(

1

11

VSi

ii

i bxxdxF.

*).(**)*,,(

Page 111: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage non supervisé

Algorithme EM et mélange de densitésProbabilistic Latent Semantic AnalysisLatent Dirichlet AllocationSpectral clusteringNon Negative Matrix Factorization

Page 112: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 112

Applications

analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau)

trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc

réduction de la quantité d'information e.g. quantification

découverte de régularités sur les données ou de similarités.

Page 113: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage non supervisé

Algorithme Espérance Maximisation (EM)Application aux mélanges de densités

Page 114: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 114

Algorithme E. M. (Espérance Maximisation)

On dispose de données D = xii = 1..N On n’a pas d’étiquette di

d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données

On veut trouver les paramètres du modèle qui expliquent au mieux lagénération des données

On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus

fréquent P(D| W) = P(x1, …, xN| W)

D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la

vraisemblance

Page 115: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 115

Exemple

On recueille des données sur deux populations e.g. taille d’individus D = xii = 1..N

Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2

Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = (xi, dii = 1..N la solution est simple On a deux population séparées (2 classes) C1, C2

La maximisation de la vraisemblance donne l’estimateur classique de la moyenne

Difficulté : les di sont inconnus

),(),,( 22

21 IdNIdN

ji Cx

i

jj x

C1

Page 116: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Cas où l’appartenance est connue

Vraisemblance ∏ |∈ ∏ |∈

En pratique on maximise la log-vraisemblance log ∑ ∑ ∈∈

Cas des gaussiennes

exp

0 ⇔| |

∑ ∈

Apprentissage Statistique - P. Gallinari 116

Page 117: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Cas où la probabilité d’appartenance est connue On connait | ,k 1,2

Log-vraisemblance log ∑ log

Cas des gaussiennes

0 ⇔∑ .

∑ |

Rq : si on ne connait les | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble.

Apprentissage Statistique - P. Gallinari 117

Page 118: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 118

Variables cachées (ou latentes)

On postule l’existence de variables cachées h responsables de la

génération des données À chaque xi, on associe sa classe cachée hi

H = hiI = 1..N

l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h)

P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W.

Remarque Les variables h sont inconnues et sont considérées comme

des variables aléatoires P(D, H| W) sera elle même une variable aléatoire

Page 119: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 119

Algorithme EM

On veut maximiser P(D/W)à partir de l'observation des données visibles Problème la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires

(algorithme) Solution : on maximise de façon itérative une fonction auxiliaire Q L’espérance de la vraisemblance des données complètes connaissant le modèle

courant L’espérance est calculée par rapport à la distribution des variables cachées h Le modèle courant à l’étape t est noté W(t)

Remarque : dans cette expression D et W(t) sont des constantes h est une variable aléatoire de densité p(h|x, W(t)) W est les paramètres du modèle que l’on veut estimer

H

ttt WHDpWDHpWDWHDpEWWQ )/,(log),/(,)//,(log)/( )()()(

Page 120: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 120

Algorithme EM

L’algorithme converge vers un maximum local de la fonction Q et de P(D/W)

Initialiser W = W(0)

1. Etape E : EspéranceOn calculeOn en déduitL'espérance est calculée par rapport à la distribution de H

2. Etape M : MaximisationEtant donnée la distribution courante sur H, trouver les paramètres quimaximisent Q

),/( )(tWDHp)/( )(tWWQ

)(1)( ,)//,(logmaxarg t

W

t WDWHDpEW

Page 121: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 121

Remarques Lors de l'étape E, on estime la distribution de H, à

partir des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, on utilise

la fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par :

L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les

données les HMM ...

),/( )(tWDHp

)/( WDp

)/()/()/()/( tttt WDpWDpWWQWWQ

Page 122: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 122

Exemple

Mélange de densités - Cas de deux classe gaussiennes, connu But (MV) : trouver On considère , les hi sont les données

cachées Algorithme Initialisation itérer Etape E

Etape M

NiixD ..1)( ),/(maxarg, 2121 Dp

Niii hxHD ..1),(

calculer i = 1..N, j = 1,2)/( ii xjhp )],,/([),,,,( 212121

tttttt HDPEQ

Trouver les μ1, μ2 qui maximisent Qcalculer

Ni

Nitj i

ii

xjhp

xxjhp

..1

..1)1(

)/(

)/(

(0)2 ,)0(

1

Page 123: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 123

Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour

chaque point

Etape M : chaque centre est défini comme le centre de toutes lesdonnées, chacune étant pondérée par cette responsabilité

Cas limite : = 0 : algorithme des k-moyennes

k

iii

iiiii

khxpkhpjhxpjhpxjhp

)/()()/()()/(

Page 124: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 124

Mélange de densités – cas gaussien

On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles

Paramètres Coefficients du mélange p(l| x), moyennes et écarts types

k

llxplpxp

1)/()()( 2

2

2)(

2/12 )2(1)/( l

lx

l

elxp

kllllpW

1..,),(

Page 125: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 125

Vraisemblance

Vraisemblance complète variables cachées : hi classe de xi

N

i

k

l

i WlxpWlpWDp1 1

),/()/()/(

)),/()/((

)),/()/(()/,(

1 1

1

N

i

ik

l lh

N

i

iii

WlxpWlp

WhxpWhpWHDp

i log

loglog

Page 126: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 126

Mélange de densité – Etapes E et M

Etape E

Etape M

),/()/(log),/(

),/()/,(log...)],(log[)/(

1 1

)(

1 1 1

)(,/

)(

1)(

WlxpWlpWxlp

WxhpWHDpWHDpEWWQ

iN

i

k

l

ti

k

h

k

h

N

i

tiiWXH

t

Nt

kl

tti

ttit

i Wlp(hWlhxp

Wjp(hWjhxpWxjhp

1..

)()(

)()()(

)).,/(

)),/(),/(

))1)/(((1)/( contrainte sous

)(

11

k

l

k

l

WlpQMinWlp

QMin

Page 127: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 127

Mélange de densités – Reestimation dans l’étape M

i

titi

tii

tj

iti

tj

i

tii

iti

tj

WxjpN

jp

Wxjp

xWxjp

n

Wxjp

xWxjp

),/(1)(

),/(

),/(1

),/(

),/(

)()1(

)(

2)1()(2)1(

)(

)(

)1(

Page 128: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage non supervisé

Mélange de densitésApprentissage par échantillonnage de Gibbs

Page 129: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 129

Les méthodes MCMCMarkov Chain Monte CarloMéthodes de calcul intensif basées sur la simulation

pour Echantillonnage de variables aléatoires x(t)t=1..T qui suivent une certaine distribution p(x)

Calcul de l’espérance de fonctions suivant cette distribution

E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t)) e.g. moyenne, marginales, …

Maximisation de fonctions Argmaxxp(x)

Page 130: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 130

Echantillonneur de Gibbs

On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)

Algorithme Initialiser xi, i = 1..n Pour t = 1 …T faire

)(~nner Echantillo

........

)(~nner Echantillo

1

111

1

tnn

tn

tt

xxpx

xxpx

Page 131: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 131

Propriétés Sous certaines conditions de régularité, la procédure

converge vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi

jointe p(x) On n’a pas besoin de connaitre la forme analytique des

p(xi| x - i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés

Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide”

Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA)

Page 132: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 132

Cas du mélange de deux lois gaussiennes

Modèle

On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi)

Les paramètres à estimer sont :

On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et

les variances σ sont fixées, on estime juste les moyennes μ1 et μ2

Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t),

μ2(t))

2

1)/()()(

llxplpxp

2..1,),( llllpW

Page 133: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 133

Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes

2,1),,ˆ(~générer 2.

2,1,)1(

).1(ˆ

calculer

2,1,),(),(

),()

selon 1,0générer 1.

1Pour 1...T Répéter t

, initiales valeursdesChoisir

j(t)j

1

)(

1

)(

j

2)1(

2)1(

21)1(

1)1(

1

)1()1(

)(

)0(2

)0(1

jN

jh

xh

jxppxpp

xppjp(h

h

...N i

j

N

i

ti

N

ii

ti

ti

tti

tj

tji

tj

i

ti

Page 134: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 134

Lien avec l’algorithme EM

Les étapes pour cet exemple sont les mêmes que avec EM

Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2,

on échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer

E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer

le max. vraisemblance p(μ1, μ2| D) dans EM

Page 135: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage non supervisé

Algorithmes à variables latentes Probabilistic Latent Semantic Analysis Latent Dirichlet Allocation

Page 136: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 136

Preliminaries : unigram model

Generative model of a document

Select document length Pick a word w with probability p(w) Continue until the end of the document

Applications Classification Clustering Ad-hoc retrieval (language models)

i

i dwpdp )()(

Page 137: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 137

Preliminaries - Unigram model – geometric interpretation

P(w1|d)

P(w3|d)

P(w2|d)

Document d

Word simplex

2/1)(

4/1)(

4/1)(

3

2

1

tionrepresenta d doc

dwp

dwp

dwp

Page 138: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 138

Latent models for document generation

Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown

Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to

uncover (inference) complex latent structures

Page 139: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 139

Probabilistic Latent Semantic Analysis -PLSA (Hofmann 99)

Motivations Several topics may be present in a document or in a

document collection Learn the topics from a training collection Applications Identify the semantic content of documents, documents

relationships, trends, … Segment documents, ad-hoc IR, …

Page 140: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 140

PLSA

The latent structure is a set of topics Each document is generated as a set of words chosen from

selected topics A latent variable z (topic) is associated to each word occurrence

in the document

Generative Process Select a document d, P(d) Iterate Choose a latent class z, P(z|d) Generate a word w according to P(w| z)

Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics

Page 141: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 141

PLSA - Topic

A topic is a distribution over words

Remark A topic is shared by several words A word is associated to several topics

P(w|z)

words

word P(w|z)

machine 0.04

learning 0.01

information 0.09

retrieval 0.02

…… …….

Page 142: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 142

PLSA as a graphical model

z

dzPzwPdwP

dwPdPwdP

)()()(

)(*)(),(

Boxes represent repeated samplingd wz

Corpus level

Document level

P(z|d) P(w|z)

DNd

Page 143: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 143

PLSA model

Hypothesis # values of z is fixed a priori Bag of words Documents are independent No specific distribution on the documents

Conditional independence z being known, w and d are independent

Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants

Page 144: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 144

PLSA - geometric interpretation

Topici is a point on the word simplex Documents are constrained to lie on the topic simplex Creates a bottleneck in document representation

Topic simplex

topic2

topic1

topic3w2 w1

w3

Word simplex

Document d

z

dzPzwPdwP )()()(

Page 145: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 145

Applications

Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image)

Collaborative filtering

Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.)

Page 146: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 146

Latent Dirichlet Allocation - LDA (Blei et al. 2003)

LDA is also a topic model Extends PLSA

Motivations Generalization over unseen documents Define a probabilistic model over documents Not present in PLSA

Allows to generate (model) unseen documents Overtraining In PLSA, the number of parameters grows with the corpus

size LDA constrains the distribution of topics for each document

and words for each topic

Page 147: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 147

LDA - model

Similar to PLSA with the addition of a prior distribution on the topic distribution

Generative process For a document Topic distribution Choose θ ~ Dirichlet () a distribution over topics

Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability

conditioned on topic z

Page 148: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 148

LDA - model

ddzwpzpppWp

zwpzpppWZp

d

i

d

N

i ziii

N

iiii

1

1

),()()()(),(

),()()()(),,,,(

θ wz

Corpus level

Document level

Ф(z)

Multinomial

Dirichlet Multinomial

Nd

D

βT

Dirichlet

Page 149: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 149

LDA – model - unfolded

P(w|z1,1)

words

P(z|1)

topics

1 2

Z1,1 Z1,2Z2,1

w1,1 w1,2 w2,1

Doc1 Doc2

………

Page 150: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 150

PLSA vs LDA - geometric interpretation

PLSA provides a sampling of the document distribution on the topic simplex

LDA provides an estimate of the document distribution on the topic simple

topic2

topic1

topic3w2 w1

w3

Observed documents

topic2

topic1

topic3w2 w1

w3

Document distribution

Page 151: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 151

Dirichlet etc…

, are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing

Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial Allows to compute closed forms for posterior distributions

Page 152: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 152

LDA applications

Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words

Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables

Page 153: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 153

LDA tagging (Blei et al 2003)

Page 154: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 154

Finding topics in PNAS (Griffith et al. 2004)

PNAS categories

LDA topics

Mean θi value for the most significant topic i on this

category

Page 155: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 155

Peer to Peer document download analysis (Denoyer 2008)

Nodes are files Two nodes are connected if they have been dowloaded

by at least 20 peers (500 K peers in total and 2.5 K files) Colors indicate the thematic clustering performed by

LDA using the key words associated to files Results Strong correspondance between download (connections)

and thematic communities

Page 156: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 156

Peer to Peer document download analysis (Denoyer 2008)

Page 157: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 157

Author-recipient topic model (McCallum et al. 2004)

Learning from Enron data

Identify

•Topic

•Author-recipient

Page 158: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 158

LDA – learning and inference

Exact learning and inference are intractable Approximate models Variational models Gibbs sampling Expectation propagation…

Page 159: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 159

Other latent models

Image annotation Author-topic model Author-Recipient-Topic…

Page 160: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 160

Example: Discovering e-communities (Zhou et al 2006)

Usual methods Rely mostly on graph and connectivity analysis

Machine learning Introduce semantic relationships e.g. shared documents in e-mails or linked documents for the

web Common interests

Example : e-mail analysis Recipient list (connectivity) Message body (Semantic information) Identify communities of users based on their exchanges,

and topics

Page 161: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 161

A document is characterized by 3 latent variables Content t Author u Community c

Goal Compute p(c, u, z | w)

Message generation d Choose a community c Choose an author in the community Choose a topic t Choose a word according to topic distribution w

Page 162: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 162

Community-user-topic model

di wzCorpus level

Document level

cNd

D

ФβT

C

U

Distribution of users over communities

Page 163: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 163

Example ( Zhou 06)

Page 164: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage non supervisé

Spectral Clustering

Apprentissage Statistique - P. Gallinari 164

Page 165: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Spectral Clustering (after Von Luxburg 2007)

Intuition x1, …, xn data points, wij similarity between xi and xj

G = (V, E) graph vertex vi corresponds to data point xi

Edges are weighted by wij

Clustering amounts at finding a graph partition such that Edges between clusters have low weights Edges among points inside a cluster have high values

Apprentissage Statistique - P. Gallinari 165

Page 166: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Graphs notations G = (V, E) undirected graph V = v1, …, vn) Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight

matrix D : diagonal matrix with ∑

Apprentissage Statistique - P. Gallinari 166

Page 167: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Building similarity graphs from data points Different ways to build a similarity graph Locally connected graphs: k-nearest neighbor graphs Two vertices are connected if one of them is among the k-

nearest neighbor of the other Or two vertices are connected if both are in the k-

neighborhood of the other Edges are then weighted using the similarity of the vertices

Fully connected graphs

exp /2 )

Apprentissage Statistique - P. Gallinari 167

Page 168: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Graph Laplacians Unnormalized graph Laplacian

Normalized graph Laplacians

I symmetric interpretation : random

walk on the graph

Apprentissage Statistique - P. Gallinari 168

Page 169: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Properties of the unnormalized graph Laplacian L satisfies:

∀ ∈ , ∑ ,

L is symmetric, positive semi-definite The smallest eigenvalue of L is 0, the corresponding

eigenvector is 1 (vector with n 1) L has n non negative eigenvalues 0 …

Apprentissage Statistique - P. Gallinari 169

Page 170: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Properties of the normalized graph Laplacians

∀ ∈ , ∑ ,

Lsym and Lrw are positive semi-definite and have n non negative eigenvalues 0 …

is an eigenvalue of Lrw with eigenvector u iff is an eigenvalue of Lsym with eigenvector D1/2u

Apprentissage Statistique - P. Gallinari 170

Page 171: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Unnormalized spectral clustering

Idée Projeter les points x ∈ , i 1…n, dans un espace de

dimension k dans lequel le clustering se fait facilement

Apprentissage Statistique - P. Gallinari 171

Page 172: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Unnormalized spectral clustering

Input: n points x1, …, xn, similarity matrix S Output: clusters Construct similarity graph and corresponding weight matrix W Compute unnormalized Laplacian L Compute first eigenvectors of L (corresponding to smallest

eigenvalues): u1, …, uk

U: n x k matrix with columns u1, …, uk

For i = 1…n, ∈ i-th row of U Cluster yi, i = 1…n with k-means into clusters C1, …, Ck

k clusters in the initial space: C’1, …, C’k / C’i = xj / yj Ci

Note: Similar algorithms with normalized Laplacians

Apprentissage Statistique - P. Gallinari 172

Page 173: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage non supervisé

Non Negative Matrix Factorization

Apprentissage Statistique - P. Gallinari 173

Page 174: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Non Negative Matrix Factorization

Idea Project data vectors in a latent space of dimension k < m

size of the original space Axis in this latent space represent a new basis for data

representation Each original data vector will be approximated as a linear

combination of k basis vectors in this new space Data are assigned to the nearest axis This provide a clustering of the data

Apprentissage Statistique - P. Gallinari 174

Page 175: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

x1,…, xn, ∈ , 0 X m x n non negative matrix with columns the xi s Find non negative factors U, V, / With U an m x k matrix, U a k x n matrix, k < m, n

x

m x n m x k k x n

vvApprentissage Statistique - P. Gallinari 175

X U V

Page 176: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

, ∑

Columns ofU,uj arebasisvectors,the arethecoefficientofxi inthis basis

Loss function Solve

, Underconstraints , 0

Convex loss function inUandinV,butnotinboth UandV

Apprentissage Statistique - P. Gallinari 176

Page 177: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Algorithm Constrained optimization problem Can be solved by a Lagrangian formulation Iterative multiplicative algorithm (Xu et al. 2003)

U, V initialized at random values Iterate until convergence

Or by projected gradient formulations The solution U, V is not unique, if U, V is solution, then UD,

D-1V for D diagonal positive is also solution

Apprentissage Statistique - P. Gallinari 177

Page 178: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Using NMF for Clustering Normalize U as a column stochastic matrix (each column

vector is of norm 1)

←∑

← ∑

Under the constraint “U normalized” the solution U, V is unique

Associate xi to cluster j if

Apprentissage Statistique - P. Gallinari 178

Page 179: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Note many different versions and extensions of NMF Different loss functions e.g. different constraints on the decomposition

Different algorithms Applications Clustering Recommendation Link prediction Etc

Specific forms of NMF can be shown equivalent to PLSA Spectral clustering

Apprentissage Statistique - P. Gallinari 179

Page 180: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Illustration (Lee & Seung 1999)

Basis images for

NMF

Vector Quantization

Principal Component Analysis

Apprentissage Statistique - P. Gallinari 180

Page 181: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Semi supervisé

Méthodes génératives et discriminantesMéthodes basées sur les graphes

Page 182: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 182

Problématique

Cadre Problème de discrimination, i.e. on veut estimer P(C| x)

pour toutes les classes CMotivation Apprendre à classifier des données en utilisant un faible

nombre de données étiquetées et un grand nombre de données non étiquetées

L’etiquetage coûte cher, les données non étiquetées sont souvent largement disponibles

Utilisation Nombreux problèmes du web Ressources (temps, moyens humains etc) non disponibles

pour construire des ensembles annotés

Page 183: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 183

Méthodes

Très nombreuses méthodes Self learning Méthodes génératives Méthodes discriminantes SVM, CEM

Méthodes à base de graphes …

Page 184: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 184

Apprentissage semi-superviséModèles génératifs Approche générale : Maximiser la vraisemblance jointe des données étiquetées

et non étiquetées Utiliser un algorithme EM On en déduit P(C|x) pour tout x On regarde ici le cas à 2 classes

Notations D = DLU DU DL : Labeled data DU : Unlabeled data

C1 et C2 sont les deux classes considérées p1 et p2 sont les probabilités a priori des deux classes C1 et

C2

Page 185: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 185

Apprentissage semi-superviséModèles génératifs Log Vraisemblance des données

uiU

LLL

UL

Dx kkik

Dx

CDxCDxDx

DxDxM

DxM

Cxpxp

CxpCxpxp

xpxpL

xpL

))/(.(log)(log

),(log),(log)(log

)(log)(log

)(log

2

1

2121

Vraisemblance des données non étiquetées.

C’est un modèle de mélange

Vraisemblance des données

étiquetées

Page 186: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 186

Apprentissage semi-superviséModèles génératifs La vraisemblance totale s’écrit

Important Les modèles pour les densités p(x| C) sont les mêmes pour

les données supervisées et non supervisées C’est ce qui permet de capturer dans une même fonction

nles informations supervisées et non supervisées

uiki Dx k

kikk Cx

kikM CxpCxpL ))/(.(log))/(.log(2

1

2

1

Somme sur les données

étiquetées

Somme sur les données non étiquetées

Modèle de mélange

Page 187: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 187

Apprentissage semi-superviséModèles dicriminants (Amini 2004)

Au lieu de maximiser la vraisemblance, on va maximiser la vraisemblance classifiante (Symons et al. 71).

But classifier les exemples en c groupes en prenant une

décision “dure”.

avec T=(t1,…,tc) le vecteur des indicateurs de classe:

Vraisemblance classifiante vraisemblance des données complètes (donnée, classe) :

0,et1 hkk tkhtCx

8

c

k

N

ikkkikkiC CxptCL

1 1

)),,/(.log(.),,(

Page 188: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 188

Comparer avec la vraisemblance usuelle pour un mélange de densités :

N c

kkkkikkiC CxptCL

11 1

)),,/(..(log),,(

Page 189: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 189

Vraisemblance classifiante pour le cas semi-supervisé Pour un classifieur discriminant maximiser LC est

equivalent à maximiser

n étiquetés, m non étiquetés Algorithme : CEM

c

k

mn

nikkikki

c

k kCixkkikC xCptxCpCL

1 11)),,/(log(.)),,/(log(),,(~

9

Page 190: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 190

Mesures d’évaluation

Caractéristique des ensembles de données

Critère de performance

Pertinent

Non pertinent

Decision du système

+

PGC = ++

Precision =

Classification

Text summarization

IJCAI’03

Page 191: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 191

Exemple : Email spam

IJCAI’03

5%

65%

73%

82%

Page 192: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 192

Exemple : Résumé de texte

IJCAI’03

Page 193: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 193

Apprentissage semi-superviséModèles de graphes Les modèles génératifs ou discriminants précédants ne

prennent pas en compte la densité locale des données. Ils ne considèrent que la cohérence globale des données Vraisemblance

Sans considérer la cohérence locale Voisinage des points, densité locale

Cela peut conduire à des erreurs importantes si les densités ne sont pas bien séparées

Plusieurs familles de modèles ont été proposées pour prendre en compte à la fois les cohérences globales et locales des données Parmi elles, les méthodes à base de graphes

Page 194: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 194

Data consistency (Zhou et al. 2003)

SSL rely on local (neighbors share the same label) and global (data structure) data consistency

Fig. from Zhou et al. 2003

Page 195: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 195

Graph methods general idea Create a graph G = (V, E) Compute a similarity matrix W: Wij is the similarity between

nodes i and j Propagate observed labels to unlabeled nodes

Page 196: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 196

Example (Zhou et al 2003)

Compute an affinity matrix W

a normalized affinity matrix S

Iterate

Converges to Y* final labels on unlabeled data

0),2

exp(: 2

2

iiji

ij Wxx

WW

21

21

WDDS

)0()1()(.)1( YtYStY

D is a diagonal matrix whose ith element is the sum of ith row of W

Y(0) matrix of initial labels and 0 for unlabeled data

Page 197: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 197

Iterations

Fig. from Zhou et al. 2003

Page 198: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 198

Apprentissage en présence de données positives uniquement Problème Discrimination avec des étiquetages dans une seule classe

-positifs- et en faible nombre Nombreuses instances dans la réalité

Méthode pratique générale On considère que les exemples les plus éloignés des

exemples étiquetés sont négatifs On applique un algorithme d’apprentissage semi-supervisé

Page 199: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Apprentissage Statistique - P. Gallinari 199

Quelques liens utiles

Livres Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et

algorithmes (2nd Ed.with revisions and additions - 2006 Eyrolles, 650 p Christopher M. Bishop, Pattern Recognition and Machine Learning,

Springer (2006). David Barber, 2012, Bayesian Reasoning and Machine Learning,

Cambridge Univ. Press. Software General Weka 3: Data Mining Software in Java

http://www.cs.waikato.ac.nz/ml/weka/ Lush (Leon Bottou)

http://lush.sourceforge.net) SVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/

http://svmlight.joachims.org/http://www.torch.ch/

Test sets UCI machine learning repository …..