Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...

Post on 17-Jun-2020

2 views 1 download

Transcript of Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...

Apprentissage Statistique

Master DAC - Université Paris 6P. Gallinari, patrick.gallinari@lip6.fr, http://www-connex.lip6.fr/~gallinar/

Année 2014-2015Partie 1

Introduction

Apprentissage à partir d'exemples

Apprentissage Statistique - P. Gallinari3

3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère C (apprentissage et évaluation)

But Extraire de l'information à partir des données

Information pertinente pour la tâche étudiée pour d'autres données du même type

Utilisation Inférence sur de nouvelles données

Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari4

Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus

Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge +

Google car But : suivre route Critère : distance parcourue

Recherche d'information textuelle Données : (texte + requête, (information pertinente)) – corpus d’apprentissage But : extraire l'information correspondant à la requête Critère : Rappel / Précision

Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ?

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari5

Modélisation d'utilisateur Données : (Traces utilisateur) But : analyser/ modéliser le comportement de l'utilisateur

Exemples : ciblage clientèle, aide navigation, publicité, recommandation, assistants personnels e.g. Google now

Critère : ? Evaluation : ? Example Google Now

Google Now keeps track of searches, calendar events, locations, and travel patterns. It then synthesizes all that info and alerts you—either through notifications in the menu bar or cards on the search screen—of transit alerts for your commute, box scores for your favorite sports team, nearby watering holes, and more. You can assume it will someday suggest a lot more.

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari6

Plus difficile : Traduction Extraction d’information (e.g. Never-Ending Language/ Image Learning) Compréhension de texte / scène visuelle – extraction de sens Découverte dans bases de données ou bases de connaissances ....

Données : i.e. représenter l'information ?? But ?? Critère ?? Evaluation ??

Données : diversité

Apprentissage Statistique - P. Gallinari7

Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07

Apprentissage Statistique - P. Gallinari8

Terrabytes of Warehoused Data

25 49 94 100500

1,000

5,000

Amaz

on

Kore

a

Teleco

m

AT&T

Y! L

iveS

tor

Y! P

anam

a

War

ehou

se

Walm

art

Y! M

ain

war

ehou

se

GRAND CHALLENGE PROBLEMS OF DATA PROCESSING

TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET

Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE

Millions of Events Processed Per Day

50 120 2252,000

14,000

SABRE VISA NYSE Y! Panama Y! DataHighway

Données : quantitésPetabytes (10^15) (chiffres 2012)

Apprentissage Statistique - P. Gallinari9

Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street

Photos Telecoms: AT&T transfers about 30 petabytes of data

through its networks each day Physics: The experiments in the Large Hadron Collider

produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability

to store memories is equivalent to about 2.5 petabytes of binary data

Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/

Apprentissage Statistique - P. Gallinari10

Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment analysis Convert 350 billion annual meter readings to better predict power consumption

Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster

Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer

satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety and

number of sources grows.

Gartner Hype Cycle: Big Data

Apprentissage Statistique - P. Gallinari11

Apprentissage Statistique - P. Gallinari12

Data science (Wikipedia 2013)

Apprentissage Statistique - P. Gallinari13

Data science incorporates varying elements and builds on techniques and theories from many fields, including mathematics, statistics, data engineering, pattern recognition and learning,advanced computing, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting meaning from data and creating data products. …..Data science seeks to use all available and relevant data to effectively tell a story ….

Data science is the practice of deriving valuable insights from data. Data science is emerging to meet the challenges of processing very large data sets i.e. "Big Data" consisting of structured, unstructured or semi-structured data that large enterprises produce. A domain at center stage of data science is the explosion of new data generated from smart devices, web, mobile and social media. ……data scientists rely heavily upon elements of statistics, machine learning, text retrieval and natural language processing to analyze data and interpret results.

Place de l’apprentissage

Apprentissage Statistique - P. Gallinari14

L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise

Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation

Domaines d’application en Data MiningExemples

Apprentissage Statistique - P. Gallinari15

Web recherche d'information, filtrage d'information extraction d'information textuelle : e.g. recherche, bibliothèques virtuelles, veille

technologique, Question Answering , ... Multi-média

image + son, vidéo Données d’entreprise

infos produits, infos clients, ciblage clientèle ... Analyse comportement

e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet, aide accès information, publicité

Distribué Mobiles : personnalisation, accès information Capteurs distribués, objets connectés

Biologie - analyse de séquences, de structures Automobile ...

Challenges de l’apprentissage

Apprentissage Statistique - P. Gallinari16

Passage à l’échelle Quantité de données, taille données

Dynamicité Flux

Distribué Complexité des données et des problèmes Données structurées

standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !!

Nouveaux problèmes, nouveaux usages Adaptation rapide outils existants et création de nouveaux

outils

4 Familles d’algorithmes

Apprentissage Statistique - P. Gallinari17

Données dans la pratique de l’apprentissage

Apprentissage Statistique - P. Gallinari18

Distinguer les ensembles d’apprentissage

Mettre au point le modèle

de test Evaluer les performances du modèle appris

de validation Apprentissage de méta-paramètres

Remarque On fera en général l’hypothèse que toutes les données sont générées

suivant une même loi

Apprentissage supervisé

Apprentissage Statistique - P. Gallinari19

Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée)

, , … , , But Au moyen d'un algorithme d'apprentissage, découvrir

l’association En utilisant les données d’appprentissage Qui offre une bonne généralisation

i.e. si hors de l'ensemble d'apprentissage mais généré par le même phénomène

Utilisation discrimination, identification, prévision, approximation …

Apprentissage non supervisé

Apprentissage Statistique - P. Gallinari20

Ensemble d'apprentissage Uniquement des données d’entrée , … ,

But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les

données

Utilisation estimation de densité, extraction de similarités

Apprentissage semi supervisé

Apprentissage Statistique - P. Gallinari21

Ensemble d’apprentissage étiquetés – faible quantité

, , … , , non étiquetés – grande quantité

, … , But Extraire l’information des exemples non étiquetés utile pour

l’étiquetage Apprendre conjointement à partir des deux ensembles d’exemples

Utilisation grandes masses de données où l’étiquetage est possible mais trop

coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes

instances d’un problème

Apprentissage par Renforcement

Apprentissage Statistique - P. Gallinari22

Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative)

, , … , , Les xi peuvent être des séquences (temporal credit

assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.

But Apprendre des actions optimales

Utilisation commande, décision séquentielle, robotique, jeux,

programmation dynamique, applications web ou sociales, ...

Exemple introductif : Perceptron

Apprentissage Statistique - P. Gallinari23

Un exemple : Perceptron (1960 Rosenblatt)

Apprentissage Statistique - P. Gallinari24

(image from Perceptrons, Minsky and Papert 1969)

Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil :

∑ ∑ avec 1 Classe 1 : ∶ 1 Classe 2 : ∶ 1

Cellules d’association Cellule de décision

L'algorithme du perceptron (2 classes)

Apprentissage Statistique - P. Gallinari25

C'est un algorithme à correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable

Donnéesbase d’apprentissage , , 1. . , ∈ , ∈ 1,1

Outputclassifieur ∈ , décision ∑

Initialiser w (0)Répeter (t)

choisir un exemple, ,Si . 0alors 1

Jusqu'à convergence

Fonction discriminante linéaire

Apprentissage Statistique - P. Gallinari26

Surface de décision: hyperplan F(x) = 0 Quelques propriétés w est le vecteur normal de l'hyperplan, il défini son

orientation distance de x à H : / w0 = 0 : H passe par l'origine

. ∑ avec 1

Géométrie de la discrimination linéaire

Apprentissage Statistique - P. Gallinari27

W

F(x) < 0

F(x) > 0wxF )( F(x) = 0

Le perceptron effectue une descente de gradient

Apprentissage Statistique - P. Gallinari28

Fonction de coût ∑ . ., é

gradient

, … , avec ∑ ., é

Règle d’apprentissage

Demo http://lcn.epfl.ch/tutorial/english/

Cas multi-classes

Apprentissage Statistique - P. Gallinari29

Approche générale : one vs all p classes = p " problèmes 2 classes " : Ci contre le reste

construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces.

Régions convexes : limitation des classifieurs linéaires

Propriétés Probabilité de séparabilité linéaire (Cover 1965)

Apprentissage Statistique - P. Gallinari30

Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie)

L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de dimension

n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m formes.

P(m,n) : probabilité qu'une dichotomie soit linéairement séparable.

n im

m

nm siC

nm si nmL

0 1

2),(

P m n

m n

C m nmmi

n( , )

1

211

0

si

si

0 2 4

n1

10

m/n+1

P(m,n)

0.5

1

Propriétés Théorème de convergence du perceptron (Novikov 1962)

Apprentissage Statistique - P. Gallinari31

Si ∃ :∀ , R

les données peuvent être séparées avec une marge , i.e. supmin .

l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois

Alors après au plus corrections, l'algorithme converge

Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964)

Apprentissage Statistique - P. Gallinari32

Si les données sont séparables elles sont en nombre infini règle arrêt : après la kème correction, les

données présentées sont reconnues correctement

alors

le perceptron converge en l / /

étapes avec une probabilité 1 , l'erreur de test est <

Overtraining / généralisation en regression

Apprentissage Statistique - P. Gallinari33

Exemple (Bishop 06)

Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation

Algorithmes d'apprentissage numérique

Apprentissage Statistique - P. Gallinari34

Il existe un grand nombre d’algorithmes et de familles d’algorithmes pour les différents problèmes génériques abordés en apprentissage

Il existe de nombreuses implémentations sous forme de programmes dédiés ou de logiciels plus généralistes

Quelques exemples populaires Données statiques

Supervisé Réseaux de neurones Arbres décision / régression, random forest Fonctions noyau, machines à vecteurs supports Nombreux modèles pour l’estimation de densité paramétrique, non paramétrique

Non supervisé Modèles à variables latentes

Modèles latents probabilistes Factorisation matricielle

Données structurées Séquences

Réseaux de neurones récurrents, modèles Markoviens Arbres et graphes

Modèles relationnels

Formalisation du problème de l'apprentissage

Formalisme probabiliste

Apprentissage Statistique - P. Gallinari36

Données vecteurs aléatoires générés suivant une densité

Machine d’apprentissage avec les paramètres du modèle à valeur dans un

espace réel Coût pour la machine et l’exemple

Risque théorique

Solution optimale ∗

Apprentissage à partir d'exemples

Apprentissage Statistique - P. Gallinari37

Données ..

Risque empirique ∑

Principe inductif Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique

La fonction ∗ qui minimise le risque théorique est approximée par qui optimise le risque empirique C’est le principe que l’on utilise dans une grande partie du cours

Est-ce un bon principe ? Propriété de généralisation ?

Problèmes d'apprentissage : exemples

Apprentissage Statistique - P. Gallinari38

Discrimination , , ∈ 0,1 ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs

Régression , , ∈R un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques

Estimation de densité

ensemble de fonctions réelles R : espérance C : vraisemblance

0si 1sinon

Apprentissage supervisé

Préliminaires : gradient, regression, regression logistiqueModèles discriminantsRéseaux de neurones

Machines à noyaux

Apprentissage supervisé

Optimisation par gradientRegression

Regression logistique

Apprentissage Statistique - P. Gallinari41

L’apprentissage supervisé recouvre un ensemble de problèmes génériques Regression Classification Ranking …

Dans le première partie du cours on examine des problèmes de régression et de classification

OptimisationAlgorithmes de gradient

Apprentissage Statistique - P. Gallinari42

Objectif Optimiser une fonction de coût C(w) dépendant de paramètres w Principe :

Initialiser w Itérer jusqu’à convergence

1 la direction de descente D, le pas de gradient sont déterminés à partir

d'informations locales sur la fonction de coût C(w), i.e. approximations au 1er ou 2nd ordre.

Exemple :

Gradient de la plus grande pente (batch)Ensemble d’apprentissage

, , … , ,

Initialiser Itérer

1 t)Critère d’arrêtAvec ∑

Autres procédures de minimisation basées sur le gradient

Apprentissage Statistique - P. Gallinari43

Approximation quadratique locale de la fonction à optimiser (on approxime C par une parabole)

Avec H le Hessien de C(.) :

En différentiant par rapport à w

On cherche le minimum de C

Méthode de Newton

Trop couteux en pratique (O(n3) pour l’inverse, + dérivées partielles)

)()(21)()()()( 00000 wwHwwwCwwwCwC TT

0)( wC

)( 01

0 wCHww

)()()( 00 wwHwCwC

Apprentissage Statistique - P. Gallinari44

En pratique on utilise des gradients du 1er ordre ou des approximations du 2nd ordre

Exemple approximation du 2nd ordre : Méthodes de quasi-Newton : approximation de H-1

itérativement. Forme générale :

H' : approximation de sans calculer les dérivées secondes

))(),(,,,'('')('

001

00

wCwCwwHFHHwCHww

ttt

t

Regression

Apprentissage Statistique - P. Gallinari45

Regression simple Objectif : prédire une fonction réelle Ensemble d’apprentissage

, , … , , ∈ , ∈ : regression simple

Modèle linéaire . ∑ avec 1

Fonction de coût Moindres carrés

∑ .

Gradient de la plus grande pente , , …,

∑ . ∑ .

∑ .

Regression

Apprentissage Statistique - P. Gallinari46

Géométrie des moindres carrés

0

5

10

15

20

0

50

100

150

200

0 2 4 6 8 10 12 14 16 18 20

Regression multi-variée

Apprentissage Statistique - P. Gallinari47

Le modèle s’étend directement au cas où On a alors p regressions linéaires indépendantes L’algorithme est identique

Interprétation probabiliste

Apprentissage Statistique - P. Gallinari48

Modèle statistique de la regression . , où est une v.a. qui modélise l’erreur

On suppose que est une v.a. i.i.d. gaussienne ~ 0, , exp

La distribution a posteriori de d est alors | ; exp .

Vraisemblance ∏ | ;

C’est une fonction de w, calculée pour un ensemble de données, ici les données d’apprentissage

Principe du maximum de vraisemblance Choisir le paramètre qui maximise ou toute fonction croissante de

on va maximiser la log vraisemblance qui donne des calculs plus simples

∑ . On retrouve le critère des moindres carrés

Sous les hyp. précédentes, on a une interprétation probabiliste de la régression

Regression logistique

Apprentissage Statistique - P. Gallinari49

La regression linéaire peut être utilisée pour des problèmes de regression ou de classification

Un modèle mieux adapté pour la classification (avec des sorties binaires) est celui de la régression logistique

..

Fonction logistique La fonction

est appelée fonction logistique ou

sigmoide

hint 1

0

0,2

0,4

0,6

0,8

1

-5 -4 -3 -2 -1 0 1 2 3 4 5

sigmoid

Regression logistiqueInterprétation probabiliste

Apprentissage Statistique - P. Gallinari50

Comme ∈ 0,1 , on va faire l’hypothèse d’une distribution conditionnelle de Bernouilli

1 ; et 0 ; 1 En plus compact

; 1 avec ∈ 0,1

Vraisemblance

∏ 1

Log-vraisemblance ∑ 1 log 1

Gradient de la plus grande pente

∑ Algorithme

Regression logistique multivariée

Apprentissage Statistique - P. Gallinari51

On suppose que l’on a un problème de classification à plusieurs classes 1…p On les code suivant la fonction indicatrice suivante

Classe 1: 1,0, … , 0 Classe 2 : 0,1, … , 0 … Classe 1: 0,0, … , 1 On a un vecteur de sorties à p dimensions – codage “one out of p”

La fonction est une fonction vectorielle à p dimensions La composante i sera une fonction softmax

.

∑ .

Attention : ici ∈ est un vecteur

Le modèle probabiliste sous jacent est un modèle multinomial pour les densitésconditionnelles

; = .∑ .

Algorithme d’apprentissage Comme précédement on peut utiliser un algorithme de gradient pour maximiser la log

vraisemblance

Apprentissage supervisé

Réseaux de neurones

Réseau de neurone - description informelle

Apprentissage Statistique - P. Gallinari53

Caractéristiques

Ensemble d’éléments simples interconnectés Echange d'information au moyen des connexions Calcul/ mémoire distribués

Apports pluridisciplinaires

Apprentissage Statistique - P. Gallinari54

Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique

Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory,

apprentissage...)

Fondements biologiques

Apprentissage Statistique - P. Gallinari55

Le neurone Soma Arbre des dendrites Axone Flot d'information

axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses

Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise vers

le soma. Comportement du neurone + mémoire ?

Exemple : réseau linéaire

Apprentissage Statistique - P. Gallinari56

Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )

Apprentissage Dynamique Caractéristiques :

Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique

Visible units Hidden units

SIGNAL DECISIONW

W

WW

W

WW

WW

1

2

3

4

5

6

78

9

Visible units

Neurones et Types de neurones

Apprentissage Statistique - P. Gallinari57

Composants du neurone

Apprentissage Statistique - P. Gallinari58

Historique rapide des réseaux de neurones

Apprentissage Statistique - P. Gallinari59

43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities"

40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries

anti-aeriennes) Boucle de rétro-action

Apprentissage Statistique - P. Gallinari60

48 – 50 Von Neuman : réseaux d'automates 49 Hebb : apprentissage dans les réseaux d'automates 55 – 60 Rosenblatt : Perceptron Widrow - Hoff : Adaline

70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires

Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ...

2006 - .. Deep neural networks, restricted Boltzmann machines,… Representation learning

Optimisation dans les RNAlgorithmes de gradient

Apprentissage Statistique - P. Gallinari61

Principe : 1 la direction de descente D, le pas de gradient sont déterminés à

partir d'informations locales sur la fonction de coût C(w), i.e. approximations au 1er ou 2nd ordre.

Exemples :

Plus grande pente (batch) Initialiser Itérer

1 t)Critère d’arrêtAvec ∑

Gradient adaptatif (on line – stochasticgradient)

initialiserIterer

choisir un exemple 1

Critère d’arrêt

Le neurone formel

Apprentissage Statistique - P. Gallinari62

C'est un automate caractérisé par l’espace des signaux d'entrée , … , ∈

une fonction de transition

Fonctions de transition Historiquement, fonction à seuil (Neurone formel de McCulloch et Pitts) En pratique on utilise des fonctions différentiables

Soit ∑ , on considère des fonctions de la forme Fonction identité g

Fonction sigmoïde g

Fonction tangente hyperbolique g

On verra par la suite d’autres fonctions de transition

x2

x1

xn

y = F(x)

Gradient stochastique et Adaline

Apprentissage Statistique - P. Gallinari63

On suppose que l’on est dans un contexte « en ligne » Les données arrivent et sont traitées séquentiellement Les paramètres sont modifiés pour chaque donnée Gradient stochastique (Robbins-Monro, 1951), popularisé pour

les réseaux de neurones par (Widrow et Hoff, 195X)

Que l’on compare avec l’algorithme batch

Gradient adaptatif (on line – stochasticgradient)

InitialiserIterer

choisir un exemple1

Critère d’arrêt

Plus grande pente (batch)

Avec ∑

Initialiser Itérer

1 t)Critère d’arrêt

Adaline

Apprentissage Statistique - P. Gallinari64

Neurone linéaire Risque empirique : moindres carrés

∑ .

Adaline : règle de Widrow-Hoff

Apprentissage Statistique - P. Gallinari65

x(t) est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local

A comparer avec le gradient classique qui calcule le gradient sur le risque empirique

initialiser 0Iterer

choisir un exemple 1 .

Critère d’arrêt

Plus grande penteinitialiser 0Iterer

1 ∑ .Critère d’arrêt

Apprentissage Statistique - P. Gallinari66

Apprentissage hors ligne vs apprentissage adaptatif

ck erreur sur la forme k de l'ensemble d'apprentissage

Gradient sur C Gradient adaptatif sur c

Q qk

W W

k

kcN

C 1

Optimisation dans les RNAlgorithmes de gradient

Apprentissage Statistique - P. Gallinari67

Les algorithmes d’optimisation pour les réseaux de neurones utilisent souvent ces techniques simples de gradient stochastique

Raisons Historique Complexité et taille de données Ces méthodes sont devenues populaires également pour de

nombreux autres modèles (complexité) Ils exploitent bien la redondance présente dans les données Bien adaptés aux grandes dimensions

En pratique utilisation d’algorithmes « mini-batch » À chaque itération on considère un petit sous ensemble des données

Perceptron Multicouches

Apprentissage Statistique - P. Gallinari68

Réseau avec : des couches externes: entrée et sortie des couches internes dites cachées Les cellules sur les couches internes et la couche de sortie

sont des fonctions sigmoïdes ou tangente hyperbolique.

y

x

Input

Output

hidden layers

d

Perceptron Multicouches

Apprentissage Statistique - P. Gallinari69

Les exemples sont présentés séquentiellement Inférence : passe avant Pour chaque exemple on calcule la sortie

Apprentissage : passe arrière On calcule l’erreur entre sortie désirée et sortie

calculée. On propage cette erreur pour calculer le gradient des poids du

réseau

Apprentissage Statistique - P. Gallinari70

Notations vecteur activation de la couche i

activation du neurone j de la couche i

matrice de poids de la couche i à la couche i+1

poids de la cellule k sur la couche i à la cellule j sur la couche i+1 vecteur de sortie

1 1

Inférence : passe avant

Apprentissage Statistique - P. Gallinari71

Pour un exemple x On calcule en parallèle les activités de la couche de neurones 1 puis )

Avec ,

On utilise les sorties de la couche 1 comme entrées de la couche 2 et on calcule en parallèle les activités de la couche 2

puis )

1 1

Apprentissage : passe arrière

Apprentissage Statistique - P. Gallinari72

On décrit l’algorithme dans le cas d’une fonction de coût moindre carrés

On présente un exemple , , ∈ , d ∈ On calcule la sortie , ∈

Calculer l’erreur , … , Rétropropager cette erreur de la couche de sortie vers la

couche d’entrée : ∆ mise à jour des poids par sgd

∆ gradient pour C’est cette quantité « » que l’on va rétropropager

2 ′ si i est une cellule de sortie

∑ ′ si i n’est pas une cellule de sortie

Apprentissage Statistique - P. Gallinari73

Remarques Comme pour la passe avant, on modifie tous les poids d’une

couche en parallèle C’est une implémentation particulière de l’algorithme du

gradient stochastique qui évite de dupliquer les calculs Elle peut être adaptée à toute fonction différentiable Fonctions de coût

Pour des tâches de regression : LMSE Pour des tâches de classification, différentes fonctions employées Entropie croisée Hinge, logistique (cf slide suivant)

Fonctions de coût Différentes fonctions de coût sont

utilisées, suivant les problèmes, oules modèles

LMSE Regression

Souvent utilisé en classification

Classification, Hinge, logistique Classification Exemples

∈ , ∈ 1,1 Hinge, logistique sont ici des

approximations de l’erreur de classification

Apprentissage Statistique - P. Gallinari74

Figure from Bishop 2006

En abscisse : . (marge)

, | |, 1 . max 0,1 .

, ln 1 exp .

Contrôle de la complexité

Apprentissage Statistique - P. Gallinari75

En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité

cf partie théorique du cours Nombreuses méthodes

Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés

Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,

etc) Apprentissage bayesien

Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du

modèle Méthodes d’ensembles

Boosting, bagging, etc ….

Regularisation

Apprentissage Statistique - P. Gallinari76

Hadamard Un problème est bien posé si

Il existe une solution Elle est unique La solution est stable

Exemple de problème mal posé (Goutte 1997)

Tikhonov Propose des méthodes pour transformer un problème mal posé en problème

bien posé

Régularisation

Apprentissage Statistique - P. Gallinari77

Principe: Contrôler la variance de la solution en contraignant la fonctionnelle F Optimiser C = C1 + C2(F) C est un compromis entre

C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids)

: poids de la contrainte Moindres carrés régularisés

On reprend le cas de la regression linéaire simple

∑ . ∑ 2 régularisation , 1 régularisation connu aussi sous le nom de « Lasso »

Fig. from Bishop 2006

Apprentissage Statistique - P. Gallinari78

Résoudre ∑ . ∑

Revient à résoudre le problème d’optimisation sous contrainte ∑ .

Sous contrainte ∑ s pour une certaine valeur de s

Effet de cette contrainte

Fig. from Bishop 2006

Régularisation empirique pour les réseaux de neurones

Apprentissage Statistique - P. Gallinari79

∑ biaise la solution en diminuant les poids inutiles

∑ 2 groupes de poids autour de c

∑ 1 ∑ cellules cachées h + poids

Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres"

Autres idées pour le problème de la généralisation dans les réseaux de neurones

Apprentissage Statistique - P. Gallinari80

Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau.

Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu 1994

; Bishop 1994) Réseaux à convolution

Exemple (Cibas et al, 95, 96)

Apprentissage Statistique - P. Gallinari81

Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde :

3 classes C1, C2, C3 engendrées respectivement par :

u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation

1 5 9 13 17 21

6 6 6

h 3

h 2h 1

26)(1

10)(1

2)(1

32

31

21

huuhx

huuhx

huuhx

Evolution des performances pendant l'apprentissage

Apprentissage Statistique - P. Gallinari82

Sans régularisation

Figure 1 a (left), b (right): evolution of the performances (mean square error) duringtraining for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hiddenlayer.

0

5

10

15

35

60

5

10

15

3560

Evolution des performances pendant l'apprentissage

Apprentissage Statistique - P. Gallinari83

Avec régularisation

Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim)

h=60-WD

h=15-estim

h=60-estimh=15-ord

h=60-ord

h=60-ord

h=15-ord

h=15-estimh=60-estimh=60-WD

Fonctions à Base Radiale

Apprentissage Statistique - P. Gallinari84

Réseau à deux couches Notations

wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée

Risque : moindres carrés

Couche de sortie

g = IdCouche intermédiaire

y

x

j jj xwwA 0

2wxA

2)( A

eAg

2

.0)( jj ijiii wxgwwxGy

La fonction sigmoïde

Apprentissage Statistique - P. Gallinari85

Distribution de la famille exponentielle :

, : paramètres de la loi, ( paramètre de position , paramètre de dispersion).

Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ...

Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. :

Alors

)),()())/(((),,( xcabxxp T exp

)),()())/((()/( xcabxCxp iT

ii exp

)(1

1)/(bxwi T

exCP

Capacités d'approximation des PMC

Apprentissage Statistique - P. Gallinari86

Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989))

Théorème 1 (regression): Soit f une fonction saturante continue, alors l'espace des fonctions de la forme ∑ . . est dense dans l’espace des fonctions continues sur le cube unité C(I). i.e. ∀ ∈ ∀ 0, ∃ ∶ sur I

Théorème 2 (classification): Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors ∀ 0, il existe une fonction de la forme ∑ . . et un ensemble ⊂ tel que 1 (D)

sur D .

(Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute mesure de

probabilité m sur , l'espace des fonctions de la forme ∑ . .est uniformément dense sur les compacts de - espace des fonctions continues sur

Apprentissage Statistique - P. Gallinari87

Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est intégrable,

alors l'espace des fonctions de la forme :

est dense dans L1(Rn) ssi .

Nj

j

jj

wxfvxg 1

. )(.)(

nR

dxxf 0)(

Apprentissage Statistique - P. Gallinari88

Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov

Toute fonction h de C(I) peut s'écrire sous la forme

où les fonctions g et f sont des fonctions continues d'une variable.

Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant

m = 2n + 1n/(m-n) + v < / ||h||h(1/m) < v(m - n)/(2m - 3n)v > 0

h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant :

f(d)= sup{|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p}.

))((),...,( 121 11

nq

np ppqqn xfgxxh

Interprétation probabiliste des sorties

Apprentissage Statistique - P. Gallinari89

Risque théorique

Le min de R est obtenu pour ∗ | Coût théorique C pour la famille de fonction

C ,

C , ,

∗ | est bien la solution optimale Dans l’espace des hypothèses, w* / R(w*) = Minw C minimise

simultanément :

, LMSE

, meilleure approximation LMS de |

Apprentissage Statistique - P. Gallinari90

Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i

i.e. ∗ meilleure approximation LMS de la fonction discriminante de Bayes (solution optimale).

de façon générale avec des sorties binaires ∗ 1

Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i Décision : sortie la plus faible.

L’importance de la précision sur les sorties dépend de l'utilisation (classification OU estimation de probabilité conditionnelle).

)/(]/[ 1 xjPxdE mj iji

Apprentissage supervisé

Machines à noyaux

Introduction

Apprentissage Statistique - P. Gallinari92

Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension -

éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des calculs

"efficaces"

Exemples : Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre

Vapnik) Processus Gaussien (généralisent : régression logistique, cadre

Bayesien)

Perceptron : formulation duale

Apprentissage Statistique - P. Gallinari93

Perceptron primalInitialiser 0 0Répeter (t)

choisir un exemple, ,si . 0alors 1

Jusqu'à convergence

Fonction de décision

,

: nombre de fois où l’algorithme a rencontré une erreur de classification sur

Perceptron dualInitialiser , ∈Répeter (t)

choisir un exemple, ,soit :si ∑ . 0alors 1

Jusqu'à convergence

Fonction de décision

.

Matrice de Gram matrice NxN de terme i, j : .matrice de similarité entre données

Représentation DualeExemple introductif : le perceptron

Apprentissage Statistique - P. Gallinari94

Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1

i : mesure de la difficulté àclassifier iFonction de décision :

G = (xi.xj)i,j = 1..N : Matrice de Gram

Perceptron Dual = 0Répeter (t)Pour i = 1 à NSi

alors i = i (t) + 1Jusqu'à convergence

Fonction de décision :

W(0) = 0

Perceptron PrimalW(0) = 0Répeter (t)Pour i = 1 à N

Si di(W(t).xi) 0alors W(t+1) = W(t) + di.xi

Jusqu'à convergence

0)(1

N

j

ijjji xxdd

n

iii xwxF

1)()( sgn

N

i

ixidi

W1

N

ixixid

ixF

1).()( sgn

Représentation Duale

Apprentissage Statistique - P. Gallinari95

La plupart des machines à apprentissage linéaires ont une représentation duale Exemples

Adaline, regression, regression ridge, etc L’information sur les données est entièrement fournie par la matrice de

Gram : . , … , qui joue un rôle central

La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage

Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur x (on suppose ∈ ) par

, Φ , Φoù Φ est une fonction de dans un espace muni d’un produit scalaire

Produit Scalaire et Noyaux

Apprentissage Statistique - P. Gallinari96

Projection non linéaire dans un espace de grande dimension H (en général dim H >> n, et peut même être infinie) Φ: → avec ≫

Machine linéaire dans H - Primal : ∑ Φ

Machine linéaire dans H - Dual :

Calculer les produits scalaires dans l'espace initial : choisir F /

avec K : fonction noyau (i.e. symétrique)

bxxdxFxdWNi

ii

i

Ni

ii

i

)()()( )(1..1..

)',()'().( xxKxx

bxxKdxFNi

ii

i 1..

),()(

Apprentissage Statistique - P. Gallinari97

Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de H

: les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir

d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K.

Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples

ACP, Analyse discriminante, regression, etc

Caractérisation des noyaux

Apprentissage Statistique - P. Gallinari98

Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = { x1,…, xN}, K(x,x') une fonction symétrique sur X, K

est une fonction noyau ssi la matrice est positive semi-définie (valeurs propres 0)

Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement

ssi est fini

Nji

ji xxK 1,)),((K

1)'(.)()',(

iii xxxxK

dxxgg 2)(/

0')'()()',( dxdxxgxgxxK

Caractérisation des noyauxEspace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine fini peut

s’écrire sous la forme d’un produit scalaire :

avec Φ : x Φ(x) F espace de Hilbert

ssi c’est une fonction symétrique et toutes les matrices formées par la restriction de K à un échantillon fini sur X sont semi-définies positives).

Résultat à la base de la caractérisation effective des fonctions noyaux

Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer

)(),(),( zxzxK

Apprentissage Statistique - P. Gallinari99

L’espace de Hilbert associé à K :

Le produit scalaire défini sur cet espace :

l

iiiii liRXxNlxKF

1..1,,,/,.)(

l

ijj

n

jii

l

ijiji

n

j

n

jjj

l

iii

zfxgzxKgf

xKgxKf

1 11 1

11

)()(),( ,

,.)((.) ,,.)((.)Soient

Apprentissage Statistique - P. Gallinari100

Noyau auto-reproduisant

Si on prend g(.) = K(x,.), alors

)(),( ,.)(,1

xfxxKxKfl

iii

Exemples de noyaux

Apprentissage Statistique - P. Gallinari102

2 d de polynomes des ensemble ss i.e.

),)2(,).(()(/ avec )().(),(

).(),(

21n

: 2 d de monomes les tousi.e.

).()(/)( avec )().(),(

).)(.(.),(

.),(

,1,1,,

2

,1,,

1,

2

1

2

ccxxxx(x)zxzxK

czxzxK

xxxxzxzxK

zzxxzxzxK

zxzxK

niinjijiji

njijiji

n

jijiji

n

iii

Apprentissage Statistique - P. Gallinari103

Exemples de noyaux

).(

gaussien noyau exp

d ordred' polynome )1.(

),(2

cxvxSigmoïde

xx

xx

xxK

i

i

di

i

Construction des noyaux en pratique

Apprentissage Statistique - P. Gallinari104

Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles

Pour construire des noyaux, on procède par combinaison à partir de noyaux connus

Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) …..

Machines à vecteurs support

Apprentissage Statistique - P. Gallinari105

Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression,

densité Idées Projeter -non linéairement- les données dans un espace de

"très" grande taille H Faire une séparation linéaire de bonne qualité dans cet espace Raisonner dans H, mais résoudre le problème d'optimisation

dans l'espace de départ (noyaux)

Apprentissage Statistique - P. Gallinari106

Notion de marge

WxF )(

W

Wb

H : F(x) = W.x + b = 0

Marge géométrique pour xi :

Marge de W pr à ens. D :Mini(M(xi))

Hyperplan de marge maximale :

MaxW(Mini(M(xi)))

)()(Wbx

WWdxM iii

Marge géométrique vs marge fonctionnelle

Apprentissage Statistique - P. Gallinari107

Marge géométrique di.F(xi)/||w||

Marge fonctionnelle di.F(xi)

Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle.

Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique.

Prémisses : Séparation linéaire à hyperplan optimal (1974)

Apprentissage Statistique - P. Gallinari108

Hyp : D linéairement séparable

Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e.

di.F(xi) 1 , i

avec une marge maximale M =

i.e. : Problème Primal :

1 avec , 1.. i

Niii ddxD

wwxFd ii

i

1)(.min

1)(...

Minimiser 2

ii xFdCS

W

Apprentissage Statistique - P. Gallinari109

Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1

Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support

F* dépend uniquement du produit scalaire xi.x

support support

i i .x)(* x*i i

ii

ii xdxFdw

Marge

Vecteurs Supports

Apprentissage Statistique - P. Gallinari110

Apprentissage :

On résoud le problème d'optimisation dit dual :

Problème minimisation quadratique sous contraintes

0et 0.

.)( Maximiser

ii

,

ii

ji

jjji

ii

dCS

xxddL ii

Machines à vecteurs supports

Apprentissage Statistique - P. Gallinari111

Faire une séparation à marge max. dans un espace défini par une fonction noyau.

Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant par .xxi ),( xxK i

bxxKdxF

xxKxx

bxxdxFxdW

RR

SVx

ii

i

SVx SVx

ii

iii

i

pn

i

i i

..

.. ..

),()(

)',()'().(

)()()( )(

:

Apprentissage Statistique - P. Gallinari112

Apprentissage : On résoud le problème d'optimisation dual :

Problème minimisation quadratique sous contraintes dans l ’espace de départ

Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points

support. Seuls les produits scalaires K apparaissent, et pas les .

0et 0.

),()( Maximiser

ii

,

ii

ji

jijiji

ii

dCS

xxKddL

Propriétés de généralisation -exemples

Apprentissage Statistique - P. Gallinari113

Th 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ

Th 2 Si l'hyperplan optimal passe par l'origine et a pour marge

Alors

Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out).

1ageapprentissexemples#supports]vecteurs[#))](([

ExerreurPE

qxNiq i ,1../

N

][))](([

2

2

qExerreurPE

Cas non linéairement séparable

Apprentissage Statistique - P. Gallinari114

Marges molles

L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique

autoriser des erreurs, i.e. prendre pour contraintes :

ηi = 0, xi est correctement classifié et est du bon coté de la marge

0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge

ηi > 1, xi est mal classé

ηi : slack variable

0

1))(.(

i

iii bxWd

But Maximiser la marge tout en pénalisant les points qui sont mal classés

Formalisation Plusieurs expressions possibles du problème L’une des plus courantes :

C fixé par validation croisée joue le rôle de paramètre de régularisationNiNibxwd

CS

CwwMin

ii

N

i

..1,0 ..1,1).(

..

marge) lamax (i.e. ).(

i

i

1

i

Apprentissage Statistique - P. Gallinari115

Marges molles – formulation duale

0et 0.

),()( Maximiser

ii

,

ii

ji

jijiji

ii

dCCS

xxKddL

Apprentissage Statistique - P. Gallinari116

Algorithmes d’optimisation Algorithmes d’optimisation standard pour la programmation

quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO)

Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to the class

CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten Joachims.

SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem.

Algorithm (hinge loss) Training Time Primal cost Test Error

SVMLight 23642 secs 0.2275 6.02%

SVMPerf 66 secs 0.2278 6.03%

Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02%

Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01%Apprentissage Statistique - P. Gallinari117

Annexe : OptimisationProblèmes sous contraintes égalités, inégalités

Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R On considère le problème primal suivant (Pb. 0) :

mjwhkiwg

RwwfMin

j

i

n

..1,0)(..1,0)(

sContrainte Sous )),((

Apprentissage Statistique - P. Gallinari118

Optimisation non contrainte Fermat

Une C.N. pour que w* soit un min. de f(w) est

Si f est convexe c’est une Condition Suffisante

F est convexe si ∀ ∈ 0,1 , 1 1

0*)(

wwf

Apprentissage Statistique - P. Gallinari119

OptimisationLagrangien

On considère le (Pb. 1) :

On définit le Lagrangien L pour (Pb. 1) par

les βi sont les coefficients de Lagrange

mjwhCS

RwwfMin

j

n

..1,0)( ..

)),((

m

ijj whwfwL

1)()(),(

Apprentissage Statistique - P. Gallinari120

OptimisationTh. Lagrange

Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point

Si L(w, *) est une fonction convexe de w, c’est une C.S.

0*)*,(

0*)*,(

wLw

wL

Apprentissage Statistique - P. Gallinari121

OptimisationLagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) :

m

jjj

k

iii whwgwfwL

11

)()()(),(

OptimisationTh. Kuhn et Tucker

On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hj affines (hi = A.w – b)

1 CNS pour que w* soit un optimum est qu’il existe α* et β* /

kikiwg

kiwg

wLw

wL

i

i

ii

..1,0*..1,0*)(

..1,0*)(*

0*)*,*,(

0*)*,*,(

Apprentissage Statistique - P. Gallinari123

Rq :

Soit une contrainte est active (αi* ≠ 0) et gi(w*) = 0), w* est un point frontière de la région admissible

Soit elle est inactive ((αi* = 0) et w* est dans la région admissible

Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale

suivante :

Rq : est une fonction de , uniquement

0 S.C.

)),,(inf ( Maximiser ,

wLw

Apprentissage Statistique - P. Gallinari124

),,(inf wLw

SVM – formulations primale et duale SVM

Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = {(xi ,di)}i = 1..N linéairement séparables

Formulation similaire pour le cas non linéairement séparable

Pb. Primal

Lagrangien primal

Lagrangien dual

Nibxwd

CSwwMin

ii ..1,1).(

.. marge) lamax (i.e. ).(

Apprentissage Statistique - P. Gallinari125

0

)1).((.21),,(

1

i

N

i

iii bxwdwwbwL

N

i

jiji

jiN

ii xxddbwL

11).(

21),,(

SVM – formulations primale et duale Pb. Dual

Fonction de décision

Ni

d

CS

xxddbwL

i

N

ii

i

N

i

jiji

jiN

ii

..1,0

0

..

).(21),,(

1

11

VSi

ii

i bxxdxF.

*).(**)*,,(

Apprentissage Statistique - P. Gallinari126

Apprentissage non supervisé

Algorithme EM et mélange de densités

Probabilistic Latent Semantic Analysis

Latent Dirichlet Allocation

Spectral clustering

Non Negative Matrix Factorization

Applications

Apprentissage Statistique - P. Gallinari128

analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau)

trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc

réduction de la quantité d'information e.g. quantification

découverte de régularités sur les données ou de similarités.

Apprentissage non superviséAlgorithme Espérance Maximisation (EM)

Application aux mélanges de densités

Algorithme E. M. (Espérance Maximisation)

Apprentissage Statistique - P. Gallinari130

On dispose de données D = {xi}i = 1..N

On n’a pas d’étiquette di

d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données

On veut trouver les paramètres du modèle qui expliquent au mieux lagénération des données

On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus

fréquent P(D| W) = P(x1, …, xN| W)

D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la

vraisemblance

Exemple

On recueille des données sur deux populations e.g. taille d’individus D = {xi}i = 1..N

Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2

Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = {(xi, di}i = 1..N la solution est simple

On a deux population séparées (2 classes) C1, C2

La maximisation de la vraisemblance donne l’estimateur classique de la moyenne

Difficulté : les di sont inconnus

),(),,( 22

21 IdNIdN

Apprentissage Statistique - P. Gallinari131

ji Cx

i

jj x

C1

Cas où l’appartenance est connue

Apprentissage Statistique - P. Gallinari132

Vraisemblance ∏ |∈ ∏ |∈

En pratique on maximise la log-vraisemblance log ∑ ∑ ∈∈

Cas des gaussiennes

exp

0 ⇔| |

∑ ∈

Cas où la probabilité d’appartenance est connue

Apprentissage Statistique - P. Gallinari133

On connait | ,k 1,2

Log-vraisemblance log ∑ log

Cas des gaussiennes

0 ⇔∑ .

∑ |

Rq : si on ne connait les | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble.

Variables cachées (ou latentes)

Apprentissage Statistique - P. Gallinari134

On postule l’existence de variables cachées h responsables de la

génération des données À chaque xi, on associe sa classe cachée hi

H = {hi}I = 1..N

l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h)

P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W.

Remarque Les variables h sont inconnues et sont considérées comme des

variables aléatoires P(D, H| W) sera elle même une variable aléatoire

Algorithme EM On veut maximiser P(D/W)à partir de l'observation des données visibles

Problème

la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires (algorithme)

Solution : on maximise de façon itérative une fonction auxiliaire Q

L’espérance de la vraisemblance des données complètes connaissant le modèle courant

L’espérance est calculée par rapport à la distribution des variables cachées h

Le modèle courant à l’étape t est noté W(t)

Remarque : dans cette expression

D et W(t) sont des constantes

h est une variable aléatoire de densité p(h|x, W(t))

W est les paramètres du modèle que l’on veut estimer

H

ttt WHDpWDHpWDWHDpEWWQ )/,(log),/(,)//,(log)/( )()()(

Apprentissage Statistique - P. Gallinari135

Algorithme EM

Apprentissage Statistique - P. Gallinari136

L’algorithme converge vers un maximum local de la fonction Q et de P(D/W)

Initialiser W = W(0)

1. Etape E : EspéranceOn calculeOn en déduitL'espérance est calculée par rapport à la distribution de H

2. Etape M : MaximisationEtant donnée la distribution courante sur H, trouver les paramètres quimaximisent Q

),/( )(tWDHp)/( )(tWWQ

)(1)( ,)//,(logmaxarg t

W

t WDWHDpEW

Apprentissage Statistique - P. Gallinari137

Remarques Lors de l'étape E, on estime la distribution de H, à partir

des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, on utilise la

fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par :

L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les données les HMM ...

),/( )(tWDHp

)/( WDp

)/()/()/()/( tttt WDpWDpWWQWWQ

Exemple

Apprentissage Statistique - P. Gallinari138

Mélange de densités - Cas de deux classe gaussiennes, connu But (MV) : trouver On considère , les hi sont les données

cachées Algorithme

Initialisation itérer

Etape E

Etape M

NiixD ..1)( ),/(maxarg, 2121 Dp

Niii hxHD ..1),(

calculer i = 1..N, j = 1,2)/( ii xjhp )],,/([),,,,( 212121

tttttt HDPEQ

Trouver les μ1, μ2 qui maximisent Qcalculer

Ni

Nitj i

ii

xjhp

xxjhp

..1

..1)1(

)/(

)/(

(0)2 ,)0(

1

Apprentissage Statistique - P. Gallinari139

Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour

chaque point

Etape M : chaque centre est défini comme le centre de toutesles données, chacune étant pondérée par cette responsabilité

Cas limite : = 0 : algorithme des k-moyennes

k

iii

iiiii

khxpkhpjhxpjhpxjhp

)/()()/()()/(

Mélange de densités – cas gaussien

Apprentissage Statistique - P. Gallinari140

On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles

Paramètres Coefficients du mélange p(l| x), moyennes et écarts types

k

llxplpxp

1)/()()( 2

2

2)(

2/12 )2(1)/( l

lx

l

elxp

kllllpW

1..,),(

Vraisemblance

Vraisemblance complète variables cachées : hi classe de xi

N

i

k

l

i WlxpWlpWDp1 1

),/()/()/(

)),/()/((

)),/()/(()/,(

1 1

1

N

i

ik

l lh

N

i

iii

WlxpWlp

WhxpWhpWHDp

i log

loglog

Apprentissage Statistique - P. Gallinari141

Mélange de densité – Etapes E et M

Apprentissage Statistique - P. Gallinari142

Etape E

Etape M

),/()/(log),/(

),/()/,(log...)],(log[)/(

1 1

)(

1 1 1

)(,/

)(

1)(

WlxpWlpWxlp

WxhpWHDpWHDpEWWQ

iN

i

k

l

ti

k

h

k

h

N

i

tiiWXH

t

Nt

kl

tti

ttit

i Wlp(hWlhxp

Wjp(hWjhxpWxjhp

1..

)()(

)()()(

)).,/(

)),/(),/(

))1)/(((1)/( contrainte sous

)(

11

k

l

k

l

WlpQMinWlp

QMin

Mélange de densités – Reestimation dans l’étape M

Apprentissage Statistique - P. Gallinari143

i

titi

tii

tj

iti

tj

i

tii

iti

tj

WxjpN

jp

Wxjp

xWxjp

n

Wxjp

xWxjp

),/(1)(

),/(

),/(1

),/(

),/(

)()1(

)(

2)1()(2)1(

)(

)(

)1(

Apprentissage non supervisé

Mélange de densitésApprentissage par échantillonnage de Gibbs

Les méthodes MCMCMarkov Chain Monte Carlo

Apprentissage Statistique - P. Gallinari145

Méthodes de calcul intensif basées sur la simulation pour Echantillonnage de variables aléatoires

{x(t)}t=1..T qui suivent une certaine distribution p(x)

Calcul de l’espérance de fonctions suivant cette distribution

E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t))

e.g. moyenne, marginales, …

Maximisation de fonctions Argmaxxp(x)

Echantillonneur de Gibbs On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp

On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)

Algorithme Initialiser {xi, i = 1..n} Pour t = 1 …T faire

)(~nner Echantillo

........

)(~nner Echantillo

1

111

1

tnn

tn

tt

xxpx

xxpx

Apprentissage Statistique - P. Gallinari146

Apprentissage Statistique - P. Gallinari147

Propriétés Sous certaines conditions de régularité, la procédure converge

vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi jointe p(x)

On n’a pas besoin de connaitre la forme analytique des p(xi| x -i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés

Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide”

Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA)

Cas du mélange de deux lois gaussiennes Modèle

On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi)

Les paramètres à estimer sont :

On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et les

variances σ sont fixées, on estime juste les moyennes μ1 et μ2

Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t), μ2

(t))

2

1)/()()(

llxplpxp

2..1,),( llllpW

Apprentissage Statistique - P. Gallinari148

Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes

2,1),,ˆ(~générer 2.

2,1,)1(

).1(ˆ

calculer

2,1,),(),(

),()

selon 1,0générer 1.

1Pour 1...T Répéter t

, initiales valeursdesChoisir

j(t)j

1

)(

1

)(

j

2)1(

2)1(

21)1(

1)1(

1

)1()1(

)(

)0(2

)0(1

jN

jh

xh

jxppxpp

xppjp(h

h

...N i

j

N

i

ti

N

ii

ti

ti

tti

tj

tji

tj

i

ti

Apprentissage Statistique - P. Gallinari149

Lien avec l’algorithme EM

Apprentissage Statistique - P. Gallinari150

Les étapes pour cet exemple sont les mêmes que avec EM

Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2, on

échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer le max.

vraisemblance p(μ1, μ2| D) dans EM

Apprentissage non supervisé

Algorithmes à variables latentes Probabilistic Latent Semantic Analysis

Latent Dirichlet Allocation

Preliminaries : unigram model

Generative model of a document

Select document length Pick a word w with probability p(w) Continue until the end of the document

Applications Classification Clustering Ad-hoc retrieval (language models)

i

i dwpdp )()(

Apprentissage Statistique - P. Gallinari152

Preliminaries - Unigram model – geometric interpretation

Apprentissage Statistique - P. Gallinari153

2/1)(

4/1)(

4/1)(

3

2

1

tionrepresenta d doc

dwp

dwp

dwp

P(w1|d)

P(w3|d)

P(w2|d)

Document d

Word simplex

Latent models for document generation

Apprentissage Statistique - P. Gallinari154

Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown

Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to uncover

(inference) complex latent structures

Probabilistic Latent Semantic Analysis -PLSA (Hofmann 99)

Apprentissage Statistique - P. Gallinari155

Motivations Several topics may be present in a document or in a document

collection Learn the topics from a training collection Applications

Identify the semantic content of documents, documents relationships, trends, …

Segment documents, ad-hoc IR, …

PLSA

Apprentissage Statistique - P. Gallinari156

The latent structure is a set of topics Each document is generated as a set of words chosen from selected

topics A latent variable z (topic) is associated to each word occurrence in the

document

Generative Process Select a document d, P(d) Iterate

Choose a latent class z, P(z|d) Generate a word w according to P(w| z)

Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics

PLSA - Topic

A topic is a distribution over words

Remark A topic is shared by several words A word is associated to several topics

word P(w|z)

machine 0.04

learning 0.01

information 0.09

retrieval 0.02

…… …….

Apprentissage Statistique - P. Gallinari157

P(w|z)

words

PLSA as a graphical model

Apprentissage Statistique - P. Gallinari158

z

dzPzwPdwP

dwPdPwdP

)()()(

)(*)(),(

Boxes represent repeated samplingd wz

Corpus level

Document level

P(z|d) P(w|z)

DNd

PLSA model

Apprentissage Statistique - P. Gallinari159

Hypothesis # values of z is fixed a priori Bag of words Documents are independent

No specific distribution on the documents

Conditional independence z being known, w and d are independent

Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants

PLSA - geometric interpretation

Topici is a point on the word simplex

Documents are constrained to lie on the topic simplex

Creates a bottleneck in document representation

z

dzPzwPdwP )()()(

Apprentissage Statistique - P. Gallinari160

Topic simplex

topic2

topic1

topic3w2 w1

w3

Word simplex

Document d

Applications

Apprentissage Statistique - P. Gallinari161

Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image)

Collaborative filtering

Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.)

Latent Dirichlet Allocation - LDA (Blei et al. 2003)

Apprentissage Statistique - P. Gallinari162

LDA is also a topic model Extends PLSA

Motivations Generalization over unseen documents

Define a probabilistic model over documents Not present in PLSA

Allows to generate (model) unseen documents Overtraining

In PLSA, the number of parameters grows with the corpus size LDA constrains the distribution of topics for each document and

words for each topic

LDA - model

Apprentissage Statistique - P. Gallinari163

Similar to PLSA with the addition of a prior distribution on the topic distribution

Generative process For a document Topic distribution

Choose θ ~ Dirichlet () a distribution over topics

Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability conditioned on

topic z

LDA - model

Apprentissage Statistique - P. Gallinari164

ddzwpzpppWp

zwpzpppWZp

d

i

d

N

i ziii

N

iiii

1

1

),()()()(),(

),()()()(),,,,(

θ wz

Corpus level

Document level

Ф(z)

Multinomial

Dirichlet Multinomial

Nd

D

βT

Dirichlet

LDA – model - unfolded

Apprentissage Statistique - P. Gallinari165

P(w|z1,1)

words

P(z|1)

topics

1 2

Z1,1 Z1,2Z2,1

w1,1 w1,2 w2,1

Doc1 Doc2

………

PLSA vs LDA - geometric interpretation

PLSA provides a sampling of the document distribution on the topic simplex

LDA provides an estimate of the document distribution on the topic simple

Apprentissage Statistique - P. Gallinari166

topic2

topic1

topic3w2 w1

w3

Observed documents

topic2

topic1

topic3w2 w1

w3

Document distribution

Dirichlet etc…

Apprentissage Statistique - P. Gallinari167

, are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing

Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial

Allows to compute closed forms for posterior distributions

LDA applications

Apprentissage Statistique - P. Gallinari168

Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words

Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables

LDA tagging (Blei et al 2003)

Apprentissage Statistique - P. Gallinari169

Finding topics in PNAS (Griffith et al. 2004)

Apprentissage Statistique - P. Gallinari170

PNAS categories

LDA topics

Mean θi value for the most significant topic i on this

category

Peer to Peer document download analysis (Denoyer 2008)

Apprentissage Statistique - P. Gallinari171

Nodes are files Two nodes are connected if they have been dowloaded by

at least 20 peers (500 K peers in total and 2.5 K files) Colors indicate the thematic clustering performed by

LDA using the key words associated to files Results Strong correspondance between download (connections) and

thematic communities

Peer to Peer document download analysis (Denoyer 2008)

Apprentissage Statistique - P. Gallinari172

Author-recipient topic model (McCallum et al. 2004)

Apprentissage Statistique - P. Gallinari173

Learning from Enron data

Identify

•Topic

•Author-recipient

LDA – learning and inference

Apprentissage Statistique - P. Gallinari174

Exact learning and inference are intractable Approximate models Variational models Gibbs sampling Expectation propagation…

Other latent models

Apprentissage Statistique - P. Gallinari175

Image annotation Author-topic model Author-Recipient-Topic …

Example: Discovering e-communities (Zhou et al 2006)

Apprentissage Statistique - P. Gallinari176

Usual methods Rely mostly on graph and connectivity analysis

Machine learning Introduce semantic relationships

e.g. shared documents in e-mails or linked documents for the web Common interests

Example : e-mail analysis Recipient list (connectivity) Message body (Semantic information) Identify communities of users based on their exchanges, and

topics

Apprentissage Statistique - P. Gallinari177

A document is characterized by 3 latent variables Content t Author u Community c

Goal Compute p(c, u, z | w)

Message generation d Choose a community c Choose an author in the community

Choose a topic t Choose a word according to topic distribution w

Community-user-topic model

Apprentissage Statistique - P. Gallinari178

di wzCorpus level

Document level

cNd

D

ФβT

C

U

Distribution of users over communities

Example ( Zhou 06)

Apprentissage Statistique - P. Gallinari179

Apprentissage non supervisé

Spectral Clustering

Apprentissage Statistique - P. Gallinari180

Spectral Clustering (after Von Luxburg 2007)

Apprentissage Statistique - P. Gallinari181

Intuition x1, …, xn data points, wij similarity between xi and xj

G = (V, E) graph vertex vi corresponds to data point xi

Edges are weighted by wij

Clustering amounts at finding a graph partition such that Edges between clusters have low weights Edges among points inside a cluster have high values

Apprentissage Statistique - P. Gallinari182

Graphs notations G = (V, E) undirected graph

V = {v1, …, vn) Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight matrix

D : diagonal matrix with ∑

Apprentissage Statistique - P. Gallinari183

Building similarity graphs from data points Different ways to build a similarity graph Locally connected graphs: k-nearest neighbor graphs

Two vertices are connected if one of them is among the k-nearest neighbor of the other

Or two vertices are connected if both are in the k-neighborhood of the other

Edges are then weighted using the similarity of the vertices

Fully connected graphs

exp /2 )

Apprentissage Statistique - P. Gallinari184

Graph Laplacians Unnormalized graph Laplacian

Normalized graph Laplacians

I symmetric

interpretation : random walk on the graph

Apprentissage Statistique - P. Gallinari185

Properties of the unnormalized graph Laplacian L satisfies:

∀ ∈ , ∑ ,

L is symmetric, positive semi-definite The smallest eigenvalue of L is 0, the corresponding

eigenvector is 1 (vector with n 1)

L has n non negative eigenvalues 0 …

Apprentissage Statistique - P. Gallinari186

Properties of the normalized graph Laplacians

∀ ∈ , ∑ ,

Lsym and Lrw are positive semi-definite and have n non negative eigenvalues 0 …

is an eigenvalue of Lrw with eigenvector u iff is an eigenvalue of Lsym with eigenvector D1/2u

Unnormalized spectral clustering

Apprentissage Statistique - P. Gallinari187

Idée Projeter les points x ∈ , i 1…n, dans un espace de

dimension k dans lequel le clustering se fait facilement

Unnormalized spectral clustering

Apprentissage Statistique - P. Gallinari188

Input: n points x1, …, xn, similarity matrix S Output: clusters Construct similarity graph and corresponding weight matrix W Compute unnormalized Laplacian L Compute first eigenvectors of L (corresponding to smallest

eigenvalues): u1, …, uk

U: n x k matrix with columns u1, …, uk

For i = 1…n, ∈ i-th row of U Cluster yi, i = 1…n with k-means into clusters C1, …, Ck

k clusters in the initial space: C’1, …, C’k / C’i = {xj / yj Ci}

Note: Similar algorithms with normalized Laplacians

Apprentissage non supervisé

Non Negative Matrix Factorization

Apprentissage Statistique - P. Gallinari189

Matrix Factorization

Apprentissage Statistique - P. Gallinari190

Idea Project data vectors in a latent space of dimension k < m size

of the original space Axis in this latent space represent a new basis for data

representation Each original data vector will be approximated as a linear

combination of k basis vectors in this new space Data are assigned to the nearest axis This provide a clustering of the data

Matrix factorization

Apprentissage Statistique - P. Gallinari191

X = {x.1,…, x.n}, ∈ X m x n matrix with columns the x.i s Low rank approximation of X

Find factors U, V, / With U an m x k matrix, U a k x n matrix, k < m, n

x

m x n m x k k x n

Many differentdecompositions e.g. SingularValue Decomposition, Non Negative Matrix Factorization, Tri

factorization, etc

X U V

MARAMI 2013 - Learning representations for social networks

192

Applications Recommendation (User x Item matrix)

Matrix completion

Link prediction (Adjacency matrix) …

MARAMI 2013 - Learning representations for social networks

193

. ∑ .

Columns ofU,u.j arebasisvectors,the arethecoefficientof . inthis basis

X V

x.j v.ju.1u.2u.3

Original data Basis vectorsDictionnary

Representation

x

v.j

u.1

u.2

u.3

MARAMI 2013 - Learning representations for social networks

194

Interpretation If X is a User x Item matrix

Users and items are represented in a common representation spaceof size k

Their interaction is measured by a dot product in this space

x.jv.j

ui.

Original data User Representation

Item Representation

xUsers

Items

MARAMI 2013 - Learning representations for social networks

195

Interpretation If X is a directed graph adjacency or weight matrix

x.jv.j

ui.

Original data Sender Representation

ReceiverRepresentation

xNodes

Nodes

MARAMI 2013 - Learning representations for social networks

196

Loss function - example Minimize constraints on U, V: , e.g.

Positivity (NMF) Sparsity of representations, e.g. , group sparsity, … Overcomplete dictionary U: k > m Symmetry, e.g. trifactorisation Bias on U and V e.g. biases of users (low scores) or item (popularity) for recommendation

Multiple graphs Any a priori knowledge on U and V

Non Negative Matrix Factorization

Apprentissage Statistique - P. Gallinari197

Solve,

Underconstraints , 0i.e.thefactors areconstrained tobe nonnegative

Convex loss function inUandinV,butnotinboth UandV

Apprentissage Statistique - P. Gallinari198

Algorithm Constrained optimization problem Can be solved by a Lagrangian formulation

Iterative multiplicative algorithm (Xu et al. 2003)

U, V initialized at random values Iterate until convergence

Or by projected gradient formulations The solution U, V is not unique, if U, V is solution, then UD, D-1V

for D diagonal positive is also solution

Apprentissage Statistique - P. Gallinari199

Using NMF for Clustering Normalize U as a column stochastic matrix (each column

vector is of norm 1) ←

← ∑

Under the constraint “U normalized” the solution U, V is unique

Associate xi to cluster j if

Apprentissage Statistique - P. Gallinari200

Note many different versions and extensions of NMF Different loss functions

e.g. different constraints on the decomposition Different algorithms

Applications Clustering Recommendation Link prediction Etc

Specific forms of NMF can be shown equivalent to PLSA Spectral clustering

Illustration (Lee & Seung 1999)

Apprentissage Statistique - P. Gallinari201

Basis images for

NMF

Vector Quantization

Principal Component Analysis

Apprentissage Semi superviséMéthodes génératives et discriminantes

Méthodes basées sur les graphes

Problématique

Apprentissage Statistique - P. Gallinari203

Cadre Problème de discrimination, i.e. on veut estimer P(C| x) pour

toutes les classes C Motivation Apprendre à classifier des données en utilisant un faible

nombre de données étiquetées et un grand nombre de données non étiquetées

L’etiquetage coûte cher, les données non étiquetées sont souvent largement disponibles

Utilisation Nombreux problèmes du web Ressources (temps, moyens humains etc) non disponibles pour

construire des ensembles annotés

Méthodes

Apprentissage Statistique - P. Gallinari204

Très nombreuses méthodes Self learning Méthodes génératives Méthodes discriminantes

SVM, CEM

Méthodes à base de graphes …

Apprentissage semi-superviséModèles génératifs

Apprentissage Statistique - P. Gallinari205

Approche générale : Maximiser la vraisemblance jointe des données étiquetées et

non étiquetées Utiliser un algorithme EM On en déduit P(C|x) pour tout x On regarde ici le cas à 2 classes

Notations D = DLU DU

DL : Labeled data DU : Unlabeled data

C1 et C2 sont les deux classes considérées p1 et p2 sont les probabilités a priori des deux classes C1 et C2

Apprentissage semi-superviséModèles génératifs

Apprentissage Statistique - P. Gallinari206

uiU

LLL

UL

Dx kkik

Dx

CDxCDxDx

DxDxM

DxM

Cxpxp

CxpCxpxp

xpxpL

xpL

))/(.(log)(log

),(log),(log)(log

)(log)(log

)(log

2

1

2121

Log Vraisemblance des données

Vraisemblance des données non étiquetées.

C’est un modèle de mélange

Vraisemblance des données

étiquetées

Apprentissage semi-superviséModèles génératifs

Apprentissage Statistique - P. Gallinari207

uiki Dx k

kikk Cx

kikM CxpCxpL ))/(.(log))/(.log(2

1

2

1

La vraisemblance totale s’écrit

Important Les modèles pour les densités p(x| C) sont les mêmes pour les

données supervisées et non supervisées C’est ce qui permet de capturer dans une même fonction nles

informations supervisées et non supervisées

Somme sur les données

étiquetées

Somme sur les données non étiquetées

Modèle de mélange

Apprentissage semi-superviséModèles dicriminants (Amini 2004)

Apprentissage Statistique - P. Gallinari208

0,et1 hkk tkhtCx

Au lieu de maximiser la vraisemblance, on va maximiser la vraisemblance classifiante (Symons et al. 71).

But classifier les exemples en c groupes en prenant une décision

“dure”.

avec T=(t1,…,tc) le vecteur des indicateurs de classe:

Vraisemblance classifiante vraisemblance des données complètes (donnée, classe) :

8

c

k

N

ikkkikkiC CxptCL

1 1

)),,/(.log(.),,(

Apprentissage Statistique - P. Gallinari209

Comparer avec la vraisemblance usuelle pour un mélange de densités :

N c

kkkkikkiC CxptCL

11 1

)),,/(..(log),,(

Vraisemblance classifiante pour le cas semi-supervisé

Apprentissage Statistique - P. Gallinari210

Pour un classifieur discriminant maximiser LC est equivalent à maximiser

n étiquetés, m non étiquetés

Algorithme : CEM

c

k

mn

nikkikki

c

k kCixkkikC xCptxCpCL

1 11)),,/(log(.)),,/(log(),,(~

9

Mesures d’évaluation

Apprentissage Statistique - P. Gallinari211

Caractéristique des ensembles de données

Critère de performance

Pertinent

Non pertinent

Decision du système

+

PGC = ++

Precision =

Classification

Text summarization

IJCAI’03

Exemple : Email spam

Apprentissage Statistique - P. Gallinari212IJCAI’03

5%

65%

73%

82%

Exemple : Résumé de texte

Apprentissage Statistique - P. Gallinari213IJCAI’03

Apprentissage semi-superviséModèles de graphes

Apprentissage Statistique - P. Gallinari214

Les modèles génératifs ou discriminants précédants ne prennent pas en compte la densité locale des données. Ils ne considèrent que la cohérence globale des données

Vraisemblance Sans considérer la cohérence locale

Voisinage des points, densité locale

Cela peut conduire à des erreurs importantes si les densités ne sont pas bien séparées

Plusieurs familles de modèles ont été proposées pour prendre en compte à la fois les cohérences globales et locales des données Parmi elles, les méthodes à base de graphes

Data consistency (Zhou et al. 2003)

Apprentissage Statistique - P. Gallinari215

SSL rely on local (neighbors share the same label) and global (data structure) data consistency

Fig. from Zhou et al. 2003

Apprentissage Statistique - P. Gallinari216

Graph methods general idea Create a graph G = (V, E) Compute a similarity matrix W: Wij is the similarity between

nodes i and j Propagate observed labels to unlabeled nodes

Example (Zhou et al 2003)

Compute an affinity matrix W

a normalized affinity matrix S

Iterate

Converges to Y* final labels on unlabeled data

0),2

exp(: 2

2

iiji

ij Wxx

WW

)0()1()(.)1( YtYStY

Apprentissage Statistique - P. Gallinari217

21

21

WDDS

D is a diagonal matrix whose ith element is the sum of ith row of W

Y(0) matrix of initial labels and 0 for unlabeled data

Iterations

Apprentissage Statistique - P. Gallinari218

Fig. from Zhou et al. 2003

Apprentissage en présence de données positives uniquement

Apprentissage Statistique - P. Gallinari219

Problème Discrimination avec des étiquetages dans une seule classe -

positifs- et en faible nombre Nombreuses instances dans la réalité

Méthode pratique générale On considère que les exemples les plus éloignés des exemples

étiquetés sont négatifs On applique un algorithme d’apprentissage semi-supervisé

Quelques liens utiles

Apprentissage Statistique - P. Gallinari220

Livres Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et algorithmes (2nd

Ed.with revisions and additions - 2006 Eyrolles, 650 p Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer

(2006). David Barber, 2012, Bayesian Reasoning and Machine Learning, Cambridge Univ.

Press. Software

General Weka 3: Data Mining Software in Java

http://www.cs.waikato.ac.nz/ml/weka/ Lush (Leon Bottou)

http://lush.sourceforge.net) SVM

http://www.csie.ntu.edu.tw/~cjlin/libsvm/http://svmlight.joachims.org/http://www.torch.ch/

Test sets UCI machine learning repository …..

Apprentissage Statistique - P. Gallinari221

Extension multidimensionnelle Données : x1,…, xN n, d1,…, dN p, y1,…, yN p

Modèle : dk = W xk k {1,…,N} i.e. D = W X

Avec D dont les colonnes sont les et X dont les colonnes sont les , W matrice p x n

Fonction de coûtC(W) = || D -W X ||2

Algorithme: Widrow-HoffW(t+1) = W(t) - (t)[ W x - d].x

Apprentissage Statistique - P. Gallinari222

Calcul de l'association optimale par l'algèbre linéaire

L'équation D = W X a une solution ssi D = D X+ X où X+ est la matrice pseudo-inverse de X

La solution générale est donnée par:

W = D X+ + Z ( I - X X+) (*)

où Z est une matrice arbitraire de même dimension que W

Quand D = W X n'a pas de solution exacte (*) est solution de MinW ||D -W X||2

i.e. (*) est la solution optimale de MinW ||D -W X||2