Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...

Apprentissage Statistique

Master DAC - Université Paris 6P. Gallinari, patrick.gallinari@lip6.fr, http://www-connex.lip6.fr/~gallinar/

Année 2014-2015Partie 1

Introduction

Apprentissage à partir d'exemples

Apprentissage Statistique - P. Gallinari3

3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère C (apprentissage et évaluation)

But Extraire de l'information à partir des données

Information pertinente pour la tâche étudiée pour d'autres données du même type

Utilisation Inférence sur de nouvelles données

Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement

Exemples - problèmes d'apprentissage

Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus

Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge +

Google car But : suivre route Critère : distance parcourue

Recherche d'information textuelle Données : (texte + requête, (information pertinente)) – corpus d’apprentissage But : extraire l'information correspondant à la requête Critère : Rappel / Précision

Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ?

Modélisation d'utilisateur Données : (Traces utilisateur) But : analyser/ modéliser le comportement de l'utilisateur

Exemples : ciblage clientèle, aide navigation, publicité, recommandation, assistants personnels e.g. Google now

Critère : ? Evaluation : ? Example Google Now

Google Now keeps track of searches, calendar events, locations, and travel patterns. It then synthesizes all that info and alerts you—either through notifications in the menu bar or cards on the search screen—of transit alerts for your commute, box scores for your favorite sports team, nearby watering holes, and more. You can assume it will someday suggest a lot more.

Plus difficile : Traduction Extraction d’information (e.g. Never-Ending Language/ Image Learning) Compréhension de texte / scène visuelle – extraction de sens Découverte dans bases de données ou bases de connaissances ....

Données : i.e. représenter l'information ?? But ?? Critère ?? Evaluation ??

Données : diversité

Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07

Terrabytes of Warehoused Data

25 49 94 100500

Teleco

GRAND CHALLENGE PROBLEMS OF DATA PROCESSING

TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET

Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE

Millions of Events Processed Per Day

50 120 2252,000

14,000

SABRE VISA NYSE Y! Panama Y! DataHighway

Données : quantitésPetabytes (10^15) (chiffres 2012)

Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street

Photos Telecoms: AT&T transfers about 30 petabytes of data

through its networks each day Physics: The experiments in the Large Hadron Collider

produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability

to store memories is equivalent to about 2.5 petabytes of binary data

Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/

Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment analysis Convert 350 billion annual meter readings to better predict power consumption

Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster

Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer

satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety and

number of sources grows.

Gartner Hype Cycle: Big Data

Data science (Wikipedia 2013)

Data science incorporates varying elements and builds on techniques and theories from many fields, including mathematics, statistics, data engineering, pattern recognition and learning,advanced computing, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting meaning from data and creating data products. …..Data science seeks to use all available and relevant data to effectively tell a story ….

Data science is the practice of deriving valuable insights from data. Data science is emerging to meet the challenges of processing very large data sets i.e. "Big Data" consisting of structured, unstructured or semi-structured data that large enterprises produce. A domain at center stage of data science is the explosion of new data generated from smart devices, web, mobile and social media. ……data scientists rely heavily upon elements of statistics, machine learning, text retrieval and natural language processing to analyze data and interpret results.

Place de l’apprentissage

L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise

Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation

Domaines d’application en Data MiningExemples

Web recherche d'information, filtrage d'information extraction d'information textuelle : e.g. recherche, bibliothèques virtuelles, veille

technologique, Question Answering , ... Multi-média

image + son, vidéo Données d’entreprise

infos produits, infos clients, ciblage clientèle ... Analyse comportement

e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet, aide accès information, publicité

Distribué Mobiles : personnalisation, accès information Capteurs distribués, objets connectés

Biologie - analyse de séquences, de structures Automobile ...

Challenges de l’apprentissage

Passage à l’échelle Quantité de données, taille données

Dynamicité Flux

Distribué Complexité des données et des problèmes Données structurées

standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !!

Nouveaux problèmes, nouveaux usages Adaptation rapide outils existants et création de nouveaux

outils

4 Familles d’algorithmes

Données dans la pratique de l’apprentissage

Distinguer les ensembles d’apprentissage

Mettre au point le modèle

de test Evaluer les performances du modèle appris

de validation Apprentissage de méta-paramètres

Remarque On fera en général l’hypothèse que toutes les données sont générées

suivant une même loi

Apprentissage supervisé

Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée)

, , … , , But Au moyen d'un algorithme d'apprentissage, découvrir

l’association En utilisant les données d’appprentissage Qui offre une bonne généralisation

i.e. si hors de l'ensemble d'apprentissage mais généré par le même phénomène

Utilisation discrimination, identification, prévision, approximation …

Apprentissage non supervisé

Ensemble d'apprentissage Uniquement des données d’entrée , … ,

But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les

données

Utilisation estimation de densité, extraction de similarités

Apprentissage semi supervisé

Ensemble d’apprentissage étiquetés – faible quantité

, , … , , non étiquetés – grande quantité

, … , But Extraire l’information des exemples non étiquetés utile pour

l’étiquetage Apprendre conjointement à partir des deux ensembles d’exemples

Utilisation grandes masses de données où l’étiquetage est possible mais trop

coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes

instances d’un problème

Apprentissage par Renforcement

Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative)

, , … , , Les xi peuvent être des séquences (temporal credit

assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.

But Apprendre des actions optimales

Utilisation commande, décision séquentielle, robotique, jeux,

programmation dynamique, applications web ou sociales, ...

Exemple introductif : Perceptron

Un exemple : Perceptron (1960 Rosenblatt)

(image from Perceptrons, Minsky and Papert 1969)

Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil :

∑ ∑ avec 1 Classe 1 : ∶ 1 Classe 2 : ∶ 1

Cellules d’association Cellule de décision

L'algorithme du perceptron (2 classes)

C'est un algorithme à correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable

Donnéesbase d’apprentissage , , 1. . , ∈ , ∈ 1,1

Outputclassifieur ∈ , décision ∑

Initialiser w (0)Répeter (t)

choisir un exemple, ,Si . 0alors 1

Jusqu'à convergence

Fonction discriminante linéaire

Surface de décision: hyperplan F(x) = 0 Quelques propriétés w est le vecteur normal de l'hyperplan, il défini son

orientation distance de x à H : / w0 = 0 : H passe par l'origine

. ∑ avec 1

Géométrie de la discrimination linéaire

F(x) < 0

F(x) > 0wxF )( F(x) = 0

Le perceptron effectue une descente de gradient

Fonction de coût ∑ . ., é

gradient

, … , avec ∑ ., é

Règle d’apprentissage

Demo http://lcn.epfl.ch/tutorial/english/

Cas multi-classes

Approche générale : one vs all p classes = p " problèmes 2 classes " : Ci contre le reste

construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces.

Régions convexes : limitation des classifieurs linéaires

Propriétés Probabilité de séparabilité linéaire (Cover 1965)

Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie)

L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de dimension

n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m formes.

P(m,n) : probabilité qu'une dichotomie soit linéairement séparable.

nm siC

nm si nmL

C m nmmi

n( , )

P(m,n)

Propriétés Théorème de convergence du perceptron (Novikov 1962)

Si ∃ :∀ , R

les données peuvent être séparées avec une marge , i.e. supmin .

l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois

Alors après au plus corrections, l'algorithme converge

Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964)

Si les données sont séparables elles sont en nombre infini règle arrêt : après la kème correction, les

données présentées sont reconnues correctement

le perceptron converge en l / /

étapes avec une probabilité 1 , l'erreur de test est <

Overtraining / généralisation en regression

Exemple (Bishop 06)

Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation

Algorithmes d'apprentissage numérique

Il existe un grand nombre d’algorithmes et de familles d’algorithmes pour les différents problèmes génériques abordés en apprentissage

Il existe de nombreuses implémentations sous forme de programmes dédiés ou de logiciels plus généralistes

Quelques exemples populaires Données statiques

Supervisé Réseaux de neurones Arbres décision / régression, random forest Fonctions noyau, machines à vecteurs supports Nombreux modèles pour l’estimation de densité paramétrique, non paramétrique

Non supervisé Modèles à variables latentes

Modèles latents probabilistes Factorisation matricielle

Données structurées Séquences

Réseaux de neurones récurrents, modèles Markoviens Arbres et graphes

Modèles relationnels

Formalisation du problème de l'apprentissage

Formalisme probabiliste

Données vecteurs aléatoires générés suivant une densité

Machine d’apprentissage avec les paramètres du modèle à valeur dans un

espace réel Coût pour la machine et l’exemple

Risque théorique

Solution optimale ∗

Apprentissage à partir d'exemples

Données ..

Risque empirique ∑

Principe inductif Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique

La fonction ∗ qui minimise le risque théorique est approximée par qui optimise le risque empirique C’est le principe que l’on utilise dans une grande partie du cours

Est-ce un bon principe ? Propriété de généralisation ?

Problèmes d'apprentissage : exemples

Discrimination , , ∈ 0,1 ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs

Régression , , ∈R un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques

Estimation de densité

ensemble de fonctions réelles R : espérance C : vraisemblance

0si 1sinon

Préliminaires : gradient, regression, regression logistiqueModèles discriminantsRéseaux de neurones

Machines à noyaux

Optimisation par gradientRegression

Regression logistique

L’apprentissage supervisé recouvre un ensemble de problèmes génériques Regression Classification Ranking …

Dans le première partie du cours on examine des problèmes de régression et de classification

OptimisationAlgorithmes de gradient

Objectif Optimiser une fonction de coût C(w) dépendant de paramètres w Principe :

Initialiser w Itérer jusqu’à convergence

1 la direction de descente D, le pas de gradient sont déterminés à partir

d'informations locales sur la fonction de coût C(w), i.e. approximations au 1er ou 2nd ordre.

Exemple :

Gradient de la plus grande pente (batch)Ensemble d’apprentissage

, , … , ,

Initialiser Itérer

1 t)Critère d’arrêtAvec ∑

Autres procédures de minimisation basées sur le gradient

Approximation quadratique locale de la fonction à optimiser (on approxime C par une parabole)

Avec H le Hessien de C(.) :

En différentiant par rapport à w

On cherche le minimum de C

Méthode de Newton

Trop couteux en pratique (O(n3) pour l’inverse, + dérivées partielles)

)()(21)()()()( 00000 wwHwwwCwwwCwC TT

0)( wC

0 wCHww

)()()( 00 wwHwCwC

En pratique on utilise des gradients du 1er ordre ou des approximations du 2nd ordre

Exemple approximation du 2nd ordre : Méthodes de quasi-Newton : approximation de H-1

itérativement. Forme générale :

H' : approximation de sans calculer les dérivées secondes

))(),(,,,'('')('

wCwCwwHFHHwCHww

Regression

Regression simple Objectif : prédire une fonction réelle Ensemble d’apprentissage

, , … , , ∈ , ∈ : regression simple

Modèle linéaire . ∑ avec 1

Fonction de coût Moindres carrés

Gradient de la plus grande pente , , …,

∑ . ∑ .

Regression

Géométrie des moindres carrés

0 2 4 6 8 10 12 14 16 18 20

Regression multi-variée

Le modèle s’étend directement au cas où On a alors p regressions linéaires indépendantes L’algorithme est identique

Interprétation probabiliste

Modèle statistique de la regression . , où est une v.a. qui modélise l’erreur

On suppose que est une v.a. i.i.d. gaussienne ~ 0, , exp

La distribution a posteriori de d est alors | ; exp .

Vraisemblance ∏ | ;

C’est une fonction de w, calculée pour un ensemble de données, ici les données d’apprentissage

Principe du maximum de vraisemblance Choisir le paramètre qui maximise ou toute fonction croissante de

on va maximiser la log vraisemblance qui donne des calculs plus simples

∑ . On retrouve le critère des moindres carrés

Sous les hyp. précédentes, on a une interprétation probabiliste de la régression

Regression logistique

La regression linéaire peut être utilisée pour des problèmes de regression ou de classification

Un modèle mieux adapté pour la classification (avec des sorties binaires) est celui de la régression logistique

Fonction logistique La fonction

est appelée fonction logistique ou

sigmoide

hint 1

-5 -4 -3 -2 -1 0 1 2 3 4 5

sigmoid

Regression logistiqueInterprétation probabiliste

Comme ∈ 0,1 , on va faire l’hypothèse d’une distribution conditionnelle de Bernouilli

1 ; et 0 ; 1 En plus compact

; 1 avec ∈ 0,1

Vraisemblance

Log-vraisemblance ∑ 1 log 1

Gradient de la plus grande pente

∑ Algorithme

Regression logistique multivariée

On suppose que l’on a un problème de classification à plusieurs classes 1…p On les code suivant la fonction indicatrice suivante

Classe 1: 1,0, … , 0 Classe 2 : 0,1, … , 0 … Classe 1: 0,0, … , 1 On a un vecteur de sorties à p dimensions – codage “one out of p”

La fonction est une fonction vectorielle à p dimensions La composante i sera une fonction softmax

Attention : ici ∈ est un vecteur

Le modèle probabiliste sous jacent est un modèle multinomial pour les densitésconditionnelles

; = .∑ .

Algorithme d’apprentissage Comme précédement on peut utiliser un algorithme de gradient pour maximiser la log

vraisemblance

Réseaux de neurones

Réseau de neurone - description informelle

Caractéristiques

Ensemble d’éléments simples interconnectés Echange d'information au moyen des connexions Calcul/ mémoire distribués

Apports pluridisciplinaires

Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique

Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory,

apprentissage...)

Fondements biologiques

Le neurone Soma Arbre des dendrites Axone Flot d'information

axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses

Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise vers

le soma. Comportement du neurone + mémoire ?

Exemple : réseau linéaire

Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )

Apprentissage Dynamique Caractéristiques :

Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique

Visible units Hidden units

SIGNAL DECISIONW

Visible units

Neurones et Types de neurones

Composants du neurone

Historique rapide des réseaux de neurones

43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities"

40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries

anti-aeriennes) Boucle de rétro-action

48 – 50 Von Neuman : réseaux d'automates 49 Hebb : apprentissage dans les réseaux d'automates 55 – 60 Rosenblatt : Perceptron Widrow - Hoff : Adaline

70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires

Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ...

2006 - .. Deep neural networks, restricted Boltzmann machines,… Representation learning

Optimisation dans les RNAlgorithmes de gradient

Principe : 1 la direction de descente D, le pas de gradient sont déterminés à

partir d'informations locales sur la fonction de coût C(w), i.e. approximations au 1er ou 2nd ordre.

Exemples :

Plus grande pente (batch) Initialiser Itérer

1 t)Critère d’arrêtAvec ∑

Gradient adaptatif (on line – stochasticgradient)

initialiserIterer

choisir un exemple 1

Critère d’arrêt

Le neurone formel

C'est un automate caractérisé par l’espace des signaux d'entrée , … , ∈

une fonction de transition

Fonctions de transition Historiquement, fonction à seuil (Neurone formel de McCulloch et Pitts) En pratique on utilise des fonctions différentiables

Soit ∑ , on considère des fonctions de la forme Fonction identité g

Fonction sigmoïde g

Fonction tangente hyperbolique g

On verra par la suite d’autres fonctions de transition

y = F(x)

Gradient stochastique et Adaline

On suppose que l’on est dans un contexte « en ligne » Les données arrivent et sont traitées séquentiellement Les paramètres sont modifiés pour chaque donnée Gradient stochastique (Robbins-Monro, 1951), popularisé pour

les réseaux de neurones par (Widrow et Hoff, 195X)

Que l’on compare avec l’algorithme batch

Gradient adaptatif (on line – stochasticgradient)

InitialiserIterer

choisir un exemple1

Critère d’arrêt

Plus grande pente (batch)

Avec ∑

Initialiser Itérer

1 t)Critère d’arrêt

Adaline

Neurone linéaire Risque empirique : moindres carrés

Adaline : règle de Widrow-Hoff

x(t) est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local

A comparer avec le gradient classique qui calcule le gradient sur le risque empirique

initialiser 0Iterer

choisir un exemple 1 .

Critère d’arrêt

Plus grande penteinitialiser 0Iterer

1 ∑ .Critère d’arrêt

Apprentissage hors ligne vs apprentissage adaptatif

ck erreur sur la forme k de l'ensemble d'apprentissage

Gradient sur C Gradient adaptatif sur c

Optimisation dans les RNAlgorithmes de gradient

Les algorithmes d’optimisation pour les réseaux de neurones utilisent souvent ces techniques simples de gradient stochastique

Raisons Historique Complexité et taille de données Ces méthodes sont devenues populaires également pour de

nombreux autres modèles (complexité) Ils exploitent bien la redondance présente dans les données Bien adaptés aux grandes dimensions

En pratique utilisation d’algorithmes « mini-batch » À chaque itération on considère un petit sous ensemble des données

Perceptron Multicouches

Réseau avec : des couches externes: entrée et sortie des couches internes dites cachées Les cellules sur les couches internes et la couche de sortie

sont des fonctions sigmoïdes ou tangente hyperbolique.

Output

hidden layers

Perceptron Multicouches

Les exemples sont présentés séquentiellement Inférence : passe avant Pour chaque exemple on calcule la sortie

Apprentissage : passe arrière On calcule l’erreur entre sortie désirée et sortie

calculée. On propage cette erreur pour calculer le gradient des poids du

réseau

Notations vecteur activation de la couche i

activation du neurone j de la couche i

matrice de poids de la couche i à la couche i+1

poids de la cellule k sur la couche i à la cellule j sur la couche i+1 vecteur de sortie

Inférence : passe avant

Pour un exemple x On calcule en parallèle les activités de la couche de neurones 1 puis )

Avec ,

On utilise les sorties de la couche 1 comme entrées de la couche 2 et on calcule en parallèle les activités de la couche 2

puis )

Apprentissage : passe arrière

On décrit l’algorithme dans le cas d’une fonction de coût moindre carrés

On présente un exemple , , ∈ , d ∈ On calcule la sortie , ∈

Calculer l’erreur , … , Rétropropager cette erreur de la couche de sortie vers la

couche d’entrée : ∆ mise à jour des poids par sgd

∆ gradient pour C’est cette quantité « » que l’on va rétropropager

2 ′ si i est une cellule de sortie

∑ ′ si i n’est pas une cellule de sortie

Remarques Comme pour la passe avant, on modifie tous les poids d’une

couche en parallèle C’est une implémentation particulière de l’algorithme du

gradient stochastique qui évite de dupliquer les calculs Elle peut être adaptée à toute fonction différentiable Fonctions de coût

Pour des tâches de regression : LMSE Pour des tâches de classification, différentes fonctions employées Entropie croisée Hinge, logistique (cf slide suivant)

Fonctions de coût Différentes fonctions de coût sont

utilisées, suivant les problèmes, oules modèles

LMSE Regression

Souvent utilisé en classification

Classification, Hinge, logistique Classification Exemples

∈ , ∈ 1,1 Hinge, logistique sont ici des

approximations de l’erreur de classification

Figure from Bishop 2006

En abscisse : . (marge)

, | |, 1 . max 0,1 .

, ln 1 exp .

Contrôle de la complexité

En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité

cf partie théorique du cours Nombreuses méthodes

Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés

Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,

etc) Apprentissage bayesien

Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du

modèle Méthodes d’ensembles

Boosting, bagging, etc ….

Regularisation

Hadamard Un problème est bien posé si

Il existe une solution Elle est unique La solution est stable

Exemple de problème mal posé (Goutte 1997)

Tikhonov Propose des méthodes pour transformer un problème mal posé en problème

bien posé

Régularisation

Principe: Contrôler la variance de la solution en contraignant la fonctionnelle F Optimiser C = C1 + C2(F) C est un compromis entre

C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids)

: poids de la contrainte Moindres carrés régularisés

On reprend le cas de la regression linéaire simple

∑ . ∑ 2 régularisation , 1 régularisation connu aussi sous le nom de « Lasso »

Fig. from Bishop 2006

Résoudre ∑ . ∑

Revient à résoudre le problème d’optimisation sous contrainte ∑ .

Sous contrainte ∑ s pour une certaine valeur de s

Effet de cette contrainte

Fig. from Bishop 2006

Régularisation empirique pour les réseaux de neurones

∑ biaise la solution en diminuant les poids inutiles

∑ 2 groupes de poids autour de c

∑ 1 ∑ cellules cachées h + poids

Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres"

Autres idées pour le problème de la généralisation dans les réseaux de neurones

Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau.

Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu 1994

; Bishop 1994) Réseaux à convolution

Exemple (Cibas et al, 95, 96)

Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde :

3 classes C1, C2, C3 engendrées respectivement par :

u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation

1 5 9 13 17 21

h 2h 1

Evolution des performances pendant l'apprentissage

Sans régularisation

Figure 1 a (left), b (right): evolution of the performances (mean square error) duringtraining for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hiddenlayer.

Evolution des performances pendant l'apprentissage

Avec régularisation

Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim)

h=60-WD

h=15-estim

h=60-estimh=15-ord

h=60-ord

h=15-ord

h=15-estimh=60-estimh=60-WD

Fonctions à Base Radiale

Réseau à deux couches Notations

wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée

Risque : moindres carrés

Couche de sortie

g = IdCouche intermédiaire

j jj xwwA 0

.0)( jj ijiii wxgwwxGy

La fonction sigmoïde

Distribution de la famille exponentielle :

, : paramètres de la loi, ( paramètre de position , paramètre de dispersion).

Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ...

Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. :

)),()())/(((),,( xcabxxp T exp

)),()())/((()/( xcabxCxp iT

ii exp

1)/(bxwi T

Capacités d'approximation des PMC

Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989))

Théorème 1 (regression): Soit f une fonction saturante continue, alors l'espace des fonctions de la forme ∑ . . est dense dans l’espace des fonctions continues sur le cube unité C(I). i.e. ∀ ∈ ∀ 0, ∃ ∶ sur I

Théorème 2 (classification): Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors ∀ 0, il existe une fonction de la forme ∑ . . et un ensemble ⊂ tel que 1 (D)

sur D .

(Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute mesure de

probabilité m sur , l'espace des fonctions de la forme ∑ . .est uniformément dense sur les compacts de - espace des fonctions continues sur

Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est intégrable,

alors l'espace des fonctions de la forme :

est dense dans L1(Rn) ssi .

wxfvxg 1

. )(.)(

dxxf 0)(

Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov

Toute fonction h de C(I) peut s'écrire sous la forme

où les fonctions g et f sont des fonctions continues d'une variable.

Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant

m = 2n + 1n/(m-n) + v < / ||h||h(1/m) < v(m - n)/(2m - 3n)v > 0

h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant :

f(d)= sup{|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p}.

))((),...,( 121 11

np ppqqn xfgxxh

Interprétation probabiliste des sorties

Risque théorique

Le min de R est obtenu pour ∗ | Coût théorique C pour la famille de fonction

∗ | est bien la solution optimale Dans l’espace des hypothèses, w* / R(w*) = Minw C minimise

simultanément :

, LMSE

, meilleure approximation LMS de |

Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i

i.e. ∗ meilleure approximation LMS de la fonction discriminante de Bayes (solution optimale).

de façon générale avec des sorties binaires ∗ 1

Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i Décision : sortie la plus faible.

L’importance de la précision sur les sorties dépend de l'utilisation (classification OU estimation de probabilité conditionnelle).

)/(]/[ 1 xjPxdE mj iji

Machines à noyaux

Introduction

Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension -

éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des calculs

"efficaces"

Exemples : Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre

Vapnik) Processus Gaussien (généralisent : régression logistique, cadre

Bayesien)

Perceptron : formulation duale

Perceptron primalInitialiser 0 0Répeter (t)

choisir un exemple, ,si . 0alors 1

Fonction de décision

: nombre de fois où l’algorithme a rencontré une erreur de classification sur

Perceptron dualInitialiser , ∈Répeter (t)

choisir un exemple, ,soit :si ∑ . 0alors 1

Matrice de Gram matrice NxN de terme i, j : .matrice de similarité entre données

Représentation DualeExemple introductif : le perceptron

Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1

i : mesure de la difficulté àclassifier iFonction de décision :

G = (xi.xj)i,j = 1..N : Matrice de Gram

Perceptron Dual = 0Répeter (t)Pour i = 1 à NSi

alors i = i (t) + 1Jusqu'à convergence

Fonction de décision :

W(0) = 0

Perceptron PrimalW(0) = 0Répeter (t)Pour i = 1 à N

Si di(W(t).xi) 0alors W(t+1) = W(t) + di.xi

ijjji xxdd

iii xwxF

1)()( sgn

ixixid

1).()( sgn

Représentation Duale

La plupart des machines à apprentissage linéaires ont une représentation duale Exemples

Adaline, regression, regression ridge, etc L’information sur les données est entièrement fournie par la matrice de

Gram : . , … , qui joue un rôle central

La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage

Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur x (on suppose ∈ ) par

, Φ , Φoù Φ est une fonction de dans un espace muni d’un produit scalaire

Produit Scalaire et Noyaux

Projection non linéaire dans un espace de grande dimension H (en général dim H >> n, et peut même être infinie) Φ: → avec ≫

Machine linéaire dans H - Primal : ∑ Φ

Machine linéaire dans H - Dual :

Calculer les produits scalaires dans l'espace initial : choisir F /

avec K : fonction noyau (i.e. symétrique)

bxxdxFxdWNi

)()()( )(1..1..

)',()'().( xxKxx

bxxKdxFNi

Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de H

: les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir

d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K.

Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples

ACP, Analyse discriminante, regression, etc

Caractérisation des noyaux

Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = { x1,…, xN}, K(x,x') une fonction symétrique sur X, K

est une fonction noyau ssi la matrice est positive semi-définie (valeurs propres 0)

Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement

ssi est fini

ji xxK 1,)),((K

1)'(.)()',(

iii xxxxK

dxxgg 2)(/

0')'()()',( dxdxxgxgxxK

Caractérisation des noyauxEspace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine fini peut

s’écrire sous la forme d’un produit scalaire :

avec Φ : x Φ(x) F espace de Hilbert

ssi c’est une fonction symétrique et toutes les matrices formées par la restriction de K à un échantillon fini sur X sont semi-définies positives).

Résultat à la base de la caractérisation effective des fonctions noyaux

Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer

)(),(),( zxzxK

L’espace de Hilbert associé à K :

Le produit scalaire défini sur cet espace :

iiiii liRXxNlxKF

1..1,,,/,.)(

zfxgzxKgf

xKgxKf

1 11 1

)()(),( ,

,.)((.) ,,.)((.)Soient

Noyau auto-reproduisant

Si on prend g(.) = K(x,.), alors

)(),( ,.)(,1

xfxxKxKfl

Exemples de noyaux

2 d de polynomes des ensemble ss i.e.

),)2(,).(()(/ avec )().(),(

).(),(

: 2 d de monomes les tousi.e.

).()(/)( avec )().(),(

).)(.(.),(

,1,1,,

ccxxxx(x)zxzxK

czxzxK

xxxxzxzxK

zzxxzxzxK

niinjijiji

njijiji

jijiji

Exemples de noyaux

gaussien noyau exp

d ordred' polynome )1.(

cxvxSigmoïde

Construction des noyaux en pratique

Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles

Pour construire des noyaux, on procède par combinaison à partir de noyaux connus

Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) …..

Machines à vecteurs support

Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression,

densité Idées Projeter -non linéairement- les données dans un espace de

"très" grande taille H Faire une séparation linéaire de bonne qualité dans cet espace Raisonner dans H, mais résoudre le problème d'optimisation

dans l'espace de départ (noyaux)

Notion de marge

WxF )(

H : F(x) = W.x + b = 0

Marge géométrique pour xi :

Marge de W pr à ens. D :Mini(M(xi))

Hyperplan de marge maximale :

MaxW(Mini(M(xi)))

)()(Wbx

WWdxM iii

Marge géométrique vs marge fonctionnelle

Marge géométrique di.F(xi)/||w||

Marge fonctionnelle di.F(xi)

Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle.

Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique.

Prémisses : Séparation linéaire à hyperplan optimal (1974)

Hyp : D linéairement séparable

Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e.

di.F(xi) 1 , i

avec une marge maximale M =

i.e. : Problème Primal :

1 avec , 1.. i

Niii ddxD

wwxFd ii

1)(.min

1)(...

Minimiser 2

ii xFdCS

Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1

Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support

F* dépend uniquement du produit scalaire xi.x

support support

i i .x)(* x*i i

ii xdxFdw

Vecteurs Supports

Apprentissage :

On résoud le problème d'optimisation dit dual :

Problème minimisation quadratique sous contraintes

0et 0.

.)( Maximiser

xxddL ii

Machines à vecteurs supports

Faire une séparation à marge max. dans un espace défini par une fonction noyau.

Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant par .xxi ),( xxK i

bxxKdxF

bxxdxFxdW

SVx SVx

)',()'().(

)()()( )(

Apprentissage : On résoud le problème d'optimisation dual :

Problème minimisation quadratique sous contraintes dans l ’espace de départ

Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points

support. Seuls les produits scalaires K apparaissent, et pas les .

0et 0.

),()( Maximiser

jijiji

xxKddL

Propriétés de généralisation -exemples

Th 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ

Th 2 Si l'hyperplan optimal passe par l'origine et a pour marge

Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out).

1ageapprentissexemples#supports]vecteurs[#))](([

ExerreurPE

qxNiq i ,1../

][))](([

qExerreurPE

Cas non linéairement séparable

Marges molles

L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique

autoriser des erreurs, i.e. prendre pour contraintes :

ηi = 0, xi est correctement classifié et est du bon coté de la marge

0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge

ηi > 1, xi est mal classé

ηi : slack variable

1))(.(

iii bxWd

But Maximiser la marge tout en pénalisant les points qui sont mal classés

Formalisation Plusieurs expressions possibles du problème L’une des plus courantes :

C fixé par validation croisée joue le rôle de paramètre de régularisationNiNibxwd

CwwMin

..1,0 ..1,1).(

marge) lamax (i.e. ).(

Marges molles – formulation duale

0et 0.

),()( Maximiser

jijiji

xxKddL

Algorithmes d’optimisation Algorithmes d’optimisation standard pour la programmation

quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO)

Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to the class

CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten Joachims.

SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem.

Algorithm (hinge loss) Training Time Primal cost Test Error

SVMLight 23642 secs 0.2275 6.02%

SVMPerf 66 secs 0.2278 6.03%

Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02%

Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01%Apprentissage Statistique - P. Gallinari117

Annexe : OptimisationProblèmes sous contraintes égalités, inégalités

Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R On considère le problème primal suivant (Pb. 0) :

mjwhkiwg

RwwfMin

..1,0)(..1,0)(

sContrainte Sous )),((

Optimisation non contrainte Fermat

Une C.N. pour que w* soit un min. de f(w) est

Si f est convexe c’est une Condition Suffisante

F est convexe si ∀ ∈ 0,1 , 1 1

OptimisationLagrangien

On considère le (Pb. 1) :

On définit le Lagrangien L pour (Pb. 1) par

les βi sont les coefficients de Lagrange

mjwhCS

RwwfMin

..1,0)( ..

ijj whwfwL

1)()(),(

OptimisationTh. Lagrange

Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point

Si L(w, *) est une fonction convexe de w, c’est une C.S.

0*)*,(

OptimisationLagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) :

iii whwgwfwL

)()()(),(

OptimisationTh. Kuhn et Tucker

On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hj affines (hi = A.w – b)

1 CNS pour que w* soit un optimum est qu’il existe α* et β* /

kikiwg

..1,0*..1,0*)(

..1,0*)(*

0*)*,*,(

Soit une contrainte est active (αi* ≠ 0) et gi(w*) = 0), w* est un point frontière de la région admissible

Soit elle est inactive ((αi* = 0) et w* est dans la région admissible

Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale

suivante :

Rq : est une fonction de , uniquement

0 S.C.

)),,(inf ( Maximiser ,

),,(inf wLw

SVM – formulations primale et duale SVM

Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = {(xi ,di)}i = 1..N linéairement séparables

Formulation similaire pour le cas non linéairement séparable

Pb. Primal

Lagrangien primal

Lagrangien dual

Nibxwd

CSwwMin

ii ..1,1).(

.. marge) lamax (i.e. ).(

)1).((.21),,(

iii bxwdwwbwL

ii xxddbwL

21),,(

SVM – formulations primale et duale Pb. Dual

xxddbwL

).(21),,(

i bxxdxF.

*).(**)*,,(

Algorithme EM et mélange de densités

Probabilistic Latent Semantic Analysis

Latent Dirichlet Allocation

Spectral clustering

Non Negative Matrix Factorization

Applications

analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau)

trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc

réduction de la quantité d'information e.g. quantification

découverte de régularités sur les données ou de similarités.

Apprentissage non superviséAlgorithme Espérance Maximisation (EM)

Application aux mélanges de densités

Algorithme E. M. (Espérance Maximisation)

On dispose de données D = {xi}i = 1..N

On n’a pas d’étiquette di

d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données

On veut trouver les paramètres du modèle qui expliquent au mieux lagénération des données

On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus

fréquent P(D| W) = P(x1, …, xN| W)

D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la

vraisemblance

Exemple

On recueille des données sur deux populations e.g. taille d’individus D = {xi}i = 1..N

Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2

Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = {(xi, di}i = 1..N la solution est simple

On a deux population séparées (2 classes) C1, C2

La maximisation de la vraisemblance donne l’estimateur classique de la moyenne

Difficulté : les di sont inconnus

),(),,( 22

21 IdNIdN

Cas où l’appartenance est connue

Vraisemblance ∏ |∈ ∏ |∈

En pratique on maximise la log-vraisemblance log ∑ ∑ ∈∈

Cas des gaussiennes

0 ⇔| |

∑ ∈

Cas où la probabilité d’appartenance est connue

On connait | ,k 1,2

Log-vraisemblance log ∑ log

Cas des gaussiennes

0 ⇔∑ .

Rq : si on ne connait les | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble.

Variables cachées (ou latentes)

On postule l’existence de variables cachées h responsables de la

génération des données À chaque xi, on associe sa classe cachée hi

H = {hi}I = 1..N

l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h)

P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W.

Remarque Les variables h sont inconnues et sont considérées comme des

variables aléatoires P(D, H| W) sera elle même une variable aléatoire

Algorithme EM On veut maximiser P(D/W)à partir de l'observation des données visibles

Problème

la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires (algorithme)

Solution : on maximise de façon itérative une fonction auxiliaire Q

L’espérance de la vraisemblance des données complètes connaissant le modèle courant

L’espérance est calculée par rapport à la distribution des variables cachées h

Le modèle courant à l’étape t est noté W(t)

Remarque : dans cette expression

D et W(t) sont des constantes

h est une variable aléatoire de densité p(h|x, W(t))

W est les paramètres du modèle que l’on veut estimer

ttt WHDpWDHpWDWHDpEWWQ )/,(log),/(,)//,(log)/( )()()(

Algorithme EM

L’algorithme converge vers un maximum local de la fonction Q et de P(D/W)

Initialiser W = W(0)

1. Etape E : EspéranceOn calculeOn en déduitL'espérance est calculée par rapport à la distribution de H

2. Etape M : MaximisationEtant donnée la distribution courante sur H, trouver les paramètres quimaximisent Q

),/( )(tWDHp)/( )(tWWQ

)(1)( ,)//,(logmaxarg t

t WDWHDpEW

Remarques Lors de l'étape E, on estime la distribution de H, à partir

des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, on utilise la

fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par :

L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les données les HMM ...

),/( )(tWDHp

)/( WDp

)/()/()/()/( tttt WDpWDpWWQWWQ

Exemple

Mélange de densités - Cas de deux classe gaussiennes, connu But (MV) : trouver On considère , les hi sont les données

cachées Algorithme

Initialisation itérer

Etape E

Etape M

NiixD ..1)( ),/(maxarg, 2121 Dp

Niii hxHD ..1),(

calculer i = 1..N, j = 1,2)/( ii xjhp )],,/([),,,,( 212121

tttttt HDPEQ

Trouver les μ1, μ2 qui maximisent Qcalculer

Nitj i

..1)1(

(0)2 ,)0(

Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour

chaque point

Etape M : chaque centre est défini comme le centre de toutesles données, chacune étant pondérée par cette responsabilité

Cas limite : = 0 : algorithme des k-moyennes

khxpkhpjhxpjhpxjhp

)/()()/()()/(

Mélange de densités – cas gaussien

On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles

Paramètres Coefficients du mélange p(l| x), moyennes et écarts types

llxplpxp

1)/()()( 2

2/12 )2(1)/( l

kllllpW

1..,),(

Vraisemblance

Vraisemblance complète variables cachées : hi classe de xi

i WlxpWlpWDp1 1

),/()/()/(

)),/()/((

)),/()/(()/,(

WlxpWlp

WhxpWhpWHDp

loglog

Mélange de densité – Etapes E et M

Etape E

Etape M

),/()/(log),/(

),/()/,(log...)],(log[)/(

WlxpWlpWxlp

WxhpWHDpWHDpEWWQ

tiiWXH

i Wlp(hWlhxp

Wjp(hWjhxpWxjhp

)()()(

)).,/(

)),/(),/(

))1)/(((1)/( contrainte sous

WlpQMinWlp

Mélange de densités – Reestimation dans l’étape M

),/(1)(

2)1()(2)1(

Mélange de densitésApprentissage par échantillonnage de Gibbs

Les méthodes MCMCMarkov Chain Monte Carlo

Méthodes de calcul intensif basées sur la simulation pour Echantillonnage de variables aléatoires

{x(t)}t=1..T qui suivent une certaine distribution p(x)

Calcul de l’espérance de fonctions suivant cette distribution

E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t))

e.g. moyenne, marginales, …

Maximisation de fonctions Argmaxxp(x)

Echantillonneur de Gibbs On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp

On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)

Algorithme Initialiser {xi, i = 1..n} Pour t = 1 …T faire

)(~nner Echantillo

........

)(~nner Echantillo

Propriétés Sous certaines conditions de régularité, la procédure converge

vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi jointe p(x)

On n’a pas besoin de connaitre la forme analytique des p(xi| x -i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés

Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide”

Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA)

Cas du mélange de deux lois gaussiennes Modèle

On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi)

Les paramètres à estimer sont :

On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et les

variances σ sont fixées, on estime juste les moyennes μ1 et μ2

Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t), μ2

1)/()()(

llxplpxp

2..1,),( llllpW

Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes

2,1),,ˆ(~générer 2.

2,1,)1(

).1(ˆ

calculer

2,1,),(),(

selon 1,0générer 1.

1Pour 1...T Répéter t

, initiales valeursdesChoisir

)1()1(

jxppxpp

xppjp(h

...N i

Lien avec l’algorithme EM

Les étapes pour cet exemple sont les mêmes que avec EM

Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2, on

échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer le max.

vraisemblance p(μ1, μ2| D) dans EM

Algorithmes à variables latentes Probabilistic Latent Semantic Analysis

Latent Dirichlet Allocation

Preliminaries : unigram model

Generative model of a document

Select document length Pick a word w with probability p(w) Continue until the end of the document

Applications Classification Clustering Ad-hoc retrieval (language models)

i dwpdp )()(

Preliminaries - Unigram model – geometric interpretation

tionrepresenta d doc

P(w1|d)

P(w3|d)

P(w2|d)

Document d

Word simplex

Latent models for document generation

Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown

Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to uncover

(inference) complex latent structures

Probabilistic Latent Semantic Analysis -PLSA (Hofmann 99)

Motivations Several topics may be present in a document or in a document

collection Learn the topics from a training collection Applications

Identify the semantic content of documents, documents relationships, trends, …

Segment documents, ad-hoc IR, …

The latent structure is a set of topics Each document is generated as a set of words chosen from selected

topics A latent variable z (topic) is associated to each word occurrence in the

document

Generative Process Select a document d, P(d) Iterate

Choose a latent class z, P(z|d) Generate a word w according to P(w| z)

Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics

PLSA - Topic

A topic is a distribution over words

Remark A topic is shared by several words A word is associated to several topics

word P(w|z)

machine 0.04

learning 0.01

information 0.09

retrieval 0.02

…… …….

P(w|z)

PLSA as a graphical model

dzPzwPdwP

dwPdPwdP

)()()(

)(*)(),(

Boxes represent repeated samplingd wz

Corpus level

Document level

P(z|d) P(w|z)

PLSA model

Hypothesis # values of z is fixed a priori Bag of words Documents are independent

No specific distribution on the documents

Conditional independence z being known, w and d are independent

Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants

PLSA - geometric interpretation

Topici is a point on the word simplex

Documents are constrained to lie on the topic simplex

Creates a bottleneck in document representation

dzPzwPdwP )()()(

Topic simplex

topic2

topic1

topic3w2 w1

Word simplex

Document d

Applications

Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image)

Collaborative filtering

Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.)

Latent Dirichlet Allocation - LDA (Blei et al. 2003)

LDA is also a topic model Extends PLSA

Motivations Generalization over unseen documents

Define a probabilistic model over documents Not present in PLSA

Allows to generate (model) unseen documents Overtraining

In PLSA, the number of parameters grows with the corpus size LDA constrains the distribution of topics for each document and

words for each topic

LDA - model

Similar to PLSA with the addition of a prior distribution on the topic distribution

Generative process For a document Topic distribution

Choose θ ~ Dirichlet () a distribution over topics

Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability conditioned on

topic z

LDA - model

ddzwpzpppWp

zwpzpppWZp

i ziii

),()()()(),(

),()()()(),,,,(

Corpus level

Document level

Multinomial

Dirichlet Multinomial

Dirichlet

LDA – model - unfolded

P(w|z1,1)

P(z|1)

topics

Z1,1 Z1,2Z2,1

w1,1 w1,2 w2,1

Doc1 Doc2

………

PLSA vs LDA - geometric interpretation

PLSA provides a sampling of the document distribution on the topic simplex

LDA provides an estimate of the document distribution on the topic simple

topic2

topic1

topic3w2 w1

Observed documents

topic2

topic1

topic3w2 w1

Document distribution

Dirichlet etc…

, are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing

Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial

Allows to compute closed forms for posterior distributions

LDA applications

Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words

Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables

LDA tagging (Blei et al 2003)

Finding topics in PNAS (Griffith et al. 2004)

PNAS categories

LDA topics

Mean θi value for the most significant topic i on this

Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...

Documents

Transcript of Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...

Apprentissage automatiquepageperso.lif.univ-mrs.fr/~liva.ralaivola/teachings20062005/mlsi/general.pdf · Apprentissage statistique formalisation du problème d’apprentissage minimisation

Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7

Scikit learn: apprentissage statistique en Python

Téléchargez notre PDF d'exemples d'animations photocall.

Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Appui logistique opérationnel: cours intermédiaire - Pages d'exemples

Statistique et apprentissage · 2016-03-09 · Ce document contient les notes du cours Statistique et apprentissage donné dans le cadre de la spécialité Probabilités et modèles

Apprentissage statistique : théorie et application

Apprentissage statistique et modélisation 0D/1D des ...

Apprentissage statistique pour donn es complexes base de ...irma.math.unistra.fr/~gardes/SEMINAIRE/jacques.pdf · Apprentissage statistique des données complexes Centre d’intérêt

Pr Fabrice CARRAT Pr Anne-Claude CAMPROUX CESAM · Statistique en Biologie expérimentale (STAB), 2ème semestre Sciences des Données et apprentissage statistique (DATA), 2ème semestre

Apprentissage Statistique, Modélisation, Prévision, Data Mining

Apprentissage statistique et Big Data, focus sur l ... · Apprentissage statistique Quelques id ees sur l’apprentissage statistique Je m’int eresse aux approches statistiques

Livret d'exemples d'activités (en version PDF)

Apprentissage Statistique 04-06-2019 Automatants · Apprentissage statistique Apprentissage statistique Supervisé Prédire Y connaissant X Non supervisé Caractériser par ෨ Régression

Apprentissage Statistique et Data mining

APPRENTISSAGE STATISTIQUE, ASSIMILATION DE DONNEES ET ... · l’angle de l’apprentissage statistique afin de modéliser les relations entre les différentes entrées et sorties.

APPRENTISSAGE STATISTIQUE (ENS 2010 – 2011)certis.enpc.fr/~audibert/Cours1et2.pdf · But de l’apprentissage statistique : prédire la sortie Y associée à toute nouvelle entrée