Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes...

25
Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé Les problématiques de l’apprentissage statistique Des neuro-sciences à l’intelligence "artificielle" Manuel Samuelides, Professeur à l’ISAE [email protected] Manuel Samuelides, Professeur à l’ISAE [email protected] Les problématiques de l’apprentissage statistique

Transcript of Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes...

Page 1: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Les problématiques de l’apprentissagestatistique

Des neuro-sciences à l’intelligence "artificielle"

Manuel Samuelides, Professeur à l’[email protected]

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 2: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Plan de l’exposé

1 Emergence des systèmes intelligents

2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 3: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Une question quantitative ?

Cerveau humain :2 ∗ 1014 opérations logiques par seconde1970: ordinateur 107 opérations logiques par seconde2005: PC 1011 opérations logiques par secondeLes superordinateurs ont dépassé ce niveau. Sont-ilsintelligents pour autant ?Comment les programmer ? Qu’est ce que l’intelligence ?

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 4: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Le test de Turing

Un homme ne peut discriminer par la discussion (questions-réponses) avec l’interlocuteur si celui-ci est une machine ou sicelui-ci est humain.

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 5: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Le problème du perceptron

Base de données: A+ ∈ Rn,A− ∈ Rn

Le problème d’apprentissage est dit linéairementséparable s’il existeφ ∈ Rn tel que ∀x ∈ A+, (φ | x) > 0, ∀x ∈ A−, (φ | x) < 0Algorithme adaptatif du perceptron (Rosenblatt 1957Cornell Aéronautique) φn+1 = φn ± xn+1

Théorème du perceptron: L’algorithme du perceptron setermine sur une solution si le problème d’apprentissage estlinéairement séparable.Et si le problème n’est pas linéairement séparable ?(Minsky 1969).Extinction provisoire du perceptron

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 6: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Les systèmes à base de règles

Base de faits (propositions qui sont vraies ou fausses)Base de règles (relation entre faits liant prémisses etconclusions)Moteur d’inférence capable de résoudre des problèmes encherchant des règles applicables au problème.Exemple célèbre: Mycin: système de diagnostic médicalautomatiqueProblème: La plupart des faits sur lesquels s’appuient lesdécisons "intelligentes" sont des faits ocmplexes où lesénoncés sont statistiquement vérifiés.Apparaît en reconnaissance de la parole ou en vision, lanécessité d’un prétraitement statistique

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 7: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Apprentissage adaptatif

L’intelligence est la capacité d’adaptation, d’apprentissage.Ce ne sont pas des connaissances qu’il faut extraire desfaits et implanter dans le système mais la capacitéd’apprentissage.L’apprentissage doit être permanent et adaptatif carl’environnement est changeant

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 8: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Outline

1 Emergence des systèmes intelligents

2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 9: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Description du neurone

Le neurone est activé quand la somme des potentielssynaptiques (excitateurs, inhibiteurs) dépasse un certainseuilL’activation est transmise par l’axone aux neuronessuivants du réseau. Le modèle est:

xi = φ(

p∑j=1

wijxj + wi0)

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 10: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Codage binaire ou analogique

En fait l’état du neurone est binaire (φ Heaviside,Mais la fréquence d’activation du neurone estgénéralement élevée (rétroactions) et la variablesignificative dans bien des cas est la féquenced’activationOn considère généralement des réseaux artificiels où l’étatdu neurone est analogique et des fonctions d’activationsigmoides φ(y) = 1

1+e−y

φ est dérivable et φ′(x) = φ(x)(1− φ(x))

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 11: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

La règle de Hebb et l’apprentissage synaptique

Le comportement du réseau est dicté par les synapses(poids wij dans le modèle mathématique).Il existe des preuves expérimentales montrant quel’apprentissage s’effectue par la modification des poidssynaptiques.La règle de Hebb consiste à définir l’apprentissage commele renforcement du poids de la synapse reliant deuxneurones s’activant de façon synchrone.La machine de Hopfield (1982) qui applique la règle deHebb n’est pas très efficace. Elle a été rapidementsupplantée par le perceptron multi-couche.

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 12: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Outline

1 Emergence des systèmes intelligents

2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 13: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Perceptron multi-couche et règle delta

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 14: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Problématique de l’apprentissage supervisé

Soit E ∈ Rp l’espace des entrées, F l’espace des sorties etW l’espace des paramètres du système. Un systèmed’apprentissage est une applicationΦ : (x ,w) ∈ E ×W → Φ(x ,w) ∈ FOn se donne une base d’apprentissage, c’est à dire unsous-ensemble fini {(xi , yi) ∈ E × F}i=1...n et une fonctioncoût, par exemple C(y , y) =‖ y − y ‖2

On cherche à résoudre minw∑n

i=1 ‖ Φ(xi ,w)− yi ‖2

Il s’agit d’un problème d’optimisation:Si F est fini, il s’agit d’un problème de classification(exemple lecture d’un texte, reconnaissance de la parole)Si F est un sous-ensemble régulier, il s’agit d’un problèmede régression (non linéaire si Φ n’est pas linéaire en w)

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 15: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Algorithmes d’apprentissage supervisé

L’algorithme d’apprentissage le plus classique estl’algorithme de descente de gradient

wn+1 = wn +n∑

i=1

hn∇w Φ(xi ,wn)(yi − Φ(xi ,wn))

Cet algorithme est lent et converge trop facilement versdes minima locauxOn peut le rendre adaptatif est le régulariser(rétro-proagation du gradient avec momentum)

wn+1 = wn +hn∇w Φ(xn,wn)(yn−Φ(xn,wn))+ηn(wn−wn−1)

On peut l’accélérer en utilisant des algorithmes dequasi-Newton (BFGS)On peut le régulariser en utilisant des pénalisations de‖ w ‖2 (Levenberg-Marquard)

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 16: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Outline

1 Emergence des systèmes intelligents

2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 17: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Problématique statistique

Si on cherchait à apprendre par coeur la base d’apprentissage,on choisirait l’espace des paramètres le plus complexe possiblepour minimiser l’erreur d’apprentissage

∑ni=1 ‖ Φ(xi ,w)− yi ‖2.

ProblèmeEtant donné une loi de probabilité P sur E × F , on chercheminw

∫‖ y − Φ(x ,w) ‖2 dP(x , y) à partir de la donnée d’un

échantillon de taille n {(xi , yi)} de P qui constitue la based’apprentissage.

La qualité de l’apprentissage sera mesurée sur un autreéchantillon {(xj , yj)} de P qui constituera la base de test.

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 18: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Le compromis biais-variance

On cherche w ∈ W tel que x → Φ(x ,w) approche aumieux x → EP(Y | X = x)PlusW est grand, plus faible est le biaisBiais = minw ‖ EP(Y | X = .)− Φ(.,w) ‖PlusW est grand, plus grande est la variance del’estimation de w et donc de Φ(., w)Le compromis biais-variance est trouvé soit par desestimations théoriques, soit par l’estimation pratique del’erreur de généralisation sur une base de test.Selon le problème physique, une architecture de modèleou une autre est la plus efficace en terme de compromisbiais-variance.Les principales architectures sont: régression linéaire,perceptron multi-couche, machine à vecteur support (ou ànoyau).

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 19: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Outline

1 Emergence des systèmes intelligents

2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 20: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Statistique non paramétrique

On effectue des mesures dont l’ensemble constituel’échantillonSans hypothèse de type sur la loi de probabilité commentla reconstruire ?La loi empirique et l’histogramme sont trop irrégulierssurtout en petite taille d’échantillon.

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 21: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Les fenêtres de Parzen

Objectif: régulariser l’histogrammeEtaler chaque donnée sur une fenêtre de Parzen dont lalargeur décrôit avec la taille de l’échantillon en 1/

√N.

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 22: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Outline

1 Emergence des systèmes intelligents

2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 23: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Analyse en composantes principales (PCA)

Le but: Déterminer les facteurs principaux de variabilitéd’un échantillonL’intérêt principal: réduire la dimension d’un espaced’attributsLa technique: recherche des axes principaux d’inertie

Diagonaliser la matrice de covariance (symétrique, de typepostive)Classer les valeurs propres en ordre décroissantRetenir les premières valeurs propres et expliciter leprojecteur sur le sous-espace propre

Exemple:L’école imaginaire: déterminer le "bon élève" et "lelittéraire" avec les résultats de 10 matières exemple wiki)

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 24: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Outline

1 Emergence des systèmes intelligents

2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique

Page 25: Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Classification automatique

ProblèmeClassification automatique: chercher un sous-ensemble F de kprototypes dans un espace d’attributs normé E qui déterminentla classification ΦF (x) = arg miny∈F ‖ y − x ‖

Le critère de minimisation de l’approximation d’un individupar son prototype (LSE: least square error):minF

∫E ‖ x − ΦF (x) ‖2 dP(x)

La condition de k-moyennes:∀j = 1...k , yj =

∫xdP(x | ΦF (x) = yj)

L’algorithme itératif des k-moyennes: à partir de Fn(initialisé par tirage aléatoire)

On calcule la projection ΦFn sur le plus proche prototypeOn recalcule les k-moyennes de cette projection:∀j = 1..k , yn+1

j =∫

xdP(x | ΦFn (x) = ynj )

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique