Download - Les problématiques de l’apprentissage statistique · 2012-04-26 · Emergence des systèmes intelligents Les réseaux neuronaux en apprentissage supervisé Apprentissage non supervisé

Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé

Apprentissage non supervisé

Les problématiques de l’apprentissagestatistique

Des neuro-sciences à l’intelligence "artificielle"

Manuel Samuelides, Professeur à l’[email protected]

Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique



Plan de l’exposé

1 Emergence des systèmes intelligents

2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes




Une question quantitative ?

Cerveau humain :2 ∗ 1014 opérations logiques par seconde1970: ordinateur 107 opérations logiques par seconde2005: PC 1011 opérations logiques par secondeLes superordinateurs ont dépassé ce niveau. Sont-ilsintelligents pour autant ?Comment les programmer ? Qu’est ce que l’intelligence ?




Le test de Turing

Un homme ne peut discriminer par la discussion (questions-réponses) avec l’interlocuteur si celui-ci est une machine ou sicelui-ci est humain.




Le problème du perceptron

Base de données: A+ ∈ Rn,A− ∈ Rn

Le problème d’apprentissage est dit linéairementséparable s’il existeφ ∈ Rn tel que ∀x ∈ A+, (φ | x) > 0, ∀x ∈ A−, (φ | x) < 0Algorithme adaptatif du perceptron (Rosenblatt 1957Cornell Aéronautique) φn+1 = φn ± xn+1

Théorème du perceptron: L’algorithme du perceptron setermine sur une solution si le problème d’apprentissage estlinéairement séparable.Et si le problème n’est pas linéairement séparable ?(Minsky 1969).Extinction provisoire du perceptron




Les systèmes à base de règles

Base de faits (propositions qui sont vraies ou fausses)Base de règles (relation entre faits liant prémisses etconclusions)Moteur d’inférence capable de résoudre des problèmes encherchant des règles applicables au problème.Exemple célèbre: Mycin: système de diagnostic médicalautomatiqueProblème: La plupart des faits sur lesquels s’appuient lesdécisons "intelligentes" sont des faits ocmplexes où lesénoncés sont statistiquement vérifiés.Apparaît en reconnaissance de la parole ou en vision, lanécessité d’un prétraitement statistique




Apprentissage adaptatif

L’intelligence est la capacité d’adaptation, d’apprentissage.Ce ne sont pas des connaissances qu’il faut extraire desfaits et implanter dans le système mais la capacitéd’apprentissage.L’apprentissage doit être permanent et adaptatif carl’environnement est changeant




L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation

Outline








Description du neurone

Le neurone est activé quand la somme des potentielssynaptiques (excitateurs, inhibiteurs) dépasse un certainseuilL’activation est transmise par l’axone aux neuronessuivants du réseau. Le modèle est:

xi = φ(

p∑j=1

wijxj + wi0)





Codage binaire ou analogique

En fait l’état du neurone est binaire (φ Heaviside,Mais la fréquence d’activation du neurone estgénéralement élevée (rétroactions) et la variablesignificative dans bien des cas est la féquenced’activationOn considère généralement des réseaux artificiels où l’étatdu neurone est analogique et des fonctions d’activationsigmoides φ(y) = 1

1+e−y

φ est dérivable et φ′(x) = φ(x)(1− φ(x))





La règle de Hebb et l’apprentissage synaptique

Le comportement du réseau est dicté par les synapses(poids wij dans le modèle mathématique).Il existe des preuves expérimentales montrant quel’apprentissage s’effectue par la modification des poidssynaptiques.La règle de Hebb consiste à définir l’apprentissage commele renforcement du poids de la synapse reliant deuxneurones s’activant de façon synchrone.La machine de Hopfield (1982) qui applique la règle deHebb n’est pas très efficace. Elle a été rapidementsupplantée par le perceptron multi-couche.





Outline








Perceptron multi-couche et règle delta





Problématique de l’apprentissage supervisé

Soit E ∈ Rp l’espace des entrées, F l’espace des sorties etW l’espace des paramètres du système. Un systèmed’apprentissage est une applicationΦ : (x ,w) ∈ E ×W → Φ(x ,w) ∈ FOn se donne une base d’apprentissage, c’est à dire unsous-ensemble fini {(xi , yi) ∈ E × F}i=1...n et une fonctioncoût, par exemple C(y , y) =‖ y − y ‖2

On cherche à résoudre minw∑n

i=1 ‖ Φ(xi ,w)− yi ‖2

Il s’agit d’un problème d’optimisation:Si F est fini, il s’agit d’un problème de classification(exemple lecture d’un texte, reconnaissance de la parole)Si F est un sous-ensemble régulier, il s’agit d’un problèmede régression (non linéaire si Φ n’est pas linéaire en w)





Algorithmes d’apprentissage supervisé

L’algorithme d’apprentissage le plus classique estl’algorithme de descente de gradient

wn+1 = wn +n∑

i=1

hn∇w Φ(xi ,wn)(yi − Φ(xi ,wn))

Cet algorithme est lent et converge trop facilement versdes minima locauxOn peut le rendre adaptatif est le régulariser(rétro-proagation du gradient avec momentum)

wn+1 = wn +hn∇w Φ(xn,wn)(yn−Φ(xn,wn))+ηn(wn−wn−1)

On peut l’accélérer en utilisant des algorithmes dequasi-Newton (BFGS)On peut le régulariser en utilisant des pénalisations de‖ w ‖2 (Levenberg-Marquard)





Outline








Problématique statistique

Si on cherchait à apprendre par coeur la base d’apprentissage,on choisirait l’espace des paramètres le plus complexe possiblepour minimiser l’erreur d’apprentissage

∑ni=1 ‖ Φ(xi ,w)− yi ‖2.

ProblèmeEtant donné une loi de probabilité P sur E × F , on chercheminw

∫‖ y − Φ(x ,w) ‖2 dP(x , y) à partir de la donnée d’un

échantillon de taille n {(xi , yi)} de P qui constitue la based’apprentissage.

La qualité de l’apprentissage sera mesurée sur un autreéchantillon {(xj , yj)} de P qui constituera la base de test.





Le compromis biais-variance

On cherche w ∈ W tel que x → Φ(x ,w) approche aumieux x → EP(Y | X = x)PlusW est grand, plus faible est le biaisBiais = minw ‖ EP(Y | X = .)− Φ(.,w) ‖PlusW est grand, plus grande est la variance del’estimation de w et donc de Φ(., w)Le compromis biais-variance est trouvé soit par desestimations théoriques, soit par l’estimation pratique del’erreur de généralisation sur une base de test.Selon le problème physique, une architecture de modèleou une autre est la plus efficace en terme de compromisbiais-variance.Les principales architectures sont: régression linéaire,perceptron multi-couche, machine à vecteur support (ou ànoyau).




Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes

Outline








Statistique non paramétrique

On effectue des mesures dont l’ensemble constituel’échantillonSans hypothèse de type sur la loi de probabilité commentla reconstruire ?La loi empirique et l’histogramme sont trop irrégulierssurtout en petite taille d’échantillon.





Les fenêtres de Parzen

Objectif: régulariser l’histogrammeEtaler chaque donnée sur une fenêtre de Parzen dont lalargeur décrôit avec la taille de l’échantillon en 1/

√N.





Outline








Analyse en composantes principales (PCA)

Le but: Déterminer les facteurs principaux de variabilitéd’un échantillonL’intérêt principal: réduire la dimension d’un espaced’attributsLa technique: recherche des axes principaux d’inertie

Diagonaliser la matrice de covariance (symétrique, de typepostive)Classer les valeurs propres en ordre décroissantRetenir les premières valeurs propres et expliciter leprojecteur sur le sous-espace propre

Exemple:L’école imaginaire: déterminer le "bon élève" et "lelittéraire" avec les résultats de 10 matières exemple wiki)





Outline








Classification automatique

ProblèmeClassification automatique: chercher un sous-ensemble F de kprototypes dans un espace d’attributs normé E qui déterminentla classification ΦF (x) = arg miny∈F ‖ y − x ‖

Le critère de minimisation de l’approximation d’un individupar son prototype (LSE: least square error):minF

∫E ‖ x − ΦF (x) ‖2 dP(x)

La condition de k-moyennes:∀j = 1...k , yj =

∫xdP(x | ΦF (x) = yj)

L’algorithme itératif des k-moyennes: à partir de Fn(initialisé par tirage aléatoire)

On calcule la projection ΦFn sur le plus proche prototypeOn recalcule les k-moyennes de cette projection:∀j = 1..k , yn+1

j =∫

xdP(x | ΦFn (x) = ynj )