Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Les problématiques de l’apprentissagestatistique
Des neuro-sciences à l’intelligence "artificielle"
Manuel Samuelides, Professeur à l’[email protected]
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Plan de l’exposé
1 Emergence des systèmes intelligents
2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Une question quantitative ?
Cerveau humain :2 ∗ 1014 opérations logiques par seconde1970: ordinateur 107 opérations logiques par seconde2005: PC 1011 opérations logiques par secondeLes superordinateurs ont dépassé ce niveau. Sont-ilsintelligents pour autant ?Comment les programmer ? Qu’est ce que l’intelligence ?
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Le test de Turing
Un homme ne peut discriminer par la discussion (questions-réponses) avec l’interlocuteur si celui-ci est une machine ou sicelui-ci est humain.
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Le problème du perceptron
Base de données: A+ ∈ Rn,A− ∈ Rn
Le problème d’apprentissage est dit linéairementséparable s’il existeφ ∈ Rn tel que ∀x ∈ A+, (φ | x) > 0, ∀x ∈ A−, (φ | x) < 0Algorithme adaptatif du perceptron (Rosenblatt 1957Cornell Aéronautique) φn+1 = φn ± xn+1
Théorème du perceptron: L’algorithme du perceptron setermine sur une solution si le problème d’apprentissage estlinéairement séparable.Et si le problème n’est pas linéairement séparable ?(Minsky 1969).Extinction provisoire du perceptron
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Les systèmes à base de règles
Base de faits (propositions qui sont vraies ou fausses)Base de règles (relation entre faits liant prémisses etconclusions)Moteur d’inférence capable de résoudre des problèmes encherchant des règles applicables au problème.Exemple célèbre: Mycin: système de diagnostic médicalautomatiqueProblème: La plupart des faits sur lesquels s’appuient lesdécisons "intelligentes" sont des faits ocmplexes où lesénoncés sont statistiquement vérifiés.Apparaît en reconnaissance de la parole ou en vision, lanécessité d’un prétraitement statistique
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Apprentissage adaptatif
L’intelligence est la capacité d’adaptation, d’apprentissage.Ce ne sont pas des connaissances qu’il faut extraire desfaits et implanter dans le système mais la capacitéd’apprentissage.L’apprentissage doit être permanent et adaptatif carl’environnement est changeant
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Outline
1 Emergence des systèmes intelligents
2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Description du neurone
Le neurone est activé quand la somme des potentielssynaptiques (excitateurs, inhibiteurs) dépasse un certainseuilL’activation est transmise par l’axone aux neuronessuivants du réseau. Le modèle est:
xi = φ(
p∑j=1
wijxj + wi0)
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Codage binaire ou analogique
En fait l’état du neurone est binaire (φ Heaviside,Mais la fréquence d’activation du neurone estgénéralement élevée (rétroactions) et la variablesignificative dans bien des cas est la féquenced’activationOn considère généralement des réseaux artificiels où l’étatdu neurone est analogique et des fonctions d’activationsigmoides φ(y) = 1
1+e−y
φ est dérivable et φ′(x) = φ(x)(1− φ(x))
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
La règle de Hebb et l’apprentissage synaptique
Le comportement du réseau est dicté par les synapses(poids wij dans le modèle mathématique).Il existe des preuves expérimentales montrant quel’apprentissage s’effectue par la modification des poidssynaptiques.La règle de Hebb consiste à définir l’apprentissage commele renforcement du poids de la synapse reliant deuxneurones s’activant de façon synchrone.La machine de Hopfield (1982) qui applique la règle deHebb n’est pas très efficace. Elle a été rapidementsupplantée par le perceptron multi-couche.
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Outline
1 Emergence des systèmes intelligents
2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Perceptron multi-couche et règle delta
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Problématique de l’apprentissage supervisé
Soit E ∈ Rp l’espace des entrées, F l’espace des sorties etW l’espace des paramètres du système. Un systèmed’apprentissage est une applicationΦ : (x ,w) ∈ E ×W → Φ(x ,w) ∈ FOn se donne une base d’apprentissage, c’est à dire unsous-ensemble fini {(xi , yi) ∈ E × F}i=1...n et une fonctioncoût, par exemple C(y , y) =‖ y − y ‖2
On cherche à résoudre minw∑n
i=1 ‖ Φ(xi ,w)− yi ‖2
Il s’agit d’un problème d’optimisation:Si F est fini, il s’agit d’un problème de classification(exemple lecture d’un texte, reconnaissance de la parole)Si F est un sous-ensemble régulier, il s’agit d’un problèmede régression (non linéaire si Φ n’est pas linéaire en w)
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Algorithmes d’apprentissage supervisé
L’algorithme d’apprentissage le plus classique estl’algorithme de descente de gradient
wn+1 = wn +n∑
i=1
hn∇w Φ(xi ,wn)(yi − Φ(xi ,wn))
Cet algorithme est lent et converge trop facilement versdes minima locauxOn peut le rendre adaptatif est le régulariser(rétro-proagation du gradient avec momentum)
wn+1 = wn +hn∇w Φ(xn,wn)(yn−Φ(xn,wn))+ηn(wn−wn−1)
On peut l’accélérer en utilisant des algorithmes dequasi-Newton (BFGS)On peut le régulariser en utilisant des pénalisations de‖ w ‖2 (Levenberg-Marquard)
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Outline
1 Emergence des systèmes intelligents
2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Problématique statistique
Si on cherchait à apprendre par coeur la base d’apprentissage,on choisirait l’espace des paramètres le plus complexe possiblepour minimiser l’erreur d’apprentissage
∑ni=1 ‖ Φ(xi ,w)− yi ‖2.
ProblèmeEtant donné une loi de probabilité P sur E × F , on chercheminw
∫‖ y − Φ(x ,w) ‖2 dP(x , y) à partir de la donnée d’un
échantillon de taille n {(xi , yi)} de P qui constitue la based’apprentissage.
La qualité de l’apprentissage sera mesurée sur un autreéchantillon {(xj , yj)} de P qui constituera la base de test.
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
L’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
Le compromis biais-variance
On cherche w ∈ W tel que x → Φ(x ,w) approche aumieux x → EP(Y | X = x)PlusW est grand, plus faible est le biaisBiais = minw ‖ EP(Y | X = .)− Φ(.,w) ‖PlusW est grand, plus grande est la variance del’estimation de w et donc de Φ(., w)Le compromis biais-variance est trouvé soit par desestimations théoriques, soit par l’estimation pratique del’erreur de généralisation sur une base de test.Selon le problème physique, une architecture de modèleou une autre est la plus efficace en terme de compromisbiais-variance.Les principales architectures sont: régression linéaire,perceptron multi-couche, machine à vecteur support (ou ànoyau).
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Outline
1 Emergence des systèmes intelligents
2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Statistique non paramétrique
On effectue des mesures dont l’ensemble constituel’échantillonSans hypothèse de type sur la loi de probabilité commentla reconstruire ?La loi empirique et l’histogramme sont trop irrégulierssurtout en petite taille d’échantillon.
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Les fenêtres de Parzen
Objectif: régulariser l’histogrammeEtaler chaque donnée sur une fenêtre de Parzen dont lalargeur décrôit avec la taille de l’échantillon en 1/
√N.
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Outline
1 Emergence des systèmes intelligents
2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Analyse en composantes principales (PCA)
Le but: Déterminer les facteurs principaux de variabilitéd’un échantillonL’intérêt principal: réduire la dimension d’un espaced’attributsLa technique: recherche des axes principaux d’inertie
Diagonaliser la matrice de covariance (symétrique, de typepostive)Classer les valeurs propres en ordre décroissantRetenir les premières valeurs propres et expliciter leprojecteur sur le sous-espace propre
Exemple:L’école imaginaire: déterminer le "bon élève" et "lelittéraire" avec les résultats de 10 matières exemple wiki)
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Outline
1 Emergence des systèmes intelligents
2 Les réseaux neuronaux en apprentissage superviséL’inspiration neuronaleRéseaux neuronaux classiquesApprentissage et Généralisation
3 Apprentissage non superviséEstimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Emergence des systèmes intelligentsLes réseaux neuronaux en apprentissage supervisé
Apprentissage non supervisé
Estimation de densitésRéduction de dimensionnalitéRecherche de prototypes
Classification automatique
ProblèmeClassification automatique: chercher un sous-ensemble F de kprototypes dans un espace d’attributs normé E qui déterminentla classification ΦF (x) = arg miny∈F ‖ y − x ‖
Le critère de minimisation de l’approximation d’un individupar son prototype (LSE: least square error):minF
∫E ‖ x − ΦF (x) ‖2 dP(x)
La condition de k-moyennes:∀j = 1...k , yj =
∫xdP(x | ΦF (x) = yj)
L’algorithme itératif des k-moyennes: à partir de Fn(initialisé par tirage aléatoire)
On calcule la projection ΦFn sur le plus proche prototypeOn recalcule les k-moyennes de cette projection:∀j = 1..k , yn+1
j =∫
xdP(x | ΦFn (x) = ynj )
Manuel Samuelides, Professeur à l’ISAE [email protected] problématiques de l’apprentissage statistique
Top Related