Reseaux de Neurones : Perceptron

Equipe de recherche en Ingénierie des ConnaissancesLaboratoire ERIC 1

Application du réseaux de neurones àl’apprentissage supervisé

Ricco RAKOTOMALALA

Métaphore biologiqueFonctionnement du cerveauTransmission de l’information et apprentissage

Idées maîtresses à retenir

• Réception d’une information (signal)• Activation + Traitement (simple) par un neurone• Transmission aux autres neurones (si seuil franchi)• A la longue : renforcement de certains liens APPRENTISSAGE

Modèle de Mc Colluch et PittsLe perceptron Simple )(0),(1 −+∈Y

Problème à deux classes (positif et négatif)

Couche d’entrée Couche de sortie

Poids synaptiques

EntréesDescripteurs

Modèle de prédiction et règle d’affectation

3322110)( xaxaxaaXd +++=

0Sinon1Alors0)(Si ==> YYXd

Le perceptron simple est un modèle de prédiction linéaire

Fonction de transfertFonction à seuil -- Fonction de Heaviside

)(Xd∞− ∞+

Apprentissage du perceptron simple

Comment calculer les poids synaptiques à partir d’un fichier de données(Y ; X1, X2, X3)

(1) Quel critère optimiser ?

(2) Comment procéder à

l’optimisation ?

Faire le parallèle avec la régression et les moindres carrésUn réseau de neurones peut être utilisé pour la régression (fonction de transfert avec une sortie linéaire)

(1) Minimiser l’erreur de prédiction

(2) Principe de l’incrémentalité

Exemple – Apprentissage de la fonction AND (ET logique)

Exemple révélateur – Les premières applications proviennent de l’informatique

Données

-0.5 0 0.5 1 1.5

Représentation dans le plan

Principales étapes :

1. Mélanger aléatoirement les observations2. Initialiser aléatoirement les poids synaptiques3. Faire passer les observations unes à unes

• Calculer l’erreur de prédiction pour l’observation• Mettre à jour les poids synaptiques

4. Jusqu’à convergence du processus

Une observation peut passer plusieurs fois !

Exemple AND (1)

Initialisation aléatoire des poids : 05.0;2.0;1.0 210 === aaa

Frontière :0.20.42005.02.01.0 121 −−=⇔=++ xxxx

-0.5 0 0.5 1 1.5

Règle de mise à jour des poidsPour chaque individu que l’on fait passer(Principe de l’incrémentalité)

jjj aaa ∆+←

ErreurDétermine s’il faut réagir ou non

Force du signal

( ) jj xyya ˆ−=∆ η

Constante d’apprentissageDétermine l’amplitude de l’apprentissageQuelle est la bonne valeur ?Trop petit lenteur de convergenceTrop grand oscillationEn général autour de 0.05 ~ 0.15 (0.1 dans notre exemple)

Exemple AND (2)

Observation à traiter Appliquer le modèle

1.0005.002.011.0

=×+×+×y

Màj des poids

( )( )( )

=×−×=∆=×−×=∆

−=×−×=∆

0011.0

1.0111.0

Nouvelle frontière : 0.00.4005.02.00.0 1221 +−=⇔=++ xxxx

-0.5 0 0.5 1 1.5

Exemple AND (3)

2.0005.012.010.0

=×+×+×y

Màj des poids

( )( )( )

=×−×=∆−=×−×=∆−=×−×=∆

0011.0

1.0111.0

Nouvelle frontière : 0.20.2005.01.01.0 1221 +−=⇔=++− xxxx

-0.5 0 0.5 1 1.5

Exemple AND (4) – Définir la convergence

Nouvelle frontière : 0.20.2005.01.01.0 1221 +−=⇔=++− xxxx

-0.5 0 0.5 1 1.5

Convergence ?

(1) Plus aucune correction effectuée en passant tout le monde

(2) L’erreur globale ne diminue plus « significativement »(3) Les poids sont stables(4) On fixe un nombre maximum d’itérations(5) On fixe une erreur minimale à atteindre

Remarque : Que se passe-t-il si on repasse l’individu (x1=1 ; x2=0) ?

05.0105.001.011.0

−=×+×+×−y

Màj des poids

( )( )( )

=××=∆=××=∆=××=∆

0101.0

0001.0

0101.0

Pas de correction ici ? Pourquoi ? Voir sa position dans le plan !

Évaluation de P(Y/X) – Fonction de transfert sigmoïde

Le Perceptron propose un classement Y/XDans certains cas, nous avons besoin de la probabilité P(Y/X) ex. Scoring

Fonction de transfertFonction à seuil -- Fonction de Heaviside

)(Xd∞− ∞+

Fonction de transfertFonction sigmoïde – Fonction logistique

)(Xd∞− ∞+

La régle de décision devient : Si g(v) > 0.5 Alors Y=1 Sinon Y=0

Conséquences d’une fonction de transfert continue et dérivableModification du critère à optimiser

[ ])()(ˆ xdfvgy ==

Sortie du réseau

Critère à optimiser : critère des moindres carrés

)(ˆ)(2

−=ω

ωω yyE

Mais toujours fidèle au principe d’incrémentalité, l’optimisation est basé sur la descente du gradient !

Descente du gradient

Fonction de transfert sigmoïde dérivable

))(1)(()(' vgvgvg −=

Optimisation : dérivation de la fonction objectif par rapport aux coefficients

)()]([')](ˆ)([ ωωωω jij

xvgyya

E ××−−=∂∂

Règle de mise à jour des coefficients pour un individu(Règle de Widrow-Hoff ou Règle Delta)

jjj xvgyyaa )(')ˆ( −+← η

Gradient : màj des poids dans la direction qui minimise E

La convergence vers le minimum est bonne dans la pratiqueCapacité à traiter des descripteurs corrélés (pas d’inversion de matrice)Capacité à traiter des problèmes à très grande dimension (lignes x colonnes)Mise à jour facile si ajout de nouveaux individus dans la base

Problème à K classes -- Que faire quand Y possède plus de 2 modalités ?

(1) Codage disjonctif complet de la sortie

kk yyssiy ==1

JkJkkk xaxaav ,1,1,0 +++= Lavec

(2) « Output » pour chaque sortie

][ˆ kk vgy =

(4) Règle de décision

k ykssiyy ˆmaxarg*ˆ * ==

(3) P(Y/X) ][)/( kk vgXyYP ∝=

Minimisation de l’erreur quadratiqueEn traitant K réseaux en parallèle

( )∑∑=

−=ω

kkk yyE

2)(ˆ)(2

Pratique du Perceptron (Démo sur les cancers du sein)

Ramener les descripteurs sur la même échelleStandardisation, Normalisation, etc.

(Éventuellement) Subdiviser les données en 3 parties :Training + Validation + Test

Attention au paramétrage, notamment de la règle d’arrêt

Évolution erreur

Mort et résurrection du Perceptron – Le problème du XOR

Données

-0.5 0 0.5 1 1.5

Non séparable linéairement(Minsky & Papert, 1969)

Couche d’entrée Couche de sortieCouche cachée

Une combinaison de séparateurs linéaires permet de produire un séparateur global non-linéaire

(Rumelhart, 1986)

Perceptron Multi-Couches (PMC)On peut avoir plusieurs couches cachées

PMC – Formules et propriétés

Propriété fondamentale : Le PMC est capable d’approximer toute fonction booléenne existante pourvu que l’on fixe convenablement le nombre de neurones dans la couche cachée

Passage C.Entrée C.Cachée

33221102

33221101

xbxbxbbv

xaxaxaav

+++=+++=

Sortie de la C.Cachée

Passage C.Cachée C.Sortie

22110 ucuccz ++=

Sortie du réseau

zezgy −+

PMC Apprentissage – La rétropropagation du gradient

Généraliser la règle de Widrow-Hoff – La descente du gradient

En sortie : Erreur mesurée (pour un individu)

Correction des poids synaptiques menant à la couche de sortie

Propagation (en arrière) des corrections dans les couches intermédiaires

L’algorithme de la rétro-propagation du gradient donne de bons résultats dans la pratique même si le risque de stagnation dans un optimum local n’est pas à négliger normaliser ou standardiser impérativement les données et bien choisir la constante d’apprentissage

PMC – Un exemple de discrimination non linéaireConstruisons un réseau avec 2 couches cachées

-11.32

-20.10-36.83

-38.95

negatifpositif

X1 vs. X2Control variable : C_Y

10.950.90.850.80.750.70.650.60.550.50.450.40.350.30.250.20.150.10.05

negatifpositif

u1 vs. u2Control variable : Y

La sortie des neurones de la couche cachée propose un nouvel espace de représentation où il est possible de discriminer linéairement les exemples !

PMC – Avantages et inconvénients

Classifieur très précis (si bien paramétré)

Incrémentalité

Scalabilité (capacité à être mis en œuvre sur de grandes bases)

Modèle boîte noire (causalité descripteur – variable à prédire)

Difficulté de paramétrage (nombre de neurones dans la couche cachée)

Problème de convergence (optimum local)

Danger de sur-apprentissage (utiliser impérativement un fichier de validation)

Références

• « Neural network »Tutorial slides of Andrew Morrehttp://www.autonlab.org/tutorials/neural.html

• « Apprentissage à partir d’exemples »Notes de cours F. Denis & R. Gilleron – Lille 3http://www.grappa.univ-lille3.fr/polys/apprentissage/

• « Machine Learning »Tom Mitchell, Ed. Mc Graw-Hill International, 1997.

• « Réseaux de neurones » sur WIKIPEDIA

• « Réseaux de neurones – Méthodologie et Applications »Sous la direction de Gérard Dreyfus, Ed. Eyrolles, 2004.

Reseaux de Neurones : Perceptron

Documents

Transcript of Reseaux de Neurones : Perceptron

Présentation de Neurones +

Réseau de neurones

Les réseaux de neurones artificiels - acse.pub.roacse.pub.ro/wp-content/uploads/2014/05/Les-réseaux-de-neurones... · Les Réseaux de Neurones Artificiels • 1 Présentation •

Réseaux de neurones

Cours Apprentissage 2 : Perceptron

Réseaux de neurones 1 - frostiebek.free.frfrostiebek.free.fr/docs/Reseaux de neuronnes/reseaux_neurones1.pdf · Cours SCIA Promo 2007 Réseaux de neurones 1 ATBLE DES FIGURES Ing2

Réseaux de neurones · 1Réseaux de neurones Réseaux de neurones Résumé Déﬁnition et caractéristiques des réseaux de neurones limitée aux perceptrons multicouches spéciﬁques

Analyse Par Reseaux de Neurones

LES RESEAUX DE NEURONES ARTIFICIELS ......Claude Touzet. LES RESEAUX DE NEURONES ARTIFICIELS, INTRODUCTION AU CONNEX-IONNISME: COURS, EXERCICES ET TRAVAUX PRATIQUES. EC2, 1992, Collection

Perceptron simple Perceptron multi-couches - LaBRI · Le perceptron simple ne peut résoudre que des problèmes linéairement séparables. Pour aller plus loin, il est nécessaire

ACDSee PDF Image.association.gens.free.fr/NEUROLOGIA/Revues Neuro Articles... · 2015-05-30 · neurones (neurones sympathiques, sensitifs et moto- neurones) est connue de longue

Réseaux de neurones artificiels - GDAC · Réseaux de neurones artificiels Hiver 2017 –INF4230 - UQAM. UQAM INF4230 2 Plan •Introduction •Architectures •Le perceptron •Réseau

Reseau Neurones

reseaux de neurones - Master de Chemoinformatique€¦ · 28/12/2002 41 3 définitions < > QUITTER •Les réseaux de neurones (artificiels) sont des programmes informatiques

Université Rennes 2 Haute Bretagne SAUNEUF …© Rennes 2 Haute Bretagne SAUNEUF MATHIEU RESEAUX DE NEURONES ARTIFICIELS ET CREATION MUSICALE ELECTROACOUSTIQUE Conséquences poïétiques

Réseaux de Neurones Artificiels©seau-de-Neurones-Artificiels.pdfTitle Réseaux de Neurones Artificiels Author manu Created Date 3/12/2009 5:29:23 PM

RESEAUX DE NEURONES EN TRAITEMENT … · précieuse dans la réalisation des logiciels d ... ce domaine à un foisonnement de modèles et d’applications. ... des recherches de pointe

Réseaux des neurones

Réseaux de neurones. 2 Sommaire Perceptron Mémoires associatives Réseau à couches cachées Rétro-propagation de lerreur.

Chapitre 4 Perceptron multicouche. Plan 4- Perceptron multicouche Intro: labo 2 Erreur et gradient derreur Rétro-propagation du gradient derreur Algorithme.