1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail :...

94
Yves Lechevallier Cours CNAM 1 Yves Lechevallier INRIA-Rocquencourt E_mail : [email protected] CNAM MASTER2 IS 2006- 2007 Méthodes neuronales

Transcript of 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail :...

Page 1: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 1

Yves Lechevallier

INRIA-Rocquencourt

E_mail : [email protected]

CNAM MASTER2 IS 2006-2007

Méthodes neuronales

Page 2: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 2

Plan du Cours

Introduction

Approche bayésienne

Analyse discriminante linéaire

Méthodes neuronales

Page 3: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 3

Processus Data Mining

Phase A : Entrepôt de données

Phase B : Exploration

Phase C Modélisation

Données Opérationnelles

Entrepôt de données

Ensemble d’apprentissage

Ensemble de test

Phase E: Prédiction / Scoring

Scores Règles

Ensemble de règles Classifieurs

Phase D: Choix du modèle

Ensemble validation

Page 4: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 4

Méthodes de classementDiscrimination

• Les méthodes de classement ont pour objet d’identifier la classe d’appartenance d’objets définis par leur description

• Un objet à classer est une entité appartenant à une population théorique constituant l’ensembles des objets susceptibles d’avoir à être classés. Cette population est supposée connue de façon exhaustive.

Page 5: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 5

Notations

est muni d’une partition (1,…,K).

• G={1,…,K}

• Y la fonction de classement

• DX espace de description (souvent Rp)

• Un couple (x,y) où x représente sa description et y l’indice de sa classe d’appartenance.

Page 6: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 6

couple «description, classe»

DX

G

X

Y

•Un couple (x,y) où x représente sa description et y l’indice de sa classe d’appartenance.

Page 7: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 7

Objectif des méthodes de classement

Trouver une procédure de classement , dite fonction de décision, qui à toute description de DX fournit l’indice d’une classe de .

Y

DX

X

Y

Y^

G

Cette procédure devra être aussi bonne que possible et fournir le classement des objets de à partir de leur description.

Page 8: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 8

Fonction de décision

Toute fonction de décision induit sur une partition en classes appelées région d'affectation de

),...,,...,( 1 Kk RRR

kxYDxkYR Xk )(ˆ/)(ˆ 1

Y

Pour un descripteur X et une fonction de décision on peut définir sur une partition en K classes d'affectation.

Y

Page 9: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 9

Fonction de décision

Tous les objets appartenant à une même classe d'affectation sont attribués de la même façon par Y

)ˆ,...,ˆ,...,ˆ( 1 Kk

)()(ˆˆ 111kk RXkYX

D X

G

X

Y

Y ^

),...,,...,( 1 Kk

Y

Page 10: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 10

Espace de description DX

élément de E

DX

+

+ ++

+

++

XXj

X1

Xp

+ valeur dans DX

X

Page 11: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 11

Classes a priori

élément de E

DX

+

+ ++

+

++

X,YXj

X1

Xp

+ valeur dans DX

X,Y

Page 12: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 12

Fonction de décision

élément de E

DX

+

+ ++

+

++

Xj

X1

Xp

+ valeur dans DX

)()(ˆˆ 111kk RXkYX

)ˆ,...,ˆ,...,ˆ( 1 Kk

Rk

Y

Y

Page 13: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 13

Cette l’approche statistique de la reconnaissance des formes. Cette approche est basée sur une quantification de différentes classifications utilisant les coûts et les probabilités accompagnant ces classifications. Un ramasseur de champignon désire éliminer les amanites phalloïdes de sa récolte. Il suppose que 5% des champignons des sous bois qu'il fréquente sont des amanites phalloïdes. Il pense que 90% des amanites phalloïdes présentent une volve à la base du pied alors que ce caractère n'est présent que chez 20% des autres espèces qu'il est susceptible de ramasser. Si un champignon présente une volve quelle décision doit-il adopter?

Théorie de la décision bayésienne

Page 14: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 14

Concepts probabilistes

La population est munie d'une mesure de probabilité Pr ce qui permet de relativiser la possibilité d'apparition des différents objets à classer.

Dans le cas général, la mesure de probabilité Pr n'est pas connue. Elle permet de définir la probabilité d'apparition des classes d'une part et les lois régissant les variations potentielles des descriptions d'autre part.

La probabilité associée à chacune des classes dite probabilité a priori

)Pr()Pr( kYkk

Page 15: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 15

Vraisemblance

La loi de probabilité de X est appelée la vraisemblance de X.

Si l'espace de description est discret on peut écrire

Sinon c’est la densité de probabilité de X au point x.

Une description particulière x est d'autant plus vraisemblable qu'elle a une forte chance d'apparaître.

xXxL Pr)(

Page 16: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 16

Vraisemblance conditionnelle

Une description particulière x est d'autant plus vraisemblable, pour une classe k, qu'elle a une forte chance d'apparaître chez les objets de cette classe.

L'aspect conditionnel de la vraisemblance prend en compte la structure distributionnelle différenciée des descriptions dans chacune des classes.

Si le descripteur X était identiquement distribué dans chaque classe, et si donc chaque description était aussi «vraisemblable» dans chacune des classes, on ne pourrait pas prétendre utiliser X pour classer les objets.

Seule la fréquence des classes servirait à la discrimination.

kk xXxL /Pr)(

Page 17: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 17

Théorie de la décision bayésienne

Nous avons deux états de la nature,

les amanites phalloïdes: 1 avec P(1)=P[Y=1]=0.05.

et les autres champignons: 2 avec P(2)=P[Y=2]=0.95.

Le descripteur X est la question « présence d’une volve » qui est la variable aléatoire discrète X1 ayant deux réalisations ou modalités

« Oui » « Non ».

La probabilité d’avoir une volve sachant que le champignon est une amanite phalloïde est de 0.9 d’où :

P[X1=Oui/Y=1]=0.9 et P[X1=Oui/Y=2]=0.2.

Page 18: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 18

Formule de Bayes

Le promeneur observe que ce champignon possède une volve.

Quel est la probabilité que ce champignon est une amanite phalloïde ?Cette probabilité est P[Y=1/ X1=Oui]

Sachant que la probabilité jointe sur X et Y peut être écrite suivante deux formes :P[X1=x et Y=y]= P[X1=x/Y=y].P[Y=y]=P[Y=y/X=x].P[X=x]

D’où P[Y=1/ X1=Oui]= P[X1=Oui/Y=1].P[Y=1]/ P[X1=Oui]•P[X1=Oui]=P[X1=Oui et Y=1]+ P[X1=Oui et Y=2]•P[X1=Oui]=P[X1=Oui /Y=1].P[Y=1]+ P[X1=Oui/Y=2].P[Y=2]

qui est la formule de Bayes. Cette formule peut exprimer par :

a posteriori = ( vraisemblance x a priori)/ évidence

Page 19: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 19

Erreur de classement

A chaque fonction de décision on a une règle de décision

kxalorskxYSi ˆ)(ˆ

La performance globale de la fonction de décision est la moyenne des probabilités d'erreur de cette fonction de décision sur l'espace de description.

)ˆ(YR Y

.ˆPr1ˆPr]ˆPr[)ˆ( k

kkk kh

hkYYYR

La règle d'affectation est la règle de bayes d'erreur minimale si elle est vérifie :

*Y

)ˆ()ˆ(ˆ *YRYRY

Page 20: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 20

Formule de Bayes

Ainsi, l'utilisation de la règle probabiliste de Bayes, minimisant le taux d'erreur, l'amène à classer tous les champignons présentant une volve parmi les champignons à conserver !

la règle de Bayes minimisant le taux d'erreur ne tient aucun compte des conséquences catastrophiques d'une mauvaise décision.

Il faut d'introduire une fonction de coût capable de quantifier le risque d'un mauvais classement.

Calculons les termes permettant d'exploiter la règle d'affectation:

19,0=95,0 2,0=)(Pr)/(Pr

045,0=05,0 9,0=)(Pr)/(Pr

phalloïde amanitephalloïde amanitevolve

phalloïde amanitephalloïde amanitevolve

Page 21: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 21

Fonction de coût

Il faut d'introduire une fonction de coût capable de quantifier le risque d'un mauvais classement. Le caractère mortel de l'amanite phalloïde conduit à poser comme fonction de coût :

)/(

0)/(

deïphallo amanitesdeïphallo amanitesC

deïphallo amanitesdeïphallo amanitesC

La règle d'affectation de Bayes de risque minimal conduit alors à rejeter systématiquement tout champignon présentant une volve. Les conséquences d'une erreur étant infinies, le risque est réduit en adoptant une règle d'exclusion systématique des champignons ayant une volve. C'est la réaction naturelle de beaucoup de promeneurs

Page 22: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 22

Éléments de la théorie de la décision

a)(G,,) espace probabilisé avec G l’ensembles des états de la nature et la probabilité associée.

b) X une variable aléatoire multidimensionnelle (dans Rp) dont la loi dépend d’un état y de G.

c) (X1,Y1),…,(Xn,Yn) un échantillon de taille n.

d) D ensemble de décision

e) un ensemble de fonction de décision de Rp dans D.

 f) C une fonction de coût de GxD dans R+, C(y,d) est le coût de réaliser y et d’avoir pris la décision d.

Page 23: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 23

Coût de la décision

Pour une fonction de décision de et la distribution a priori des états le coût moyen est égal à :

dxdyyxfxYyCxYyCEY XYGxR p),())(ˆ,())(ˆ,()ˆ,(

qui est le coût de remplacer (x,y) par ))(ˆ,( xYx

Y

Page 24: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 24

Théorème de Bayes

On note :

(y) la densité correspondant à l’état y; P[Y=y]

fy(x) la densité sur Rp si l’état y est choisi. P[X=x/Y=y]

px(y) la densité sur G si la réalisation x est observée P[Y=y/X=x]

p(x) la densité dans Rp P[X=x]

D’après de théorème de Bayes nous avons

dxfp(x) avec xp

xfyyp

G

yx )()(

)(

)().()(

Page 25: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 25

Deux formes symétriques

1) Fonction de risque associé à conditionnellement lorsque l’état y est réalisé :

2) Fonction de risque associée à conditionnellement lorsque la réalisation x est observée (risque à posteriori)

dxdyxfxxYyCxYyCEY yGxR p)()())(ˆ,())(ˆ,()ˆ,(

dyyYyRYG

)()ˆ,()ˆ,( dxxfxYyCYyR yR p

)())(ˆ,()ˆ,(

dxxpYxrYpR

)()ˆ,()ˆ,(

dyyxYyCYxr xG)())(ˆ,()ˆ,(

avec

avec

Page 26: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 26

Les solutions de Bayes

Soit une mesure de probabilité sur G (ensemble des états de la nature).

On appelle solution de Bayes par rapport à toute fonction de décision telle que :Y

YYY ˆ)ˆ,()ˆ,(

Si on peut trouver une fonction de décision telle que :pRxYYxrYxr

ˆ)ˆ,()ˆ,(

alors est une solution de Bayes par rapport à . La décision qui minimise le risque à posteriori est une solution de Bayes.

Y

Y

Page 27: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 27

Règle de décision de Bayes de risque minimum

Nous allons introduire le concept de coût associé à un mauvais classement. Nous rechercherons alors la règle de décision dont le coût moyen est aussi faible que possible.

Une fonction de coût C est une application qui, à tout couple (k,h), affecte le coût C(h/k) du classement d'un objet de k comme un objet de la classe h. Cette fonction vérifie le plus souvent les propriétés suivantes

hkGGhkkhC

GkkkC

,),(0)/(

0)/( Les valeurs sont fixées suivant le contexte du problème

Page 28: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 28

le coût moyen de l'affectation à la classe k

Ce coût moyen est l'espérance mathématique de la fonction coût, conditionnellement à la description x et est égal à :

K

h

xhhkCxkC1

)/Pr()/()/(

La règle d'affectation localement optimale en x consiste alors à attribuer l'objet décrit par x à la classe k qui minimise ce coût moyen.

)/(min)/( que est tel où )(*ˆ xhCxkCkkxYx

.d)()(ˆ

d)()(ˆ

1

*

*ˆ*

h

g

hhD

DY

xxLhxYC

xxLxxYCC

X

X

En moyenne, c'est la règle «la moins coûteuse». On l'appelle la règle d'affectation de Bayes de risque minimum.

Page 29: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 29

Approche Bayésienne

• Probabilités a priori des classes k

• Les lois de probabilité Lk(x) du vecteur x dans chaque classe a priori.

• Une fonction C de coût du classement d’un objet de la classe a priori Pk dans la classe d’affectation Ph coût C(h/k)

• Une fonction de décision Y*.

Page 30: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 30

Règle de décision de Bayes d'erreur minimale

La règle la plus simpliste est d'affecter tout objet à classer à la classe la plus probable :

hkkkxYx max que est tel où )(*Dans ce cas, la règle est constante. D’où l'intérêt de disposer d'une description des objets pour pouvoir orienter leur classement.

la probabilité de se tromper connaissant la description x

kh

xh

xkxYR

/Pr

/Pr1/ˆ*

On voit ainsi que chercher à maximiser la probabilité d'appartenance d'un objet à une classe, conditionnellement à sa description, revient à chercher à minimiser la probabilité d'erreur de classement de la règle d'affectation sachant x .

Page 31: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 31

Règle de Bayes d’erreur minimale

)/Pr(max)/Pr( que est telk où )(* xhxkkxYx

Théorème de Bayes)(

)()/Pr(

xL

xLxk kk

)(max)/Pr( que est tel où )(* xLxkkkxYx kk

]Pr[ kYk

kkYxXxLk classe la de densité laest ]/Pr[)(

Cette définition est peu opérationnelle, en effet, on connaît rarement la probabilité d'un classement sachant une description.

Page 32: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 32

Méthodes statistiques paramétriques

Nous avons considéré que les lois probabilistes régissant les fluctuations de la description X étaient parfaitement connues ou admises. Cette connaissance était exprimée par l'expression analytique des différentes fonctions de vraisemblance Lk et permettait la construction des règles de décision de Bayes Maintenant seule est admise la forme générale de la distribution de probabilité des exemples conditionnellement à leur classe d'appartenance.

Les fonctions de vraisemblance sont des éléments inconnus d'une famille de lois de probabilité paramétrée par . )/()( kk xLxL

Page 33: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 33

Échantillonnage des exemples

L'information initiale sous la forme d'un système d'hypothèses probabilistes ou sous la forme d'observations expérimentales regroupées dans un ensemble E de n exemples

.),(),...,,(),...,,

,...,,...,

11

1

( nnii

ni

yxyxyx

eeeE

L'ensemble E des exemples ne sera pas représentatif de la population toute entière mais chaque ensemble Ek sera représentatif de la classe k.

Ainsi les probabilités a priori des classes devront être supposées connues ou admises

Page 34: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 34

Les descriptions suivent une loi normale

Le descripteur X des exemples est constitué de p descripteurs numériques et que sa distribution, conditionnellement aux classes, suit une loi normale multidimensionnelle centrée sur le vecteur et de matrice de variance-covariance .

La vraisemblance conditionnelle de X pour la classe k s'écrit alors

k

k

)()(expdet)2()( 1212

1

kkt

kkp

k xxxL

Page 35: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 35

Loi normale

La fonction de coût est constante alors la règle de Bayes de risque minimum revient à minimiser l'expression

kkkkt

k xx detln)ln(2)()( 1

Si de plus les probabilités a priori de chacune des classes sont identiques, et que les matrices de variance-covariance sont semblables, alors la règle d'affectation de Bayes est :

)()(),( 12k

tkk xxx

La règle de Bayes consiste donc, dans ce cas particulier, à affecter un objet à la classe k dont la description moyenne est la plus voisine de la description x de l'objet à classer.

k

Page 36: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 36

Exemple 1

0.0

0.2

0.4

0.6

0.8

1.0

12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0

densité -

>

x ->

densité de deux lois normales de variances égales

mu = 1.67, sigma = 0.1 Fmu = 1.76, sigma = 0.1 H

0.0

0.2

0.4

0.6

0.8

1.0

12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0

densi

té -

>

x ->

probabilité a posteriori

posteriori Fposteriori H

)(

)()/Pr(

xL

xLxk kk

Lk(x)

Les variances et les probabilités a priori sont égales

Page 37: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 37

Exemple 2

)(

)()/Pr(

xL

xLxk kk

Lk(x)

Les variances sont inégales égalesLes probabilités a priori sont égales

0.0

0.2

0.4

0.6

0.8

1.0

12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0

densité -

>

x ->

densité de deux lois normales de variances #

mu = 1.67, sigma = 0.07 Fmu = 1.76, sigma = 0.1 H

0.0

0.2

0.4

0.6

0.8

1.0

12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0

densité -

>

x ->

probabilité a posteriori

posteriori Fposteriori H

Page 38: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 38

Cas de deux classes

la règle de Bayes de risque minimum s'exprime alors en fonction du rapport

2

1

2

1

22

11

)2/1(

)1/2(ln

)(

)(ln

)(

)(

)2/1(

)1/2(ln)(

C

C

xL

xL

xL

xL

C

Cx

2)(ˆsinon 1)(ˆ alors 0(x) si ** xYxYx

La règle :

Il découle que la surface définie par l'équation (x)=0 est la frontière qui sépare les deux régions d'affectation .

Page 39: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 39

Cas particulier

On admet l'égalité des matrices de variance-covariance :

Par utilisation directe de la définition de la distance de Mahalanobis on trouve alors que

21

2

12

21

221

)2/1(

)1/2(ln),(),()(

C

Cxxx

Cette expression, dite aussi statistique d'Anderson, révèle à nouveau le lien étroit qui existe entre la distance de Mahalanobis et le critère d'affectation de Bayes.

Page 40: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 40

Cas particulier

Par simplification on trouve l'expression

2

121

1

)2/1(

)1/2(ln)(

C

Cxx t )(21 21

)(

)(ln

2

1

xL

xL 211 tx

xx 0)(L'égalité des matrices de variance-covariance induit une discrimination linéaire

est linéaire en x. On peut donc mettre x) sous la forme

Page 41: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 41

Analyse discriminante de Fisher entre deux groupes

Les fonctions de densité conditionnelles sont multinormales et homoscédastiques.

(x) s’appelle fonction de score. xx 0)( 1

21 t

2

1211210 )2/1(

)1/2(ln

2 C

Ct

dépendante de l’échantillon indépendante de l’échantillon

Page 42: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 42

Probabilités a posteriori

x

x

x

eee

e

xL

xL xx )2/1ln())2,(2)1,(2(21

22

21

12

21

),(2

),(1

22

11

)(

)(

Avec :

)(/)(1

)(/)(

)()(

)()/1Pr(

2211

2211

2211

11

xLxL

xLxL

xLxL

xLxXY

Page 43: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 43

Interprétabilité des résultats

xx 0)(La fonction score est

)(21 21 Le point « pivot »

Alors

2

1

)2/1(

)1/2(ln)()(

C

Cxx

La valeur du score d’un individu est la somme des contributions de ses descripteurs. Pour chaque variable j Le signe de cette contribution dépendant de la position de xj par rapport au pivot j.

Page 44: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 44

Probabilité a posteriori d'appartenance

La probabilité a posteriori d'appartenance à la classe k d'un objet quelconque décrit par le vecteur x dans le cas particulier où les coûts sont égaux est égale à :

)()(

)()/1Pr(

2211

11

xLxL

xLxXY

x

x

x

xxXY

0

0

exp1

exp

)(exp1

)(exp)/1Pr(

la probabilité a posteriori d'appartenance à la première classe est une fonction logistique de (x).

Page 45: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 45

Les probabilités a posteriori

)()(

)(]/1[

2211

11

xLxL

xLxXYP

Deux cas :

•Soit les hypothèses du modèle choisi sont utilisées, par exemple

•Soit il n’y a pas de modèle et alors on utilise le théorème de Bayes pour estimer les lois conditionnelles empiriques

)1/(1]/1[ xexXYP

Page 46: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 46

Généralisation

Capacité de bien affecter de nouvelles données

+o o

o

o

o

oo

oo

o

o

o

oo o

oo

o

o

o

o

o+

+ ++

+

++

+

+

+

+

+

++

+

++

+o o

o

o

o

oo

oo

o

o

o

oo o

oo

o

o

o

o

o+

+ ++

+

++

+

+

+

+

+

++

+

++

Modèle simple

Page 47: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 47

Généralisation

+o o

o

o

o

oo

oo

o

o

o

oo o

oo

o

o

o

o

o+

+ ++

+

++

+

+

+

+

+

++

+

++Modèle un peu trop flexible

Complexité du modèle : Comment adapter au mieux le modèle aux données sachant que l’on ne possède qu’un échantillon ?

Page 48: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 48

Complexité du modèle

+o o

o

o

o

o

o

oo

o

o

o

oo o

oo

o

o

o

oo

+

+ ++

+

++

+

+

+

++

++

+

++

o

o

o

Analyse discriminante

+o o

o

o

o

o

o

oo

o

o

o

oo o

oo

o

o

o

oo

+

+ ++

+

++

+

+

+

++

++

+

++

o

o

o

Page 49: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 49

Comment améliorer cette solution ?

+o o

o

o

o

o

o

oo

o

o

o

oo o

oo

o

o

o

oo

+

+ ++

+

++

+

+

+

++

++

+

++

o

o

o+o o

o

o

o

o

o

oo

o

o

o

oo o

oo

o

o

o

oo

+

+ ++

+

++

+

+

+

++

++

+

++

o

o

o

Analyse discriminante quadratique

Méthode neuronale

Perceptron

Page 50: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 50

Réseaux de neurones, le début

Au début des années 40 il s’agissait de produire des systèmes artificiels capable de simuler certaines capacités des systèmes naturels: apprentissage, intelligence ...

En 1943 Mc Culloch (psychologue) et Pitts(mathématicien) proposent le premier réseau d’automates à seuil analogue à un neurone formel et donne le vocabulaire actuel : neurone, synapse,connexions…En 1949 Donald Hebb introduit le concept de l’apprentissage avec la règle de Hebb dans le livre “The Organization of Behaviour”.Les premier neurones en discrimination apparaissent avec Franck Rosenblatt en 59. Il propose un modèle de réseau capable d’apprendre à partir d’exemples, le Perceptron.

Page 51: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 51

Modèle neuronal en biologie

Page 52: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 52

Cerveau vs Ordinateur

Neurones : 50 milliards

Synapses : 1014

Vitesse : 10 -3 s

Calcul : distribué, non linéaire et parallèle

Neurones : 1 milliard

Synapses : 1010

Vitesse : 10 -9 s

Calcul :central, linéaire et séquentiel

Page 53: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 53

Solutions

Il faut faire des machines massivement parallèles

Cette différence vient du logiciel

Importance de l’apprentissage

Deux types d’intelligence (J. C. Perez)

•Formelle Raisonnement logique et déductif

•Informelle Intelligence de perception, d’intuition et d’apprentissage

Page 54: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 54

Réseaux de neurones, la désillusion

Ensuite Bernard Widrow et Ted Hoff propose ADALINE (Adaptative Linear Element) qui est un algorithme neuronal optimisant le critère des moindres carrés et utilisant la règle de Widrow-Hoff (minimisation de l’erreur quadratique).

En 69 est publié par Minsky et Papert un ouvrage important “Perceptrons” proposant un cadre formel d’étude des réseaux de neurones et surtout donnent leurs limites.

Page 55: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 55

Linéairement ou non linéairement séparable

Page 56: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 56

Réseaux de neurones, la suite

• Comme résultat la recherche sur les méthodes neuronales est un peu abandonnée dans les année 70. Cependant quelques chercheurs continuent …

• 1972, Teuvo Kohonen: associative memory. • 1973, Vad der Malsburg: self-organizing maps. • 1973, Duda et Hart présentent ces réseaux dans le cadre de

la reconnaissance des formes• 1974, Paul Werbos propose le paradigme de la

rétropropagation du gradien.• 1975, Kuniko Fukushima: multi-layer perceptron. • 1976, Stephen Grossberg: associative learning.

Page 57: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 57

Réseaux de neurones, la fin

En 86 la présentation de l’algorithme de rétro-propagation (“backward propagation of errors”) par David Rumelhart, Geoffrey Hinton and Ronald Williams relance l’utilisation des réseaux de neurones. David Parker (voir aussi (1982, 1985) et Yann LeCun (1986)). Cet algorithme est une généralisation du Perceptron et de la règle de Widrow-Hoff.

En 89 la propriété d’approximateur universel est démontrée pour les réseaux ayant plus d’une couche cachée.

Au cours des années 90 les propriétés théoriques des réseaux de neurones ont été largement développées avec de nombreuses applications. Ces développements font des réseaux multicouches une méthode largement connue et employée surtout avec l’arrivée des ordinateurs modernes.

Page 58: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 58

Du neurone biologique au neurone artificiel

Page 59: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 59

Vocabulaire

Un Réseau de neurones (ANN, Artificial Neural Network) est un ensemble connecté de neurones.

Neurone : c’est un perceptron avec une sortie non linéaire.

Structure : c’est l’architecture du réseau.Connections : c’est les liaisons entre les

neurones.

Page 60: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 60

Le modèle statistique 

Les entrées sont constituées par p variables aléatoires X1,...,Xp.

Les sorties calculée par le réseau seront notées Z=G(X) .

X1

Xp

Réseau

G

Z1

ZK

Entrées

Sortiescalculées

CL

Système

Sortiesdésirées

Y1

YK

La qualité du réseau sera mesurée en fonction de l’écart entre la valeur yi et la

valeur obtenue par le réseau z G yi i ( )

Page 61: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 61

Un neurone

x1

xj

xp

wj

wp

w1

o=f(e)

f est la fonction d’activation

p

jjj xwe

1

0

0.5

1

-3 -2 -1 0 1 2 3

e

o

Page 62: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 62

Fonctions d’activation

0

0.5

1

-3 -2 -1 0 1 2 3

seuil

-1

0

1

-3 -2 -1 0 1 2 3

sigmoïde

0

0.5

1

-3 -2 -1 0 1 2 3

sigmoïde

)1/(1)( xexf )1/()1()( xx eexf

sxxf

sx-sxsxf

sxxf

si 1)(

si )/1()(

si 0)(

0

0.5

1

-3 -2 -1 0 1 2 3

0 si 1)(

0 si 0)(

xxf

xxf

Heaviside

Page 63: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 63

Fonction de score linéaire

)(max)( que est tel où )(*,..,1

xxkkxYx hKh

k

A chaque classe k on associe une fonction de score linéaire :

0)( wxwx tkk

Avec la règle de décision associée

Page 64: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 64

Fonction de score linéaire pour 2 classes

0)( wxwx t Avec la règle de décision associée

0)( si 1)(*

0)( si 2)(*

xxY

xxYx

Problème :

Trouver un vecteur de poids w tel que

1)( si 0)(

2)( si 0)(

xYx

xYxEx

Page 65: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 65

Ensemble linéairement séparable

L’ensemble E est linéairement séparable s’il existe un vecteur de poids w tel que :

0 xwEx

x* est le vecteur étendu de x si

x*=(x,1) si Y(x)=1

x*=(-x,-1) si Y(x)=2

(on notera maintenant par x le vecteur x*)

Comment le savoir ?

Page 66: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 66

Algorithme du Perceptron

On pourrait prendre le taux de mauvais classement comme critère d’optimisation, mais c’est une fonction constante par morceaux. Rosenblatt suggère le choix du critère suivant :

)(

)(wi

it xwwJ

)(woù est l’ensemble des mal classés par le vecteur w

Page 67: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 67

Algorithme du Perceptron

Initialisation

Choisir un vecteur w0 de dimension p+1

Étape itérativetest=0, Pour chaque x de E faire :

1,sinon faire 0 si 11 testxwwwwxw ttttt

Vérification

Si test= 0 alors fin sinon refaire l’étape itérative

L’algorithme du Perceptron converge en un nombre fini d’étapes si E est linéairement séparable

Page 68: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 68

Architecture du Perceptron

Entrée

p neurones

Sortie calculée (o)

Sortie désirée (d)

x1

x2

x3

x4

w1

w3

w1

w4

w2

e=w1*x1+w2*x2+ w3*x3+ w4*x4

o=f(e)

2)( si 0)(

1)( si 0)(

xYefo

xYefo

Page 69: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 69

Exemple

Cet exemple est linéairement séparable

w=(1,1,1/2) est une solution de l’équation

w1x+ w2y+w0=0

Page 70: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 70

Exemple non linéairement séparable

Exemple du XOR

L’algorithme du Perceptron oscille indéfiniment

Page 71: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 71

Problème de la généralisation (1)

Les droites bleues sont toutes des solutions équivalentes pour l’algorithme du Perceptron

Page 72: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 72

Problème de la généralisation (2)

L’algorithme prend une solution pas très robuste

Utilisation de l’erreur quadratique

Règle de Widrow-HoffWHP

Page 73: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 73

Algorithme de gradient stochastique

On suppose que nous avons un échantillon de taille infinie.

 A la réalisation zt nous ne disposons que de l'information

connue sur l’échantillon de taille t .

Au lieu de J(w) calculé sur l’échantillon de taille infinie nous avons u(w,t).

Dans ce cas on doit résoudre le problème suivant:

),(Emin)(min tjJXX DD

wwww

Page 74: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 74

Approche séquentielle

On choisit un w0 dans l'espace DX, ensemble des solutions.

à l'étape t on effectue un tirage aléatoire suivant la loi P. On obtient une réalisation xt

on procède à la mise à jour par la formule suivante :

w

xwww

),(

)1(tt

ttt

j

la suite de termes t positifs doit vérifier :

lim , ,t

t tt

tt

0

1

2

1

Page 75: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 75

Le coefficient

Page 76: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 76

La mise à jour des pondérations

Mesure de l’erreur

Le processus d’apprentissage du réseau consiste à présenter successivement les exemples de l’ensemble d’apprentissage de façon à estimer les poids w.On utilise l’erreur quadratique moyenne

Algorithme de minimisation de l’erreur

On peut écrire qu’à l’étape t, le vecteur des pondérations w dépendent de l’étape t-1 par la formule suivante:

)(

),()1()(

tw

tjtwtw

ktkk

w

22 )(),( tt ydotj xww

Page 77: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 77

Architecture du Perceptron (K>2)

Entrée

p neurones

Sortie calculéeK groupes

Sortie désirée

K

kkk doj

1

2)(w

Page 78: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 78

Schéma de la décision

x

Pr(2/x)

Pr(1/x)

Pr(3/x)

Pr(4/x)C(3/x)_

C(1/x)_

C(2/x)_

C(1/1)

C(2/1)

C(2/4)

C(3/4)

Min

K

h

xhhkCxkC1

)/Pr()/()/(

)/(min)/( que est tel où )(* xhCxkCkkxYx

Page 79: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 79

La mise à jour des pondérations

Mesure de l’erreur

le processus d’apprentissage du réseau consiste à présenter successivement les exemples de l’ensemble d’apprentissage de façon à estimer les poids W.

On utilise l’erreur quadratique moyenne

Algorithme de minimisation de l’erreur

On peut écrire qu’à l’étape t, la matrice des pondérations W dépendent de l’étape t-1 par la formule suivante:

)(

),()1()(

,,, tw

tWjtwtw

jktjkjk

K

kkk dotWj

1

2),(

Page 80: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 80

Architecture du Perceptron MultiCouche

Entrée

p neurones

Couche cachée

J neurones

Sortie calculéeK groupes(o)

Sortie désirée(d)

Page 81: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 81

La fonction de transfert

les variables sont associées aux neurones de la couche d’entrée

Les groupes sont associés aux neurones de la couche de sortie

J

i

p

jiijkik xwfwfxfWo

1 1

)1(,

)2(,))(,(

L’apprentissage de ce réseau est supervisé. Il utilise un algorithme de rétropropagation du gradient de l’erreur

W est un vecteur de matrices

Page 82: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 82

La mise à jour des pondérations

Mesure de l’erreur

le processus d’apprentissage du réseau consiste à présenter successivement les exemples de l’ensemble d’apprentissage de façon à estimer les poids W.

On utilise l’erreur quadratique moyenne

Algorithme de minimisation de l’erreur

On peut écrire qu’à l’étape t, le vecteur des matrices des pondérations W dépendent de l’étape t-1 par la formule suivante:

)(

),()1()(

)(,

)(,

)(, tw

tWjtwtw

cji

tcji

cji

K

kkk dotWj

1

2),(

Page 83: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 83

Notations

• f la fonction d’activation qui est continue et dérivable

• la valeur d’entrée du neurone i de la couche c pour l’élément présenté t.

• la valeur de la sortie du neurone i de la couche c

• le poids de la connexion entre le neurone i de la couche c+1 et le neurone j de la couche c

• le nombre de neurones dans la couche c.

cn

jt

cj

cji

ci sWe

1

)()(,

)1( )(x

)()(t

cie x

)()(t

cis x

)()(, tcjiW x

cn

)( )()( cj

cj efs

Page 84: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 84

Calcul des pondérations

Pour le neurone i de la couche de sortie NC il faut calculer:

De manière générale nous avons :

)()1()(

,

)1(

)1()(,

.),(

)(.

),(

)(

),( cjc

icji

ci

ci

cji

se

tWj

tw

e

e

tWj

tw

tWj

)('.),(

.),(),( )(

)()(

)(

)()(NC

iNCi

NCi

NCi

NCi

NCi

efs

tWj

e

s

s

tWj

e

tWj

)(2),( )(

)(NC

itiNC

i

sys

tWj

Cette partie dépend de la

fonction de coût J.

Page 85: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 85

Calcul des pondérations

11

1

)()()1(

1)(

)1(

)1()()('.

),(.

),(),( cc n

l

ci

clic

l

n

lc

i

ci

cl

ci

efWe

tWj

e

e

e

tWj

e

tWj

)1()(

1

)()1()1(

).('.),(),( 1

c

jc

i

n

l

clic

lc

ij

sefWe

tWj

W

tWj c

car )(' )()()(

)1(c

ic

lici

ci efWe

e

D’où

Ce calcul est indépendant de la fonction de coût J.

Page 86: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 86

Les probabilités a posteriori et l’affectation

)(

)(

)( xlo

k

e

xo

kexp

On peut approximer la probabilité la posteriori par (Gish,1990):

Cela revient à normaliser les sorties calculées

La règle d’affectation est

)(max si classe la à affectéest xp(x)pkx lkt

Page 87: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 87

Exemple du XOR

Avec un réseau ayant une couche cachée on peut classer sans erreur cet ensemble non linéairement séparable.

Page 88: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 88

Liens entre l’apprentissage supervisé et la régression

La minimisation de la fonction d’erreur quadratique

est équivalente à la minimisation de

2))((min YxYEY

XD

YdxxpxYExY )()/()(min

2

Page 89: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 89

Mise en œuvre du réseau

Les techniques de validationLe paramètre d’apprentissage Le choix des variablesLe nombre de neurones de la couche cachéeTest de sensibilité ( élimination des

pondérations )

Page 90: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 90

Estimation de la qualité d’une règle de décision

Donner une mesure de qualité à une règle de décision c’est réaliser une estimation du taux ou du coût d’erreur de classement que fournira cette règle sur la population.

Ensemble d’apprentissage

C’est sur cet ensemble qu’une méthode de classement construit la règle de décision.

Ensemble test

C’est sur cet ensemble qu’une méthode de classement est validée

Page 91: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 91

Estimation des taux d’erreur de classement

K

kklk klYR

1

)/Pr()ˆ(

La probabilité d’erreur de classement ERR sur la population:

Le taux d’erreur de classement sur l’ensemble d’apprentissage : (Taux apparent)

Trop optimiste et avec biais

Le taux d’erreur de classement sur l’ensemble test : (Taux actuel)

Sans biais mais il faut un échantillon important

Page 92: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 92

Techniques de rééchantillonnage (1)

Ensemble de données trop petit (taille n)

Validation croisée : (cross-validation)

• découper l’échantillon en k parties de même effectif

•(k-1) parts servent d’ensembles d’apprentissage

• la part restante sert d’ensemble test

Ceci est répété k fois et le taux d’erreur de classement est la moyenne des taux d’erreur des ensembles test

Si k=n (leave one out)

Page 93: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 93

Techniques de rééchantillonnage (2)

Tirage avec remise : bootstrap

On tire au hasard et avec remise n exemples qui constituent alors un échantillon

On calcule pour chaque tirage le taux apparent Erret le taux d’erreur apparent sur l’échantillon de base ERR

D’où le taux d’erreur bootstrap de k dans l :

)/()/(/1)/()/( klErrklERRklERRklErrB

Page 94: 1 Yves Lechevallier Cours CNAM Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr CNAM MASTER2 IS 2006-2007 Méthodes neuronales.

Yves Lechevallier Cours CNAM 94

Bibliographie

• Bishop, C. M., Neural Networks for Pattern Recognition, Clarendon Press, Oxford, 1995.• Duda R.O., Hart P.E. et Stone , Pattern classification and scene analysis, John Wiley, 2001.• Dreyfus G., Martinez J-M, Samuelides M., Gordon M. B., Badran F., Thiria S., Hérault L.,

Réseaux de neurones, Méhodologie et applications, Eyrolles, 2002• P. Galinari, S. Thiria et F. Fogelman-Soulé « Multilayer perceptrons and data analysis » IEEE

neural networks, p 391-399,1988• Haton J.P., Bouzid N., et al., Le raisonnement en intelligence artificielle, Inte rEditions, 1991.• Lebart L., « Réseaux de neurones et analyse des correspondances » Revue Modulad 18, 1997• Milgram M., Reconnaissance des formes : Méthodes numériques et connexion nistes, Armand

Colin, 1993.• Mitchell T., Machine Learning, Mac Grow-Hill, 1997.• Ripley B. D. Pattern Recognition Neural Networks, Cambridge University Press, 1996.• D.E. Rumelhart, G. E. Hinton, R. J. Williams, « Learning internal representations by error

propagation » in Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Vol. 1: Foundations, Editors: D.E. Rumelhart and J.L. McClelland, MIT Press, Cambridge, MA, 1986.

• Thiria S., Lechevallier Y., Gascuel O., Canu S. (Eds) Statistique et méthodes neuronales, Dunod, 1997