Réseaux de neurones - Fabrice Rossiapiacoa.org/publications/teaching/nn/Introduction.pdf · Plan...

Post on 15-Sep-2018

218 views 0 download

Transcript of Réseaux de neurones - Fabrice Rossiapiacoa.org/publications/teaching/nn/Introduction.pdf · Plan...

Réseaux de neuronesFabrice Rossi

http://apiacoa.org/contact.html

Universite Paris-IX Dauphine

Reseaux de neurones – p. 1/36

Plan du cours

1. Introduction aux réseaux de neurones

2. Rappels de probabilités et statistiques

3. Le modèle linéaire (et le perceptron simple)

4. Le modèle linéaire généralisé (et les réseaux RBF)

5. Les méthodes d’évaluation et de sélection de modèle

6. Les perceptrons multi-couches

7. Les k-moyennes

8. Les réseaux de Kohonen

Site du cours : http://apiacoa.org/teaching/nn/

Reseaux de neurones – p. 2/36

Plan de l’introduction

1. Qu’est qu’un réseau de neurones ?

2. Que peut-on faire avec un réseau de neurones ?

3. Pourquoi la modélisation des données est-elle unproblème difficile ?

4. Modèle mathématique général

Reseaux de neurones – p. 3/36

Réseaux de neurones

1. Ensemble de méthodes d’analyse et de traitement desdonnées

2. Deux caractéristiques majeures :

(a) combinaison (réseau) d’éléments simples (neurones)

(b) non linéaire (par “opposition” aux méthodesclassiques de l’analyse des données)

3. Vaguement issus de considérations biologiques

4. Essentiellement numériques, par opposition à l’IAsymbolique (base de règles, raisonnement par cas, etc.)

Reseaux de neurones – p. 4/36

Représentation graphique

SortiesEntrees

Reseaux de neurones – p. 5/36

Différents modèles

Les réseaux de neurones diffèrent selon :les neurones utilisésla structure du réseaule mode de calcul

Dans ce cours :les perceptrons multi-couches (Multi Layer Perceptron)les réseaux Radial Basis Function (RBF)les réseaux de Kohonen

Axes du cours :liens avec les méthodes classiques (Analyse des

données)importance de la modélisation statistique

Reseaux de neurones – p. 6/36

Analyse des données (Data Mining)

classiquement : méthodes (en général linéaires)d’exploration des données (Analyse en ComposantesPrincipales, régression linéaire, etc.)par extension : organisation et exploration des données :

discrimination : affectation de nouvelles données àdes groupes connus (exemple : diagnostic médical)“régression” : modélisation de relations fonctionnelles(exemple : niveau d’ozone demain en fonction du niveaud’aujourd’hui et de mesures météo comme la vitesse duvent, etc.)classification : découverte de groupes dans desdonnées (exemple : regroupement de profils deconsommateurs)

le but est soit d’apprendre par l’exemple (discrimination etrégression), soit d’extraire de l’information (classification)

Reseaux de neurones – p. 7/36

L’approche dite supervisée

On dispose d’un “professeur”, c’est-à-dire un ensemble dedonnées connues (les exemples) :

en discrimination, des exemples de données provenantde chaque groupe (classe) :

des mesures biologiques (tension artérielle, numérationsanguine, présence/absence de symptômes divers, etc.)pour des personnes malades et pour des personnessainesdes lettres et chiffres tracés par différentes personnes

en régression, des exemples de la relation fonctionnelle :le cours d’une action sur une période donnéela consommation électrique d’une région sur unepériode donnée, associée à des mesuresmétéorologiques sur la même période

point commun : des observations et une cible (la classe,le cours de l’action dans le futur, etc.)

Reseaux de neurones – p. 8/36

L’approche dite supervisée (2)

Le but principal est de modéliser la relation entre lesobservations et l’information cible, pour :

1. Estimer la valeur de la cible pour de nouvellesobservations :

diagnostiquer un patientreconnaître un code postalprédire le cours d’une actionprédire la consommation électrique d’une région

2. Comprendre la relation observations/cibles :déterminer les symptômes importantscomprendre les facteurs déterminants d’une forte

consommation électrique

Les réseaux de neurones sont très efficaces pour le premierpoint, moins pour le second.

Reseaux de neurones – p. 9/36

L’approche dite non supervisée

On ne dispose pas de “professeur”, c’est-à-dire que lesexemples ne sont pas déjà organisés :

pas de classe, pas de ciblebut général : découvrir de la régularité, sous forme de

classes, c’est-à-dire de groupes d’exemples qui seressemblentbut opérationnel :

groupes de consommateurs pour cibler une campagnemarketinggroupes d’individus pour l’analyse sociologique,économique, etc.

motivations :comprendre les données en les simplifiant (analyse surchaque groupe)décrire des groupes

Reseaux de neurones – p. 10/36

Nature des données

Dans la pratique, les données posent des problèmes :données fausses (erreur de mesure, tromperie, etc.)données incomplètes ou manquantes (absence de

réponse, grosse erreur de mesure qui conduit à rejeter lerésultat, etc.)données non exhaustives : presque toujours le cas (on se

contente en général de sondages)Les résultats sont donc “imprécis” :

algorithmes exacts sur données réelles : le résultat estjuste par rapport aux données, mais pas nécessairementpar rapport à la réalitéalgorithmes heuristiques : on ne sait pas si l’algorithme

donne le “bon” résultat, mais simplement qu’il estsatisfaisant...

Reseaux de neurones – p. 11/36

Modélisation statistique

Deux gros problèmes pratiques (fortement couplés) :mesure des performances :⇒ bons résultats sur les données de départ, mais

mauvais sur de nouvelles données⇒ marges d’erreur, niveau de confiancechoix du modèle :⇒ dilemme biais/variance⇒ biais : erreur systématique (par rapport à la réalité)⇒ variance : sensibilité du modèle aux données⇒ modèle puissant : faible biais, mais très sensible aux

données⇒ modèle faible : grand biais, mais moins sensible aux

données“Solution” : approche statistique en analyse des données.

Reseaux de neurones – p. 12/36

Un exemple de régression simple

On possède une suite d’observations, les (xi, yi)On cherche à expliquer yi grâce à xi, c’est-à-dire trouver

une fonction f telle que yi ' f(xi) pour tout iApplications pratiques :

prédire demain en fonction d’aujourd’hui (météo,bourse, etc.)évaluer le risque de défaillance d’un emprunteur enfonction de ses caractéristiques socioprofessionnellescalculer le taux d’humidité du sol ou le niveau dematurité d’un champ de céréales en fonction d’uneimage radar de la zone concernéeetc.

On peut trouver une approximation de f par desméthodes neuronalesDifficulté principale : le bruit dans les observations

Reseaux de neurones – p. 13/36

Les données

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5Données

x

y

observationsvraie fonction

Reseaux de neurones – p. 14/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5Modèle linéaire

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 1 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 2 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 3 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 4 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 5 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 6 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 7 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 8 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 9 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Comportement de divers modèles

−3 −2 −1 0 1 2 3 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5MLP 10 neurone(s)

x

y

observationsfonctionmodèle

Reseaux de neurones – p. 15/36

Evolution de l’erreur

0 2 4 6 8 10

−3

−2

−1

01

Comparaison des modèles

Complexité du modèle

log

des

erre

urs

donnéesvraie fonction

Reseaux de neurones – p. 16/36

Evolution de l’erreur (2)

Baisse de l’erreur sur les données : baisse du biaisAugmentation de l’erreur par rapport à la vraie fonction :

augmentation de la variance (sensibilité aux données,overfitting)Choix du modèle très difficile : l’erreur sur les données

n’est pas un bon critèrePistes pour une solution :

contrôler finement la puissance du modèle (éviter les“vagues”)estimer la “vraie erreur” :

découpage des donnéesre-simulation

Reseaux de neurones – p. 17/36

Sensibilité aux données

Illustration numérique de la variance :on engendre 50 jeux de données :

toujours sous la forme yi = f(xi) + εi

les xi sont choisis au hasardon estime le modèle pour chaque jeu de donnéeson trace la réponse moyenne du modèle : la différence

avec le vrai modèle est le biaison trace les valeurs extrêmes (moyenne +/− 2 fois

l’écart-type) : représentation de la variancesur cet exemple :

le biais devient rapidement nul (ou presque)la variance explose

Reseaux de neurones – p. 18/36

Sensibilité aux données : données

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

x

y

Reseaux de neurones – p. 19/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

50

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

51

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

52

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

53

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

54

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

55

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

56

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

57

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

58

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

59

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

510

x

y

Reseaux de neurones – p. 20/36

Sensibilité aux données : résultats sur 3 courbes

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

0

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

1

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

2

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

3

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

4

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

5

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

6

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

7

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

8

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

9

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

10

x

y

Sensibilité aux données

Reseaux de neurones – p. 21/36

Sensibilité aux données : résultats

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

0

x

y

−3 −2 −1 0 1 2 3

−1.

0−

0.5

0.0

0.5

1.0

1

x

y

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

2

x

y

−3 −2 −1 0 1 2 3

−6

−4

−2

02

46

3

x

y

−3 −2 −1 0 1 2 3

−10

−5

05

10

4

x

y

−3 −2 −1 0 1 2 3

−15

−5

05

1015

5

x

y

−3 −2 −1 0 1 2 3

−15

−5

05

1015

6

x

y

−3 −2 −1 0 1 2 3

−20

010

2030

7

x

y

−3 −2 −1 0 1 2 3

−10

−5

05

1015

8

x

y

−3 −2 −1 0 1 2 3

−10

−5

05

10

9

x

y

−3 −2 −1 0 1 2 3

−10

−5

05

10

10

x

y

Sensibilité aux données

moyenne

2 x écart type

fonction

Reseaux de neurones – p. 22/36

Décomposition biais+variance

0 2 4 6 8 10

−2

−1

01

Comparaison des modèles

Complexité du modèle

log

des

erre

urs

variancebiais

Reseaux de neurones – p. 23/36

Un exemple de discrimination simple

On possède une suite d’observations, les (xi, yi)Chaque observation (x, y) est placée dans une classeOn cherche à expliquer modéliser la relation entre (x, y) et

la classe d’appartenanceApplications pratiques :

diagnostic médical ((x, y) : symptômes)diagnostic informatique (détection d’intrusion, de virus,etc.)reconnaissance des formes (écriture, parole, cibles,etc.)

Le but principal est de pouvoir classer de nouvellesobservationsMêmes problèmes que pour la régression

Reseaux de neurones – p. 24/36

Un exemple de discrimination

−4 −2 0 2

−2

02

4Données

x

y

classe 0classe 1

Reseaux de neurones – p. 25/36

Densités

Classe 0Classe 1

-4-3

-2-1

01

23

4 -3

-2

-1

0

1

2

3

4

00.020.04

0.060.08

0.10.120.140.16

Reseaux de neurones – p. 26/36

Connaissance imparfaite

Les classes sont mélangées :connaissance imparfaite :

mesures fausses (diagnostic erroné, test manqué)données manquantes (mesures impossibles à réaliser,dangereuses ou coûteuses)

variabilité intrinsèque :classe variable ou mal définie (consommateur enmarketing par exemple)évolution possiblevariabilité naturelle (numération sanguine par exemple)

le but n’est pas le classement parfait !estimer la probabilité d’appartenance à une classesur l’exemple proposé, on peut démontrer qu’on ne peut

pas descendre en dessous de 10.5% de mauvaisclassements

Reseaux de neurones – p. 27/36

Modèle optimal (linéaire)

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

++

++

++

+

++

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4Données

x

y

+

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ ++

+

+

+

++

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

+

++

classe 0classe 1

Reseaux de neurones – p. 28/36

Le modèle optimal fait des erreurs (10.75%) !

+

+

+

+

+

+

+

+

+

+

+

+

++

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

+

+

+

+

+

+

+

+

+

+ +

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

++ +

+

+

+

+

−4 −2 0 2

−2

02

4Modèle linéaire théorique

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+ +

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

++

++

+

++

+

+

+

++

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

++

+ +

+

+

+

+ +

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1optimal

Reseaux de neurones – p. 29/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

+

+

+

+

+

+

+

+

+

+ +

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

++ +

+

+

+

−4 −2 0 2

−2

02

4Modèle linéaire

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+ +

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

++

++

+

++

+

+

+

++

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

++

+ +

+

+

+

+ +

+

+

+

+

+

+

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

+

+

+

+

+

+

+

+

+

+ +

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 1 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+ +

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

++

++

+

+

+

+

++

++

+

++

+

+

+

++

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

++

+ +

++

+ +

+

+

+

+

+

+

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

+

+

+

+

+

+

+

+

+

+ +

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 2 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+ +

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

++

++

+

+

+

+

++

++

+

++

+

+

+

++

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

++

+ +

++

+ +

+

+

+

+

+

+

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 4 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+ +

+

+

+

+++

+

++

+

+

+

+

+

+

+

++

++

+

+

+

+

++

++

+

+ ++

+

+

+

+

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

++

+ +

++

+ +

+

+

+

+

+

+

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 6 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+

+

+

+

+

+++

+

++

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+ ++

+

+

+

+

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

++

+ +

++

+ +

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

++ +

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 8 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+

+

+

+

+

+

+++

+

++

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+ ++

+

+

+

+

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

++

+ +

++

+ +

+

+

+

+

+

+

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

++ +

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 10 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+++

+

++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

+

+ +

+

+

+

++

++

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+ +

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

++

++

++

+

++

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 12 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+

+

+

+

+

+

+

++

++

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+ ++

+

+

+

++

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+ +

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

++

++

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

++ +

+

+

+

−4 −2 0 2

−2

02

4réseau à 14 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+ ++

+

+

+

++

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

++

++

++

+

++

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 16 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+ ++

+

+

+

++

+

+

+

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

+

++

+ +

++

+

+

+

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

++

++

++

+

++

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 18 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+ ++

+

+

+

++

+

+

++

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+ +

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Comportement de divers modèles

+

+

+

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+++

++

+

+

++

+

+

+

+++

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+ +

+

+

++

+

+

++

++

++

+

+

+

+

+

+

+

+

+

++

+

++

+

+

+

+

+

+

++ +

+

+

+

+

+

−4 −2 0 2

−2

02

4réseau à 20 neurone(s)

x

y

+

+

++

+

+

+ +

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+++

+

++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+ +

+

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

++

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

++

+

+ ++

+

+

+

++

+

+

+

+

+ +++

+

+

+

+

+

++

+

+

+ +

+

+

+

+

+

+

+

+

+

++

+

+

+

++

+ +

+

+

+

+

+

+

++

+

++

+ +

+

+

+

+

+

++oo

0 −> 01 −> 11 −> 00 −> 1décisionoptimal

Reseaux de neurones – p. 30/36

Evolution de l’erreur

0 5 10 15 20

0.04

0.06

0.08

0.10

0.12

0.14

Comparaison des modèles

Complexité du modèle

Tau

x d’

erre

ur

DonnéesVraies classes

Reseaux de neurones – p. 31/36

Enseignement des exemples

Une approche naïve est impossible :les performances sur les données ne permettent pas deprédire le comportement du modèle sur de nouvellesdonnéesles RN sont puissants : on peut presque toujours fairebaisser l’erreur de modélisation en ajoutant desneurones

Il faut comprendre le phénomène pour y remédier :modélisation statistiquejustification mathématique des résultats

Les solutions (actuelles) sont coûteuses en temps decalcul

Reseaux de neurones – p. 32/36

Cadre mathématique général

Les données à étudier sont décrites de la façon suivante :on dispose de N individus ou exempleschaque individu est décrit par n variables réelles, i.e.

chaque exemple est un vecteur x ∈ Rn

dans le cas de la discrimination, chaque exemple estassocié à une classe (un groupe)dans le cas de la régression, chaque exemple est associé

à une variable cible, notée y (élément de Rp).

On peut reformuler les trois problèmes de l’AD :

1. discrimination : trouver un lien entre x et sa classe

2. régression : trouver un lien entre x et y

3. classification : construire des classes en associant desétiquettes aux individus

Reseaux de neurones – p. 33/36

Discrimination et statistique

En discrimination :pour chaque individu xk, on connaît la classe Cj telle que

xk ∈ Cj

on cherche à classer de nouveaux individusOn doit estimer :

P (Cj|x)

la probabilité que l’individu observé soit issu de la classe Cj

sachant qu’il est décrit par le vecteur x. Intérêts :permet d’affecter un individu à une classe (la plus

probable, en général)permet de mesurer l’erreur liée à cette affectation

Reseaux de neurones – p. 34/36

Régression et statistique

En régression :chaque individu xk est associé à une grandeur yk ∈ R

p

on cherche à exprimer yk comme une fonction de xk

On doit estimer :E(Y |X = x)

l’espérance conditionnelle de Y sachant X = x : c’est lameilleure approximation de Y par une fonction de X.

Reseaux de neurones – p. 35/36

Classification et statistique

En classification :les individus ne sont associés à aucune donnée

explicativeon chercher à trouver des groupes (des classes)

On peut chercher à exprimer p(x) comme un mélange :

p(x) =

M∑

j=1

p(x|Cj)P (Cj)

On peut ensuite affecter les individus aux classes, grâce à larègle de Bayes :

P (Cj|x) =p(x|Cj)P (Cj)

p(x)

Reseaux de neurones – p. 36/36