Principes généraux de l’I NDUCTION

42
1 Cornuéjols 1- Principes généraux de l’induction 15/10/03 Antoine Cornuéjols Principes généraux de l’INDUCTION CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/

description

Principes généraux de l’I NDUCTION. Antoine Cornuéjols. CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/. Cours 5. 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches - PowerPoint PPT Presentation

Transcript of Principes généraux de l’I NDUCTION

Page 1: Principes généraux de l’I NDUCTION

1Cornuéjols 1- Principes généraux de l’induction

15/10/03

Antoine Cornuéjols

Principes généraux de

l’INDUCTION

CNAM-IIE

et L.R.I., Université de Paris-Sud, Orsay (France)

[email protected]

http://www.lri.fr/~antoine/

Page 2: Principes généraux de l’I NDUCTION

2Cornuéjols 1- Principes généraux de l’induction

15/10/03

Cours 5

1 & 2- Introduction à l’induction

3- Apprentissage et espace des versions

4- Réseaux de neurones multicouches

5- Analyse formelle de l’induction

6- Les SVM

7- Les arbres de décision

8- Le boosting

9 & 10- Apprentissage par renforcement

Page 3: Principes généraux de l’I NDUCTION

3Cornuéjols 1- Principes généraux de l’induction

15/10/03

1- Quel niveau de description ?

1. Analyse de principe, de faisabilité

sans référence à un algorithme particulier !!

Théories mathématiques en particulier de nature statistique

2. Niveau de la réalisation / simulation

Algorithmes

Programmes

Réalisations et tests empiriques

Page 4: Principes généraux de l’I NDUCTION

4Cornuéjols 1- Principes généraux de l’induction

15/10/03

1- Le scénario de base

Environnement X :distribution de prob. F(x)

“Oracle”

Apprenant : h (x)x1, x2, ..., xm

x1, x2, ..., xm

Sm = (x1,u1), (x2,u2), ..., (xm,um)

y1, y2, ..., ym

Page 5: Principes généraux de l’I NDUCTION

5Cornuéjols 1- Principes généraux de l’induction

15/10/03

1- Définition formelle du problème• Hypothèse :

les données empiriques caractérisent une dépendance probabiliste P entre l’espace X

des descriptions et l’espace Y des étiquettes

Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue

S = {(x1,u1), (x2,u2), … (xm,um)} (X Y)m

– Échantillon d’apprentissageÉchantillon d’apprentissage

– Les observation sont i.i.d. suivant P

– H : famille (éventuellement infinie) de fonctions h définies sur X

• Objectif : prédire l’étiquette y connaissant l’observation x

Page 6: Principes généraux de l’I NDUCTION

6Cornuéjols 1- Principes généraux de l’induction

15/10/03

1- L’objectif de l’induction

• Objectif : trouver une hypothèse h H minimisant le risque réel le risque réel

(espérance de risque, erreur en généralisation)

R(h) = l h(x),u( ) dP(x,y)X×Y∫

Étiquette prédite

Étiquette vraie(ou désirée)

Fonction de perteFonction de perte

Loi de probabilitéjointe sur X Y

Page 7: Principes généraux de l’I NDUCTION

7Cornuéjols 1- Principes généraux de l’induction

15/10/03

1- Exemples de fonctions de pertes

• Discrimination

• Régression

• Estimation de densité

l (h(xi),ui) = 0 si ui = h(xi )

1 si ui ≠ h(xi )⎧ ⎨ ⎩

l (h(xi),ui) = h(xi) − ui[ ]2

l (h(xi)) = −ln h(xi)

Page 8: Principes généraux de l’I NDUCTION

8Cornuéjols 1- Principes généraux de l’induction

15/10/03

1- Les grands principes inductifs

• Étant donnés:

un échantillon d’apprentissageéchantillon d’apprentissage Sm

et un espace d’hypothèseespace d’hypothèse H

Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ?

Quelle hypothèse devrais-je chercher ?

Page 9: Principes généraux de l’I NDUCTION

9Cornuéjols 1- Principes généraux de l’induction

15/10/03

2.1- Le principe inductif ERM

• On ne connaît pas le risque réel, en particulier pas la loi de probabilité

P(X,Y).

• Le principe ERMprincipe ERM (minimisation du risque empirique) prescrit de

chercher l’hypothèse h H minimisant le risque empirique le risque empirique

REmp(h) = l h(xi ),ui( )i = 1

m

R(h) = l h(x),u( ) dP(x,y)X×Y∫

Page 10: Principes généraux de l’I NDUCTION

10Cornuéjols 1- Principes généraux de l’induction

15/10/03

2.2- Le principe ERM est-il pertinent ?

• h* : hypothèse optimale dans H suivant le risque réel

• hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm

m

Risque

RRéel(h*)

Page 11: Principes généraux de l’I NDUCTION

11Cornuéjols 1- Principes généraux de l’induction

15/10/03

2.2- Analyse du principe de minimisation du risque empirique

• Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit

l’hypothèse minimisant le risque empirique sur un échantillon Sm ?

m

Risque

RRéel(h*)

Page 12: Principes généraux de l’I NDUCTION

12Cornuéjols 1- Principes généraux de l’induction

15/10/03

2.3- Les facteurs : le compromis biais-variance

H

F

×

×

×

f

h*

fb = f + bruit

×hS

Erreur d'estimation(Variance)

Erreur d'approximation(Biais )

Erreur totale

Erreur intrinsèque

{hS}S

Page 13: Principes généraux de l’I NDUCTION

13Cornuéjols 1- Principes généraux de l’induction

15/10/03

2.3- Les facteurs : le compromis biais-variance

H

F

××

f

h*

fb = f + bruit

h^Erreur d'estimation(Variance)

Erreur d'approximation(Biais)

Erreur totale

Erreur intrinsèque

{h}S^

Fonction cible

H'

Page 14: Principes généraux de l’I NDUCTION

14Cornuéjols 1- Principes généraux de l’induction

15/10/03

3- Analyse statistique du principe ERM

• Étude de la corrélation entre :

• Cette corrélation fait intervenir :

RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?)

La probabilité que cette différence soit supérieure à une borne donnée

– car hS dépend de la représentativité de l’échantillon d’apprentissage Sm

et

∀ 0 ≤ ε,δ ≤ 1 : P(|R(hS) − R(h*) |) ≥ ε) < δ

Page 15: Principes généraux de l’I NDUCTION

15Cornuéjols 1- Principes généraux de l’induction

15/10/03

3- Analyse statistique du principe ERM (suite)

H

Risque réel

Risque empirique

hS^

h*

Erreurd'approximation

Page 16: Principes généraux de l’I NDUCTION

16Cornuéjols 1- Principes généraux de l’induction

15/10/03

3- Analyse statistique du principe ERM (suite)

H

Risque réel

Risque empirique

hS^

h*

2εε

Page 17: Principes généraux de l’I NDUCTION

17Cornuéjols 1- Principes généraux de l’induction

15/10/03

3- Analyse statistique du principe ERM (suite)

∀ 0 ≤ ε,δ ≤ 1 : ∃m, tq. P(|R(hS) − R(h*)|) ≥ ε) < δ

H

Risque réel

Risque empirique(fonction de S)

hS^

h*

mm/2m/3m/4

Page 18: Principes généraux de l’I NDUCTION

18Cornuéjols 1- Principes généraux de l’induction

15/10/03

3- Pertinence (consistance) du principe ERM

• On dit que le principe ERM est pertinentpertinent (ou consistant) si le risque risque

réelréel inconnu R(hS) et le risque empiriquerisque empirique REmp(hS) convergent vers la

même limite R(h*) lorsque la taille m de l’échantillon S tend vers .

R(hS) m→ ∞ ⏐ → ⏐ ⏐ ⏐ R(h*)

REmp(hS) m→ ∞ ⏐ → ⏐ ⏐ ⏐ R(h*)

m

Risque

RRéel(h*)

Page 19: Principes généraux de l’I NDUCTION

19Cornuéjols 1- Principes généraux de l’induction

15/10/03

• Contexte :

• Discrimination

• Fonction de perte l : {0,1}

• F = H

• H : espace fini

L’apprentissage consiste alors à élimineréliminer toutes les hypothèsesles hypothèses non non

cohérentes cohérentes avec les données et à en choisir une parmi les restantes

Quelle est la probabilité qu’une hypothèse de risque empirique

nul

    soit de fait de risque réel ≥ ε ? (0 ≤ ε ≤ 1)

3.1- Le cas de la discrimination : l’analyse PAC

Page 20: Principes généraux de l’I NDUCTION

20Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.2- Le cas de la discrimination : l’analyse PAC

• Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe

dans la zone d’erreur entre herr et la fonction cible f

R (herr) = PDX(herr Δ f)

X

f

herrZone

d'erreur

Page 21: Principes généraux de l’I NDUCTION

21Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.2- Le cas de la discrimination : l’analyse PACRaisonnement par l’absurde

• Supposons une hypothèseune hypothèse de risque réel > ε• Quelle est la probabilité que son risque empirique soit nul après

observation d’un échantillon de m exemples tirés i.i.d. suivant la

distribution DX ?

Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - ε

Après observation de m exemples i.i.d., elle est : (1 - ε)m

Page 22: Principes généraux de l’I NDUCTION

22Cornuéjols 1- Principes généraux de l’induction

15/10/03

Quelle est la probabilité qu’une hypothèseune hypothèse au moins dans dans HH « survive » ?

• Événements disjoints :

Donc borné par : |H| (1 - ε)m < | H | e-εm

• Il suffit donc d’avoir un échantillon de taille

• pour que le risque réel de l’hypothèse hS minimisant le risque

empirique soit borné par ε avec une probabilité 1 -

3.2- Le cas de la discrimination : l’analyse PAC

m ≥

ln|H |δ

Page 23: Principes généraux de l’I NDUCTION

23Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.2- Le cas de la discrimination : l’analyse PAC

Pourquoi PAC ?

Les hypothèses qui « survivent » sont approximativement approximativement

correctescorrectes (à moins de ε de la fonction cible)

Avec une certitudecertitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - )

Probablement Approximativement CorrectProbablement Approximativement Correct

Page 24: Principes généraux de l’I NDUCTION

24Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.3- Les leçons

1. La cardinalité de H (en un certain sens la « richesse » de la « richesse » de HH) intervient

directement dans la borne d’erreur

2. Le raisonnement implique l’ensemble des hypothèsesimplique l’ensemble des hypothèses H :

argument de convergence uniforme

3. L’idée directrice de la démonstration consiste à borner la probabilité

qu’une zone d’erreur de poids > ε ne soit pas atteinte par un exemple

au moins de l’échantillon d’apprentissage

Page 25: Principes généraux de l’I NDUCTION

25Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Extension : l’analyse de Vapnik

• Contexte : une généralisation

• N’importe quel type de fonctions hypothèses

• N’importe quel type de fonction de perte (> 0 et bornée)

• F éventuellement ≠ H (apprentissage agnostique)

• H : espace infini

• Ici, on va cependant se limiter au cas de la discriminationcas de la discrimination

Risque empirique :

REmp (h) = 1m

l0−1(h(xi) − ui) = 1m

{(xi,ui ) ∈ S / h(xi) ≠ ui}i=1

m

Page 26: Principes généraux de l’I NDUCTION

26Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Extension : l’analyse de Vapnik

• Définition (Fonction de croissance) :

La fonction de croissance GH d’une famille H de fonctions h à valeurs

dans {0,1} associe à tout entier positif m le nombre maximal de

dichotomies réalisées par les fonctions de H sur un ensemble de m

points de X.

x1

x2

x4

x3

h1 h2

Page 27: Principes généraux de l’I NDUCTION

27Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Extension : l’analyse de Vapnik

• Théorème (Vapnik, 98) :

Pour toute valeur de dans ]0,1], simultanément pour toutes les

fonctions h de H, avec une probabilité au moins de 1 - , on a :

Terme dépendant de la « richesse » de H

Page 28: Principes généraux de l’I NDUCTION

28Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Extension : l’analyse de Vapnik

• Problème angoissant : comment croît la fonction de croissance GH(m) ?

Si elle croît exponentiellement : il ne peut pas y avoir de garantieSi elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique

(ERM) ! !!!!!

• Définition (Dimension de Vapnik-Chervonenkis, 1971)

La dimension de Vapnik-Chervonenkisdimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d

vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.

Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la

taille du plus grand sous-ensemble de X pulvérisépulvérisé par H.

Page 29: Principes généraux de l’I NDUCTION

29Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Extension : l’analyse de Vapnik

+

+ -

+

+

--

+

+

-

+

+

+

+

-- +

+

-

++

+

-

(a) (b) (c)

+

+

-

(a) (b) (c) (d)

+

Page 30: Principes généraux de l’I NDUCTION

30Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Un lemme sauveur : le lemme de Sauer (1972)

• Si Si HH est de dimension de Vapnik-Chervonenkis finie est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors,

pour m supérieur à dH, sa fonction de croissance est bornée :

log2 {GH(m)}

mdH

Croît en 2m :croissance exponentielle

Croît en mdH :croissance en fonction polynomiale

Page 31: Principes généraux de l’I NDUCTION

31Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Qu’est-ce que cela signifie ?

• Cas de fonctions de discrimination et H = F

La convergence du risque empirique vers le risque réelconvergence du risque empirique vers le risque réel est

exponentiellement rapideexponentiellement rapide, et ceci pour toutes les fonctions de H

E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par est :

linéaire en dH !!

Page 32: Principes généraux de l’I NDUCTION

32Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Le « take-home » message

• Pour que le principe ERM soit pertinent, il faut que la dimension de

Vapnik-Chervonenkis dH soit finie

• Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0

comme:

dans le cas général

dans le cas où H = F

Page 33: Principes généraux de l’I NDUCTION

33Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.4- Quelques exemples de dimensions de VC

Page 34: Principes généraux de l’I NDUCTION

34Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.5- Vers d’autres principes inductifs

• Reconsidérons l’équation (valable pour la discrimination et H = F)

Plutôt que de chercher seulement l’hypothèse minimisant le risque

empirique (valable seulement si m/dH très grand), il faut aussi tenir il faut aussi tenir

compte des caractéristiques de l’espace des hypothèses compte des caractéristiques de l’espace des hypothèses HH, et chercher

une hypothèse satisfaisant au mieux un compromis entre :

un risque empiriquerisque empirique faible : bonne adéquation aux données

et un espace d’hypothèseespace d’hypothèse d’expressivité bien réglée

Page 35: Principes généraux de l’I NDUCTION

35Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.5- Les méthodes par « sélection de modèles »

• Méthodes cherchant à régler le compromis par réglage automatique de réglage automatique de

l’espace d’hypothèsesl’espace d’hypothèses (modèles)

Le SRM (Structural Risk Minimization)

La théorie de la régularisation

Le MDLp

Les approches bayésiennes

Page 36: Principes généraux de l’I NDUCTION

36Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.5- Le SRM

• La procédure s’appuie sur une structure sur H définie a priori

H1 H 2 H3 H4

Risque

H

Risque réel

Risqueempirique

Intervallede confiance

Optimum

Page 37: Principes généraux de l’I NDUCTION

37Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.5- La théorie de la régularisation

• Issue de l’étude des problèmes « mal posés » (plusieurs solutions)

• Il faut imposer des conditions supplémentaires

Contraindre l’espace des paramètres si H = {fonctions paramétrées}

Imposer des conditions de régularité (e.g. dynamique limitée)

RPén.(h) = REmp(h) + λ G(h)

Page 38: Principes généraux de l’I NDUCTION

38Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.5- Le MDLp (Minimum Description Length principle)

On suppose qu’il existe :

– un coût associé à la transmission des données brutes (mesuré en bits) : L(x)

– un coût associé à la transmission d’un codage (modèle des données) : L(h)

On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données

Page 39: Principes généraux de l’I NDUCTION

39Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.6- En d’autres mots … Notion de biais

Toute connaissance qui restreint le champ des hypothèses

que l'apprenant doit considérer à un instant donné.

• Biais de représentation On ne peut pas apprendre sans biais

Plus le biais est fort, plus l’apprentissage est facile

Bien choisir le biais

• Biais de préférence Dû au contrôle de la recherche

Critère de choix entre hypothèses

– Simplicité, complétude, intelligibilité, facilité d’évaluation, ...

Dû au protocole

– Stratégie éducative (si apprentissage incrémental)

Page 40: Principes généraux de l’I NDUCTION

40Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.6- En d’autres mots … Réponses qualitatives

1. De quelle information doit-on disposer ?De quelle information doit-on disposer ?

Compromis entre taille de l'échantillon d'apprentissage nécessaire ET

"richesse" de l'espace d'hypothèses

1'. Quel principe inductif ?Quel principe inductif ?

Pas le principe "naïf"Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en

pariant que l'erreur sera également minimisée sur les exemples non vus

Un nouveau principenouveau principe : minimiser à la foisà la fois

l'erreur sur l'échantillon d'apprentissage

ET une mesure de la richesse de H

Page 41: Principes généraux de l’I NDUCTION

41Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.7- Le no-free-lunch theorem

Systèmes d'apprentissage

possibles

Systèmes d'apprentissage

impossibles

+-

-

- --

-

-

+

-

0

0

0

0 0

0

0

++

++

+

+0

0

00

0

00

0

0

0

00

+

+ -

--

-

Page 42: Principes généraux de l’I NDUCTION

42Cornuéjols 1- Principes généraux de l’induction

15/10/03

3.7- Le no-free-lunch theorem

Performance engénéralisation

Taille de l'échantillond'apprentissage

Performance engénéralisation

Taille de l'échantillond'apprentissage