SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

107
SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS A R EC O N N A ISSA N C E BIO M ÉTR IQ U E B A LGORITHM ES POUR L A PPR EN TISSA G E AUTOM ATIQUE C C O N C EPTIO N DE SYSTÈM ES ROBUSTES Ø A .1 U n systèm e généralisé Ø A .2 Étatde l’art– reconnaissance avec visages etsignatures Ø B.1 Introduction aux algorithm esd’apprentissage Ø B.2 A pprentissage non- supervisé pour la catégorisation de vecteurs Ø B.3 A pprentissage supervisé pour la classification de vecteurs Ø B.4 A pprentissage supervisé pour la classification de séquences Ø C .1 Systèm esde classification m odulairesethiérarchiques Ø C .2 Techniquespour la fusion multimodale Ø C .3 Systèm esadaptatifs Ø C .4 R econnaissance contextuelle

Transcript of SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

Page 1: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-1

CONTENU DU COURS

ARECONNAISSANCE

BIOMÉTRIQUE

BALGORITHMES POUR

L’APPRENTISSAGE AUTOMATIQUE

CCONCEPTION DE

SYSTÈMES ROBUSTES

Ø A.1 Un système généralisé

Ø A.2 État de l’art – reconnaissance avec visages et signatures

Ø B.1 Introduction aux algorithmes d’apprentissage

Ø B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs

Ø B.3 Apprentissage supervisé pour la classification de vecteurs

Ø B.4 Apprentissage supervisé pour la classification de séquences

Ø C.1 Systèmes de classification modulaires et hiérarchiques

Ø C.2 Techniques pour la fusion multimodale

Ø C.3 Systèmes adaptatifs

Ø C.4 Reconnaissance contextuelle

Page 2: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-2

CONTENU DU COURS

B. Algorithmes d’apprentissage:

B.1 Introduction aux algorithmes d’apprentissage

B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs

B.3 Apprentissage supervisé pour la classification de vecteurs

B.4 Apprentissage supervisé pour la classification de séquences

Page 3: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-3

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la catégorisation de vecteurscatégorisation de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

Page 4: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-4

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAPFondements – modèle ART

Taxonomie des réseaux ARTMAP:

Page 5: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-5

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAPRéseau fuzzy ARTMAP

Modèle ARTMAP: famille de RNA classificateurs capables d’apprentissage rapide, en-ligne, supervisé, non-supervisé et incrémental

Page 6: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-6

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP Structure simplifiée d’un réseau ARTMAP:

Page 7: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-7

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:

1. Initialisation des poids: fixer tous les poids Wab = 0

2. Encodage d’un patron d’entrée: remise à la base du ρ

3. Choix de catégorie

4. Critère de vigilance

5. Prédiction d’une classe: le code de réponse désirée t est transmise à Fab

fonction de prédiction: le patron y active la couche Fab via les poids Wab

Page 8: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-8

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:

5. Prédiction d’une classe: (suite) prédiction:

• actif pour le neurone K correspondant à la prédiction (yK

ab = 1 et ykab = 0 pour k ≠ K)

si la prédiction K correspond à la réponse désirée, on procède à l’apprentissage (étape 6), sinon on effectue un ‘match tracking’

max ( ) : 1,2,...,yabkK S k L

Page 9: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-9

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:

‘match tracking’:

augmente ρ du fuzzy ART juste assez pour induire une recherche pour soit: trouver un autre neurone commis de F2 qui prédit la

classe désirée (étape 3) créer un neurone non-commis de F2 pour apprendre

la classe désirée (étape 6)

Page 10: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-10

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:6. Apprentissage:

mise à jour du prototype de J: le vecteur prototype wJ du neurone J est adapté selon:

création d’un nouveau lien associatif: si J vient d’être commis, on fixe wJK

ab = 1, où k = K est la réponse désiré

Retour à l’étape 2 pour prendre une autre entrée

Page 11: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-11

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode test:

Afin de prédire la classe liée à chaque patron d’entrée:

1. 2. Encodage d’un patron d’entrée3. Choix de catégorie4. 5. Prédiction d’une classe (sans tests)6.

Page 12: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-12

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau ARTMAP-FD • Entraînement sur patrons de classes connues: patrons étiquette de classe

A a a class #1 b b B class #2 C c C class #3

• Test sur patrons de classes connues et inconnues: patrons prédiction du classificateur

A class #1 C class #3 D classe inconnue!

Page 13: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-13

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau ARTMAP-FD

ARTMAP-FD: une extension de fuzzy ARTMAP qui permet de détecter des patrons qui appartiennent à de classes inconnues

pour chaque entrée a en mode test, on calcul la mesure de familiarité:

J

J

J

J

TT

w

wA

AA

A

)(

)()(

max

)(ASi patron déclaré connu (prédit une classe K)

)(ASi patron déclaré inconnu (aucune prédiction)

Page 14: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-14

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau ARTMAP-FD

Mesure simple du degré d’appartenance d’un patron à un hyper rectangle (catégorie):

φ(A) = 1 à l’intérieur, et φ(A) < 1 à l’extérieur

XX

X XX

X

( )a1

0a

Page 15: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-15

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

Page 16: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-16

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Qu’est ce qu’un réseau RBF?

fonctions à bases radiales – un domaine de recherche actif an analyse numérique depuis environ 1980

– solution au problème d’interpolation multi variable– approximation de fonctions dans des espaces

multidimensionnels

réseau RBF – un réseau de neurone pour la classification et la régression (Broomhead et Low, 1988)

− un réseau de neurones non-récurrent (‘feed forward’) à apprentissage supervisé

− conception inspirée de méthodes d’interpolation qui exploitent les RBF

Page 17: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-17

B.3(2) Réseaux RBFB.3(2) Réseaux RBFMéthodes d’interpolation:

Apprentissage: trouver une surface multidimensionnelle qui correspond le mieux avec les données d’entraînementGénéralisation: utiliser cette surface pour interpoler les données de test

X

X

X

X

X

X

OX

données apprises

donnée de test

Page 18: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-18

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStructure générale d’un réseau de neurones RBF:

couche cachée: transformation non linéaire x → φ(x)− chaque neurone constitue une fonction cachée φ(x) (i.e., RBF) pour

la transformation non linéaire des patrons d’entrée x− le nombre de neurones est généralement bien plus grand que le

nombre de nœuds d’entréecouche de sortie: transformation linéaire φ(x) → y

− combinaison linéaire des fonctions φ(x) pour produire une sortie

...

x1

x2

x3

Nx

X

...

1( )x

3 ( )x

1( )xm

2 ( )x

( ) :x fonction non linéairei

3w

1mw

1w

2w

Sortie y1

( )xim

i ii

y w

Page 19: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-19

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Théorème sur la séparabilité de patrons (Cover, 1965)

Un problème de classification qui est transposé de façon non linéaire dans un espace de haute dimensionnalité a une plus grande probabilité d’être séparable qu’en basse dimensionnalité

Séparabilité – problème à 2 classes:

transpose x dans l’espace image de haute dimensionnalité avec des fonctions cachées φ(x) non-linéaires à valeur réelle:

le problème est ‘φ – séparable’ s’il existe un vecteur de paramètres w à m1 dimensions tel que:

11 2( ) [ ( ), ( ), ..., ( )]φ x x x x

m

1

2

( ) 0,

( ) 0,

w φ x x

w φ x x

T

T

C

C

Page 20: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-20

B.3(2) Réseaux RBFB.3(2) Réseaux RBFThéorème sur la séparabilité de patrons (Cover, 1965)

Exemple 2D – cas des fonctions cachées φ polynomiales:

classe de transformations obtenue à partir d’une combinaison linéaire des produits des coordonnées de x = (x1, x2)

variété d’ordre r :

X

O

O

O

X

X

XX

XO

X O

O

OX

1 2

1 1 2 2 0

( ) [ , ]

0

x

(2 fonctions de base)

x x

w x w x w

2 21 2 1 2

2 21 1 2 2 3 1 4 2 0

( ) [ , , , ]

0

(

x

4 fonctions de base)

x x x x

w x w x w x w x w

2 21 2 1 2 1 2

2 21 1 2 2 3 1 4 2 5 1 2 0

( ) [ , , , , ]

0

x

(5 fonctions de base)

x x x x x x

w x w x w x w x w x x w

1 2 1 2

1 2 1

...0 ...

... 0N r

r

i i i i i ii i i m

y w x x x

Page 21: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-21

B.3(2) Réseaux RBFB.3(2) Réseaux RBFThéorème sur la séparabilité de patrons (Cover, 1965)

Exemple – cas des fonctions cachées Gaussiennes: problème XOR (linéairement non séparable)

21

22

1 1

2 2

1( ) ,

1

0( ) ,

0

x-μ

x-μ

x μ

x μ

e

e

Input pattern x

First Hidden Function

Second Hidden Function

(1,1) 1 0.1353 (0,1) 0.3678 0.3678 (0,0) 0.1353 1 (1,0) 0.3678 0.3678

1( )x 2 ( )x

))(),(( 21 xx

(0,0) (1,0)

(0,1)(1,1)

(0,0)

(1,1)

(0,1)(1,0)

1

2

Decision Boundary

Page 22: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-22

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

Problème: étant donnée N patrons différents et les N réponses désirées correspondantes

, trouvez une fonction qui satisfait:

La technique RBF consiste à utiliser une fonction de la forme:

1

( ) ( )x x xN

i ii

y w

11 12 13 1 1 1

21 21 21 2 2 2

1 2 3

11 12 13 1

21 21 21 2

1 2

( )

ou

avec x x

N

Nji j i

N NN N N NN

N

N

N N

w d

w d

w d

1 1

2 2

3

; ;

, 1

d w

Φw d alors w Φ d

N NN NN

d w

d w

d w

0 | 1, 2, ,x mi R i N

NiRd i ,,2,1|1 1: Ny R R ( )x i iy d

x1

x2

d

Page 23: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-23

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

Théorème de Micchelli (1986):Si est un ensemble de patrons distincts, alors la matrice N-par-N d’interpolation est non singulière (i.e., une solution existe).

Théorème de Light (1971):Si est un ensemble de patrons distincts, une matrice d’interpolation avec éléments de la forme

est positive et définie.

1x

N

i i

1x

N

i i

( )ji j ix x

Page 24: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-24

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

RBF communes qui respectent le théorème de Light:

fonctions multi quadratiques:

fonctions multi quadratiques inverse:

fonctions Gaussiennes:

1/ 22 2( ) pour un 0, r r c r r

1/ 22 2

1( ) pour un 0, r r r

r c

2

2( ) exp pour un 0,

2

rr r r

Page 25: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-25

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

Exemple en 1-D: données d’entraînement {(xi ,yi)} = {(-1, 1), (0, 2), (1, 1)} avec RBF multi quadratique:

2

1 1 2 2 3 3

2 2 21 2 3

( ) ( 0.5)

( ) ( ) ( ) ( )

( 1) 0.5 0.5 ( 1) 0.5

x x x x x x x

x x x

r r

y w w w

w w w

1

2

1

5.05.15.4

5.15.05.1

5.45.15.0

1

2

1

5.05.15.4

5.15.05.1

5.45.15.0

1

3

2

1

3

2

1

w

w

w

w

w

w

Page 26: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-26

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Interpolation

Selon les théorèmes de Michelli et Light, on peut résoudre:

mais, en pratique, on veut résoudre quand Φ est arbitrairement proche d’une matrice singulière

solutions: théorie de régularisation (solution exacte) réseau RBF généralisé (estimation)

-1w=Φ d

Page 27: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-27

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRégularisation

Problème avec l’interpolation stricte: généralisation sur de nouvelles données → sur apprentissage

L’apprentissage peut être perçu comme un problème de reconstruction d’hyper surfaces:

problèmes directes vs inverses

Problèmes inverses sont soit bien ou mal posés:un problème est bien posé ssi il respecte 3 conditions: 1. existe: il exister un y(x) pour chaque x 2. unique: y(x1) = y(x2) ssi x1 = x2

3. continue: si dist(x1,x2) < δ(ε) implique dist(y(x1),y(x2)) < ε

Page 28: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-28

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRégularisation

Problèmes inverses mal posés: pas assez d’information dans TRAIN pour décrire un y(x) de façon unique (viole #2) bruit/imprécisions dans TRAIN ajoute trop d’incertitude dans y(x): discontinuités (viole #3)

Solution possible: inclure de l’information a priori sur la transformation entrée-sortie y(x)

mais, le processus générateur de TRAIN doit être lisse et exhiber de la redondance

Page 29: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-29

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Régularisation

Idée de base de la régularisation:stabiliser la solution avec une fonctionnelle non négative qui intègre de l’information a priori sur la forme de la solution.

information a priori contient des contraintes de lissage sur y(x) hypothèse sur la famille de fonctions qui décrit le phénomène qu’on cherche à approximer...

Page 30: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-30

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Régularisation Théorie de régularisation de Tikhonov:

terme d’erreur standard – distance entre y(xi) et di

terme de régularisation (stabilisateur) – dépend des propriétés géométriques de y(xi)

où P est un opérateur différentielle linéaire qui intègre l’information a priori sur la forme de la solution y(x)

fonction de coût totale à minimiser:

21( )

2Pc y y

22

1

1 1( ) ( ) ( ) [ ( )]

2 2x P

N

s c i ii

y y y d y y

2

1

1( ) ( ( ))

2x

N

s i ii

y d y

Page 31: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-31

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Régularisation

paramètre de régularisation λ :

nombre positif réel qui indique si TRAIN est suffisant pour spécifier y(x) si λ→ 0 , problème non-contrainte: y(x) est déterminée entièrement par TRAINsi λ→ ∞, les contraintes de lissage imposées a priori par P sont suffisant pour spécifier y(x): TRAIN est non fiableen pratique , alors les deux informations contribuent à la solution

0

Page 32: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-32

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Une solution au problème de régularisation: [Poggio et Girosi, 1990]

somme pondérée de fonctions de Green, G(x;xi), centrées sur les xi de TRAIN:

l’approche par régularisation est équivalent à l’expansion de y(x) en termes d’un ensemble de fonctions de Green, spécifiée par la forme de P

le nombre de fonctions de Green est égal à |TRAIN|

1

( ) ( ; )N

ii

y w G

ix x x

Page 33: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-33

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Détermination de coefficients wi:

est évaluées pour chaque patron de TRAIN, alors:

si on pose: et

en éliminant y, alors:

1 2( ), ( ), , ( )y x x xT

Ny y y

),(),(),(

),(),(),(

),(),(),(

21

22212

12111

NNNN

N

N

GGG

GGG

GGG

xxxxxx

xxxxxx

xxxxxx

G

1( )w d y

y = Gw

dwIG )( dIGw 1)(

Page 34: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-34

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Réseau de régularisation

Les fonctions G(x;xi), centrées à xi, sont spécifiées par la forme de P

si P est invariant aux rotations et aux translations, alors G(x;xi) dépend seulement de la norme Euclidienne du vecteur différence, alors:

sous ces conditions, G(x;xi) doit être une RBF, et la solution de régularisation doit prendre la forme:

( ; ) ( )x x x xi iG G

1

( ) ( )ix x xN

ii

y w G

Page 35: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-35

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Exemple: fonctions Gaussiennes multi variablescorrespondent à un opérateur différentiel P qui est invariants aux rotations et aux translations:

la solution au problème de régularisation prend la forme:

qui consiste d’une superposition linéaire de Gaussiennes avec centres xi et avec dispersions σi

2

22

1exp),( i

iiG xxxx

2

21

1( ) exp

2x x x

N

i ii i

y w

Page 36: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-36

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Réseau de régularisation

Réseau RBF de régularisation:

la sortie est la somme pondérée des sorties de la couche cachée

1

( ) )x G(x xN

i ii

y w ,

G

2x

1mx

mx

1x

G

G

j

N( )xy

InputLayer

Hiddenlayerof N Green’sfunctions

Outputlayer

1dIGw 1)(

Page 37: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-37

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Propriétés d’un réseau RBF de régularisation: [Poggio et Girosi, 1990]

☻ approximateurs universels: ils peuvent approximer n’importe quelle fonction continue arbitrairement bien avec un nombre suffisant de neurones cachées:– étant donnée une fonction non linéaire inconnue f, il existe toujours

un choix de coefficients w qui approxime f mieux que tout autre choix possible;

– ses solutions sont optimales: il minimise la fonction de coût ε(y).

complexité de calculs: la correspondance des neurones cachées avec N patrons donne un réseau très coûteux

calcul des poids w est O(N3) car on doit inverser une matrice N-par-Ndifficile à réaliser en pratique pour de grands N...

Page 38: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-38

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Un approximation de la solution régularisée: solution sous optimale dans l’espace à dimension M < N, qui est alors moins coûteuseon peut dériver un approximation avec la méthode de Galerkin’s [Poggio and Girosi, 1990]:

car:

où les centre ti et les poids wi sont à déterminer.

*

1 1

( ) ( ) ( )M M

i i i ii i

y w w G

x x x t

( ) ( ) 1,2,..,x x ti iG i M M N

Page 39: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-39

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Architecture générale:

2x

1mx

mx

1x

j

M* ( )xy

InputLayer

Hidden layer of of radial functions

Outputlayer

1

b0

1

Page 40: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-40

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Détermination des poids wi:

Un nouvelle fonction de coût:

la minimisation de cette fonction de coût en fonction du vecteur de poids donne:

22

* *

1 1

( ) ( )N M

i j i ji j

y d w G y

x t D

0

1 1 1 2 1

2 1 2 2 2

1 1

(t , t ) (t , t ) ... (t , t )

(t , t ) (t , t ) ... (t , t )

. : : . : :

(t , t ) (t , t ) ... (t , t )

M

M

M M M M

G G G

G G GG

G G G

0( )G G G w G dT T

Page 41: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-41

B.3(2) Réseaux RBFB.3(2) Réseaux RBF Réseaux RBF généralisés

il a été démontré que lorsque le paramètre λ → 0, le vecteur w converge vers une solution pseudo-inverse pour M ≤ N [Broomhead et Lowe, 1988]:

1( )

+w = G d

w G G G dT T

Page 42: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-42

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Comparaison entre réseaux RBF régularisés (exact) et généralisés (estimation):

le nombre de neurones de la couche cachée: régularisation: N généralisés: M ≤ N (selon la complexité du

problème) les paramètres inconnus:

régularisation: poids de la couche de sortie généralisés: les poids de la couche de sortie et la position des centres

Page 43: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-43

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStratégies d’apprentissage

Structure générale d’un réseau RBF classificateur: couche cachée: transformation non linéaire x → φ (x)couche de sortie: transformation linéaire φ(x) → y (combinaison linéaire des fonctions cachées)

Page 44: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-44

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStratégies d’apprentissage

L’activation des neurones:

couche cachée: (j = 1, .., M)

(dans le cas de RBF de forme Gaussienne)

couche de sortie: (par classe k)

superposition linéaire de RBF capables d’approximation universelle

Apprentissage: optimiser les centre μi , les dispersions σj et les poids wkj

1

( ) ( )M

k kj jj

y w

x x

2( ) exp

2j

jj

xx

Page 45: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-45

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Stratégies d’apprentissage

Le processus d’apprentissage du réseau RBF généralisé comprend deux phases d’optimisation:

1. les neurones cachées – évoluent lentement selon une stratégie d’optimisation non linéaire

2. les poids de sortie – s’ajustent rapidement selon une stratégie d’optimisation linéaire

Page 46: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-46

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Stratégies d’apprentissage

Plusieurs différentes stratégies d’apprentissage selon la façon dont les centres sont déterminés

Principales stratégies en littérature:

1. centres fixes, sélectionnés de façon aléatoire2. centres obtenus par apprentissage non-supervisé3. centres obtenus par apprentissage supervisé

Page 47: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-47

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

2 2

2max

( ) exp( ), 1, 2,...,j j

mG x x i m

d

max

2

d

m

Page 48: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-48

B.3(2) Réseaux RBFB.3(2) Réseaux RBF1. centres fixes sélectionnés de façon aléatoire

Approche LMS – résoudre des équations linéaires pour dériver les poids wi de la couche de sortie: − méthode pseudo-inverse:− où G+ est la matrice pseudo-inverse de la matrice

Calcul de G+ par décomposition en valeur singulière− si G est une matrice réelle N-by-M, il existe deux matrices

orthogonales et telle que

− alors, la matrice avec matrice N-by-N

+w = G d{ }ijgG

2

2exp , 1,2,..., ; 1,2,...,ij i j

mg i N j m

d

x μ

}u,...,u,u{U N21 }v,...,v,v{V M21T

1, 2, ,diag( ..., ), min( , )U GV K K M N TUVG

)0,...,0,1

,...,1

,1

(diagK21

Page 49: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-49

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

2( ) exp , 1,2i iG i x μ x μ

1μ [1,1]T,

2μ [0,0]T

1x

1x

1

2

Fixed input = +1

b(bias)

Inputnode

GaussianFunction

Linearoutputneuron

2

1

( ) ( )i ii

y w b

x G x t

1. centres fixes sélectionnés de façon aléatoire

Exemple: problème XOR (linéairement non séparable)

Page 50: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-50

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Input-Output TransformationComputed for XOR Problem

Data Point,j Input Pattern, Desired Output, jx jd

1 (1,1) 0 2 (0,1) 1 3 (0,0) 0 4 (1,0) 1

13678.03678.0

111353.0

13678.03678.0

11353.01

G [ ]w Tb

[0 1 0 1]d T

T -1 Tw=(G G) G d

2.5018

2.5018

2.8404

w

1. centres fixes sélectionnés de façon aléatoire

Page 51: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-51

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

1. centres fixes sélectionnés de façon aléatoire

Problème avec la méthode à centres fixés:

justifiée seulement si TRAIN est distribué d’une façon représentative pour le problème

peut nécessiter plusieurs neurones cachées, et un grand TRAIN pour obtenir des performances adéquates

Page 52: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-52

B.3(2) Réseaux RBFB.3(2) Réseaux RBF2. centres obtenus par apprentissage non-supervisé

Apprentissage hybride:

couche cachée: apprentissage non-supervisé de type auto-organisateur pour estimer les centres des RBFs

e.g., catégorisation k-means ou GMM

couche de sortie: apprentissage supervisé pour estimer les poids linéaires

e.g., algorithme LMS, règle delta (à base d’erreurs)

Page 53: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-53

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

2. centres obtenus par apprentissage non-supervisé

Exemple: apprentissage séquentielle k-means (en-ligne):

1. Initialisation – choisir aléatoirement les centres

2. Échantillonnage – prendre un patron x de TRAIN

3. Calcul de proximité – déterminer J, l’index du centre qui est le plus proche de x

4. Ajuster les centres –

retourner à l’étape 2

arg min ( ) ( ) 1,2,...,jJ n n j m x μ :

( ) [ ( ) ( )],( 1)

( )

j j

jj

n n n j Jn

n

μ x μ μ

μ , sinon0 1

Page 54: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-54

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

3. centres sélectionnés par apprentissage supervisé

Tous les paramètres libres sont ajustés par un processus d’apprentissage supervisé à base d’erreur (e.g., l’algo. LMS)

Exploite des la descente de gradient, avec la fonction de coût:

Détermine tous les paramètres qui minimisent E.

2

1

1

2

N

jj

E e

*

1

( )

( ) x ti

j j j

M

j i j i Ci

e d F x

d w G

Page 55: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-55

B.3(2) Réseaux RBFB.3(2) Réseaux RBF3. centres sélectionnés par apprentissage supervisé

poids linéaires:

position des centres:

dispersion des centres:

1

( )( ) ( ( ) )

( )x

N

j j iji

E ne n G t n

w n

1

1

( )2 ( ) ( ) ( ( ) ) [ ( )]

( )x x

N

i j j i i j iji

E nw n e n G t n t n

t n

11

( )( ) ( ) ( ( ) ) ( )

( )x

N

i j j i jiji

E nw n e n G t n Q n

n

Tijijji )]n(tx)][n(tx[)n(Q

)n(

)n(E)n()1n(

1i

31

i1

i

1i

1ii m,...,2,1i ,)n(w

)n(E)n(w)1n(w

1i

2ii m,...,2,1i ,)n(t

)n(E)n(t)1n(t

Page 56: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-56

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

3. centres sélectionnés par apprentissage supervisé

Remarques:

− il est possible de se fait prendre dans un minimum local dans l’espace des paramètres, surtout pour et

− on utilise différents paramètres de taux d’apprentissage pour chacune des équations précédentes

− la procédure par descente de gradient dans le réseaux RBF n’implique pas la rétro-propagation d’erreurs.

it 1i

321 ,,

Page 57: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-57

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

* arg max ( | ) : 1, 2,...,xkk p c k K

réseaux RBF pour la classification

Problème de classification à k classes:

sachant tous les statistiques sous-jacentes d’un problème de classification, la règle de décision de la probabilité a posteriori maximum (MAP) est optimale:

selon le théorème de Bayes, on calcule la probabilité a posteriori comme:

1

( | ) ( )( | )

( | ) ( )

xx

x

k kk K

h hh

p c P cp c

p c P c

Page 58: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-58

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

1

( | ) ( | ) ( | )x xM

k kj

p c p j p j c

réseaux RBF pour la classification

Transposition dans le réseau RBF:

si plusieurs RBF (j = 1, 2, ..., M) sont utilisées pour représenter les classes, on peut remplacer dans l`équation de probabilité a posteriori:

les probabilités conditionnelles:

la probabilité non-conditionnelle:

1 1

( ( | ) ( ) ( | ) ( )x) x xK M

h hh j

p p c P c p j P j

Page 59: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

réseaux RBF pour la classification

Transposition dans le réseau RBF:couche cachée: l’activation φj est interprétée comme la probabilité à posteriori de la présence du RBF j sachant x:

poids de la couche de sortie: interprété comme la probabilité à posteriori d’appartenance à une classe étant donnée les RBFs

SYS828: Systèmes biométriques Éric Granger

B3-59

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

1

( | ) ( )( ) ( | )

( | ) ( )j M

m

p j p jp j

p j p j

x

x xx

( | ) ( )( | )

( )k k

kj k

p j c P cw p c j

p j

Page 60: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-60

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

réseaux RBF pour la classification

Remarques:le réseau RBF classificateur est une réalisation parallèle du test d’hypothèse Bayesien

chaque sorties du réseaux RBF est interprétée comme une probabilité a posteriori

la distribution de chaque classe est modélisée comme un mélange de Gaussiennes: permet d’accommoder classes multimodales, ou non-Gaussiennes

des RBFs Gaussiennes permettent de régulariser

s’adapte bien à la détection de nouveauté, détection d’ambiguïté, etc.

Page 61: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-61

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Comparaison MLP vs RBF

Neurones de la couche cachée:

MLP: calculent une fonction non-linéaire du produit scalaire entre entrée et poids

activation dépend de la somme pondérée avec entrées, et d’une fonction d’activation monotonique donc, l’activation est constante sur surfaces d’hyperplans

RBF: calculent une fonction non-linéaire de la distance entre entrée et centres

activation dépend de la distance radiale entre entrée et centroïde, et une fonction d’activation locale donc, l’activation est constante sur hyper ellipses

Page 62: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-62

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Comparaison MLP vs RBF

Séparation des classes:MLP: les neurones cachés forment des hyperplans dans l’espace d’entrée

discriminatif – bornes de décision explicitesRBF: les neurones cachées représentent des RFB locales

génératif – bornes des décision implicites

Page 63: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-63

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Comparaison MLP vs RBF

Représentation des connaissances dans l’espace des neurones cachées p/r à l’espace d’entrée:

MLP: distribuée plusieurs neurones cachés vont s’activer pour contribuer à la sortie car optimisation globale de tous les poids donne une approximation globale

RBF: locale très peu de neurones cachés vont s’activer pour contribuer à la sortie une approximation locale

Page 64: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-64

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Comparaison MLP vs RBF

Architecture neuronique:

MLP: peut avoir plusieurs couches cachées et des patrons complexes d’interconnexions

tous les neurones partagent le même modèle neuronique couches cachées et de sorties non-linéaires

RBF: simple, consistant généralement d’une couche cachée

la couche cachée est différente de la couche de sortie couche cachée non-linéaires et couche de sortie linéaires

Page 65: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-65

B.3(2) Réseaux RBFB.3(2) Réseaux RBFComparaison MLP vs RBF

Processus d’apprentissage de paramètres:

MLP: tous les paramètres sont appris en même temps, via un processus supervisé global

problème d’optimisation complexe qui peut converger lentement, et trouver des minimums locaux

RBF: les paramètres sont appris en deux étapes1. centres et dispersions sont apprises par apprentissage

non-supervisé (choix sans effectuer une optimisation complexe...)

2. les poids w sont apprises par apprentissage supervisé rapide (solution à un problème linéaire)

Page 66: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-66

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes réseaux de neurones probabilistes (PNN)(PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

Page 67: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-67

B.3(3) Réseaux PNNB.3(3) Réseaux PNN

Classificateur neuronique ‘feedforward’ (Specht, 1988)

Structure: réseau à 3 couches

1. couche d’entrée: unités de distribution des caractéristiques

2. couche cachée: noyaux Gaussiennes sphériques centrés sur chaque patron de TRAIN

3. couche de sommation: sommation des neurones cachés par classe

Réalisation parallèle d’une technique d’estimation de PDFs non-paramétrique (~ fenêtres de Parsen)

Page 68: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-68

B.3(3) Réseaux PNNB.3(3) Réseaux PNN

Page 69: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-69

B.3(3) Réseaux PNNB.3(3) Réseaux PNN

Avantages:

apprentissage rapide (entrainement en une passe)

converge asymptotiquement vers la borne de décision optimale quand |TRAIN| augmente

peut donner des résultats comparables au MLP-BP

Inconvénients:

ressources: un neurone caché est requis pour chaque patron de TRAIN

alors, on limite aux problèmes avec petites bases

Page 70: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-70

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

Page 71: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-71

B.3(4) SVMB.3(4) SVM

‘Support Vector Machines’: (Vapnik, 1992) reconnu comme un des meilleurs classificateurs statistiques̶i classificateur binaire à 2 classes̶i plusieurs applications pratiques: détection de visage,

reconnaissance de caractères, etc.̶i un sujet de recherche intensif depuis jj 2001

Variantes pertinentes:

a. SVM linéaires (LSVM) – approche discriminative

b. SVM non-linéaires (méthode à noyau) – approche hybride discriminative-générative

Page 72: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-72

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

LSVM – un classificateur linéaire à 2 classes (dichotomie):

y

Page 73: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

(a) SVM linéaires – cas séparable

Problème de conception:soit l’ensemble de données pour l’apprentissage:

notre objectif est de trouver un hyperplan:

qui sépare les données des deux classes

SYS828: Systèmes biométriques Éric Granger

B3-73

B.3(4) SVMB.3(4) SVM

1 2

1 1 2 2

{ , , ..., }

( , ),( , ) ...,( , ) 1,1

D

x x x

n n

dn n

z z z

y y y

, ,wx w db b

Page 74: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-74

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Approche SVM: déterminer l’hyperplan séparateur qui maximise marge M entre patrons des deux classes

La marge de l’hyperplan, M = d+ + d– , avec

d+ ≡ la distance la plus courte entre cet hyperplan et le patron positif (classe +1) le plus proche

d– ≡ la distance la plus courte entre cet hyperplan et le patron négatif (classe -1) le plus proche

Page 75: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-75

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable Exemple: un cas de données linéairement séparables

Page 76: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-76

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Maximisation de marges – une justification de l’idée est liée au principe du MDL:

MDL ≡ ‘Minimum Description Length’

la meilleure description de données (en termes de Egen ) est celle qui permet de stocker le plus petit nombre de bits

Page 77: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-77

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparablesi les patrons TRAIN et TEST sont pigés d’une même distribution inconnue

et, si tous les patrons TEST sont à une distance maximum de Δ par rapport à un patron TRAIN (de la même classe):

.: preuve: une marge de 2Δ est suffisant pour correctement classifier tous les patrons TEST

Page 78: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-78

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparablesi tous les patrons sont à une distance d’au moins Δ du plan séparateur, et l’ensemble des patrons est borné par une sphère:

.: une petite perturbation dans la définition du plan séparateur est tolérable

.: maximiser la marge permet de choisir un hyperplan qui est encodé avec le minimum de bits

Page 79: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-79

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Calcul de la marge M:

− on peut définir les contraintes d’optimisation suivantes:

1, pour 1

1, pour 1

qu'on peut combiner comme suit :

1 0, pour 1,2,...,

i i

i i

i i i

b y

b y

c y b i n

wx

wx

wx

Page 80: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-80

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Calcul de la marge M (suite)

on peut démontrer que d+ = d– = 1 / ||w|| , où ||w|| est la norme Euclidienne de w

la marge de l’hyperplan devient donc:

-

2 2 = =

||w||w wM d d

Page 81: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-81

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Problème d’optimisation sous contraintes:

Apprentissage → recherche dans l’hyperplan (w et b) avec la marge maximum, permettant de classifier tous les patrons dans Dn

le problème consiste alors à minimiser la fonction de coût:

( ) , sujet aux contraintes :2

1 0, pour 1,2,...,i i i

L

c y b i n

2w

w

wx

Page 82: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-82

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Problème d’optimisation avec contraintes: (suite)

pour résoudre un problème d’optimisation avec coût L(w) et paramètre w, on peut fixer

mais, lorsqu’il y a des contraintes ci ≥ 0, on utilise les multiplicateurs Lagrangiens, et on vérifie notre solution avec les conditions Karush-Kuhn-Tucker (KKT)

2

minimiser ( ) 32

( )alors : 3 0 3

wL w w

L ww w

w

Exemple (1D):

( ) / 0L w w

Page 83: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-83

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite)

Lagrangien – fonction de cout formé en soustrayant un terme pour chaque contrainte ci ≥ 0, pondéré par un multiplicateur Lagrangien positif:

on peut alors résoudre le problème dual – maximiser L(w,α) en fonction de α sujet au contraintes:

le problème général consiste donc à trouver la solution:

( , )0 et 0, pour 1,2,...,i

Li n

w

w

( , ) ( ) i ii

L L c w w

max min ( , )w

wL

Page 84: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-84

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite)

on introduit un multiplicateur Lagrangien αi (i = 1, 2, ..., n), pour chaque contrainte d’inégalité:

L(w,b,α) doit être (1) minimisé p/r aux variables primaires (w et b), tout en (2) maximisant p/r aux variables duales (αi )

aux extremums, nous avons:( , , ) ( , , )0 et 0

L b L b

b

w w

w

2

1

( , , ) ( ( ) 1)2

ww wx

n

i i ii

L b y b

Page 85: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-85

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparableRésolution: min L(w,b,α) par rapport aux variables primaires afin de produire des contraintes pour la substitution

1 1

( , , )0 0

n n

i i i i i ii i

L by y

ww x w x

w

2

1

( , , ) ( ( ) 1)2

n

i i ii

L b y b

w

w wx

1

( , , )0 0

i

n

i i

L by

b

w

Page 86: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-86

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Substitution: on combine ces contraintes dans L(w,b,α)

2

1

, 1 1 1

1 1 1 1 1 1

( , , ) ( ( ) 1)2

1

1

2

n

i i ii

n n n

i j i j i j i i j j j ii j i j

n n n n n n

i j i j i j i j i j i j i i ii j i j i i

L b y b

y y y y b

y y y y b y

ww wx

x x x x

x x x x

Page 87: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-87

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

La formulation duale – on cherche à maximiser:

on peut résoudre avec des techniques d’optimisation classiques en programmation quadratique (basées sur, e.g., l’ascente de gradient avec contraintes)

1 1 1

1

1

2

sujet aux contraintes linéaires :

0 et 0

x xn n n

i i j i j i ji i j

n

i i ii

L y y

i y

Page 88: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-88

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Cette solution fait en sorte que les conditions KKT suivantes sont satisfaites:

après avoir trouvé w via l’entrainement, on peut s’en servir pour estimer b

1

1

0

0

( ) 1 0

( ( ) 1) 0 et 0

w xw

wx

wx

n

i i ii

n

i ii

i i

i i i i

Ly

Ly

b

y b i

y b i

Page 89: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-89

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas non-séparable

Problème − l’optimisation n’a pas de solution si les 2 classes ne sont pas linéairement séparables:

Page 90: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-90

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas non-séparable

Solution – marge molle (‘soft margin’) pour modéliser le chevauchement ou le bruit:

ξi ≡ distance entre patron erroné xi et la droite définie par les SV de sa classe

contraintes pour l’optimisation:

1 , pour 1

1 , pour 1

wx

wxi i

i

i

i i

b y

b y

Page 91: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-91

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas non-séparable

Solution – marge molle pour modéliser le chevauchement ou le bruit:

on repose les contraintes p/r à une marge dur

on cherche alors à minimiser le critère d’optimisation quadratique suivant:

sujet aux contraintes:

2

1

|| ||

2

w n

ii

C

( ) 1 , 0,i i i iic y b i wx

Page 92: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-92

B.3(4) SVMB.3(4) SVM(a) SVM linéaires – cas non-séparable

La formulation duale – on cherche à maximiser:

on obtient w et b selon:

1 1 1

1

1

2

sujet aux contraintes :

0 , et 0

x xn n n

i i j i j i ji i j

n

i i ii

L y

i yC

y

1

1 ( ) 0

w x

wx

n

i i ii

i i i i

y

y b

Page 93: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-93

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas non-séparable

Fonction de décision:

Vecteurs de support: patrons d’entrainement xi de Dn

(i = 1, 2, …, n) avec αi ≠ 0

1

ˆ sign signwx x xn

i i ii

y b y b

Page 94: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-94

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Solution: projeter les patrons dans un espace de plus grande dimensionnalité avec une transformation non-linéaire

− cet espace devrait séparer les deux classes plus facilement

− étant donné une fonction , travailler avec une l’espace image du patron φ(xi) au lieu de celle du patron xi

: d F

Page 95: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-95

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Avec un SVM, on doit calculer les produits φ(xi)φ(xj) pour passer à l’espace image

cependant, ce calcul peut être très coûteux dans un espace de grande dimensionnalité

Fonction noyaux: on utilise plutôt une fonction noyau k(xi, xj), qui représente un produit dans un espace image ( , ) ( ) ( )x x x xi j i jk

Page 96: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-96

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Fonction noyaux communs:

Polynomial:

Gaussien ou ‘Radial Basis Function’ (RBF):

*( , ) ( ) , ,x x x x pi j i jk u v u v p

2

*2

( , ) exp ,2

x xx x

i j

i jk

Page 97: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-97

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

La formulation duale – on cherche à maximiser

sujet aux contraintes:

1 1 1

1

2( , )x x

n n n

i i j i ji i j

i jkL y y

0 et 0i i ii

C y

Page 98: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-98

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

La formulation duale:

on détermine les variables primaires w et b avec:

pour:

( 0)1 ,x xi ji j jj

y ky b

0 i C

1

( , )w x xn

i ii

i jy k

Page 99: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-99

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Mode opérationnel:

fonction de décision:

ˆ sig ( )n ,x xii ii

ky y b

Page 100: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-100

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Avec cette solution, les conditions KKT suivants sont satisfaits avec :

rem: αi = 0 pour tous patrons de Dn qui ne sont pas des vecteurs de support

( ) 1 0,

0 , tel que ( ) 1

, tel que ( ) 1

wx

wx

wx

i i

i i i

i i i

y b i

C i y b

C i y b

Page 101: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-101

B.3(4) SVMB.3(4) SVM(b) SVM non-linéaires

Synthèse des propriétés:objectif: conçu pour maximiser la marge dans l’espace des partons

méthode Lagrangienne: permet de formuler l’apprentissage comme un problème d’optimisation quadratique (sous contraintes)

populations non linéairement séparables: utilise une marge molle et/ou une fonction noyau

relations non-linéaires: projeter les patrons dans une espace de haute dimensionnalité

fonctions noyaux: permettent de simplifier le calcul

Page 102: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-102

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Considérations pratiques:

pour optimiser la capacité du modèle: le choix du noyau est le paramètre le plus important

noyau polynomial: si on augmente le degré du polynôme, on augmente la capacité

noyau Gaussien: si on augmente la variance, on diminue la capacité

Page 103: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-103

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Considérations pratiques:

optimiser C: représente le compromis entre la marge et le taux d’erreurs

données non-bruitées: le choix de C a généralement peu d’impact

données bruitées: le choix de C est critique

les petites valeurs donnent habituellement de meilleurs résultats

Page 104: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-104

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Problèmes à N classes:

apprentissage: approche un contre tousutilise un ensemble de SVM (un par classe)SVMj apprend classe j vs les reste, j = 1, 2, ..., N

opérations: choisir la classe (SVMj) dont la prédiction tombe le plus loin dans la région positive

Page 105: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-105

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Apprentissage: (complexité du problème de PQ)

Mémoire – taux de croissance O(n2) est requise pour stocker la matrice de noyaux

Comment gérer des Dn avec n = 100,000 patrons?

Approches proposées:1. ‘Chunking’: à chaque itération, résoudre le problème de PQ

utilisant tous les αi non-nuls de l’itération précédente + le M pires patrons (violations de conditions KKT)

2. Décomposition: résoudre une série de problèmes PQ plus petites, où chacun ajoute un patrons qui viole les conditions KKT

Page 106: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-106

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO)

Objectif: résoudre le problème d’optimisation le plus petit à chaque itération

Processus itératif:

1. choisir 2 αi pour l’optimisation conjoint, avec au moins un des deux qui viole les conditions KKT

2. trouver la valeur optimal pour ces 2 αi et faire une mise-à-jour du modèle SVM

Page 107: SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

SYS828: Systèmes biométriques Éric Granger

B3-107

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO)

ce processus itératif converge toujours vers un optimum