EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet...

12
Apprentissage et reconnaissance (GIF-4101 / GIF-7005) Département de génie électrique et de génie informatique Hiver 2014 EXAMEN FINAL Instructions : – Une feuille aide-mémoire recto verso manuscrite est permise ; – Durée de l’examen : 2 h 50. Pondération : – Cet examen compte pour 35 % de la note finale ; – La note est saturée à 100 % si le total des points avec bonus excède cette valeur. Question 1 (20 points sur 100) Soit un réseau de neurones de type RBF pour deux classes, composé d’une couche cachée de R neurones de type gaussien, suivi d’une couche de sortie d’un neurone avec fonction de transfert linéaire. La valeur de la sortie pour un tel réseau de neurones pour une valeur d’entrée x est donnée par l’équation suivante, h(x)= R X i=1 w i φ i (x)+ w 0 = R X i=1 w i exp - kx - m i k 2 2s 2 i + w 0 , où : m i est la valeur du centre du i-ème neurone gaussien de la couche cachée ; s i est l’étalement du i-ème neurone gaussien ; w i est le poids connectant le i-ème neurone gaussien de la couche cachée au neurone de sortie ; w 0 est le poids-biais du neurone de sortie. Supposons que l’on fixe les étalements s i à des valeurs prédéterminées et que l’on veut ap- prendre les valeurs w i , w 0 et m i par descente du gradient, en utilisant comme critère l’erreur quadratique moyenne, E = 1 2N X x t ∈X (e t ) 2 = 1 2N X x t ∈X [r t - h(x t )] 2 , où : r t est la valeur désirée pour le neurone de sortie du réseau ; X est l’ensemble des N données d’entraînement. (a) (10) Développez les équations permettant de mettre à jour les poids w i et w 0 du neurone de sortie par descente du gradient, en utilisant le critère de l’erreur quadratique moyenne. Page 1 de 12

Transcript of EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet...

Page 1: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

Apprentissage et reconnaissance (GIF-4101 / GIF-7005)Département de génie électrique et de génie informatiqueHiver 2014

EXAMEN FINAL

Instructions : – Une feuille aide-mémoire recto verso manuscrite est permise ;– Durée de l’examen : 2 h 50.

Pondération : – Cet examen compte pour 35 % de la note finale ;– La note est saturée à 100 % si le total des points avec bonus excède cette valeur.

Question 1 (20 points sur 100)

Soit un réseau de neurones de type RBF pour deux classes, composé d’une couche cachéede R neurones de type gaussien, suivi d’une couche de sortie d’un neurone avec fonction detransfert linéaire. La valeur de la sortie pour un tel réseau de neurones pour une valeur d’entréex est donnée par l’équation suivante,

h(x) =R∑i=1

wiφi(x) + w0 =R∑i=1

wi exp

[−‖x−mi‖2

2s2i

]+ w0,

où :— mi est la valeur du centre du i-ème neurone gaussien de la couche cachée ;— si est l’étalement du i-ème neurone gaussien ;— wi est le poids connectant le i-ème neurone gaussien de la couche cachée au neurone de

sortie ;— w0 est le poids-biais du neurone de sortie.Supposons que l’on fixe les étalements si à des valeurs prédéterminées et que l’on veut ap-prendre les valeurs wi, w0 et mi par descente du gradient, en utilisant comme critère l’erreurquadratique moyenne,

E =1

2N

∑xt∈X

(et)2 =1

2N

∑xt∈X

[rt − h(xt)]2,

où :— rt est la valeur désirée pour le neurone de sortie du réseau ;— X est l’ensemble des N données d’entraînement.

(a)(10) Développez les équations permettant de mettre à jour les poids wi et w0 du neurone desortie par descente du gradient, en utilisant le critère de l’erreur quadratique moyenne.

Page 1 de 12

Page 2: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

Solution:

et = rt − h(xt) = rt −

[R∑j=1

wjφj(xt) + w0

]∂E

∂wi=

∂wi

1

2N

∑xt∈X

(et)2 =1

2N

∑xt∈X

2et∂

∂wi

(rt −

[R∑j=1

wjφj(xt) + w0

])

= − 1

N

∑xt∈X

etφi(xt)

∆wi = −η ∂E∂wi

N

∑xt∈X

etφi(xt)

∂E

∂w0

=∂

∂w0

1

2N

∑xt∈X

(et)2 =1

2N

∑xt∈X

2et∂

∂w0

(rt −

[R∑j=1

wjφj(xt) + w0

])

= − 1

N

∑xt∈X

et

∆w0 = −η ∂E∂w0

N

∑xt∈X

et

wi = wi + ∆wi, i = 0, . . . ,R

(b)(10) Développez les équations permettant de mettre à jour les valeurs des centres mi des neu-rones gaussiens de la couche cachée par descente du gradient, en utilisant le critère del’erreur quadratique moyenne.

Solution:∂φi(x

t)

∂mi,j

=∂

∂mi,j

exp

[−‖x

t −mi‖2

2s2i

]= exp

[−‖x

t −mi‖2

2s2i

]∂

∂mi,j

[−‖x

t −mi‖2

2s2i

]=

(xtj −mi,j)

s2iexp

[−‖x

t −mi‖2

2s2i

]=xtj −mi,j

s2iφi(x

t)

∂E

∂mi,j

=∂

∂mi,j

1

2N

∑xt∈X

(et)2 =1

2N

∑xt∈X

2et∂

∂mi,j

(rt −

[R∑l=1

wlφl(xt) + w0

])

=1

N

∑xt∈X

et(−1)wi∂φi(x

t)

∂mi,j

= − wiNs2i

∑xt∈X

et(xtj −mi,j)φi(xt)

∆mi,j = −η ∂E

∂mi,j

=ηwiNs2i

∑xt∈X

et(xtj −mi,j)φi(xt)

mi,j = mi,j + ∆mi,j, i = 1, . . . ,R, j = 1, . . . ,D

Page 2 de 12

Page 3: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

Question 2 (22 points sur 100)

Soit le jeu de données suivant, en deux dimensions :

x1 = [0,25 − 0,4]T , x2 = [0,2 − 0,2]T , x3 = [0,2 0,2]T , x4 = [0,3 0,4]T ,x5 = [0,35 0,2]T , x6 = [0,4 − 0,15]T , x7 = [0,5 − 0,3]T , x8 = [0,5 0,3]T .

Les étiquettes de ces données sont r1 = r2 = r3 = r4 = −1 et r5 = r6 = r7 = r8 = 1.Le graphique ici bas présente le tracé de ces données.

0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6−0.5

−0.4

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

0.4

0.5

1

2

3

4

5

6

7

8

x1

x2

Nous obtenons le résultat suivant en effectuant l’entraînement d’un SVM linéaire à margedouce avec ces données, en utilisant comme valeur de paramètre de régularisation C = 300 :

α1 = 73,541, α2 = 0, α3 = 0, α4 = 226,459, α5 = 300, α6 = 0, α7 = 0, α8 = 0,w0 = −6,136.

(a)(5) Calculez les valeurs du vecteur w de l’hyperplan séparateur de ce classifieur.

Solution: Les valeurs du vecteur w sont calculées selon l’équation suivante :

w =∑t

αt rt xt.

Dans le cas présent, les valeurs du vecteur sont w = [18,677 − 1,167]T .

Page 3 de 12

Page 4: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

(b)(12) Déterminez les données qui sont des vecteurs de support (mais pas dans la marge) ainsique les données qui sont dans la marge ou mal classées. Tracez ensuite un graphique re-présentant toutes les données du jeu, en encerclant les vecteurs de support et en encadrantles données dans la marge ou mal classées. Tracez également la droite représentant l’hy-perplan séparateur ainsi que deux droites pointillées représentant les limites de la marge.N’utilisez pas le graphique du préambule de l’énoncé de la question pour donner votreréponse, tracez vous-même un nouveau graphique dans votre cahier de réponse.

Solution: Les données dans la marge ou mal classées ont une valeur de αt correspon-dant au paramètre de régularisation C. Donc, la donnée x5 est la seule donnée dans lamarge ou mal classée du jeu, comme α5 = C = 300. Les données x1 et x4 représententles vecteurs de support du classifieur, comme leur αt respectif est non nul.Le graphique demandé correspond à ce qui suit.

0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6−0.5

−0.4

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

0.4

0.5

1

2

3

4

5

6

7

8

x1

x2

(c)(5) Supposons maintenant que l’on veut classer une nouvelle donnée x = [0,35 − 0,1]T

avec ce SVM. Calculez la valeur h(x) correspondante (valeur réelle avant seuillage de lasortie).

Solution: On calcule la valeur de h(x) selon l’équation suivante :

h(x) =∑t

αtrt(xt)Tx + w0.

Dans le cas présent, avec x = [0,35 0,1]T , la sortie correspondante du classifieur esth(x) = 0,5175. Donc, la donnée est assignée à la classe des données positives.

Page 4 de 12

Page 5: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

Question 3 (16 points sur 100)

Soit le modèle de Markov caché (MMC) suivant, correspondant à l’exemple présenté en classe.

pluie soleil

πpluie = 0,6 πsoleil = 0,4

asoleil,soleil = 0,6

asoleil,pluie = 0,4

apluie,pluie = 0,7apluie,soleil = 0,3

marche sport étude

bpluie(marche) = 0,1

bsoleil(marche) = 0,3

bsoleil(sport) = 0,5

bsoleil(etude) = 0,2

bpluie(sport) = 0,2

bpluie(etude) = 0,7

(a)(4) Supposons la séquence d’états S = {pluie, pluie, soleil, pluie}. Calculez la probabilitéd’obtenir cette séquence d’états avec le MMC présenté ici haut.

Solution: La probabilité d’obtenir la séquence S est donnée par :

P (S|λ) = πs1

T−1∏t=1

ast,st+1

= πpluie apluie,pluie apluie,soleil asoleil,pluie

= 0,6 · 0,7 · 0,3 · 0,4= 0,0504.

Il y a donc 5,04 % de chance de produire la séquence d’états avec le MMC.

(b)(8) Supposons maintenant une séquence d’observations O = {étude,marche,étude}. Calcu-lez la probabilité d’obtenir cette séquence d’observations avec le MMC présenté ici haut.

Solution: Deux approches sont possibles pour calculer la probabilité P (O|λ) d’obte-nir l’observation avec le MMC. L’approche préconisée consiste à utiliser la procédureavant, en calculant les αt(i) = P ({o1, . . . ,ot},st = Si|λ) selon la formulation récursive

Page 5 de 12

Page 6: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

suivante :

α1(i) = P (o1|s1 = Si,λ)P (s1 = Si|λ) = πi bi(o1), i = 1, . . . ,N,

αt+1(j) = P ({o1, . . . ,ot},st = Sj|λ) = bj(ot+1)N∑i=1

αt(i) ai,j, j = 1, . . . ,N.

Dans le cas présent, pour la séquence d’observation à évaluer, les valeurs de αt(i) sont :t ot αt(pluie) αt(soleil)1 étude 0,6 · 0,7 = 0,42 0,4 · 0,2 = 0,082 marche 0,1 · (0,42 · 0,7 + 0,08 · 0,3) = 0,0318 0,3 · (0,42 · 0,3 + 0,08 · 0,6) = 0,05223 étude 0,7 · (0,0318 · 0,7 + 0,0522 · 0,4) = 0,030198 0,2 · (0,0318 · 0,3 + 0,0522 · 0,6) = 0,008172

À partir de ces résultats, on peut évaluer la probabilité d’observer la séquence commeétant :

P (O|λ) =N∑i=1

P (O,sT = Si|λ) =N∑i=1

αT (i)

= α3(pluie) + α3(soleil) = 0,030198 + 0,008172 = 0,03837

Donc, il y a 3,837 % de chance d’observer la séquence avec ce MMC.Une approche alternative pour faire le calcul est d’utiliser la formulation directe de laprobabilité d’observation :

P (O|λ) =∑∀S

P (O,S|λ).

Cette approche est possible dans le cas présent, car le nombre de séquences d’étatspossibles est réduit.

P (O|λ) = P (O,{pluie,pluie,pluie}|λ) + P (O,{pluie,pluie,soleil}|λ) +

P (O,{pluie,soleil,pluie}|λ) + P (O,{pluie,soleil,soleil}|λ) +

P (O,{soleil,pluie,pluie}|λ) + P (O,{soleil,pluie,soleil}|λ) +

P (O,{soleil,soleil,pluie}|λ) + P (O,{soleil,soleil,soleil}|λ)

= πpluie bétude(pluie) apluie,pluie bmarche(pluie) apluie,pluie bétude(pluie) +

πpluie bétude(pluie) apluie,pluie bmarche(pluie) apluie,soleil bétude(soleil) +

πpluie bétude(pluie) apluie,soleil bmarche(soleil) asoleil,pluie bétude(pluie) +

πpluie bétude(pluie) apluie,soleil bmarche(soleil) asoleil,soleil bétude(soleil) +

πsoleil bétude(soleil) asoleil,pluie bmarche(pluie) apluie,pluie bétude(pluie) +

πsoleil bétude(soleil) asoleil,pluie bmarche(pluie) apluie,soleil bétude(soleil) +

πsoleil bétude(soleil) asoleil,soleil bmarche(soleil) asoleil,pluie bétude(pluie) +

πsoleil bétude(soleil) asoleil,soleil bmarche(soleil) asoleil,soleil bétude(soleil)= 0,03837

Dans le cas général, cette approche n’est pas tractable étant donné l’explosion du nombrede séquences d’états possibles selon la longueur des séquences.

Page 6 de 12

Page 7: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

(c)(4) Expliquez en quoi consistent les valeurs γkt (i) et ξkt (i,j) utilisées par l’algorithme Baum-Welch.

Solution: La valeur γkt (i) correspond à la probabilité d’effectuer d’être dans l’état Siau pas de temps t dans la séquence d’observations Ok. Cette valeur est calculée selonl’équation suivante :

γkt (i) =αkt (i) β

kt (i)∑N

j=1 αkt (j) β

kt (j)

.

La valeur ξkt (i,j) correspond à la probabilité d’effectuer une transition de l’état Si autemps t à l’état Sj au temps t + 1 dans le traitement de la séquence d’observations Ok.Cette valeur est calculée selon l’équation suivante :

ξkt (i,j) =αkt (i) ai,j bj(ot+1) β

kt+1(j)∑

u

∑v α

kt (u) au,v bv(ot+1) βkt+1(v)

.

Ces valeurs sont évaluées à l’étape E de l’algorithme Baum-Welch sur le jeu de donnéesde séquences d’observations O = {Ok}Kk=1. Elles sont ensuite utilisées à l’étape M del’algorithme pour estimer les paramètres λ = {A,B,π} du MMC.

Question 4 (42 points sur 100)

Répondez aussi brièvement et clairement que possible aux questions suivantes.

(a)(3) Expliquez en quoi le classement logistique vu en classe fait un pont, conceptuellementparlant, entre les méthodes génératives et les méthodes discriminatives de classement.

Solution: Le classement logistique effectue un apprentissage basé sur une descente dugradient appliquée à un discriminant linéaire, ce qui est une approche discriminativeclassique. La valeur obtenue du discriminant linéaire est ensuite utilisée comme entréed’une fonction sigmoïde, dont la valeur peut être interprétée comme la probabilité a pos-teriori d’un classement selon des lois normales multivariées avec matrice de covariancepartagée pour les deux classes. Le classement de données selon les probabilités a pos-teriori des différentes classes pour une donnée x, soit P (Ci|x), est caractéristique desméthodes génératives.

(b)(3) Expliquez pourquoi il est possible de traiter avec succès des données non linéairementséparables avec un discriminant linéaire en utilisant des fonctions de base.

Solution: Avec des fonctions de base, on peut projeter les données non linéairementséparables dans un nouvel espace de plus grande dimension, décrit pas les fonctions debase, où les données seront linéairement séparables, ou à tout le moins plus faciles àtraiter qu’avec un discriminant linéaire travaillant dans l’espace d’entrée.

(c)(3) Expliquez pourquoi il est intéressant d’effectuer plusieurs exécutions d’un entraînementavec perceptron multicouches sur un même jeu de données, en utilisant les mêmes hyper-paramètres.

Page 7 de 12

Page 8: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

Solution: Les poids initiaux du perceptron multicouches sont déterminés aléatoirementet l’algorithme de rétropropagation est reconnu comme étant relativement instable, pro-duisant des classifieurs significativement différents d’un entraînement à l’autre. Plu-sieurs exécutions de l’entraînement permettent donc d’éviter d’être malchanceux dansun entraînement particulier, avec un classifieur offrant de faibles performances, en effec-tuant plusieurs répétitions et conservant le meilleur classifieur obtenu sur ces répétitions.

(d)(3) Expliquez la relation entre la taille du jeu de données d’entraînement et la complexitéalgorithmique de méthodes à noyau telles que les séparateurs à vaste marge (SVM).

Solution: Les méthodes à noyau se caractérisent par une fonction noyau K(x,y) sou-vent appliquée à toutes les paires de données du jeu d’entraînement. Ceci impliquedonc une complexité algorithmique des méthodes qui est au moins quadratique selonle nombre de données du jeu d’entraînement. Dans le cas des SVM, une implémenta-tion naïve donne une complexité algorithmique cubique selon nombre de données du jeud’entraînement, et entre quadratique et cubique pour des implémentations plus optimi-sées.

(e)(3) Donnez le principal avantage et le principal désavantage d’un apprentissage en ligne com-parativement à un apprentissage par lots avec une optimisation de classifieurs basée surla descente du gradient (incluant la rétropropagation des erreurs).

Solution: Un apprentissage en ligne permet d’obtenir une convergence plus rapide del’optimisation comparativement à un apprentissage par lots, au risque d’une plus grandeinstabilité relativement à la convergence vers une bonne solution.

(f)(3) Expliquez ce que l’on entend par la diversité des membres dans un contexte d’ensemblesde classifieurs et pourquoi cette diversité est souhaitable.

Solution: Par diversité des membres, on entend des classifieurs différents les uns desautres, qui ne font pas les mêmes erreurs. Un exemple exagéré d’un ensemble sans diver-sité est le cas où un ensemble est formé de M copies identiques d’un même classifieurentraîné. La création d’un tel ensemble est superflue, comme tous les membres vontfaire les mêmes erreurs sur les mêmes données. Avec un ensemble divers, on peut espé-rer que lorsqu’un classifieur donné fait une erreur, la majorité des autres classifieurs del’ensemble classe la donnée correctement, de sorte que la décision de l’ensemble serabonne.

(g)(3) Complétez la matrice de décision suivante, basée sur un code à correction d’erreurs pourun ensemble de L = 5 classifieurs, pour une décision d’ensemble à K = 3 classes, afinde maximiser la robustesse de l’ensemble relativement à une erreur des membres : −1 −1 −1 +1 ?

−1 +1 +1 −1 ?+1 −1 +1 −1 ?

.

Page 8 de 12

Page 9: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

Solution: Pour évaluer la robustesse de la matrice de décision, il faut calculer la dis-tance de Hamming entre chaque paire de lignes :

— Distance entre les lignes 1 et 2 : 3 ;— Distance entre les lignes 1 et 3 : 3 ;— Distance entre les lignes 2 et 3 : 2.

Donc, il faudrait augmenter la distance entre les lignes 2 et 3 afin de maximiser la dis-tance de Hamming. Une solution serait la matrice de décision suivante : −1 −1 −1 +1 +1

−1 +1 +1 −1 +1+1 −1 +1 −1 −1

.Ce qui ferait que la distance de Hamming serait de trois pour toutes les paires de lignes,ainsi qu’une tolérance égale à b(3− 1)/2c = 1 erreur de la part d’un classifieur de basede l’ensemble. D’autres variantes de la matrice de décision sont également valides.

(h)(3) Dans l’algorithme AdaBoost présenté en classe, il est indiqué que l’on interrompt l’algo-rithme lorsque le taux d’erreur εj est supérieur à 0,5. Expliquez en quoi consiste ce tauxd’erreur, en précisant l’équation utilisée pour son calcul.

Solution: Le taux d’erreur εj correspond au taux d’erreur sur les données d’entraîne-ment pondérées à l’itération j de l’algorithme AdaBoost, selon les probabilités d’échan-tillonnage ptj des données d’entraînement, soit :

εj =N∑t=1

ptjI(rt,h(x)),

avec I(a,b) comme fonction de perte 0-1, retournant 1 si a = b et 0 autrement.

(i)(3) Expliquez la différence principale entre une mixture d’experts et un vote pondéré dans uncontexte de méthodes par ensemble.

Solution: Dans un vote pondéré, le poids de chacun des classifieurs de base formantl’ensemble est déterminé préalablement, alors qu’avec une mixture d’experts, cette pon-dération est déterminée dynamiquement, selon la valeur de la donnée à classer x etl’expertise associée de chacun des classifieurs formant l’ensemble.

(j)(3) Expliquez en quoi consiste l’hypothèseH0 (hypothèse nulle) évaluée par le test statistiqueANOVA et de quelle façon on procède pour la tester.

Solution: L’hypothèse nulle du test ANOVA consiste à déterminer si les moyennes µides résultats obtenus par différentes méthodes sont égales : H0 : µ1 = µ2 = · · · = µL.On teste cette hypothèse en supposant deux estimateurs de la variance σ2 des moyennesµi, un premier estimateur qui suppose que l’hypothèse H0 est valide et un deuxièmeestimateur qui ne n’assume rien sur la validité de ces hypothèses. Ainsi, si la différence

Page 9 de 12

Page 10: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

entre les deux estimateurs de la variance σ2 des moyennes µi est inférieure à un certainseuil, on peut affirmer que l’hypothèse nulle est valide, sinon, on ne peut pas faire cetteaffirmation.

(k)(3) D’un point de vue des processus d’expérimentations, si l’on fait l’entraînement de per-ceptrons multicouches sur un jeu de données particulier, donnez des exemples de facteurscontrôlables que l’on voudrait étudier.

Solution: Les facteurs contrôlables lorsque l’on procède à l’entraînement d’un classi-fieur sont typiquement les hyperparamètres de l’algorithme de classement utilisé. Dansle cas du perceptron multicouche, on parle de la topologie du réseau de neurones (nombrede couches cachées, nombre de neurones par couches), taux d’apprentissage, variantede l’algorithme de rétropropagation utilisé (1er ordre ou 2e ordre), fonctions de transfertdes différents neurones, etc.

(l)(3) Expliquez en quoi consiste une validation croisée de type 5× 2.

Solution: Une validation croisée de type 5 × 2 consiste à effectuer 5 partitionnementsaléatoires distincts, 50/50, du jeu de données. Pour chaque partitionnement aléatoire, onfait deux exécutions d’entraînement et de test, soit une première exécution en utilisantla première partition du jeu pour l’entraînement et la deuxième partition pour le test, etune deuxième exécution en utilisant la deuxième partition du jeu pour l’entraînement etla première partition pour le test. Ensuite, on fait une moyenne des 10 résultats obtenuscomme résultat de l’entraînement, avec lesquels on peut estimer les distributions desrésultats et effectuer des tests statistiques.

(m)(3) Soit la courbe ROC suivante, présentant les performances de trois classifieurs (A, B et C)opérant selon deux classes (données positives et négatives).

Page 10 de 12

Page 11: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

A

B

C

Taux de faux positifs

Taux

de

vrai

s po

sitif

s

Expliquez en termes clairs et généraux quels classifieurs seraient les plus intéressants àutiliser selon les circonstances rencontrées.

Solution: Le classifieur A offre un meilleur taux de reconnaissance lorsque l’on veutconserver le taux de fausses alarmes bas, quitte à manquer des données positives. Àl’opposé, le classifieur B offre les meilleures performances lorsque l’on veut avoir untaux de décisions correctes (taux de vrais positifs) élevé, quitte à ce qu’il y ait réguliè-rement des fausses alarmes. Le classifieur C offre des performances inférieures en toutecirconstance comparativement aux classifieurs A et B, et n’est donc pas intéressant àutiliser dans le cas présent.

(n)(3) Expliquez pourquoi le classement paramétrique avec lois de probabilité multivariées peutperformer relativement bien sur de petits jeux de données, mais performe généralementmoins bien que d’autres méthodes sur de grands jeux de données, comparativement àdes approches telles que le classement par les k-plus proches voisins et le perceptronmulticouche.

Solution: Le classement paramétrique avec lois de probabilité multivariées est un mo-dèle de classement relativement rigide, qui fonctionne bien avec peu de données lorsquela loi de probabilité utilisée correspond bien à la nature des données. C’est un classifieurdont le biais est généralement élevé, mais dont la variance est faible. Ceci est appropriépour de petits jeux de données, car l’apprentissage avec de tels jeux fait en sorte qu’unedonnée différente des autres peut avoir un effet important sur le classifieur inféré lorsquel’algorithme d’apprentissage est instable ou comporte une grande variance. À l’opposé,

Page 11 de 12

Page 12: EXAMEN FINAL Question 1vision.gel.ulaval.ca/.../ar-final-h14-solutionnaire.pdfPondération : – Cet examen compte pour 35% de la note finale; – La note est saturée à 100% si

GIF-4101 / GIF-7005 Examen final 30 avril 2014

le classement par les k-plus proches voisins et le perceptron multicouche sont des mé-thodes ayant un biais faible, mais une variance élevée, de sorte que de plus gros jeux dedonnées sont nécessaires pour minimiser l’effet de la variance du modèle.

Question 5 (15 points bonus)

Supposons que l’on veuille traiter des données provenant selon un flot continu, et qu’il n’estpas possible de stocker ces données de façon permanente. Ces données forment un jeu X ={(x1,r1),(x2,r2), . . .)}, où la paire (xt,rt) reçue au temps t comporte la mesure xt et la classecorrespondante rt. On suppose que les données sont indépendantes et identiquement distri-buées (iid), donc qu’elles sont reçues dans un ordre aléatoire relativement aux mesures xt

et classes rt. Ceci implique, par exemple, que les données de chacune des classes sont bienréparties dans le temps relativement au flot de données.On veut utiliser des méthodes de classement capables de faire un apprentissage à la volée deces données. On considère utiliser la procédure suivante pour évaluer les performances desdifférentes méthodes :1. On reçoit une paire (xt,rt) correspondant à la donnée au temps t ;2. On évalue la performance de notre classifieur h(·|θt−1) de l’itération précédente sur la

donnée (xt,rt) ;3. On entraîne le classifieur sur cette donnée, ce qui nous donne h(·|θt) ;4. Tant que l’on reçoit de nouvelles données du flot, on retourne à l’étape 1.

À l’étape 2, on calcule le taux d’erreur de classement en ligne selon l’équation suivante :

Et = t−t∑

j=1

I(rj,h(xj|θj−1)),

où :— I(a,b) est une fonction de perte 0-1 retournant 1 lorsque a = b, sinon 0 ;— h(·|θt) est le classifieur obtenu après entraînement sur la donnée de l’itération t.D’après vous, est-ce que cette approche suit une méthodologie qui est valide? Justifiez claire-ment et de façon convaincante votre réponse, sans verbiage inutile.

Solution: Oui, cette méthodologie est valide pour entraîner et évaluer la performance desclassifieurs entraînés sur des flots de données. En effet, la performance du classifieur mesu-rée à l’étape 2 provient d’une mesure sur une donnée qui sera que par la suite utilisée pourl’entraînement (étape 3). Donc, tant que chaque donnée d’entraînement n’est traitée qu’unefois (entraînement en une passe), la mesure sera valide comme elle n’a pas été utilisée pourentraîner le classifieur. Une comparaison des différentes méthodes sera également possibleselon l’erreur de classement en ligne, gardant toutefois en tête que cette mesure d’erreur declassement sera généralement inférieure à l’erreur de classement obtenue après l’entraîne-ment sur de nouvelles données, comme les mesures ont été prises durant tout le processusd’entraînement, avec très probablement des classifieurs peu entraînés en début de processus,et donc médiocres.

Page 12 de 12