Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les...

51
Régression et classification convexifiée Samy Clementz 1

Transcript of Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les...

Page 1: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Régression et classification convexifiée

Samy Clementz

1

Page 2: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Table des matières

1 Introduction 4

2 Régression pénalisée avec le Lasso 5

2.1 Cadre et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Quelques résultats classiques . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Les limites du modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . 7

2.4 Sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.5 Le Lasso et quelques-unes de ses propriétés . . . . . . . . . . . . . . . . . 10

2.5.1 Géométrie du Lasso et sélection de variables . . . . . . . . . . . . 11

2.5.2 Analyse de la sous-différentielle . . . . . . . . . . . . . . . . . . . 12

2.5.3 Cas orthonormé : solution explicite . . . . . . . . . . . . . . . . . 16

2.5.4 Cas général : quelques résultats . . . . . . . . . . . . . . . . . . . 17

2.6 Propriétés statistiques du Lasso . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Classification supervisée avec les SVM 24

3.1 Analyse discriminante linéaire . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3 Convexification du problème . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3.1 Les espaces de Hilbert à noyau reproduisant . . . . . . . . . . . . . 29

3.3.2 Formule de représentation . . . . . . . . . . . . . . . . . . . . . . 31

3.4 Approche géométrique des SVM . . . . . . . . . . . . . . . . . . . . . . . 32

3.4.1 Cas séparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2

Page 3: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

3.4.2 Cas non-séparable . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.5 Trois résultats importants . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.5.1 Inégalité de McDiarmid . . . . . . . . . . . . . . . . . . . . . . . 37

3.5.2 Lemme de symétrisation . . . . . . . . . . . . . . . . . . . . . . . 41

3.5.3 Principe de contraction . . . . . . . . . . . . . . . . . . . . . . . . 42

3.6 Propriétés statistiques des SVM . . . . . . . . . . . . . . . . . . . . . . . 44

4 Annexe : Symétrisation et inégalité DKW 47

3

Page 4: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

1 Introduction

Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel, basés sur le livre de Giraud [8]. L’objectif de ce travail est de découvrir des méthodesde régression et de classification supervisée faisant intervenir la notion de convexité, etd’obtenir des bornes d’erreur.

Les figures illustrant ces méthodes en action sont réalisées en utilisant les biblio-thèques Scikit-learn et Matplotlib de Python. Tous les codes, commentés, sont disponiblessur Kaggle (notebooks [Lasso/Classif]M1) :

https://www.kaggle.com/csamy

Merci à Pascal Massart pour son encadrement.

4

Page 5: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

2 Régression pénalisée avec le Lasso

2.1 Cadre et exemples

En statistiques, la régression désigne un ensemble de méthodes permettant d’ana-lyser la relation entre une variable, dite expliquée, vis-à-vis d’une ou plusieurs variables,dites explicatives.

La régression linéaire est un des modèles statistique les plus utilisés : on sup-pose que la variable expliquée est au premier ordre une combinaison affine des variablesexplicatives. Par simplicité, on se place dans le contexte du modèle linéaire gaussien ho-moscédastique, c’est à dire que l’on suppose que l’observation Y vérifie :

Y “ Xβ˚ ` ε, β˚ P Rp, ε „ Nnp0, σ2Idq, (1)

où X P Mnˆp (la design matrix) est une matrice connue de variables explicatives tandisque β˚ et σ sont inconnus.

Exemple 2.1. Régression polynomiale : on a des mesures pYiq1ďiďn que l’on cherche àexpliquer par l’instant ti de la mesure :

Yi “ a` bti ` ct2i ` εi, i “ 1, . . . , n.

ou avec les notations matricielles :

Y “

¨

˚

˚

˚

˝

Y1

Y2...Yn

˛

, X “

¨

˚

˚

˚

˝

1 t1 t211 t2 t22...

......

1 tn t2n

˛

, β˚ “

¨

˝

abc

˛

‚, ε “

¨

˚

˚

˚

˝

ε1

ε2...εn

˛

.

2.2 Quelques résultats classiques

Grâce à la paramétrisation du modèle, on peut espérer trouver l’estimateur dumaximum de vraisemblance β pour β˚. On trouve que β minimise les moindres carrés :

β P argminβPRp

Y ´Xβ2,

5

Page 6: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

ce qui est, en annulant le gradient, équivalent aux équations normales

pXTXqβ “ XTY. (2)

XTX est inversible si et seulement siX est injective. Dans ce cas, et dans ce cas seulement,l’estimateur du maximum de vraisemblence est bien défini et :

β “ pXTXq´1XTY.

De même on peut par la méthode du maximum de vraisemblance calculer un estimateur deσ2 qui est

σ2 “1

nY ´ ΠImpXqY

2,

où ΠImpXq désigne la projection orthogonale dans Rn sur l’espace ImpXq engendré par lesvecteurs colonnes de X .

Etant données des nouvelles variables explicatives Xn`1 “ pX1n`1, . . . , X

pn`1q,

on peut alors définir comme estimateur de Yn`1 la prédiction Yn`1 “ pXn`1qT β.

Les lois de β et de σ2 sont connues :

β „ Nppβ, σ2pXTXq´1

q,n

σ2σ2 „ χ2

pn´ pq.

β et σ2 sont par ailleurs indépendants. On a alors accès à tout ce qu’il y a de plus désirablequand on pratique de l’inférence statistique : des régions de confiance et des tests de taillecontrôlée. Plus précisément, on a :

— des régions de confiance pour β˚, la prédiction Xβ˚, la variance σ2.— le test de Fisher du caractère significatif d’un sous-groupe de variables (par

exemple : H0 : β1 “ . . . “ βq “ 0 contre H1 fantôme, où q ď p).— le test de Wald de plusieurs relations affines (par exemple : H0 : Cβ˚ “ a

contre H1 : Cβ˚ ‰ a, où C PMq,p injective et a P Rq avec q ď p).

L’utilisation des estimateurs β et σ2 est justifiée dans le cadre de l’estimation sansbiais par le résultat suivant.

Theorème 2.1. (i) Si l P Rp, alors l’estimateur lT β est de variance minimale parmi lesestimateurs non biaisés de lTβ˚.(ii) L’estimateur du maximum de vraisemblance débiaisé n

n´pσ2 est de variance minimale

parmi les estimateurs non biaisés de σ2.

6

Page 7: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Ce résultat, dont la preuve se trouve dans [4], précise le très classique théorèmede Gauss-Markov, qui lui reste valide même dans un cadre non gaussien du moment quel’on garde les hypothèses d’homoscédasticité et d’indépendance des erreurs pεiq1ďiďn.

Enfin, l’erreur quadratique moyenne de β peut se calculer :

Propriété 2.1. E”

β ´ β˚2ı

“ σ2TrppXTXq´1q

Démonstration. Comme β ´ β˚ „ Npp0, σ2pXTXq´1q,

E”

β ´ β˚2ı

pÿ

i“1

E”

pβ ´ β˚q2i

ı

pÿ

i“1

V ar“

pβ ´ β˚qi‰

pÿ

i“1

σ2rpXTXq´1

si

“ σ2TrppXTXq´1q.

2.3 Les limites du modèle linéaire gaussien

Tout cet outillage d’estimateurs et de tests présentés dans la section précédentene sont valides que lorsque X est injective. Cela présume p ď n : il y a plus d’observationsque de facteurs explicatifs. C’est le cadre de la statistique classique, ayant contribué ausuccès de l’étude épidémiologique la plus célèbre de l’Histoire : l’étude de Framingham.

Cette étude, initiée en 1948 et toujours en cours, a permis de récolter et d’ana-lyser les données consistant en p » 100 variables médicales (âge, taille, poids, pressionartérielle, consommation de tabac...) de n » 25000 habitants de la ville de Framingham,Massachusetts, afin d’identifier les causes des maladies cardiovasculaires. Ces maladies ontpris dans les années 1920 la place de première cause de mortalité aux Etats-Unis qu’occu-pait auparavant les maladies infectueuses comme la poliomyélite ou la tuberculose, deve-nues minoritaires grâce aux vaccins, aux antibiotiques et au développement de l’hygiène.Les données relevées sur la cohorte a fourni aux épidémiologistes l’information nécessairepour donner naissance à la notion probabiliste de facteur de risque dans l’article de Kannelet al. [2], brisant le paradigme établi d’un déterminisme biologique défendu par l’influent

7

Page 8: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Claude Bernard au XIXème siècle, qui écrivait dans son Introduction à l’étude de la méde-cine expérimentale [1] :

En un mot, en se fondant sur la statistique, la médecine ne pourrait êtrejamais qu’une science conjecturale ; c’est seulement en se fondant sur le dé-terminisme expérimental qu’elle deviendra une science vraie, c’est-à-dire unescience certaine. [...] Les médecins en général semblent croire qu’en médecineil y a des lois élastiques et indéterminées. Ce sont là des idées fausses qu’ilfaut faire disparaître si l’on veut fonder la médecine scientifique. La médecine,en tant que science, a nécessairement des lois qui sont précises et déterminées,qui, comme celles de toutes les sciences, dérivent du critérium expérimental.

A la fin du XXème siècle, les recherches sur la génétique connaissent un grandessor. A cause du coût élevé des expériences (typiquement n ď 100) et de la complexitédes données récoltées (p en milliers), des modèles statistiques tels que le modèle linéairegaussien ne peuvent plus être utilisés.

En revanche, on peut s’en sortir en supposant que dans le nuage de points deRp que représente la design matrix X est en réalité concentré dans une structure de faibledimension. Lorsque l’on suppose que la relation entre les variables est linéaire, cette réduc-tion de dimension se traduit en postulant l’hypothèse de sparsité : seuls un nombre restreintdes colonnes de la design matrix a un effet significatif sur la variable à expliquer. L’hypo-thèse sparse est naturelle lorsqu’on est familier avec le principe de parcimonie ou Rasoird’Occam. Par exemple, si on s’intéresse à l’effet du génome sur une maladie, on s’attendd’abord à ce que des petits groupes de gènes causent la maladie, et non pas un peu tous lesgènes en même temps.

2.4 Sélection de modèle

On s’intéresse au problème de régression (1), particulièrement dans le cas p ě n.Si on est dans une situation où le principe de parcimonie s’applique, il peut être raisonnablede supposer que seuls les β˚j d’un petit sous-ensemble m˚ Ă t1, . . . , pu sont non nuls.

Plus généralement, si on suppose que f˚ est à chercher dans un sous-espacevectoriel S de R, on trouve que l’estimateur du maximum de vraisemblance pour f˚ estf “ ΠSY .

En pratique, on ne sait pas dans quel petit sous-espace vectoriel f˚ appartient.

8

Page 9: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Une procédure conciste à

1. considérer S “ tSm,m P M u une collection de sous-espaces vectoriels deR dans lesquelles f˚ est suspecté d’appartenir,

2. calculer pour chaque Sm l’estimateur du maximum de vraisemblance fm “ΠSmY ,

3. retenir parmi les estimateurs calculés celui considéré comme le meilleur.

Ici, le meilleur estimateur signifie celui minimisant l’erreur quadratique moyennerm “ E

||fm ´ f˚||2

ı

pour m P M :

Définition 2.1. On appelle estimateur oracle l’estimateur fmo tel que mo P argminmPM

trmu.

L’estimateur oracle est donc celui que l’on cherche. Malheureusement les rm dé-pendent de f˚ et ne peuvent donc pas être calculés à partir des donnés. On peut contournerce problème en remplaçant rm par un estimateur rm, c’est à dire en choisissant pour esti-mateur de f˚ :

fm tel que m P argminmPM

trmu .

Dans ce qui va suivre on se place dans le contexte de parcimonie des coordonnées : on poseM “ Pptp1, . . . , pquq et les modèles sont les Sm “ V ectpXj, j P mq pour m P M .

Trouvons un estimateur non biaisé de rm “ E”

||fm´f˚||2

ı

. Une idée est prendre

pour base la statistique ||fm ´ Y ||2. On décompose Y ´ fm “ pI ´ΠSmqf˚ ` pI ´ΠSmqε

et en appliquant le théorème de Cochran :

E”

||fm ´ Y ||2ı

“ E”

||pI ´ ΠSmqf˚||

2` ||pI ´ ΠSmqε||

2` 2x pI ´ ΠSmqf

˚, pI ´ ΠSmqεyı

“ ||pI ´ ΠSmqf˚||

2` pn´ dmqσ

2,

où dm “ dimpSmq. En utilisant maintenant la décomposition f˚ ´ fm “ pI ´ ΠSmqf˚ ´

ΠSmε on obtient

rm “ E”

||fm ´ f˚||

“ E”

||pI ´ ΠSmqf˚||

2` ||ΠSmε||

“ ||pI ´ ΠSmqf˚||

2` dmσ

2.

Ainsi rm “ ||Y ´ fm||2`p2dm´nqσ2 est un estimateur non biaisé de rm. On choisit alorsfm tel que

9

Page 10: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

m P argminmPM

!

||Y ´ fm||2` 2dmσ

2)

.

On constate que l’on choisit alors le modèle minimisant le critère d’informationd’Akaike 2dm ´ 2lnpLq où L est le maximum de vraisemblance du modèle. En pratique,ce critère ne produit pas de bons résultats lorsque Cardpm P M , dimpSmq “ dq augmenteexponentiellement en d. C’est le cas dans le contexte de parcimonie des coordonnées carCardpm P M , dimpSmq “ dq “

`

pd

˘

avec p grand. En effet, cette procédure aura tendanceà choisir les modèles les moins parcimonieux car la pénalité 2dm n’est pas assez forte :c’est un cas de surinterprétation des données. Une solution est de remplacer 2dm par unterme pénalisant d’avantage les modèles de grande dimension. On choisit une fonction depénalité pen : M Ñ R` et on considère le nouveau critère de sélection :

m P argminmPM

!

||Y ´ fm||2` σ2penpmq

)

. (3)

Cet estimateur possède des propriétés statistiques très intéressantes. Malheureusement, ilest en pratique algorithmiquement trop coûteux de calculer les 2p estimateurs fm “ ΠSmY .C’est là qu’intervient le Lasso.

2.5 Le Lasso et quelques-unes de ses propriétés

Modifions le critère (1) comme suit :

m P argminmPM

!

||Y ´Xβm||2` λ|m|

)

,

avec λ ą 0 fixé. Dans ce cas, par définition de βm,

m P argminmPM

"

minsuppβ“m

||Y ´Xβ||2 ` λ|m|

*

.

Comme β Ñ λ|β|0 est constant égal à λ|m| sur chaque sous-ensemble tβ : suppβ “ mu,on trouve que pour tout m P M ,

minsuppβ“m

||Y ´Xβ||2 ` λ|m| “ minsuppβ“m

||Y ´Xβ||2 ` λ|β|0.

Par conséquent,

m P argminmPM

"

minsuppβ“m

||Y ´Xβ||2 ` λ|β|0

*

.

10

Page 11: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Grâce à cela, on déduit une autre expression pour βm. En effet, soit β un minimiseur deβ Ñ ||Y ´Xβ||2`λ|β|0. Alors, grâce à l’expression de m trouvée précédemment, on voitque suppβ “ m. Par conséquent, β est un minimiseur de β Ñ ||Y ´ Xβ||2 ` λ|β|0 surle sous-ensemble tβ : suppβ “ mu. Mais sur ce sous-ensemble, la fonction β Ñ λ|β|0 estconstante. Finalement, β minimise β Ñ ||Y ´Xβ||2 sur tβ : suppβ “ mu. En conclusion :

βm P argminβPRp

||Y ´Xβ||2 ` λ|β|0.

On se ramène donc à un problème d’optimisation sans contraintes sur Rp. Malheureuse-ment β Ñ |β|0 n’est pas convexe. On contourne ce problème par une approximation. Eneffet, on a :

|β|0 “ limtÑ0`

|β|t

etmintt ě 0, β ÞÑ |β|t est convexeu “ 1.

On pose alors

βλ P argminβPRp

L pβq, où L pβq “ ||Y ´Xβ||2 ` λ|β|1. (4)

qui est obtenu par minimisation d’une fonction convexe non régulière.

2.5.1 Géométrie du Lasso et sélection de variables

Le Lasso possède une propriété très intéressante pour le statisticien : d’une cer-taine façon, il annule les coefficients βi qu’il juge les moins pertinents. Il applique enquelque sorte automatiquement le principe de parcimonie, rendant l’interprétation du mo-dèle plus facile. Ce phénomène de sélection de variables est une conséquence de la pro-priété suivante :

Propriété 2.2. Une solution βλ du Lasso (4) vérifie :

βλ P argmin|β|1ď|βλ|1

Y ´Xβ2. (5)

Démonstration. Soit β P Rd tel que |β|1 ď |βλ|1. Alors, par définition de βλ :

Y ´Xβλ2` λ|βλ|1 ď Y ´Xβ

2` λ|β|1

ď Y ´Xβ2 ` λ|βλ|1.

On en déduit que Y ´Xβλ2 ď Y ´Xβ2.

11

Page 12: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

FIGURE 1 – Le Lasso en action

La Figure (1) illustre la sélection de variable comme conséquence de la géométrieparticulière des boules l1 deRd dans le cas d “ 2. En pointillés sont représentées les lignesde niveau de la fonction à minimiser (5), et la sphère l1 centrée de rayon |βλ|1 est tracéeen bleu. D’après la Propriété (2.2), la solution du Lasso est le vecteur, marqué d’une croixrouge, atteignant le minimum de la fonction (5) dans la boule délimitée par la sphère bleue.Ainsi la seconde coordonnée du Lasso est nulle.

La Figure (2) donne une comparaison entre les coefficients obtenus par le Lassoet ceux obtenus par régression linéaire sur les données diabetes, discutés dans l’article deEfron [5]. Ce jeu de données comprend des caractéristiques médicales de 442 patients at-teints du diabète ainsi qu’une mesure quantitative de la progression du diabète pour chaquepatient sur une période d’un an. Ces caractéristiques sont l’âge, le sexe, l’IMC, la pressionartérielle moyenne, et la quantité de 6 serums dans le sang. On constate que le Lasso annulecertains coefficients.

2.5.2 Analyse de la sous-différentielle

Pour aller plus loin dans l’analyse du Lasso (4) on aura besoin de la notion desous-différentielle.

Définition 2.2. Soit f : Rp Ñ R une fonction convexe, et x P Rp. On appelle sous-

12

Page 13: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

FIGURE 2 – Coefficients obtenus par le Lasso sur les données diabetes

différentielle de f au point x l’ensemble :

Bfpxq “ tw P Rp, fpyq ě fpxq ` xw, y ´ xy pour tout y P Rpu.

Cette définition est principalement motivée par la propriété immédiate suivante :

Propriété 2.3. Soit f : Rp Ñ R une fonction convexe. x˚ P Rp est un minimum de f si etseulement si 0 P Bfpx˚q.

Pour calculer BL pxq, on aura besoin de plusieurs résultats sur la sous-différentielle,développés ici sous forme de lemmes.

Lemme 2.1. Soit f : Rp ÞÑ R convexe. Alors pour tout x P Rp, Bfpxq est non vide.

Démonstration. Soit x P Rp. L’épigraphe de f noté Epipfq est convexe dans Rp`1. Onapplique le théorème de l’hyperplan d’appui au point px, F pxqq : il existe pu, aq P Rp ˆR

tel que les deux propriétés suivantes soient vérifiées :

1. @pα, βq P Epipfq, xu, αy ` β ě a

2. xu, xy ` fpxq “ a

Pour tout y P Rp, py, fpyqq P Epipfq donc :

xu, yy ` fpyq ě a “ xu, xy ` fpxq.

13

Page 14: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

D’où :fpyq ě fpxq ` x´u, y ´ xy.

Ainsi ´u P Bfpxq donc Bfpxq est non vide.

Lemme 2.2. Soit f : Rp ÞÑ R convexe et différentiable. Alors Bfpxq “ t∇fpxqu.

Démonstration. Montrons que ∇fpxq P Bfpxq.

Posons g : t P R ÞÑ fpx`tpy´xqq. Alors d’après le théorème des accroissementsfinis, il existe θ Ps0, 1r tel que :

fpyq ´ fpxq “ gp1q ´ gp0q “ g1pθq “ x∇fpx` θpy ´ xqq, y ´ xy.

g est convexe donc de dérivée croissante :

fpyq ´ fpxq “ g1pθq ě g1p0q “ x∇fpxq, y ´ xy.

Donc ∇fpxq P Bfpxq.

Montrons que si w P Bfpxq, alors w “ ∇fpxq. En effet fixons h P Rp. Undéveloppement de Taylor donne :

fpx` thq ´ fpxq “ tx∇fpxq, hy ` optq ě txw, hy. (6)

Ainsi pour t ą 0 très petit, (6) donne :

x∇fpxq, hy ` op1q ě xw, hy,

d’où x∇fpxq, hy ě xw, hy. De même pour t ă 0 très petit, d’après (6) :

x∇fpxq, hy ` op1q ď xw, hy,

d’où x∇fpxq, hy ď xw, hy. Ainsi x∇fpxq, hy “ xw, hy. Ceci est vrai pour tout h P Rp,donc w “ ∇fpxq.

Lemme 2.3. B|x|1 “ tw P Rp, wi “ sgnpxiq si xi ‰ 0, wi P r´1, 1s sinonu

Démonstration. Remarquons d’abord que tw P Rp, wi “ sgnpxiq si xi ‰ 0, wi P r´1, 1s sinonu “tw P Rp, w8 ď 1 et xw, xy “ x1u.

14

Page 15: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Soit w P tw P Rp, w8 ď 1 et xw, xy “ x1u. Alors :

xy ´ x,wy “ xy, wy ´ |x|1

pÿ

i“1

yiwi ´ |x|1

ď

pÿ

i“1

|yi||wi| ´ |x|1

ď

pÿ

i“1

|yi| ´ |x|1

“ |y|1 ´ |x|1.

Donc |y|1 ě |x|1 ` xy ´ x,wy d’où w P B|x|1.

Soit maintenant w P B|x|1. Alors en prenant y “ 0 et y “ 2x dans la définitionde la sous-différentielle on a respectivement :

0 ě |x|1 ´ xx,wy et 2|x|1 ě |x|1 ` xx,wy,

d’où xx,wy “ |x|1. Montrons maintenant que w8 ď 1. Si w “ 0 alors c’est clair. Sinon,soit j P t1, . . . , pu un entier tel que |wj| “ w8. Construisons y P Rp tel que yi “ xipour i ‰ j et yj “ xj ` sgnpwjq de telle sorte que xy ´ x,wy “ w8. Alors d’après ladéfinition de la sous-différentielle :

pÿ

i“1,i‰j

|xi| ` |xj ` sgnpwjq| ě |x|1 ` w8.

Puis par l’inégalité triangulaire on a |xj ` sgnpwjq| ď |xj| ` 1 d’où w8 ď 1.

Lemme 2.4. Soit f, g : Rp ÞÑ R convexes avec f différentiable. Soit x P Rp. Alors Bpf `gqpxq “ ∇fpxq ` Bgpxq.

Démonstration. Soit w P Bgpxq. Alors

fpyq ě fpxq ` x∇fpxq, y ´ xygpyq ě gpxq ` xw, y ´ xy.

En additionnant ces deux lignes on obtient ∇fpxq ` w P Bpf ` gqpxq. Réciproquementsoit w P Bpf ` gqpxq. Décomposons w “ ∇fpxq ` z. Alors pour tout y P Rp, gpyq ěfpxq`x∇fpxq, y´xy´fpyq`gpxq`xz, y´xy. Mais fpxq`x∇fpxq, y´xy´fpyq ě 0car ∇fpxq P Bfpxq. Par conséquent gpyq ě gpxq ` xz, y ´ xy et donc z P Bgpxq.

15

Page 16: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Ces lemmes aboutissent à la description complète de la sous-différentielle de L :

Propriété 2.4.BL pβq “

´2XTpY ´Xβq ` λz, z P B|β|1

(

. (7)

En combinant la Propriété 2.3 et la Propriété 2.4, on obtient la version pénaliséedes équations normales (2). Les points réalisant le minimum de L sont exactement lespoints βλ vérifiant :

XTXβλ “ XTY ´λ

2z. (8)

où z P Rp, tel que zj “ sgnpβjq si βj ‰ 0 et zj P r´1, 1s sinon. Il est intéressant deconsidérer le cas où les colonnes de X sont orthonormées, puisqu’alors l’estimateur (4)possède une solution explicite. A noter que cela implique p ď n.

2.5.3 Cas orthonormé : solution explicite

0n suppose ici que les colonnes de X sont orthonormées. Calculons l’estimateurLasso (4). On a XTX “ Ip et d’après (8) : βλ “ XTY ´ λ

2z avec z P Rp, tel que

zj “ sgnpβjq si βj ‰ 0 et zj P r´1, 1s sinon.

Supposons pβλqi ‰ 0. Alors pβλqi “ xXi, Y y ´λ2signpβλqi. On en déduit que

si pβλqi ą 0 alors xXi, Y y ąλ2

et que si pβλqi ă 0 alors xXi, Y y ă ´λ2. Par conséquent,

xXi, Y y ‰ 0 et sgnxXi, Y y “ sgnpβλqi. Finalement, pβλqi “ xXi, Y y ´λ2sgnxXi, Y y.

Supposons pβλqi “ 0. Alors xXi, Y y “λ2zi avec zi P r´1, 1s. Par conséquent

|xXi, Y y| ďλ2.

En conclusion,

pβλqi “

"

0 si |xXi, Y y| ďλ2

xXi, Y y ´λ2sgnxXi, Y y si |xXi, Y y| ą

λ2.

(9)

La Figure (3 donne un aperçu dans le cadre orthonormé de la différence entre l’estimateurLasso (9) et l’estimateur des moindres carrés :

pβqi “ xXi, Y y

On constate un effet de seuillage : lorsque la variable explicativeXi et la réponse Y sont peucorrélés, le Lasso annule le coefficient βi. On observe cependant un biais lorsque |xXi, Y y|est grand : le Lasso réduit vers 0 les coefficients associés aux variables sélectionnées.

16

Page 17: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

FIGURE 3 – Le seuillage

2.5.4 Cas général : quelques résultats

On a vu dans le cas orthonormé qu’il y a un lien important entre la nullité de β etl’absence de corrélation entre les Xi et Y . C’est vrai dans le cas général.

Propriété 2.5. Soit βλ une solution de (4). On a la dichotomie suivante :

1. Si XTY 8 ďλ2, alors βλ “ 0.

2. Si XTY 8 ąλ2, alors βλ ‰ 0.

Démonstration. Supposons XTY 8 ďλ2. Alors pour tout β P Rp :

L pβq ´L p0q “ Xβ2 ´ x2XTY, βy ` λ|β|1

Mais par hypothèse :x2XTY, βy ď 2XTY 8|β|1 ď λ|β|1.

Donc L pβq ´L p0q ě 0. De plus il y a égalité si et seulement si :

Xβ2 “ 0 et λ|β|1 “ x2XTY, βy,

si et seulement si :Xβ “ 0 et λ|β|1 “ x2Y, Xβ

loomoon

“0

y,

17

Page 18: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

si et seulement si :β “ 0.

Pour la deuxième assertion, raisonnons par contraposée. Supposons βλ “ 0.Alors les équations normales du Lasso (8) deviennent :

XTY “λ

2z, avec z8 ď 1,

d’où :XTY 8 ď

λ

2.

On peut se demander à quel point la prédiction du Lasso fλ “ Xβλ et la pré-diction fm “ ΠSmY par les moindres carrés sur les variables m P Pptp1, . . . , pquq sé-lectionnés par le Lasso diffèrent. Ce dernier estimateur est appelé le Gauss-Lasso : on faitconfiance au Lasso pour supprimer du modèle les variables explicatives les moins intéres-santes, puis on calcule une prédiction par les moindres carrés en ne prenant en compte queles coefficients pré-sélectionnés.

Pour étudier le Gauss-Lasso, on aura besoin de la pseudo-inverse de Moore-Penrose, qui se déduit de la décomposition en valeurs singulières.

Theorème 2.2 (Décomposition en valeurs singulières). Soit A P Mn,p et soit r son rang.Alors il existe pu1, . . . , urq et pv1, . . . , vrq deux familles orthonormées respectivement deRn et deRp, il existe pσ1, . . . , σrq une suite décroissante de réels et strictement positifs telsque :

A “rÿ

i“1

σiuivTi .

Démonstration. AAT P Mn,n est une matrice symétrique positive semi-définie. D’aprèsle théorème spectral, il existe des réels λ1 ě . . . ě λr ą 0 et une famille orthonorméepu1, . . . , urq dans Rn telle que :

AAT “rÿ

i“1

λiuiuTi . (10)

18

Page 19: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Posons σi “?λi et vi “ 1

σATui P R

p. Alors vi est une famille orthonormée de Rp. Eneffet,

xvi, vjy “1

σ2xATui, A

Tujy

“1

σ2xAATui, ujy

“1

σ2xσ2ui, ujy

“ xui, ujy “ δi,j.

Montrons finalement queřri“1 σiuiv

Ti “ A. En effet,

rÿ

i“1

σiuivTi “

rÿ

i“1

σiui` 1

σuTi A

˘

“`

rÿ

i“1

uiuTi

˘

A.

On reconnaitřri“1 uiu

Ti comme étant la projection orthogonale sur V ectpui, i P t1, . . . , ruq.

Mais grâce à l’écriture (10) de AAT , on voit que V ectpui, i P t1, . . . , ruq “ ImpAAT q. Deplus, un peu d’algèbre linéaire montre que ImpAAT q “ ImpAq. Ainsi :

rÿ

i“1

σiuivTi “ ΠImpAqA “ A.

Corollaire 2.1 (Pseudo-inverse de Moore-Penrose). La matrice A` :“řri“1

1σiviu

Ti vérifie

les propriétés suivantes :

AA` “ ΠImpAq, A`A “ ΠImpAT q.

Démonstration. On a :

AA` “rÿ

i“1

uiuTi

“ ΠImpAq d’après la preuve du théorème (2.2).

On en déduit la seconde inégalité en considérant AT .

Propriété 2.6.

fλ “ fm ´λ

2pXT

mλq`sgnprβλsmλq.

19

Page 20: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Démonstration. Comme pAT q`AT “ ΠImpAq, on a :

pXTmλq`XT

mλXmλ “ Xmλ ,

d’où :

fλ “ Xβλ

“ Xmλrβλsmλ

“ pXTmλq`XT

mλXmλrβλsmλ

D’après les équations normales du Lasso (8) projetées sur le support de βλ :

XTmλXmλrβλsmλ “ XT

mλY ´

λ

2sgnprβλsmλq,

donc :fλ “ pX

Tmλq`XT

mλY ´

λ

2pXT

mλq`sgnprβλsmλq,

mais pXTmλq`XT

mλest le projeté orthogonal sur l’image de Xmλ , c’est donc le projeté or-

thogonal sur V ectpXi, i P mλq “ Smλ , d’où le résultat.

2.6 Propriétés statistiques du Lasso

On aimerait comparer les prédictions issues du lasso fλ “ Xβλ avec le "vraisignal" f˚ “ Xβ˚. Pour cela on a besoin de mesurer l’orthogonalité des colonnes de X .

Définition 2.3. Soit X P Mn,ppRq. La constante de compatibilité de X en β P Rp est :

κpβq “ minνPC pβq

a

|m|Xν

|νm|1,

où m “ supppβq et C pβq “ tν P Rp : 5|νm|1 ą |νmc |1u.

Theorème 2.3 (Borne déterministe). Soit λ ą 0. Alors sur l’ensemble pλ ě 3XT ε8q ona la borne :

Xpβλ ´ β˚q

2ď inf

β‰0

!

Xpβ ´ β˚q2 `λ2

κpβq2|β|0

)

. (11)

Remarque 2.1. La borne (11) est d’autant meilleure que la constante de compatibilitéκpβq, intrinsèque à X , est uniformément grande. Malheureusement elle peut être extrême-ment petite lorsque les colonnes de X sont très corrélées.

20

Page 21: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Démonstration. Les équations normales du Lasso (8) impliquent (en se rappelant que Y “Xβ˚ ` ε) l’existence de z P B|βλ|1 tel que :

2XTpXβλ ´Xβ

˚q ´ 2XT ε` λz “ 0. (12)

En particulier, pour tout β P Rp, si on prend la produit scalaire de βλ´β contre le membrede droite de (12) on obtient :

2xXTpXβλ ´Xβ

˚q, βλ ´ βy ´ 2xXT ε, βλ ´ βy ` λxz, βλ ´ βy “ 0.

D’où :2xXpβλ ´ β

˚q, Xpβλ ´ βqy “ 2xXT ε, βλ ´ βy ´ λxz, βλ ´ βy. (13)

On a besoin de la monotonie de la sous-différentielle :

Lemme 2.5. Soit f : Rp ÞÑ R une fonction convexe. Soit x, y P Rp. Alors pour toutu P Bfpxq et v P Bfpyq, on a :

xu´ v, x´ yy ě 0.

Démonstration du lemme. On a par la définition de la sous-différentielle :

fpyq ě fpxq ` xu, y ´ xy et fpxq ě fpyq ` xv, x´ yy.

En somme ces deux inégalités on obtient directement le résultat.

Faisons disparaître le z dans (13) en utilisant la monotonie de B|β|1. Pour toutz P B|β|1,

xz, βλ ´ βy ě xz, βλ ´ βy,

Donc d’après (13),

@β P Rp, @z P B|β|1, 2xXpβλ´β˚q, Xpβλ´βqy ď 2xXT ε, βλ´βy´λxz, βλ´βy. (14)

Grâce à la formule d’Al-Kashi (ou identité de polarisation) on voit que le membre degauche de (14) se réexprime en terme de normes :

2xXpβλ ´ β˚q, Xpβλ ´ βqy “ Xpβλ ´ β

˚q

2` Xpβλ ´ βq

2´ Xpβ ´ β˚q2. (15)

Fixons maintenant β P Rp ´ t0u. Il y a deux cas à traiter. Premier cas : supposons que laquantité (15) soit négative. Alors :

Xpβλ ´ β˚q

2ď Xpβ ´ β˚q2.

21

Page 22: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Et donc on a directement :

Xpβλ ´ β˚q

2ď Xpβ ´ β˚q2 `

λ2

κpβq2|β|0

Deuxième cas : supposons que la quantité (15) soit strictement positive. On utilise alors lelemme technique suivant :

Lemme 2.6. Soit m “ supppβq. Il existe z P B|β|1, tel que si λ ě 3XT ε8,

1. 2xXT ε, βλ ´ βy ´ λxz, βλ ´ βy ď 2λ|pβλ ´ βqm|1,

2. Si xXpβλ ´ β˚q, Xpβλ ´ βqy ą 0, alors βλ ´ β P C pβq. Autrement dit :

5|pβλ ´ βqm|1 ą |pβλ ´ βqmc |1.

Supposons ce lemme acquis. Alors d’après (15), (13) et la première partie dulemme :

Xpβλ ´ β˚q

2` Xpβλ ´ βq

2ď Xpβ ´ β˚q2 ` 2λ|pβλ ´ βqm|1, (16)

La seconde partie du lemme implique :

κpβq ď

a

|β|0Xpβλ ´ βq

|pβλ ´ βqm|1,

D’où d’après (16) :

Xpβλ ´ β˚q

2` Xpβλ ´ βq

2ď Xpβ ´ β˚q2 ` 2

λa

|β|0κpβq

Xpβλ ´ βq.

Utilisons l’inégalité 2ab ď a2 ` b2 avec a “λ?|β|0

κpβqet b “ Xpβλ ´ βq :

Xpβλ ´ β˚q

2` Xpβλ ´ βq

2ď Xpβ ´ β˚q2 `

λ2|β|0κ2pβq

` Xpβλ ´ βq2,

Finalement :

Xpβλ ´ β˚q

2ď Xpβ ´ β˚q2 `

λ2|β|0κ2pβq

.

Démonstration du Lemme 2.6. On construit z P B|β|1 de la manière suivante :

22

Page 23: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

zj “

$

&

%

sgnpβjq si j P m

sgnpβjq si j R m et βj ‰ 0

0 si j R m et βj “ 0

(17)

Avec ce choix de z on a :

2xXT ε, βλ´βy´λxz, βλ´βy “ 2xXT ε, βλ ´ βyloooooooomoooooooon

ď2XT ε8|βλ´β|1

´λÿ

jPm

zjppβλqj ´ βjq

loooooooooooomoooooooooooon

ďλ|pβλ´βqm|1

´λÿ

jPmc

zjppβλqj ´ βjq

loooooooooomoooooooooon

“|pβλ´βqmc |1

.

En écrivant |βλ´β|1 “ |pβλ´βqm|1`|pβλ´βqmc |1 et en utilisant l’inégalité λ ě 3XT ε8 :

2xXT ε, βλ ´ βy ´ λxz, βλ ´ βy ď5λ

3|pβλ ´ βqm|1 ´

λ

3|pβλ ´ βqmc |1 (18)

ď 2λ|pβλ ´ βqm|1. (19)

Pour la deuxième partie du lemme, on utilise (14) combinée avec l’inégalité (18).

La borne (11) est valable sur l’évènement pλ ě 3XT ε8q. Minorons la probabi-lité de cet évènement. On aura besoin d’une inégalité de concentration sur la loi normale :

Lemme 2.7. Soit Z ãÑ N p0, 1q. Alors :

Pp|Z| ě xq ď e´x2

2 , @x ě 0.

Démonstration. Posons pour t ě 0 la quantité :

φptq “ e´t2

2 ´ Pp|Z| ě tq

“ e´t2

2 ´

c

2

π

ż 8

t

e´x2

2 dx.

Alors φp0q “ 0 et φ est de dérivée :

φ1ptq “ p

c

2

π´ tqe´

t2

2 ,

23

Page 24: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

qui est positive pour t P r0,b

2πs. Ainsi φptq ě 0 pour t P r0,

b

2πs. Maintenant, si t ě

b

:

φptq “ e´t2

2 ´

c

2

π

ż 8

t

e´x2

2 dx

ě e´t2

2 ´

ż 8

t

te´x2

2 dx

ě e´t2

2 ´

ż 8

t

xe´x2

2 dx

“ 0.

Finalement φptq ě t pour tout t ě 0 ce qui démontre le lemme.

L’objectif est de majorer Pp|XT ε|8 ąλ3q :

Pp|XT ε|8 ąλ

3q ď

pÿ

i“1

Pp|XTi ε| ą

λ

3q,

mais XTi ε ãÑ N p0, σ2Xi

2q. Supposons à présent que Xi “ 1 pour tout i et soit Z ãÑ

N p0, 1q Alors :

Pp|XT ε|8 ąλ

3q ď pPp|Z| ą

λ

3σq

ď pe´ λ2

18σ2

“ e´p λ2

18σ2´logppqq

,

où la deuxième inégalité est conséquence du Lemme (2.7). Ainsi en posant λ “ 3σa

2L` 2 logppqavec L ą 0, la borne (11) du théorème précédent est valide avec probabilité au moins1´ e´L.

3 Classification supervisée avec les SVM

On observe des réalisations de variables aléatoires i.i.d pX1, Y1q, . . . , pXn, Ynq PX ˆ t´1, 1u de loi P. On se donne pour objectif de trouver une règle de décision h : X Ñ

t0, 1u afin d’inférer Yn`1 lorsque que Xn`1 est connue.

La résolution d’un tel problème de classification supervisée est par exemple utilepour filtrer les spams d’une boîte mail. On peut s’imaginer que X est alors l’ensemble des

24

Page 25: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

suites de mots, les pXiqni“1 P X n est la liste de tous les messages reçues par une boîte mail

et pYiq est posée par un observateur humain comme étant égale à 1 si Xi est un spam et ´1sinon. La règle de décision h est alors construite à partir des messages passés associés àleur label afin de filtrer prochains messages reçus.

Définition 3.1. Soit h : X Ñ t0, 1u un classifieur (fonction mesurable). Son risque estLphq “ PpY ‰ hpXqq.

Un classifieur est d’autant meilleur que Lphq est petit. Réécrivons L. On observeque Y ‰ hpXq si et seulement si 1

4pY ´ hpXqq2 “ 1. De plus 1 1

4pY´hpXqq2“1 “

14pY ´

hpXqq2. Par conséquent Lphq “ 14ErpY ´ hpXqq2s. Maintenant ErY |Xs est la projection

orthogonale de Y sur le sous-espace L2pΩ, σpXqq des variables aléatoires X-mesurablesde carré intégrable. Donc par le théorème de Pythagore on a :

Lphq “1

4E“

pY ´ ErY |Xsq2‰

`1

4E“

pErY |Xs ´ hpXqq2‰

,

minimale pour h˚pXq “ sgnErY |Xs appelé classifieur de Bayes. Malheureusement P estinconnue en pratique, h˚ n’est pas calculable.

3.1 Analyse discriminante linéaire

En faisant plus de suppositions sur P on peut calculer explicitement ErY |Xs. Onse place dans le cadre où X “ Rd. On suppose que PpY “ kq “ πk pour k P t´1, 1uet que la loi conditionnelle de X sachant Y “ k est une loi normale multidimensionnelleNdpµk,Σq sont la densité est notée fk. Alors d’après la formule de Bayes pour les densités,PpY “ k|X “ xq “ fkpxqπk

f1pxqπ1`f´1pxqπ´1. Par conséquent ErY |Xs “ f1pxqπ1´f´1pxqπ´1

f1pxqπ1`f´1pxqπ´1, d’où

h˚pxq “ sgnpf1pxqπ1 ´ f´1pxqπ´1q.

Ainsi h˚pxq “ 1 si et seulement si logp f1pxqf´1pxq

q ` logp π1π´1q ą 0.

En utilisant la formule explicite :

fkpxq “1

p2πqd2

a

detpΣqexp

´

´1

2px´ µkq

TΣ´1px´ µkq

¯

,

on obtient que h˚pxq “ 1 est équivalent à :

´1

2px´ µ1q

TΣ´1px´ µ1q `

1

2px´ µ´1q

TΣ´1px´ µ´1q ` logp

π1

π´1

q ą 0. (20)

25

Page 26: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Introduisons le produit scalaire sur Rd induit par la matrice symétrique définipositive Σ´1 défini par φΣ´1px, yq “ xTΣ´1y et qΣ´1 la forme quadratique associée. Alors(20) revient à :

1

2

´

qΣ´1px´ µ´1q ´ qΣ´1px´ µ1q

¯

` logpπ1

π´1

q ą 0 (21)

En utilisant la formule de polarisation φpX, Y q “ 14

`

qpX ` Y q ´ qpX ´ Y q˘

avec X “

x´ µ1`µ´1

2et Y “ µ1´µ´1

2on obtient que (21) équivaut à :

φΣ´1px´µ1 ` µ´1

2, µ1 ´ µ´1q ` logp

π1

π´1

q ą 0. (22)

En revenant au produit scalaire usuel sur Rd, grâce à (22) on a :

h˚pxq “ sgn´

φΣ´1px´µ1 ` µ´1

2, µ1 ´ µ´1q ` logp

π1

π´1

q

¯

.

On voit que le h˚ classifie un point dans Rd suivant sa position par rapport à un hyperplanaffine orthogonal au vecteur Σ´1pµ1 ´ µ´1q au sens du produit scalaire usuel. En pratiqueon utilise :

hpxq “ sgn´

φΣ´1px´µ1 ` µ´1

2, µ1 ´ µ´1q ` logp

π1

π´1

q

¯

,

où µk est la moyenne empirique des Xi tels que Yi “ k, la proportion πk est la proportionempirique des Xi labellisés par k et Σ est la matrice de covariance empirique des Xi.

La figure (4) illustre l’analyse discriminante linéaire sur les données des iris deFisher. Ce jeu de données comprend 50 échantillons pour chaqu’une des deux espècesde fleurs d’iris prélevées. A chaque échantillon sont associées deux caractéristiques : lalongueur et la largeur des sépales. Le barycentre des nuages de points de chaque espèce estreprésentée par une étoile. Ici, l’analyse discriminante linéaire est une méthode performantecar les données semblent visuellement être distribuées selon deux lois multinomiales dematrice de covariance très proches.

3.2 Régression logistique

Une autre approche pour résoudre un problème de classification est d’écrire :

ErY |Xs “ PpY “ 1|Xq ´ PpY “ ´1|Xq

“ 2PpY “ 1|Xq ´ 1.

26

Page 27: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

FIGURE 4 – Analyse discriminante linéaire sur les iris de Fisher

D’où :h˚pxq “ sgn

`

PpY “ 1|Xq ´1

2

˘

.

La régression logistique revient finalement à postuler l’existence de α P R et β P Rd telque :

PpY “ 1|X “ xq “exppα ` βTxq

1` exppα ` βTxq. (23)

Une étude de xÑ exppxq1`exppxq

montre que sgnp ex

1`ex´ 1

2q “ sgnpxq, d’où

h˚pxq “ sgnpα ` βTxq.

En pratique, on estime α et β à partir des données par la méthode du maximum de vrai-semblance. En effet, la loi de pY1, . . . , Ynq conditionnelle à pX1, . . . , Xnq est le produit deslois de Yi conditionnellement à Xi. On en déduit que :

pα, βq “ argmaxαPR,βPRd

i“1,Yi“1

exppα ` βTXiq

1` exppα ` βTXiq

i“1,Yi“´1

´

1´exppα ` βTXiq

1` exppα ` βTXiq

¯

.

Les figures (5) et (6) illustrent l’analyse discriminante linéaire et la régressionlogistique sur des données simulées de 100 échantillons issues de deux lois multinomialesdans R2 de matrices de covariance conçues de telle sorte à ce que les directions principalesdes deux distributions soient orthogonales. Ici, l’analyse discriminante linéaire donne un

27

Page 28: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

FIGURE 5 – Analyse discriminante li-néaire

FIGURE 6 – Régression logistique

résultat loin d’être optimal, car l’hypothèse d’égalité des matrices de covariance n’est pasvérifiée. En revanche, la régression logistique, non paramétrique donc plus flexible, réussità séparer les deux classes correctement.

En complément, donnons une justification de la paramétrisation (23). En re-prenant l’idée du modèle linéaire, on aimerait écrire PpY “ 1|Xq comme fonction deα ` βTX . Pour déterminer une telle fonction on utilise la théorie des modèles linéairesgénéralisés, dont on esquisse ici les idées principales, détaillées dans Shao [4].

Supposons Yi sachant Xi prend la valeur 1 avec probabilité pi et ´1 avec proba-bilité 1´ pi. Via un jeu d’écriture, la loi de Yi sachant Xi admet une densité :

fpyiq “ exp´yi logr pi

1´pis ´ logr 1

pip1´piqs

2

¯

, (24)

par rapport à la mesure de comptage sur t´1, 1u.

On pose ηi “ logr pi1´pi

s le "paramètre naturel". La densité se réécrit :

fpyiq “ exp´1

2

`

yiηi ´ ζpηiq˘

¯

, (25)

avec ζpηq “ logr p1`eηq2

eηs. D’après la théorie des modèles exponentiels, µpηiq :“ ζ 1pηiq “

ErYis “ 2pi ´ 1. On postule l’existence d’une fonction "fonction de lien" g bijective telleque gpµpηiqq “ α`βTXi. La régression logistique consiste à supposer que g est la fonctionde lien "canonique", c’est à dire gptq “ µ´1ptq “ logp1`t

1´tq. Dans ces conditions, ηi “

α ` βTXi et donc pi “exppα`βTXiq

1`exppα`βTXiq

28

Page 29: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

3.3 Convexification du problème

Une autre approche, non-paramétrique, consiste à minimiser sur un ensembleF Ă RX de fonctions mesurables une estimation du risque.

Observons que si f P F , alors sgnpfq est un classifieur dont le risque empiriqueest :

Lpfq “1

n

nÿ

i“1

1Yi‰sgnpfpXiqq

“1

n

nÿ

i“1

lpYifpXiqq,

avec lpzq “ 1ză0.

Le classifieur f que l’on retient vérifie alors :

f P argminfPF

Lpfq avec Lpfq “1

n

nÿ

i“1

lpYifpXiqq. (26)

Malheureusement sans hypothèses sur F et l il est difficile de minimiser une telle fonction.L’idée est alors de choisir F un sous-ensemble convexe de RX et choisir l une approxima-tion convexe de z ÞÑ 1ză0.

La technique des machines à support de vecteur, ou SVMs, consiste à prendreF une boule centrée en 0 d’un espace de Hilbert à noyau reproduisant que l’on note H etl’approximation convexe lpzq “ p1´ zq`.

3.3.1 Les espaces de Hilbert à noyau reproduisant

Les espaces de Hilbert à noyau reproduisant sont des espaces fonctionnels parti-culiers générés à partir d’un noyau.

Définition 3.2. Une application k : X ˆ X Ñ R est un noyau sur X si :kpx, yq “ kpx, yq pour tout px, yq P X 2 et si pour tout n P N˚, pour tout pa1, . . . , anq P R

n

et pour tout px1, . . . , xnq P X n

nÿ

i“1

nÿ

j“1

aibjkpxi, xjq ě 0

29

Page 30: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Exemple 3.1. Quelques exemples de noyaux reproduisants sur X “ Rd :— Noyau linéaire : kpx, yq “ xx, yy.— Noyau polynomial de degré D : kpx, yq “ pγxx, yy ` rqd avec γ, r ą 0.— Noyau RBF (radial basis function) : kpx, yq “ e´γx´y

2avec γ ą 0.

Theorème 3.1. Il existe un unique (à isomorphisme près) espace de Hilbert F Ă RX telque

1. @x P X , kpx, .q P F

2. @f P F , fpxq “ xf, kpx, .qyF (Propriété de noyau reproduisant)

Démonstration. Posons Fk “ V ectpkpx, .q, x P X q. Munissons Fk d’une structure d’es-pace préhilbertien. Soit f, g P Fk. Alors il existe ai, bj P R et xi, yj P X tels quef “

řNi“1 aikpxi, .q et g “

řMj“1 bjkpyj, .q. Posons :

xf, gyFk“

Nÿ

i“1

Mÿ

j“1

aibjkpxi, yjq (27)

Montrons que xf, gyFkest bien défini, c’est à dire que cette quantité ne dépend

pas de la représentation de f et g.

Supposons f “řNi“1 aikpxi, .q “

řNi“1 aikpxi, .q et g “

řMj“1 bjkpyj, .q “

řMj“1 bjkpyj, .q. Alors :

Nÿ

i“1

Mÿ

j“1

aibjkpxi, yjq “Nÿ

i“1

ai

Mÿ

j“1

bjkpyj, xiq

loooooomoooooon

gpxiq

Nÿ

i“1

ai

Mÿ

j“1

bjkpyj, xiq

Mÿ

j“1

bi

Nÿ

i“1

aikpxi, yjq

loooooomoooooon

fpyjq

Mÿ

j“1

bi

Nÿ

i“1

aikpxi, yjq “Mÿ

j“1

Nÿ

i“1

aibikpxi, yjq.

30

Page 31: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

xf, gyFkest donc bien défini. Il est clair que la propriété de noyau reproduisant est satisfaite.

Montrons que c’est un produit scalaire.

Il est aisé de constater que x., .yFkest une forme bilinéaire symétrique positive.

Montrons qu’elle est définie. Soit f P Fk et supposons xf, fyFk“ 0. Soit x P X . Alors

comme on sait que x., .yFkest une forme bilinéaire symétrique positive on peut utiliser

l’inégalité de Cauchy-Schwarz :

|fpxq| “ |xf, kpx, .qyFk| ď

b

xf, fyFkxkpx, .q, kpx, .qyFk

. (28)

Donc fpxq “ 0, puis f “ 0.

3.3.2 Formule de représentation

SoitR ą 0 et posons F “ tf P H, f ď Ru une boule du RKHS H. Par dualitéLagrangienne, le problème de minimisation (26) est équivalent à :

f P argminfPH

Lpfq avec Lpfq “1

n

nÿ

i“1

lpYifpXiqq ` λf2. (29)

Une propriété remarquable est que le problème d’optimisation en dimension infinie (29) seramène à un problème en dimension finie sans contrainte de dimension égale au nombred’observations n. En effet, posons V “ V ect

`

pkpXi, .qqni“1

˘

. Ce sous-espace de H est dedimension finie on a la décomposition H “ V k V K. Tout f P H se décompose f “fV ` fV K avec :

fV “nÿ

i“j

βjkpXj, .q.

Par la propriété de noyau reproduisant,

fpXiq “ xf, kpXi, .qy “ xfV , kpXi, .qy “ fV pXiq “

nÿ

j“1

βjkpXj, Xiq.

De plus par le théorème de Pythagore, f2 “ fV 2 ` fV K2. Le problème (29) devient :

f P argminfPH

Lpfq avec Lpfq “1

n

nÿ

i“1

lpYifV pXiqq ` λfV 2` λfV K

2.

Avec cette écriture on comprend que la solution f du problème (29) vérifie fV K “ 0 etdonc f “

řnj“1 βjkpXj, .q. Enfin, f2 “

řni“1

řnj“1 βiβjkpXi, Xjq. On obtient donc la

formule de représentation suivante :

31

Page 32: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

FIGURE 7 – Des hyperplans séparateurs

Propriété 3.1. La solution de (29) vérifie f “řnj“1 βjkpXj, .q avec :

β P argminβPRn

#

1

n

nÿ

i“1

lpYi

nÿ

j“1

βjkpXj, Xiqq ` λnÿ

i“1

nÿ

j“1

βiβjkpXi, Xjq

+

. (30)

On en déduit une autre caractéristique remarquable : un algorithme de minimisa-tion du problème (30) ne fait intervenir les éléments Xi que par l’intermédiaire des quanti-tés kpXi, Xjq.

3.4 Approche géométrique des SVM

On a introduit dans la section précédente les machines à support de vecteurscomme une technique découlant d’une minimisation de risque empirique convexifié. On vavoir ici une approche équivalente, plus géométrique. Ce qui suit est grandement inspiré deMohri [9] et Blanchard, Bousquet, Massart [7].

3.4.1 Cas séparable

On se place dans le cas X “ Rd et on suppose que les observations ppX1, Y1q, . . . , pXn, Ynqqsont linéairement séparables, c’est-à-dire qu’il existe un hyperplan affine deRd séparant lespoints Xi tels que Yi “ 1 de ceux tels que Yi “ ´1. Ceci est équivalent à l’existence de

32

Page 33: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

pw, bq P pRdzt0uq ˆR tel que :

YipwTXi ` bq ą 0, @i P t1, . . . , nu. (31)

Comme l’illustre la Figure 7 ,il existe un nombre infini d’hyperplans vérifiant (31). L’objec-tif des machines à support de vecteur est alors de choisir parmi tous les hyperplans séparantles observations celui qui maximise la plus petite distance euclidienne entre les pXiq

ni“1 et

la droite wTx` b “ 0. On est donc face au problème d’optimisation suivant :

pw˚, b˚q “ argmaxw,b:YipwTXi`bqą0

miniPt1,...,nu

|wTXi ` b|

w

“ argmaxw,b:YipwTXi`bqą0

miniPt1,...,nu

YipwTXi ` bq

w

“ argmaxw,b

miniPt1,...,nu

YipwTXi ` bq

w.

Remarquons que pour tout λ ą 0 :

miniPt1,...,nu

YipwTXi ` bq

w“ min

iPt1,...,nu

YippλwqTXi ` λbq

λw

Par conséquent, si pw˚, b˚q est solution du problème d’optimisation, alors pλw˚, λb˚q égale-ment. Ainsi, nous pouvons restreindre le problème d’optimisation aux pw, bq P pRdzt0uqˆR tels que min

iPt1,...,nuYipw

TXi ` bq “ 1. D’où :

pw˚, b˚q “ argmaxw,b:min

iYipwTXi`bq“1

miniPt1,...,nu

YipwTXi ` bq

w

“ argmaxw,b:min

iYipwTXi`bq“1

1

w

“ argmaxw,b:min

iYipwTXi`bqě1

1

w.

La dernière inégalité étant due au fait que si, en raisonnant par l’absurde, le maximum surtw, b : min

iYipw

TXi ` bq ě 1u était atteint pour un pw, bq tel que miniYipw

TXi ` bq ą 1,

alors en posant λ “ 1miniYipwTXi`bq

Ps0, 1r, on aurait pλw, λbq P tw, b : miniYipw

TXi` bq ě

1u et 1λw

ą 1w

, ce qui est impossible.

33

Page 34: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Finalement, l’hyperplan de marge maximale est défini par le couple pw, bq solu-tion du problème d’optimisation :

Minimiserw,b

1

2w2 (32)

Sous la contrainte YipwTXi ` bq ě 1, @i P t1, . . . , nu. (33)

Pour mieux comprendre la structure de la solution pw˚, b˚q de (34), on introduit le lagran-gien :

Lpw, b, αq “ 1

2w2 ´

nÿ

i“1

αirYipwTXi ` bq ´ 1s

La fonction à minimiserw ÞÑ 12w2 est convexe et les contraintes sont affines. Le théorème

de Karush-Kuhn-Tucker s’applique : il existe α˚ P Rn` tel que au point pw˚, b˚, α˚q :

∇wL “ w˚ ´nÿ

i“1

pα˚qiYiXi “ 0

∇bL “ ´nÿ

i“1

pα˚qiYi “ 0

pα˚qirYipw˚TXi ` bq ´ 1s “ 0, @i. ("Complementary slackness")

La première équation implique que la direction de l’hyperplan séparateur w˚ est combinai-son linéaire des Xi tels que pα˚qi ‰ 0, appelés vecteurs de support. D’après la troisièmeéquation, pα˚qi ‰ 0 seulement si Yipw˚TXi ` bq “ 1. Ainsi, w˚ est combinaison linéairedes vecteurs localisés sur les deux hyperplans wT˚ x` b˚ “ ˘1.

La Figure 8 montre en traits pleins la droite séparatrice de marge maximale dansun problème de classification en deux dimensions. Les deux hyperplans wTx ` b “ ˘0sont tracés en traits interrompus, et les vecteurs de support sont représentés sous la formed’un triangle.

3.4.2 Cas non-séparable

Lorsque les données ne sont pas linéairement séparables, ce qui signifie que pourtout couple pw, bq P pRdzt0uq ˆR, il existe Xi tel que :

YipwTXi ` bq ă 1,

le problème d’optimisation (32) n’admet aucune solution. On peut s’en sortir en relâchantles contraintes et en pénalisant une mesure de la distance transgressée par Xi par rapport à

34

Page 35: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

FIGURE 8 – Les machines à support de vecteurs en action

l’inégalité souhaitée YipwTXi ` bq ě 1. On introduit pour C ě 0 le problème d’optimisa-tion :

Minimiserw,b,ξ

1

2w2 ` C

nÿ

i“1

ξi (34)

Sous la contrainte YipwTXi ` bq ě 1´ ξi, et ξi ě 0, @i P t1, . . . , nu. (35)

Pour comprendre les solutions de (34), on introduit comme dans le cas séparable le lagran-gien :

Lpw, b, ξ, α, βq “ 1

2w2 ` C

nÿ

i“1

ξi ´nÿ

i“1

αirYipwTXi ` bq ´ 1` ξis ´

nÿ

i“1

βiξi.

Comme précédemment le théorème de KKT s’applique : il existe α˚ P Rd` et β˚ P Rd

` telsque au point minimum w˚, b˚, ξ˚ :

∇wL “ w˚ ´nÿ

i“1

pα˚qiYiXi “ 0 (36)

∇bL “ ´nÿ

i“1

pα˚qiYi “ 0 (37)

∇ξL “ C ´ pα˚qi ´ pβ˚qi “ 0 (38)pα˚qirYipw

˚TXi ` bq ´ 1` pξ˚qis “ 0, @i (39)

pβ˚qipξ˚qi “ 0, @i. (40)

Comme dans le cas séparable, (38) montre que w˚ est combinaison linéaire des observa-tions Xi tels que pα˚qi ‰ 0, toujours appelés vecteurs de support. Si pα˚qi ‰ 0, on voit

35

Page 36: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

FIGURE 9 – Différents noyaux pour les SVM

grâce à (39) que Yipw˚TXi ` bq ´ 1 ` pξ˚qi “ 0. A partir de là on distingue deux typesde vecteurs de support : ceux tels que pξ˚qi “ 0 qui sont donc localisés sur les hyperplanswTx ` b “ ˘1, et les outliers, tels que pξ˚qi ą 0 et qui grâce à (40) puis (38) vérifientpα˚qi “ C.

On se restreint à partir de maintenant au cas où b “ 0 que l’on retrouve dans laplupart des études théoriques. On peut maintenant montrer l’équivalence entre la formu-lation des machines à support de vecteurs (34) et celle consistant à minimiser un risqueempirique (26) sur une boule de RKHS. En effet, on remarque que la solution pw˚, ξ˚q de(34) vérifie pξ˚qi “ p1´ Yipw˚qTXiq`. Ainsi le problème (34) est équivalent à :

Minimiserw

1

n

nÿ

i“1

lpYiwTXiq `

1

2nCw2, (41)

avec lpzq “ p1´ zq`. Posons F “ tfw : x P Rd ÞÑ wTx,w P Rdu le RKHS engendré parle noyau surRd défini par kpx, yq “ xTy. Puisque fw2 “ w2, (41) revient au problème :

MinimiserfPF

1

n

nÿ

i“1

lpYifpXiqq `1

2nCf2. (42)

36

Page 37: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Puis par dualité lagrangienne, (42) est, pour un certain R ą 0, équivalent à :

MinimiserfďR

1

n

nÿ

i“1

lpYifpXiqq. (43)

D’où l’équivalence entre l’approche géométrique des machines à support de vecteurs etl’approche par minimisation d’un risque convexifié.

La Figure (9) illustre les SVM sur les données des iris de Fisher avec quatrenoyaux différents.

3.5 Trois résultats importants

Pour trouver une borne sur les erreurs de classification des machines à support devecteurs, on aura besoin de trois résultats.

3.5.1 Inégalité de McDiarmid

Les inégalités de concentration sont des inégalités quantifiant les fluctuations defonctions de variables aléatoires indépendantes. La plus simple d’entre elles est certaine-ment l’inégalité de Markov : soit X une variable aléatoire positive et soit a ą 0, alors :

PpX ą aq ďErXs

a.

De cette inégalité découle aisément l’inégalité de Bienaymé-Tchebychev et une version dela loi faible des grands nombres.

Lorsque X1, . . . , Xn sont des variables aléatoires indépendantes, on a les deuxformules :

V ar´

nÿ

i“1

Xi

¯

nÿ

i“1

V arpXiq,

et

ψřni“1Xi

pλq “nÿ

i“1

ψXipλq,

où ψXpλq “ logEreλXs désigne le logarithme de la fonction génératrice des moments deX. Ces deux observations sont la clé pour accéder à l’inégalité de Hoeffding :

37

Page 38: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Propriété 3.2 (Inégalité de Hoeffding). Soit X1, . . . , Xn des variables aléatoires indépen-dantes bornées :

@i P t1, . . . , nu, ai ď Xi ď bi.

Posons Sn “řni“1Xi. Alors pour tout t ą 0 :

PpSn ´ ErSns ą tq ď exp´

´2t2

řni“1pbi ´ aiq

2

¯

. (44)

Le but de la section qui suit est d’obtenir l’inégalité de McDiarmid, généralisantcelle de Hoeffding.

Theorème 3.2 (Inégalité de McDiarmid). Soit X1, . . . , Xn des variables aléatoires indé-pendantes à valeurs dans un espace mesurable X . Soit F : X n Ñ R une fonction mesu-rable. Supposons qu’il existe δ1, . . . , δn positifs tels que pour tout x1, . . . , xn, x

1i P X ,

|F px1, . . . , x1i, . . . xnq ´ F px1, . . . , xi, . . . , xnq| ď δi. (45)

Alors pour tout t ą 0, on a :

PpF pX1, . . . , Xnq ą ErF pX1, . . . , Xnqs ` tq ď exp´

´2t2

řni“1 δ

2i

¯

.

Remarque 3.1. La condition (45) est appelée la condition des différences bornées.

Remarque 3.2. L’inégalité de Hoeffding (44) découle de l’inégalité de McDiarmid enprenant F px1, . . . , xnq “

řni“1 xi et en remarquant que sous la condition (3.2) on a que la

condition des différentes bornées (45) est satisfaite avec δi “ |bi ´ ai|.

Démonstration. NotonsF “ F pX1, . . . , Xnq. Comme pour démontrer l’inégalité de Hoeff-ding, on commence par faire apparaître une fonction génératrice des moments en utilisantl’inégalité de Markov. Pour λ, t ą 0 :

PpF ą ErF s ` tq “ PpF ´ ErF s ą tq

“ PpλpF ´ ErF sq ą λtq

“ PpeλpF´ErF sq ą eλtq

ď e´λtE“

eλpF´ErF sq‰

.

Pour k “ 1, . . . , n on pose Fk “ σpX1, . . . , Xkq la filtration canonique associée auxpXiq1ďiďn et ∆k “ ErF |Fks´ErF |Fk´1s avec F0 “ tΩ,Hu de telle sorte que ErF |F0s “

ErF s.

38

Page 39: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

En utilisant la somme télescopique F ´ ErF s “řnk“1 ∆k :

PpF ą ErF s ` tq ď e´λtE”

k“1

eλ∆k

ı

. (46)

Nous nous ramenons ainsi à majorer E”

śnk“1 e

λ∆k

ı

.

Si on montre que pour k “ 1, . . . , n et pour tout λ ą 0 on a

Ereλ∆k |Fk´1s ď eλ2δ2k8, (47)

alors c’est fini. En effet on a :

E”

k“1

eλ∆k

ı

“ E”

E“

k“1

eλ∆k |Fn´1

ı

“ E”

n´1ź

k“1

eλ∆kEreλ∆n |Fn´1s

ı

pcarn´1ź

k“1

eλ∆k P Fn´1q

ď eλ2δ2n8E

n´1ź

k“1

eλ∆k

ı

,

d’où après une récurrence et en utilisant (46) :

PpF ą ErF s ` tq ď e´λteλ2řnk“1 δ

2k8.

En prenant λ “ 4třnk“1 δ

2k

qui est le minimum de λ Ñ ´λt ` λ2řnk“1 δ

2k8 on obtient l’in-

égalité de McDiarmid.

Lemme 3.1. Pour tout λ ą 0 et k “ 1, . . . , n,

Ereλ∆k |Fk´1s ď eλ2δ2k8.

Démonstration. (éléments de preuves et notations adaptés de Wainwright [10])

Posons Fk “ FkpX1, . . . , Xkq “ ErF |Fks et Sk, Ik les variables aléatoires défi-nies par :

Sk “ supxPX

FkpX1, . . . , Xk´1, xq ´ ErF |Fk´1s

Ik “ infxPX

FkpX1, . . . , Xk´1, xq ´ ErF |Fk´1s

39

Page 40: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Il est clair que Ik ď ∆k ď Sk.

De plus par indépendance des pXiqni“1 on a

FkpX1, . . . , Xkq “ Enk`1rF pX1, . . . , Xnqs.

où Enk`1 désigne l’espérance en ne considérant seulement les pXk`1, . . . , Xnq comme aléa-toires (voir Le Gall [6] théorème 11.3.4).

Ainsi :

0 ď Sk ´ Ik “ supxPX

FkpX1, . . . , Xk´1, xq ´ infxPX

FkpX1, . . . , Xk´1, xq

“ supxPXEnk`1rF pX1, . . . Xk´1, x,Xk`1 . . . , Xnqs ´ inf

xPXEnk`1rF pX1, . . . Xk´1, x,Xk`1 . . . , Xnqs

ď supx,yPX

ˇ

ˇ

ˇEnk`1

F pX1, . . . Xk´1, x,Xk`1 . . . , Xnq ´ F pX1, . . . Xk´1, y,Xk`1 . . . , Xnq‰

ˇ

ˇ

ˇ

ď δk.

x ÞÑ eλx est convexe donc d’après l’inégalité des trois pentes entre Ik ă Ak ă Sk,

eλ∆k ´ eλIk

∆k ´ IkďeλSk ´ eλIk

Sk ´ Ik,

qui se réécrit :

eλ∆k ď∆k ´ IkSk ´ Ik

eλSk `Sk ´∆k

Sk ´ IkeλIk .

En remarquant que Ik, Sk sont Fk´1-mesurables et que Er∆k|Fk´1s “ 0, on a :

Ereλ∆k |Fk´1s ď E”∆k ´ IkSk ´ Ik

eλSk `Sk ´∆k

Sk ´ IkeλIk

ˇ

ˇ

ˇFk´1

ı

ď ´Ik

Sk ´ IkeλSk `

SkSk ´ Ik

eλIk

“ exp`

φpλpSk ´ Ikqq˘

,

avec :φpxq “

Ikx

Sk ´ Ik` log

´Sk ´ Ikex

Sk ´ Ik

¯

.

On a :

φ1pxq “Ikp1´ e

xq

Sk ´ Ik, φ2pxq “

´IkSkex

pSk ´ Ikexq2.

40

Page 41: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

D’où φp0q “ φ1p0q “ 0 et 0 ď φ2pxq ď 14

car 4ab ď pa ` bq2 pour tout a, b P R. Parl’inégalité de Taylor-Lagrange, pour tout x ą 0 :

φpxq ďx2

2supφ2pxq ď

x2

8.

D’où :Ereλ∆k |Fk´1s ď eλ

2pSk´Ikq28ď eλ

2δ2k8.

Ce qui est l’inégalité souhaitée.

3.5.2 Lemme de symétrisation

La symétrisation est une technique utile pour borner l’espérance d’un supremumde processus empiriques et faire apparaitre une moyenne de Rademacher. (Enoncé et preuveinspirée de Pollard [3])

Theorème 3.3. Soit F un ensemble de fonctions de X dans R. Soit X1, . . . , Xn des va-riables aléatoires i.i.d à valeurs dans X . Soit φ : R Ñ R une fonction convexe croissante.Alors :

E

«

φ´

supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

fpXiq ´ ErfpXqsˇ

ˇ

ˇ

¯

ff

ď EEσ

«

φ´

2supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

σifpXiq

ˇ

ˇ

ˇ

¯

ff

où σi sont des variables aléatoires de Rademacher indépendantes.

Démonstration. Soit X1, . . . , Xn des copies indépendantes de X1, . . . , Xn. Alors :

E

«

φ´

supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

fpXiq ´ ErfpXqsˇ

ˇ

ˇ

¯

ff

“ E

«

φ´

supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

pfpXiq ´ ErfpXiqsq

ˇ

ˇ

ˇ

¯

ff

“ E

«

φ´

supfPF

ˇ

ˇ

ˇEr

1

n

nÿ

i“1

pfpXiq ´ fpXiqq

ıˇ

ˇ

ˇ

¯

ff

ď E

«

φ´

supfPFE”ˇ

ˇ

ˇ

1

n

nÿ

i“1

pfpXiq ´ fpXiqq

ˇ

ˇ

ˇ

ı¯

ff

(Jensen et φ croissante) ď E

«

φ´

supfPFE”ˇ

ˇ

ˇ

1

n

nÿ

i“1

pfpXiq ´ fpXiqq

ˇ

ˇ

ˇ

ı¯

ff

(Jensen et φ croissante)

ď E

«

φ´

E”

supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

pfpXiq ´ fpXiqq

ˇ

ˇ

ˇ

ı¯

ff

41

Page 42: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

ď EEφ´

supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

pfpXiq ´ fpXiqq

ˇ

ˇ

ˇ

¯

. (Jensen)

Maintenant on remarque que σipfpXiq ´ fpXiqqloi“ fpXiq ´ fpXiq. D’où :

E

«

φ´

supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

fpXiq ´ ErfpXqsˇ

ˇ

ˇ

¯

ff

ď EEEσφ´

supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

σipfpXiq ´ fpXiqq

ˇ

ˇ

ˇ

¯

ď EEEσ

”1

2φ´

2supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

σipfpXiq

ˇ

ˇ

ˇ

¯

`1

2φ´

2supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

σipfpXiq

ˇ

ˇ

ˇ

¯ı

“ EEσ

«

1

2φ´

2supfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

σipfpXiq

ˇ

ˇ

ˇ

¯

ff

.

3.5.3 Principe de contraction

Le principe de contraction de Ledoux et Talagrand est utile pour borner desmoyennes de Rademacher de fonctions Lipschitz.

Theorème 3.4. Soit L Ă Rn borné. Soit φ : R Ñ R une fonction α-Lipschitz tel queφp0q “ 0. Alors

EσrsupzPL|

nÿ

i“1

σiφpziq|s ď 2αEσrsupzPL|

nÿ

i“1

σizi|s

Démonstration. Montrons le résultat plus fort : pour toute fonction g : Rn Ñ R, pour toutentier d ď n :

EσrsupzPL

´

gpzq `dÿ

i“1

σiφpziq¯

`s ď αEσrsup

zPL

´

gpzq `dÿ

i“1

σizi

¯

`s

Le théorème suit en prenant d “ n, g “ 0, et en remarquant que |x| “ pxq` ` p´xq`. Deplus, quitte à remplacer φ par φα on peut supposer que φ est 1-Lipschitz.

Prouvons le lemme technique suivant :

42

Page 43: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Lemme 3.2. Soit L Ă Rn et soit φ : R Ñ R une fonction 1-Lipschitz tel que φp0q “ 0.Alors

supz,z1PL

!

pgpzq ` φpz1qq` ` pgpz1q ´ φpz11qq`

)

ď supz,z1PL

!

pgpzq ` z1q` ` pgpz1q ´ z11q`

)

.

Démonstration du lemme technique. On a :

pgpzq`φpz1qq``pgpz1q´φpz11qq` “ maxtgpzq`φpz1q`gpz

1q´φpz11q, gpzq`φpz1q, gpz

1q´φpz12q, 0u.

Majorons le premier terme. Par la propriété de Lipschitz :

gpzq ` gpz1q ` φpz1q ´ φpz11q ď gpzq ` gpz1q ` |z1 ´ z

11|

ď supz,z1PL

tgpzq ` gpz1q ` |z1 ´ z11|u

“ supz,z1PL

tgpzq ` gpz1q ` z1 ´ z11u (par symétrie de z et z1)

ď supz,z1PL

tpgpzq ` z1q` ` pgpz1q ´ z11q`u.

Majorons le deuxième terme (le troisième se majore avec le même argument).

gpzq ` φpz1q “ gpzq ` φpz1q ´ φp0q

ď gpzq ` |z1|

“ pgpzq ` z1q` ` pgpzq ´ z1q`

ď supz,z1PL

tpgpzq ` z1q` ` pgpz1q ´ z11q`u.

On raisonne maintenant par récurrence sur 1 ď d ď n. Pour d “ 1 :

EσrsupzPL

´

gpzq ` σ1φpz1q

¯

`s “

1

2supzPLpgpzq ` φpz1qq` `

1

2supz1PL

pgpzq ´ φpz11qq`

“1

2supz,z1PL

tpgpzq ` φpz1qq` ` pgpzq ´ φpz11qq`u

ď1

2supz,z1PL

tpgpzq ` z1q` ` pgpzq ´ z11q`u (lemme technique)

“ EσrsupzPL

`

gpzq ` σ1z1

˘

`s.

43

Page 44: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Soit maintenant 2 ď d ď n et supposons l’inégalité souhaitée démontrée pour k “

t1, . . . , d ´ 1u. Notons Eσk l’espérance sous σk et Eσ´k l’espérance sous σ1, . . . , σk´1.D’après le théorème de Fubini et en appliquant l’hypothèse de récurrence pour k “ d ´ 1puis k “ 1 :

EσrsupzPL

´

gpzq `dÿ

i“1

σiφpziq¯

`s “ EσdEσ´drsup

zPL

´

gpzq `dÿ

i“1

σiφpziq¯

`s

“ EσdEσ´drsupzPL

´

`

gpzq ` σdφpzdq˘

`

d´1ÿ

i“1

σiφpziq¯

`s

ď EσdEσ´drsupzPL

´

`

gpzq ` σdφpzdq˘

`

d´1ÿ

i“1

σizi

¯

`s

“ Eσ´dEσdrsupzPL

´

`

gpzq `d´1ÿ

i“1

σizi˘

` σdφpzdq¯

`s

ď Eσ´dEσdrsupzPL

´

gpzq `dÿ

i“1

σizi

¯

`s

“ EσrsupzPL

´

gpzq `dÿ

i“1

σizi

¯

`s.

Et le théorème est démontré.

3.6 Propriétés statistiques des SVM

On revient au problème (26). Le but de cette partie est d’obtenir un intervalle deconfiance sur Lpfq “ PpY ‰ sgnfpXqq :

Theorème 3.5. Soit F une boule centrée en 0 et de rayon R ą 0 d’un RKHS Fk denoyau k vérifiant kpx, xq ď 1 pour tout x P Fk. Soit l une fonction convexe, décroissante,positive, α-Lipschitz sur r´R,Rs telle que lpzq ě 1ză0 pour tout z P R. On pose ∆lpRq “lpRq ´ lp´Rq. Le classifieur donnée par (26) est tel que avec probabilité supérieure à1´ e´t :

Lpfq ď Lnpfq `4αR?n`∆lpRq

c

t

2n.

44

Page 45: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Démonstration. On commence par faire le lien avec la théorie des processus empiriques.Si on pose ∆npF q “ sup

fPF

!

ˇ

ˇLnpfq ´ ErlpY fpXqqsˇ

ˇ

)

Lpfq “ Er1Y fpXqă0s

ď ErlpY fpXqqs (car lpzq ě 1ză0)

“ Lnpfq ` ErlpY fpXqqs ´ Lnpfq

ď Lnpfq ` ∆npF q.

On voit que l’on se ramène à l’étude d’un supremum de processus empiriques. La premièreétape est d’utiliser l’inégalité de McDiarmid afin de se concentrer sur l’espérance de cesupremum. Posons :

F : pX ˆ t´1, 1uqn ÝÑ R

`

px1, y1q, . . . , pxn, ynq˘

ÞÝÑ supfPF

!

ˇ

ˇ

1

n

nÿ

j“1

lpyjfpxjqq ´ ErlpY fpXqqsˇ

ˇ

)

,

et vérifions que la condition de différences bornées (45) est vérifiée.Soit

`

px1, y1q, . . . , pxn, ynq˘

P pX ˆ t´1, 1uqn, i P t1, . . . , nu et px1i, y1iq P X ˆ t´1, 1u.

Soit ε ą 0. D’après la définition du supremum, il existe f0 P F tel que :

supfPF

!

ˇ

ˇ

1

n

nÿ

j‰i

lpyifpxiqq `1

nlpy1ifpx

1iqq ´ ErlpY fpXqqs

ˇ

ˇ

)

ď ε`ˇ

ˇ

1

n

nÿ

j‰i

lpyif0pxiqq `1

nlpy1if0px

1iqq ´ ErlpY f0pXqqs

ˇ

ˇ,

D’où :

F`

px1, y1q, . . . , px1i, y

1iq, . . . , pxn, ynq

˘

´ F`

px1, y1q, . . . , pxn, ynq˘

ď ε`ˇ

ˇ

1

n

nÿ

j‰i

lpyif0pxiqq `1

nlpy1if0px

1iqq ´ ErlpY f0pXqqs

ˇ

ˇ

´ˇ

ˇ

1

n

nÿ

j‰i

lpyif0pxiqq `1

nlpyif0pxiqq ´ ErlpY f0pXqqs

ˇ

ˇ,

En utilisant maintenant l’inégalité |a| ´ |b| ď |a´ b| on obtient :

F`

px1, y1q, . . . , px1i, y

1iq, . . . , pxn, ynq

˘

´ F`

px1, y1q, . . . , pxn, ynq˘

ď ε`ˇ

ˇ

ˇ

1

n

`

lpy1if0px1iqq ´ lpyif0pxiqq

˘

ˇ

ˇ

ˇ.

45

Page 46: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Mais pour tout x P X , l’inégalité de Cauchy-Schwarz donne :

|f0pxq| “ |xf0, kpx, .qyF |

ď f0F kpx, .qF

ď Ra

kpx, xq

ď R,

D’oùˇ

ˇ

ˇ

1n

`

lpy1if0px1iqq ´ lpyif0pxiqq

˘

ˇ

ˇ

ˇď

∆lpRqn

. Par conséquent :

F`

px1, y1q, . . . , px1i, y

1iq, . . . , pxn, ynq

˘

´ F`

px1, y1q, . . . , pxn, ynq˘

ď∆lpRq

n.

De la même manière, on peut montrer :

F`

px1, y1q, . . . , pxn, ynq˘

´ F`

px1, y1q, . . . , px1i, y

1iq, . . . , pxn, ynq

˘

ď∆lpRq

n.

Ainsi la condition des différences bornées (45) est vérifiée avec δ “ ∆lpRqn

. Donc d’aprèsl’inégalité de McDiarmid, avec probabilité supérieure à 1´ e´t :

∆npF q ď Er∆npF qs `∆lpRq

c

t

2n.

Écrivons :

Er∆npF qs “ ErsupfPF

ˇ

ˇ

ˇ

1

n

nÿ

i“1

`

lpYifpXiqq ´ lp0q˘

´ E“

lpY fpXqq ´ lp0q‰

ˇ

ˇ

ˇs.

En utilisant le lemme de symétrisation on a la majoration :

Er∆npF qs ď2

nEEσrsup

fPF

ˇ

ˇ

nÿ

i“1

σiplpYifpXiqq ´ lp0qqˇ

ˇs

ď2

nmax

yiPt´1,1umaxxiPX

EσrsupfPF

ˇ

ˇ

nÿ

i“1

σiplpyifpxiqq ´ lp0qqˇ

ˇs.

Puis par contraction (avec φpzq “ lpzq ´ lp0q) :

Er∆npF qs ď4α

nmax

yiPt´1,1umaxxiPX

EσrsupfPF

ˇ

ˇ

nÿ

i“1

σiyifpxiqˇ

ˇs

“4α

nmaxxiPX

EσrsupfPF

ˇ

ˇ

nÿ

i“1

σifpxiqˇ

ˇs (car σiyiploiq“ σi).

46

Page 47: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

En utilisant la propriété de noyau reproduisant :

ˇ

ˇ

ˇ

nÿ

i“1

σifpxiqˇ

ˇ

ˇ“

ˇ

ˇ

ˇ

nÿ

i“1

σixf, kpxi, .qyFk

ˇ

ˇ

ˇ

ˇ

ˇ

ˇxf,

nÿ

i“1

σikpxi, .qyFk

ˇ

ˇ

ˇ

ď Rnÿ

i“1

σikpxi, .qFk.

En utilisant l’inégalité de Jensen avec x ÞÑ x2, on obtient :

EσrsupfPF

ˇ

ˇ

nÿ

i“1

σiplpyifpxiqq ´ lp0qqˇ

ˇs ď REσrnÿ

i“1

σikpxi, .qFks

ď R

d

Eσr

nÿ

i“1

σikpxi, .q2Fks.

Mais en réutilisant la propriété de noyau reproduisant :

nÿ

i“1

σikpxi, .q2Fk“

nÿ

i,j“1

σiσjkpxi, xjq.

D’où en utilisant Eσrσiσjs “ δi,j :

Eσr

nÿ

i“1

σikpxi, .q2Fks “

nÿ

i“1

kpxi, xiq

ď n.

Donc :Er∆npF qs ď

4αR?n,

et le théorème est démontré.

4 Annexe : Symétrisation et inégalité DKW

On a vu dans la démonstration du Théorème (3.5) l’intérêt de la symétrisationdans le but de faire apparaître une moyenne de Rademacher. Illustrons ce procédé par unepreuve rapide d’une inégalité du type DKW :

47

Page 48: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Theorème 4.1 (Dworetzky-Kiefer-Wolfowitz). Soit F la fonction de répartition d’une loisur R et Fnpxq “ 1

n

řni“1 1Xiďx la fonction de répartition empirique. On note Dn “ F ´

Fn8 la statistique de Kolmogorov-Smirnov. Alors :

@ε ą 0, PpDn ą εq ď 2e´2nε2 .

L’inégalité que l’on va démontrer est une version plus faible (voir Boucheron[11]) : si F est continue, alors

@ε ą 0, PpDn ě εq ď 4e´nε2

8 .

On commence par remarquer que comme F est continue,

Dn “ supxPR

ˇ

ˇ

ˇ

1

n

nÿ

i“1

1Xiďx ´ F pxqˇ

ˇ

ˇ

(loi)“ sup

uPr0,1s

ˇ

ˇ

ˇ

1

n

nÿ

i“1

1Uiďu ´ uˇ

ˇ

ˇ,

où les pUiqni“1 sont i.i.d de loi uniforme sur r0, 1s. Ainsi on peut sans perte de généralitétravailler sur les pUiqni“1.

Grâce à l’inégalité de Markov on a :

@λ ą 0, PpDn ě εq ď e´λεEreλDns.

Majorons EreλDns “ Erexppλ supuPr0,1s

ˇ

ˇ

1n

řni“1 1Uiďu´ u

ˇ

ˇqs. On voit qu’on est dans

le cadre d’application du lemme de symétrisation avec φ : x ÞÑ exppλxq et F “ tfu :x ÞÑ 1xďu, u P r0, 1su. D’où

EreλDns ď EEσrexpp supuPr0,1s

2λˇ

ˇ

1

n

nÿ

i“1

σi1Uiďuˇ

ˇqs

“ EEσr supuPr0,1s

expp2λˇ

ˇ

1

n

nÿ

i“1

σi1Uiďuˇ

ˇqs.

48

Page 49: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Sous la première espérance, les pUiqni“1 sont distincts presque sûrement. On notepUpiqq

ni“1 les statistiques d’ordre associées. Remarquons que lorsqu’on fait parcourir u dans

r0, 1s, le vecteur p1U1ďu, . . . ,1Unďuq ne peut prendre qu’au plus n ` 1 valeurs différentes.En fait :

supuPr0,1s

exp`

2λˇ

ˇ

1

n

nÿ

i“1

σi1Uiďuˇ

ˇ

˘

“ max0ďkďn

`

expp2λ|1

n

kÿ

i“1

σpiq|q˘

,

où σpiq représente le σ associé à Upiq (et non pas la statistique d’ordre i de σ). Par indépen-dance des Ui et σi cette dernière quantité est égale en loi à :

max0ďkďn

`

expp2λ|1

n

kÿ

i“1

σi|q˘

.

C’est une variable aléatoire positive, donc :

max0ďkďn

`

expp2λ|1

n

kÿ

i“1

σi|q˘

s “

ż `8

0

max0ďkďn

`

expp2λ|1

n

kÿ

i“1

σi|q˘

ě a¯

da.

Pour a ą 0 fixé, coupons l’évènement!

max0ďkďn

`

expp2λ| 1n

řki“1 σi|q

˘

ě a)

en considérant

le premier k P t0, . . . , nu tel que expp2λ| 1n

řki“1 σi|q ě a :

!

max0ďkďn

`

expp2λ|1

n

kÿ

i“1

σi|q˘

ě a)

“ğ

0ďkďn

Ak.

Avec Ak “!

expp2λ| 1n

řki“1 σi|q ě a et expp2λ| 1

n

řji“1 σi|q ă a @j ă k

)

.

Ppmax0ďkďn

`

expp2λ|kÿ

i“1

σi|q˘

ě aq “nÿ

k“0

PpAkq

“ 2nÿ

k“0

PpAkq1

2.

D’après la théorie des marches aléatoires, Ppexpp2λ| 1n

řni“1 σi|q ě a|Akq ě

12. D’où :

Ppmax0ďkďn

`

expp2λ|1

n

kÿ

i“1

σi|q˘

ě aq “ 2nÿ

k“0

PpAkq1

2

ď 2nÿ

k“0

PpAkqPpexpp2λ|1

n

nÿ

i“1

σi|q ě a|Akq

“ 2Ppexpp2λ|1

n

nÿ

i“1

σi|q ě aq.

49

Page 50: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Ainsi en intégrant entre a “ 0 et `8 :

max0ďkďn

`

expp2λ|1

n

kÿ

i“1

σi|q˘

s ď 2Eσrexpp2λ|1

n

nÿ

i“1

σi|qs.

Maintenant remarquons que pour tout x P R on a e|x| ď ex`e´x d’où si X est une variablealéatoire symétrique : Ere|X|s ď 2EreXs. Donc :

2Eσrexpp2λ|1

n

nÿ

i“1

σi|qs ď 4Eσrexpp2λ1

n

nÿ

i“1

σiqs

ď 4e2λ2n.

D’où PpDn ě εq ď 4 expp´λε` 2λ2

nq. En prenant λ “ nε

4on a l’inégalité attendue.

50

Page 51: Régression et classification convexifiéesamyclementz.fr/pdf/memoirem1.pdf1 Introduction Les idées et les résultats développés tout au long de ce rapport sont, dans l’essen-tiel,

Références

[1] Claude BERNARD. Introduction à l’étude de la médecine expérimentale. Ch. Dela-grave, 1898.

[2] William B KANNEL et al. “Factors of risk in the development of coronary heartdisease—six-year follow-up experience : the Framingham Study”. In : Annals ofinternal medicine 55.1 (1961), p. 33–50.

[3] David POLLARD. “Empirical processes : theory and applications”. In : NSF-CBMSregional conference series in probability and statistics. JSTOR. 1990, p. i–86.

[4] Jun SHAO. Mathematical Statistics. Springer Science & Business Media, 2003.

[5] Bradley EFRON et al. “Least angle regression”. In : The Annals of statistics 32.2(2004), p. 407–499.

[6] Jean-François LE GALL. “Intégration, probabilités et processus aléatoires”. In : EcoleNormale Supérieure de Paris (2006).

[7] Gilles BLANCHARD, Olivier BOUSQUET, Pascal MASSART et al. “Statistical per-formance of support vector machines”. In : The Annals of Statistics 36.2 (2008),p. 489–531.

[8] Christophe GIRAUD. Introduction to high-dimensional statistics. Chapman et Hall/CRC,2014.

[9] Mehryar MOHRI, Afshin ROSTAMIZADEH et Ameet TALWALKAR. Foundations ofmachine learning. MIT press, 2018.

[10] Martin J. WAINWRIGHT. High-Dimensional Statistics : A Non-Asymptotic View-point. Cambridge Series in Statistical and Probabilistic Mathematics. CambridgeUniversity Press, 2019. DOI : 10.1017/9781108627771.

[11] Stéphane BOUCHERON. “Symétrisation, une illustration”. In : ().

51