Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon...

165
Apprentissage supervis´ e Aur´ elien Garivier [email protected] 12 et 13 juin 2013

Transcript of Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon...

Page 1: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Apprentissage supervise

Aurelien Garivier

[email protected]

12 et 13 juin 2013

Page 2: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Roadmap

1 Qu’est-ce que l’apprentissage supervise ?Presentation de la problematiqueLes regles de classification/regressionLa methodes des k plus proches voisins

2 Choix de modele et fleau de la dimension

3 Regression logistique

4 Arbres de decision

5 Reseaux de neurones

6 Agregation de modelesSuper-learningBagging, Boosting, Random Forest

7 Support Vector Machines

8 Complements

Page 3: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Qu’est-ce que l’apprentissage ?

Apprentissage (machine learning) = discipline visant a la constructionde regles d’inference et de decision pour le traitement automatique desdonnees.

Variantes : machine learning, fouille de donnees (data-mining).

SAS Entreprise Miner vendu avec le slogan :

Data Mining

Comment trouver un diamant dans un tas decharbon sans se salir les mains

Page 4: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Trois grands types d’apprentissage

1 Apprentissage supervise :A partir d’un echantillon d’apprentissageDn =

(x1, y1), . . . , (xn, yn)

, inferer la relation entre x et y.

Synonymes : discrimination, reconnaissance de formes

Voc : xi = caracteristique = feature = variable explicative

2 Apprentissage non supervise :A partir d’un echantillon d’apprentissage Dn =

x1, . . . , xn ⊂ X ,

partionner X en classes pertinentes.

Voc : parfois appele ‘Classification’ en francais (jamais en

anglais)

3 Apprentissage sequentiel :A chaque date n, prendre une decision a l’aide des donnees passees.

Page 5: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Differentes approches :

Approche structurelle, logique et logique floue.

Apprentissage statistique : modelisation probabiliste desdonnees a des fins instrumentales.

Apprentissage seq. robuste (theorie des jeux, optim. convexeseq.).

Dans tous les cas :

science relativement recente

a la frontiere des mathematiques et de l’informatique (etintelligence artificielle)

en evolution rapide et constante avec les technologies =

nouveaux moyens (de calcul)nouveaux problemes...

Page 6: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Problemes d’apprentissage supervise

Detecteur de spam

Risque de credit

Prediction des pics d’ozone

Aide au diagnostic medical (ex : Breast Cancer)

Aide au pilotage

Moteurs de recommandation, apprentissage sur les graphes

etc. . .

Page 7: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Algorithme de d’apprentissage

Cadre classique (batch) :

Donnees : echantillon d’apprentissage (xk, yk)1≤k≤n constitued’observations que l’on suppose representatives etsans lien entre elles.

Objectif : predire les valeurs de y associees a chaque valeurpossible de x ∈ X .

Classification : Y discret (typiquement, binaire) pour chaquevaleur de x ∈ X , il faut predire la classe la plussouvent associee.

Regression : Y continu, voire plus (fonctionnel).

Regle de classification : a partir de l’echantillon d’apprentissage,construire fn : X → Y associant, a chaque entreepossible x, la classe y predite pour elle.

Page 8: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Apprentissage vs. Statistiques ?

Les donnees sont des realisations de v.a. iid de meme loi que

(X,Y ) ∼ P(X,Y ) ∈MModele instrumental : on ne pense pas que ca soit vrai, ni queP ∈MPas de “vrai modele”, de “vraies valeurs du parametre”, etc.

Consistance statistique sans interet

Souvent ( 6= etude statistique) donnees disponibles avantintervention du statisticien (malheureusement)

Tous les coups sont permis, seul critere = efficacite predictive

Classification :

Rn = E(X1,Y1),...,(Xn,Yn)

[P(X,Y )(fn(X) 6= Y )

].

Regression : typiquement

Rn = E(X1,Y1),...,(Xn,Yn)

[E(X,Y )

((Y − fn(X))2

) ].

Page 9: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Parametrique vs. Non-parametrique !

Theoriquement, quand un modele est vrai il est optimal del’utiliser :

Theoreme de Gauss-Markov : parmi les estimateurs sans biais,celui des moindres carres est de variance minimaleMAIS on peut avoir interet a sacriier du biais contre de lavariance !

=⇒ Meme quand il y en a un ‘vrai’ modele, on n’a pas forcementinteret a l’utiliser

Des approches non-parametriques peuvent avoir une efficaciteproche :

cf Test de Student vs Mann-Whitneyexemple : k-NN versus regression polynomiale

... et ils sont beaucoup plus robustes !

Page 10: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Exemple de probleme de classification

Objectif : predire qui gagne plus de 50k$ a partirde donnees de recensement.

20 40 60 80

510

15

salaire (bleu: >=50K$, rouge: <50k$)

age

educ

atio

n.nu

m

Page 11: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Exemple de probleme de regression

Predire l’age d’un ormeau (abalone) a partir de sataille, son poids, etc.

0.1 0.2 0.3 0.4 0.5 0.6

0.0

0.2

0.4

0.6

0.8

1.0

âge des ormaux (vert = 1 anneau, rouge = 29 anneaux)

diameter

shel

l.wei

ght

Page 12: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Stratégie du Data-Mining

Nous disposons d’un ensemble d’observations. Les caractéristiquesou variables X = (X1, . . . ,Xp) dites explicatives ont été observées surun ensemble de n objets, individus ou unités statistiques.

Premier travail : mener une exploration statistique des données.I allure des distributions,I présence de données atypiques,I corrélations et cohérence,I transformations éventuelles des données,I description multidimensionnelle,I classification.

Deuxième travail : modélisation statistique ou encored’apprentissage pour la prédiction d’un variable cible Y par lesvariables explicatives (X1, . . . ,Xp).

L’enchaînement de ces étapes (exploration puis apprentissage)constitue le fondement de la fouille de données.

Apprentissage statistique

Page 13: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Stratégie du Data-Mining

But : Déterminer la stratégie à mettre en oeuvre pour aboutir au bonapprentissage ou au bon modèle prédictif à partir des donnéesobservées.

Contrairement à une démarche statistique traditionnelle dans laquellel’observation des données est intégrée à la méthodologie(plannification expérimentale), les données sont ici préalable àl’analyse.

Néanmoins, il est clair que les préoccupations liées à leur analyse et àson objectif doivent intervenir le plus en amont possible pour s’assurerquelques chances de succès.

Apprentissage statistique

Page 14: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Stratégie du Data-Mining

Étapes de la fouille de données1 Extraction des données avec ou sans apprentissage : techniques

de sondage appliquées ou applicables à des bases de données.

2 Exploration des donnéesI pour la détection de valeurs aberrantes ou seulement atypiques,

d’incohérences,I pour l’étude des distributions, des structures de corrélation,

recherche de typologies,I pour des transformations de données.

3 Partition aléatoire de l’échantillon (apprentissage, validation, test)en fonction de sa taille et des techniques qui seront utilisées pourestimer une erreur de prédiction en vue des choix de modèles,choix et certification de méthode.

Apprentissage statistique

Page 15: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Stratégie du Data-Mining

Étapes de la fouille de données (suite)4. Pour chacune des méthodes considérées : modèle linéaire

général (gaussien, binomial ou poissonien), discriminationparamétrique (linéaire ou quadratique) ou non-paramétrique, kplus proches voisins, arbre, réseau de neurones (perceptron),support vecteur machine, combinaison de modèles (bagging,boosting)

I estimer le modèle pour une valeur donnée d’un paramètre decomplexité : nombre de variables, de voisins, de feuilles, deneurones, durée d’apprentissage, largeur de fenêtre...

I optimiser ce paramètre (sauf pour les combinaisons de modèlesaffranchies des problèmes de sur-apprentissage) en fonction de latechnique d’estimation de l’erreur retenue : échantillon devalidation, validation croisée, approximation par pénalisation del’erreur d’ajustement.

Apprentissage statistique

Page 16: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Stratégie du Data-Mining

Étapes de la fouille de données (suite et fin)5. Comparaison des modèles optimaux obtenus (un par méthode)

par estimation de l’erreur de prédiction sur l’échantillon test ou, sila présence d’un échantillon test est impossible, sur le critère depénalisation de l’erreur (Akaike par exemple) s’il en existe uneversion pour chacune des méthodes considérées.

6. Itération éventuelle de la démarche précédente (validationcroisée), si l’échantillon test est trop réduit, depuis l’étape 3.Partitions aléatoires successives de l’échantillon pour moyennersur plusieurs cas l’estimation finale de l’erreur de prédiction ets’assurer de la robustesse du modèle obtenu.

7. Choix de la méthode retenue en fonction de ses capacités deprédiction, de sa robustesse mais aussi, éventuellement, del’interprétabilité du modèle obtenu.

Apprentissage statistique

Page 17: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Explicatives L’ensemble des p variables explicatives ou predictives est note X, ilest constitue de variables

XR toutes quantitatives (rq : variable explicative qualitative a2 modalites (0,1) peut etre consideree comme quantitative)XE toutes qualitatives,XR∪E un melange de qualitatives et quantitatives.

A expliquer La variable a expliquer ou a predire ou cible (target) peut etre

Y quantitative,Z qualitative a 2 modalites,T qualitative.

1 Modele lineaire generalise

RLM XR et Y

ANOVA XE et Y

ACOVA XR∪E et Y

Rlogi XR∪E et Z

Lglin XT et T

2 Analyse discriminante

ADpar/nopar XR et T

3 Classification and regression Tree

ArbReg XR∪E et Y

ArbCla XR∪E et T

4 Reseaux neuronaux

percep XR∪E et Y ou T

5 Agregation de modeles

Bagging XR∪E et Y ou TRandFor XR∪E et Y ou TBoosting XR∪E et Y ou T

6 Support Vector Machine

SVM-R XR∪E et YSVM-C XR∪E et T

Page 18: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Bibliographie - Ressources

Pattern Classification (2001) - Wiley Interscience, R. Duda, P.Hart, D. Stork

The Elements of Statistical Learning (2001) - Springer, T.Hastie, R. Tibshirani, J. FriedmanDisponible en ligne : http://www-stat.stanford.edu/

~tibs/ElemStatLearn/

Data Mining - Technip, S. Tuffery

Cours en ligne de Andrew Ng (Stanford) :https://www.coursera.org/course/ml

http://wikistat.fr/

Base de donnees de benchmarking :http://archive.ics.uci.edu/ml/

Page 19: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Presentation de la problematique

Logiciels

Reference :

http://cran.r-project.org/

The R Project for Statistical Computing

Avantages : libre, ouvert, bien documente, a la pointe de larecherche

Inconvenients : pas ‘presse-bouton’, syntaxe, pas tres rapide(MAIS extensions en C possibles !)

Aide en ligne + google indispensables : logiciel vivant !

Alternatives :

Tous les Data Managers s’y mettent (SAS, Oracle, IBMDataminer...)

Quelques outils dedies faciles a utiliser, par exemple See5/C5.0http://www.rulequest.com/see5-info.html

Page 20: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Les regles de classification/regression

Roadmap

1 Qu’est-ce que l’apprentissage supervise ?Presentation de la problematiqueLes regles de classification/regressionLa methodes des k plus proches voisins

2 Choix de modele et fleau de la dimension

3 Regression logistique

4 Arbres de decision

5 Reseaux de neurones

6 Agregation de modelesSuper-learningBagging, Boosting, Random Forest

7 Support Vector Machines

8 Complements

Page 21: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Les regles de classification/regression

Classification multi-classePour certaines regles de classification, extension possibledirectement (exemple : kNN, regression logistique).Sinon, deux possibilites de se ramener a la classificationbinaire :

OvA (One vs. All) Pour chaque classe, construire unclassifieur pour discriminer entre cette classe ettout le reste.Defaut : classes souvent tres desequilibrees (aprendre en compte)

AvA (All vs. All) Pour chaque paire de classes(C1, C2), construire un classifieur pourdiscriminer entre c1 et C2.A priori, ≈ n2/2 classifieurs MAIS classifs entrepaires plus rapides ET classes equilibrees =⇒souvent plus rapide.

Puis Error-Correcting Output Codes, typiquement : votemajoritaire

Page 22: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Les regles de classification/regression

Regles de classification binaires aleatoires

La regle randomisee : fn(x) = 1 avec probabilite 1/2 donne labonne reponse une fois sur 2 !

La regle constante classifiant toujours dans la classe qui a laprobabilite p la plus grande se trompe avec probabilite1− p < 1/2.

Page 23: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Les regles de classification/regression

Regle optimale : Erreur de Bayes

Theoreme :

La meilleure regle possible est la regle de Bayes :

en classification : avec Y = 0, 1 etη(x) = P (Y = 1|X = x) :

f∗(x) = 1η(x) > 1/2 .

en regression : avec Y = R et la perte quadratique :

f∗(x) = E[Y |X = x] .

Probleme : on ne connaıt jamais P , donc on ne peut pas lacalculer.

Attention : le risque de la regle de Bayes n’est pas nul !

Page 24: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Les regles de classification/regression

Donnees simulees

Pour controler la qualite d’un algorithme, on est donc amenea utiliser des modeles generatifs et a manipuler des donneessimulees.

Sert a comprendre ce qu’on peut attendre (ou pas) desalgorithmes d’apprentissage.

Exemple : Sachant X = (age, etudes), Y suit une loi de

Bernoulli de parametre max( etudes20 − (age−45)2500 , 0).

Avantage : on peut calculer la regle de Bayes (et visualiser lafrontiere de Bayes).

Page 25: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Les regles de classification/regression

Exemple : salaires

20 40 60 80

510

15

salaire (bleu: >=50K$, rouge: <50k$)

age

educ

atio

n.nu

m

20 30 40 50 60 70 80

510

15

données simulées (bleu: >=50K$, rouge: <50k$)

age

educ

atio

n.nu

m

Page 26: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Les regles de classification/regression

Il n’y a pas de meilleure methode !

Chacune est plus ou moins adaptee au probleme considere, ala nature des donnees, aux proprietes de la relation entredescripteurs et variable expliquee...

Il faut apprendre les qualites et les defauts de chaque methode

Il faut apprendre a experimenter pour trouver la pluspertinentes

L’estimation de la qualite des methodes est donc centrale(mais pas toujours evidente)

Page 27: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? Les regles de classification/regression

Qu’est-ce qu’un bon algorithme d’apprentissage ?

Interpretabilite : la regle de classification est ‘comprehensible’

Critique : fournit un score en classification, un intervalle enregression

Consistance : convergence vers l’erreur bayesienne : quand n tendvers l’infini, fn tend vers la regle de Bayes

Minimax : cette convergence est la plus rapide possible

Non-asymptotique : garanties de performance pour n donne

Parameter-free : Parametrage automatique

Vitesse : complexite lineaire, possibilite de paralleliser

Online : mise a jour sequentielle

Page 28: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Roadmap

1 Qu’est-ce que l’apprentissage supervise ?Presentation de la problematiqueLes regles de classification/regressionLa methodes des k plus proches voisins

2 Choix de modele et fleau de la dimension

3 Regression logistique

4 Arbres de decision

5 Reseaux de neurones

6 Agregation de modelesSuper-learningBagging, Boosting, Random Forest

7 Support Vector Machines

8 Complements

Page 29: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Definition

Regle des k plus proches voisins : pour toutx ∈ X , trouver ses plus proches voisinsx(1), . . . , x(k)

classification :

fn(x) = argmaxy∈Y

k∑

j=1

1y(j) = y

regression :

fn(x) =1

k

k∑

j=1

y(j)

Page 30: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Visualisation d’une regle k-NN

Page 31: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Proprietes de k-NN

Qualites :

simplicite

interpretabilite ( ?)

pas de consistance (quel que soit k)

MAIS asymptotiquement erreur au plus 2x superieure a laregle de Bayes.

possibilite de faire croıtre k avec n, consistance (theorique)par exemple pour k = log(n)

Parametrage :

quelle metrique sur X ?

=⇒ au minimum, normaliser les variables (pb pour les qualitatives)

Quelle valeur de k choisir ?

Page 32: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Qualites de kNN

Interpretabilite : OUI et NON

Critique : OUI mais pas tres fiable

Consistance : NON mais possible si k = log(n) (par exemple)

Minimax : NON

Parameter-free : NON

Vitesse : OUI et NON, implementation possible en O(n log n)

Online : OUI

Page 33: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Sur-apprentissage

Page 34: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Sur-apprentissage

On dit qu’une regle de classification est en sur-apprentissagesi elle “colle trop” aux donnees d’entraınement.

Le sur-apprentissage apparaıt facilement dans les modelescomplexes, quand on cherche a apprendre trop de choses parrapport a la richesse des donnees disponibles.

L’inverse du sur-apprentissage est le “sous-apprentissage”(pas une notion aussi claire) : il consiste a utiliser un modeletrop grossier.

Le sur-apprentissage est plus trompeur, car l’ajustement auxdonnees d’entraınement paraıt tres bon !Erreur d’apprentissage faible, ex : R2 en ajustement lineaire.

Beaucoup de methodes d’apprentissage font intervenir un ouplusieurs parametres. Suivant la valeur de celui-ci, on peuttomber dans le sur-apprentissage : il faut ajuster lesparametres pour l’eviter.

Page 35: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Equilibre biais-variance

On peut souvent decomposer le risque d’une methode commesomme de deux termes :

Decomposition biais-variance

risque = (variabilite +) approximation + estimation

Les deux types d’erreur varient en sens contraire avec lesparametres.

L’objectif est de trouver un bon equilibre entre les deux typesd’erreur afin de minimiser leur somme.

De maniere generale il faut preferer les modeles parcimonieux.

Page 36: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Qu’est-ce que l’apprentissage supervise ? La methodes des k plus proches voisins

Validation croisee

Pour ajuster les parametres, il existedes methodes structurelles (ex : criteres AIC, BIC, etc.) ;des methodes de validation sur les donnees (ex : echantillon detest, validation croisee).

Methode 0 : decoupage train/testInconvenient : on apprend sur peu de donnees

Solution tres souvent adoptee : validation croisee

Page 37: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Choix de modele et fleau de la dimension

Curse of dimensionality (Bellman)

Dans [0, 1]d, combien de points doit contenir une grille regulierepour que tout point ait un voisin de la grille au plus a distance 0.1 ?

d = 1 : 5 points0.1 0.3 0.5 0.7 0.9

d = 2 : 49 points

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

d = 10 : 976562500000 points

d = 20 : 976562500000000000000000000 points

Page 38: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Choix de modele et fleau de la dimension

Modele plus riche = meilleur ?

Exemple : regression polynomiale

Yi = f

(i

n

)+ εi , εi ∼ N (0, σ2)

f fonction reguliere (par exemple polynomiale)

estimation par regression polynomiale

=⇒ le meilleur modele n’est pas le plus gros

=⇒ si f est polynomiale, son degre ne donne pas non plus lasolution

=⇒ plus le nombre d’observation est grand, plus on peutconsiderer des modeles riches

des methodes non basees sur des modeles donnent aussid’excellents resultats (ex : k-NN)

Page 39: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

PLAN

Introduction

Odds

Modélisation d’une variable qualitative à 2 modalités

Modèle binomial

Choix de modèle

Régression logistique

Page 40: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Introduction

Objectif : Explication d’observations constituées d’effectifs.

Les lois concernées sont discrètes et associées à desdénombrements :

loi de Poissonloi binomialeloi multinomiale.

Tous ces modèles appartiennent à la famille du modèle linéairegénéral et partagent à ce titre beaucoup de concepts : familleexponentielle, estimation par maximum de vraisemblance, tests,diagnostics, résidus.

Régression logistique

Page 41: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Odds

Soit Y une variable qualitative à m modalités. On désigne la chance oul’odds de voir se réaliser la jème modalité plutôt que la kème par lerapport

Ωjk =πj

πk,

où πj est la probabilité d’apparition de la jème modalité.

Cette quantité est estimée parnj

nkdes effectifs observés sur un

échantillon.

Si Y est une variable de Bernoulli de paramètre π, alors l’odds est égalà

π

1− π , la cote ou chance de gain.

Régression logistique

Page 42: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Modélisation d’une variable qualitative à 2 modalités

Soit Y une variable qualitative à 2 modalités : 1 ou 0, succès ou échec,présence ou absence de verglas...

Les modèles de régression linéaire adaptés à l’explication d’unevariable quantitative ne s’appliquent plus directement car le régresseurlinéaire usuel Xβ ne prend pas des valeurs simplement binaires.

Objectif : Adapter la modélisation linéaire à cette situation encherchant à expliquer les probabilités

π = P(Y = 1) ou 1− π = P(Y = 0)

ou plutôt une transformation de celles-ci, par l’observation conjointedes variables explicatives.

Idée : Faire intervenir une fonction réelle monotone g opérant de [0; 1]dans R et chercher un modèle linéaire de la forme

g(π) = x′β.

Régression logistique

Page 43: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Modélisation d’une variable qualitative à 2 modalités

Plusieurs possibilités :probit : g est la fonction inverse de la fonction de répartition d’uneloi normale, mais son expression n’est pas explicite.log-log : g(π) = ln[− ln(1− π)], mais cette fonction estdissymétrique.

logit : g(π) = logit(π) = ln(

π

1− π

)avec g−1(x) =

ex

1 + ex .

La régression logistique s’interprète comme la recherche d’unemodélisation linéaire du "log odds".

On va chercher β tel que

πX

1− πX' eX ′β.

Régression logistique

Page 44: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Interprétation des coefficients

La régression logistique s’exprime généralement sous la forme

πx1,··· ,xp

1− πx1,··· ,xp

= eα0+α1x1+···+αpxp .

Si αj ' 0, alors l’odds ratio ne dépend pas de xj .Un incrément de 1 dans xj correspond à un incrément de eαj dansl’odds ratio.Si αj > 0, alors un incrément de 1 dans xj entraîne uneaugmentation de eαj du risque( ou de la chance) que Y prenne la valeur 1.

πx1,··· ,xj+1,··· ,xp

1−πx1,··· ,xj+1,··· ,xpπx1,··· ,xp

1−πx1,··· ,xp

= eαj .

Régression logistique

Page 45: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Significativité des coefficients

On teste l’effet de chaque variable en testant l’hypothèse

H0 : βi = 0.

On rejette l’hypothèse H0 dès que la p-valeur de H0 est trop faible.I En effet

P(Observations|H0) = p-valeur.

Si la p-valeur est trop faible, alors aux vues de ces observations,l’hypothèse H0 est peu vraisemblable et par conséquent lecoefficient βi est significativement non nul.

Les logiciels scientifiques donnent cette p-valeur.On peut également déterminer des régions de confiance pour larégression logistique sur πX grâce àg−1(région de confiance classique).

Régression logistique

Page 46: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Modèle binomial

PLAN D’EXPÉRIENCE

Pour i ∈ 1, · · · , I, on effectue ni mesures de la variable Y .yi désigne le nombre de réalisations Y = 1.On suppose que πi est la probabilité de succès de Y sachant queles x1, · · · , xp appartiennent au goupe i

πi = P(Y = 1|X ∈ Groupe i).

On suppose que les groupes sont homogènes dans leursréalisations de Y : la probabilité pour Y d’être égal à 1 au seind’un même groupe est indépendante de la valeur de X dans cegroupe.Proposition : En effectuant ni mesures dans le groupe i et ensupposant tous les échantillons indépendants, si Yi désigne lenombre de valeurs Y = 1, alors

P(Yi = yi) = Cyiniπyi

i (1− πi)ni−yi .

Régression logistique

Page 47: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Modèle binomial

ESTIMATION DES COEFFICIENTS

On suppose que le vecteur des fonctions logit des probabilités πiappartient au sous-espace VectX 1, . . . ,X p

logit(πi) = x′iβ ou πi =ex′iβ

1 + ex′iβ, i = 1, . . . , I.

La log-vraisemblance s’écrit

L(β) = ΠIi=1Cyi

n g−1(x′iβ)yi

(1− g−1(x′iβ))ni−yi .

β est estimé par maximisation de la log-vraisemblance. Il n’y apas de solution analytique, celle-ci est obtenue par des méthodesnumériques itératives (algorithme de Newton Raphson).L’optimisation fournit une estimation b de β. On peut alors endéduire les estimations ou prévisions des probabilités πi et cellesdes effectifs

πi =ex′i b

1 + ex′i bet yi = ni πi .

Régression logistique

Page 48: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Modèle binomial

REMARQUES

La matrice X issue de la planification expérimentale est construiteavec les mêmes règles que celles utilisées dans le cadre de lacovariance mixant variables explicatives quantitatives etqualitatives.

La situation décrite précédemment correspond à l’observation dedonnées groupées. Dans de nombreuses situations concrètes etsouvent dès qu’il y a des variables explicatives quantitatives, lesobservations xi sont toutes distinctes. Ceci revient donc à fixerni = 1, i = 1, . . . , I dans les expressions précédentes et la loi deBernoulli remplace la loi binomiale.

Régression logistique

Page 49: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Choix de modèle - Recherche pas à pas

Le test du rapport de vraisemblance et le test de Wald permettent decomparer un modèle avec un sous-modèle et d’évaleur l’intérêt de laprésence des termes complémentaires. Stratégie descendante à partirdu modèle complet.

Idée : Supprimer, un terme à la fois, la composante d’intéraction oul’effet principal qui apparaît comme le moins significatif au sens durapport de vraisemblance ou du test de Wald.

Régression logistique

Page 50: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Choix de modèle - Recherche pas à pas

ATTENTION du fait de l’utilisation d’une transformation non linéaire(logit), même si des facteurs sont orthogonaux, aucune propriétéd’orthogonalité ne peut être prise en compte pour l’étude deshypothèses.

Élimination des termes un par un et ré-estimation du modèle.

Un terme prinicipal ne peut être supprimé que s’il n’intervient plusdans les termes d’interaction.

Les logiciels calculent en plus l’AIC pour finaliser le choix pour unemeilleure qualité prédictive.

Régression logistique

Page 51: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Regression logistique

Qualites du classifieur de regression logistique

Interpretabilite : NON

Critique : OUI ! (tres utilise pour le scoring)

Consistance : NON (sauf si le modele est exact)

Minimax : NON

Parameter-free : OUI

Vitesse : OUI

Online : possible

Page 52: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Regression logistique

Analyse discriminante decisionnelle

Idee : chaque caracteristique est associe a la classe dont lebarycentre des caracteristiques dans l’echantillond’apprentissage est le plus proche

⇐⇒ recherche directe d’une frontiere lineaire

Probleme : heterogeneite des variables

Nombreuses variantes :

LDA = AFD (analyse factorielle discriminante)interpretation bayesienne

k-NN est parfois vu comme une variantenon-parametrique

noyau : idem pour la methode du noyau

Page 53: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

PLAN

IntroductionConstruction d’un arbre binaire

I PrincipeI Critère de divisionI Règle d’arrêtI Affectation

Critères d’homogénéitéI Y quantitativeI Y qualitative

ÉlagageI Construction de la séquence d’arbresI Recherche de l’arbre optimal

Arbres binaires

Page 54: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Introduction

La segmentation par arbre est une approche non-paramétrique del’analyse discriminante.

But : expliquer une variable réponse (qualitative ou quantitative) àl’aide d’autres variables.

Principe : construire un arbre à l’aide de divisions successives desindividus d’un ensemble E en deux segments (appelés aussi noeuds)homogènes par rapport à une variable Y (binaire, nominale, ordinaleou quantitative) en utilisant l’information de p variables X 1, . . . ,X p

(binaires, nominales, ordinales ou quantitatives).

Arbres binaires

Page 55: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Introduction

L’arbre obtenu est sous forme d’un arbre inversé comportant à laracine l’échantillon total E à segmenter et les autres segments sont

soit des segments intermédiaires (encore divisibles),soit des segments terminaux.

L’ensemble des segments terminaux constitue une partition del’ensemble E en classes homogènes et distinctes, relativement à lavariable Y .

Il s’agit d’arbre de classement si Y est qualitative et d’arbre derégression si Y est quantitative.

Arbres binaires

Page 56: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Introduction

Avantages / InconvénientsLa méthode CART (Classification And Regression Tree) fournitdes solutions sous formes graphiques simples à interpréter.

Elle est complémentaire des méthodes statistiques classiques,très calculatoire et efficace à condition d’avoir de grandes taillesd’échantillon.

Elle est capable de gérer à la fois les variables quantitatives ETqualitatives simultanément.

Peu d’hypothèses requises !

Algorithme étant basé sur une stratégie pas à pas hiérarchisée, ilpeut passer à côté d’un optimum global.

Arbres binaires

Page 57: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

Soient p variables quantitatives ou qualitatives explicatives X j et unevariable à expliquer Y qualitative à m modalités τl , l = 1, . . . ,m ouquantitative réelle, observée sur un échantillon de n individus.

La construction d’un arbre de discrimination binaire consiste àdéterminer une séquence de noeuds.

Un noeud est défini par le choix conjoint d’une variable parmi lesexplicatives et d’une division qui induit une partition en deuxclasses.

Une division est elle-même définie par une valeur seuil de lavariable quantitative sélectionnée ou un partage en deux groupesdes modalités si la variable est qualitative.

À la racine ou au noeud initial correspond l’ensemble del’échantillon. La procédure est ensuite itérée sur chacun dessous-ensembles.

Arbres binaires

Page 58: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

L’algorithme considéré nécessite

1 la définition d’un critère permettant de sélectionner la "meilleure"division parmi toutes celles admissibles pour les différentesvariables ;

2 une règle permettant de décider qu’un noeud est terminal : ildevient alors feuille ;

3 l’affectation de chaque feuille à l’une des classes ou à une valeurde la variable à expliquer.

Le point 2. correspond encore à la recherche d’un modèleparcimonieux. Un arbre trop détaillé, associé à unesur-paramétrisation, est instable et donc probablement plus défaillantpour la prévision d’autres observations.

Arbres binaires

Page 59: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

Breiman et al. ont mise en place une stratégie de recherche de l’arbreoptimal.

1 Construire l’arbre maximal Amax .

2 Ordonner les sous-arbres selon une séquence emboîtée suivantla décroissance d’un critère pénalisé de déviance ou de taux demal-classés.

3 Sélectionner le sous-arbre optimal : c’est la procédure d’élagage.

Arbres binaires

Page 60: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

CRITÈRE DE DIVISION

Une division est dite admissible si aucun des segments descendantsn’est vide.

Si la variable explicative est qualitative ordinale à m modalités,elle conduit à m − 1 divisions binaires admissibles.

Si elle est nominale, le nombre de divisions devient égal à2m−1 − 1.

Pour une variable quantitative à m valeurs disctinctes, on seramène au cas ordinal.

Arbres binaires

Page 61: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

Le critère de division repose sur la définition d’une fonctiond’hétérogénéité ou de désordre.

Objectif : Partager les individus en deux groupes les plus homogènesau sens de la variable à expliquer.

Arbres binaires

Page 62: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

CRITÈRE DE DIVISION

L’hétérogénéité d’un noeud se mesure par une fonction non négativequi doit être

1 nulle si et seulement si le segment est homogène : tous lesindividus appartiennent à la même modalité ou prennent la mêmevaleur de Y ,

2 maximale lorsque les valeurs de Y sont équiprobables ou trèsdispersées.

Arbres binaires

Page 63: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

La division du noeud k crèe deux fils notés (k + 1) et (k + 2), mais unerenumérotation sera nécessaire pour respecter la séquence desous-arbres.

Parmi toutes les divisions admissibles du noeud k , l’algorithme retientcelle qui rend la somme D(k+1) + D(k+2) des désordres des noeuds filsminimale, c-à-d

maxdivisions de X j ; j=1,...,p

Dk − D(k+1) − D(k+2).

Arbres binaires

Page 64: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

RÈGLE D’ARRÊT

La croissance de l’arbre s’arrête à un noeud qui devient donc feuille

lorsqu’il est homogène, c-à-d lorsqu’il n’existe plus de divisionadmissible,

si le nombre d’observations qu’il contient est inférieur à un seuilfixé par l’utilisateur dmin. En général, 1 ≤ dmin ≤ 5.

si le nombre de noeuds est supérieur à nmax , nombre fixé parl’utilisateur.

Arbres binaires

Page 65: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Construction d’un arbre binaire

AFFECTATION

Une fois les critères d’arrêt atteints, il faut affecter une valeur à chaquefeuille.

Si Y est quantitative, attribution de la valeur moyenne auxobservations de cette feuille.

Si Y est qualitative, chaque feuille est affectée à une modalité τlde Y en considérant le mode conditionnel

I celle la plus représentée dans la feuille, c-à-d celle ayant laproportion la plus élevée à l’intérieur de cette feuille. Il est alorsfacile de comparer le nombre de données mal classées.

I la modalité la moins coûteuse si des coûts de mauvais classementssont donnés.

I la classe a posteriori la plus probable au sens bayésien si desprobabilités a priori sont connues.

Arbres binaires

Page 66: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Critère d’homogénéité - Cas quantitatif

Soit une partition de n individus en deux sous-populations E1 et E2 detailles respectives n1 et n2. Soit µij la valeur "théorique" de Y pourl’individu i du sous-ensemble Ej .

L’hétérogénéité du sous-ensemble Ej est mesurée par

Dj =

nj∑

i=1

(µij − µ.j)2 avec µ.j =1nj

nj∑

i=1

µij .

Alors l’hétérogénéité de la partition est définie par

D = D1 + D2 =2∑

j=1

nj∑

i=1

(µij − µ.j)2.

C’est l’inertie intragroupe qui vaut 0 si et seulement si ∀i , j , µij = µ.j .

Arbres binaires

Page 67: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Critère d’homogénéité - Cas quantitatif

La différence entre l’hétérogénéité de l’ensemble non partagé et cellede la partition est

∆ =2∑

j=1

nj∑

i=1

(µij − µ..)2 −2∑

j=1

nj∑

i=1

(µij − µ.j)2 où µ.. =1n

i,j

µij .

=2∑

j=1

nj(µ.. − µ.j)2

=n1n2

n(µ.1 − µ.2)2.

∆ correspond au "désordre" des barycentres et est homogène à lavariance intergroupe.Objectif : À chaque étape, maximiser ∆, c-à-d trouver la variableexplicative induisant une partition en deux sous-ensembles associée àune inertie intragroupe minimale ou encore qui rende l’inertieintergroupe maximale.

Arbres binaires

Page 68: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Critère d’homogénéité - Cas quantitatif

Les quantités sont estimées

Dj par Dj =

nj∑

i=1

(yij − y.j)2 et D par D =2∑

j=1

nj∑

i=1

(yij − y.j)2.

Arbres binaires

Page 69: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Critère d’homogénéité - Cas qualitatif

Soit Y une variable à expliquer à m modalités τl . L’arbre induit unepartition pour laquelle n+k désigne l’effectif du kème noeud.

Soit plk = P[τl |k ] avecm∑

l=1

plk = 1, la probabilité qu’un élément du

kème noeud appartienne à la lème classe.

Le désordre du kème noeud, défini à partir de l’entropie, s’écrit

Dk = −2m∑

l=1

n+kplk log(plk ).

Arbres binaires

Page 70: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Critère d’homogénéité - Cas qualitatif

L’hétérogénéité de la partition est encore

D =2∑

k=1

Dk = −22∑

k=1

m∑

l=1

n+kplk log(plk ).

Cette quantité est positive et nulle si et seulement si les probabilitésplk ne prennent que des valeurs 0 sauf une égale à 1 correspondant àl’absence de mélange.

Arbres binaires

Page 71: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Critère d’homogénéité - Cas qualitatif

ENTROPIE

Soit nlk l’effectif observé de la lème classe dans le kème noeud :

n+k =m∑

l=1

nlk .

Les quantités sont estimées

Dk par Dk = −2m∑

l=1

n+knlk

n+klog(

nlk

n+k

)

et

D par D = −22∑

k=1

m∑

l=1

n+knlk

n+klog(

nlk

n+k

).

Arbres binaires

Page 72: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Critère d’homogénéité - Cas qualitatif

CRITÈRE DE GINI

Le critère de Gini du noeud k est défini par Dk =∑

l 6=h

plkphk avec

l ,h = 1, . . . ,m et est estimé par Dk =∑

l 6=h

nlk

n+k

nhk

n+k.

Le désordre Dk est maximal si plk =1m

; l’échantillon présenteautant d’éléments de chaque modalité.

Dk est nul si l’échantillon est pur : plk = 1 et phk = 0 si h 6= l .

Dk représente la probabilité de mauvais classement pour unindividu tiré au hasard parmi les individus du noeud k .

Arbres binaires

Page 73: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Critère d’homogénéité - Cas qualitatif

CRITÈRE DE GINI

Le désordre de l’échantillon initial de taille n est estimé parD =

l 6=h

nl

nnh

n, où nl représente l’effectif observé de la lème modalité

dans l’échantillon initial.

La réduction d’impureté correspond à une division binaire est alorsestimée par

∆ = D − n+1

nD1 −

n+2

nD2.

Arbres binaires

Page 74: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Elagage

Objectif : Rechercher le meilleur compromis entreun arbre très détaillé, fortement dépendant des observations quiont permis son estimation, qui fournira un modèle de prévisiontrès instableun arbre trop robuste mais grossier qui donne des prédictions tropapproximatives.

PrincipeConstruire une suite emboîtée de sous-arbres de l’arbremaximum par élagage successif.Choisir, parmi cette suite, l’arbre optimal au sens d’un critère.

La solution obtenue par algorithme pas à pas n’est pasnécessairement, globalement optimale mais l’efficacité et la fiabilitésont préférées à l’optimalité.

Arbres binaires

Page 75: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Elagage

CONSTRUCTION DE LA SÉQUENCE D’ARBRES

Pour un arbre A donné, on note K le nombre de feuilles ou noeudsterminaux de A ; la valeur de K exprime la complexité de A.

La qualité de discrimination d’un arbre A se mesure par le critère

D(A) =K∑

k=1

Dk (A) où Dk (A) est le nombre de mal classés ou la

déviance ou le coût de mauvais classement de la kème feuille del’arbre A.

Arbres binaires

Page 76: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Elagage

CONSTRUCTION DE LA SÉQUENCE D’ARBRES

La construction de la séquence d’arbres emboîtés repose sur unepénalisation de la complexité de l’arbre

C(A) = D(A) + γK .

Pour γ = 0, Amax = AK minimise C(A).

En faisant croître γ, l’une des divisions de AK , celle pour laquellel’amélioration de D est la plus faible (inférieure à γ) apparaîtcomme superflue et les deux feuilles sont regroupées (élaguées)dans le noeud père qui devient terminal ; AK ⊃ AK−1.

Arbres binaires

Page 77: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Elagage

CONSTRUCTION DE LA SÉQUENCE D’ARBRES

Soit N un noeud. On appelle AN le sous-arbre (ou la branche) de Aextrait(e) à partir de N , donc constitué des descendants de N et de laracine N . On appelle A′ le sous-arbre de A auquel on a enlevé labranche AN . On a alors

C(A′) = C(A) + C(N )− C(AN ).

Par conséquent,

C(A′) ≥ C(A)⇐⇒ γ ≤ D(N )− D(AN )

|AN | − 1= α.

Ceci signifie que si la valeur de γ fixée est inférieure à α, le coût dusous-arbre élagué A′ est supérieur à celui de A : on gardera doncl’arbre complet A.

Cette équation montre que si γ est petit (c-à-d qu’on donne peud’importance à la taille de l’arbre), l’algorithme aura tendance àconserver les arbres complets et à ne pas faire d’élagage.

Arbres binaires

Page 78: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Elagage

CONSTRUCTION DE LA SÉQUENCE D’ARBRES

Le procédé est itéré pour la construction de la séquence emboîtée

Amax = AK ⊃ AK−1 ⊃ . . . ⊃ A1

où A1, le noeud racine, regroupe l’ensemble de l’échantillon.

Un graphe représente la décroissance ou l’éboulis de la déviance (oudu taux de mal classé) en fonction du nombre croissant de feuillesdans l’arbre ou en fonction de la valeur décroissante du coefficient depénalisation γ (graphes équivalents).

Élagage lorsque l’augmentation de la complexité de l’arbre n’est pluscompensée par la diminution de la déviance.

Arbres binaires

Page 79: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Elagage

RECHERCHE DE L’ARBRE OPTIMAL

Les procédures d’élagage diffèrent par la façon d’estimer l’erreur deprédiction. Quand l’amélioration du critère est jugée trop petite ounégligeable, on élague l’arbre au nombre de feuilles obtenues.

L’évaluation de la déviance ou du taux de mauvais classementestimée par resubsitution sur l’échantillon d’apprentissage estbiaisée (trop optimiste).

Arbres binaires

Page 80: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Elagage

RECHERCHE DE L’ARBRE OPTIMAL

Une estimation sans biais est obtenue par l’utilisation d’un autreéchantillon (validation) ou encore par validation croisée.

La procédure de validation croisée a une particularité : laséquence d’arbres obtenue est différente pour chaque estimationsur l’un des sous-échantillons.

I L’erreur moyenne n’est pas calculée pour chaque sous-arbre avecun nombre de feuilles donné mais pour chaque sous-arbrecorrespondant à une valeur fixée du coefficient de pénalisation γ.

I À la valeur de γ minimisant l’estimation de l’erreur de prévision,correspond ensuite l’arbre jugé optimal dans la séquence estiméesur tout l’échantillon d’apprentissage.

Arbres binaires

Page 81: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Elagage

RECHERCHE DE L’ARBRE OPTIMAL

Le principe de sélection d’un arbre optimal est donc décrit parl’algorithme suivant

Construction de l’arbre maximal Amax .

Construction de la séquence AK , . . . ,A1 d’arbres emboîtés.

Estimation sans biais (échantillon de validation ou validationcroisée) des déviances D(AK ), . . . ,D(A1).

Représentation de D(Ak ) en fonction de k ou de γ.

Choix de k rendant D(Ak ) minimum.

Arbres binaires

Page 82: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Arbres de decision

Qualites du classifieur CART

Interpretabilite : OUI !

Consistance : OUI (sous certaines reserves) MAIS instable !

Minimax : NON !

Parameter-free : NON

Vitesse : OUI

Online : NON

Page 83: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Reseaux de neurones

Reseau mono-couche

Src : http://insanedev.co.uk/open-cranium/

Page 84: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Reseaux de neurones

Reseau mono-couche

Source : [Tuffery, Data Mining et Informatique Decisionnelle]

Page 85: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Reseaux de neurones

Reseau avec couche intermediaire

Source : [Tuffery, Data Mining et Informatique Decisionnelle]

Page 86: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Reseaux de neurones

Reseau mono-couche

Src : http://www.makhfi.com

Page 87: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Présentation

Un réseau de neurone est l’association d’objets élémentaires : lesneurones formels. C’est en général l’organisation de cesneurones, le nombre de neurones, et leurs types, qui distinguentces différents réseaux.

Réseaux de neurones

Page 88: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Présentation

Le neurone formel est un modèle qui se caractérise par un étatinterne s ∈ S, des signaux d’entrée x1, · · · , xp et une fonction detransition d’état

s = f

β0 +

p∑

j=1

βjx j

.

β0 correspond au biais du neurone.

Combinaison affine est déterminée par un vecteur de poids[β0, · · · , βp] associé à chaque neurone et dont les valeurs sontestimées dans la phase d’apprentissage ("mémoire" ou"connaissance répartie" du réseau).

Réseaux de neurones

Page 89: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Fonction de transition

Il y a plusieurs fonctions de transition possibles :I f (x) = x neurone linéaireI f (x) = 1/(1 + ex ) neuron sigmoïdeI f (x) = 1[0;+∞[ fonction de seuillageI f (x) = 1 avec la probabilité 1/(1 + e−H(x)) neurone stochastique

La plupart des problèmes d’apprentissage utilisent les deuxpremières fonctions de transition.

La fonction représentant vraisemblablement le mieux la réalité estla fonction de seuillage. Mais elle n’est pas différentiable et doncpeu adaptée pour les statisticiens.

Réseaux de neurones

Page 90: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Architecture du perceptron

Réseau composé de couches successsives.I Pas de connexion entre des réseaux de la même couche.I Couche d’entrée C1 : un neurone par variable x j .I Couche de sortie fournit la prédiction y .

Plusieurs couches cachées.

Chaque neurone de la couche cachée Ck est connectée en entréeà chaque neurone de la couche précédente Ck−1.

y est donc calculé par le biais de

y = φ(x1, · · · , xp, β) où β = (βj,k ,l),

βj,k ,l représente le paramètre de la jème entrée du kème neuronede la lème couche.

Réseaux de neurones

Page 91: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Apprentissage du perceptron

On dispose de (x1i , · · · , x

pi , yi) n observations de varibales

explicatives X 1, · · · ,X p et Y variable à prédire.

On cherche β solution du problème

β = argminbQ(b) où Q(b) =1n

n∑

i=1

[yi − φ

(x1

i , · · · , xpi ,b

)]2.

C’est un problème hautement non linéaire, le plus souvent. Onadopte une méthode de descente de gradient.

Réseaux de neurones

Page 92: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Apprentissage du perceptron

En tout point b, le gradient Q pointe dans la direction de l’erreurcroissante.

Il suffit donc de se déplacer en sens contraire, l’algorithme estitératif modifiant les poids de chaque neurone selon

bjkl(i) = bjkl(i − 1) + ∆bjkl(i).

La correction ∆bjkl(i) est proportionnelle au gradient et à l’erreurattribuée à l’entrée concernée εjkl(i) et incorpore un terme d’inertieαbjkl(i − 1) permettant d’amortir les oscillations du système

∆bjkl(i) = −τεjkl(i)∂Q∂bjkl

(b) + αbjkl(i − 1).

Réseaux de neurones

Page 93: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Apprentissage du perceptron

Le coefficient de proportionnalité τ est appelé tauxd’apprentissage. Il peut être fixe, à déterminer par l’utilisateur ouvarier en cours d’exécution selon certaines règles paramétréespar l’utilisateur.Intuitivement : τ doit être grand au début pour aller plus vite puisdécroître pour aboutir à un réglage plus fin au fur et à mesure quele système s’approche d’une solution.Une amélioration importante consiste à introduire un terme depénalisation ou régularisation dans le critère à optimiser :

β = argminbQ(b) + δ||b||2.

Le paramètre δ (decay) doit être fixé par l’utilisateur. Plus il estimportant et moins les paramètres ou poids peuvent prendre desvaleurs "chaotiques"’ contribuant ainsi à limiter le risque desur-apprentissage.

Réseaux de neurones

Page 94: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Algorithme de rétropropagation du gradient

InitialisationI Les poids βj,k,l par tirage aléatoire selon une loi uniforme sur [0; 1].

I Normalisation dans [0; 1] des données d’apprentissage.

Tant que Q > errmax ou niter < itermax Faire

I Ranger la base d’apprentissage dans unn nouvel ordre aléatoire.

I Pour chaque élément i = 1, · · · ,n de la base Faire

F Calculer ε(i) = yi − φ(x1i , · · · , xp

i ,b(i − 1)) en propageant les entréesvers l’avant.

F L’erreur est "rétropropagée" dans les différentes couches afind’affecter à chaque entrée une responsabilité dans l’erreur globale.

F Mise à jour de chaque poids bjkl (i) = bjkl (i − 1) + ∆bjkl (i).

I Fin du Pour

Fin du Tant que

Réseaux de neurones

Page 95: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Utilisation du perceptron multicouches

L’utilisateur doit déterminerles variables d’entrée et celle de sortie.L’architecture du réseau :

I le nombre de couches cachées, en général 1 ou 2, qui correspondà une aptitude à triater des problèmes de non-linéarité.

I le nombre de neurones par couche cachée.I Ces 2 choix conditionnent directement le nombre de paramètres

(poids) à estimer. Ils participent à la recherche d’un bon compromisbiais/variance, i.e. équilibre entre qualité d’apprentissage et qualitéde prévision.

I En pratique, on considère qu’il faut un échantillon d’apprentissageau moins 10 fois plus grand que le nombre de paramètes à estimer.

Le nombre de maximum d’itérations pour la recherche de β,l’erreur maximale tolérée et le terme de régularisation (decay). Enrenforçant ces critères, on améliore la qualité d’apprentissage audétriment éventuel de celle de la prévision.Le taux d’apprentissage et son éventuelle stratégie d’évolution.

Réseaux de neurones

Page 96: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Utilisation du perceptron multicouches

En pratique, tous ces paramètres ne sont pas réglés simultanémentpar l’utilisateur. Celui-ci est confronté à des choix concernantprincipalement le contrôle du sur-apprentisage.

choix du paramètre : limiter le nombre de neurones ou la duréed’apprentissage ou encore augmenter le coefficient depénalisation de la norme des paramètres.choix du mode d’estimation de l’erreur : échantillon test, validationcroisée ou bootstrap.

Ces choix sont souvent pris par défaut dans les logiciels. Il estimportant d’en connaître les implications.

Le nombre de couches reste restreint. En effet toute fonction continuedun compact de Rp dans Rq peut être approchée avec une précisionarbitraire par un réseau de neurones à une couche cachée enadaptant le nombre de neurones.

Réseaux de neurones

Page 97: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Utilisation du perceptron multicouches

Le contrôle de la complexité du modèle peut se faire à l’aide deplusieurs paramètres :

le nombre de neurones,une pénalisation de la norme du vecteur des poidsou par la durée de l’apprentissage.

Ces paramètres sont optimisés en considérant un échantillon devalidation. Le plus simple consiste à arrêter l’apprentissage lorsque

l’erreur sur l’échantillon de validation commence à se dégradertandis que celle sur l’échantillon sur l’échantillon d’apprentissagene peut que continuer à décroître.

Réseaux de neurones

Page 98: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Inconvénients / Avantages de cette méthode

Inconvénients :

I Temps de calcul important.

I Taille de l’échantillon.

I Aspect boîte noire : impossible de connaître l’influence effectived’une entrée (variable) sur le système dès qu’une couche cachéeintervient.

I Minimum local de Q.

Avantages :

I Applications aux situations non linéaires.

I Pondération d’interactions possibles.

Réseaux de neurones

Page 99: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Reseaux de neurones

Qualites du classifieur par reseau de neurones

Interpretabilite : NON !

Critique : NON

Consistance : NON (mais bonne approximation)

Minimax : NON

Parameter-free : NON

Vitesse : NON

Online : OUI

Page 100: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Roadmap

1 Qu’est-ce que l’apprentissage supervise ?Presentation de la problematiqueLes regles de classification/regressionLa methodes des k plus proches voisins

2 Choix de modele et fleau de la dimension

3 Regression logistique

4 Arbres de decision

5 Reseaux de neurones

6 Agregation de modelesSuper-learningBagging, Boosting, Random Forest

7 Support Vector Machines

8 Complements

Page 101: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Super-learning

On cherche a prediresequentiellement un phenomene(cours de bourse, charged’electricite, meteo)

On n’utilise aucun modele(probabiliste ou autre) sur lephenomene

On s’appuie sur des experts plusou moins fiables

On cherche a faire (au moins)aussi bien que le meilleur expert

Page 102: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Cadre mathematique

Observations y1, y2, . . . ∈ Y - on note yt = (ys)s≤t

A l’instant t, l’expert j ∈ 1, . . . , N fournit la prediction

f jt = f jt (yt−1) ∈ X

ou X est un ensemble pouvant etre distinct de Y

On note ft = (f js )1≤j≤t,1≤s≤t

La qualite d’une prediction est quantifiee par la fonction de perte` : X × Y → R

La perte cumulee d’une sequence de prediction xt = (x1, . . . , xn)est

Ln(xt,yt) =

n∑

t=1

`(xt, yt)

Page 103: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Strategie randomisee

Prediction sequentielle p1, p2, · · · ∈ X telles que :

pt = pt(yt−1, ft−1)

Strategie randomisee :

pt = f jt avec probabilite pt(j)

avec la ponderation pt = (pt(j))1≤j≤N = pt(yt−1, ft−1)

On veut donc minimiser la perte cumulee du decideur

Ln(p,yn) =

n∑

t=1

`(pt, yt)

Page 104: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Regret face au meilleur expert

On cherche a predire au moins aussi bien que le meilleur expert

On definit le regret :

Rn(p,yn) = max1≤j≤N

Ln(p,yn)− Ln(j,yn)

avec Ln(j,yn) = regret cumule de l’expert j.

Regret dans le pire des cas :

Rn(p) = supyn∈Yn

Rn(p,yn)

But : construire p de telle sorte que lim supRn(p)/n ≤ 0

Page 105: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Theorie des Jeux

La theorie des jeux constitue une approche mathematique deproblemes de strategie tels qu’on en trouve en rechercheoperationnelle et en economie.

Elle etudie les situations ou les choix de deux protagonistes — oudavantage — ont des consequences pour l’un comme pour l’autre.

Elle etudie les comportements — prevus, reels, ou tels que justifiesa posteriori — d’individus face a des situations d’antagonisme, etcherche a mettre en evidence des strategies optimales.

Page 106: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Formalisation en theorie des jeux

Cadre : ensemble predictions X , ensemble d’observations Y,fonction de perte ` : X × Y → R bornee par MActeurs : un decideur, un environnementDeroulement : pour chaque instant t = 1, 2, . . . :

1 les experts publient leurs predictions (f jt )1≤j≤N2 le decideur choisit une ponderation pt

3 l’environnement choisit une observation yt

4 le decideur accorde sa confiance a l’expert j avec probabilitept(j)

5 le decideur decouvre l’observation yt et enregistre les pertes

(`(f jt , yt)

)1≤j≤N

Page 107: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

References

[Cesa-Bianchi & Lugosi ’06] Prediction,

Learning, and Games

[Devroye & Gyorfi & Lugosi ’96] AProbabilistic Theory of Pattern Recognition

[Gyorfi & Kohler & Krzyzak & Walk ’02] ADistribution-Free Theory of NonparametricRegression

cf. toute la litterature en theorie del’information : les liens sont plus etroitsqu’il n’y paraıt

Page 108: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

L’algorithme Exponential Weights (EW)

Strategie randomisee avec comme choix de ponderation :

pt(j) =exp(−βLt−1(j,yt−1))∑k exp(−βLt−1(k,yt−1))

Parfois nomme Hedge, tres lie a EXP3 (en feedback bandit).

Page 109: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Borne de regret pour EW

Theoreme : Le regret de l’algorithme EW face a la meilleurestrategie constante verifie :

E [Rn(p)] ≤log(N)

β+M2β

8n

En particulier, pour β = 1/M√

8 log(N)/n, on obtient :

E [Rn(p)] ≤M√n

2logN

Remarque : l’esperance E porte sur la seule randomisation deschoix selon les ponderations

Page 110: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Extensions

poursuite du meilleur expert

observation partielle (problemes de bandits)

Minimisation du regret simple

Faire aussi bien que la meilleure combinaison d’expert fixee

Page 111: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Remarques sur ce cadre

Cadre meta-statistique : chaque expert peut avoir son modele...

L’agregation fait souvent mieux que la selection

Ici, on s’interesse a de l’agregation sequentielle

La formulation choisie requiert des strategies robustes

Page 112: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Exemple : Prevision de charge

Cf these de Yannig Goude (EDF & Universite Paris-Sud)Une problematique cruciale de la production electrique est laprevision de charge

On dispose de plusieurs modeles plus ou moins evolues / robustes/ experimentes

Le but est d’agreger leurs resultats en les utilisant comme desemphboıtes noires

Page 113: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Prediction de la qualite de l’air

Cf Gilles Stoltz (CNRS) et Vivient Mallet (INRIA), Journal ofGeophysical Research

Objectif : predire, jour apres jour, les hauteurs des pics d’ozone dulendemain (ou les concentrations horaires, heure apres heure)

Moyens : reseau de stations meteorologiques a travers l’Europe(ete 2001)

Experts : 48 predicteurs fondamentaux, chacun construit a partir

d’un modele physico-chimique

d’un schema numerique de resolution approche des EDP enjeu

d’un jeu de donnees

Page 114: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Tous les experts sont utiles

Figure: A gauche : Coloration de l’Europe en fonction de l’indice dumeilleur expert local. A droite : Profils moyens de prediction sur unejournee (moyennes spatiales et temporelles, en µg/m3)

Page 115: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Resultats

Moyenne M. fondamental M. convexe M. lineaire EW24.41 22.43 21.45 19.24 11.99 21.47

Ci-dessus, les erreurs quadratiques moyennes (en µg/m3)

de la moyenne des predictions des 48 modeles

du meilleur modele fondamental parmi les 48

de la meilleure combinaison convexe

de la meilleure combinaison lineaire

de l’algorithme EW

=⇒ la meilleure combinaison convexe constante est battueon peut faire mieux (voir Stoltz & Mallet)

Page 116: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Super-learning

Gestion de portefeuilles

[Cover ’91] Universal Portfolios[Gyorfi & Urban & Vajda ’07] Kernel-based semi-log-optimalportfolio selection strategies

N actifs 1, . . . , N, prix Zjt

Market Vector xt = vecteur d’evolution des prix xjt = Zjt /Z

jt−1

Position Qt = vecteur des fractions d’investissement Qjt = part du

patrimoine dans l’actif j a l’instant t.

Wealth Factor = rendement du placement

Sn(Qn,xn) =

n∏

t=1

N∑

j=1

xjtQjt

Page 117: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Bagging, Boosting, Random Forest

Roadmap

1 Qu’est-ce que l’apprentissage supervise ?Presentation de la problematiqueLes regles de classification/regressionLa methodes des k plus proches voisins

2 Choix de modele et fleau de la dimension

3 Regression logistique

4 Arbres de decision

5 Reseaux de neurones

6 Agregation de modelesSuper-learningBagging, Boosting, Random Forest

7 Support Vector Machines

8 Complements

Page 118: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

PLAN

IntroductionFamilles de modèles aléatoires

I BaggingI Forêts aléatoires

Familles de modèles adaptatifsI Principes du BoostingI Algorithme de baseI Pour la régressionI Modèle additif pas à pasI Régression et boostingI Compléments

Agrégation de modèles

Page 119: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Introduction

Présentation d’algorithmes basés sur des stratégies adaptatives(boosting) ou aléatoires (bagging) permettant d’améliorer l’ajustementpar combinaison ou agrégation d’un grand nombre de modèles tout enévitant un sur-ajustement.

Deux types d’algorithmes sont décritsCeux reposants sur une construction aléatoire d’une famille demodèle :

I bagging pour bootstrap agregatingI les forêts aléatoires (random forest) qui est une amélioration du

bagging spécifique aux modèles définis par des arbres binaires.

Ceux basés sur le boosting reposent sur une constructionadaptative, déterministe ou aléatoire, d’une famille de modèles.

Les principes de bagging ou de boosting s’appliquent à toute méthodede modélisation (régression, CART, réseaux de neurones) mais n’ontd’intérêt et réduisent sensiblement l’erreur de prédiction, que dans lecas de modèles instables, donc plutôt non linéaires.

Agrégation de modèles

Page 120: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Bagging

Soient Y une variable à expliquer quantitative ou qualitative,X 1, . . . ,X p les variables explicatives et φ(x) un modèle de fonction dex =

x1, . . . , xp ∈ Rp. On note n le nombre d’observations et

z = (x1, y1), . . . , (xn, yn) un échantillon de loi F .

φ = EF

(φz

)est un estimateur sans biais de variance nulle.

Considérons B échantillons indépendants notés

zb=1,...,B

etconstruisons une agrégation de modèles :

Si Y est quantitative : φB(.) =1B

B∑

i=1

φzb(.).

Moyenne des résultats obtenus pour les modèles associés àchaque échantillon.Si Y est qualitative : φB(.) = argmax

jcard

b ; φzb(.) = j

.

Comité de modèles constituer pour voter et élire la réponse laplus probable.

Agrégation de modèles

Page 121: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Bagging

Principe : Moyenner les prédictions de plusieurs modèlesindépendants permet de réduire la variance et donc de réduire l’erreurde prédiction.

Cependant, il n’est pas réaliste de considérer B échantillonsindépendants (nécessite trop de données). Ces échantillons sont doncremplacés par B réplications d’échantillons bootstrap obtenus chacunpar n tirages avec remise selon la mesure empirique Fn.

AlgorithmeSoit x0 à prévoir.Soit z = (x1, y1), . . . , (xn, yn) un échantillon.Pour b = 1, . . . ,B

I Tirer un échantillon bootstrap z∗b.I Estimer φzb(x0) sur l’échantillon bootstrap.

Calculer l’estimation φB(x0) =1B

B∑

b=1

φzb(x0) ou le résultat du vote.

Agrégation de modèles

Page 122: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Bagging

UTILISATION

Il est naturel et techniquement facile d’accompagner ce calcul par uneestimation bootstrap out-of-bag de l’estimation de prédiction.

Elle mesure la qualité de généralisation du modèle.

Elle permet de prévenir une éventuelle tendance ausur-ajustement.

La moyenne des erreurs de prédiction commises par chaqueestimateur permet d’éviter le biais : chacune des erreurs étant estiméesur les observations n’ayant pas été sélectionnées par l’échantillonbootstrap correspondant.

Agrégation de modèles

Page 123: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Bagging

UTILISATION

En pratique, CART est souvent la méthode de base pour construireune famille de modèles. Trois stratégies d’élagage sont alorspossibles :

1 Laisser construire et garder un arbre complet pour chacun deséchantillons.

2 Construire un arbre d’au plus d feuilles.

3 Construire à chaque fois l’arbre complet puis l’élaguer parvalidation croisée.

Agrégation de modèles

Page 124: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Bagging

UTILISATION

La première stratégie semble en pratique un bon compromis entrevolume des calculs et qualité de prédiction. Chaque arbre est alorsaffecté d’un faible biais et d’une grande variance mais la moyenne desarbres réduit avantageusement celle-ci.

En revanche, l’élagage par validation croisée pénalise lourdement lescalculs sans gain substantiel de qualité.

Agrégation de modèles

Page 125: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Bagging

UTILISATION

Avantages / Inconvénients :

Cet algorithme simple s’adapte et se programme facilementquelque soit la méthode de modélisation mise en oeuvre.

Temps de calculs important pour évaluer un nombre suffisantd’arbres jusqu’à ce que l’erreur de prédiction out-of-bag ou sur unéchantillon de validation se stabilise et arrêt si elle tend àaugmenter.

Nécessité de stocker tous les modèles de la combinaison afin depouvoir utiliser cet outil de prédiction sur d’autres données.

L’amélioration de la qualité de prédiction se fait au détriment del’interprétabilité. Le modèle finalement obtenu devient une boîtenoire comme dans le cas du perceptron.

Agrégation de modèles

Page 126: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Forêts aléatoires

Dans les cas spécifiques des modèles CART, l’algorithme du bagginga été amélioré par l’ajout d’une randomisation.

Objectif : rendre plus indépendants les arbres de l’agrégation enajoutant du hasard dans le choix des variables qui interviennent dansles modèles.

Intérêt : Cette approche semble plus particulièrement fructueuse dansdes situations hautement multidimensionnelles, c-à-d lorsque lenombre de variables explicatives p est très important (discriminer descourbes, spectres, signaux, biopuces).

Agrégation de modèles

Page 127: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Forêts aléatoires

Algorithme

Soient x0 à prévoir et z = (x1, y1), . . . , (xn, yn) un échantillon.

Pour b = 1, . . . ,B

I Tirer un échantillon bootstrap z∗b.

I Estimer un arbre sur cet échantillon avec randomnisation desvariables : la recherche de chaque noeud optimal est précédé d’untirage aléatoire d’un sous-ensemble de q prédicteurs.

Calculer l’estimation φB(x0) =1B

B∑

b=1

φzb(x0) ou le résultat du vote.

Agrégation de modèles

Page 128: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Forêts aléatoires

ÉLAGAGE

La stratégie d’élagage peut, dans le cas des forêts aléatoires, être plusélémentaire qu’avec le bagging en se limitant à des arbres de taille qrelativement réduite voire même triviale q ≈ 2.

Avec le bagging, des arbres limités à une seule fourche risquentd’être très semblables (fortement corrélés) car impliquant lesmêmes quelques variables apparaissant comme les plusexplicatives.

La sélection aléatoire d’un nombre réduit de prédicteurs potentielsà chaque étape de construction d’un arbre, accroîtsignificativement la variabilité en mettant en avant nécessairementd’autres variables. Chaque modèle de base est évidemmentmoins performant mais l’agrégation conduit finalement à de bonsrésultats.

Agrégation de modèles

Page 129: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Forêts aléatoires

ÉLAGAGE

Le nombre de variables tirées aléatoirement n’est pas un paramètresensible :

q =√

p si discrimination

etq =

p3

si régression.

Comme pour le bagging, l’évaluation itérative de l’erreur out-of-bagprévient d’un éventuel sur-ajustement si celle-ci vient à se dégrader.

Agrégation de modèles

Page 130: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Forêts aléatoires

INTERPRÉTATION

Comme pour tout modèle construit par agrégation, il n’y a pasd’interprétation directe.

Plusieurs critères sont proposés pour évaluer l’importance d’unevariable

Le critère Mean Decrease Accuracy repose sur une permutationaléatoire des valeurs de cette variable.

I Calculer de la moyenne sur les observations out-of-bag de ladécroissance de leur marge lorsque la variable est aléatoirementperturbée.

I La marge est la proportion de votes pour la vraie classe d’uneobservation moins le maximum des proportions de votes pour lesautres classes.

I Mesure globale mais indirecte de l’influence d’une variable sur laqualité des prévisions. Plus la prévision est dégradée par lapermutation des valeurs d’une variable, plus celle-ci est importante.

Agrégation de modèles

Page 131: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Forêts aléatoires

INTERPRÉTATION

Le critère Mean Decrease Gini est local, basé sur la décroissanced’entropie ou sur la décroissance de l’hétérogénéité définie par lecritère de Gini. L’importance d’une variable est alors une sommepondérée des décroissances d’hétérogénéité induites lorsqu’elleest utilisée pour définir la division associée à un noeud.

Il existe un troisème critère plus rudimentaire qui s’intéressesimplement à la fréquence de chacune des variables apparaissantdans les arbres de la forêt.

Agrégation de modèles

Page 132: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles aléatoires - Forêts aléatoires

INTERPRÉTATION

Comparaison des 3 critères

I Les critères 1 et 2 sont très proches, l’importance d’une variabledépend de sa fréquence d’apparition mais aussi des places qu’elleoccupe dans chaque arbre. Ils sont pertinents pour unediscrimination de 2 classes ou, lorsqu’il y a plus de 2 classes, sicelles-ci sont relativement équilibrées.

I Dans le cas contraire, c-à-d si une des classes est moins fréquenteet plus difficile à discriminer, le 3ème critère présente un avantage :il donne une certaine importance aux variables qui sontnécessaires à la discrimination d’une classe difficile alors quecelles-ci sont négligées par les 2 autres critères.

Agrégation de modèles

Page 133: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles adaptatifs - Boosting

Principe : Construction, de façon récurrente, d’une famille de modèlesqui sont ensuite agrégés par une moyenne pondérée des estimationsou un vote.

Chaque modèle est une version adaptative du modèle précédent endonnant plus de poids, lors de l’étape suivante, aux observations malajustées ou mal prédites.

Idée : Cet algorithme concentre ses efforts sur les observations lesplus difficiles à ajuster et l’agrégation de l’ensemble des modèlespermet d’échapper au sur-ajustement.

Agrégation de modèles

Page 134: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles adaptatifs - Boosting

Les algorithmes de boosting diffèrent par différents caractéristiques :

la façon de pondérer, c-à-d de renforcer l’importance desobservations mal estimées lors de l’itération précédente,

leur objectif selon le type de la variable à prédire Y : binaire,qualitative à k modalités, réelle,

la fonction de perte, qui peut être choisie plus ou moins robusteaux valeurs atypiques, pour mesurer l’erreur d’ajustement,

la façon d’agréger, ou plutôt de pondérer les modèles de basesuccessifs.

Agrégation de modèles

Page 135: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles adaptatifs - Boosting

ALGORITHME DE BASE

Adaboost discret : Version originale du boosting pour un problème dediscrimination élémentaire à deux classes en notant δ la fonction dediscrimination à valeurs dans −1,1.Algorithme

Soient x0 à prévoir et z = (x1, y1), . . . , (xn, yn) un échantillon.Initialiser les poids ω = ωi = 1/n; i = 1, . . . ,n.Pour m = 1, . . . ,M

I Estimer δm sur l’échantillon pondéré par ω.I Calculer le taux d’erreur apparent

EP =

∑ni=1 ωi 1Iδm(xi )6=yi∑n

i=1 ωi.

I Calculer les logit : cm = log[(1− EP)/EP ].I Calculer les nouvelles pondérations :ωi := ωi exp[cm 1Iδm(xi )6=yi ]; i = 1, . . . ,n.

Résultat du vote : φM(x0) = signe

[M∑

m=1

cmδm(x0)

].

Agrégation de modèles

Page 136: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles adaptatifs - Boosting

RÉGRESSION

Soit x0 à prévoir et z = (x1, y1), . . . , (xn, yn) un échantillon.Initialiser p par la distribution uniformep = (pi = 1/n; i = 1, . . . ,n) .Pour m = 1 à M

I Tirer avec remise dans z un échantillon z∗m suivant p.I Estimer φm sur l’échantillon initial z avec Q fonction de perte :

lm(i) = Q(

yi , φm(xi

), Lm = sup

i=1,···nlm(i), εm =

m∑

i=1

pi lm(i),

ωi = β1−lm(i)/Lmm pi où βm =

εmLm − εm

.

I Calculer les nouvelles probabilités : pi :=ωi∑ni=1 ωi

.

Calculer φ(x0) moyenne ou médiane des prévisions φm(x0)

pondérées par des coefficients log(

1βm

).

Agrégation de modèles

Page 137: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Familles de modèles adaptatifs - Boosting

RÉGRESSION

Dans cet algorithme, la fonction perte Q peut être exponentielle,quadratique ou, plus robuste, la valeur absolue.Une condition supplémentaire peut être ajoutée. L’algorithme estarrêté ou réinitialisé à des poids uniformes si l’erreur se dégradetrop : εm < 0,5Lm.

L’algorithme génère M prédicteurs construits sur des échantillonsbootstrap z∗m dont le tirage dépend des probabilités p mises à jour àchaque itération, mise à jour dépendant

d’un paramètre βm indicateur de la performance sur l’échantillon zdu mème prédicteur estimé sur l’échantillon z∗m,

de la qualité relative lm(i)/Lm de l’estimation du ième individu.L’estimation finale est enfin obtenue à la suite d’une moyenne oumédiane des prévisions pondérées par la qualité respective dechacune des prévisions.

Agrégation de modèles

Page 138: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Conclusions

Sur-ajustement :I Le nombre d’itérations peut être contrôlé par un échantillon de

validation. Comme pour d’autres méthodes (perceptron), il suffitd’arrêter la procédure lorsque l’erreur estimée sur cet échantillonarrive à se dégrader.

I Une autre possibilité consiste à ajouter un coefficient derétrécissement. Compris entre 0 et 1, celui-ci pénalise l’ajout d’unnouveau modèle dans l’agrégation. Il joue le rôle d’un tauxd’apprentissage du perceptron et si sa valeur est petite (< 0,1),cela conduit à accroître le nombre d’arbres mais entraîne desaméliorations sensibles de la qualité de prédiction.

Instabilité :I Les modèles construits à base d’arbres sont très instables : une

légère modification des données est susceptible d’engendrer degrandes modifications dans les paramètres (les seuils et feuilles) dumodèle. C’est justement cette propriété qui rend cette techniquetrès appropriée à une amélioration par agrégation.

Agrégation de modèles

Page 139: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Conclusions

Interprétabilité :I L’interprétabilité des arbres de décision sont une des raisons de

leur succès. Cette propriété est évidemment perdue parl’agrégation d’arbres ou de tout autre modèle. Néanmoins, surtoutsi le nombre de variables est très grand, il est important d’avoir uneindication de l’importance relative des variables entrant dans lamodélisation.

I Un critère est calculé pour chaque variable j à partir des valeursD2

j (l ,m), calculées pour chaque noeud l de chaque arbre m. Cettequantité est la décroissance optimale de déviance produite par lasegmentation associée à ce noeud par le choix de la variable j . Cesvaleurs sont sommées par arbre sur l’ensemble des noeuds puismoyennées sur l’ensemble des arbres. Une normalisation fixe à 100la plus grande valeur correspondant à la variable la plus influente.

Agrégation de modèles

Page 140: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Agregation de modeles Bagging, Boosting, Random Forest

Qualites des classifieurs obtenus par agregation

Interpretabilite : NON !

Critique : NON

Consistance : NON (mais empiriquement efficace)

Minimax : NON

Parameter-free : NON

Vitesse : NON

Online : OUI

Page 141: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Plan

Introduction

SVM : Principe de fonctionnement général

Hyperplan, marge et support vecteur.

Linéairement séparable. Non-linéairement séparable.

Cas non linéaire. Le cas XOR.

Fondements mathématiques

Problème d’apprentissage.

Cas linéaire. Maximisation de la marge.

Cas linéaire. Marges larges relaxées.

De la linéarité à la non-linéarité : Fonction noyau et Condition deMercer.

Conclusion

Support Vecteurs Machine

Page 142: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Introduction

Objectif : Explication d’une variable Y par p variables X j , j = 1, . . . ,pobservées sur un même échantillon Ω de taille n. On note X la matricedes variables explicatives.

On dispose d’un nouvel individu (ou de plusieurs) sur lequel on aobservé les X j mais pas Y . Il s’agit de prédire la valeur de Y de cenouvel individu.

Seul le cas Y ∈ −1, 1 sera traité ici. On peut facilement étendre àcard(Y ) > 2 et à Y ∈ R.

La distribution jointe de (X,Y ), notée P, est inconnue.

SVM est une méthode de classification binaire par apprentissagesupervisé.

Support Vecteurs Machine

Page 143: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Introduction

Cette méthode repose sur

l’existence d’un classifieur linéaire dans un espace approprié,

l’utilisation de fonction noyau qui permettent une séparationoptimale des données.

Support Vecteurs Machine

Page 144: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Hyperplan, marge et support vecteur

But : Trouver un classifieur linéaire (hyperplan) qui va séparer lesdonnées et maximiser la distances entre ces 2 classes.

Les points les plus proches, quiseuls sont utilisés pour la détermi-nation de l’hyperplan, sont appelésvecteurs de support.

Support Vecteurs Machine

Page 145: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Hyperplan, marge et support vecteur

Intuition : Parmi les hyperplans valides, chercher l’hyperplan le "plussûr".En supposant qu’un exemple n’ait pas été parfaitement décrit, unepetite variation ne modifiera pas sa classification si sa distance àl’hyperplan est grande.

Objectif : Parmi les hyperplans valides, chercher l’hyperplan dont ladistance minimale aux exemples d’apprentissage est maximale. Cettedistance est appelée distance marge entre l’hyperplan et les exemples.

Support Vecteurs Machine

Page 146: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Linéairement séparable. Non-linéairement séparable

Parmi les modèles des SVMs, on distingue les cas linéairementséparables et les cas non-linéairement séparables. Dans les premierscas, il est facile de trouver le classifieur linéaire.

Dans la plupart des problèmes réels, il n’y a pas de séparation linéairepossible entre les données.

Support Vecteurs Machine

Page 147: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas non-linéaire

Idée : changer l’espace des données afin de surmonter l’inconvénientdes cas non-linéairement séparables. La transformation non-linéairedes données peut permettre une séparation linéaire des exemplesdans un nouvel espace, espace de représentation.

Intuitivement, plus la dimension de l’espace de représentation estgrande, plus la probabilité de pouvoir trouver un hyperplan séparateurentre les exemples est élevée.

Support Vecteurs Machine

Page 148: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas non-linéaire

Transformation d’un problème deséparation non-linéaire dans l’espacede représentation en un problème deséparation linéaire dans un espacede représentation de plus grandedimension.

Cette transformation non-linéaire estréalisée via une fonction noyau. Enpratique, quelques familles defonctions noyau paramétrables sontconnues : polynômiale, gaussien,sigmoïde et laplacien. Il revient àl’utilisateur de SVM d’effectuer destests pour déterminer celle quiconvient le mieux pour sonapplication.

Support Vecteurs Machine

Page 149: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas non-linéaire

LE CAS XORLe cas XOR (0, 0); (0, 1); (1, 0), (1, 1) n’est pas linéairementséparable, si on place les points dans un plan à dimension 2.

Si on prend une fonction polynômiale (x , y) 7→ (x , y , x × y) qui faitpasser d’un espace de dimension 2 à un espace de dimension 3, onobtient un problème en dimension 3 linéairement séparable.

Support Vecteurs Machine

Page 150: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Fondements mathématiques. Problème d’apprentissage

Objectif : Sachant qu’on observe un échantillon(X1,Y1); . . . ; (Xn,Yn) de n copies indépendantes de (X,Y ), on veutconstruire une fonction f : X 7→ Y telle que

P[f (X) 6= Y ] = P[f (X)Y ≤ 0] soit minimale.

Comme à chaque fois, il faut éviter le sous et le sur-apprentissage. Ilfaut trouver un compromis entre adéquation aux données etcomplexité du modèle afin de pouvoir généraliser.

Support Vecteurs Machine

Page 151: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas linéaire. Maximisation de la marge

Un hyperplan est défini à l’aide du produit scalaire de X par

< w, x > +b = 0

où w est un vecteur orthogonal au plan.Le signe de f (x) =< w, x > +b indique le côté où se trouve le point x.Un point est bien classé si et seulement si

yf (x) > 0.

Mais comme (w, b) caractérise le plan à un coefficient multiplicatifprès, on s’impose

yf (x) ≥ 1.

Un plan (w, b) est un séparateur si

∀i ∈ 1, · · · , n, yi f (xi) ≥ 1.

Support Vecteurs Machine

Page 152: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas linéaire. Maximisation de la marge

La distance d’un point x0 au plan (w, b) est donnée par

d(x0) =|w.x0 + b|

||w|| =|f (x)|||w|| .

La marge du plan a pour valeur2

||w||2 .

Chercher le plan séparateur de marge maximale revient à résoudre leproblème d’optimisation sous contraintes

min

w12 ||w||2

avec ∀i ∈ 1, · · · , n, yi(< w, xi > +b) ≥ 1.

Support Vecteurs Machine

Page 153: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas linéaire. Maximisation de la marge

La solution est fournie par le point-selle (w∗, b∗, λ∗) du lagrangien

L(w, b, λ) =12||w||2 −

n∑

i=1

λi [yi(< w, xi > +b)− 1] .

Ce point-selle vérifie

∀i ∈ 1, · · · , n, λ∗i [yi(< w∗, xi > +b∗)− 1] = 0.

Les vecteurs supports sont les vecteurs xi pour lesquels la contrainteest active, i.e. les plus proches du plan :

yi(< w∗, xi > +b∗) = 1.

Support Vecteurs Machine

Page 154: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas linéaire. Maximisation de la marge

En calculant les dérivées partielles du lagrangien, avec les λ∗i non nuls

seulement pour les points supports, on obtient :

w∗ =n∑

i=1

λ∗i yixi et

n∑

i=1

λ∗i yi = 0.

Ces contraintes d’égalité permettent d’exprimer la formule duale du

lagrangien

W (λ) =n∑

i=1

λi −12

n∑

i,j=1

λiλjyiyj < xi , xj > .

Support Vecteurs Machine

Page 155: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas linéaire. Maximisation de la marge

Pour trouver le point-selle, il suffit alors de maximiser W (λ) avecλi ≥ 0, ∀i ∈ 1, · · · , n.

La résolution de ce problème d’optimisation quadratique de taille nfournit l’équation de l’hyperplan optimal :

n∑

i=1

λ∗i yi < xi , xj > +b∗ = 0

avec

b∗ = −12[< w∗, svclass+1 > + < w∗, svclass−1 >] .

Support Vecteurs Machine

Page 156: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Cas linéaire. Maximisation de la marge

Pour une nouvelle observation x non apprise présentée au modèle, ilsuffit de regarder le signe de

f (x) =n∑

i=1

λ∗i yi < x, xi > +b∗,

pour savoir dans quel demi-espace cette forme se trouve et doncquelle classe lui sera attribuée.

Inconvénient de cette méthode :

Très sensible aux outliers.

Support Vecteurs Machine

Page 157: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Problème d’optimisation des marges larges relaxées

Lorsque les observations ne sont pas séparables par un plan, il estnécessaire d’"assouplir" les contraintes par l’introduction de termesd’erreur ξ qui en contrôlent le dépassement :

yi(< w, xi > +b) ≥ 1 − ξi , ∀i ∈ 1, · · · , n.

Le modèle attribue ainsi une réponse fausse à un vecteur xi si le ξi

correspondant est supérieur à 1. La somme de tous les ξi représentedonc une borne du nombre d’erreurs.

Le problème de minimisation est réécrit en introduisant unepénalisation par le dépassement de la contrainte

min

w12 ||w||2 + δ

∑ni=1 ξi

avec ∀i ∈ 1, · · · , n, yi(< w, xi > +b) ≥ 1 − ξi .

Support Vecteurs Machine

Page 158: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Problème d’optimisation des marges larges relaxées

Remarques :

La constante δ est maintenant un paramètre de l’algorithme quel’on choisit en pratique par validation croisée ou parapproximations. Plus δ est grand et plus cela revient à attribuerune forte importance à l’ajustement. Ce paramètre ajuste lecompromis entre bon ajustement et bonne généralisation.

La différence avec le cas séparable, c’est que les coefficients λi

sont tous bornés par le paramètre δ.

Support Vecteurs Machine

Page 159: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Du linéaire au non-linéaire

Au lieu de chercher un hyperplan dans l’espace des entrées, on passed’abord dans un espace de représentation intermédiaire (featurespace) de grande dimension

Φ :Rd −→ Fx 7→ Φ(x).

La formulation du problème de minimisation ainsi que sa solution

f (x) =n∑

i=1

λ∗i yi < x, xi > +b∗

ne font intervenir x et x′ que par l’intermédiaire de produits scalaires< x, x′ >.

Idée : Inutile d’expliciter Φ à condition de savoir exprimer les produitsscalaires dans F à l’aide d’une fonction k : Rp × Rp → R symétriqueappelée noyau telle que

k(x, x′) =< Φ(x),Φ(x′) > .

Support Vecteurs Machine

Page 160: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Conditions de Mercer

Une fonction k(., .) symétrique est un noyau si pour toutes les xi

possibles, (k(xi , xj))i,j est une matrice définie positive.Dans ce cas, il existe un espace F et une fonction Φ tels que

k(x, y) = Φ(x).Φ(y).

Remarques :

Ces conditions ne donnent pas d’indication pour la constructiondes noyaux.

Elles ne permettent pas de savoir comment est Φ.

En pratique, on combine des noyaux simples pour en obtenir desplus complexes.

Pourquoi le fait d’envoyer les données dans un espace de grandedimension (éventuellement infinie) ne conduirait-il pas à de l’overfitting(sur-apprentissage des données) ?La dimension ne joue pas de rôle, la seule quantité contrôlant lacomplexité est la marge.

Support Vecteurs Machine

Page 161: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Exemples de noyaux

Linéairek(x, y) =< x, y > .

Polynômial

k(x, y) = (< x, y >)d ou (c+ < x, y >)d .

Gaussienk(x, y) = e−||x−y||2/σ2

.

Laplacienk(x, y) = e−||x−y||1/σ2

.

Support Vecteurs Machine

Page 162: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Conclusion

La séparation claire en deux composantes (fonctionnelle àoptimiser et noyau) permet de séparer les tâches. En pratique, onpeut se concentrer sur la construction d’un noyau adéquat et lereste est confié à une "boîte noire".

La formulation comme problème d’optimisation quadratique souscontraintes linéaires permet l’application d’une batteried’algorithmes d’optimisation efficaces, permettant de s’attaquer àdes problèmes de grande taille (106 exemples d’apprentissage).

On peut encore reformuler le problème sous la forme d’unerecherche d’un estimateur non paramétrique basé sur uneminimisation du risque empirique pénalisé. Cela permet d’étudierles performances de l’algorithme (bornes de risques, vitesses deconvergence...) dans un cadre mathématique bien défini.

Support Vecteurs Machine

Page 163: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Support Vector Machines

Qualites des classifieurs SVM

Interpretabilite : NON !

Critique : possible

Consistance : OUI

Minimax : possible

Parameter-free : NON !

Vitesse : NON

Online : NON

Page 164: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Complements

Big DataBig Data = donnees massives, grand defi de la decennie 2010-2020 :

Big Science : environnement, physique, genomique, epidemiologie...

Technologies de l’information : reseaux de capteurs, internet...

Ce qui change :

Volume : p grandit avec n

regression en grande dimension, sparsitetests multiples (faux positifs), matrices aleatoires

Vitesse

parallelisation massive, paradigme “map-reduce”traitement decentralise avec cout de communication elevenecessite de specifier niveau de confiance, diagnostic du modele

Variabilite

derive temporelle, detection de ruptures, robustesselois de Pareto (cf Zipf, langages naturels, etc.)probleme du transfert, apprentissage supervise faibleaspect sequentiel, boucle fermee

Page 165: Apprentissage supervis eagarivie/mydocs/... · 2017-01-25 · A partir d’un echantillon d’apprentissage Dn = x 1;:::;xngˆX, partionner Xen classes pertinentes. Voc : parfois

Complements

Big Data : perspectives

Necessite d’algorithmes statistiques passant a l’echelle

Nouvelle decomposition du risque :

risque = approximation + estimation + optimisation

Les donnees comme ressources (et plus comme charge de travail) :

Sous-echantillonnage intelligent (exemple : regressionsous-echantillonnee en observations et predicteurs)Optimisation par gradient stochastique, apprentissagesequentiel

Utilisation de modeles non parametriques (bayesiens)

=⇒ Forte imbrication de problematiques mathematiques etinformatiques