Fondements théorétiques en science des données Arbres de...

40
Fondements théorétiques en science des données Arbres de décision STT 3795 Guy Wolf [email protected] Université de Montréal Hiver 2020 STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 1 / 14

Transcript of Fondements théorétiques en science des données Arbres de...

Page 1: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Fondements théorétiques en science des données

Arbres de décision

STT 3795

Guy [email protected]

Université de MontréalHiver 2020

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 1 / 14

Page 2: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décision

Un arbre de décision est un modèle simple, mais efficace, declassification.

L’étape d’induction d’arbre construit essentiellement un ensemblede régles IF-THEN, qui peut être visualisé comme un arbre, pourtester l’appartenance à une classe de points de données.

L’étape déduction teste ces conditions et suit les branches del’arbre pour établir l’appartenance à une classe

Intuitivement, on peut y penser comme une constructiond’«interview» pour estimer la classification de chaque point dedonnées.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 2 / 14

Page 3: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décision

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 2 / 14

Page 4: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décision

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 2 / 14

Page 5: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionAlgorithmes de construction d’arbres

Au fil des ans, de nombreux algorithmes d’induction d’arbres dedécision ont été proposés.

Exemples (Algorithmes d’induction des arbres de décision)CART (Classification And Regression Trees)ID3 (Iterative Dichotomiser 3) & C4.5SLIQ & SPRINTRainforest & BOAT

La plupart suivent un paradigme top-down de base connu comme«Hunt’s algorithm», bien que certains utilisent des approches al-ternatives (p.ex., des constructions bottom-up) et des étapesd’implémentation particulières pour améliorer les performances.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 3 / 14

Page 6: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionApproche de base (Hunt’s algorithm)

Un arbre est construit de haut en bas en utilisant une approchegloutonne récursive:

1 Start with all the training samples at the root2 Choose the best attribute & split into several data subsets3 Create a branch & child node for each subset4 Run the algorithm recursively for each child node and associated

subset5 Stop the recursion when one of the following conditions are met:

All the data points in the node have the same class labelThere are no attributes left to split byThe node is empty

Si un nœud de feuille contient plus d’une étiquette de classe, utilisezun vote à la majorité/pluralité pour définir sa classe.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14

Page 7: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionApproche de base (Hunt’s algorithm)

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14

Page 8: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionDivision de nœuds

Chaque nœud interne de l’arbre prend en compte :un sous-ensemble de données, basé sur le chemin qui y mèneun attribut permettant de tester et de générer dessous-ensembles plus petits à transmettre aux nœuds enfants

La division d’un nœud en nœuds enfants dépend du type de l’attributtesté et de la configuration de l’algorithme.

Par exemple, certains algorithmes forcent des divisions binaires (p.ex.,CART), tandis que d’autres permettent des divisions multivoies(p.ex., C4.5).

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 5 / 14

Page 9: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionDivision de nœuds

Division par attributs nominaux:Divisions binaires: utilisez un ensemble de valeurs possibles sur une

branche et son complément sur l’autre:

or

Divisions multivoies: utilisez une branche distincte pour chaquevaleur possible:

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 5 / 14

Page 10: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionDivision de nœuds

Division par attributs ordinaux:Divisions binaires: trouvez un seuil et partitionnez en valeurs

supérieures et inférieures:

or

Divisions multivoies: utilisez une branche distincte pour chaquevaleur possible:

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 5 / 14

Page 11: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionDivision de nœuds

Division par attributs numériques:Divisions binaires: trouvez un seuil et partitionnez en valeurs

supérieures et inférieures:

Divisions multivoies: discrétisez les valeurs (statiquement comme unprétraitement ou dynamiquement) pour former desvaleurs ordinales :

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 5 / 14

Page 12: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionDivision de nœuds

Comment choisit-on le meilleur attribut (et la meilleure division) àutiliser à chaque nœud?

On veut augmenter l’homogénéité et réduire l’hétérogénéité dessous-nœuds qui en résultent. En d’autres termes - on cherche dessous-ensembles aussi purs que possible p/r aux classes.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 5 / 14

Page 13: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 14: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

L’impureté peut être quantifiée de plusieurs façons, qui varient d’unalgorithme à l’autre :

Mesures d’impuretéErreur de classificationEntropie (e.g., ID3 and C4.5)Gini index (e.g., CART, SLIQ, and SPRINT)

En général, ces mesures sont équivalentes dans la plupart des cas,mais il existe des cas spécifiques où l’une d’entre elles peut êtreavantageuse par rapport aux autres.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 15: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

L’impureté peut être quantifiée de plusieurs façons, qui varient d’unalgorithme à l’autre :

Mesures d’impuretéErreur de classificationEntropie (e.g., ID3 and C4.5)Gini index (e.g., CART, SLIQ, and SPRINT)

Le gain d’impureté d’une division t 7→ t1, . . . , tk est la différence

∆Impurity = Impurity(t)−∑i=1

#pts(ti)#pts(t) Impurity(ti)

entre l’impureté à t et la moyenne pondérée des impuretés enfantines.STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 16: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

Erreur de classificationLe taux d’erreur encouru en classant le nœud entier par vote depluralité:

Error(t) = 1−maxc{p(c|t)}

où p(c|t) est la fréquence de la classe c dans le noeud t.

L’erreur minimale est de zéro - obtenue lorsque tous les pointsde données du nœud ont la même classeL’erreur maximale est de 1− 1

#classes - obtenue lorsque les pointsde données dans le nœud sont également répartis entre lesclasses

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 17: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

Exemples (Erreur de classification)

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 18: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

L’erreur de classification ne détecte pas toujours d’améliorations:

Exemple

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 19: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

EntropieConcept standard de la théorie d’information qui mesure l’impuretéd’un nœud en fonction du nombre de «bits» nécessaires pour yreprésenter les étiquettes de classe:

Entropy(t) = −∑

cp(c|t) log2 p(c|t)

où p(c|t) est la fréquence de la classe c dans le noeud t.

L’entropie minimale est de zéro - obtenue lorsque tous les pointsde données du nœud ont la même classeL’entropie maximale est de log(#classes) - obtenue lorsque lespoints de données dans le nœud sont également répartis entreles classes

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 20: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

Exemples (Entropie)

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 21: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

«Information Gain»Pour un nœud t divisé en nœuds enfants t1, . . . , tk , le gaind’information de cette division est défini comme suit :

Info_Gain(t, t1, . . . , tk) = Entropy(t)−∑i=1

#pts(ti)#pts(t) Entropy(ti)

où #pts(·) est le nombre de points de données dans un nœud.

Il mesure la réduction de l’entropie obtenue par la scission - unedivision optimale maximiserait ce gain.Désavantage : il tend à préférer un grand nombre de petitsnœuds enfants purs (p.ex., provoquant de surajustement)

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 22: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

«Gain Ratio»Pour un nœud t divisé en nœuds enfants t1, . . . , tk , le ratio de gainnormalise le gain d’information par

Split_Info(t, t1, . . . , tk) = −k∑

i=1

#pts(ti)#pts(t) log2

#pts(ti)#pts(t)

pour obtenir Gain_Ratio = Info_GainSplit_Info .

Il pénalise les partitions à forte entropie (c-à-d, avec un grandnombre de petits nœuds enfants)Il est utilisé dans le C4.5 pour surmonter les désavantages dugain d’information brute.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 23: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

Gini indexUn indice d’«inégalité sociale» (ou, plus formellement, de dispersionstatistique) développé par le statisticien/sociologue Corrado Gini :

Gini(t) = 1−∑

c[p(c|t)]2

où p(c|t) est la fréquence de la classe c dans le noeud t.

La valeur minimale de Gini est de zéro - obtenue lorsque tous lespoints de données du nœud ont la même classeL’indice de Gini maximal est de 1− 1

#classes - obtenu lorsque lespoints de données dans le nœud sont également répartis entreles classes

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 24: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

Exemples (Gini index)

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 25: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

La valeur de Gini pour une division est calculée de la même manièreque pour une erreur de classification, mais elle fonctionne mieux:

Exemple

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 26: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

Comparaison des trois mesures d’impuretés pour deux classes, où pest la portion de points dans l’une (et 1− p dans l’autre):

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 27: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionMesures d’impureté

Des études ont montré que le choix des mesures d’impuretés a peud’effet sur la qualité de la classification. Néanmoins, chaque choix ason propre biais.Information gain:

biaisé en faveur des attributs multivalorisésGain ratio:

a tendance à préférer les divisions déséquilibrées où une partitionest nettement plus petite que les autres

Gini index:biaisé en faveur des attributs multivalorisésa des difficultés quand la #classes est grandetend à favoriser des partitions de même taille et de même pureté

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 6 / 14

Page 28: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionFrontières de décision

Les frontières des décisions indiquent quelles régions correspondent àquelle classe:

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 7 / 14

Page 29: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionFrontières de décision

Et si nous voulons considérer les régions non rectangulaires?

Les arbres de décision obliques prennent en compte les combinaisonslinéaires d’attributs

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 7 / 14

Page 30: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionFrontières de décision

Et si nous voulons considérer les régions non rectangulaires?

Les arbres de décision obliques prennent en compte les combinaisonslinéaires d’attributs

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 7 / 14

Page 31: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionL’élagage des arbres

Des arbres de décision trop grands peuvent facilement surajuster lesdonnées d’entraînement et ne pas bien généraliser.

Dans ce cas, la complexité du modèle peut être quantifiée par lenombre de nœuds dans l’arbre. Pour éviter le surajustement, la taillede l’arbre induit doit être limitée.

On peut aussi utiliser le principe de longueur minimale de description(LMD) de la théorie d’information:

LMDMinimisez Cost(data,model) = Cost(model) + Cost(data|model), oùce dernier coût ne tient compte que des étiquettes de classe pour lespoints mal classifiés.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 8 / 14

Page 32: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Arbres de décisionL’élagage des arbres

La taille de l’arbre de décision est réduite par l’élagage:

Pre-élagageArrêtez l’algorithme d’apprentissage de l’arbre avant que l’arbre n’ait atteint sapleine taille en utilisant des conditions d’arrêt restrictives, telles que:

le gain en impuretés est inférieur à un seuil donnéla taille du sous-ensemble considéré est inférieure à un seuil

Post-élagageApprenez d’abord un arbre complet, puis coupez-le en utilisant les opérationssuivantes:

Remplacement d’un sous-arbre - couper un sous-arbre et le remplacer parune feuilleSoulèvement du sous-arbre - utiliser la branche la plus traversée à un nœud,élever son sous-arbre d’un niveau, et éliminer les sous-arbres frères.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 8 / 14

Page 33: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Forêts aléatoiresEnsemble d’arbres de décision

Alors que les arbres de décision sont simples et efficaces, ils sont égale-ment sensibles aux variations d’entraînement et au suréquipement.Pour réduire la variance et augmenter la stabilité, plusieurs arbres dedécision peuvent être combinés ensemble pour former une forêt:

Forêt aléatoireUne méthode d’ensemble qui combine plusieurs arbres de décision etagrège leurs résultats. Pour construire les arbres, plusieurs vecteursaléatoires sont échantillonnés i.i.d. de la même distribution et chaqueconstruction individuelle d’arbre de décision dépend des données et del’un de ces vecteurs.

Les forêts aléatoires sont plus efficaces en termes de calcul que lesautres méthodes d’ensemble, tout en ayant une précision comparable.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 9 / 14

Page 34: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Forêts aléatoiresEnsemble d’arbres de décision

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 9 / 14

Page 35: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Forêts aléatoiresEnsemble d’arbres de décision

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 9 / 14

Page 36: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Forêts aléatoiresDes approches de randomisation des arbres

Les entrées de l’arbre de décision peuvent être randomisées de deux façons:

Sélection aléatoire des entrées (Forest-RI):Sélectionnez aléatoirement un sous-ensemble d’attributs commecandidats à la division des nœuds au lieu d’utiliser tous lesattributs des données. Cette sélection aléatoire est généralementeffectuée séparément à chaque nœud.

Combinaisons linéaires aléatoires (Forest-RC):Créez de nouveaux attributs qui sont une combinaison linéaire(aléatoire) d’attributs existants. Ce qui réduit la corrélation entreles classificateurs individuels, mais permet également de définirdes limites de décision non rectangulaires.

Ce dernier peut être lié à des projections aléatoires, qui sont également utiliséesdans d’autres tâches (p.ex., la recherche de kNN et la réduction de ladimensionnalité).

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 10 / 14

Page 37: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Projections aléatoires

Random projections (RP) are a popular an efficient way to project(numerical) data into a space of arbitrary dimensions, without havingto learn the embedding function from the data.

For a dataset of n data points in d dimensions, a typical constructionuses the following steps:

Choose target dimension k > 0, draw k · d samples i.i.d. from agiven distribution, and organize them in a matrix R ∈ Rd×k

Scale R by some factor to get matrix A (e.g., A = k−1/2R)Organize the data points as rows of a matrix X ∈ Rn×d andembed via matrix multiplication XA ∈ Rn×k

Random forests (FC) can be regarded as building decision trees onmultiple instantiations of RP.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 11 / 14

Page 38: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Projections aléatoiresLe lemme Johnson-Lindenstrauss

La motivation et le raisonnement qui sous-tendent le RP proviennentdu célèbre lemme JL et de sa preuve.

Lemme (Johnson-Lindenstrauss, 1984)Soit X ⊆ Rd un ensemble de données fini de taille |X | = n. Pourtout 0 < ε < 1 et k > 8 ln(n)

ε2 arbitraires, il existe un plongementlinéaire de X dans Rk tel que (1− ε) ≤ ‖f (x)−f (y)‖2

‖x−y‖2 ≤ (1 + ε).

Lemme (Version alternative - lemme JL distributionnel)Étant données des 0 < ε, δ < 1

2 et k > Cε2 ln(1

δ) arbitraires, où C est

une constante, soit R une matrice k × d t.q. Riji .i .d .∼ N (0, 1). Alors,

pour A = 1√kR et pour tout x ∈ Rd unitaire,

Pr [|‖Ax‖2 − 1| ≤ ε] ≥ (1− δ).STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 12 / 14

Page 39: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

Projections aléatoiresProjections aléatoires clairsemées

Il existe plusieurs façons de construire une matrice de projectionaléatoire, p.ex.:

Exemple (Achlioptas 2001)Un schéma simple mais efficace de la matrice de projection consiste àtirer aléatoirement (i.i.d.) la matrice R (rappel A =

√k−1R) de:

Rij =

+√s with probability 1

2s0 with probability (1− 1

s )−√s with probability 1

2s

où s > 0 contrôle la sparsité de la matrice construite.

D’autres constructions permettent des matrices plus clairsemées, oubien imposent l’orthogonalité pour une projection propre.

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 13 / 14

Page 40: Fondements théorétiques en science des données Arbres de …stt3795.guywolf.org/Diapos/S05.pdf · 2020-02-14 · STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 4 / 14.

RécapitulationLes arbres de décision sont des classificateurs simples et populaires

L’algorithme d’induction conçoit un partitionnement hiérarchique desdonnées en sous-ensembles homogènes qui se composent pour la plupartd’une seule classe

La classification des nouveaux points de données se fait en suivant lesbranches de l’arbre et le vote majoritaire dans les nœuds des feuilles

Le surajustement et la variance élevée sont courants avec les arbres de décision,mais peuvent être atténués par l’élagage et la randomisation

Les forêts aléatoires sont un exemple populaire de «ensemble classification»

Ils utilisent des arbres multiples pour obtenir des frontières de décisionsolides et flexibles

La randomisation est réalisée par la sélection ou la projection d’élémentsaléatoires avant la construction de chaque arbre de décision

STT 3795 (Guy Wolf) Arbres de décision UdeM - Hiver 2020 14 / 14