AGREGATION DE CLASSIFIEURS

24
AGREGATION DE CLASSIFIEURS La réduction de l’erreur en généralisation est l’une des principales motivations de l’apprentissage automatique. Breiman [1994, 1996] a montré formellement en s’appuyant sur la décomposition biais-variance qu’il était avantageux d’adopter la décision moyenne de plusieurs classifieurs plutôt que choisir

description

AGREGATION DE CLASSIFIEURS. La réduction de l’erreur en généralisation est l’une des principales motivations de l’apprentissage automatique. - PowerPoint PPT Presentation

Transcript of AGREGATION DE CLASSIFIEURS

Page 1: AGREGATION DE CLASSIFIEURS

AGREGATION DE CLASSIFIEURS

La réduction de l’erreur en généralisation est l’une des principales motivations de

l’apprentissage automatique.

Breiman [1994, 1996] a montré formellement en s’appuyant sur la décomposition biais-variance

qu’il était avantageux d’adopter la décision moyenne de plusieurs classifieurs plutôt que

choisir la « meilleure ».

Page 2: AGREGATION DE CLASSIFIEURS

• Sa méthode, le bagging, est maintenant une référence et son idée a inspiré de très nombreux chercheurs, non seulement pour en améliorer les performances, mais également pour obtenir une meilleure estimation de l’erreur en généralisation. Exemple : On génère différents arbres en perturbant l’échantillon d’apprentissage.

Page 3: AGREGATION DE CLASSIFIEURS

Définitions

• Le biais traduit l’incapacité du modèle à apprendre correctement le concept i.e. l’erreur commise systématiquement.

• La variance traduit la sensibilité de l’algorithme à l’échantillon d’apprentissage. On dit qu’une méthode souffre d’une grande variance si une faible perturbation dans l’échantillon implique d’importantes modifications du classifieur.

Page 4: AGREGATION DE CLASSIFIEURS

Décomposition pour une fonction d’erreur quadratique

Régression classique• On cherche à reconstruire un concept f(x)

tel que y = f(x) + , où x représente un vecteur de variables exogènes, y la variable endogène et un bruit quelconque.

Page 5: AGREGATION DE CLASSIFIEURS

• La fonction (x) est estimée sur un échantillon d’apprentissage a.

• Pour juger de son efficience, on utilise une fonction d’erreur quadratique qui s’écrit: Erreur(f) = Ea [(x)-f(x)]2

• Soit maintenant a1, ……., as, s échantillons extraits de manière indépendante dans la population , produisant chacun un prédicteur i(x) (i=1 à s).

• Le prédicteur agrégé (x) est défini par: (x) = lim s--> (1/s) i(x) dont

l’erreur quadratique s’écrit: Biais(f) = Ea [(x)-f(x)]2

Page 6: AGREGATION DE CLASSIFIEURS

• Breiman a montré en 1996 que: Erreur(f) = Ea( 2) + Biais(f) + Vara(f) où Vara(f) = E [(x)- (x)]2

• C’est la décomposition fondamentale de l’erreur en biais-variance pour le schéma de régression avec une erreur quadratique. Remarque: L’erreur moyenne du prédicteur agrégé sera toujours inférieure à l’erreur moyenne d’un seul prédicteur.

Page 7: AGREGATION DE CLASSIFIEURS

Décomposition pour une fonction d’erreur de type « 0-1 »

• La décomposition pour une fonction d’erreur de type «0-1» (0 si pas d’erreur) est le champ d’un large débat.

• Maintenant, la variable endogène y est qualitative et prend ses valeurs dans {y1,…,yk}.

Page 8: AGREGATION DE CLASSIFIEURS

• La fonction d’erreur du classifieur s’écrit pour un individu w à classer: e(w) = 0 si (w)=f(w), 1 si (w)!=f(w).

• Si nous disposons de s échantillons d’apprentissage indépendants, l’erreur moyenne du prédicteur agrégé s’écrit: eA(w) = lim s--> (1/s) i ei(w)

• Cette quantité constitue également l’estimateur de la probabilité d’occurrence d’un mauvais classement sur un individu lorsqu’on utilise un prédicteur : E[(w)!=f(w)] = eA(w)

Page 9: AGREGATION DE CLASSIFIEURS

• D’après Dietterich et Kong (1995), on peut relier le biais et la variance de la manière suivante: soit une observation w à classer, si eA(w) > 0.5, on considère que le prédicteur agrégé le classera mal.

• On définit: Biais(,w) = 1 si eA(w) > 0.5, 0 sinon. Var[,w] = E[(w)!=f(w)] - Biais [,w]

• Problème: variance négative! Justification: certains points seront mal classés par certains classifieurs, bien classés par d’autres. Ainsi, des occasionnels classements chanceux peuvent réduire l’erreur moyenne.

Page 10: AGREGATION DE CLASSIFIEURS

• Diettrich et Kong ont constaté empiriquement que:– Les techniques d’élagage jouent très peu sur la

variance tout en accroissant le biais.– Les techniques d’agrégation augmentent très

légèrement le biais mais cela est compensé par une réduction drastique de la variance.

Page 11: AGREGATION DE CLASSIFIEURS

• La décomposition de biais-variance de l’erreur a fortement séduit de nombreux chercheurs pour expliquer le rôle bénéfique de l’agrégation des classifieurs. Mais elle n’est pas la seule manière de prouver qu’un prédicteur agrégé est meilleure en généralisation.

• Heath et al [1993] ont produit une démonstration formelle de la réduction de la probabilité de mal classer sous certaines conditions en s’appuyant sur l’analyse de la combinaison de l’erreur sous l’hypothèse d’indépendance entre les classifieurs.

• Il apparaît au regard de cette analyse que l’effet de l’agrégation est multiplicatif, il améliore les bons classifieurs et détériore les mauvais.

Page 12: AGREGATION DE CLASSIFIEURS

Rappel: Formule des probabilités totales

• On sait qu’on affecte (normalement) à l’individu w la classe qui maximise sa probabilité à postériori: = arg max P(yk/w)

• Et, lorsqu’on veut classifier w avec un classifieur Mi, on choisit en général la classe qui maximise l’expression: = arg max P(yk/w, Mi )

Page 13: AGREGATION DE CLASSIFIEURS

• i.e. on lui affecte la classe qui est la plus probable sachant la feuille (le sous-groupe) à laquelle il appartient.

• On a: P(yk/w) = i P(Mi /w)x P(yk/w, Mi )

• Puisqu’il est impossible de générer tous les arbres, toute la problématique de l’agrégation des classifieurs repose sur le choix d’un ensemble de classifieurs Mi (un ensemble d’arbres,…).

Page 14: AGREGATION DE CLASSIFIEURS

Moyennage

• Le moyennage (averaging) représente, avec les arbres à options, une méthode à part dans toutes les stratégies d’agrégation de classifieurs: on ne génère qu’un seul arbre à partir des données, mais en révisant les probabilités d’affectation lorsqu’on a un individu à classer.

• Il existe plusieurs façons de construire l’ensemble des sous-arbres. Sur chacun d’eux, on peut recalculer les probabilités.

Page 15: AGREGATION DE CLASSIFIEURS

Arbres à options• On part du constat que le choix de l’attribut de

découpage sur un nœud se décide souvent à très peu de choses, un ou deux individus supplémentaires peuvent faire basculer la décision. Dès lors, plutôt que de décider en faveur de l’attribut qui maximise la mesure d’évaluation des segmentations, on propose de restituer l’incertitude en proposant plusieurs découpages alternatifs sur un nœud.

• L’arbre, par la suite, maintiendra ses branches en parallèle.

Page 16: AGREGATION DE CLASSIFIEURS

Construction aléatoire

Page 17: AGREGATION DE CLASSIFIEURS

Agrégation par apprentissage sur plusieurs échantillons différents.

Le bagging

• Pour s classifieurs à produire, on effectue un tirage aléatoire avec remise dans a, puis on construit le classifieur sur l’échantillon ai ainsi constitué.

Page 18: AGREGATION DE CLASSIFIEURS

• On remarquera que |ai | = |a | = n, mais qu’environ 37% des individus de a sont absents des ai . En effet, au premier tirage, un individu a (1-(1/n)) chances (probabilités) de ne pas être choisi. Au bout de n tirages indépendants et équiprobables, la probabilité qu’il n’ait jamais été choisi est: (1-(1/n))n e-1 0.368.

• Le schéma de tirage étant simple et avec remise, on conjecture que les Mi sont équiprobables au regard de l’individu w à classer, i.e.: P(Mi/w)=1/s

Page 19: AGREGATION DE CLASSIFIEURS

Résumé de la procédure de construction du prédicteur agrégé

• 1) Pour s replications,– a) construire un échantillon ai de taille n en

effectuant un tirage aléatoire avec remise dans a .

– b) construire le classifieur Mi à partir de ai

Page 20: AGREGATION DE CLASSIFIEURS

• 2) Affecter alors en généralisation à l’individu w la classe yk tel que:

yk* = arg maxk i (1/s)x[Mi(w)=yk]

ce qui correspond à un vote à la majorité simple. L’efficacité du bagging sur des fichiers benchmark n’est plus à démonter.

Page 21: AGREGATION DE CLASSIFIEURS

Le boosting

• Freund et Shapire (1995) ont proposé un système de pondération, le boosting, qui permettrait de construire une série de prédicteurs couvrant mieux, par rapport au bagging, l’espace de la représentation.

• La procédure est la suivante:

Page 22: AGREGATION DE CLASSIFIEURS

• 1) Au départ, on affecte à chaque individu le poids pw=(1/n) pour le premier échantillon, on a a1 = a (i=1).

• 2) On construit le classifieur Mi en utilisant les poids pw, ce qui permet d’isoler un ensemble d’individus mal classés en apprentissage a1,mc a, avec i= |ai,mc | / |a |,

• 3) Si i =0 ou i >= 0.5 alors FIN

• 4) Dans le cas contraire, on pondère chaque individu mal classé par la quantité i= i /(1- i ) pour constituer l’échantillon a(i+1) (les autres possèdent le poids 1/n).

Page 23: AGREGATION DE CLASSIFIEURS

• 5) On normalise tous les poids de manière à obtenir leur somme égale à 1.

• 6) On recommence l’étape 2 avec i=i+1.

• 7) On agrège alors les s classifieurs Mi en les pondérant par la quantité log (1/i), on affecte ainsi en généralisation la classe yk* à l ’individu

w si: yk* = arg maxk i log (1/i)x[Mi(w)=yk] .

Page 24: AGREGATION DE CLASSIFIEURS

Ecueil

• P(Mi/w) = log (1/i) et

donc i P(Mi/w) est différent de 1.

• Intuitivement, on comprend qu’on pénalise plus les mauvais classifieurs. En revanche, du point de vue de l’analyse probabiliste, la méthode est attaquable.

• Malgré cette réserve,les performances du boosting sont meilleurs que celle du bagging en moyenne.