Amأ©liorer la performance du modأ¨le avec les mأ©thodes ... ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4...

download Amأ©liorer la performance du modأ¨le avec les mأ©thodes ... ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6

of 172

  • date post

    14-Aug-2020
  • Category

    Documents

  • view

    0
  • download

    0

Embed Size (px)

Transcript of Amأ©liorer la performance du modأ¨le avec les mأ©thodes ... ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4...

  • Améliorer la performance du modèle avec les méthodes des

    Ensembles

  • 2 Copyright (c) 2018. Data Science Dojo

    Programme

    • Présentation Générale et raison d’être

    • Pourquoi les ensembles ? • Distribution binomiale

    • Famille de modèles • Bagging (Bootstrap AGGregating)

    • Random Forests (Forêts aléatoires)

    • Boosting

    • AdaBoost (Adaptive boosting)

  • 3 Copyright (c) 2018. Data Science Dojo

    Méthode des Ensembles

    •Améliorer la performance du modèle en combinant plusieurs modèles

    •Les ensembles peuvent provenir de tout algorithme d'apprentissage, incluant la classification et la régression

  • 4 Copyright (c) 2018. Data Science Dojo

    Modèles d’arbres de Décisions

    Sous ensemble 1 Sous-ensemble 2 Sous-ensemble 3

    Ensemble

    De modèles

    DONNÉE

    D’ORIGINE

  • 5 Copyright (c) 2018. Data Science Dojo

    Ensemble de Modèles d’arbres de Décisions

    Nouvelle Donnée

    Prédiction pour

    l’Ensemble

    Vote

    Prédiction 1 Prédiction 2 Prédiction 3

    • Combinaison de

    plusieurs modèles

    indépendants

    • Peut être de n’importe

    lequel des

    algorithmes

    • Vote des classificateurs

    • Moyenne de régression

    • Un point d’entrée pour une

    nouvelle donnée (donnée future)

    • Un nouveau passager du Titanic

    par exemple

  • 6 Copyright (c) 2018. Data Science Dojo

    DISTRIBUTION BINOMIAL

  • 7 Copyright (c) 2018. Data Science Dojo

    Distribution Binomiale

    Lancé

    F

    F F

    P

    P F

    P

    P

    F F

    P

    P F

    P

    Face Pile

    3 0

    2 1

    2 1

    1 2

    2 1

    1 2

    1 2

    0 3

    Considérons par exemple…

    ▪ Lancer une pièce 3 fois de suite

    ▪ Chaque lance est considéré comme

    indépendant

    ▪ Une pièce correcte a 50% de chance de

    Pile et de Face

    Propriétés d'une distribution binomial :

    ▪ Principe statistique bien étudié

    ▪ Vous ne pouvez pas savoir comment se

    comportera chaque tirage au sort ou

    les résultats individuels (tels que FFF ou

    FPF)

    ▪ Cependant, vous pourrez prédire le

    comportement grâce à l’agrégation de

    plusieurs sessions de tirage au sort

  • 8 Copyright (c) 2018. Data Science Dojo

    Distribution Binomiale

    knk pp k

    n kXPpnkf 

      

      )1()(),;(

  • 9 Copyright (c) 2018. Data Science Dojo

    Répondre à l’ensemble des 5 questions correctement?

    • P = 1/5

    • N = 10

    • Probabilité de répondre aux 10 questions correctement: 10!/10! * (1/5)^10 * (1-1/5)^(10- 10) = 0.0000001024

  • 10 Copyright (c) 2018. Data Science Dojo

    Champs d’applications

    • Nombre de détenteurs d’assurance vie qui feront une réclamation sur une période donnée

    • Nombre de détenteurs de prêts qui auront un incident de paiement sur une certaine période

    • Nombre de faux départs d'une voiture en n tentatives

    • Nombre d'éléments défectueux dans n échantillons provenant d'une ligne de production

    • ET Méthode des Ensembles

  • 11 Copyright (c) 2018. Data Science Dojo

    Comment cela fonctionne ?

     

      

      

    25

    13

    25 06.0)1( 25

    i

    ii

    i 

    • Supposons qu’il y ait 25 classificateurs de base (modèles construits sur les sous-ensembles de données) • Chaque classificateur a un taux d'erreur,  = 0.35 (notre

    p)

    • On considère que les classificateurs sont indépendants

    • Probabilité que le classificateur d'ensemble fasse une prédiction erronée :

  • 12 Copyright (c) 2018. Data Science Dojo

    Exemples de Méthodes d’Ensemble

    Bagging (Bootstrap AGGregating) • Tous les classificateurs sont créés égaux

    Boosting • Tous les classificateurs NE sont PAS créés égaux

  • 13 Copyright (c) 2018. Data Science Dojo

    BAGGING

  • 14 Copyright (c) 2018. Data Science Dojo

    Bagging

    • Echantillonnage avec replacement

    • Chaque sac contient des variantes des données originales

    • Cela produit, alors, des arbres différents

    Données d’origine

    SAC 1 SAC 2 SAC 3

  • 15 Copyright (c) 2018. Data Science Dojo

    Bagging

    Donnée d’Origine

    Sac 1 Sac 2 Sac 3

    * Chaque boule est une observation dans le jeu de données

  • 16 Copyright (c) 2018. Data Science Dojo

    Forêts de groupement de décisions

    Bag 1 Bag 2 Bag 3

    Modèles d’ensembles

    combinés

    Donnée

    d’Origine • Créé une projection du jeu

    de données échantillonnées

    avec des exemples

    • Chaque sac est

    aléatoirement différent,

    générant différents arbres

    • Un nouvel arbre est

    construit à partir de

    chacun des sacs

    Groupe 1

  • 17 Copyright (c) 2018. Data Science Dojo

    Bagging

    Original Data 1 2 3 4 5 6 7 8 9 10

    Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9

    Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2

    Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7

    • Échantillonnage avec remplacement

    Sac 1 (Modèle 1): {7, 8, 10, 2, 5, 9} OOB (Hors du Sac /Out of Bag): {1, 3, 4, 6}

    Sac 2 (Modèle 2): {1, 4, 9, 2, 3, 7} OOB: {5, 6, 8, 10} Sac 3 (Modèle 3): {1, 8, 5, 10, 9, 6, 3, 7} OOB: {2, 4}

  • 18 Copyright (c) 2018. Data Science Dojo

    Bagging

    • Réduit la variance des estimations

    • Évite les surdimensionnements

    • Résiste aux valeurs aberrantes

  • 19 Copyright (c) 2018. Data Science Dojo

    FORÊTS ALÉATOIRES

  • 20 Copyright (c) 2018. Data Science Dojo

    QU’EST-CE QU’UNE FORÊT ALÉATOIRE?

    • Un classificateur d'ensemble utilisant de nombreux modèles d'arbre de décision

    • Peut être utilisé pour la classification ou la régression

    • La précision et l'importance de la variable sont intégrées

  • 21 Copyright (c) 2018. Data Science Dojo

    COMMENT FONCTIONNE UNE FORÊT ALÉATOIRE?

    • Un sous-ensemble différent des données d’apprentissage est sélectionné (~ 2/3), avec remplacement, pour former chaque arbre

    • Les données d’apprentissage restantes (c.-à-d. les données hors sac ou simplement OOB) sont utilisées pour estimer l'erreur et l'importance de la variable

    • L'attribution de classe est faite par le nombre de votes de tous les arbres. Pour la régression, la moyenne des résultats est utilisée

  • 22 Copyright (c) 2018. Data Science Dojo

    {Périmètre, concavité, texture, compacité}

    Périmètre Concavité Texture Compacité

    Gini 1 Gini 2 Gini 3 Gini 4

    Comparons les données de Gini à partir de tous les fractionnements et sélectionnons les caractéristiques qui permettent les plus grandes réductions dans Gini. La fonctionnalité qui se traduit par la plus grande réduction de Gini est alors

    utilisée comme la première fonction à diviser

  • 23 Copyright (c) 2018. Data Science Dojo

    {Périmètre, concavité, texture, compacité}

    Périmètre

    (Gini 1)

    {Concavité, Texture}

  • 24 Copyright (c) 2018. Data Science Dojo

    BOOSTING

  • 25 Copyright (c) 2018. Data Science Dojo

    Boosting

    Cas

    d’apprentissage

    Classés

    correctement

    Ce cas d’apprentissage

    a un poids très lourd

    dans ce cycle

    Ce DT a un vote très lourd

    a strong vote

    Cycles de Boosting

  • 26 Copyright (c) 2018. Data Science Dojo

    Boosting

    • Une procédure itérative pour modifier de manière adaptative la distribution des données d’apprentissage en se concentrant davantage sur les enregistrements précédemment classés de manière erronée

    • Initialement, tous les enregistrements N sont considérés de même “poids” • Contrairement au bagging, les poids peuvent changer à la fin d'un cycle de boosting

  • 27 Copyright (c) 2018. Data Science Dojo

    Boosting

    Original Data 1 2 3 4 5 6 7 8 9 10

    Boosting (Round 1) 7 3 2 8 7 9 4 10 6 3

    Boosting (Round 2) 5 4 9 4 2 5 1 7 4 2

    Boosting (Round 3) 4 4 8 10 4 5 4 6 3 4

    • Les enregistrements mal classés vont voir leur “poids” augmenter

    • Les enregistrements correctement classés vont voir leur “poids” diminuer

    • Le cas 4 est difficile à classer • Son "poids » est augmenté, il sera donc plus probable de le choisir à nouveau dans les prochains tours à venir

  • 28 Copyright (c) 2018. Data Science Dojo

    L’Intuition du Boosting

    • Nous adaptons le poids de chaque jeux de données.

    • Les jeux de données classés de manière erronées obtienn