Améliorer la performance du modèle avec les méthodes...

172
Améliorer la performance du modèle avec les méthodes des Ensembles

Transcript of Améliorer la performance du modèle avec les méthodes...

Page 1: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Améliorer la performance du modèle avec les méthodes des

Ensembles

Page 2: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

2Copyright (c) 2018. Data Science Dojo

Programme

• Présentation Générale et raison d’être

• Pourquoi les ensembles ?• Distribution binomiale

• Famille de modèles• Bagging (Bootstrap AGGregating)

• Random Forests (Forêts aléatoires)

• Boosting

• AdaBoost (Adaptive boosting)

Page 3: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

3Copyright (c) 2018. Data Science Dojo

Méthode des Ensembles

•Améliorer la performance du modèle en combinant plusieurs modèles

•Les ensembles peuvent provenir de tout algorithme d'apprentissage, incluant la classification et la régression

Page 4: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

4Copyright (c) 2018. Data Science Dojo

Modèles d’arbres de Décisions

Sous ensemble 1 Sous-ensemble 2 Sous-ensemble 3

Ensemble

De modèles

DONNÉE

D’ORIGINE

Page 5: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

5Copyright (c) 2018. Data Science Dojo

Ensemble de Modèles d’arbres de Décisions

Nouvelle Donnée

Prédiction pour

l’Ensemble

Vote

Prédiction 1 Prédiction 2 Prédiction 3

• Combinaison de

plusieurs modèles

indépendants

• Peut être de n’importe

lequel des

algorithmes

• Vote des classificateurs

• Moyenne de régression

• Un point d’entrée pour une

nouvelle donnée (donnée future)

• Un nouveau passager du Titanic

par exemple

Page 6: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

6Copyright (c) 2018. Data Science Dojo

DISTRIBUTION BINOMIAL

Page 7: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

7Copyright (c) 2018. Data Science Dojo

Distribution Binomiale

Lancé

F

FF

P

PF

P

P

FF

P

PF

P

Face Pile

3 0

2 1

2 1

1 2

2 1

1 2

1 2

0 3

Considérons par exemple…

▪ Lancer une pièce 3 fois de suite

▪ Chaque lance est considéré comme

indépendant

▪ Une pièce correcte a 50% de chance de

Pile et de Face

Propriétés d'une distribution binomial :

▪ Principe statistique bien étudié

▪ Vous ne pouvez pas savoir comment se

comportera chaque tirage au sort ou

les résultats individuels (tels que FFF ou

FPF)

▪ Cependant, vous pourrez prédire le

comportement grâce à l’agrégation de

plusieurs sessions de tirage au sort

Page 8: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

8Copyright (c) 2018. Data Science Dojo

Distribution Binomiale

knk ppk

nkXPpnkf

)1()(),;(

Page 9: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

9Copyright (c) 2018. Data Science Dojo

Répondre à l’ensemble des 5 questions correctement?

• P = 1/5

• N = 10

• Probabilité de répondre aux 10 questions correctement: 10!/10! * (1/5)^10 * (1-1/5)^(10-10) = 0.0000001024

Page 10: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

10Copyright (c) 2018. Data Science Dojo

Champs d’applications

• Nombre de détenteurs d’assurance vie qui feront une réclamation sur une période donnée

• Nombre de détenteurs de prêts qui auront un incident de paiement sur une certaine période

• Nombre de faux départs d'une voiture en n tentatives

• Nombre d'éléments défectueux dans n échantillons provenant d'une ligne de production

• ET Méthode des Ensembles

Page 11: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

11Copyright (c) 2018. Data Science Dojo

Comment cela fonctionne ?

25

13

25 06.0)1(25

i

ii

i

• Supposons qu’il y ait 25 classificateurs de base (modèles construits sur les sous-ensembles de données)• Chaque classificateur a un taux d'erreur, = 0.35 (notre

p)

• On considère que les classificateurs sont indépendants

• Probabilité que le classificateur d'ensemble fasse une prédiction erronée :

Page 12: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

12Copyright (c) 2018. Data Science Dojo

Exemples de Méthodes d’Ensemble

Bagging (Bootstrap AGGregating)• Tous les classificateurs sont créés égaux

Boosting• Tous les classificateurs NE sont PAS créés égaux

Page 13: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

13Copyright (c) 2018. Data Science Dojo

BAGGING

Page 14: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

14Copyright (c) 2018. Data Science Dojo

Bagging

• Echantillonnage avec replacement

• Chaque sac contient des variantes des données originales

• Cela produit, alors, des arbres différents

Données d’origine

SAC 1 SAC 2 SAC 3

Page 15: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

15Copyright (c) 2018. Data Science Dojo

Bagging

Donnée d’Origine

Sac 1 Sac 2 Sac 3

* Chaque boule est une observation dans le jeu de données

Page 16: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

16Copyright (c) 2018. Data Science Dojo

Forêts de groupement de décisions

Bag 1 Bag 2 Bag 3

Modèles d’ensembles

combinés

Donnée

d’Origine • Créé une projection du jeu

de données échantillonnées

avec des exemples

• Chaque sac est

aléatoirement différent,

générant différents arbres

• Un nouvel arbre est

construit à partir de

chacun des sacs

Groupe 1

Page 17: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

17Copyright (c) 2018. Data Science Dojo

Bagging

Original Data 1 2 3 4 5 6 7 8 9 10

Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9

Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2

Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7

• Échantillonnage avec remplacement

Sac 1 (Modèle 1): {7, 8, 10, 2, 5, 9} OOB (Hors du Sac /Out of Bag): {1, 3, 4, 6}

Sac 2 (Modèle 2): {1, 4, 9, 2, 3, 7} OOB: {5, 6, 8, 10}Sac 3 (Modèle 3): {1, 8, 5, 10, 9, 6, 3, 7} OOB: {2, 4}

Page 18: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

18Copyright (c) 2018. Data Science Dojo

Bagging

• Réduit la variance des estimations

• Évite les surdimensionnements

• Résiste aux valeurs aberrantes

Page 19: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

19Copyright (c) 2018. Data Science Dojo

FORÊTS ALÉATOIRES

Page 20: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

20Copyright (c) 2018. Data Science Dojo

QU’EST-CE QU’UNE FORÊT ALÉATOIRE?

• Un classificateur d'ensemble utilisant de nombreux modèles d'arbre de décision

• Peut être utilisé pour la classification ou la régression

• La précision et l'importance de la variable sont intégrées

Page 21: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

21Copyright (c) 2018. Data Science Dojo

COMMENT FONCTIONNE UNE FORÊT ALÉATOIRE?

• Un sous-ensemble différent des données d’apprentissage est sélectionné (~ 2/3), avec remplacement, pour former chaque arbre

• Les données d’apprentissage restantes (c.-à-d. les données hors sac ou simplement OOB) sont utilisées pour estimer l'erreur et l'importance de la variable

• L'attribution de classe est faite par le nombre de votes de tous les arbres. Pour la régression, la moyenne des résultats est utilisée

Page 22: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

22Copyright (c) 2018. Data Science Dojo

{Périmètre, concavité, texture, compacité}

Périmètre Concavité Texture Compacité

Gini 1 Gini 2 Gini 3 Gini 4

Comparons les données de Gini à partir de tous les fractionnements et sélectionnons les caractéristiques qui permettent les plus grandes réductions dans Gini. La fonctionnalité qui se traduit par la plus grande réduction de Gini est alors

utilisée comme la première fonction à diviser

Page 23: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

23Copyright (c) 2018. Data Science Dojo

{Périmètre, concavité, texture, compacité}

Périmètre

(Gini 1)

{Concavité, Texture}

<114.6 ≥114.6

{Compact, zone}Concavité

béninmalin

Texture {rayon, douceur}

{et ainsi de suite...}

(Gini 2) (Gini 3)

A chaque nœud, seul un sous-ensemble

aléatoire de fonctionnalités est

utilisé pour comparer et sélectionner la fonctionnalité à

utiliser pour diviser

Page 24: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

24Copyright (c) 2018. Data Science Dojo

BOOSTING

Page 25: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

25Copyright (c) 2018. Data Science Dojo

Boosting

Cas

d’apprentissage

Classés

correctement

Ce cas d’apprentissage

a un poids très lourd

dans ce cycle

Ce DT a un vote très lourd

a strong vote

Cycles de Boosting

Page 26: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

26Copyright (c) 2018. Data Science Dojo

Boosting

• Une procédure itérative pour modifier de manière adaptative la distribution des données d’apprentissage en se concentrant davantage sur les enregistrements précédemment classés de manière erronée

• Initialement, tous les enregistrements N sont considérés de même “poids”• Contrairement au bagging, les poids peuvent changer à la fin d'un cycle de boosting

Page 27: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

27Copyright (c) 2018. Data Science Dojo

Boosting

Original Data 1 2 3 4 5 6 7 8 9 10

Boosting (Round 1) 7 3 2 8 7 9 4 10 6 3

Boosting (Round 2) 5 4 9 4 2 5 1 7 4 2

Boosting (Round 3) 4 4 8 10 4 5 4 6 3 4

• Les enregistrements mal classés vont voir leur “poids” augmenter

• Les enregistrements correctement classés vont voir leur “poids” diminuer

• Le cas 4 est difficile à classer• Son "poids » est augmenté, il sera donc plus probable de le choisir à nouveau dans les prochains tours à venir

Page 28: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

28Copyright (c) 2018. Data Science Dojo

L’Intuition du Boosting

• Nous adaptons le poids de chaque jeux de données.

• Les jeux de données classés de manière erronées obtiennent un poids plus élevés (l'algorithme se concentrera sur eux).

• Chaque round de boosting apprend un nouveau classificateur (simple) sur le jeu de données pondéré.

• Ces classificateurs sont pondérés pour les combiner en un seul classificateur puissant.

• Les classificateurs qui obtiennent un faible taux d'erreur d'apprentissage ont un poids élevé.

• Nous nous arrêtons en surveillant un ensemble de contraintes.

Page 29: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

29Copyright (c) 2018. Data Science Dojo

ADABOOST

Page 30: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

30Copyright (c) 2018. Data Science Dojo

AdaBoost (Boosting Adaptif)

• Classeurs de Base: C1, C2, …, CT

• Taux d’erreurs [fonction perte pondérée]:

• Importance du classificateur:

N

j

jjiji yxCwN 1

)(1

i

ii

1ln

2

1

Page 31: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

31Copyright (c) 2018. Data Science Dojo

AdaBoost

n factorrmalizatio is the no where Z

yxC

yxC

Z

ww

j

iij

iij

j

j

ij

i j

j

)( ifexp

)( ifexp)()1(

• Mise à jour du poids:

• Si des cycles intermédiaires génèrent un taux d'erreur supérieur à 50%, les poids sont ramenés à 1 / n et la procédure de rééchantillonnage est répétée.

• Classement:

T

j

jjy

yxCxC1

)(maxarg)(*

Page 32: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

32Copyright (c) 2018. Data Science Dojo

Erreur commune

Une forêt aléatoire et un arbre de decision“boosté” ne sont pas la même chose

Page 33: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

33Copyright (c) 2018. Data Science Dojo

Des Questions ?

33Copyright (c) 2018. Data Science Dojo

Page 34: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Principes fondamentaux d'analyse de texte

Page 35: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

35Copyright (c) 2018. Data Science Dojo

Donnée structurée ou non structurée

• Structurée – Données dans un tableau

• Demi-structurée – données hors tableau mais avec des métadonnées

• Ex: JSON, XML

• Non structurée – Données hors tableau et sans métadonnées

Copyright (c) 2018. Data Science Dojo

Page 36: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

36Copyright (c) 2018. Data Science Dojo

Structurée – Tableau de données

Copyright (c) 2018. Data Science Dojo

Page 37: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

37Copyright (c) 2018. Data Science Dojo

Donnée à demi-structurée

Copyright (c) 2018. Data Science Dojo

Page 38: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

38Copyright (c) 2018. Data Science Dojo

Donnée non structurée

Copyright (c) 2018. Data Science Dojo

Page 39: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

39Copyright (c) 2018. Data Science Dojo

Analyse de texte dans les affaires

39

▪ Récupération d’Informations(IR)

▪ Trouver les documents correspondant à une requête

▪ Analyse de sentiments

▪ Détermine l’« émotion » d’un document en se référant à

certains mots/termes apparaissant dans le document

▪ Moteurs de recommandation (Similarité)

▪ Recommande des entités selon certains attributs

▪ Modélisation thématique

▪ Réduit le document à des thèmes

Copyright (c) 2018. Data Science Dojo

Page 40: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

40Copyright (c) 2018. Data Science Dojo

Récupération d’Informations

40Copyright (c) 2018. Data Science Dojo

Page 41: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

41Copyright (c) 2018. Data Science Dojo

Analyse de sentiments

41Copyright (c) 2018. Data Science Dojo

Page 42: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

42Copyright (c) 2018. Data Science Dojo

Analyse de sentiments

42Copyright (c) 2018. Data Science Dojo

Page 43: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

44Copyright (c) 2018. Data Science Dojo

Moteur de recommandations

“Associate” appears

in all postings, and all

postings share words

that may be related

(“private equity,”

“investment,”

“valuations,” “MBA,”

“capital,” etc)

Copyright (c) 2018. Data Science Dojo

Page 44: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

45Copyright (c) 2018. Data Science Dojo

Modélisation thématique

Copyright (c) 2018. Data Science Dojo

Page 45: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

46Copyright (c) 2018. Data Science Dojo

Principes fondamentaux d'analyse de texte

• Token: Un mot spécifique dans le document

• Term: un mot dans sa version telle qu’elle se trouve dans un dictionnaire

• Corpus: L’ensemble des documents.

Copyright (c) 2018. Data Science Dojo

Page 46: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

47Copyright (c) 2018. Data Science Dojo

Principes fondamentaux d'analyse de texte

• Comment transformer des données non structurées en données structurées?• Créer des colonnes basées sur le contenu du document

• Chaque terme du document créé une colonne• Type de colonne: binaire, comptage de mot, TF-IDF

• Est-ce que nous voulons compter tous les mots ?• Mots non significatifs

• Lemmatisation et racinisation des mots

Copyright (c) 2018. Data Science Dojo

Page 47: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

48Copyright (c) 2018. Data Science Dojo

Terme – Exemple du dictionnaire

Elaboration du dictionnaire

Suppression des mots non

significatifs, de la ponctuation, etc

pré-traitement

minuscules

Données sous forme de texte non structuré

Racinisation

des mots

terme

robo-adviser

advantage

beat

market

creat

bond

emotion

client

token

robo-adviser

advantage

beating

market

creating

bond

emotional

clients

dictionnairedocument

Copyright (c) 2018. Data Science Dojo

Page 48: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

49Copyright (c) 2018. Data Science Dojo

Racinisation et lemmatisation

• Racinisation: Conversion des tokens en termes retrait de lettres via heuristique• Selon la simple (Levins) et la complexe (Porter)

• Lemmatisation: Classe les tokens en termes en utilisant une analyse linguistique• Lemme: La forme de base (dictionnaire) d’un mot• Peut être fait en utilisant un dictionnaire, un

apprentissage automatique sur un ensemble de documents (corpus) annoté

Copyright (c) 2018. Data Science Dojo

Page 49: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

50Copyright (c) 2018. Data Science Dojo

Exemple de racinisation / lemmatisation

Token Terme racinisé Terme lemmatisé

Stemming is funnier than lemmatizing says the Barcelona loving data scientists

Stem is funnier than lemmas say the Barcelona love data scientist

stem be funny than lemmatizing say the barcelona love data scientist

Copyright (c) 2018. Data Science Dojo

Page 50: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

51Copyright (c) 2018. Data Science Dojo

Vectorisation de document

team coach

play ball score game win lost timeout

season

d1 3 0 5 0 2 6 0 2 0 2

d2 0 7 0 2 1 0 0 3 0 0

d3 0 1 0 0 1 2 2 0 3 0

Documents 1

à 3

Termes dans les documentstermes

team

coach

play

ball

score

game

win

lost

timeout

season

dictionnaire

Copyright (c) 2018. Data Science Dojo

Page 51: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

52Copyright (c) 2018. Data Science Dojo

team coach play ball score game win lost timeout

season

d1 3 0 5 0 2 6 0 2 0 2

d2 0 7 0 2 1 0 0 3 0 0

d3 0 1 0 0 1 2 2 0 3 0

Vectorisation de document

• Chaque document devient un vecteur

• Permet l’utilisation de l’analyse numérique

Copyright (c) 2018. Data Science Dojo

Page 52: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

53Copyright (c) 2018. Data Science Dojo

0

7

0

2

4

5

7

9

0 1 2 3 4

co

ach

team

La distance entre les

documents est calculée de la

façon suivante

Mesure de la similarité de documents

Copyright (c) 2018. Data Science Dojo

Page 53: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

54Copyright (c) 2018. Data Science Dojo

Vectorisation de document binaire

54

▪ Chaque document a 1 si le mot apparait et

0 si ce n’est pas le cas

team coach play ball score game win lost timeout

season

d1 1 0 1 0 1 1 0 1 0 1

d2 0 1 0 1 1 0 0 1 0 0

d3 0 1 0 0 1 1 1 0 1 0

Copyright (c) 2018. Data Science Dojo

Page 54: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

55Copyright (c) 2018. Data Science Dojo

Inconvénients de la vectorisation

55

▪Tous les mots n’ont pas la même importance

▪Les documents les plus longs ont plus de chance d'avoir aléatoirement des mots sans importance

Copyright (c) 2018. Data Science Dojo

Page 55: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

56Copyright (c) 2018. Data Science Dojo

Fréquence du Terme– fréquence inverse de documentTF-IDF

56

• Calcule l'importance des termes en fonction de leur occurrence dans un document donné

• Mais équilibre avec sa prévalence ailleurs, dans l'ensemble des documents

• Plus il apparaît fréquemment dans un document particulier, plus il devient important

• Les apparitions fréquentes dans d'autres documents réduisent son importance

Copyright (c) 2018. Data Science Dojo

Page 56: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

57Copyright (c) 2018. Data Science Dojo

Fréquence de terme (TF)

57

▪Mesure la fréquence d'apparition d'un terme dans un document donné (densité dans un document)

• Suppose que les termes importants apparaissent plus souvent

• Normalisé pour tenir compte de la longueur du document

Copyright (c) 2018. Data Science Dojo

Page 57: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

58Copyright (c) 2018. Data Science Dojo

Fréquence de Terme (TF)

58Copyright (c) 2018. Data Science Dojo

Page 58: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

59Copyright (c) 2018. Data Science Dojo

Fréquence de Terme (TF)

59Copyright (c) 2018. Data Science Dojo

Page 59: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

60Copyright (c) 2018. Data Science Dojo

Fréquence Inverse de Document (IDF)

60

▪Vise à réduire le poids des termes qui apparaissent dans plusieurs autres documents

▪Suppose que les termes qui apparaissent dans de plusieurs documents sont moins importants

Copyright (c) 2018. Data Science Dojo

Page 60: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

61Copyright (c) 2018. Data Science Dojo

Fréquence Inverse de Document (IDF)

61Copyright (c) 2018. Data Science Dojo

Page 61: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

62Copyright (c) 2018. Data Science Dojo

Exemple de Fréquence Inverse de Document (IDF)

62

• Soient 1000 documents (cela peut être des tweets, des articles, etc...)

• Le terme “coffee” apparait dans 10 documents sur les 1000

• Le terme “mug” apparait dans l’ensemble des 1000 documents

IDF (coffee) = log 1000/10 = log 100 = 2

IDF (mug) = log 1000/1000 = log 1 = 0

Copyright (c) 2018. Data Science Dojo

Page 62: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

63Copyright (c) 2018. Data Science Dojo

Calcul du TF-IDF

63

▪Calculer l’importance globale des mots-clés

• Etant donné un mot-clé t et un document d

TF-IDF (t,d) = TF(t,d) * IDF(t)

Copyright (c) 2018. Data Science Dojo

Page 63: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

64Copyright (c) 2018. Data Science Dojo

Exercice TF-IDF

Dictionnaire:• {rheumatoid, arthritis, factor, left, right, elbow, hand, hip, wrist}

Requête:• Arthritis left hand

D1 Rheumatoid arthritis with rheumatoid factor of left elbow

D2 Rheumatoid arthritis with rheumatoid factor of left hand

D3 Rheumatoid arthritis with rheumatoid factor of left hip

D4 Rheumatoid arthritis with rheumatoid factor of left wrist

D5 Rheumatoid arthritis with rheumatoid factor of right hand

Documents:

Copyright (c) 2018. Data Science Dojo

Page 64: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

65Copyright (c) 2018. Data Science Dojo

Création de la matrice TF : Etape 1

Rheumatoid Arthritis Factor Left Right Elbow Hand Hip Wrist

D1 2 1 1 1 0 1 0 0 0

D2 2 1 1 1 0 0 1 0 0

D3 2 1 1 1 0 0 0 1 0

D4 2 1 1 1 0 0 0 0 1

D5 2 1 1 0 1 0 1 0 0

Etape 1: Calculer la fréquence des mots par documents.

Copyright (c) 2018. Data Science Dojo65

Page 65: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

66Copyright (c) 2018. Data Science Dojo

Création de la matrice TF : Etape 2

Rheumatoid Arthritis Factor Left Right Elbow Hand Hip Wrist

D1 2 / 2 1 / 2 1 / 2 1 / 2 0 / 2 1 / 2 0 / 2 0 / 2 0 / 2

D2 2 / 2 1 / 2 1 / 2 1 / 2 0 / 2 0 / 2 1 / 2 0 / 2 0 / 2

D3 2 / 2 1 / 2 1 / 2 1 / 2 0 / 2 0 / 2 0 / 2 1 / 2 0 / 2

D4 2 / 2 1 / 2 1 / 2 1 / 2 0 / 2 0 / 2 0 / 2 0 / 2 1 / 2

D5 2 / 2 1 / 2 1 / 2 0 / 2 1 / 2 0 / 2 1 / 2 0 / 2 0 / 2

Copyright (c) 2018. Data Science Dojo

Page 66: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

67Copyright (c) 2018. Data Science Dojo

Création du Vecteur IDF

Matrice TF Vecteur IDF

Rheumatoid Arthritis Factor Left Right Elbow Hand Hip Wrist

D1 1 0.5 0.5 0.5 0 0.5 0 0 0

D2 1 0.5 0.5 0.5 0 0 0.5 0 0

D3 1 0.5 0.5 0.5 0 0 0 0.5 0

D4 1 0.5 0.5 0.5 0 0 0 0 0.5

D5 1 0.5 0.5 0 0.5 0 0.5 0 0

Mot IDF

Rheumatoid = log (5/5)

Arthritis = log (5/5)

Factor = log (5/5)

Left = log (5/4)

Right = log (5/1)

Elbow = log (5/1)

Hand = log (5/2)

Hip = log (5/1)

Wrist = log (5/1)

Copyright (c) 2018. Data Science Dojo

Page 67: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

68Copyright (c) 2018. Data Science Dojo

Matrice TF-IDF

On calcule les TF-IDF multipliant TF et IDF

Rheumatoid Arthritis Factor Left Right Elbow Hand Hip Wrist

D1 1 * log(5/5) 0.5 * log(5/5) 0.5 * log(5/4) 0.5 * log(5/4) 0 * log(5/1)0.5 *

log(5/1)0 * log(5/2) 0 * log(5/1) 0 * log(5/1)

D2 1 * log(5/5) 0.5 * log(5/5) 0.5 * log(5/4) 0.5 * log(5/4) 0 * log(5/1) 0 * log(5/1)0.5 *

log(5/2)0 * log(5/1) 0 * log(5/1)

D3 1 * log(5/5) 0.5 * log(5/5) 0.5 * log(5/4) 0.5 * log(5/4) 0 * log(5/1) 0 * log(5/1) 0 * log(5/2)0.5 *

log(5/1)0 * log(5/1)

D4 1 * log(5/5) 0.5 * log(5/5) 0.5 * log(5/4) 0.5 * log(5/4) 0 * log(5/1) 0 * log(5/1) 0 * log(5/2) 0 * log(5/1)0.5 *

log(5/1)

D5 1 * log(5/5) 0.5 * log(5/5) 0.5 * log(5/4) 0.0 * log(5/4)0.5 *

log(5/1)0 * log(5/1)

0.5 * log(5/2)

0 * log(5/1) 0 * log(5/1)

Copyright (c) 2018. Data Science Dojo

Page 68: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

69Copyright (c) 2018. Data Science Dojo

TF-IDF d’un exemple de recherche

• Recherches d'utilisateurs dans notre ensemble de documents

• Requête: "Arthritis Left Hand"

• Calculer le TF-IDF de la requête

Rheumatoid Arthritis Factor Left Right Elbow Hand Hip Wrist

Q 01/1 *

log(5/5)0

1/1 * log(5/4)

0 01/1 *

log(5/2)0 0

Mot IDF

Rheumatoid = log (5/5)

Arthritis = log (5/5)

Factor = log (5/4)

Left = log (5/4)

Right = log (5/1)

Elbow = log (5/1)

Hand = log (5/2)

Hip = log (5/1)

Wrist = log (5/1)

Rheumatoid Arthritis Factor Left Right Elbow Hand Hip Wrist

Q 0.00 0.00 0.00 0.10 0.00 0.00 0.40 0.00 0.00

Copyright (c) 2018. Data Science Dojo

Page 69: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

70Copyright (c) 2018. Data Science Dojo

TF-IDF d’un exemple de recherche

Document Rheumatoid Arthritis Factor Left Right Elbow Hand Hip Wrist

D1 0.00 0.00 0.05 0.05 0.00 0.35 0.00 0.00 0.00

Document Rheumatoid Arthritis Factor Left Right Elbow Hand Hip Wrist

Q 0.00 0.00 0.00 0.10 0.00 0.00 0.40 0.00 0.00

0*0 + 0*0 + 0.05*0 + 0.05*0.1 + 0*0 + 0.35*0 + 0*0.4 + 0*0 + 0*0

SQRT(0.05^2) * SQRT(0.1^2 + 0.4^2)= 0.24Cos(D1,Q) =

Copyright (c) 2018. Data Science Dojo

Page 70: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

71Copyright (c) 2018. Data Science Dojo

Liste finale ordonnée

Document cos(D,Q) Text

D2 1.000 Rheumatoid arthritis with rheumatoid factor of left hand

D5 0.972 Rheumatoid arthritis with rheumatoid factor of right hand

D1 0.237 Rheumatoid arthritis with rheumatoid factor of left elbow

D3 0.237 Rheumatoid arthritis with rheumatoid factor of left hip

D4 0.237 Rheumatoid arthritis with rheumatoid factor of left wrist

Requête: "Arthritis Left Hand"

Copyright (c) 2018. Data Science Dojo

Page 71: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

72Copyright (c) 2018. Data Science Dojo

N-grammes

• Nos représentations jusqu'à présent étaient des termes simples, appelés unigrammes ou 1-grammes.

• Il existe également les bigrammes, trigrammes, 4-grammes, 5-grammes, etc.

• N-grammes nous permet d’étendre les modèles de sacs-de-mots pour inclure la classification du mot

Copyright (c) 2018. Data Science Dojo

Page 72: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

73Copyright (c) 2018. Data Science Dojo

N-grammes

• Prenez le document exemple:• “If it looks like a duck, swims like a duck, and quacks like a duck, then it probably

is a duck.”

• Un prétraitement standard (suppression des mots insignifiants, racinisation, etc..) transformerait ce qui précède en ce qui suit :• “look like duck swim like duck quack like duck probabl duck”

• Ce que nous pourrions représenter par la matrice de fréquences de termes :

look like duck swim quack probably

1 3 4 1 1 1

Copyright (c) 2018. Data Science Dojo

Page 73: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

74Copyright (c) 2018. Data Science Dojo

Bigrammes

• Etant donné le document traité,

“look like duck swim like duck quack like duck probabl duck”

Le bigrammes pour les données traitées donnerait:

NOTE – Nous avons maintenant plus que doublé la taille totale de notre matrice !

look_like like_duck duck_swim swim_like duck_quack quack_like duck_probabl probabl_duck

1 3 1 1 1 1 1 1

Copyright (c) 2018. Data Science Dojo

Page 74: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

75Copyright (c) 2018. Data Science Dojo

QUESTIONS

75Copyright (c) 2018. Data Science Dojo

Page 75: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Expérimentation en ligne et A/B testing

Page 76: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Programme

• Introduction• Qu’est-ce que le A/B testing?

• Quelques test A/B intéressants

• Fondamentaux• Terminologie.

• Test d’hypothèses

• Mesures de l’A/B testing

• Etapes d’expérimentation

Copyright (c) 2018. Data Science Dojo 77

Page 77: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

INTRODUCTION

Copyright (c) 2018. Data Science Dojo 78

Page 78: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

In God we trust. All others bring data.W. E. Deming

Copyright (c) 2018. Data Science Dojo 79

Nous croyons/faisons confiance à Dieu. Tous

les autres représentent des données. (NDT)

Page 79: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Qu’est-ce que le test A/B?

Copyright (c) 2018. Data Science Dojo 80

Page 80: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Qu’est-ce que le test A/B?

R

Copyright (c) 2018. Data Science Dojo 81

Page 81: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Qu’est-ce que le test A/B?

• Est-ce que le changement d’Icône me donnerait :• Un meilleur taux de clics

• Un Taux de rebond plus faible

• Des revenus plus élevés par utilisateur

Copyright (c) 2018. Data Science Dojo 82

Page 82: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Campagne présidentielle 2012 d’Obama

Copyright (c) 2018. Data Science Dojo 83

Page 83: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Campagne présidentielle 2012 d’Obama

Source: http://www.nathanielward.net/2011/06/see-ab-testing-in-action-on-barack-obamas-reelection-website/

Maximiser les inscriptions et les dons

Copyright (c) 2018. Data Science Dojo 84

Page 84: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Tests A/B sur les mails et les newsletters

Les tests sont effectués sur plusieurs critères

➢La Ligne d’objet

➢Les noms d’expéditeurs(From)

➢Dates d’expédition

➢Heures d’expédition

Copyright (c) 2018. Data Science Dojo 85

Page 85: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Test d’un bouton de passage à l’acte

Quel bouton augmente le nombre de clicks?

Version A Version B

Copyright (c) 2018. Data Science Dojo 86

Page 86: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Test d’un bouton de passage à l’acte

Version A Version B

Le bouton rouge a augmenté de 21% les clics

Copyright (c) 2018. Data Science Dojo 87

Page 87: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Jocelyn ou Michael?

Taux de conversion: Qui donne le meilleur taux de conversion?

Copyright (c) 2018. Data Science Dojo 88

Page 88: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Jocelyn or Michael?

Michael a augmenté de 21% le taux de conversion

Copyright (c) 2018. Data Science Dojo 89

Page 89: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

CALIFORNIA CLOSET

Version A Version B

Quelle version a augmenté les leads de 115% ?

Copyright (c) 2018. Data Science Dojo 90

Page 90: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

La Version A a augmenté les leads de 115%.

C’est la raison pour laquelle il faut tester …!

CALIFORNIA CLOSET

Version A Version B

Copyright (c) 2018. Data Science Dojo 91

Page 91: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Enregistrement des donneurs d’organes

Nombre de personnes optant pour le don d’organes

Copyright (c) 2018. Data Science Dojo 92

Quelle version a augmenté les inscriptions de 50% ?

Version A Version B

Page 92: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Enregistrement des donneurs d’organes

Nombre de personnes optant pour le don d’organes

Copyright (c) 2018. Data Science Dojo 93

La Version B a augmenté les inscriptions de 50%Chaque nouveau donneur pourrait sauver jusqu’à 9 vies!

Version A Version B

Page 93: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Test A/B sur les sites de soins de santé

Quelle photo augmente les demandes de RDV ?

A B

Pas de différence statistique sur les demandes de RDV avec le médecin

Page 94: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

FONDAMENTAUX

Copyright (c) 2018. Data Science Dojo 96

Page 95: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Problème Objectif du test A/B

• Savoir ce que l’utilisateur veut de manière inconsciente ou pas.

• Aide à se rendre compte rapidement des lacunes et permet d’avancer

• Les utilisateurs sont complexes et notre intuition est souvent fausse

• Déployer une fonctionnalité à tous les utilisateurs en même temps est risqué

Pourquoi utilises-t-on les tests A/B ?

On s’attend toujours à ce que l’Impact soit positif,

mais les résultats rendent souvent humble

Copyright (c) 2018. Data Science Dojo 97

Page 96: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Tests multivariés

Copyright (c) 2018. Data Science Dojo 98

Page 97: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Tests A/B contre Multivariables

Tests A/B Tests multivariables

Usage communCompare deux designs vraiment

différents l’un de l’autre

Plusieurs petites variables sont à décider:

➢ Deux couleurs de boutons avec trois

titres différents

Également appelé test factoriel

complet

Avantages

➢ Simple en design

➢ Un petit échantillon n’est pas

un problème

Plusieurs combinaisons testées en une

seule fois.

LimitationsUne seule alternative est

possible

➢ Taille d’échantillonnage plus importante

➢ Complexe

➢ Il faut bien comprendre et maitriser les

interactions

Copyright (c) 2018. Data Science Dojo 99

Page 98: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Test de stabilité / sécurité de médicaments

Les chercheurs en pharmacie expérimentent des variantes d'un médicament chez les animaux avant que le médicament ne soit approuvé pour une utilisation clinique chez l'homme

100Copyright (c) 2018. Data Science Dojo

20 mg 25 mg 29 mg 40 mg

Médicament contre l’acidité et le reflux gastrique (Nexium)

Les sujets traités avec une dose plus élevée (40 mg) présentaient moins d'érosion de l'œsophage

(réduction du reflux acide)

Page 99: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

TERMINOLOGIE

Copyright (c) 2018. Data Science Dojo 101

Page 100: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Contrôle and Traitement

Contrôle

Expérience par défaut, la façon dont sont les choses à l’heure actuelle.

IllustrationExemple: Aspect actuel de votre bouton

‘Buy Now’

Exemple: Changer la couleur du bouton :

la passer du vert au bleu

TraitementLe changement que l’on veut mener.

Copyright (c) 2018. Data Science Dojo 102

Page 101: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Mesures utilisées pour les tests A/B

➢ Moteurs de rechercheRequêtes/UU, Durée de la session, Sessions/UU, Nombre de vues, taux de rebond

➢ Détaillants en ligneTaux de conversion, revenu/UU, Valeur Moyenne du Panier et ainsi de suite

➢ Autres sites web :Taux de clics, souscriptions à la newsletter

Chaque affaire est différente

Copyright (c) 2018. Data Science Dojo 103

Page 102: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Hypothèse nulle ou alternative

• Hypothèse nulle (Ho)• Contrôle et traitements sont similaires (en termes de

paramètres que nous examinons)

• Hypothèse alternative (Ha)• Le traitement est distinct du contrôle

Copyright (c) 2018. Data Science Dojo 104

Page 103: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Hypothèse nulle ou alternative

• Hypothèse nulle(Ho)

• Le bouton Bleu et le bouton Vert ont un taux de clics identique

• Hypothèse Alternative(Ha)

• Chaque bouton a un taux de clics diffèrent

Contrôle Traitement

Copyright (c) 2018. Data Science Dojo 105

Page 104: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Erreurs de Type I et Type II

Erreur de Type I :La probabilité de rejeter à tort une hypothèse nulle.

Erreur de Type II :La probabilité d'accepter à tort une hypothèse nulle

Vérité du Terrain

Résu

ltat

de l

’exp

éri

en

ce

Type I error

Correct decision

Correct decision

Type II error

Reje

tte

Ho

Ne r

eje

tte

pas

Ho

Ho est vraie Ho est fausse

Copyright (c) 2018. Data Science Dojo 106

Page 105: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

POUVEZ VOUS ME DIRE AVEC DES MOTS SIMPLES

107

Page 106: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Le Cuisinier et le détecteur de fumées

• Hypothèse nulle(Ho): Il n’y a pas de feu

• Hypothèse alternative (Ha): Il y a du feu

Copyright (c) 2018. Data Science Dojo 108

Page 107: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Le Cuisinier et le détecteur de fumées

• Erreur de Type I : Il n'y a pas de feu mais le détecteur de fumée se déclenche.

• Le cuisinier retire l’alarme pour éviter les erreurs de type I.

• Cela augmente le risque d’Erreur de type II (c.-à-d. Un incendie sans alarme)

Copyright (c) 2018. Data Science Dojo 109

Page 108: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Le garçon qui criait au Loup

• Hypothèse nulle (Ho): Il n’y a pas de loup

• Hypothèse alternative (Ha): Il y a un loup

Copyright (c) 2018. Data Science Dojo 110

Page 109: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Le garçon qui criait au Loup

• Erreur de Type I : Les villageois croient le garçon quand il n’y a pas de loup

• Erreur de Type II : Les villageois ne croient pas le garçon quand il y a réellement un loup

Copyright (c) 2018. Data Science Dojo 111

Page 110: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Intervalle de confiance

Problème: sur une échelle de 5 points, un produit a une note moyenne de 4,32 et un écart-type de 0,845 sur la base de 62 évaluations. Quel est l'intervalle de confiance à 95%?

MoyenneEcart-type

Taille de l’échantillonValeur critique

Intervalle de Confiance 95%= ത𝑋 ± 2.0𝜎

𝑛

Copyright (c) 2018. Data Science Dojo 112

Page 111: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Intervalle de confiance

Moyenne ത𝑋 = 4.32

Ecart-type 𝜎 = 0.845

Erreur standard(SE) = 𝜎

𝑛=

0.845

𝑛=

0.845

62= 0.11

La marge d’erreur est de 2.0 x 0.11 = 0.22

L’intervalley de confiance est :

4.32 – 0.22 = 4.10

4.32 + 0.22 = 4.54 Intuition - Nous sommes

convaincus à 95% que l’évaluation

moyenne de tous les clients se

situe entre 4,10 et 4,54

Copyright (c) 2018. Data Science Dojo 113

Page 112: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Intuition de l’Intervalle de confiance

𝜇 = 4.4

Disons que nous savons

avec certitude que

l’évaluation moyenne des

produits par tous les clients

est de 4,4.

Ceci est connu comme la

moyenne de la population et

est désigné par 𝜇

En outre, nous décidons de

prendre 20 échantillons

aléatoires de commentaires

de clients de la population

(c’est-à-dire de tous les avis)

Si nous calculons

l'intervalle de

confiance à 95% pour

les 20 échantillons,

nous savons que 19

d'entre eux

contiendront

généralement 𝜇.

Copyright (c) 2018. Data Science Dojo 114

Page 113: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Calcul de l’intervalle de confiance

Répartition

normale

Répartition

des avis des

étudiants

Notre example!

Copyright (c) 2018. Data Science Dojo 115

Page 114: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Test A/A

• Comparons la même expérience sur différents ensembles aléatoires d'utilisateurs

• Utilisé valider de la configuration

Contrôle Traitement

Copyright (c) 2018. Data Science Dojo 116

Page 115: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Etapes de l’expérimentation

Planification

•Choix des facteurs, niveaux,

Taille d’échantillon (Combien de

temps dure l’expérience)

•A quelles questions concrètes

doit-on répondre ?

•Mesures et résultats escomptés

•Qui est pris en compte dans l’expérience ?

Codage et

Journalisation

•Paramétrage et Mise en place du

test et des outils

Test A/A

•Pour s’assurer que le

paramétrage est correct.

Tests A/B et/ou

multivariante

Analyse et

interprétation

•Parfois cela relève de l’Art

•Effet de nouveauté

•Saisonnalité, segmentation etc.

Prendre une décision

•Envoyer ou ne pas envoyer

Copyright (c) 2018. Data Science Dojo 117

Page 116: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Catégories de Mesures

Court-terme Moyen terme Long-terme

Exemples➢ TDC (CTR) ➢ PVs➢ Taux de rebonds

➢ PVs/utilisateur/jour➢ TDC/utilisateur

/jour➢ Moyenne de temps

de session

Jours avec au moins une visite:➢ Temps total sur le

site➢ Nombre de revisites

par utilisateur

Qu’est-ce qui est mesuré?

Impact immédiat ou quasi immédiat

Visite selon les heures jusqu’à une journée

Fidélité

Copyright (c) 2018. Data Science Dojo 118

Page 117: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Pièges de l’expérimentation en ligne

1.Choisir un critère d'évaluation global (OEC) pour lequel il est facile de battre le contrôle

2.Calcul incorrect des intervalles de confiance

3.Utilisation de formules statistiques standard pour le calcul de la variance et de la puissance

4.Combinaison de mesures sur des périodes où les proportions attribuées au contrôle et au traitement varient ou sur des sous-populations échantillonnées à des taux différents

5.Négliger de filtrer les bots

6.Ne pas valider chaque étape du pipeline d'analyse et des composants OEC

7.Oublier de contrôler toutes les différences et en supposer que les humains puissent garder les variantes synchronisées

Copyright (c) 2018. Data Science Dojo 119

Page 118: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Outils de test A/B

Copyright (c) 2018. Data Science Dojo 120

Page 119: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Des questions?

Copyright (c) 2018. Data Science Dojo 121

Page 120: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

BLAGUE

122

Page 121: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Avez-vous entendu la dernière blague sur les statistiques?

Probablement....

Copyright (c) 2018. Data Science Dojo 123

Page 122: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Combien de statisticiens faut-il pour changer une ampoule?

1 – 3. α=0.05 (.95 confiance)

Copyright (c) 2018. Data Science Dojo 124

Page 123: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Comment appelez-vous un goûter avec plus de 30 statisticiens?

Une z-goûter

Copyright (c) 2018. Data Science Dojo 125

Page 124: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Avez-vous entendu parler du statisticien qui a été jeté en prison?

Il a maintenant zéro degrés de liberté.

Copyright (c) 2018. Data Science Dojo 126

Page 125: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Trois statisticiens partent à la chasse ensemble. Au bout d'un moment, ils repèrent un lapin solitaire.

Le premier statisticien vise et dépasse. Les deuxième vise et reste court.

Le troisième tire et crie “On l’a eu!"

Copyright (c) 2018. Data Science Dojo 127

Page 126: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

La femme d'un statisticien a des jumeaux. Il était ravi et il a appelé à son prête pour le communiquer la bonne nouvelle.

"Excellent!", A déclaré le prête. "Amenez-les à l'église dimanche et nous les baptiserons."

"Non", répondit le statisticien. "Faisons simplement baptiser un. Nous garderons l'autre comme contrôle."

Copyright (c) 2018. Data Science Dojo 128

Page 127: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Est-ce qu’un medicament est efficace?

PLACEBO MEDICAMENT

Un test A/B est souvent utilisé pour tester l'efficacité d'un médicament, contre un placebo, afin de contrôler l'effet placebo dans le médicament.

CONTRÔLE MEDICAMENT

Exemples:

➢ Bêta bloquant➢ Pression artérielle diastolique (PAD)➢ Polypes: on étudiera ce cas plus spécifiquement

Copyright (c) 2018. Data Science Dojo 129

Page 128: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Le jeu de données de Polypes (1/3)

▪ Données provenant d'un essai contrôlé par placebo

d'un anti-inflammatoire non stéroïdien dans le

traitement de la polypose andénomateuse familiale

(PAF).

▪ L'essai a été interrompu après qu'une analyse

intermédiaire prévue ait suggéré des preuves

convaincantes en faveur du traitement.

number treat age

63 placebo 20

2 drug 16

28 placebo 18

17 drug 22

61 placebo 13

1 drug 23

7 placebo 34

15 placebo 50

44 placebo 19

25 drug 17

3 drug 23

28 placebo 22

10 placebo 30

40 placebo 27

33 drug 23

46 placebo 22

50 placebo 34

3 drug 23

1 drug 22

4 drug 42Extrait du jeu de données

▪ Nous nous intéressons ici à évaluer si le nombre de

polypes coliques à 12 mois est lié au traitement et à

l'âge du patient.

Copyright (c) 2018. Data Science Dojo 130

Page 129: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Le jeu de données de Polypes (2/3)

Age

#po

lyp

ses

#polypses according to age for each treatment

Copyright (c) 2018. Data Science Dojo 131

## load the polyps data

polyps <- read.csv("polyps.csv")

## convert polyps into factor

polyps$treat <- as.factor(polyps$treat)

## creating the boxplot

boxplot(polyps$number ~ polyps$treat,main="Number of polypses for each treatment",

xlab="treatment",ylab="number of polypses")

## creating scatterplot between number and age

plot(number ~ age, data=polyps, pch=as.numeric(polyps$treat),col=c(3,4))legend(40,40,

legend=levels(polyps$treat),pch=1:2,col=c(3,4),bty="n")

Page 130: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Le jeu de données de Polypes (3/3)

nb_polyps_placebo [1] 35.63636

Which treatment is more efficient?

Mean number of polyps per individual

Welch Two Sample t-test * *used to test the hypothesis that two populations have equal means

Copyright (c) 2018. Data Science Dojo 132

polyps_drug <- polyps[polyps$treat=="drug",]

polyps_placebo <- polyps[polyps$treat=="placebo",]

## calculating the number variable

nb_polyps_placebo = mean(polyps_placebo$number)

## using the t-test to assess whether the number of colonic polyps is related to treatment

and age of the patient.

t.test(polyps_drug$number,polyps_placebo$number,alternative="two.sided",conf.level=0.95)

Page 131: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Systèmes de recommandation

Page 132: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Vue d'ensemble

• Introduction• Collaborative vs basé sur le contenu

• Comment travaillent-ils?• Classement par similarité

• Prédiction

• Évaluation des Advantages/Disadvantages

• Exemple en employant Azure ML

Copyright (c) 2018. Data Science Dojo 134

Page 133: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

INTRODUCTION

Copyright (c) 2018. Data Science Dojo 135

Page 134: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Systèmes de recommandation

• Des systèmes automatisés pour filtrer et recommander des entités (produits, publicités, personnes) en fonction des intérêts et des goûts des utilisateurs.

• Conçu pour résoudre le problème de surcharge d'informations

Copyright (c) 2018. Data Science Dojo 136

Page 135: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Pourquoi les systèmes de recommandation?

• Pour le clients• Limiter l'ensemble de choix

• Découvrir de nouvelles choses intéressantes

• Gagner du temps

• Pour le business• Augmenter le nombre d'éléments vendus

• Vendre plus d'articles divers

• Mieux comprendre ce que veut l'utilisateur

Copyright (c) 2018. Data Science Dojo 137

Page 136: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Recommandeurs collaboratifs vs basés sur les contenus

Recommandeurs

collaboratifs

Article Note

i1 0.6

i2 0.8

i3 0.3

Recommendations

Utilisateurs

ÉlémentsRecommandeurs basés

sur les contenus

Évaluations

Caractéristiques

(Profils)

Copyright (c) 2018. Data Science Dojo 138

Page 137: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Recommandeurs collaboratifs vs basés sur les contenus

139Copyright (c) 2018. Data Science Dojo

Collaboratifs

• ‘Donnez-moi des éléments que les personnes comme moi aiment'

• Utilisateurs, Élément, & Notes

Emploi notes de Utilisateurs similaires pour recommander articles pas vus

Basés sur les contenus

• ‘Donnez-moi des élémentsimilaires aux éléments que j’aime'

• Profils d’Utilisateur & Éléments

Utiliser le chevauchement des caractéristiques d'utilisateur et d'élément pour recommander des éléments invisibles

Page 138: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Exemple: Netflix

Copyright (c) 2018. Data Science Dojo 140

Page 139: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Exemple: Médias sociaux et recherche

Copyright (c) 2018. Data Science Dojo 141

Page 140: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Example: Pandora

Copyright (c) 2018. Data Science Dojo 142

Page 141: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Exemple: Amazon

Copyright (c) 2018. Data Science Dojo 143

Page 142: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Estructure de données

• Quel genre de données?• Collaboratif

• Notes des élements mises pour les utilisateurs

• Basé sur le contenu• Profils caractéristiques des Utilisateurs et des Objets

Copyright (c) 2018. Data Science Dojo 144

Page 143: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Estructure de données – Collaboratif

Alice

Bob

Chris

Donna

5 3 4 4 ?

3 1 2 3 3

4 3 4 3 5

3 3 1 5 4

1 5 5 2 1Evi

Copyright (c) 2018. Data Science Dojo 145

Page 144: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Estructure de données – Basé sur le contenu

Élement/

Utilisateur

Drama? Comedie? Aventure? Romance?

The Godfather 5 1 2 1

Titanic 4 3 2 5

Lord of the Rings 4 2 5 1

Dumb & Dumber 1 5 2 2

Spirited Away 5 3 5 2

Alice 5 4 1 4

Bob 3 1 1 1

Chris 4 2 5 2

Copyright (c) 2018. Data Science Dojo 146

Page 145: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Basé sur le contenu: Profils d’utilisateur

• Fourni par l’utilisateur• Demander des préférences

• Besoin des comptes

• Taux d'achèvement souvent bas

• Génération automatisée• Les Cookies suivent le comportament

• Pas de persistance utilisateur (souvent)

Copyright (c) 2018. Data Science Dojo 147

Page 146: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Basé sur le contenu: Profils des élements

• Etiquetage expert• Attribuer des mots clés en fonction du contenu

• Peut être fourni par des créateurs/distributeurs

• Crowd sourcing?

• Indexation automatisée• Utilisé pour les documents texte

• Basé sur le contenu en mots du jeu de documents

• Aucune connaissance experte impliquée

Copyright (c) 2018. Data Science Dojo 148

Page 147: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

SIMILARITÉ

Copyright (c) 2018. Data Science Dojo 149

Page 148: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Mesures de similarité

• Étant donné deux vecteurs Ԧ𝑥 et Ԧ𝑦 avec 𝑛components chacun• Notes de l’Utilisateur 𝑥 et de l’Utilisateur 𝑦

• Note de l’Élement 𝑥 et de l’Élement 𝑦

• Profils de l’Utilisateur 𝑥 et de l’Élement 𝑦

• Dans quelle mesure sont similaires les Utilisateurs/Élements?

Copyright (c) 2018. Data Science Dojo 150

Page 149: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Mesures de similarité

▪ Correlation de Pearson

▪ Similarité de Cosine

𝑠𝑖𝑚 Ԧ𝑥, Ԧ𝑦 =Ԧ𝑥 ∙ Ԧ𝑦

Ԧ𝑥 ∗ | Ԧ𝑦|=

σ𝑖=1𝑛 𝑥𝑖𝑦𝑖

σ𝑖=1𝑛 𝑥𝑖

2 σ𝑖=1𝑛 𝑦𝑖

2

𝑠𝑖𝑚 Ԧ𝑥, Ԧ𝑦 =σ𝑖=1𝑛 (𝑥𝑖 − ҧ𝑥)(𝑦𝑖 − ത𝑦)

σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2 σ𝑖=1

𝑛 𝑦𝑖 − ത𝑦 2

Copyright (c) 2018. Data Science Dojo 151

Page 150: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Collaboration basée sur l'utilisateur

• But: Prédire la note de l’utilisateur 𝑢 du film 𝑚 qu’iln’a pas vu• Trouvez les n Utilisateurs les plus similaires à 𝑢 qui ont

vu le film 𝑚

• Utilisez leurs évaluations pour prédire les notes 𝑢 pour le film 𝑚

Copyright (c) 2018. Data Science Dojo 152

Page 151: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Collaboration basée sur l'utilisateur

Alice

Bob

Chris

Donna

5 3 4 4 ?

3 1 2 3 3

4 3 4 3 5

3 3 1 5 4

1 5 5 2 1Evi

sim = ?

sim = ?

sim = ?

sim = ?

Quelle métrique devrions-nous utiliser?

Copyright (c) 2018. Data Science Dojo 153

Page 152: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Collaboration basée sur l'utilisateur

Alice

Bob

Chris

Donna

5 3 4 4 ?

3 1 2 3 3

4 3 4 3 5

3 3 1 5 4

1 5 5 2 1Evi

sim=0.85

sim=0.90

sim=0.70

sim=0.79

La corrélation de Pearson corrige des lignes de base variées

Copyright (c) 2018. Data Science Dojo 154

Page 153: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Basé sur le contenu: similarité

• But: Renvoyer une liste de recommandations d'éléments pour chaque utilisateur• Trouver la similarité de chaque utilisateur avec chaque

élément

• Commander des articles par similitude

Copyright (c) 2018. Data Science Dojo 155

Page 154: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Basé sur le contenu: similarité

Élement/

Utilisateur

Drama? Comedie? Aventure? Romance?

The Godfather 5 1 2 1

Titanic 4 3 2 5

Lord of the Rings 4 2 5 1

Dumb & Dumber 1 5 2 2

Spirited Away 5 3 5 2

Alice 5 4 1 4

Bob 3 1 1 1

Chris 4 2 5 2

Copyright (c) 2018. Data Science Dojo 156

Page 155: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Basé sur le contenu: similarité

0.83 0.96 0.72 0.79 0.83

0.99 0.86 0.85 0.59 0.91

0.87 0.82 0.99 0.69 0.99

Alice

Bob

Chris

• La similarité de Cosine n'efface pas les

lignes de base

• Prédit l'ordre, pas l'exactitude

Copyright (c) 2018. Data Science Dojo 157

Page 156: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

PREDICTIONS

Copyright (c) 2018. Data Science Dojo 158

Page 157: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Collaborative: Predictions

• Utilisez la "fonction d'agrégation“

• Choisissez N voisins les plus proches de l'utilisateur 𝑢

• Combinez la note de chaque voisin 𝑗 sur l’élement 𝑖(𝑟𝑗,𝑖)

• Simple

• 𝑟𝑢,𝑖 =1

𝑁σ𝑗=1𝑁 𝑟𝑗,𝑖

• Pondéré & Centré• 𝑟𝑢,𝑖 = 𝒓𝑢 + 𝛼σ𝑗=1

𝑁 𝑠𝑖𝑚(𝑗, 𝑢)(𝑟𝑗,𝑖 − ഥ𝑟𝑗)

Copyright (c) 2018. Data Science Dojo 159

Page 158: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Basé sur le contenu: Prédictions

• Simple• Classement par ordre de similarité

• Techniques de récupération d'informations• Bien étudié, grande diversité de modèles

• Algorithmes de classification

Copyright (c) 2018. Data Science Dojo 160

Page 159: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

ÉVALUATION

Copyright (c) 2018. Data Science Dojo 161

Page 160: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Évaluation de la recommandation

▪ L’Erreur absolue moyenne (MAE)

calcule l'écart entre les évaluations

prévues et les notes réelles

▪ L’Erreur quadratique moyenne

(RMSE) est similaire à MAE, mais

met davantage l'accent sur une

plus grande déviation

n

iii rp

nMAE

1

||1

n

iii rp

nRMSE

1

2)(1

Copyright (c) 2018. Data Science Dojo 162

Page 161: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

10

2

3

7

8

Evaluer un classificateur

Copyright (c) 2018. Data Science Dojo 163

Page 162: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Recommandation - Modèle 1

10

2

3

7

8

7

2

3

6

8

10

--

7

3

2

--

2

0

3

--

3

0

7

--

6

1

8

--

8

0

MAE Totale = 4/5 = 0.8

Copyright (c) 2018. Data Science Dojo 164

Page 163: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

10

2

3

7

8

5

1

2

3

4

10

--

5

5

2

--

1

1

3

--

2

1

7

--

3

4

8

--

4

4

Total MAE = 15/5 = 3

Recommandation - Modèle 2

Copyright (c) 2018. Data Science Dojo 165

Page 164: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

10

2

3

7

8

5

1

2

3

4

MAE Totale = 3

7

2

3

6

8

MAE Totale = 0.8

Quel Recommandeur? - modèle 1 ou modèle

Copyright (c) 2018. Data Science Dojo 166

Page 165: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

10

2

3

7

8

8

7

6

3

2

5

4

3

2

1

Quel Recommandeur? - modèle 1 ou modèle

Copyright (c) 2018. Data Science Dojo 167

Page 166: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Recommandeur Modèle 1 vs. Modèle 2

10

2

3

7

8

5

1

2

3

4

Modèle de ClassificationSuivi la même classification pour

lequelle a été entrainé

7

2

3

6

8

Modèle de prédicteurValeur MAE inférieure

Copyright (c) 2018. Data Science Dojo 168

Page 167: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Métriques

▪ L’ordre est importante, pas la valeur de notation exacte

• Pertinence graduée

• Demander aux humains d'attribuer des scores aux résultats possibles

• Les résultats idéaux seront classés par pertinence, de haut en bas

▪ Le Gain cumulé actualisé (DCG)

• Facteur de réduction logarithmique

N

i

iN

i

relrelDCG

22

1log

Où:

• N est la longueur de la liste de recommandation

• reli renvoie la pertinence de la recommandation à la

position i

Copyright (c) 2018. Data Science Dojo 169

Page 168: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Exemple DCG

170Copyright (c) 2018. Data Science Dojo

En suivant la formule ci-dessus, le

DCG pour cet ensemble de notes de film est:

N

i

iN

i

relrelDCG

22

1log

10

2

3

7

8

Page 169: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Metrics

▪ L’Idéal gain cumulé actualisé (IDCG)

• La valeur DCG lorsque les articles sont parfaitement ordonnés

▪ Le gain cumulatif actualisé normalisé (nDCG)

• Normalisé à l'intervalle [0..1]

N

i

iN

i

relrelIDCG

22

1log

N

NN

IDCG

DCGnDCG

Copyright (c) 2018. Data Science Dojo 171

Page 170: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

AVANTAGES /DÉSAVANTAGES

Copyright (c) 2018. Data Science Dojo 172

Page 171: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

Avantages

Collaboratif

• Large applicabilité

• Sérendipité

• Simple

Basé sur le contenu

• Aucune communauté nécessaire

• Transparence

• Bon démarrage à froid

Copyright (c) 2018. Data Science Dojo 173

Page 172: Améliorer la performance du modèle avec les méthodes ...pubdocs.worldbank.org/en/221171541088503701/Improving-Model... · ) 5 4 9 4 2 5 1 7 4 2) 4 4 8 10 4 5 4 6 3 4 •Les enregistrements

DÉSAVANTAGES

174Copyright (c) 2018. Data Science Dojo

Collaboratif

• Mauvais Démarrage à froid

• Mouton gris• Comptes partagés

• Shilling

• Mauvaise mise à l'échelle

Basé sur le contenu

• Profils limités• Nouveaux utilisateurs• Coût de l'étiquetage

expert

• Sur-spécialisation• Manque de diversité