Bookbinders book club case
Audrey Hamel
Anne-Marie Nadeau
21 février 2007
Mise en Contexte
L’industrie du livre 50 000 nouveaux titres par année au USA Rapporte 20 M de dollars annuellement 10 % des livres sont vendus par envoi postal
Vente de livres 1970 apparition des grandes chaînes de
librairies 1980 vente de livres dans les grands
magasins à rayon 2000 vente de livre en ligne
Mise en Contexte
Les clubs de livre Historiquement proposaient des contrats d’achat
de livres aux consommateurs• Un lecteur accepte d’acheter quelques livres et de
recevoir chaque mois 1 ou 2 livres supplémentaires
Face à l’augmentation de la concurrence• Utilise des bases de données pour retenir de
l’information sur leur consommateurs• Recherche des modèles qui vont les aider à mieux
cerner les préférences de leur client
Bookbinders Book Club
Fondé en 1986Spécialiste dans la vente de livres spécialisés Rejoint ses clients à l’aide de marketing directPossède une base de données avec de
l’information sur 500 000 lecteurs
Problématique:• La compagnie se demande si l’utilisation d’un modèle
de prédiction serait utile pour cerner les consommateurs à cibler lors de l’envoi postal
Bookbinders Book Club
Cas: 20 000 consommateurs ont été sélectionnés
à partir d’une base de donnéesUne offre spéciale pour un livre d’art de
Florence a été envoyée par la poste9,03% des consommateurs ont acheté le
livre
Description des modèles de prédiction
Régression linéaire multiple On cherche à voir le degré d’influence des différentes
variables sur la décision d’achat ou non du livre d’art.
Multinomial logit analysis Méthode qui permet d’identifier les variables qui influencent le
choix des consommateurs
Neural network model Permet de comprendre la relation entre les variables
dépendantes et indépendantes en essayant de comprendre le processus de traitement de l’information dans le cerveau des individus dans le but de développer des représentations sur ordinateur du mécanisme.
Régression linéaire multiple
Statistiques de la régression
Coefficient de détermination multiple 0,489959505
Coefficient de détermination R^2 0,240060317
Coefficient de détermination R^2 0,235277814
Erreur-type 0,378781047
Observations 1600
Statistiques de la régression
Coefficients Erreur-type Statistique t
Constante 0,364228446 0,03074115 11,84823838
Gender -0,13092048 0,02003031 -6,536118556
Amt_purchased 0,000273613 0,00011104 2,464058992
Last_purchase -0,0090868 0,00217906 -4,170046646
First_purchase 0,097028602 0,01355889 7,156089006
Frequency -0,002002397 0,00181601 -1,102634906
P_Child -0,126258421 0,01640109 -7,69817277
P_Youth -0,096356294 0,02010972 -4,791527829
P_Cook -0,141490744 0,01660643 -8,520236614
P_DIY -0,135231253 0,0197873 -6,834245362
P_Art 0,117849397 0,01944268 6,061375137
Équation…
Y choix = 0.36 - 0.13 x gender + 0.0003 x Amt_purch. – 0.009 x last_purch. + 0.097 x
First_purch. – 0.002 x freq – 0.13 x p_child – 0.096 x p_youth – 0.14 x p_cook – 0.14 p_DIY + 0.1178 x p_art
Neural net forcasting
+
Nom t-stat
Amt_purch 2,8123
First_purch 3,6694
Frequency -16,69
Last_purch 11,53
Gender -8,2594
P_Art 19,13
P_Child -7,9469
P_Cook -10,65
P_DIY -8,5867
P_Youth -3,3114
Model fit : 17,61 %
Test fit : 18,54 %
Overall fit: 17,79 %
Choice
P_Art
Choice
Frequency
Multinomial logit analysis
Diagnostic 1
Nous indique la variable qui influence le plus la réponse à l’envoi postal
Gender Amt_purch Last_purch First_purch Frequency P_Child P_Youth P_Cook P_DIY P_Art
0.6587 2.0e+002 12.3138 3.1988 22.5763 0.7394 0.3375 0.7600 0.3913 0.4250
Diagnostic 2
Cote-t
Nom t-stat
Amt_purch 1,7283
First_purch -0,7318
Frequency 6,3647
Last_purch -6,2699
Gender -7,4511
P_Art 5,3532
P_Child -7,0268
P_Cook -7,797
P_DIY -6,3718
P_Youth -4,5357
Diagnostic 3
Hit rate & Choice Share
Number of hits = 1289Number of observations = 1600The hit rate of the model = 0.8056
Choice Share (Market Share) Forecasts:Response Dummy
25.4771% 74.5229%
Résumé
Facteurs
(+)
Facteurs
(-)
Régression linéaire multiple
P_Art First_ Purch
P_DIY P_Cook
Neural net forecasting
Last_PurchP_Art
P_Cook Frequency
Multinomial logit analysis
P_Art Frequency
Gender P_Cook
Conclusions
La variable « nombre de livre d’art acheté » influence significativement et positivement le choix selon les 3 modèles;
L’entreprise devrait inévitablement cibler ces consommateurs;
La variable « nombre de livre de recettes acheté » influence négativement le choix selon les 3 modèles;
L’entreprise ne devrait donc pas cibler ces consommateurs;
Conclusions (suite)
Le modèle le plus fiable semble être le « Multinomial logit analysis »;
Selon ce modèle, en plus des consommateurs ayant achetés des livres d’art, l’entreprise devrait également miser sur ceux qui on fait beaucoup d’achats (frequency) dans la période donnée;
Aussi, en plus des consommateurs ayant acheté des livres de recettes, l’entreprise ne devrait pas cibler en fonction du sexe (gender).
Avantages et limites
Régression linéaire multiple Limites
• On ne peut pas utiliser de variables binaires Neural network model (17,79 %)
Avantages• On peut faire des prédictions sans connaître le type de relation entre les
variables• Offre des fits et des prédictions plus robustes que la régression linéaire
multiple lorsqu’il y a des données manquantes Limites
• N’explique pas en détail les prédictions• Nouvelle méthode donc peu d’information est disponible sur le modèle et son
fonctionnement• La performance dépend de plusieurs facteurs
Multinomial logit analysis ( 80,56 %) Avantages
• Offre beaucoup plus d’informations
Questions ?
?
Top Related