Crédit Scoring
-
Upload
youssef-lamrani -
Category
Data & Analytics
-
view
325 -
download
2
Transcript of Crédit Scoring
-
Elaboration des mode`les de Scoring pour lesparticuliers
Lamrani Alaoui Youssefpropose par: Mme AKDIM
Universite Cadi Ayyad,Faculte des Sciences et Techniques deMarrakech,Ingenieurie en Actuariat et Finace
24 octobre 2014
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Plan
1 Introduction
2 le credit Scoring
3 lexploration et le traitement des donnees
4 Elaboration des mode`les predictifs
5 Validation des mode`les elabores
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Introduction
Introduction
Pour faire face aux differents risques qui nuisent leurs stabilites lesbanques cherchent en permanence a` ameliorer leurs syste`mes desurveillance et a` prendre plus de precaution Le defi des banquesaujourdhui est la specification des mode`les les plus robustesPermettant lamelioration de la precision de la mesure du risque decredit.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Introduction
Dans le cadre de notre projet lobjectif principal est de construirecertains nombre de mode`les de scoring pour la prediction de risquede defauts des particuliers dune entreprise americaine en se basantsur les techniques classiques de data mining comme la regressionlogistique et les arbres de decision ainsi que les nouvelles methodesde lintelligence artificielles a` savoir :les reseaux de neurones ,lesvecteurs a` support machine et les forets aleatoires et a` la fincompare ces differents mode`les grace a` des indicateurs deperformance comme le taux de bon classement, la courbe ROC etlaire sous cette courbe
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Credit Scoring ?Definition
Un des proble`mes principaux auxquels font face les banques cestleur incapacite a` determiner avec certitude si le client va honorerses engagements et rembourser lemprunt en totalite, ou sil vasimplement faire defaut. Le scoring a ete developpe dans cetteoptique, avec des outils de plus en plus pointus.
Selon le langage courant, le terme score peut signifier classement,resultat , marque etc. En statistique, cest lidee de classementqui est surtout retenue.par Le scoring (statistique) se presente en effet comme unensemble de methodes conduisant a` un classement dindividus ausein de groupes prealablement definis.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Credit Scoring ?Classement et Classification quelle difference ?
la classification signifie en effet la mise en evidence degroupements inconnus dans une population. En revanche, unclassement designe toute methode daffectation des individus dunepopulation dans des groupes definis a` priori.
Une methode de scoring cest une technique statistique permettantde classer un individu dans lun des quelques groupes definis a`priori et ce au vu de certaines caracteristiques de cet individu.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Credit Scoring ?type de score dans la gestion des entreprises
Le Score dappetence, Utilise notamment en marketing, le scoredappetence est une mesure de la propension dacheter dun client.En pratique, on utilise notamment ce type de score pour apprecierla probabilite dun client detre interesse par un nouveau produit.
Le Score de risque ou de comportement est une mesure de laprobabilite pour un client de subir un certain evenementdefavorable pou lentreprise.Lexemple typique est le credit scoring utilise par les banques pourapprecier les risques de non remboursement des credits accordes a`leurs clients.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesPresentation des donnees
dans cette partie on va analyser un echantillon de 5960 individus et13 variables importees de la bbliothe`que SAS de la base dedonnees SAMPSIO.HMEQ,il y a des variables qui sont propres auxclients et des autres relatives au credit. cest une base qui concerneune entreprise de services financiers qui offre a` ses clients qui ontun pret hypothecaire avec elle,la possibilite davoir un credit
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesPresentation des donnees
variable description
BAD 0 si le client a rembourse sa dette et 1 sinon
CLAG lage de credit le plus ancien par mois
CLNO le nombre de credits
DEBTINC taux de credit -a`-revenu
DELINQ nombre de credits non rembourses
DEROG nombre detats derogatoires principaux
JOB categorie professionnelle du client
LOAN montant du credit
YOJ Anciennete du travail le plus recent
VALUE la valeur de la propreite
MORTDUE montant du sur lhypothe`que existante
NINQ nombre denquetes recentes de degre de solvabilite
REASON Debtcon 1 HomeImp 2
1. credit de consolidation2. credit immobilier
-
lexploration et le traitement des donneesTraitement des valeurs manquantes
Les donnees manquantes constituent un proble`me majeur, puisquelinformation a` disposition est incomple`te et donc moins fiable.Ilest necessaire de traiter correctement les DM avant deffectuer desanalyses statistiques.Les donnees manquantes (DM) ont de multiples causes :
non reponse totale :Il peut etre impossible de contacter unepersonne selectionnee pour faire partie dune enquete
non-reponse partielle : un repondant peut refuser de repondrea` une ou plusieurs questions .
Une mauvaise saisie de linformation peut egalement genererdes DM.
des DM peuvent aussi etre causes par lexistence de donneesaberrantes qui doivent etre supprimees avant deffectuer desanalyses.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesTraitement des valeurs manquantes
Methodes de traitement de donnees manquantes
1 Exclure du fichier de donnees tous les individus ayant aumoins une donnee manquante
2 limputation simple qui consiste a` remplacer chaque donneemanquante par une valeur plausible. (par la moyenne calculeesur les donnees observees, par le plus proche voisin, parregression)
3 limputation multiple dont le principe est de proceder a` m > 1imputations afin dobtenir m valeurs pour chaque donneemanquante, et a` combiner ensuite les statistiques calculeesindependamment sur les m jeux de donnees.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesTraitement des valeurs manquantes
dans notre etude on a opte pour limputation multiple et celarevient a` plusieurs raisons :
Sous lhypothe`se MAR, MI produit des estimations non biaisesainsi que des variances non biaisees
Methode tre`s flexible
Large disponibilite des techniques de MI dans les logiciels destatistique
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesStatistiques discreptives
lexamen des statistiques univariees des variables nous permetde detecter les valeurs manquantes et de sassurer si ladistribution des variables comporte des valeurs extremes ouaberrantes.
les statistiques bivariees permettent de detecter les liaisonsentre la variable cible a` loccurrence BAD et les autresvariables explicatives et leurs interactions, de facon a` eliminerles variables sans aucune influence sur la variable cible
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesStatistiques discreptives
Un apercu global de notre base de donnees nous reve`le que lepourcentage des donnees manquantes est entre 1 % et 9% pourtoutes les variables a` lexception de la variable DEBTINC dont lepourcentage des donnees manquantes depasse 21%,comme lepourcentage des donnees manquantes pour ladite variable deppasse15% alors on va renoncer a` lexploiter.pour les autres variables onfait appel au package (mice) de R et qui va nous permettre defaire une imputation multiple par equation en chaine
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
0 1
BAD
qualit de client
010
0020
0030
0040
00
DebtCon HomeImp
RAISON
010
0020
0030
0040
00
Figure: representation de la variable BAD et REASON
-
lexploration et le traitement des donneesStatistiques discreptives
% dobservations
debtcon 68.4
homeImp 31.6
Table: % des modalites de la variables REASON
% dobservations
0 80.1
1 19.9
Table: %des modalites de la variables BAD
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesStatistiques discreptives
060
000
LOAN
0e+0
04e
+05
MORTDUT
0e+0
08e
+05
VALUE
020
40
YOJ
04
8
DEROG
05
15
DELINQ
060
0
CLAG
010
NINQ
030
70
CLNO
Figure: bote a` moustaches des differentes variables continues
-
lexploration et le traitement des donneesStatistiques discreptives
Interpretation
La figure montre quil y a nombre des valeurs extremes importantpour les differentes variables ces valeurs extremes peuventcorrespondre a` un profil particulier ou a` une categorie particulie`redes individus qui necessite un traitement aussi particuliernotamment dans notre cas a` savoir la prediction du risquedimpaye, puisque les profils a` risque sont souvent caracterises parles valeurs extremes qui prennent certains variables qui lescaracteris
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneestestes de Normalite et Normalisation des variables
Cette etape est importante pour certain type de mode`les a` causede ses hypothe`ses, une des premie`res taches dans les phasesdexploratoire des variables est de tester leur normalite.la normalite dune variables peut etre verifiee a` laide des tests deShapiro-Wilk, de kolmogoro-Smirnov,de Lillifors ou deAnderson-Darling ,aussi par le calcul des deux coefficientsdasymetrie et daplatissement(test de Jarque Bera).
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
LOAN
data[, j]
Freq
uenc
y0 40000 80000
060
014
00
MORTDUT
data[, j]
Freq
uenc
y
0e+00 2e+05 4e+05
015
00
VALUE
data[, j]
Freq
uenc
y
0e+00 4e+05 8e+05
015
00
YOJ
data[, j]
Freq
uenc
y
0 10 20 30 40
015
00
DEROG
data[, j]Fr
eque
ncy0 2 4 6 8 10
030
00
DELINQ
data[, j]
Freq
uenc
y
0 5 10 15
030
00
CLAG
data[, j]
Freq
uenc
y
0 400 800 1200
015
00
NINQ
data[, j]
Freq
uenc
y
0 5 10 15
020
00
CLNO
data[, j]Fr
eque
ncy
0 20 40 60
060
0
Figure: distribution des variables continues
-
4 2 0 2 4
060
000
LOAN
Theoretical Quantiles
Sam
ple
Quan
tiles
4 2 0 2 4
0e+0
03e
+05
MORTDUT
Theoretical Quantiles
Sam
ple
Quan
tiles
4 2 0 2 4
0e+0
06e
+05
VALUE
Theoretical Quantiles
Sam
ple
Quan
tiles
4 2 0 2 4
020
40
YOJ
Theoretical Quantiles
Sam
ple
Quan
tiles
4 2 0 2 4
04
8
DEROG
Theoretical QuantilesSa
mpl
e Qu
antile
s4 2 0 2 4
05
10
DELINQ
Theoretical Quantiles
Sam
ple
Quan
tiles
4 2 0 2 4
060
0
CLAG
Theoretical Quantiles
Sam
ple
Quan
tiles
4 2 0 2 4
05
15
NINQ
Theoretical Quantiles
Sam
ple
Quan
tiles
4 2 0 2 4
030
60
CLNO
Theoretical QuantilesSa
mpl
e Qu
antile
s
Figure: representation du qq-plot pour les differentes variables
-
lexploration et le traitement des donneestestes de Normalite et Normalisation des variables
Interpretation
Les figures qui precedent en haut nous indique que la totalite desvariables ne sont pas normale cette constatation est confirmee parun teste de Lillifors comme p value est tre`s petite ;inferieur a` 0.05ce qui rejette lhypothe`se de normalite pour toutes les variables, lememe resultat obtenu par le teste de jarque Bera du packagetseries de R, dou` la necessite de lutilisation du Theore`meCentrale Limite.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesetude de dependance entre variables
pourquoi une telle etude ?
Dans cette section on va sinteresser a` la dependance entre lesvariables en terme de lAFDM (analyse factoriel des donneesmixtes) et de certains testes statistiques afin de detecter lesvariable correlees entre elles, il convient de signaler que lune desconditions requises pour la construction dune fonction score estque les variables retenues ne soient pas correlees, des variables lieesapportent en realite la meme information ce qui implique uneredondance.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesetude de dependance entre variables
Analyse factorielle des donnees mixtes
LAFDM (Analyse Factorielle des Donnees Mixtes) generaliselACP et lACM, elle permet de traiter a` la fois des donneesquantitatives propres a`lACP et des variables qualitatives propres a`lACM. La force de lAFDM reside donc dans la prise en comptedes relations entre individus, au meme titre que toutes les autresmethodes factorielles, mais aussi, et cest la` son unicite dans lesrelations entre les variables quantitatives et qualitatives equilibree
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
0.0
0.2
0.4
0.6
0.8
1.0
Groups representation
Dim 1 (15.45%)
Dim
2 (1
1.07%
)
LOAN MORTDUTVALUEREASON
JOBYOJ
DEROGDELINQ
CLAG
NINQ
CLNO
BAD
Figure: carte factorielle des differentes variables
-
2 1 0 1 2 3
0.
50.
00.
51.
01.
52.
0
Individual factor map
Dim 1 (15.45%)
Dim
2 (1
1.07%
)
DebtCon
HomeImp
Mgr
Office
OtherProfExe
Sales Self
0
1
Figure: graphe des modalites des variables qualitative
-
2 1 0 1 2
1.
0
0.5
0.0
0.5
1.0
Correlation circle
Dim 1 (15.45%)
Dim
2 (1
1.07%
)
LOANMORTDUTVALUE
YOJ
DEROGDELINQ
CLAG
NINQCLNO
Figure: cercle de correlation des variables quantitatives
-
5 0 5 10 15
2
02
46
810
12
Individual factor map
Dim 1 (15.45%)
Dim
2 (1
1.07%
)
12
3
4
5
6
7
8
910
11
1213
14
1516
17
1819
20
2122232425 26
27
28
29
3031
32
33
34
3536
3738
39
404142 4344
45
464748
49
50
51
5253
54
55
56
57
5859
60
6162636465
66
67
68
69
70
71
72
73
74
75
76
7778
79
80
8182
83
84
85
868788899091
92
9394
95
9697
9899100
101
102
103
104
105106107108
109110111
112
113
114
115116
117
118119
120
121122
123
124
125
126127128
129
130
131
132133
134
135
136137
138
139
140141
142
143
144145146147148 149
150151 152
153154
155
156157158159
160
161 162163
164
165166167 168
169170171
172
173
174
175
176
177178
179
180
181
182183184
185186
187
188189190
191
192
193194195
196197
198
199 200201
202203
204
205
206207208209210211
212
213214
215216
217 218219220
221 222
223
224225226227
228229
230
231232
233234
235236
237
238239
240241
242243
244
245
246247
248
249
250251252
253254255256
257
258 259
260261
262263
264
265
266267268
269
270271
272273
274
275
276277278
279
280281282
283
284
285286287288
289290
291
292293294295
296
297298
299300
301
302303
304
305306
307308 309310
311312313314315
316
317
318
319
320321
322
323324
325326
327
328
329330
331
332
333
334
335336337
338
339
340
341342 343344
345 346347348 349
350
351
352
353
354355
356357 358359
360361362
363364365366
367368
369
370
371
372
373374
375
376
377
378379
380
381
382
383
384385
386387388389
390
391392393
394
395
396397
398
399
400
401
402403
404405
406407
408409
410411412
413
414
415
416
417
418419 420421422423 424425426
427
428429
430
431
432433434
435
436437
438
439440441442
443
444 445
446
447
448
449
450
451
452
453454455456457458
459460461 462
463
464
465
466
467
468
469
470
471472
473474
475476477478479
480481482
483
484485
486487488489
490 491492
493
494
495
496
497498499 500501
502
503
504505
506
507
508
509510
511512
513
514515
516
517518
519
520521522
523524
525
526
527
528
529
530531
532
533 534535
536
537
538539540
541
542
543544
545
546
547 548549550
551
552553554555
556
557558559
560
561
562
563
564
565
566
567
568569570
571
572573
574575
576577
578
579580581
582583
584 585
586587
588589
590
591
592
593
594
595
596597598 599
600
601602603604
605606
607
608609610
611
612
613614 615616
617618
619
620
621622623624625626627628
629630
631632
633
634
635636
637638639
640
641
642
643644
645646647
648649
650651652 653
654
655
656657658
659
660661662663664
665666
667
668
669670671
672673674
675676
677
678679
680681
682
683
684
685686
687688689690
691
692693694
695
696697698 699700701
702
703704
705706
707
708
709710711712
713714
715
716717718
719720
721722
723724
725726 727728729730731
732733 734
735
736
737
738739
740
741742743
744
745746747
748
749
750
751752753 754
755756757
758759
760761
762
763 764765766
767
768769
770
771
772
773
774
775
776
777778779 780
781
782783
784
785786 787
788
789
790791792
793794
795
796797
798
799800801802803
804
805806807
808809
810
811
812
813814815
816817818
819
820
821
822
823 824825826827
828829
830 831832833
834
835
836837 838839
840
841842
843844
845
846
847
848
849
850
851
852
853854855856
857
858859
860861
862863864
865
866
867
868
869
870
871872
873
874875
876877
878879
880
881882
883
884
885886
887
888889890891
892
893
894
895 896897
898899
900
901902 903
904
905
906
907908909 910
911
912
913914
915
916 917918
919
920
921
922923924
925
926
927
928
929930
931932
933934
935 936937
938
939
940
941
942943944
945946
947948949950951
952
953
954
955
956
957958
959960961
962
963
964965
966967968 969970
971972973
974
975
976
977
978
979
980
981
982
983
984
985 986
987
988 989990991992 993
994
995996
997998
9991000
1001
100210031004
10051006
1007
1008
100910101011
101210131014101510161017
1018
101910201021102210231024
1025
1026102710281029
10301031
1032
1033
1034
1035 1036
103710381039 10401041
1042
1043
104410451046
1047
1048
1049
10501051 1052105310541055
10561057
1058
10591060
1061
1062
10631064
1065
10661067
1068106910701071
10721073
10741075
1076
10771078
10791080
1081
1082
1083
108410851086
1087
10881089
1090
10911092
1093
10941095109610971098
1099
110011011102
1103
11041105 11061107
1108
11091110
11111112
1113
1114 1115
1116
11171118
1119112011211122
1123
1124
1125
1126
1127
11281129
1130
11311132
1133 1134
1135
1136
113711381139
1140
1141
1142
1143
11441145
11461147
11481149
11501151
1152
1153
115411551156
11571158
115911601161
11621163
116411651166
116711681169 11701171117211731174
1175
1176
1177
1178
11791180 11811182 1183
1184
118511861187
11881189
1190
1191
1192
1193
1194
1195
1196
1197
1198
11991200
12011202
1203
1204
12051206
1207
1208120912101211 1212121312141215
12161217
12181219 12201221
1222
1223
1224
12251226122712281229 1230123112321233
1234 123512361237
12381239
1240
1241
124212431244
12451246
1247
1248
12491250
125112521253
1254
1255
1256
125712581259
1260
12611262
1263126412651266
1267
12681269
127012711272
1273
12741275127612771278
12791280128112821283
12841285
12861287
1288
128912901291
12921293
129412951296
1297
1298
12991300
13011302
1303
1304
130513061307
13081309
13101311
13121313
1314
131513161317
1318
13191320
1321
1322
1323
13241325
1326
132713281329
1330
133113321333
1334
133513361337
1338
133913401341
1342
1343
13441345
1346134713481349
13501351
1352 1353135413551356
13571358
135913601361
1362
1363136413651366
1367
13681369
1370 1371
1372137313741375
1376
137713781379
13801381
1382
1383
13841385 138613871388
13891390
1391
1392
1393
13941395
1396
1397
1398
13991400 14011402
14031404
1405
1406
14071408
14091410
1411
1412141314141415
1416
14171418
1419
1420
1421
142214231424
1425
1426
14271428
1429
1430
1431 14321433
1434
1435143614371438
1439
144014411442
1443
14441445
144614471448
1449
145014511452
1453
1454
1455
1456
14571458 145914601461
1462
1463
1464
1465
1466
1467
1468 14691470
1471
1472
14731474
147514761477
14781479
1480
1481
14821483
1484
1485 148614871488
1489
1490
149114921493
1494
14951496 1497
1498
1499
150015011502
1503
1504
1505
15061507
1508150915101511151215131514
15151516
1517
15181519
1520
1521
1522
15231524
1525
1526
1527
15281529
1530
1531
15321533
1534 153515361537
1538
15391540
1541
1542
15431544
1545
1546
1547
1548
1549
155015511552
1553
1554
1555155615571558
1559
1560
15611562 1563
1564156515661567
1568
1569
1570 157115721573157415751576
15771578
15791580
1581
158215831584
158515861587
1588
1589
1590
159115921593
1594
1595
15961597
15981599
1600
1601
1602
1603160416051606
16071608
1609
1610
16111612
16131614 1615
161616171618
1619
1620
16211622
1623
1624
1625
16261627
1628
1629
16301631
1632
1633
1634
1635
1636163716381639
164016411642164316441645
1646
16471648 1649
1650
1651
165216531654
165516561657
16581659
166016611662
1663166416651666
1667
166816691670
1671
16721673
1674
167516761677
167816791680
16811682
16831684
16851686
1687
1688
168916901691169216931694
1695
16961697
16981699
1700
1701
17021703
1704
1705
170617071708
1709
1710
17111712
1713
17141715
17161717
1718
171917201721
17221723
17241725 17261727
1728
17291730
17311732173317341735
17361737
1738
1739
1740
17411742
1743
17441745
1746
174717481749
17501751
1752
1753
17541755
1756
175717581759
17601761
1762
1763
17641765
1766
1767
1768
1769
17701771
17721773
17741775
1776
17771778
1779
17801781
17821783
178417851786
17871788 17891790
179117921793179417951796
1797
17981799
1800
1801 18021803
1804
180518061807
1808
1809
18101811
1812
181318141815
18161817
181818191820
182118221823
1824
182518261827
1828
18291830 18311832
183318341835
18361837
1838
1839 1840
18411842
1843
1844
1845
18461847
1848 1849
1850
1851 185218531854
18551856
1857
185818591860
18611862
1863
1864
1865
1866 18671868
1869
18701871 1872187318741875
1876
1877
1878
18791880
1881
1882
18831884
1885
1886
1887
18881889
1890
18911892 1893
18941895
1896
1897 18981899
19001901
19021903
1904
1905
1906
1907
1908
1909
19101911
1912
1913
1914
1915
19161917 1918191919201921
19221923
1924
1925
19261927
1928
1929
19301931
19321933
19341935
19361937
19381939
1940
19411942
19431944194519461947
1948
19491950 19511952
19531954
19551956
19571958
19591960
1961
1962
1963
1964
19651966
1967
1968
1969
19701971
19721973
1974
19751976
1977
19781979
19801981 1982
1983
19841985
1986
19871988
198919901991
1992
19931994199519961997199819992000
2001
20022003 2004
2005
20062007
20082009
201020112012
2013
2014
201520162017
20182019
2020
2021
2022
2023202420252026
20272028
2029 20302031
2032
2033
20342035
2036
20372038
2039
2040204120422043
2044 2045
2046
2047
20482049 2050
2051
2052
2053
2054
2055
2056
2057 2058
2059
2060
2061
20622063
2064206520662067
206820692070
20712072
20732074
2075
2076
20772078
20792080208120822083
2084
20852086
2087 2088208920902091209220932094
20952096
2097
209820992100210121022103
2104
2105210621072108
21092110
21112112
2113
21142115 2116
2117
2118
211921202121 212221232124
2125
2126
2127
21282129
21302131
2132
21332134
2135
2136
2137
213821392140
2141
2142 2143
21442145
21462147
2148
2149
2150
2151
2152
2153
21542155
21562157 2158
2159
2160
2161216221632164
2165
21662167
2168216921702171
217221732174
2175
21762177
2178
2179
2180 218121822183
2184
21852186218721882189
2190 2191219221932194
2195
21962197
2198219922002201
2202
2203
22042205
2206
220722082209
22102211 2212
2213
221422152216221722182219
2220
222122222223
2224
22252226
22272228
22292230
22312232 223322342235 2236
22372238
2239
224022412242
2243
224422452246 2247
2248
22492250
2251
2252
225322542255
225622572258 2259
22602261
2262
2263
2264
2265
2266
2267
22682269
227022712272
2273
2274
2275
22762277
2278
2279228022812282
2283
2284
2285
228622872288
2289
2290
229122922293
2294
2295229622972298
2299230023012302
2303
2304230523062307 2308
23092310 2311
2312
2313 2314
231523162317
2318 231923202321
2322
2323 23242325
2326
23272328
2329
2330
23312332
2333
23342335
2336
2337
23382339
23402341
2342
2343
234423452346234723482349
23502351
2352
23532354
2355
2356
2357235823592360
2361
23622363
2364
23652366
23672368
2369 23702371
2372
2373
23742375
23762377
2378
2379238023812382
23832384
2385 23862387
23882389239023912392
239323942395 23962397
239823992400 2401240224032404
240524062407
240824092410
2411
2412
2413
2414
2415241624172418
2419
242024212422242324242425
24262427
2428
2429 243024312432
24332434
2435
243624372438243924402441
24422443
2444244524462447
24482449
2450
2451
2452
2453
2454
24552456 24572458 245924602461
24622463
2464
2465
2466
2467
2468
2469
247024712472
24732474
2475
2476
24772478
2479
2480
24812482
248324842485
24862487248824892490
2491
24922493
2494249524962497
2498
24992500
2501
250225032504250525062507
2508 2509
25102511
2512
2513
2514
251525162517
25182519
2520
25212522
2523252425252526
25272528
2529
2530 253125322533
253425352536
2537
2538
2539
2540
25412542
25432544
2545
25462547
2548
254925502551
25522553
2554255525562557
2558
2559
2560256125622563256425652566
25672568
2569
257025712572257325742575
2576
2577
2578
2579258025812582
2583
2584
2585
2586
2587
2588
2589
25902591 2592
2593
2594
2595
2596
2597
2598
2599
2600
2601
2602
2603
2604
2605
2606
2607
2608
26092610
26112612
26132614
261526162617
2618 26192620
2621
2622 26232624
2625
2626
26272628262926302631 2632
2633
2634
26352636
263726382639 264026412642 26432644
26452646 26472648
2649
2650
2651
26522653
26542655
2656265726582659
2660
2661
26622663 2664
2665
2666266726682669
267026712672
26732674
2675267626772678
267926802681
2682 2683
2684
2685
2686
26872688
268926902691
2692
269326942695
26962697
2698269927002701
270227032704
27052706
27072708
2709
2710
2711
27122713 27142715271627172718
2719
2720
2721
2722272327242725 2726
272727282729
2730
2731
2732 2733
2734
27352736
2737 2738 273927402741
27422743
2744
27452746
2747
2748
27492750
2751
2752
2753
2754
27552756
27572758
2759
2760
2761
27622763 2764
2765 276627672768 27692770
2771 2772
2773
27742775
2776
2777
27782779
27802781
2782
2783
2784
2785
2786
27872788
2789
2790
2791
279227932794
2795
279627972798
279928002801
2802
2803 280428052806
2807
28082809
2810
2811
2812
2813
2814
28152816
2817 281828192820
2821
2822
2823
2824
2825
282628272828
2829
2830
283128322833
2834
283528362837
2838
2839
2840
2841
2842
2843
28442845
284628472848
28492850
2851
28522853
285428552856
2857
285828592860
2861 2862
28632864
2865
2866
28672868
28692870 287128722873287428752876 2877
2878
2879
28802881 28822883
2884
2885 28862887
288828892890
28912892
2893
28942895
2896
2897
2898
28992900 29012902
29032904
2905
290629072908 290929102911
2912
2913
2914
2915
2916
2917
2918291929202921
29222923 2924
292529262927
2928292929302931
29322933
2934
2935 2936
2937293829392940
29412942
29432944
2945
2946
29472948
2949
2950 2951
2952
2953
2954
2955
2956
2957
29582959
2960
29612962
2963
29642965
2966
29672968 29692970
2971 29722973
29742975
2976
2977297829792980 29812982
29832984
2985
298629872988
2989
2990
2991
2992
29932994
2995
29962997
299829993000
30013002 300330043005300630073008
3009
3010
3011
3012
3013
3014
3015
3016
3017
30183019
30203021
30223023
30243025
3026 30273028
3029
3030
3031
3032
3033
3034
3035
30363037
303830393040
304130423043 304430453046
30473048
30493050
3051
3052305330543055
3056
3057305830593060
30613062
3063
30643065
3066
30673068 30693070
30713072
3073
30743075
30763077
307830793080
308130823083
308430853086
3087
308830893090309130923093
3094
3095
3096
3097
3098
3099
3100 31013102
31033104
3105
310631073108310931103111
31123113
3114
3115
3116
31173118
31193120
31213122
312331243125
31263127312831293130
3131
3132
3133
3134
313531363137
31383139
31403141
314231433144
3145314631473148
314931503151
31523153
31543155
31563157
3158 31593160
3161
3162
3163
3164
316531663167
3168
3169
317031713172
3173
3174
31753176
3177
31783179
31803181
3182
3183
31843185 3186
31873188
31893190
3191 31923193
31943195 3196
3197
31983199320032013202
3203
320432053206
3207
3208
32093210321132123213
3214
32153216
3217 321832193220
3221
32223223322432253226 32273228
3229 3230
3231
32323233
3234
32353236
32373238
32393240 3241
3242
3243
3244
3245324632473248
324932503251325232533254
3255
3256
325732583259
3260
3261
3262 3263
3264
3265326632673268 3269
3270 3271
3272
3273
3274
3275 32763277 32783279
3280
32813282 328332843285
3286
3287
3288
3289329032913292
3293
3294 32953296329732983299
3300
3301
3302330333043305
3306
330733083309
3310
331133123313 3314
331533163317
331833193320332133223323332433253326
3327
332833293330 3331333233333334
3335
3336333733383339
33403341
3342
33433344
3345
3346334733483349
3350
3351
3352335333543355
33563357 33583359 3360
3361
3362
336333643365
3366
336733683369
3370
3371
337233733374
337533763377
3378
3379
3380
3381
3382
338333843385
33863387
338833893390 33913392
3393
3394
3395
3396339733983399
3400
3401
3402
34033404
3405
34063407 3408
340934103411
34123413
34143415
34163417
34183419 3420
3421
3422
3423
3424
342534263427 342834293430
34313432
34333434
34353436
3437
34383439
3440
344134423443
34443445
3446
3447
3448344934503451 3452
345334543455
3456
34573458
345934603461 3462
3463
346434653466
3467 34683469
34703471
3472
34733474
347534763477 347834793480
3481
34823483
348434853486
3487
34883489
349034913492
34933494
3495
34963497
3498
349935003501
350235033504
350535063507350835093510 35113512
35133514
35153516
35173518
3519
3520
352135223523
352435253526
35273528
3529
353035313532
35333534
3535
3536
3537
35383539 3540354135423543 35443545
3546
3547
35483549
35503551
3552355335543555
3556
355735583559
3560
3561
3562
35633564
3565
35663567
35683569
3570
357135723573
35743575
3576
357735783579
3580
3581
3582358335843585
35863587358835893590
359135923593
3594
3595
3596
359735983599
3600
36013602
3603
3604
3605
3606360736083609
3610
361136123613 3614 36153616 36173618361936203621
3622362336243625
3626 3627
3628 3629
3630
3631
3632
3633
36343635
3636
3637363836393640
3641
3642 36433644
3645
3646
3647
36483649
3650
36513652
36533654 3655365636573658365936603661
3662
36633664
3665
36663667
3668
3669
3670
36713672
3673
367436753676 367736783679
368036813682
3683
3684 3685368636873688
368936903691 3692
3693
3694
3695
3696
3697 369836993700
37013702
3703
3704
3705370637073708
37093710
37113712
37133714
3715
3716
371737183719
3720
3721
37223723
3724
3725
3726372737283729 3730
3731
3732
3733
3734373537363737 373837393740
374137423743 3744374537463747 3748 37493750
3751
375237533754
375537563757
37583759
3760
3761 3762
3763
37643765
37663767
3768
37693770
37713772
37733774
377537763777
3778
377937803781
378237833784
3785
37863787
3788
3789
3790
3791
37923793
3794 37953796
3797 37983799
38003801
3802
38033804
3805
3806
38073808
38093810
3811
3812
3813
3814
38153816
3817
3818
3819
38203821
382238233824
38253826382738283829 3830
383138323833
3834
383538363837
3838
38393840
38413842 38433844
3845
3846 38473848 38493850
385138523853 3854
38553856
38573858
3859
38603861
386238633864
3865386638673868
3869
3870
3871
38723873
3874
38753876 38773878
38793880
3881
3882
3883
3884
3885
38863887 38883889389038913892
38933894
3895
38963897
3898
389939003901
3902
39033904390539063907
3908
39093910
3911
3912 391339143915
3916391739183919
39203921
3922
3923
3924
39253926
3927
3928
3929
39303931
39323933
3934393539363937
39383939
3940
3941
3942
39433944
3945
3946
3947
39483949
3950
3951395239533954395539563957
39583959
396039613962
3963
3964
39653966
3967
3968 39693970
3971
3972
39733974397539763977
39783979
3980
398139823983
3984
39853986
3987
398839893990 3991
3992399339943995
3996 399739983999
4000
4001
4002
4003
4004
4005
40064007
40084009
4010
401140124013 4014
4015
40164017
401840194020
4021 4022
4023
4024
4025
4026
402740284029
4030
40314032 40334034
403540364037
4038
4039
4040
4041
4042 40434044
4045
4046
4047 40484049
40504051
4052
40534054
4055
40564057
40584059
4060
40614062 406340644065 4066
4067
40684069
4070
40714072
40734074 407540764077
407840794080
40814082 40834084
4085
408640874088
40894090
4091
4092
4093
4094
40954096
40974098
4099
410041014102
41034104
4105
4106
4107
4108
4109 41104111
41124113 4114411541164117411841194120
412141224123
4124412541264127
41284129
4130
413141324133
4134
4135 41364137
4138 41394140 41414142
41434144
41454146
4147
4148414941504151
4152
41534154
41554156
4157
4158
415941604161
4162
4163
41644165416641674168 41694170
417141724173 4174
4175
417641774178
41794180
4181
41824183
4184
41854186
4187
41884189
419041914192
4193
41944195
41964197
4198419942004201
4202
420342044205
4206
4207
42084209
42104211
4212
4213 42144215
4216
42174218
421942204221 4222
4223
42244225
4226 42274228
4229
4230
423142324233 42344235
423642374238
4239
42404241424242434244
4245424642474248
4249 42504251
42524253
4254
4255
42564257425842594260
42614262
4263
4264
4265
42664267
42684269
4270
42714272
4273
42744275
4276
427742784279
428042814282
4283
42844285 4286
4287
42884289 4290429142924293
4294
42954296429742984299
4300
4301
4302
4303
4304
4305
430643074308
4309
431043114312431343144315
43164317
4318
4319
4320
4321432243234324
4325
4326
432743284329
43304331
43324333
43344335
4336
4337433843394340
4341434243434344
4345
4346
4347
434843494350
4351435243534354
4355
435643574358
43594360
4361436243634364436543664367
4368
4369
43704371
4372437343744375
437643774378
4379
4380
43814382438343844385
4386
4387
4388
43894390
4391
4392
4393 4394
4395
43964397439843994400
44014402
4403
44044405
4406
4407
4408 4409
4410
4411
4412
4413
4414
4415 44164417
4418
441944204421
44224423
4424
4425
4426
44274428
4429
4430
4431
4432
4433
4434
4435
4436
44374438443944404441
4442
4443 44444445
444644474448
4449 44504451
4452
4453
44544455 44564457
4458
4459
4460
44614462
44634464
4465
446644674468
4469 4470
4471
4472
4473
4474
4475
4476
44774478
44794480
448144824483 4484
44854486
4487448844894490
4491 4492
4493
44944495449644974498
4499
4500
450145024503
450445054506
4507 45084509
45104511 4512 4513
451445154516
4517
451845194520
45214522
452345244525
45264527 452845294530 453145324533
453445354536
4537
4538
4539 4540
45414542
4543 45444545
4546
454745484549455045514552455345544555
4556
4557
45584559
45604561 45624563
4564
4565
456645674568
4569
4570
45714572
4573
457445754576
45774578
4579 4580458145824583
45844585
4586
4587
45884589
4590 459145924593
4594
4595
45964597
45984599
4600
46014602
4603
460446054606 4607
460846094610
4611
4612 46134614
4615
4616
4617
46184619
462046214622462346244625
4626
46274628
46294630
4631
46324633
46344635
46364637 4638
4639
4640
46414642
4643
4644
4645
46464647464846494650
465146524653 465446554656
4657
46584659
4660 46614662 4663
46644665
46664667
4668
4669
46704671
467246734674
467546764677
4678
46794680
4681
4682
46834684
4685
4686
4687
4688
4689
469046914692
4693
46944695
4696
4697
4698 4699
4700
4701
47024703
47044705
47064707
4708
470947104711
47124713
47144715
4716
4717
47184719 4720
4721
472247234724
47254726 4727
4728
4729
4730
4731473247334734
473547364737
473847394740
4741
4742
4743
4744
4745
4746
4747
4748
4749
475047514752
4753475447554756
47574758
475947604761
476247634764
47654766 4767
4768
4769
4770
47714772
4773
47744775
4776
4777
4778
4779
47804781
4782
4783
4784
47854786
4787
4788
4789
4790
47914792
47934794
4795479647974798
47994800
4801
4802
4803
48044805
4806
4807
48084809
4810
4811
4812481348144815
4816
48174818 48194820 48214822
4823
48244825
4826 48274828
4829483048314832483348344835
48364837
4838
4839
4840
48414842
4843
4844 4845
4846
4847
48484849
48504851
4852
4853 4854
4855
48564857
4858
485948604861
48624863
48644865486648674868 48694870
4871
48724873
4874
4875
48764877
4878 48794880
4881
4882
4883
4884
4885
48864887
4888488948904891 4892
4893
4894 48954896 4897
48984899
49004901
49024903
490449054906
4907 490849094910 4911
4912
49134914
4915 4916
4917
49184919 4920492149224923
4924
4925
4926
4927
4928
4929
4930
4931
4932
49334934
4935
4936
4937 49384939494049414942 4943 494449454946
49474948494949504951
4952
4953
4954
49554956
4957
4958495949604961
4962
49634964
4965
4966
49674968
4969497049714972
4973 497449754976
4977
4978
497949804981 49824983
4984498549864987
49884989
4990
4991
4992
4993
4994
4995
49964997
49984999
50005001
50025003
5004
5005500650075008
50095010
5011 50125013
5014
5015501650175018
5019
5020
5021
502250235024
5025
50265027
50285029
5030
503150325033 5034
5035 50365037 50385039
5040
5041
5042
5043
5044
504550465047
50485049 50505051 5052
5053
50545055
50565057
505850595060
5061
50625063
50645065
50665067
5068
50695070
50715072 5073
50745075
5076
5077
5078
5079
5080
508150825083
50845085
508650875088 508950905091
5092
5093
5094
5095
50965097
50985099510051015102
51035104
510551065107
51085109 51105111
5112
5113 5114 511551165117
5118 51195120
5121
5122 5123
5124512551265127
5128
5129
51305131 5132 5133
5134 51355136
51375138
5139 514051415142
5143514451455146
5147
5148
514951505151
51525153
5154
5155
5156
5157 51585159 5160
51615162
5163
51645165 51665167
5168
516951705171
5172
5173 517451755176
51775178 51795180
5181
5182
518351845185 51865187
5188
5189519051915192
51935194
5195 51965197
5198
5199
5200
52015202
5203
5204
5205
5206
5207
5208
52095210
5211
5212 521352145215 5216
5217 5218521952205221
5222
52235224
52255226
5227
5228
52295230
5231
5232
523352345235
5236523752385239
52405241 5242
5243
5244
5245
5246
52475248
5249
5250
5251
5252
5253
52545255
52565257 5258
5259
5260
52615262
5263
5264
52655266
5267
52685269
52705271527252735274
5275
5276
527752785279
528052815282
5283
52845285
52865287
5288
52895290
5291
5292
52935294
5295
529652975298
5299
5300
5301
53025303
5304 530553065307
5308
53095310 531153125313
531453155316
5317
5318
53195320
5321
5322
532353245325
5326 53275328
5329
5330
5331
5332
53335334
53355336
5337
5338 533953405341
5342
5343
53445345 53465347 5348
5349
53505351
5352
53535354
5355
535653575358
53595360536153625363
5364
5365
53665367 53685369
53705371
53725373
53745375
5376
5377
53785379 53805381
5382
53835384
5385
5386
5387
5388
5389 5390
5391
53925393
53945395
53965397
5398
5399 540054015402
54035404
5405
5406
5407
54085409
541054115412
54135414
5415
5416
5417
54185419
54205421
54225423
542454255426
5427 542854295430
54315432
5433
5434
5435
5436
54375438
54395440 5441 54425443
5444
54455446
5447
544854495450
54515452
5453
5454
54555456 5457
54585459
5460
5461546254635464
54655466
5467
5468
5469
547054715472
5473
5474
5475
5476
547754785479
54805481 54825483
5484548554865487 54885489
5490
5491
5492 5493
5494
54955496
5497
549854995500
55015502
55035504
55055506
55075508
55095510
5511
5512
5513
5514
5515
55165517 55185519
5520
5521
5522
5523
55245525
552655275528
5529
5530
5531
553255335534
5535
5536
553755385539
554055415542 55435544
5545
55465547
5548
554955505551
5552
55535554
555555565557
5558
55595560 55615562
5563
55645565
55665567 5568556955705571557255735574 5575
5576
55775578
5579
55805581
5582
5583
5584 5585
5586
558755885589
55905591
55925593
5594
5595
5596
559755985599
5600
56015602
56035604 560556065607
560856095610 56115612
5613
5614 5615 5616
5617
5618
5619562056215622 5623562456255626
56275628
5629
5630
5631
5632
5633
5634
56355636
5637
5638 56395640
564156425643
5644 5645
5646
5647
56485649
56505651
5652
5653
56545655 5656
56575658
5659
5660
5661
56625663
56645665
5666
5667
566856695670 5671
56725673
5674
56755676 56775678
56795680 56815682
56835684
56855686
5687
5688
56895690
56915692
5693
56945695
5696
5697 5698
5699
5700
57015702
57035704
5705
5706
57075708
5709
5710
5711
5712
5713
5714
57155716
57175718
5719
572057215722
5723
5724
5725
5726
5727
5728572957305731
5732
5733
5734
5735
5736
5737573857395740
5741
57425743
57445745
5746
5747
5748
5749
5750
57515752
5753
5754
5755
5756
5757
5758
5759
5760
57615762
5763
57645765
5766
57675768
5769
57705771 5772
5773
5774
5775
57765777
5778
57795780
57815782
5783
5784
578557865787
5788
5789
5790
5791
5792
57935794 579557965797
57985799
58005801
5802 5803
5804
5805 580658075808
5809
5810
5811
5812
5813
58145815 5816
5817
5818
5819
5820
582158225823
58245825
5826
5827
5828
5829 5830
5831
5832
5833
5834
58355836
5837
5838
583958405841
5842 5843
58445845
5846
5847
58485849
5850
58515852
58535854
5855
58565857
585858595860
5861
5862
5863
586458655866
58675868
586958705871587258735874
5875
5876
58775878
5879
5880
5881
5882 5883
5884
5885
5886
5887
5888588958905891 58925893589458955896
5897
5898589959005901
590259035904
5905
5906590759085909591059115912
5913
591459155916591759185919
59205921592259235924592559265927592859295930
59315932
5933
59345935
593659375938
593959405941594259435944594559465947
5948594959505951595259535954595559565957595859595960
DebtConHomeImp
MgrOffice
Other ProfExeSales Self
0
1
01
Figure: graphe des individus habilles en fonction des deux modalite de laVariable BAD
-
lexploration et le traitement des donneesetude de dependance entre variables
Interpretation
1 les variables MORTDUT, VALUE sont significativement etpositivement correlees avec la premie`re dimension
2 les deux variables DEROG et DELINQ ainsi notre variable a`expliquer BAD sont positivement correlees avec la deuxie`medimension principales ; la modalite 1 est correlee positivementalors que lautre modalite cest a` dire 0 est correleenegativement
3 les individus qui ont un nombre detats derogatoiresprincipaux assez grand ainsi un grand nombre de credits nonrembourses ne remboursent pas leurs dettes
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesetude de dependance entre variables
A fin de bien extraire la liste des variables correlees entre elles, onpeut passer par un test de correlation,test de khi-deux pourcroisement de deux variables qualitatives, un test de Pearson pourdeux variables quantitatives et un test de Student pour tester lacorrelation entre une variable quantitative et une autrequalitative.ces diffrents testes sont disponibles SOUS R
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
LOAN
0e+00 0 20 0 10 0 10
080
000
0e+0
0 MORTDUT
VALUE
0e+0
0
030 YOJ
DEROG
06
010 DELINQ
CLAG
080
0
010 NINQ
0 80000 0e+00 0 4 8 0 800 0 40
040CLNO
Figure: correlation entre les variables continues
-
lexploration et le traitement des donneesetude de dependance entre variables
La matrice de correlation ne reve`le la forte correlation entre lavariables MORTDUT et VALUE dou` limportance deliminer lunedes deux afin deviter toute redondance dinformation, on a optepour Lelimination de MORTDUT.Pour les variables qualitatives le V de Cramer ne detecte aucunecorrelation entre elles
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesla detection des variables les plus discriminantes
Selection dexperts des variables
pour les variables quantitatives un test degalite des moyennes estprimordial,un autre test est celui de Wilcoxon/Mann-Whitney.Celui-ci a lavantage detre non-parametrique, il compare lesdeferences de medianesPour les variables qualitative Pour tester lexistence dun lien entreles modalites des deux variables ; la variables BAD et lautrevariable quon veut detecter son pouvoir discriminant on va utiliserle test du khi-deux
resultat
Ces differents tests nous ont revele que toutes les variables sontsignificatives sauf la variable CLNO
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesla detection des variables les plus discriminantes
selection automatiques des variables
la selection des variables pourra seffectuer automatiquement en sebasant sur des differentesmethodes :Backward,Forward,Both(Stepwise),En general onsappuie sur le crite`re dAkake (AIC) ou de Scharwz (BIC) que lonsouhaite minimiser.le resultat de de cette methode est donne dans le tableau suivant
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesla detection des variables les plus discriminantes
etape AIC Variable ajoutee1 5336.33 DELINQ2 5071.73 CLAG3 4906.01 DEROG4 4855.24 NINQ5 4807.48 JOB6 4785.45 LOAN7 4776.68 REASON8 4769.15 VALUE9 4766.19 YOJ10 4763.52 CLNO
Table: Selection automatique des variables
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesdiscretisation des variables
Cette etape est fondamentale dans notre cas dont il sagit depredire une variable qualitative dont la reponse non lineaire,il y aaussi Des valeurs extremes que lon ne sait pas bien corriger,ladiscretisation fait evidemment disparaitre ce proble`meII nexiste pas de methode universelle pour discretiser des variablesen revanche lArbre CHAID peut fournir une aide efficace dans cesens.voici la sortie de logiciel SPSS pour la variable LOAN
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesdiscretisation des variables
le tableau suivant resume le resultat de la discretisation de toutesles variables continues et qui sont selectionnees pour participer a` laconstruction des mode`les predictifs.
LOAN VALUE CALG
175163
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
lexploration et le traitement des donneesdiscretisation des variables
NINQ CLNO DELINQ DEROG YOJ
0 1 >1 ]3.9;5]
>3 ]5;9]
]9;21]
>21
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Figure: discretisation automatique de la variable LOAN par CHAID
-
lexploration et le traitement des donneesconstruction des echantillons test et dapprentissage
echantillon test et dapprentissage
Nous allons diviser notre observations en deux sous populations :une premie`re qui comprend 65% de la population : on lappelleechantillon dapprentissage et les 35% restantes constituentlechantillon test. Le premier echantillon permet de modeliser lesdivers mode`les et de construire les re`gles daffectation dunindividu selon ses caracteristiques, lechantillon test a pour objectifde verifier si le mode`le fonde sur lechantillon dapprentissage eststatistiquement fiable.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le de regression logistique
La regression logistique
Cette technique est utilisee pour des etudes ayant pour but deverifier si des variables independantes peuvent predire une variabledependante dichotomique. En outre, la regression logistique peutcorrespondre a` une technique statistique dont lobjet est, a` partirdun fichier dobservations, de produire un mode`le permettant depredire les valeurs prises par une variable categorielle, le plussouvent binaire, en se basant sur une serie de variables explicatives,la regression logistique nexige pas une distribution normale despredicateurs ni lhomogeneite des variances. Par ses nombreusesqualites donc, cette technique est de plus en plus preferee par lesstatisticiens et les specialistes du scoring.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le de regression logistique
le mode`le obtenu est le suivant :
Z = 0.801loan[7500,16300]1loan[16300,25000]1.181loan[30500,89900]0.75 1value[48600,70100] 0.45 1value[70100,89200]
0.72 1value[89200,132000] + 0.72 1JOBSales+0.80 1JOBSelf 0.56 1yoj(5,9] 0.55 1
yoj(21,41] + 0.75 1derog(0,1] + 1.36 1derog(1,10]+1.12 1delinq(0,1] + 2.29 1delinq(1,15] 0.51
1clag(83.3,172] 1.19 1clag(172,246]1.47 1clag(246,1170] + 0.48 1ninq(1,3] + 1.18 1ninq(3,17]
0.59 1clno(9,34]Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le dArbre de decision(CART)
Arbre de decision(CART)
Breiman, Friedman, Olshen et Stone developpent la methodeCART( Classification and Regression Tree) en 1984 qui consiste enla construction darbres de decisions binaires par division delechantillon en deux sous-ensemble. Elle se base sur une approchestatistique et sur la suppression de branches contenant le moinsdinformations. Breiman affirme que les performances dun arbre dedecision repose principalement sur la determination de sa taille. Lesarbres ont tendance a` produire un classifieur trop complexe, collantexagerement aux donnees ; cest le phenome`ne de (sur-apprentissage ). Les feuilles, meme si elles sont pures, sontcomposees de trop peu dindividus pour etre fiables lors de laprediction
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le dArbre de decision(CART)
|DELINQ< 1.5
CLAG>=172.6
DEROG< 0.5
LOAN>=5050
VALUE>=7.575e+04
CLNO< 34.5
CLNO>=9.5
VALUE< 1.434e+05
DELINQ< 4.5
VALUE>=5.912e+04
CLAG>=111
VALUE< 1.196e+05
01569/152
01215/268
020/3
15/34
0110/56
11/12
112/28
10/14
0109/54
119/33
113/31
19/38
14/65
Figure: Arbre de decision(CART)
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le de reseaux de neurones
Reseaux de neurone
Les reseaux de neurones sont des outils puissants pour predire desphenome`nes non lineaires. Developpes dans les annees 80, ils ontconnu un vif succe`s aupre`s dutilisateurs non statisticiens cherchantavant tout des performances. grace en partie a` leur vocabulaireevoquant des analogies biologiques, le reseau le plus connu : leperceptron multicouche, issu des premiers travaux de Rosenblatt(1958)
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le de reseaux de neurones
Figure: reseaux de neurones avec une seule couche cachee
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le Vector Support machine
Vector Support machine
Les Support Vector Machines souvent traduit par lappellation deSeparateur a` Vaste Marge (SVM) sont une classe dalgorithmesdapprentissage initialement definis pour la discriminationcest-a`-dire la prevision dune variable qualitative binaire. Ils ontete ensuite generalises a` la prevision dune variable quantitative.Dans le cas de la discrimination dune variable dichotomique, ilssont bases sur la recherche de lhyperplan de marge optimale qui,lorsque cest possible, classe ou separe correctement les donneestout en etant le plus eloigne possible de toutes les observations. Leprincipe est donc de trouver un classifieur, ou une fonction dediscrimination, dont la capacite de generalisation (qualite deprevision) est la plus grande possible.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le Vector Support machine
Figure: Hyperplan avec 3 vecteurs de support,les vecteurs de support sonten rouge, leur position maximise la distance entre ces points et leursprojetes sur lhyperplan
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Elaboration des mode`les predictifsmode`le Random Forest
Random Forest
Les forets darbres decisionnels (ou forets aleatoires de langlaisRandom decision forest ) ont ete formellement proposees en 2001par Leo Breiman et Ade`le Cutler. Elles font partie des techniquesdapprentissage supervisees. Cet algorithme une amelioration du(bagging) . Lalgorithme des forets darbres decisionnels effectue unapprentissage sur de multiples arbres de decision entranes sur dessous-ensembles de donnees lege`rement differents.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Validation des mode`les elabores
pourquoi une telle etape ?
LEvaluation des performances dun mode`le de prediction est uneetape primordiale pour de nombreuses raisons :
1 savoir si un mode`le est globalement significatif.
2 avoir une idee Sur la fiabilite (les couts associes) lorsquejutiliserai mon mode`le
3 comparer plusieurs mode`les candidats.et savoir lequel parmiplusieurs mode`les sera le plus performant compte tenu de mesobjectifs ?
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Validation des mode`les elabores
Indicateurs de performance
Au cours de cette etape nous cherchons a` etudier la faculte dediscrimination et de generalisation de chaque mode`le en se basantsur un ensemble de crite`res de performance a` savoir : la matrice deconfusion,le taux de bon classement,la courbe ROC ( ReceivingOperating Curve), et la surface sous cette courbe nommee AUC.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Validation des mode`les elaborestaux de bon classement
Le taux de bon classement est le taux dinstances biens classees(TBC) ,il represente la proportion de vrais cas : vrais positifs etvrais negatifs dans la population. Nous utilisons ce crite`re afindevaluer le pouvoir de chacun de nos mode`les a` generer le plusgrand nombre dinstances bien classifiees.
TBC =VP + VN
VP + VN + FP + FN
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Validation des mode`les elaborestaux de bon classement
le tableau suivant resume le taux de bon classement pour lesdifferents mode`les :
mode`le TBC
Regression logestique 82.9%
Arbre de decision 83.6%
Reseaux de neurones 84.2%
SVM 89.2%
Random Forest 90%
Le tableau montre que les methodes dintelligence artificielles sonten generale les meilleurs en termes de taux de bon classement, etplus particulie`rement le mode`le de Random Forest base sur leprincipe de lagregation suivi par celui de SVM.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Validation des mode`les elaboresLa courbe ROC
Courbe ROC
Abreviation (Receiving Operating Curve ) Cette courbe resume lesperformances de toutes les re`gles de classement que lon peutobtenir en faisant varier le seuil de decision.cest une representation graphique de la relation existante entre letaux des vrais positifs et (1-le taux des vrais negatifs) . Lordonneerepresente le TVP et labscisse correspond a` (1 - TVN)Plus les deux distributions sont separees, plus la courbe ROC serapproche du carre. Si les deux distributions sont identiques, lacourbe se confond avec la diagonale.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Validation des mode`les elaboresLa courbe ROC
Representation des courbes ROC pour les differents mode`les
False positive rate
True p
ositiv
e r
ate
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Rseaux NArbre DReg LSVMRandom F
-
Validation des mode`les elaboresLa surface sous la courbe ROC
AUC
notee AUC(Area Under Curve) , cest une mesure de laperformance dun score,et la qualite de discrimination du mode`le entraduisant la probabilite quun bon client aura un score superieureau score dun mauvais client,Elle varie entre 0 et 1 en pratique 0.5et 1, car si AUC < 0.5, cela signifie que les scores ont ete inverses.
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
Validation des mode`les elaboresLa surface sous la courbe ROC
les valeurs de AUC des differentes mode`les sont resumees dans letableau suivant :
mode`le AUC
Regression logestique 80.8%
Arbre de decision 73.5%
Reseaux de neurones 82.2%
SVM 88.5%
Random Forest 94.6%
Les resultats dAUC confirment ce quon a constate avec lescourbes ROC.LE mode`le des forets ale`atoires est le meilleur
Lamrani Alaoui Youssef propose par: Mme AKDIM Elaboration des mode`les de Scoring pour les particuliers
-
bibliographie
Stephane,Tuffery,Data mining et statistique decisionnelle :lintelligence dans les bases de donnees,editions, 2007
Gilbert SAPORTA,probabilite analyse des donnees etstatistique,2e`me edition, 2006
Melanie Glasson-Cicognani et Andre Berchtold,Imputation desdonnees manquantes :Comparaison de differentes approches
Vivien BRUNEL,Gestion de risques et risque de credit,version28 Janvier, 2009
Francois Husson et Julie Josse, Analyse de donnees avecFactoMineR,Lyon juin 2013
Hassen Mathlouthi,Universite DE CARTHAGE EcoleSuperieure de Statisstique ET Danalyse DELInformationCours de methodes de scoring,2013-2014
-
webographie
[1] http ://wikistat.fr/
[2] http ://www.duclert.org/
[3] http ://www.culturebanque.com/
[4] sites.google.com/site/minutestatistique/home
[5] http ://eric.univ-lyon2.fr/ ricco/cours/
[6] http ://factominer.free.fr/
introductionLe crdit scoringl'exploration et le traitement des donnesprsentation des donnesTraitement des valeurs manquantes statistiques discrptivestestes de Normalit et Normalisation des variablestude de dpendance entre variablestude de dpendance entre variablesla dtection des variables les plus discriminantesdiscrtisation des variablesconstruction de l'chantillon test et d'apprentissage
laboration des modles prdictifsmodle de regression logistiquemodle d'Arbre de dcision(CART) modle de rseaux de neurones modle Vector Support machine modle Random Forest
Validation des modlesLe taux de bon classementLa courbe ROCLa surface situe sous la courbe ROC