tene_memoire

72
 EVALUATION STATISTIQUE DU RISQUE DE CREDIT PAR LA TECHNIQUE DU SCORING : Cas de Afriland First Bank Présenté par : TENE Georges Colince  Maître ès-Scien ces en Mathématiques Pure s Sous la direction de Eugène-Patrice NDONG NGUEMA Chargé de cours à l’ENSP de Yaoundé Sous l’encadrement professionnel de Célestin GUELA SIMO  Directe ur des Etudes et du Corporate Banking, AFRILAND FIRST BANK

Transcript of tene_memoire

EVALUATION STATISTIQUE DU RISQUE DECREDIT PAR LA TECHNIQUE DU SCORING :Cas de Afriland First BankPrsent par :TENE Georges ColinceMatre s-Sciences en Mathmatiques PuresSous la direction deEugne-Patrice NDONG NGUEMACharg de cours lENSP de YaoundSous lencadrement professionnel deClestin GUELA SIMODirecteur des Etudes et du Corporate Banking, AFRILAND FIRST BANKDEDICACESA la mmoire de mon pre. Papa : Que ton me repose en paix.A ma mre, Mme TCHOUNDA Madeleine ; Maman, cest sr que tu ne comprendraspas grand-chose au sujet que jai trait dans ce document, mais saches que chaque mot, chaquephrase, chaque ponctuation et chaque lettre que jy ai inscrit ont une seule et mme signica-tion : tu es la meilleure des mres .A notre chef de famille, Mr FOYO Jean-Paul, pour tes conseils, ton soutien inconditionnelque tu mas toujours apport comme tous tes enfants.A mes surs, Mme WOUAGOU Juliette et Mme MASSO Flore, pour votre amour, votresoutienmoraletnancier, votrepatienceetvotredvouementsansfaillequimontpermisdarriver jusqu ce point. Puisse ce diplme nous rserver tous des lendemains meilleurs.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007REMERCIEMENTS Louange Dieu, le trs clment et le trs misricordieux .Au Pr. Henri GWTDe prime bord, nous voudrions lui exprimer notre grande considration travers les grandsefforts fournis pour nous procurer le savoir et le savoir tre dans des conditions universitairesfavorables.Au Dr. Eugne-Patrice NDONG NGUEMAUne mention toute particulire dadmiration et dun grand respect son endroit, dont lesnombreux conseils mthodologiques et la constante disponibilit ont t plus que dterminantdurant notre formation et pour la ralisation de ce mmoire.Au Pr. Philippe BESSELaboratoire de Statistique et Probabilits, UNIV Paul Sabatier de Toulouse III.Pour sa disponibilit, son aide et les prcieux conseils quil ma donn via le Net.A tout le personnel enseignant du Master 2 de Statistique Applique de lENSP.Nous voulons ici exprimer nos sincres gratitudes toutes les personnes qui nous ont tdun apport positif pendant notre stage la First Bank.Nous remercions dabord M. GUELA SIMO Clestin pour avoir bien voulu nous parrainerpendant notre sjour au sein de Afriland First Bank.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-20073Merci M. MOUAHA YEKEL, SIME Brice pour leur encadrement, et surtout pour avoirbien voulu lire notre travail, contribuer par leurs nombreuses critiques positives son amliora-tion.Merci aussi tout le reste du staff de la Direction des Etudes et du Corporate Banking, etplus particulirement MM El Hadj OUSMANE MAHAMAT et TACHOULA TSOGNOSaturnin pour nous avoir bien accept parmi eux, et nous avoir guid dans les tches que nousavons eu raliser pendant notre stage.Sincres remerciements Mr Raymond TACHAGO pour lencadrement et le soutien in-conditionnel dont jai toujours bnci ses cts.A Mr Guillaume EYOUM pour le soutien dont il a toujours faire montre mon gard.Ames amis et connaissances : Clotilde DJOTUE, Lopold NGUETGNIA, Nicanor NYAND-JOU, Narcisse ZEBAZE, Samuel MBE et Raphal FONGANG.A tous mes camarades du Master 2 de Statistique Applique de lENSP.Enn, tous ceux qui nous ont oeuvr dans quelque circonstance que ce soit pour la concep-tion et la ralisation de ce document, quils trouvent ici lexpression de notre profonde gratitude.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007AVANT - PROPOSLe stage acadmique de n de formation fait partie du systme dvaluation de ltudianten Master 2 de Statistique Applique de lEcole Nationale Suprieure Polytechnique de lUni-versit de Yaound I. Il prsente pour celui-ci un double intrt : ce stage permet lapprenantdune part de se trouver dans un cadre mieux indiqu pour pouvoir confronter la thorie reuependant la formation la pratique sur le terrain de son futur mtier. Dautre part, cest aussiloccasion de se familiariser avec son milieu de demain, le monde du travail. Cest la raisonpour laquelle le stage acadmique est une tape indispensable pour les futurs diplms en Sta-tistique Applique que nous sommes. A lissue de ce stage, ltudiant prsentera un mmoirede n de formation qui sera sanctionn par le diplme de master 2 de Statistique Applique.Durant notre sjour qui a dur trois mois(25 juin au 25 septembre 2007) la First Bank,notre objectif tait de fournir un outil statistique pouvant permettre de rduire le taux dimpayslev par rapport la moyenne nationale, subie par cette banque en 2006, en mettant objec-tivement sur pied un outil qui permettrait une dtection automatique des clients risque quisont la principale cause de ces impays. Il sagissait pour nous de construire un modle statis-tique de dclement prcoce du statut bon ou mauvais client dun nouvel emprunteur de laFirst Bank. Lorientation de notre travail tait porte sur la conception dun modle statistiquedoctroi de crdit par la technique du scoring : Cest le credit scoring. Ce terme dsigne un en-semble doutils daide la dcision utiliss par les organismes nanciers pour valuer le risquede nonremboursement des prts.Un scoring est une note de risque, ou une probabilit de dfaut.Le modle construit devrait nous permettre dvaluer le risque de crdit des emprunteurs de laFirst Bank.Nous navons pas la prtention davoir cern les contours du sujet, bien au contraire nous pen-sons que plusieurs tudes doivent encore tre faites pour lamlioration de ce travail. Pour cetteraison, nous restons assujettis vos remarques et critiques. il arrive que les grandes dcisions ne se prennent pas, mais se forment delles mmesHenri Bosco (1888-1976)Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007RESUMECommentlesbanquessont-ellescensesvaluer,prvoiretgrerefcacementlerisquecrdit, face lincroyable diversit des dangers et menaces qui psent dsormais sur leur acti-vit ? Comment peuvent-elles rpondre avec succs aux nouvelles contraintes qui manent de laclientle tout en prservant leur rentabilit future ? Ces deux questions sont au coeur des enjeuxlis la mesure du risque de crdit, et ne sont pas sans effet sur la capacit future des banques grer ce type de risque. Encore aujourdhui, seules les banques et institutions nancires depremier plan sont capables dvaluer leur risque de crdit avec un certain degr de conance oudisposent dune base de donnes able pour le scoring ou la segmentation comportementale desemprunteurs. Spcier des modles de risque plus robustes que les mthodes traditionnelles, enintgrant davantage de facteurs de risque de crdit et en amliorant la prcision de la mesure dece risque, tel est le d que doivent aujourdhui relever les banques.Dans le cadre de ce mmoire, notre travail consiste la mesure du risque de crdit par unenotation statistique des emprunteurs Afriland First Bank.On y dveloppe deux mthodes pa-ramtriques de construction dun scoring, puis une comparaison nale des qualits de prvisionsur la base du taux de mal classs y est faite pour loptimisation des modles.Mots cls : Banque, Risque de crdit, scoring, emprunteur, modle.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007ABSTRACTHow banks are supposed to evaluate, forecast and manage efciently credit risk, giventhe multiple dangers and threats they have to face now? How can they answer successfully tothe new constraints arising from supervisors while preserving their future protability ? Thesetwo questions are the most challenging issues related to credit risk, and they can impact on thefuture banks ability to manage this type of risk. Even now, only rst-ranked nancial institu-tions are really able to evaluate their credit risk with an acceptable level of condence or havea reliable database for the scoring or the behavioural segmentation of the borrowers. Buildingmore robust credit risk models than traditional methods, by including more risk factors and im-proving the accuracy of operational risk measures and indicators, such are the challenges bankshave to deal with in the near short term.Within the framework of this memory, our work consists with the measurement of riskcredit, by a statistical notation of the borrowers at Afriland First Bank. We develop two para-metric methods of construction of a scoring, then a nal comparison of qualities of forecast onthe basis of rate of evil classied is made for the optimization of the models.Keywords : Banks, credit Risk, scoring, model, borrowerMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007SIGLES ET ABBREVIATIONSBTP: Btiment Travaux Publics.CA: Chiffre dAffaire.DECB: Direction des Etudes et du Corporate Banking.ENSP: Ecole Nationale Suprieure Polytechnique .ESDC: tude Statistique des Dossiers de Crdit .Ets : Etablissement (entreprise personnelle) .FCFA : Franc de la Communaut Financire de lAfrique Centrale .GIC : Groupement dIntrt Commun .IC: Intervalle de Conance.M: millions .RN: Rsultat Net.SA: Socit Anonyme .SARL: Socit Responsabilit Limite .SN: Situation Net.VA: Valeur Ajoute.i.e:cest--direMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007LEXIQUE DES TERMESTECHNIQUES[15]Actifs : cest lensemble des biens ou droits constituant le patrimoine de lentreprise, i.etout ce quelle possde.Autonomie nancire dune entreprise :cestla capacitdesautogrer elle-mme.Elle est value par les ratios : capital / dettes ; SN/dettes ; SN/total passif .Cash ow : Le cash ow dune entreprise permet de mesurer sa capacit autonancerses investissements. Cest le moyen le plus sain puisquil correspond aux liquiditsdgages par lentreprise.Charges directes : une charge est dite directe par rapport un produit lorsquelle parti-cipe sans ambigut la fabrication de ce produit. Parmi les charges directes, on a entreautres les matires premires et fournitures qui entrent en fabrication des produits et lamain duvre directe compose des frais de personnel rsultant des travaux effectus surun seul produit.Charges indirectes : ce sont les charges qui concernent plusieurs produits (et parfoismme tous les produits) de lentreprise et qui sont rparties (ou "imputes") entre cesproduits laide de cls de rpartition.Ce sont par exemple : certains frais dusine (btiment, entretien, assurances, etc.), les cots desservices gnraux de lentreprise (direction gnrale, direction de la recherche, direction com-merciale, etc.), les campagnes publicitaires portant sur plusieurs produits de lentreprise ou surlentreprise elle-mme (publicit corporate).Chiffre daffaire : Le chiffre daffaire dsigne le total des ventes de biens et de servicesfacturs par une entreprise sur un exercice comptable.Credit scoring : cest un ensemble doutils daide la dcision utiliss par les organismesnanciers pour valuer le risque de nonremboursement des prts.Fonds propres ou capitaux propres : ils correspondent aux ressources stables de lentre-prise i.e dans une optique fonctionnelle, les capitaux propres participent, concurremmentavec les lments du passif externe, au nancement de lentrepriseMontant des investissements : Pour une entreprise, Cest le montant plac essentielle-ment dans une opration conomique pour acqurir des biens durables utiliss court ou moyen terme.Passifs : ce sont les lments du patrimoine ayant une valeur conomique ngative pourMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-20079lentreprise, ie les obligations de lentreprise lgard dun tiers dont il est probable oucertain quelle provoquera une sortie de ressources au bnce de ce tiers, sans contre-partie au moins quivalente attendue de celui-ci. Les passifs comprennent les provisionset les dettes.Taux dintrt hors taxes en % : Le taux dintrt dun prt ou dun emprunt est lepourcentage, calcul selon des conventions prdnies, qui mesure de faon synthtique,sur une priode donne, la rentabilit pour le prteur ou le cot pour lemprunteur delchancier de ux nanciers du prt ou de lemprunt.Valeur ajoute : Cest la contribution additionnelle dune ressource, dune activit oudun processus dans la ralisation dun produit ou dun service. En comptabilit elle estdonne par : Valeur Ajoute = Chiffre daffaire - Valeur des consommations interm-diaires.Rentabilit dune entreprise : cest laptitude donner des rsultats (positif ou ngatif).La rentabilit permet dvaluer lefcacit, ou plutt lutilisation rationnelle de ressourceslimites. Elle est value via les ratios suivants : VA/CA; RN/CA ou taux de marge nette ;RN/capitaux propres.Rsultat net : Le rsultat net dune entreprise sur une priode donne (par exemple : uneanne) est gal :la somme des produits raliss par celle-ci sur la priode, (chiffre daffaires) de laquelle on adduit lensemble des charges (directes et indirectes) engages sur la mme priode, ainsi quelimpt sur les socits.Le rsultat net peut donc prendre la forme dune perte (rsultat net ngatif) ou dun bnce(rsultat net positif).Scoring : cest une note de risque, ou une probabilit de dfaut.Sige social ou lieu dexploitation : Le sige social dune entreprise est un lieu, pr-cis dans les statuts dune socit, qui constitue son domicile et dtermine son domicilejuridique.Solvabilit dune entreprise : cest sa capacit payer ses dettes ou ses cranciers. Elleest value par le ratio actif total/dettes.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007RESUME EXECUTIFCette note propose une application aux techniques de credit scoring partir dunetude de cas sur les difcults nancires des emprunteurs de la First Bank servant de sup-port des formations initiales et continues en analyse des donnes. On prsente tout dabordla problmatique de lvaluation du risque de crdit, les contraintes quimpose la collecte dedonnes comptables dans un tel contexte, et la batterie des critres micro-conomiques retenuspour mesurer le degr dinsolvabilit des microcrditeurs. Linformation fournie par cette bat-terie de variables nanciers est ensuite analyse aux moyens de techniques statistiques telle quela rgression logistique et la discrimination linaire au sens de Fisher. Les rsultats fournis parces techniques danalyse discriminante, et de classement permettent de montrer lintrt m-thodologique de ces outils pour ce type dtude micro-conomique. Les rsultats obtenus sontinterprts directement partir des sorties du logiciel R.Objectif de ltude :Proposer une base mthodologique de mesure du risque de crdit applicable aux emprun-teurs lintention de la First Bank.0.1 ProblmeDans un contexte de transition issu des rsultats comptables peu satisfaisants du rapport an-nuel 2006, il est vraisemblable que la problmatique de lvaluation du risque de crdit bancaireconnaisse un regain dintrt compte tenu des multiples sollicitations de crdit auxquelles faitface la First Bank. Les crances douteuses ont ainsi pes assez lourdes sur le rsultat net quaconnu la First Bank. Il savre ds lors indispensable de mettre en place des moyens efcacesqui puissent permettre autant quil est possible de rduire les risques lis aux crdits accordspar la First Bank, faute de pouvoir les viter compltement.0.2 DonnesLes donnes sont collectes la DECB-division des projets et investissements, lunit sta-tistique tant un dossier de crdit. Malgr les difcults de collectes auxquelles nous avons tconfronts pendant la priode de stage, nous avons pu collecter 130 dossiers de crdit pour untotal de 25 variables par dossier de crdit. Ceci nous a permis de confectionner notre base dedonnes sous forme dun tableau individus-variables pour en faire une analyse.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007110.3 MthodologieIl sagit duneclassicationsupervisedeuxgroupes: bonsclientset mauvaisclients. An de discriminer au mieux les deux groupes demprunteurs rpertoris du pointde vue des critres nancires et comptables, nous avons utilis lanalyse discriminante sur labase des variables nancires les plus pertinentes, pour prdire lappartenance de chaque em-prunteur ou client au groupe dni par la valeur de la variable qualitative Y statut du client deux modalits :- si (Y =0), lentreprise(emprunteur) est considre comme nancirement saine ;- sinon (Y=1), lentreprise est considr comme dfaillante. partir de combinaisons des caractristiques nancires utilises comme variables explica-tives (exognes) dans lanalyse, lanalyse discriminante construit des fonctions discriminantesou credit scoring permettant daffecter lemprunteur lun des groupes prdnis sur la basedune rgle probabiliste baysienne. Les mthodes utilises sont la rgression logistique deuxclasses et la discrimination au sens de Fisher.An de valider les rsultats obtenus, nous utiliserons une procdure de validation croisequi consiste pour chaque individu de lchantillon raliser son classement sur la base de lafonction linaire discriminante obtenue avec les autres individus de lchantillon. Cela revient effectuer autant destimations quil y a dindividus dans lchantillon. Selon cette procdure,chaque individu class sert dchantillon-test pour le calcul du pourcentage de bien-classs etle classement seffectue sur la base dun chantillon dapprentissage constitu par les n-1 indi-vidus restants.0.4 RsultatsLe scoring obtenu par la rgression logistique binaire semble tre la mieux approprie pourla notation statistique des emprunteurs la First Bank. Ainsi, lexpression mathmatique duscoring est :S(X)= 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3 - 0.0876921 R6+0.061002 R7qui est une probabilit de dfaut.La mthode thorique nous fournit un seuil s=0 et un pourcentage de plus de 80% de bonsclassements, consquemment la rgle de dcision suivante :S(X) 0 alorsY= 0, ie que lemprunteur est non risqu, il est donc considr commebon.S(X)0 alorsY= 1, ie que lemprunteur est risqu, il est mauvais client.La construction de ce scoring a gnr un seuil s= 80.3. En supposant que la politique cono-mique de la First Bank est de ne pas prendre de risque ie on est au seuil de 80.3, alors on a largle de dcision suivante :SiS(X) 80.3, alors le client est considr comme non risqu ie bon.SiS(X) 80.3, alors le client est peut-tre risqu car ici on rencotre les bons et lesmauvais clients.Il est possible de faire encore varier ce seuil, cela signie quon accrot le risque et lerreur.Lexamen statistique de la situation conomique et nancire des entreprises (emprunteurs),en vue de la dtection prcoce des difcults de la clientle, est extrmement fructueux. ParMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-200712lanalyse multicritres, il permet la construction dun scoring qui fournit une image synthtiquedu prol de lentreprise empreunteuse. Celui-ci est, dans la trs grande majorit des cas, rv-lateur de la sant de lentreprise. Si un tel outil ne peut se substituer au jugement de lexpert,il peut contribuer linformer rapidement sur le niveau de risque de lentreprise et concourirau diagnostic, grce aux aides linterprtation qui laccompagnent. Lanalyste pourra alors seconcentrer sur des aspects plus dlicats et moins quantiables de lvaluation, en particulier lesaspects qualitatifs. Ainsi, expertise et utilisation dun scoring ne sont pas contradictoires ; aucontraire, elles se compltent et permettent dafner lanalyse du risque de crdit. De mme,lorsque plusieurs outils dvaluation du risque sont disponibles, gnralement fonds sur dessystmes dinformation diffrents, il est trs fructueux de les examiner tous. En effet, les rensei-gnements quils apportent relativisent les points de vue, accroissent la abilit de la prvisionet renforcent le diagnostic.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007INTRODUCTIONContexte et problmatiqueLe risque de crdit[6] est le risque (vu comme une probabilit) que lemprunteur ne rem-bourse pas sa dette en partie ou en totalit, lchance xe. De nos jours, sa matrise estlune des principales proccupations pour la plupart des organismes bancaires, notamment viales crances quelles accordent leurs clients, qui sont pour la plupart des formes de prt courtterme, et pour cette raison, de nombreuses banques sont aujourdhui amenes lintgrer dansleur gestion an de le minimiser. Ce risque est en effet lourd de consquences pour la banque,car toute dette non rembourse est conomiquement une perte sche que supporte le crancier.Comptablement parlant, les crances et emprunts accords des tiers constituent ainsi un postespcique dans le bilan de lentreprise et toute volution ngative obre dautant la survie delentreprise moyen ou long terme. Trs tt, les tablissements bancaires ont donc cherch simmuniser contre ce risque de crdit. En amont, ce risque peut faire lobjet dune valuationgrce diffrents critres et des techniques mlant calcul et intuition. Suite cette valuation,les banques disposent ensuite de diffrents moyens de protection pour minimiser, voire annulerce risque conomique.Dans le cadre de leur fonction dintermdiation nancire, les banques sexposent au risquede ne pas recouvrir la totalit des fonds engags dans les dlais impartis. La First Bank,4mebanque en total du bilan au Cameroun en 2006, a d constituer FCFA 4 milliards de provisionspour faire face aux mauvaises crances au titre du mme exercice, pour un rsultat net(RN) dex-ploitation de FCFA 1 milliard[3]. Ce qui reprsente un taux moyen de crances en souffranceou taux dimpays denviron 17% (taux suprieur la moyenne nationale qui est de 12%). Lescrances douteuses ont ainsi pes assez lourd sur ce rsultat net qua connu la First Bank. Ilsavre ds lors indispensable de mettre en place des moyens efcaces qui puissent permettreautant quil est possible de rduire les risques lis aux crdits accords par la First Bank, fautede pouvoir les viter compltement. Cest la raison pour laquelle lun des ds conomiquesmajeurs pour la First Bank en 2007 est rduire de manire considrable ces impays.Le march du crdit bancaire mettant en relation le banquier et le client emprunteur estcaractris par une imperfection dinformation, source de rationnement du crdit aux yeux deChristophe Godlewski[11]. Le banquier se doit ainsi de chercher les moyens efcaces qui luipermettent de bien faire la slection de ses clients. La pratique de cette slection ncessite quele banquier dispose dau moins deux choses : linformation sur les clients, et une techniqueMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-200714objective de slection elle-mme. Pour dtenir cette information, il y a une source ofciellereprsente par les documents comptables et sociaux, et une source prive ncessitant que lebanquier soit effectivement en relation avec lemprunteur. Pour analyser linformation quunbanquier dtient sur ses clients, on dispose la First Bank dune mthode subjective dontles exigences majeures sont le jugement et le bon sens, ce qui ne permet pas la First Bank dedceler judicieusement les clients susceptibles de ne pas honorer leurs engagements avec labanque. Ainsi, Pour analyser linformation que le banquier dtient sur son client, il faut trouverune autre approche complmentaire pour ltude des dossiers de crdit, amlioratrice du tauxdimpays. Ceci passe objectivement par la mise sur pied dun modle statistique dvaluationdu risque de non remboursement (risque de crdit) des emprunteurs de la First Bank.Lutilisation de la statistique pour tudier les dossiers de demande de crdit passe par un travailde synthse dune grande masse dinformations collecte dans le pass. En effet, les techniquesstatistiques permettent de retracer le prol des bons clients et des mauvais clients travers leurpass partir duquel il est possible de pronostiquer le risque de dfaut dun nouveau client.Si un modle dvaluation est utilis, les variables discriminantes contenues dans ce modledoivent tre statistiquement reprsentatives. La abilit du modle et ses paramtres doiventtre contrls priori (mesure de la performance prdictive) et posteriori (back-testing).Enjeu :La mesure du risque de crdit sur les emprunteurs est un enjeu important, surtout lorsquilsagit des besoins traditionnels tel que le crdit bancaire. La ncessit pour les banques de dis-poser doutils ables est encore plus forte dans la priode actuelle de monte du risque de crditet de doutes sur les comptes de la clientle. La ralisation dun modle de notation statistiquedoctroi de crdit par le scoring (credit scoring) est dune grande importance en ce sens quesa capacit de pronostiquer facilite lvaluation des risques des candidats aux microcrdits. Lecredit scoring est objectif, cohrent et explicite, il permet de quantier le risque comme proba-bilit et suppose quune bonne partie des risques est lie aux caractristiques quanties dansla base de donnes.Plan de travail :Notre travail est divis en cinq principaux chapitres. Le squelette se prsente comme suit :dans un premier temps, nous prsentons la banque Afriland First Bank, sa Direction des Etudeset du Corporate Banking(DECB) et les diffrents risques auxquelles font face la plupart desbanques en mettant un accent particulier sur le risque de crdit. La description de nos donnesfait lobjet du chapitre deux. Le chapitre trois est consacr un expos sur quelques applicationsstatistiques version paramtrique du credit scoring savoir la rgression logistique et la discri-mination linaire-quadratique au sens de Fisher, ensuite un quatrime chapitre est consacr la technique pratique de construction et reprsentation dun scoring, on fait varier le seuil s dediscrimination et on propose un algorithme pour estimer les mal classs lors de la prdiction,il sagit des erreurs de premire et deuxime espce. Le chapitre cinq enn, est essentiellementport sur les applications informatiques via le logiciel R des diffrentes mthodes annoncesaux chapitres trois et quatre, en essayant dinterprter les sorties obtenues. Un paragraphe pourles recommandations y est insr la n pour conclure ce travail.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007CHAPITRE PREMIERPRESENTATION DE LASTRUCTURE DACCUEIL ETCONCEPT DE RISQUE BANCAIRECe premier chapitre de notre travail est dune part consacr une prsentation sommaire dela structure dans lequel nous avons effectu notre stage acadmique. Dautre part, on y prsentedans sa gnralit le concept de risque bancaire en y mettant un accent particulier sur le risquede crdit, la raison dtre de notre travail.1.1 Prsentation de la structure daccueil1.1.1 Afriland First BankAfriland First Bank est un tablissement bancaire de 6 500 000 000 FCFA de capital social.Cest une Socit Anonyme (SA) dont lhistoire remonte au 4 octobre 1987, date de crationde la Caisse Commune dpargne et dInvestissement (CCEI) qui allait tre rebaptise AfrilandFirst Bank en abrg First Bank 15 annes plus tard. Son sige social est Yaound. Le tableau1.1 prsente les principales caractristiques de la First Bank.Notre stage sest droul au sige social de la First Bank Yaound, prcisment au seinde la Direction des tudes et du Corporate Banking (DECB) dont les missions et lorganisationsont sommairement prsentes dans les lignes qui suivent :1.1.2 La Direction des Etudes et du Corporate Banking(DECB)a- Les missions de la DECBPlusieurs missions sont assignes la DECB, notamment :ltude de faisabilits des projets ;lvaluation des entreprises ;ltude de la restructuration des entreprises ;llaboration dune banque de donnes conomiques et statistiques ;Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DERISQUE BANCAIRE 16TAB. 1.1 Fiche didentication de Afriland First BankRaison sociale : Afriland First BankForme juridique : S.ASige social : Yaound, Hippodrome, Place de lindpendance,B.P : 11834Tel. : 22 23 30 68 / 22 22 37 34/22 23 63 27Fax : 22 22 17 85Telex : 8907 KNWeb : www.afrilandrstbank.comCapital social : 6 500 000 000 F CFAVocation : La volont dtre et de rester une banque africaineAmbitions :- rester le partenaire de lentreprise gagnante ;- entretenir la amme de linnovation;- rester la banque de proximit ;- nourrir la croissance par une bonne liquidit.Source :www.afrilandrstbank.comMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DERISQUE BANCAIRE 17lanalyse des lires conomiques ;lalimentation permanente de la banque des projets ;lorganisation / le conseil / le suivi des entreprises ;la gestion des lignes de nancement ;la promotion des entreprises ;la promotion des fonds de garanties mutuelles ;la recherche des solutions aux problmes spciques de nancement des entreprises ;la recherche des subventions pour le nancement du suivi/conseil des entrepreneurs ;la recherche des lignes de nancement moyen et long terme ;la recherche des partenaires trangers ainsi que lassistance technique pour les projets ;le dveloppement des diverses relations avec les bailleurs de fonds ;la promotion et le suivi des microstructures ;la gestion du portefeuille des participations locales.b- Lorganisation de la DECBLa DECB est dirige par un directeur qui en assure le suivi et la gestion. Elle comprend troisDpartements :Le Dpartement Micro banque organis en cinq divisions :la Division Micro banque Ouest et Nord-ouest ;la Division Micro banque Grand Nord ;la Division Micro banque Littoral, Est et Sud-Ouest ;la Division Micro banque Sud-Centre ;la Division AuditLe Dpartement des tudes, des Projets et des Investissements avec trois divisions :la Division des tudes ;la Division des Projets et Investissements ;la Division Documentation et Archivage.Le Dpartement du Corporate Banking et des Marchs Financiers qui comprend troisdivisions :la Division des Marchs Financiers ;la Division Asset Management / Gestion Actif ;la Division du Corporate Banking1.1.3 Contexte de ltudeLe dispositif actuel dtude des dossiers de crdit la First BankLe remploi des ressources collectes au titre des crdits accords aux agents conomiques besoin de nancement est la raison dtre de la First Bank. En effet, plusieurs types de clients,personnes physiques ou morales peuvent, au besoin, solliciter le concours de la First Bank pourle nancement de leurs projets ou diverses activits conomiques.Cependant, la First Bank ne rpond pas favorablement toutes les demandes exprimesMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DERISQUE BANCAIRE 18par ses clients potentiels. Seuls les clients jugs aptes retourner les fonds reus aux condi-tions convenues peuvent tre nancs. Cette aptitude respecter ses engagements vis--vis dela banque svalue travers ltude des dossiers de demande de crdit introduits par les clientsauprs de la banque. Cette tude est conduite respectivement par les analystes, les contre ana-lystes des dossiers de crdit et les comits de crdit.a. Les analystes et les contre analystes des dossiers de crditLes analystes des dossiers de crdit dbutent lanalyse de tout dossier de crdit introduit auprsde la First Bank par les clients. Mais, paralllement cette analyse des dossiers de demande decrdit, les analystes assurent le conseil et lorientation du client an de lui permettre de biencirconscrire lobjet de sa demande.Ce dbut danalyse consiste notamment :faire une description des caractristiques du client et de son besoin exprim ;faire ltat de la situation des engagements en cours du client vis--vis du systme ban-caire en gnral, et en particulier ses engagements vis--vis de la First Bank ;dcrire le projet objet de la demande, et en analyser les risques, la rentabilit et la solva-bilit ;recenser les types de garanties que le client propose pour la couverture dventuels enga-gements de la banque ;rsumer les points forts et les points faibles susceptibles dorienter une apprciation dudossier en traitement ;faire une proposition de dcision vis--vis du nancement sollicit par le client, ainsi queles conditions de banque que sont lchance, les garanties, le mode damortissement ducrdit et le taux dintrt.Ce travail des analystes est par la suite prsent un contre analyste pour des critiques en vuede son amlioration. Le dossier tudi par lanalyste et le contre analyste est alors prt treprsent aux comits de crdit pour son apprciation.b. Les comits de crditCe sont les seules instances mme de valider dnitivement un dossier de crdit devant bn-cier du concours de la banque dans les limites de leurs comptences. Il y a cet effet 5 comitsde crdit chacun habilet valider les dossiers de crdit portant des montants compris dans unintervalle donn. Un autre critre distinctif de ces comits est la qualit des membres.Le comit 1 commence lanalyse de tout dossier tudi par lanalyste et le contre analyste.Les membres dbattent du dossier de crdit sur la base dune che danalyse rdige par lana-lyste. Il valide la demande de nancement en reprcisant les conditions de banque (chance,garanties et taux), ou la rejette, si le montant se trouve dans les limites de ses comptences. Sinon, il donne son avis, favorable ou non, pour le nancement du besoin du client, puis transmetle dossier au comit 2 qui suit le mme processus. Cette dmarche se poursuit jusquau comit5 pour les montants des crdits pour lesquels les 4 premiers comits ne peuvent se prononcerdnitivement. Enn, notons que la dcision de chaque comit est motive, et accompagnedun procs verbal.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DERISQUE BANCAIRE 191.2 Concept de risque bancaire :Dans cette partie, nous abordons sommairement le concept de risque bancaire et nous nousarticulons essentiellement sur la zoologie du risque nancier.La principale mission des banques est dassurer la fonction dintermdiaire nancier. Lors-quune banque combine des ressources dorigines diverses pour nancer plusieurs emplois dis-tincts, cette fonction est qualie dallocation. Cette fonction dintermdiation dans un environ-nement instable fait ainsi supporter ltablissement nancier quatre types de risques [7] :1.Les risques commerciaux : ce sont les risques rsultant de linsolvabilit dun acheteurpriv dans le cadre dune vente de marchandises ou dune prestation de service, ou dun four-nisseur priv dans le cadre dune opration de prnancement. La couverture de ce risque peuttre limite linsolvabilit juridiquement constate ou largie linsolvabilit de fait (prsu-me) ou la carence pure et simple (dfaut).2.Les risques de positionnement concurrentiel : Cest un type de risque principalement ca-ractris par la situation dun produit ou une entreprise produit unique par rapport la concur-rence et de pouvoir tirer les enseignements qui simposent quant la position concurrentiellede la rme et lattrait du march.3.Les risques oprationnels : Ce sont les risques que lorganisation, ses acteurs et lenviron-nement externe font courir la banque. Ils se dcomposent en 4 sous-ensembles :Le risque li au systme dinformation : dfaillance matrielle, bogue logiciel, obsoles-cence des technologies (matriel, langages de programmation, SGBD,..).Le risque li aux processus (saisies errones, non respect des procdures,. . . ) ;Lerisqueliauxpersonnes(absentisme,fraude,mouvementssociaux,. . . maisaussicapacit de lentreprise assurer la relve sur les postes cls) ;Le risque li aux vnements extrieurs (terrorisme, catastrophe naturelle) .4. Les risques nanciers : Ce sont les plus importants, ces risques, pouvant entraner des pertessrieuses pour la banque, doivent tre pris en compte dans sa gestion interne. On en distinguesix principaux types :Le risque de liquidit, pour une banque, reprsente lventualit de ne pas pouvoir faireface, un moment donn, ses engagements ou ses chances.Le risque de tauxdun tablissement nancier est celui de voir sa rentabilit ou la valeur deses fonds propres affectes par lvolution des taux dintrt,Le risque de march est le risque de pertes sur les positions du bilan et du hors bilan lasuite de variations des prix de march.Le risque de change traduit le fait quune baisse des cours de change peut entraner uneperte de valeur libelle en de vises trangres.Le risque de solvabilit est lventualit de ne pas disposer de fonds propres sufsants pourabsorber les pertes ventuelles.Le risque de crdit ou de contrepartie : cest le risque pour un crancier de perdre d-nitivement sa crance dans la mesure o le dbiteur ne peut pas, mme en liquidant lensemblede ses avoirs, rembourser la totalit de ses engagements.Ce dernier est la principale typologie de risque laquelle sont confronts les tablissementsde crdit (banque) de nos jours. Le crdit comporte toujours un certain degr de risques. Labanquenepeutlesliminertotalement, maispluttenlesmesurantcorrectement, elledoitMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DERISQUE BANCAIRE 20pouvoir les grer, par exemple les couvrir sils sont importants. Lorsque la banque octroie uncrdit, elle pose un acte de conance vis--vis du dbiteur. Faire crdit, cest essentiellementfaire conance : la banque croit au remboursement ultrieur de la somme emprunte. Mais ilny a jamais de certitude absolue que le dbiteur remboursera dans les dlais convenus. Cestla raison pour laquelle la gestion du risque de crdit requiert une attention de grande envergurecar le contraire pourrait entraner la faillite de la banque.1.2.1 Le risque de crdit : veiller aux dfauts de paiement[13]Lvnement risqu est le non-respect par un client ou par une contrepartie de ses obli-gations nancires ou, de manire plus gnrale, la dtrioration de la qualit crdit de cettecontrepartie. Tout produit bancaire pour lequel un dfaut de paiement du client entranerait uneperte pour la banque doit donc faire lobjet dun calcul de risque crdit. Lhorizon de temps per-tinent pour le risque de crdit stale donc jusqu lexpiration des contrats, mais il est souventramen un an, priode de recapitalisation de la banque.1.2.2 Le risque de crdit : niveaux de gestion[7]Le risque de crdit est gr plusieurs niveaux :1- Les systmes de gestion des limites permettent de diversier le risque et dviter laconcentrationdesencourscrditsurunpays(risquegogure),unsecteurconomique,ungroupe international, etc.2-Les systmes de scoring valuent la probabilit de dfaut de paiement pour un client ex-ante (avant mme de lui octroyer le crdit) ; ces systmes sont souvent bass sur des statistiquesde dfaillances et permettent de segmenter les clients suivant le risque.3- Un systme de gestion de portefeuille, au-del des systmes utiliss pour loctroi ducrdit, permet doptimiser les transactions. La notion de pertes moyennes intervient nouveau,mais couple la notion de capital conomique, pour driver un Risk Adjusted Return OnCapital (RAROC). Ce RAROC sera disponible plusieurs niveaux : par transaction, par clientet par entit de la banque. Ce systme permet galement, grce aux investisseurs et aux marchsnanciers, de redistribuer le portefeuille des crdits pour un rapport rendement / risque optimal.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007CHAPITRE DEUXDESCRIPTION STATISTIQUE DELA BASE DE DONNEESIntroduction :Les outils de la Statistique descriptive fournissent des rsums synthtiques de sriesde valeurs adaptes leur type (qualitatives ou quantitatives), et observes sur une populationou un chantillon. Ce chapitre se propose de prsenter quelques moyens permettant de rsu-mer les caractristiques (tendance centrale, dispersion, bote moustaches, histogramme, testsstatistiques) dune variable statistique ou les relations entre variables de mme type quantita-tif (coefcient de corrlation, nuage de points) ou qualitatif. De types diffrents (rapport decorrlation, diagrammes en botes parallles). Les notions prsentes sont illustres sur un jeude donnes typique dun credit scoring en marketing bancaire. Cest ensuite la recherche deprtraitements des donnes an de les rendre conformes aux techniques de modlisation oudapprentissage quil sera ncessaire de mettre en oeuvre an datteindre les objectifs xs : Codage en classe ou recodage de classes, Imputations ou non des donnes manquantes, Classication supervise et premier choix de variables.Dans le cas dune seule variable, Les notions les plus classiques sont celles de mdiane,quantile, moyenne, frquence, variance, cart-type dnies paralllement des reprsentationsgures : diagramme en bton, histogramme, diagramme-bote, gures cumulatifs, diagrammesen colonnes, en barre ou en secteurs. Dans le cas de deux variables, on sintressera la corr-lation, au rapport de corrlation ou encore la statistique dun test du khi deux associ unetable de contingence. Ces notions sont associes diffrentes gures comme le nuage de points(scatterplot), les diagrammes-botes parallles.Dans ce qui suit, nous prsentons la mthodologie de collecte des donnes et nous nousproposons simplement de produire via certains outils moins classiques mais efcaces et prsentsdans la plupart des logiciels statistiques comme le logiciel R. Cela nous permettra galementdillustrer les premires tapes exploratoires raliser sur notre jeu de donnes.2.1 Mthodologie de collecte des donnesLa constitution dun chantillon pour notre tude savre trs coteuse en temps du pointde vue de la collecte des donnes, pour des raisons techniques lies lharmonisation des pra-tiques comptables de la First Bank ; mais galement en raison des rgles strictes de condentia-Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 22lit imposes par la nature des informations comptables et nancires. Les donnes nancireset comptables sont issues de la DECB - division des projets et investissements de la First Bank.La slection sest effectue sur la base de donnes physiques comptables, disponibles et ablespour des exercices datant jusquen n 2006 1.Pour notre tude, nous avons considr comme unit statistique un dossier de crdit. Ala First Bank, un dossier de crdit est un chier physique dans lequel on retrouve toutes lesinformations comptables et nancires sur un client. Les dossiers de crdit quon a pu consultertaient essentiellement les dossiers sur les projets dinvestissements pour lesquels la First Bankstait sengage en mettant la disposition du promoteur le crdit (en totalit ou en partialitsuivant les recommandations des diffrents comits de crdit) dont il avait besoin pour le -nancement de son affaire. Dans la conduite dune analyse statistique des dossiers de crdit, lepremier travail a consist constituer un chier qui contient des informations compltes sur desdossiers de prts. La constitution de la base de donnes sous forme dun tableau deux entresindividus-variables ncessaire cette lanalyse a commenc avec la dnition des variables denatures diverses collecter partir des dossiers de crdit dj octroys par la First Bank et quitaient arrivs chance. Ltape de la collecte sera suivie par celle de la saisie an de disposerdune base de donnes sous forme de chier lectronique pour les besoins danalyse. Malgrla difcult de collecte de donnes laquelle nous avons t confronts pour des raisons de secret bancaire mis par la banque, nous avons tout de mme recueilli pendant une dure detrois semaines un total de 130 dossiers de crdit, bien videmment peu satisfaisant en nombre,mais aussi, sufsant pour mener terme notre travail. A lissue de cette collecte, des 130 dos-siers de crdit obtenus, on en dnombre 19 dont le crdit octroy par la First Bank ntait pasrembours totalement ,en partie ou mme pas rembours aprs la date de lchance convenueavec la banque.2.2 Description des variables danalyseLe choix des variables danalyse se doit dobir la seule logique de couverture maximale,autant que faire se peut, de linformation susceptible daider distinguer les bons dossiers decrditdesmauvaisdossiers,oulesmauvaisclientsdesbonsclients.Lesvariablesretenirdoivent donc contenir lessentiel de linformation sur le client. La batterie de critres cono-miques et nanciers comporte 25 variables explicatives et une variable qualitative Y expliquerdont les slections sont faites selon les thmes dcrits dans le tableau 2.1 .RemarqueDans le tableau 2.1, les variables FORJU, NACTI, SISO et Y sont qualitatives et les 22autres sont quantitatives. Il est noter la variable Y = statut dun client est la variable qualitativebinaire prdire dont les modalits sont 0 = bon client ou client non risqu et 1 = mauvaisclient ou client risqu. Nous dclarons un client bon lorsquil a rembours la totalit de sonemprunt lchance xe avec la banque, sinon il est considr comme mauvais client.1Etant donn quun crdit mis sur pied en 2007 ne pouvait pas encore tre son terme au moment de notretude, en effet la plupart des dossiers de crdit avait une dure de remboursement suprieure 12 mois.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 23TAB. 2.1 codage des variables dtudeNOM VARIABLE CODAGEFORJU forme juridique 1= SARL; 2= Ets ; 3=SA; 4=particulier ;5= autres(association et GIC)CAP montant du capital en FCFANACTI nature de lactivit 1= commerce gnral ; 2=BTP; 3= industrie ;4=sant publique ; 5=agriculture ;6=commerce spcialis ; 7=autresSISO sige social 1=Yaound ; 2=Douala ; 3=bafoussan ;4=batouri ; 5=autresCREDIT montant du crdit octroy en FCFAEFF effectif de lentreprise en nombre de personnesDUREMB dure du remboursement en moisGAR montant des garanties en FCFAAGE ge du promoteur en annesEXP exprience du promoteur en annesTHT taux dintrt hors taxes en %INVEST montant des investissements en FCFACHDI charges directes et indirectes en FCFAMASA masse salariale ou frais du personnel en FCFACAF cash ow en FCFAVA valeur ajoute en FCFACA chiffre daffaire en FCFARN rsultat net en FCFAR1 ratio 1 de rentabilit=CA/VA numriqueR2 ratio 2 de rentabilit=RN/CA numrique=taux de marge netteR3 ratio 3 de rentabilit numrique=RN/capitaux propresR4 ratio 1 dautonomie nancire numrique=capital/dettesR5 ratio 2 dautonomie nancire numrique=SN/dettesR6 ratio 3 dautonomie nancire numrique=SN/total passifR7 ratio de solvabilit numrique=actif total/dettesY statut dun client 0=>; 1=>Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 24TAB. 2.2 Rpartition des dossiers de crdit suivant la forme juridique des entreprises.Forme juridique(FORJU) effectif (%)Socit responsabilit limit(SARL) 53 40.77Etablissement(Ets) 24 18,46Socit Anonyme(SA) 23 17,69particulier 21 16.15autres 9 6,92Total 130 100,00FIG. 2.1 Rpartition des dossiers selon la forme juridique.Dans ce qui suit, nous dcrivons dabord les variables endognes qualitatives, ensuite ladescription est porte sur certaines variables quantitatives endognes en privilgiant les gureset en recherchant les ventuelles liaisons entre elles.La forme juridique(FORJU)Le tableau 2.2 donne la rpartition des dossiers de crdit enregistrs dans notre tude suivantla forme juridique des entreprises ayant initi ces dossiers. Le plus gros lot de dossiers (40,77%) est issu des SARL. Les Ets suivent avec 18,46% de ces dossiers, les SA occupent 17,69%,les particuliers avec un peu plus de 16,15% des dossiers dans chaque cas. Environ 6,92 % desdossiers proviennent des autres i.e des groupements et associations.Cette rpartition des dossiers de crdit suivant la forme juridique peut tre explique pardes facteurs tels que le nombre de demandes exprimes, la qualit des projets prsents, ou lepass des entreprises auprs de la banque. Nous associons au tableau 2.2 un histogramme de lavariable FORJU.(Cf. gure 2.1)Nature de lactivit (NACTI)Une riche gamme dactivits est couverte par les entreprises ayant sollicit avec succs leMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 25TAB. 2.3 Rpartion des dossiers par activits principales des entreprises.Activit principale des entreprises Effectifcommerce gnral 28BTP 26industrie 14sant publique 9agriculture 8enseignement 7commerce spcialis 7import-export 6htellerie 4mdecine et chirugie 2restauration 4prestations de services 4services de transport 2tlcommunications 2gestion immobilire 1distribution des hydrocarbures 1social 1services nanciers 1pharmacie 1imprimerie 1communication audiovisuelle 1Total 130concours de la First Bank. La liste des domaines dactivits principales des entreprises dont lesdossiers de crdit sont valids est donne dans le tableau 2.3.Les commerants, les entreprises de btiment et travaux publics (54 dossiers) ont enregistrprs de la moiti des dossiers valids. Les autres activits sont trs peu reprsentes dans notrebase de donnes. Nous illustrons ces propos par une reprsentation de la variable NACTI.(Cfgure 2.2)Le sige social ou le lieu dimplantation des entreprises nances (SISO)Nous avons utilis 5 modalits pour cette variable lors de la collecte. Ces modalits sont no-tamment : Yaound, Douala, Bafoussam, Batouri et les autres villes. Sur le plan national, cetterpartition suit la logique de concentration des entreprises et dintensit de lactivit cono-mique, comme le montre la gure 2.3 .Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 26FIG. 2.2 Diagramme en btons de NACTI.1=commerce gnral |2=BTP |3=industrie |4=sant publique |5=agriculture|6=commercespcialis | 7=autres.FIG. 2.3 Rpartition des dossiers par lieu dimplantation des clients (%)Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 27TAB. 2.4 Rpartition des dossiers de crdit par les montants des besoins exprims.Classe de besoin Nombre de clients10 M et moins 8]10M;25M] 30]25M;50M] 20]50M;500M] 62]500M;900M] 6suprieur 900M 4Total 130Daprs la gure 2.3, On observe que la plus grande part de dossiers valids proviennentdes entreprises bases Yaound (59,23 %). Les dossiers provenant des entreprises implantes Douala, o la concentration des entreprises est la plus grande lchelle nationale nest quedenviron 20 %. Les autres villes et les zones rurales camerounaises sont reprsentes hauteurde 8,46 % environ des avis de nancement.Crdit octroy (CREDIT)La rpartition des dossiers de crdit par montant de besoin exprim du Tableau 2.4 montre queprs de la moiti des emprunteurs de la First Bank sont ceux qui se sont vus accords un crditdont le besoin est compris entre 50 millions et 500 millions. Par contre, peu de clients ont eu unavis favorable leur demande de crdit lorsque le besoin du nancement est lev (suprieur 900 millions). La rticence de la First Bank ce type de crdit provient peut-tre du fait quelleneveutpasnancerlesprojetscottroplevcausedugrandrisqueencourupouvantengendrer des pertes normes pour la banque. Par ailleurs, il est remarquer aussi que la FirstBank nest pas intresse par les clients dont la demande de crdit en besoin est faible (infrieur 15 millions), une raison pouvant expliquer ce fait est que la banque estime le rendement de cetype de projet ngligeable pour sa prosprit au vu des efforts investis et du temps consacr parles analystes pour ltude dun dossier dun crdit. Le tableau 2.4 et la gure 2.4 illustrent cespropos.Variable garantie (GAR)La rpartition des garanties du Tableau 2.5 montre que plus de la moiti, soit 56% des dossiersde crdit porte une garantie comprise entre 100 millions et 500 millions, avec une moyennedes garanties=889.200.000 et un maximum=68.480.000.000 qui se prsente comme une valeuraberrante.Le diagramme-bote (boxplot) et lhistogramme de la variable GAR illustre la distributionde la variable cumulant les garanties des emprunteurs. On constate une forte concentration dela variable GAR la base de la gure de droite et une valeur atypique lextrmit suprieure,ce que conrme lhistogramme de GAR. Trs peu de concours de crdit ayant eu une faiblegarantie ont t accepts. On conclut donc que loctroi dun crdit la First Bank est aussidtermin par une masse matrielle assez imposante de garanties.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 28FIG. 2.4 histogramme de la variable CREDITTAB. 2.5 Rpartition des dossiers de crdit par les montants des garanties.Classe de la garantie Nombre de clients15M et moins 3]15M;50M] 16]50M;100M] 17]100M;500M] 73]500M;1000M] 10suprieur 1000 11Total 130Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 29FIG. 2.5 Histogramme et Boxplot de GARDiffrents ratios de notre base de donnesNous rsumerons la description des ratios nanciers R1, R2, R3, R4, R5, R6, R7 dans le tableau2.6 .On contacte que la plupart des ratios ont des valeurs qui uctuent autour de zro et ils ontune p-value rsultant du test de Shapiro-Wilk infrieure au seuil 5%; on rejette lhypothsenulle (Ho) : le ratio suit une loi normale, donc on conclut quau seuil 5%, les ratios nanciersde notre base de donnes ne sont pas des variables gaussiennes. Les reprsentations gures desfonctions de densit des ratios R1 et R5 contenues dans le gure 2.6 conrment les rsultats duTAB. 2.6 Rsum et test de normalit des ratiosMin Median Mean Max p-value du test de Shapiro au seuil 5%R1 -1.8000 0.4350 0.4793 4.6000 2, 257.1013R2 -3.0300 0.0800 0.1351 2.9100 pvalue < 2, 2.1016R3 -0.7800 0.3500 0.5040 3.7100 1, 696.1012R4 -9.6200 0.2300 0.5249 8.6400 2, 894.1012R5 -4.810 0.845 1.146 8.360 1, 240.1005R6 1.3600 0.6800 0.6352 3.2500 2, 779.1007R7 -5.8600 1.5500 1.8980 9.3800 0.01168Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 30FIG. 2.6 Rprsentation des densits des ratios R1 et R5.test prcdent :Le taux dintrt hors taxes (THT)Lestauxdintrt horstaxesappliqusauxcrditslaFirst Banksont trsdiversisennombres, allant dun minimum de 3 % (appliqu un seul dossier long terme) 16.8% (appli-qu deux dossiers court et moyen terme). Lvolution du nombre de dossiers valids en fonctiondu taux dintrt est reprsente dans le tableau 2.7. Le taux de 13,75 % apparat plus frquem-ment aussi bien dans les contrats de courte priode que dans les contrats de moyen terme. Pourlensemble des dossiers portant les taux dintrt (130 dossiers au total), on dnombre 49 dos-siers portant ce taux de 13,75 %.Daprs le tableau 2.7, on constate que lintervalle de THT qui est ]13,50 ;14,00] regorgeune forte concentration des dossiers de crdit.Liaison entre les variables de nos donnesAn de vrier sil y a un ventuel lien entre les diffrentes variables prises en compte dansnotre tude, nous avons calcul le coefcient de corrlation. Le choix de couple2de variables2La matrice de variance-covariance de notre tableau nous permettait de voir les variables qui taient lies.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 31TAB. 2.7 Rpartition des dossiers suivant les taux de crdit et les chances de rembourse-ment.Echances de remboursementTaux de crdit HT en % Court terme Moyen terme Long terme Total([0 ;2 ans[) ([2 ;10 ans[) ( 10 ans)3,000 0 0 1 18,000 1 3 0 4]8,000 ;8,500] 5 0 0 5]8,500 ;9,000] 7 3 0 10]9,000 ;9,500] 6 1 0 7]9,500 ;10,00] 2 0 0 2]10,00 ;10,50] 0 0 0 0]10,50 ;11,00] 1 0 0 1]11,00 ;11,50] 0 0 0 0]11,50 ;12,00] 1 0 0 0]12,00 ;12,50] 2 1 0 3]12,50 ;13,00] 12 11 0 23]13,00 ;13,50] 4 2 0 6]13,50 ;14,00] 44 7 0 51]14,00 ;14,50] 3 1 0 4]14,50 ;15,00] 3 0 0 3]15,00 ;15,50] 4 1 0 5]15,50 ;16,00] 2 0 0 2]16,00 ;17,00] 1 1 0 2Total 98 31 1 130Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 32a t guid par des prsomptions de relation entre celles-ci qui nous sont apparues logique.Ainsi, Lecoefcientdecorrlationlinaireentreletauxdintrthorstaxesetladurederemboursement du crdit vaut 0.13 avec un IC95%=[-0.0441833 ; 0.2946267]. On peut donc direque la caractristique dure de remboursement du crdit est faiblement corrle au tauxdintrt, en sorte que les chances de plus en plus courtes correspondent aux taux dintrtde plus en plus levs. Cette relation peut nous paratre plutt surprenante, tant entendu quele taux dintrt est traditionnellement une fonction croissante du temps : les taux dintrt long terme sont gnralement, mais pas toujours, suprieurs aux taux dintrt court terme.[13](Gregory N. Mankiw, 2003, P 70).Un rsultat similaire stablit aussi en utilisant le montant du crdit accord et le taux din-trt hors taxes (coefcient de corrlation r = - 0,011, IC95%= [-0.1827414 ; 0.1615911]). Lestaux diminuent avec les montants de nancement levs. Mais la diffrence du rsultat pr-cdent, ce second rsultat parat plus vraisemblable. Les plus gros clients reprsentent parfoisune bonne opportunit de remploi des ressources dtenues par la banque, et ceux dentre euxjugs bons mritent ds lors un assouplissement des contraintes de crdit, notamment entermes de cot de nancement. A linverse, les clients sollicitant des concours de crdit assezpetits supportent des taux dintrt de plus en plus levs. On est ici face un systme derationnement du crdit destin viter le mcanisme d antislection , et de permettre labanque de garder ses bons clients. [15](Patrick Villieu, 2000, P 56).En considrant la corrlation positive entre le montant du crdit sollicit et lchance deremboursement(coefcientdecorrlationr=0,27, IC95%=[0.1009225 ;0.4211627])dunepart,ettantdonnlesrsultatsprcdents,leffetdumontantdesfondsprtssurletauxdintrt hors taxes semble plus probable. Une trs forte corrlation entre la variable EFF etles variables CHDI et MASA, avec des coefcients de corrlation respectifs cor(EFF, CHDI)=0.99 avec IC95%=[0.9819636 ; 0.9909637] et cor(EFF, MASA)=0.98 avec IC95% =[0.9750032 ;0.9874546]. Rsultat prvisible ce niveau car les charges dune entreprise dont la masse sala-riale fait partie sont fonction de leffectif du personnel de cette entreprise[13].CONCLUSION :Cette tude importante permet de mettre en exergue le fait quil nexiste pas une mthodeunique permettant de traiter des donnes dexpression ; la question "Quelle mthode dois jeutiliser pour traiter mes donnes dexpression ?" na pas de sens. Il apparat ainsi que face desdonnes dexpression, un statisticien seul, un analyste de crdit seul ou un comptable seul nestpas en mesure de proposer des mthodes pertinentes ; la solution rside dans la collaborationdes trois spcialits.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007CHAPITRE TROISDEUX METHODES DEDISCRIMINATION POUR LECREDIT SCORINGIntroduction :Grosso modo, le scoring consiste affecter une note globale un individu partir de notespartielles, calcules sur des variables isoles ou en interaction. Cette note est utilise essentiel-lement pour classer les individus par ordre ascendant ou descendant an den slectionner unepartie pour une action marketing, par exemple le credit scoring. La construction dun scoring faitappel la modlisation prdictive, et lon ne parle dun scoring que lorsque la variable prdirena que deux modalits[12]. Ct technique, le scoring est bas sur des mthodes classiqueset qui nvoluent que trs peu dun point de vue mathmatique. En revanche, les possibilitsdvolution se trouvent dans leur application pour raliser des analyses complexes. Et l toutesles possibilits ne sont pas encore explores.Dans ce chapitre, nous exposons deux approches mathmatiques classiques du creditscoring pour la modlisation du risque de crdit partir de ltude du concept central de DataMining pour les modles paramtriques. Cependant, il existe plusieurs mthodes statistiques deconstruction dun scoring dont les plus reconnues sont : lanalyse discriminante (linaire, qua-dratique de Fisher), la rgression logistique discriminante, les arbres de classication, mthodek-nn, les rseaux de neurones, les Sparateurs Vaste Marge (SVM), etc.. . . ..Dans le cadre de notre tude, notre modle sera construit base deux modles paramtriques savoir la rgression logistique discriminante et lanalyse discriminante (linaire et/ou quadra-tique) de Fisher cause de leur grande robustesse et leur facile interprtabilit. En effet, il seraquestion pour nous dont le but est didentier les clignotants du risque de crdit permettant deprvoir les dfaillances, de construire pour chacune de ces mthodes un modle et nalementmettre en comptition les deux modles pour en retenir celui qui sajustera le mieux du pointde vu prdictif nos donnes.3.1 Le modle probabiliste de prdictionNous sommes en prsence de n observations {Xi1, ...., Xip, Yi}pi=1 dun couple (Y,X) dansune population . Pour la ieobservation note (Yi; Xi), Yi est un label qui dnote lappartenance un groupe {0; 1}.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING34Une nouvelle observation x0 arrive, nous mesurons les variables explicatives, cette mesureest notx0 Rpet nous souhaitons prdire son groupeY =y0 partir de lobservation deses attributs {Xi}pi=1= {x0i}pi=1 avec une probabilit de se tromper dans cette prdiction aussifaible que possible. Ceci revient mettre en evidence une fonction :g: Rp{0; 1}telle que lerreur (g) = P(g(X) = Y) soit aussi petite que possible.Dans lidal, il faudrait chercher une fonctiong: Rp{0; 1} vriant (g) = min (g)g:Rp{0;1}.Si une telle fonction g existe, le prdicteur g (X) serait le meilleur pour prdire Y partirde lobservation de X. [1]Prdicteur de Bayes- Erreur de BayesPour g: Rp{0; 1}, on a : (g) = P(g (X) = Y) = P(g(X) = 0; Y = 1) +P(g(X) = 1; Y = 0) = E_1g(X)=Y_. (3.1)Posons alors (g|X= x)=P (g (X) = Y|X = x)= probabilit de se tromper dans la pr-diction de la valeur de Y pour un individu connaissant dj les valeurs de ses attributs X= x.On a donc daprs (3.1) (g) =_P(g(X) = Y|X = x) dPX(x)=_ (g|X= x0) dPX(x)Ainsig rend minimum (g) parmi les fonctionsg: Rp {0; 1} si et seulement sigrend minimum (g|X= x0), x0 Rp, parmi les fonctions g: Rp{0; 1}dnition1.un prdicteur g (X)de Y qui vrie (g|X= x0) = min (g|X= x0) ; g: Rp{0; 1}est appel prdicteur de Bayes pour prdire Y |X= x0.2.Cest le meilleur prdicteur de Y |X= x0 car (g) = min (g) ; g: Rp{0; 1}3. = (g) est appel erreur de Bayes.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING35VocabulairePour j = 0 ;1 on a :Pj=P(Y= j)= probabilit priori de la classe (Y=j) dans lchantillon.P(Y = j|X = x0)= probabilit postroiri de la classe (Y=j) pour un individu dans lapopulation. Vj(x0) = P(X = x0|Y = j) = probabilit que X=x0 dans la classe (Y=j). Cest aussi lavraisemblance de la valeur Y=j lorsquon a observ X = x0.Le thorme de Bayes nous permet dcrire :pour j=0 ;1 P(Y = j|X = x0) =PjP(X = x0|Y = j)P1P(X = x0|Y = 1) +P0P(X = x0|Y = 0).Le prdicteur de Bayes g(X) peut aussi se dnit par :j= 0, 1 g(X) = j PjP(X = x0|Y = j) = maxk=0;1PkP(X = x0|Y = k)i.e j= arg maxk=0;1PkP(X = x0|Y = k);On demontre que la rgle de dcision nale scrit comme suit :1. si P(Y = 1|X = x0) 12 , alors g (x0) = 02. si P(Y = 1|X = x0) 12 , alors g (x0) = 13.si P(Y = 1|X = x0) =12 , alors g (x0) = 1 ou g (x0) = 0, peu importe.3.2 Analyse discriminante linaire et quadratiqueLes probabilits priori des groupes j, notes P(Y = j) , j = 0; 1 sont connues. Quand onna pas d priori, on peut, soit choisir que les groupes sont quivalents P(Y = j) =12, soit les-timer partir des frquences de chaque groupe dans les observations{Yi}ni=1. An de spcier lemodle de discrimination linaire et quadratique, nous allons supposer lhypothse de normalitci-dessous.Discrimination quadratique : La densit des variables explicatives dans chaque groupej suit une loi multinormale f (x|y= j) Np (j; j); j Mp (R), j= o; 1.Ensuite, nous pouvons ajouter une hypothse supplmentaire pour obtenir le modle de discri-mination linaire.Discrimination linaire :Ladensitdesvariablesexplicativesdanschaquegroupejsuit une loi multinormale de mme matrice de variance-covariance dans chacun desgroupes :f (x|y= j) Np (j; ) ; Mp (R), j= 0; 1Une fois estims tous les paramtres des lois normales, il suft alors dutiliser la rgle deprdiction de Bayes pour connatre les probabilits daffectation de la nouvelle observation auxdiffrents groupes. Evidemment la prvision par la mthode sera donne par le groupe le plusprobable i.ej= argmaxP(Y = k|X = x0) = argmax f (x0|y = k) P(Y = k); k {0; 1} .Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING363.2.1 Estimation des paramtresNous devons dans les 2 groupes, estimer (j; j) ; j=0; 1 o j Rpet j Mp(R).Ily a donc 2 moyennes estimer et 1 ou 2 matrices de variance-covariance estimer. Il existe denombreuses procdures destimations plus ou moins classiques.Citons par exemple :La mthode des moments.La mthode de vraisemblance.a) La mthode des moments.Les moyennes par groupes j sont estims par le centre de gravit de chacun des groupes j=1nj

iJx0i;oJestlensembledesnumrosdobservationsquisontdanslegroupejet njlenombredobservations dans le groupe j (ce qui est le cardinal de J).Pour les matrices de variance-covariance (mthode discriminante quadratique), elles sontestimes par :j=1nj1

iJ(x0i j) (x0i j)TPour la discrination linaire, la matrice de variance-covariance est estim parj=1n 2g

j=1

iJ(x0i j) (x0i j)Tb) La mthode du maximun de vraisemblanceLes moyennes par groupesjsont encore estims par le centre de gravit de chacun desgroupes j=1nj

iJXio J est lensemble des numros dobservations qui sont dans le groupe j et nj le nombredobservationsdanslegroupej(cequiestlecardinaldeJ). Parcontrelesvariancessontestimes par :Discrimination quadratiquej=1nj

iJ(x0i j) (x0i j)TDiscrimination linaire =1ng

j=1

iJ(x0i j) (x0i j)TDans le cadre de notre travail, Nous avons posY =1 ou Y =0 selon queXsuit uneloi multinomiale N(1; 1)( de densit fX|Y =1) ou N(0; 0)(de densit fX|Y =0). SupposonsMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING37de plus0=1 ie que la discrimination devra tre linaire. Comme, nous souhaitons avoirune mesure quantitative entre 0 et 1, donnant la propension tre 1, nous nous interessons laprobabilit posteriori de Y=1, P(Y = 1|X).3.2.2 Calcul du seuil thorique sSi nous souhaitons savoir si un individu est franchement estim 1, alors P(Y = 1|X) seralv par rapport P(Y = 0|X). On a alorsP(Y = 1|X = x)P(Y = 0|X = x)fX|Y =1P(Y = 1)fX|Y=0P(Y = 0)or nous connaissons les 2 densits qui sont celles de 2 lois normalesN(1; ) etN(0; ).Nous avons donc :P(Y = 1)1(2)p2_||exp_12 (x 1)T1(x 1)_

P(Y = 0)1(2)p2||exp_12 (x 0)T1(x 0)_.En passant au log, nous avons alors :xT1(10) + log (P(Y = 0)) log (P(Y = 1)) 12T1 11 +12T0 100Ce qui scrit comme S(x)s ;avec S(x) = xT1(10)et s = log (P(Y = 1)) log (P(Y = 0)) +12T1 1112T0 10.S(x) est apple fonction discriminante de Bayes. Cest la fonction scoring de lanalyse dis-criminante linaire 2 classes et s est le seuil. Ce seuil dpend des probabilits priori de(Y= 1) et celle de (Y= 0).En gnral, ces probabilits sont inconnues priori. Si des tudes ont t mnes sur dautresdonnes, il est alors possible de connatre ces 2 probabilits. Mais, en labsence de connais-sance,elles sont poses gales 12 chacune. La determination du seuil sparant le choix (Y= 1)du choix(Y =0) est donc dlicat. Par ailleurs, le fait de ne plus considrer la probabilit postriori, mais un scoring permet dviter le calcul de fX (x) qui est une densit difcilementcalculable.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING38Lanalyse discriminante linaire est trs rpandue dans les logiciels de Statistique et dap-prentissage et est trs utilise. Les raisons de son succs sont les suivantes :- elle offre souvent un trs bon compromis pertinence/complexit ; autrement dit, elle permetsouvent de bien rsoudre le dilemme biais-variance. Elle est ainsi souvent suprieure lanalysediscriminante quadratique qui dpend dun nombre notamment plus important de paramtres.- dans le cadre de lanalyse discriminante linaire, la slection de variables peut tre ra-lise de manire quasi optimale en utilisant une statistique F de Fisher[4]. En fait, les critresclassiques de slection de variables supposent de manire sous-jacente les hypothses gaus-siennes de lanalyse discriminante gaussienne. Ainsi, dans une prdiction deux classes, onpeut montrer que,la probabilit optimale derreurs scrit (/2), tant la fonction de r-partition dune loi normale centre rduite et reprsentant la distance de Mahalanobis entredeux groupes :2= ||10||1= (10)T1(10) ;-lanalyse discriminante linaire fournit des rsultatsstables (peu sujets aux uctuationsdchantillonnage) et robustes (i.e supportant bien des carts assez importants ces hypothsesde normalit des groupes et dgalit des matrices variances).3.3 Analyse discriminante logistique3.3.1 Dnitiona)introductionLanalyse discriminante logistique est une mthodologie statistique qui a pour objectif, par-tirdobservations, deproduireunmodlepermettant deprdirelesvaleursprisesparunevariable catgorielle, partir dune srie de variables explicatives continues et|ou binaires.Ilsagit ici pour nous de prvoir laide de p variables explicatives lappartenance un groupe.Comme il existe une incertitude, nous la modlisons comme une probabilit et nous cherchonsP(Y = j|X = x0) ie la probabilit que lobservation soit dans le groupe j sachant nous avonsen main lobservation x0 des variables explicatives. On pourra poser x0= (1,x01, ...,x0p).Le premier problme est que nous modlisons des probabilits discrtes, nous avons doncune contrainte :g

j=1P(Y = j|X = x0) = 1Une fois dtermines (g 1) probabilits, la dernire est donc connue. Pour tenir comptede cette contrainte, nous allons donc considrer un groupe tmoin, par exemple legegroupe,ensuite, nous allons modliser non pas P(Y = j|X = x0), mais le rapport de cette probabilit la probabilit tmoinP(Y=j|X=x0)P(Y=g|X=x0).Ce rapport est toujours positif et il est compris entre 0 et +. En passant au log, nousobtenons une mesure qui seradans R et que nous pouvonsrelieraux variables explicativesMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING39X1, ......., Xpviaunefonctionf. Cettefonctionestchoisiedanslaclasselaplussimple, savoir les fonctions linaires. Et on crit donc :lnP(Y = j|X = x0)P(Y = g|X = x0)= f(x0) = xT0j(3.2)Ce type de modlisation est appel analyse discriminante logistique multiclasse ou rgres-sion logistique multiclasse.Cependant le cas le plus classique est le cas o il existe g= 2 classes. Dans ce cas la notationstandard veut que Y= 0 ou Y= 1 et que lon prenne comme rfrence le groupe Y= 1. Nousne traiterons par la suite que le cas binaire, cas qui est utilis dans llaboration dun scoring.b) Rgression logistique (binaire)dnition(2.1.1) :(Rgression logistique)Nous sommesen prsence dunevariable expliquerbinaire Y et devariables explicatives(X1, ...., Xp) = X Rp.Le modle de la rgression logistique scrit :lnP(Y = 1|X = x0)1P(Y = 1|X = x0)= xT0 (3.3)oulogit (P(Y = 1|X = x0)) = xT0Son nom provient du fait que la fonctionp lnp1pest appele fonction logit, qui est unefonction drivable bijective de ]0; 1[ dans R.Remarquons que nous pouvons rcrire (3.3) P(Y = 1|X = x0) =exp(xT0 )1+exp(xT0 ).RemarqueNous pouvons aussi crire P(Y = j|X = x0) dans le modle multiclasse comme suit :P(Y = j|X = x0) =exp_xT0j_1 +

gk=1 exp (xT0j).3.3.2 Lien avec les GLM :Nous modlisons deux probabilits P(Y = 1|X = x0) et P(Y = 0|X = x0) ie que la loi de(Y |X=x0) est simplement une Bernouilli de paramtre P(Y = 1|X = x0) qui dpend de lavaleur x0 de X.Lesprance dune Bernoulli est simplement son paramtre, E(Y|X = x0) = P(Y = 1|X = x0).Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING40Dans un modle de rgression logistique, nous effectuons donc 2 choix :1. le choix dune loi pour Y|X=x0, ici la loi de Bernoulli,2. le choix de la modlisation de E(Y|X = x0) par logit (E(Y|X = x0))=xT0. La fonc-tion logit(.) est bijective, drivable et est appele fonction de lien. Cest une fonction de lienspciale, appele canonique (pour la loi de Bernoulli). La variance dune loi de Bernouilli estV(Y|X = x0) = P(Y = 1|X = x0) [1 P(Y = 1|X = x0)]La variance des observations dcrites par le modle nest donc pas constante et varie selonla valeur de X. La fonction de x0 qui a pour valeur P(Y = 1|X = x0) [1 P(Y = 1|X = x0)]estappele fonction de variance.RemarqueIl est possible de choisir dautres fonctions de lien bijectives. Les choix classiques sont lafonction probit(.) (Qui est linverse de la fonction de rpartition dune loi normale N(0; 1)).Une gnralisation de la mthode de rgression logistique (ou rgression probit) est appeleGLM (generalized linear model). Cette mthode revient choisir une loi parmi un ensemblerestreint de loi (les lois exponentielles GLM), puis une fonction de lien (.) parmi un ensemblerduit de fonctions bijectives drivables. Ensuite nous avons (E(Y|X = x0)) = xT0.3.3.3 Estimation des paramtresLestimation des paramtres se fait ici par maximum de vraisemblance. Dans le cas gnral(multiclasse), cette maximisation fait appel des procdures itratives de minimisations clas-siques comme la mthode de Newton. Dans le cas de la rgression logistique (binaire), il existeune procdure spcique dite IRLS (Iterative Reweighted Least Squares).Noussommesenprsencedenobservationsdesvariablesnotes {Xi1, ....., Xip, Yi}ni=1,dont la ieest note (xi, yi), yi {0; 1}. La vraisemblance conditionnelle de Y |X= xi associe lobservation i scrit :V(yi, ) =P(Y = 1|X = xi)yiP(Y = 0|X = xi)1yiEt donc la vraisemblance conditionnelle de lchantillon y=(y1, ....yn) de taille n scritsous la forme :V(y, ) =n

i=1P(Y = 1|X = xi)yiP(Y = 0|X = xi)1yiDans la pratique, il est plus ais de se servir de la Log-vraisemblance note L(y,).En passant au log, nous avons alorsL(y,) =n

i=1_yilnP(Y = 1|X = xi)P(Y = 0|X = xi)+ ln (P(Y = 0|X = xi))_Grce la dnition du modle logistique (3.3), nous avons alors :Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING41L(y, ) =n

i=1_yixTi ln_1 + exp(xTi)__Ainsi, si les estimations des probabilitspi=P(Y = 1|X = xi0) sont en accord avec lesobservations, la vraisemblance sera maximise. Il revient donc de chercher la valeur de quimaximise L(y, ).La fonction logarithme tant continue et strictement croissante, la Log-vraisemblance semaximise avec la valeur de en mme temps que la vraisemblance. Pour avoir le maximum,il ne reste plus qu annuler le gradient de la fonction L(y, ) : Mais du point de vue pratique, cause de la macroforme de L(y, ) et de la grandeur de la taille n; on utilise des mthodesnumriques doptimisation pour obtenir la valeurs estime de .Prdicteur de Bayes estim g(X) : On a : P(Y = 1|X = x0) =exp(xT0 )1+exp(xT0 ) par (3.3), on endduit que P(Y = 0|X = x0) =11+exp(xT0 ).On en dduit g(X) en remplaant par sa valeur estime dans les expressions deP(Y = 1|X = x0)etP(Y = 1|X = x0) ci-dessus :

g(x0)= 0 P(Y = 0|X = x0)P(Y = 1|X = x0) xT0 0.

g(x0)= 1 P(Y = 1|X = x0)P(Y = 0|X = x0) xT00.Le scalaire xT0 est appl fonction discriminante logistique binaire, aussi appl scoring. Onconstate dans ce cas que le seuil s apparat clairement et il vaut s=0.Dans la pratique, il serait maladroit de se ger sur ce seuil thorique s=0, il est vivementconseill de faire varier le seuil et de conserver celui qui rend la prdiction meilleure.3.3.4 Prcision des estimations :Puisque nous utilisons le maximum de vraisemblance, il est alors possible de btir des in-tervalles de conance pour j au seuil selon la formule suivante :IC (j) =_jU121nj;j + U121nj_O U12reprsente le quantile de niveau _1 2_ de la loi normale N(0; 1), 2jest gal _I()_1jjet_I()_1jjest llment (j, j) de linverse de la matrice de Fisher E_2L2_.Lavaliditdecesintervallesesttouterelativepuisquilsagitduneapproximationvalableasymptotiquement et dont la variance dans le cas de lapproximation normale, doit tre value la vraie valeur du paramtre inconnu.Il est toujours possible de complter cette tude par boostrap an dobtenir dautres inter-valles de conance dans le cas o ceux-ci sont particulirement importants .Cela dit, en pratique,on se contente de lintervalle de conance bti grce la matrice dinformation de Fisher.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING423.3.5 La qualit du modle3.3.5.1 Un outil spcique : la dvianceComme la vraisemblance nest jamais la mme chelle (cela dpend des donnes), il nestpas facile davoir une ide de la qualit dajustement. Pour cela, un outil spcique est introduit :la dviance. Elle compare la vraisemblance obtenue celle que lon obtiendrait dans un modleparfait:lemodlesatur. Danslemodlesatur, laprvisionestparfaite, ilnexistedoncaucune incertitude et la probabilit estime par le modle au point X=xi est donc 1 pour legroupe observ et 0 sinon. Dans le cas o plusieurs observations seraient disponibles au pointX= xi, alors, si le modle tait parfait, yi serait la moyenne des yi au point X= xi . Ce modleest appel modle satur par dnition.Pour le modle logistique binaire, la vraisemblance pour lobservation i pour ce modle saturest gale par dnition :Lsatur=n

i=1YilogYi + (1 Yi) log (1 Yi).La dviance dun modle note D, est dnie par rapport au modle satur correspondantcommeD = 2_n

i=1(LsaturL())_ 0Ladvianceestgale2foisunediffrencedevraisemblance.Elleconstitueuncartentermedelog-vraisemblanceentrelemodlesaturdajustementmaximumetlemodleconsidr :La dviance dans le cas binaire est donne par :D = 2n

i=1YilogYiPi+ (1 Yi) log1 Yi1 PiTest dadquation par la dviancePuisque nous laborons un test, dnissons hypothses nulle et alternative :-H0 le modle considr p paramtres est adquat.-H1 le modle considr p paramtres nest pas adquat.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING43FIG. 3.1 Test de dviance,la droite verticale reprsente le seuil de rejet Dc= q1 (n p).Ici, nous allons comparer le modle satur au modle considr au moyen de la dviance.Nous savons que si la dviance est grande, alors le modle considr est loin du modle saturet donc il nest pas trs adquat. Par contre si la dviance est proche de 0, le modle considrsera adquat. Pour quantier cette notion de proche de 0 et de grande dviance, la loi de ladviance sous H0 (le modle considr est le vrai modle) va nous tre utile. En effet H0 si estvraie, le modle considr est vrai par dnition. La dviance sera rpartie sur R+, mais avecplus de chance dtre proche de 0. Par contre si H0 nest pas vraie la dviance sera rpartie surR+mais avec plus de chance dtre loigne de 0. Nous nous accordons % de chance de setromper sous H0 donc si, lon connat la loi de D sous H0 alors en prenant le quantile de niveau1 nous excluons les % derreur tout en excluant les dviances les plus grandes, ie les casqui se prsenteront vraisemblablement si H0 nest pas vraie.La dviance est en fait le test de rapport de vraisemblance et sous des hypothses techniques([8]Schervish, 1995, p. 459), D suit donc une loi du2(n p) degrs de libert, o p est lenombre de paramtres du modle et n le nombre dobservations. Le test se droule alors de lamanire classique :1.Les hypothses sont xes-H0 le modle considr p paramtre est adquat-H1 le modle considr p paramtres nest pas adquat2. est choisi(en gnral 5%)3.Lobservation de D est calcule, notons la Dobs4.Calcul du quantile de niveau (1 ) de la loi du 2(n p) ,not q1 (n p).- Si Dq1 (n p) alors H0 est repouss au prot de H1, le modle considr nest pasadquat.- Si Dobs q1 (n p) alors H0 est conserv, le modle considr est adquat.RemarquesLa validit de la loi et donc du test nest quasymptotique, il est donc ncessaire davoir un peude recul quant aux conclusions.Lorsque les donnes sont binaires et quaucune rptition nest prsente au point Xi= xi,i,Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING44alors D ne suit pas une loi du2.Pour les donnes binaires le test dadquation dHosmerLemershow est conseiller.Test dHosmer LemershowCe test permet de vrier ladquation dun modle quand la variable expliquer est unevariablebinaireuniquement. Ilpermetdoncdevrierladquationdanslescasoletestdadquation par la dviance est particulirement dconseill.Pour cela, lesPi= P(Y = 1|X = xi) sont ordonns par ordre croissant. Ensuite K groupesde tailles gales sont crs, en gnral K= 10 et le dernier groupe, celui desPi les plus grands,possde un effectif ingal aux autres. Notons mk leffectif du groupe k. Ensuite une statistiquedu type 2est calcule sur ces groupes. Leffectif observ ok des cas (Y= 1) dans le groupe kest dcompt, ce qui donne de manire mathmatique ok=

jgpe k yi . La frquence thoriqueest simplement la moyenne des probabilits estimes par le modle, pour toutes les observationsdu groupe : =

jgpe kPj . La statistique de test est alorsC2=K

k=1(okmk k)2mk k (1 k),o mk est leffectif du groupe k.Le test se conduit de manire identique au test de dviance, la statistique C2suivant approxi-mativement un 2 K1 degrs de libert. Cette approximation ayant t valide uniquementpar simulation[4] (Collett, 2003, p. 88), il semble donc important de ne pas appliquer trop stric-tement la procdure de test, mais plutt de la considrer comme une indication.Critre de choix de modlesLobjet de ces critres de choix est de comparer des modles entre eux et qui ne sont pasforcment embots les uns dans les autres.Par dnition lAIC (Akaike Informative Criterion) pour un modle p paramtres estAIC= 2L + 2p.La philosophie est simple : plus la vraisemblance est grande, plus grande est donc la log-vraisemblanceLetmeilleurestlemodle. Cependantsilonmetlenombremaximumdeparamtres (ce qui est le modle satur) alorsL sera maximum. Il suft donc de rajouter desparamtres pour la faire augmenter. Pour obtenir un modle de taille raisonnable il sera doncbon de la pnaliser par une fonction du nombre de paramtre, ici 2p. Un autre critre de choixde modle le BIC (Bayesian Informative Criterion) pour un modle p paramtres estim sur nobservations est dni par :BIC= 2L + p log(n).Lutilisation de ces critres est simple. Pour chaque modle concurrent le critre de choixde modle est calcul et le modle qui prsente le plus faible est slectionn.Remarquons que certains logiciels utilisent AIC et BIC, il est donc prudent de bien v-rier dans quel sens doivent tre optimiss ces critres (maximisation ou minimisation). Cecipeut tre fait aisment en comparant un modle trs mauvais (sans variable explicative) unbon modle ( une variable) et de vrier dans quel sens varie les critres de choix.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING45FIG. 3.2 Procdure dapprentissage/validation3.3.5.2 Evaluation des performancesLanalyse discriminante dcisionnelle vise proposer une rgle de dcision destine treapplique pour le classement dans le futur dobservations de provenance inconnue. Il est donctrs important dtre capable de mesurer le taux derreur que lon risque lors de lapplicationdune rgle de dcision construite sur la base dun chantillon dapprentissage. Dans ce qui suit,nous passons en revue quelques moyens destimer le taux derreur rel dune rgle de dcision.Apprentissage/validationLaprocduredevalidationconsistesparerdemanirealatoirelesdonnesendeuxparties distinctes(ya, Xa) et (yv, Xv). Tous les modles concurrents sont construits avec lejeu dapprentissage (ya, Xa) (gure 3.2). Ensuite en utilisant tous ces modles et les variablesexplicatives Xv, les valeurs de la variables expliquer sont prdites yv (j) pour tous les modlesj concurrents. Comme le modle de rgression logistique binaire donne des estimatitions desprobabilitsP(Y = 1|X = Xv), pour avoir une prvision binaire, on prend la modalit dont laprobabilit estime est la plus leve. Nous noterons cette prvision ainsi obtenue yv.La qualit du modle est ensuite obtenue en mesurant la distance entre les observationsprvues et les vraies observations par un critre. Le plus connu est le PRESSPRESS(j) = || yv (j) yv||2,Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING46mais dans le cas dobservations binaires il nest pas utilis. En gnral, on utilise le nombre demal class, ieMC= || yv (j) yv||1,o ||x||1=

i|xi|. Comme les valeurs de Y sont 0 ou 1, cette mthode est bien le nombre demal classs.Le modle optimal kchoisi est celui qui conduit au MC minimum (ou au critre choisiminimum). Cette procdure semble la plus indique mais elle ncessite beaucoup de donnespuisquil en faut sufsamment pour estimer le modle et pas trop pnaliser les modles avecbeaucoup de variables dont les coefcients seront moins bien estims, mais il faut aussi beau-coup dobservations dans le jeu de validation (yv, Xv) pour bien valuer la capacit de prvisiondans de nombreux cas de gure. De plus, comment diviser le nombre dobservations dans le jeudapprentissage par rapport au jeu de validation ? L encore aucune rgle nexiste mais lonmentionne souvent la rgle 3/4 dans lapprentissage et 1/4 dans la validation. De plus, il fautpouvoir calculer le MC sur chacun des modles concurrents ce qui dans certains cas est impos-sible, lorsque le nombre de variables possibles p est grand.Validation croiseLorsque lon na pas assez de donnes pour lapprentissage/validation, la validation croiseest utilise pour valuer le taux derreur. La validation croise, dans sa version la plus classique,connue sous le nom de leave-one-out, procde comme dcrit ci-dessous.Pour i = 1, ... ,n on construit la rgle de dcisionsur la base de lchantillon dapprentissagepriv de son ielment et on affecte ce dernier lun des groupes suivant cette rgle. Le tauxderreurestimestalorslafrquencedepointsdemalclasssdelasorte. Lestimationdutaux derreur ainsi obtenue est pratiquement sans biais. Mais la variance de lestimation estdautant plus importante que n est grand puisque, dans ce cas, les diffrentes rgles de dcisionconstruites partir de n-2 observations communes auront tendance se ressembler. De plus,cette procdure est galement assez coteuse mme si, du fait qu chaque tape lchantillonsoit amput dune seule observation, il est en gnral possible de recalculer la rgle de dcision.Aussi, on peut lui prfrer la procdure suivante. On divise lchantillon alatoirement enL parties (approximativement) gales. Pour l=1,...,L, on construit la rgle de dcision sur labase de cet chantillon priv de sa lemepartie, ensuite pour cette lemepartie donne, on utilisela procdure dapprentissage/validation, lalemepartie tant le jeu de validation et les autresobservations formant le jeu dapprentissage. Si L = n, on rtombe sur la procdure standard deleave-one-out. On value la qualit du modle par un critre, le nombre de mal classs MC parexemple, donnant ainsi MC(j)l et ensuite on itre le procd sur toutes les parties l variant de1 L. Le critre nal minimiser est alorsMCCV(j) =L

l=1MC (j)l,On en dduit une estimation de lerreur de prdiction pour le modle j : (j) =1LMCCV(j)Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING47et le modlek retenu est celui qui conduit au minimum sur {MCCV (j)}, donc sur (j) .Bien entendu le choix du nombre L parties nest pas anodin. Plus le nombre L est faible, plus lacapacit de prvision sera value dans de nombreux cas puisque le nombre dobservations dansla validation sera lev, mais moins lestimation sera prcise. Au contraire, un L lev conduit peu dobservations dans la validation et donc une plus grande variance dans les nombres demal classs.3.3.6 Slection automatiqueLa slection de modle peut tre vue comme rechercher le modle optimum au sens duncritre choisi parmi toutes les possibilits. Cela peut donc tre vu comme une optimisation dunefonction objectif (le critre). Pour cela et limage des possibilits en optimisation, on peut soitfaire une recherche exhaustive car le nombre de modles possibles est ni, soit partir dun pointde dpart et utiliser une mthode doptimisation de la fonction objectif (recherche pas pas).Remarquons quen gnral trouver le minimum global de la fonction objectif nest pas ga-ranti dans les recherches pas pas et que seul un optimum local sera trouv dpendant du pointde dpart choisi.en gnral, on utilise lune des mthodes suivantes[10] :Recherche pas pas, mthode descendante (backward selection)Recherche pas pas, mthode progressive (stepwise selection)Recherche pas pas, mthode ascendante (forward selection) dont lalgorithme gure deprocdure se prsente dans la gure 3.3.Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING48FIG. 3.3 Technique ascendante utilisant lAICMmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007CHAPITRE QUATREREPRESENTATION DUN SCORINGSi lanalyse discriminante permet de prvoir correctement (ou non) la variable binaire Y ,il est rare quil ny ait pas derreur. Ainsi, dans une banque, chaque client est particulier et soncomportement dpend du temps prsent de son environnement, des circonstances extrieuresquil rencontre etc.. Le modle discriminant fournit, sur les donnes dapprentissage, des erreursque lon peut rsumer par un tableau de contingence.Ainsi nous avons le nombre a de bien classs pour Y = 1 et d le nombre de bien classs pourY = 0. Les erreurs sont elles rsumes par c et b.(Cf. gure 4.1)Dans la rprsentation du scoring, le seuil nest pas x priori comme il lest dans lanalysediscriminante classique ou thorique.4.1 Reprsentation thoriques4.1.1 Prsentation sous forme de densitToutes les variables explicatives X1, ..., Xp sont alatoires et donc le scoring S(X) est unevariable alatoire valeur dans R. En thorie, nous pouvons tracer sa densit sachant que Y =0 et sa densit sachant que Y = 1. Le trac des densits dans les 2 cas renseigne sur le pouvoirdiscriminant du scoring. Rappelons que pour un seuil donn, nous choisissons la valeur prvuepar le modle. Nous pouvons donc avoir