Post on 17-Oct-2020
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université de L’Arbi Ben M’hidi Oum El Bouaghi
Faculté de Science Exacts et S.N.V
Département de Mathématiques et Informatique
Mémoire de fin d’étude en vue de l’obtention du diplôme de Master
en Informatique
Spécialité : Vision Artificiel
Membres de Jury Présenté par
Encadreur : Dr. Hidouci Adenane Asma REMACHE
Examinateur : Dr. Tenachi Abd-ed Daim
Examinateur : Dr. Hamza Lamia
Année Universitaire : 2018/2019
Dédicaces
A mes chers parents
Que nulle dédicace ne puisse exprimer ce que je leurs dois pour leur
bienveillance, leur affection et leur soutien .. . Trésors de bonté, de
générosité et de tendresse, en témoignage de mon profond amour et ma
grande reconnaissance << Que Dieu vous garde >>
A mes chers frères
En témoignage de mes sincères reconnaissances pour les efforts qu’ils ont
consenti pour l’accomplissement de mes études. Je leur dédicace ce modeste
travail en témoignage de mon grand amour et ma gratitude infinie.
A tous, ,A ma famille et mes amis
Pour leur aide et leur soutien moral durant l’élaboration du travail de
fin d’études.
Remache Asma
Remerciments
Avant tout, je remercie Allah pour toute l’aide,, la
patience et la volonté qu’il m’ a donnée durant toutes
ces années d’étude.
Je remercie en particulier Mr Hidouci pour toute sa
disponibilité et ses conseils qu’il n’a cessés de me donner
durant toute la période de notre travail.
Je remercie égalent Mr Tenachi et M
me Hamza
pour avoir accepté de juger ce travail.
Je tiens à remercier également l’ensemble des
enseignants et du personnel de mon département
Informatique pour avoir contribuer à ma formation.
Résumé
Le système bancaire du pays est l’un des secteurs moteurs de son économie. Pour une banque,
le crédit est l’activité qui génère le plus de gain et il génère le plus de perte en cas de son non
remboursement. Aujourd’hui, les banques évoluent dans un environnement où la concurrence
est de plus en plus importante. Pour faire face aux différentes perturbations du système
financier et assurer la rentabilité de son activité, la banque doit être en mesure d’assurer une
bonne gestion des risques de crédit par des techniques efficaces : prévoir et gérer efficacement
le risque de crédit et en même temps répondre avec confiance aux nouvelles demandes de
crédit tout en préservant sa rentabilité. L’objectif de la banque est donc de disposer d’un
modèle de gestion de ce risque avec le plus de précision possible.
Dans le cadre de ce mémoire, nous proposons la construction d’un modèle de crédit scoring.
Le crédit scoring est une méthode qui évalue le niveau du risque associé à un dossier de crédit
et de prévoir la solvabilité du demandeur de ce crédit. A partir des caractéristiques de ce
client, il sera classé par le modèle comme : Bon Payeur ou Mauvais Payeur. A cet effet, nous
avons utilisé deux méthodes : la Régression Logistique et les Réseaux de Neurones. Pour la
validation et la comparaison de la qualité des modèles obtenus, nous avons utilisé la matrice
de classement ou de confusion et la courbe ROC.
Mots-clés :
Crédit scoring
apprentissage
régression logistique
régression linéaire
réseaux de neurones.
Summary
The country's banking system is one of the driving forces of its economy. For a bank, loans
are the activity that generates the most profit, but it could also generate the most losses when
those loans go into default. Nowadays, banks operate in an environment where competition is
increasingly important. In order to cope with the various disruptions in the financial system
and ensure the profitability of its financial activities, the bank must be able to control the risks
of any loan failed to be recollected by following certain efficient techniques: effectively
predict and manage loan risks, but at the same time confidently respond to any new loan
applications while maintaining profitability. The bank's ultimate objective is to have a
managerial model of risks with the utmost possible accuracy.
This research paper suggests the construction of a credit-scoring model. Credit scoring is a
method that assesses the level of risks associated with a loan application and to predict the
creditworthiness of the applicant. Based on his financial characteristics, the customer is to be
considered by the suggested model as either: Good Payer or Bad Payer. for this purpose, we
have used two methods: Logistic Regression and the Artificial Neural Networks. For the
validation and comparison of the quality of the obtained models, we used the confusion
matrix and the ROC curve.
Keyword :
Credit scoring
learning
logistic regression
linear regression
neural networks.
Table Des Matieres Introduction Générale.
Chapitre 1. Notions fondamentales et Risques bancaires.
Introduction.
1. Notions fondamentales……………………………………………………..03
1.1. Définition de la banque………………………………………………....03
1.2. Rôle et activité de la banque…………………………………………....03
1.2.1. La collecte des dépôts…………………………………………………..03
1.2.2. La distribution des crédits……………………………………………....03
1.3. La classification des banques…………………………………………...04
1.3.1. Les banques de dépôts…………………………………………………..04
1.3.2. Les banques d’investissement. …………………………………………04
1.3.3. les banques d’affaires……………………………………………………04
1.4. Les ressources de la banque……………………………………………..04
1.4.1. Les ressources de la clientèle…………………………………………...04
1.4.2. Les ressources hors clientèle……………………………………………05
2. Le risque bancaire……………………………………………………….05
2.1. Définition………………………………………………………………..05
2.2. Types de risques………………………………………………………...05
2.2.1. Risques opérationnels…………………………………………………..06
2.2.2. Risques de marché. ……………………………………………………..06
2.2.3. Risques de crédit………………………………………………………..07
2.2.4. Les conséquences du risque de crédit sur l’activité bancaire…………..08
3. Maîtrise et gestion du risque de crédit………………………………..09
3.1. Maîtrise du risque………………………………………………………..09
3.2. Outils de gestion de risque……………………………………………….10
3.2.1. Les normes de gestion…………………………………………………..10
3.2.2. Evaluation du risque…………………………………………………..12
3.2.2.1. Cas d’un particulier…………………………………………………..12
3.2.2.2. Cas d’une entreprise………………………………………………….12
3.2.3. Méthodes de gestion de risques…………………………………………13
3.2.3.1. L’approche de l’analyse financière……………………………….13
3.2.3.2. L’approche : crédit scoring. ………………………...……………13
4. Conclusion. ……………………………………………………………..14
Chapitre 2. Le crédit scoring
Introduction…………………………………………………………………..15
2.1. Définition……………………………………………………………….15
2.2. Principe…………………………………………………………………15
2.3. Les étapes de construction d’un modèle de score………………………16
2.3.1. Le choix des variables…………………………………………………16
2.3.2. Le choix des données de l’échantillon…………………………………16
2.3.3 Le choix de la méthode de construction du score……………………...16
2.3.4. La construction d’une règle de décision………………………………..17
2.3.5. La validation du modèle………………………………………………...17
2.4. Exemples de modèle de scoring…………………………………...……18
2.4.1. Le modèle d’ALTMAN……………………………………………….18
2.4.2. Le modèle de CONAN HOLDER…………………………………….19
2.5. Avantages et limites du crédit scoring…………………………………..20
2 .5.1. Les avantages du crédit scoring……………………………………….20
2.5.2. Les limites des modèles de score……………………………………….21
2.6. Conclusion………………………………………………………………..21
Chapitre 3. Les techniques utilisées pour le scoring
3.1. .
3.1.1. Présentation……………………………………………………………22
3.1.2. Le modèle………………………………………………………………22
3.1.3. L’estimation des coefficients………………………………..…………23
3.1.4. Les indicateurs de performance………………………………………..23
3.2. La régression logistique. ……………………………………………...24
3.2.1. Présentation…………………………………………………………….24
3.2.2. Le modèle………………………………………………………………24
3.2 .3. L’estimation des paramètres……………………………………………25
3.3. L’analyse discriminante. ………………………………………………27
3.3.1. Présentation…………………………………………………………….27
3.3.2. Le modèle………………………………………………………………27
3.3.3. La fonction discriminante du classifieur Bayésien……………………27
3.3.4. Le calcul des coefficients………………………………………………28
3.3.5. La règle de décision……………………………………………………28
3.4. Les Réseaux de Neurones. …………………………………………..30
3.4.1. Présentation…………………………………………………………….30
3.4.2. Fonction de transfert……………………………………………………31
3.4.3. L’apprentissage…………………………………………………………31
3.4.4. Rétro-propagation de l’erreur………………………………………….32
3.4.5. Conclusion……………………………………………………………..33
3.5. Les arbres de décision………………………………………………... 34
3.6. Les Supports Vectors Machines. ……………………………………. 36
3.7. Comparaison des différentes techniques……………………………. 38
3.8. Conclusion………………………………………………………………39
Chapitre 4. La Construction du Modèle de scoring.
4.1. Présentation du langage PYTHON………………………………………40
4.1.1. Principales caractéristiques du langage Python…………………………40
4.1.2. Environnement de développement pour Python…………………………40
4.1.3. Principaux modules utilisés dans nos programmes……………………..42
4.2. La construction du Modèle………………………………………………..43
4.2.1. Choix et description des données de l’échantillon……………………...43
4.2.1.1. Description quantitative des données…………………………………44
4.2.1.2. Prise en compte des dopnnées manquantes…………………………..45
4.2.1.3. Visualisation des données…………………………………………….45
4.2.2. Variables explicatives et Variable à expliquer…………………………47
4.2.3. Méthode Utilisée………………………………………………………..48
4.2.3.1. Régression Logistique……………………………………………... …48
4.2.3.2. Réseaux de Neurones…………………………………………………50
4.2.4. Utilisation du modèle…………………………………………………...52
Conclusion. …………………………………………………...........54
Liste Des Figures
Fig.1 : Rôle d’intermédiation d’une Banque………………………………….……….05
Fig. 2 : Importance des différents risques……………………………………………..07
Fig.3 : Mécanisme de déroulement de gestion du risque de crédit..………….….……09
Fig.4 : Surveillance prudentielle……………………………………………….……..10
Fig.5 : Mesures énoncées par Bale I, Bale II et Bale III. ……………….…….…….12
Fig.6 : Exemple de matrice de confusion……………………………………….…….17
Fig.7 : Exemple de la courbe ROC……………………………………………….…..18
Fig.8: Règle de décision pour le modèle d'Altman……………………………......19
Fig.9 : Règle de décision pour le modèle Conan et Holder……………………......20
Fig.10 : Récapitulatif des avantages et inconvénients des techniques de scoring….…..22
Fig.11 : Exemple de perceptron multicouche…………………………………………..30
Fig12 : Exemple de deux classes linéairement séparables par SVM……………….….36
Fig.13 : la page de l’environnement Spyder pour Python………………………………41
Fig.14 : la page de l’environnement Jupiter pour Python……………………………….41
Fig.15 : Extrait des données de l’échantillon……………………………………………43
Fig.16 : Liste des variables……………………………………………………………..44
Fig.17 : Visualisation de la variable ‘Loan_status’........................................................46
Fig.18 : Représentation de la matrice des coefficients de corrélation....………………..47
Fig.19: Entrée des données pour le modèle…………………………………………..53
Fig.20: Visualisation du résultat Entrée ……………………………………………...53
Introduction Générale
Dans tous les pays, le système financier est l'un des indicateurs les plus importants de son
développement économique et social ; il constitue le nerf principal de sa croissance
économique.
La banque est devenue l’un des acteurs essentiels au bon fonctionnement de cette économie.
Son activité est caractérisée par sa diversité qui consiste en en la collecte des dépôts, la
distribution des crédits, l’animation des marchés financiers et la gestion des moyens de
paiement.
Le développement de ces établissements de crédits et la diversification de leurs activités a fait
que le métier bancaire est inséparable du risque et que son environnement est devenu très
instable et très vulnérable face aux fluctuations de la sphère monétaire. C’est ainsi que les
banques sont de plus en plus menacées par une multitude de risques qui peuvent nuire à son
activité et même remettre en cause sa position sur le marché financier. Parmi les différents
types de risque, le risque de crédit est le plus important ; le crédit constitue le principal
produit et le plus rentable pour une banque.
La maîtrise de ce risque est devenue un enjeu important pour les banques; celles-ci sont
soumises à une règlementation prudentielle internationale (Bale I, Bale II et Bale III) pour
limiter les effets néfastes des différents risques. Dans le cadre de cette règlementation, une
banque doit disposer d’outils efficaces pour lui permettre de bien procéder à la sélection de
ses clients (demandeurs de crédit) et leur répartition en bons ou mauvais payeurs.
Depuis, les banques et les organismes de crédit ont développé des méthodes de notation de la
solvabilité des clients et de leur capacité à rembourser le crédit.
Le crédit scoring est un de ces outils d’aide à la prise de décision utilisés par la banque pour
lui permettre d’évaluer le risque de non remboursement des prêts. En effet, à partir
d’informations décrivant le profil du client, un modèle de crédit scoring permet de
pronostiquer le risque de défaut de celui-ci.
Les méthodes et techniques utilisées pour la construction d’un tel modèle sont nombreuses et
seules les performances obtenues justifient le choix d’une méthode donnée.
Chapitre 1
Notions
Fondamentales Et
Risques Bancaires
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 3
Introduction.
Ce premier chapitre sera consacré à la présentation d’un certain nombre d’éléments et notions
fondamentales : la définition de la notion de banque, son rôle et activité ainsi que ses
ressources. Dans le cadre de son activité, la banque est sujette à différents risques ; ceux-ci
seront brièvement définis et finalement, on présentera les approches pour l’identification et le
contrôle des risques.
1. Notions fondamentales.
1.1. Définition de la banque.
Une banque, aussi appelée établissement de crédit, est une entité dont l'activité consiste à
recevoir des fonds (remboursables) du public et à octroyer des crédits. C’est une entreprise,
juridiquement régie par le code monétaire et financier, sa fonction principale consiste à
assurer des services financiers à ses clients.
1.2. Rôle et activité de la banque.
La banque joue un rôle d’intermédiaire entre les détenteurs et les demandeurs de capitaux.
Son activité principale consiste à collecter les capitaux disponibles pour son propre compte et
les utiliser sous sa responsabilité à des opérations de crédit. Elle peut également effectuer
d’autres opérations de banque : les services bancaires de paiement, les opérations de change
etc ...
1.2.1. La collecte des dépôts.
Les dépôts bancaires sont des fonds reçus du public sous forme de dépôts (à vue ou à
terme) avec le droit de disposer pour son propre compte mais à charge de les restituer.
Les déposants sont des particuliers ou des entreprises ; les fonds déposés dans les différents
comptes constituent l’essentiel des ressources de la banque.
1.2.2. La distribution des crédits.
Les fonds recueillis par la banque auprès des déposants : les dépôts (à vue ou à terme)
constituent des ressources importantes utilisés par la banque pour accorder des crédits (sous
son entière responsabilité) aux différents agents économiques pour les besoins
d’investissement.
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 4
1.3. La classification des banques.
Le développement de l’économie mondiale, les tendances politiques et la spécialisation des
secteurs économiques ont rendu nécessaire l’organisation de la profession bancaire et sa
spécialisation. De manière générale, on distingue trois catégories essentielles: les banques de
dépôts, les banques d’investissement et les banques d’affaires.
1.3.1. Les banques de dépôts.
L’activité principale de ce type de banque consiste à effectuer des opérations de crédits et à
recueillir les dépôts de fonds à vue et à terme. Au quotidien, elles gèrent les comptes des
particuliers et des entreprises. Elles sont garantes de la sécurité des transactions financières.
1.3.2. Les banques d’investissement.
Les banques d’investissement sont des banques dont l’activité consiste à accorder des crédits
dont la durée est supérieure à deux ans.
1.3.3. les banques d’affaires.
En plus de l’octroi des crédits, Les banques d’affaires participent à la prise et la gestion de
participations dans des affaires existantes ou en formation. Les opérations de financement
engagées par ce type de banques immobilisent des capitaux pour une longue période.
1.4. Les ressources de la banque.
Il ya deux catégories de ressources : les ressources clientèles et les ressources hors clientèle.
1.4.1. Les ressources de la clientèle.
Ces ressources sont principalement formées par :
les dépôts (à vue et à terme) sont des liquidités placées en banque par les clients. Les
dépôts à vue peuvent être restitués à la demande ; les dépôts à terme ne peuvent être
restitués avant délai.
Les bons de caisse (nominatifs ou anonymes) sont des titres émis par la banque contre
un placement de fond à rembourser à une échéance définie avec payement d’un
intérêt.
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 5
Les bons d’épargne sont des titres émis par la banque pour la collecte de ressources ;
ils sont payés en plus des intérêts produits à leur échéance.
1.4.2. Les ressources hors clientèle.
Ces ressources sont formées principalement par le marché interbancaire, les réescomptes, les
avances de la banque centrale ou les fonts d’assainissement du trésor.
Fig. 1 : Rôle d’intermédiation d’une Banque. [1]
2. Le risque bancaire.
2.1. Définition.
Le risque est défini comme étant la possibilité de survenance d'un événement ayant des
conséquences négatives. C’est donc une exposition à un danger potentiel associé à un
événement parfaitement descriptible, dont on sait qu’il est susceptible de se produire.
En finance, le risque se définit comme étant l’incertitude sur la valeur future d’une donnée
actuelle (actif financier). Il correspond à une possibilité de perte monétaire due à une
incertitude que l’on peut quantifier. [2]
2.2. Types de risques.
Pour jouer son rôle d’intermédiaire entre les détenteurs et les demandeurs de capitaux et
assurer à ses clients ses services, la banque est exposée à différents risques.
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 6
Ces risques peuvent être classés en trois grandes catégories : les risques opérationnels, les
risques de crédit et les risques de marché. Le risque de crédit est de loin le plus important et le
plus dangereux auquel est exposée une banque ; c’est pourquoi, on s’intéressera beaucoup
plus à ce type de risque.
2.2.1. Risques opérationnels.
Selon le comité de Bâle ; le risque opérationnel est le risque de pertes qui résultent d’une
inadaptation ou d’une défaillance des processus internes, du personnel et des systèmes
d’information ou d’événements extérieurs. Ceci recouvre les erreurs humaines, les fraudes et
malveillances, les défaillances des systèmes d'informations, etc… Il comprend notamment :
Le risque lié au système d'informations: Ce risque se traduit par une défaillance
matérielle au niveau des moyens nécessaires à l'exercice de son activité, (par
exemple une panne informatique résultant d'une défaillance technique ou d'un acte de
malveillance)
Le risque lié aux processus internes : Ce risque est du au non respect des procédures,
aux erreurs provenant de l'enregistrement des opérations, les rapprochements et les
confirmations. (par exemple un double encaissement de chèque ou le versement du
montant d'un crédit avant la prise effective de la garantie prévue)
Le risque lié aux personnes : Ce risque est du au facteur humain (qualité du
personnel, manque de formation, vigilance…)
Le risque lié aux événements extérieurs : Ce risque peut être à l' origine de risque
politique, catastrophe naturelle, environnement réglementaire.
le risque juridique qui se définit comme étant la perte résultant de l'application
imprévisible d'une loi ou d'une réglementation, pouvant induire des jugements
défavorables.
2.2.2. Risques de marché.
C’est le risque de pertes sur les positions du bilan et hors-bilan suite à des variations des prix
du marché ; il recouvre : Les risques relatifs aux taux d’intérêt et titres de propriété et Les
risques de change liés aux transactions en devises.
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 7
2.2.3. Risques de crédit.
Le risque de crédit ou risque de contrepartie est le risque que l’emprunteur ne peut pas
rembourser sa dette en partie ou en totalité à l’échéance fixée. Le créancier risque alors de
perdre définitivement sa créance.
Le risque de crédit est de loin le plus important et le plus dangereux auquel est exposée une
banque. Il présente un caractère aléatoire et imprévisible : la banque, en l’octroyant s’attend à
son remboursement, mais il n’y a aucune certitude de remboursement ultérieur dans les délais.
Une dette non remboursée constitue une perte économique pour la banque. La maitrise et
l’appréciation de ce risque constitue alors l’une des préoccupations majeures de la banque
lors de la prise de décision d’octroi du crédit. La banque sera amenée à accorder un crédit que
si la probabilité de son remboursement est forte. Elle doit lui accorder une attention
particulière et le gérer de manière efficiente pour se prémunir de ses conséquences négatives.
Fig. 2 : Importance des différents risques. [1]
Le risque de crédit comprend :
Le risque de défaut de clients : celui-ci se trouve dans l’incapacité (ou refuse)
d’honorer ses engagements envers ses créanciers à l’échéance (par exemple,
l'emprunteur se trouve en faillite juridique).
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 8
Le risque de dégradation du crédit : c’est le risque du à la dégradation de la situation
financière de l’emprunteur faisant augmenter la probabilité de défaut.
Le risque du taux de recouvrement qui présente une source d'incertitude pour la
banque dans la mesure où il dépend des facteurs tels que : les procédures judiciaires et
de la valeur des garanties…
Le risque de crédit (ou de contrepartie) revêt trois formes :
Le risque de contrepartie rattaché à l’emprunteur et il concerne les crédits accordés
aux clients ou les placements sur les marchés financiers.
le risque de contrepartie sur le prêteur ; il est relatif aux garanties potentielles de
financement accordées à la banque pour assurer le financement de son activité (en cas
de difficultés d’approvisionnement sur les marchés).
le risque de contrepartie sur produits dérivés, il est composé du risque courant qui
représente la perte en cas de défaut et du risque potentiel représentant une perte
supplémentaire pour la couverture d’un défaut futur.[3] ;[4]
L’identification du risque de contrepartie est une étape essentielle pour la banque afin qu’elle
puisse mettre en œuvre les moyens appropriés pour sa quantification et sa gestion. Ce risque
étant le plus important pour la banque ; celle-ci est appelée à mettre en place des procédures
pour son identification, sa quantification et l’étude de sa solvabilité.
2.2 .4. Les conséquences du risque de crédit sur l’activité bancaire
Le risque de crédit (ou de contrepartie) engendre des conséquences négatives sur l’activité
bancaire ; on peut citer :
Les pertes liées au non remboursement des créances provoquent une dégradation du
résultat de la banque.
Possibilité de remise en cause de la solvabilité de la banque.
Une dégradation des résultats de la banque engendre une baisse de son rating car ce
dernier est un indicateur de solvabilité.
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 9
La dégradation de la relation banque-client : la banque est amenée à augmenter ses
taux de prêts pour pouvoir absorber les pertes enregistrées, ce qui détournera ses
clients.
Un risque systémique : le défaut d’une banque se propage à d’autres et provoque par
effet de contagion une crise systémique. Dans ce contexte, la stabilité globale du
système financier sera compromise.
Au vue de ces conséquences désastreuses pouvant être induites par le risque de crédit sur la
banque et tout le système bancaire et financier, la mise en place d’une réglementation,
l’observation de règles prudentielles et le contrôle de l’activité bancaire sont nécessaires.
3. Maîtrise et gestion du risque de crédit.
La complexité croissante des instruments financiers et le rôle d’intermédiaire que joue la
banque dans ce système financier fait que celle-ci doit se prémunir contre les risques liés à
son activité.
3.1. Maîtrise du risque.
La maîtrise du risque doit conduire à l’amélioration du processus de décision pour un meilleur
rendement. Elle repose sur :
L’identification du risque,
L’évaluation et la quantification des coûts qui lui sont associés,
L’adoption de techniques efficaces de gestion du risque et le suivi permanent.
Fig 3 : Mécanisme de déroulement de gestion du risque de crédit. [5]
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 10
3.2. Outils de gestion de risque.
Les outils de gestion correspondent à l'ensemble des techniques et dispositifs
organisationnels mis en place par la banque pour identifier, quantifier et surveiller les risques
auxquels elle est confrontée.
Toute opération de crédit est contrôlée et couverte par l’organe chargé de la définition des
normes prudentielles (conseil de la monnaie et du crédit) et l’organe chargé du suivi et du
contrôle (la commission bancaire) [9] et des procédures internes à la banque.
Fig.4 : Surveillance prudentielle. [1]
3.2.1. Les normes de gestion.
Pour limiter la prise de risques et ses effets néfastes qui peuvent mettre en péril les
établissements de crédit, qui à leur tour peuvent compromettre la sécurité du système
financier, une réglementation prudentielle internationale est mise en place. Toutes les banques
sont tenues de se conformer aux règles prudentielles de gestion et dont le but est de doter les
établissements financiers d’un moyen de contrôle des risques.
Ces règles sont dérivées des recommandations prudentielles internationales (Bale I, Bale II,
Bale III), adoptées universellement et ayant pour objectif :
Le renforcement de la structure financière des établissements de crédits,
La sécurité des déposants,
La surveillance et le suivi (continu) des risques de banques.
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 11
Ces règles ont imposé aux autorités de contrôle des ratios de solvabilité des établissements de
crédits ; il y a le ratio de COOKE (Bale I) et le ratio de McDounough (Bale II) qui vient
modifier celui de COOK pour prendre en compte la qualité de l'emprunteur par l'intermédiaire
d'un système de notation interne propre à chaque établissement (Internal Rating Based). Ces
ratios définissent un niveau minimal de capital dont doit disposer l’établissement de crédit
pour pouvoir faire face aux risques liés aux divers postes de son actif. Cette mesure répond à
un double objectif :
Renforcer la solidité et la stabilité du système bancaire ;
atténuer les inégalités concurrentielles entre les banques.
Les nouvelles règles (Bâle III) constituent une évolution des standards prudentiels bancaires
et complètent les accords de Bâle II. Ces nouvelles règles permettent :
Le renforcement de la qualité et de la quantité de fonds propres minimaux que les
établissements doivent détenir,
La mise en œuvre des exigences minimales en termes de gestion du risque de
liquidité (ratios quantitatifs),
Le renforcement des exigences relatives aux établissements considérés comme
systémiques. [6]
Les deux ratios (Bale I et Bale II) sont donnés par les formules :
(*) atio de C
(*) atio de c ounough
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 12
Fig 5 : Mesures énoncées par Bale I, Bale II et Bale III. [1]
3.2.2. Evaluation du risque.
La politique de crédit repose sur le principe que tout engagement porteur de risques de crédit
s’appuie sur une connaissance approfondie du client et de son activité. L'évaluation de ce
risque de crédit varie selon le type du client de la banque.
3.2.2.1. Cas d’un particulier.
Pour le cas du particulier, l'évaluation porte essentiellement sur l'étude du dossier du client,
cette étude porte sur :
L’identité du client (état civil,…),
Ses capacités d’endettement,
l'état du compte du client pour apprécier le niveau de ces engagements actuels,
L'étude des engagements du client au niveau de son employeur et au niveau des autres
banques,
Les garanties (Engagement de domiciliation et caution salariale).
3.2.2.2. Cas d’une entreprise.
Pour une entreprise qui sollicite un crédit bancaire, elle doit fournir à la banque les moyens
d'appréciation de sa situation financière et s'assurer que le crédit sollicité est nécessaire à la
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 13
bonne marche de l'entreprise et qu'il ne sera pas détourné et que la banque ait de très grandes
chances d’être remboursée.
3.2.3. Méthodes de gestion de risques.
En ce qui est des méthodes de gestion, le cas des particuliers présente une certaine différence
par rapport aux entreprises. Le marché de l’endettement des particuliers est en croissance
continue, la réponse aux demandes de crédits des particuliers exige une certaine forme de
célérité. Le volume de la demande et le faible montant des crédits demandés a amené les
banques à automatiser leur traitement et utiliser des méthodes telles que le crédit scoring
permettant de fournir des réponses rapides.
Pour les entreprises, deux approches sont utilisées : l’approche de l’analyse financière et
l’approche de crédit scoring.
3.2.3.1. L’approche de l’analyse financière.
L’analyse financière est une démarche qui s’appuie sur l’étude des informations comptables
et financières fournies par l’entreprise pour permettre à la banque d’établir un diagnostic
financier de l’entreprise et d’apprécier ses performances notamment ses capacités de
solvabilité.
Cette analyse s’effectue essentiellement à partir des informations comptables : le bilan et le
compte de résultats ainsi que d’autres informations provenant des organismes : des cabinets
d’audit, la centrale des impayés, la centrale des risques et la centrale des bilans de la Banque
d’Algérie.
Cette analyse, basée sur une multitude de ratios décrivant son activité, est un diagnostic
financier de la santé de l’entreprise. L’inconvénient est que l’élaboration du diagnostic
financier nécessite beaucoup de temps et un personnel qualifié ce qui entraine des surcouts.
3.2.3.2. L’approche : crédit scoring.
Actuellement, le crédit scoring est l’un des modèles de prévision des risques les plus usités
dans la micro finance. C’est un outil d’aide à la décision ; il permet de prévoir la défaillance
d’un demandeur de crédit. Il permet d’associer à chaque demande de crédit une note
proportionnelle à la probabilité qu’a l’emprunteur pour rembourser son crédit.
Chapitre1: Notions Fondamentales Et Risques Bancaires.
Page 14
Un modèle de score est un outil de mesure du risque basé sur l’utilisation des techniques
statistiques pour l’étude des données historiques qui décrivent des caractéristiques des
emprunteurs et leur attribuer un score. Ce score est une note exprimée (de manière
synthétique) permettant de mesurer le risque de défaut d’une entreprise et de la classer dans
l’une des deux classes : entreprises saines ou entreprises défaillantes.
Cette technique de crédit scoring sera plus amplement décrite dans le chapitre suivant. On
décrira son principe et les méthodes utilisées.
4. Conclusion.
La banque est l’acteur principal des marchés de capitaux ; dans le cadre de ses activités, elle
est exposée à une diversité de risques qu’elle doit maitriser et gérer pour assurer correctement
son rôle dans le financement de l’économie du pays. Le risque relatif aux crédits accordés
par la banque demeure le plus important et le plus fréquent, c’est pourquoi la mise en place
d’outils et instruments pour le gérer et le maîtriser afin d’assurer la continuité de son activité.
Chapitre 2.
Le Credit Scoring
Chapitre 2. Le Crédit Scoring
Page 15
Introduction.
L’évaluation du risque de crédit revient à se poser la question de la solvabilité du client. Pour
la prise de décision d’octroi de crédit, il est indispensable que le décideur dispose d’outils
d’appréciations quantitatives qui vont lui permettre d’évaluer cette solvabilité afin d’assurer
une probabilité minimale de défaillance du client.
Dans le chapitre précédent, nous avons présenté une approche classique d’évaluation :
l’approche financière et ses limitations. Dans ce chapitre, on présentera l’approche du crédit
scoring
2.1. Définition du crédit scoring.
Le crédit scoring est un outil d’aide à la décision. C’est une méthode basée sur l’utilisation
des techniques statistiques pour prédire la probabilité de défaillance d’un demandeur de prêt.
Elle vise à associer à chaque demande de crédit une note proportionnelle à la probabilité de
l’emprunteur de faire défaut. [7]
2.2. Principe.
A partir des données historiques relatives à une population de clients ayant contracté un prêt,
on étudie certains paramètres ou critères qui caractérisent ces emprunteurs afin de déterminer
les effets possibles sur leur chance de faire défaut. On calcule une valeur chiffrée (un score)
qui décrit d’une manière « synthétique » la situation d’un client, mesure son risque de défaut
et permettre de le classer dans l’une des deux classes : bon payeur – mauvais payeur. [8]
La méthode de scoring consiste à calculer une combinaison linéaire d’un certain nombre de
paramètres retenus comme les plus significatifs dans la discrimination entre les emprunteurs
défaillants et emprunteurs non défaillants. Cette fonction score se présente sous la forme
suivante :
F(score) = α1 R1 + α2 R2 + α3 R3 + … + αP RP
avec : Ri ; i =1,2, …, p les paramètres choisis
et αi ; i =1,2, …, p sont les p coefficients estimés.
Les fonctions scores sont relativement nombreuses, elles présentent plusieurs
atouts pour le secteur bancaire :
la simplicité. l’utilisation du score est obtenu à partir d’un certain nombre
d’informations synthétisées et offre une rapidité dans la prise de décision, ce qui constitue un
double avantage : une charge de travail réduite et une réponse rapide pour le client.
Chapitre 2. Le Crédit Scoring
Page 16
l’homogénéité. le crédit scoring donne la même décision quelque soit l’agence ou le
temps de la prise de décision. [9]
2.3. Les étapes de construction d’une fonction score.
La construction d’une fonction score repose sur les étapes principales suivantes
2.3.1. Choix des variables :
En premier lieu, on détermine la variable Y à expliquer (ou à prédire). On parle également
de critère à modéliser. La variable Y est généralement binaire à deux modalités ; chaque
modalité définit une classe (ou groupe).
En deuxième lieu, on choisit les variables explicatives X = (X1; … ; Xp). Les p variables
explicatives. Ces variables Xi ; i = 1 … p, peuvent être quantitatives ou qualitatives. Ces
variables doivent être les plus pertinentes qui discriminent au mieux les deux classes.
2.3.2. Choix des données et de l'échantillon :
Il convient de disposer d’un échantillon constitué de deux populations d’emprunteurs : la
première regroupe ceux ayant fait défaut, et la seconde ceux qui n’ont pas fait défaut. Cet
échantillon est de taille n (nombre d'individus) ; il doit être représentatif de la population et
sur lequel sont mesurées les p variables explicatives X1; … ; X p et la variable à expliquer Y.
Ces données serviront pour la classification et la séparation entre les deux groupes. Il convient
de signaler que l’une des conditions requises pour la construction d’une fonction score est que
les variables retenues ne soient pas corrélées. Des variables liées apportent la même
information et sont donc redondantes.
2.3.3. Choix de la méthode de construction du score.
Une fonction score F(X) donne une note à un individu en fonction de ses valeurs sur X = (X1;
… ; Xp).
Un modèle de scoring est d’autant meilleur que s’il arrive à discriminer au mieux une
population en classes bien distinctes en affectant un score élevé aux éléments ayant une faible
probabilité de défaut et un score faible à ceux ayant une forte probabilité de défaut. De plus,
un score est d’autant plus fiable que le classement qu’il reproduit est proche de la réalité.
A partir des échantillons et de l’ensemble des variables retenues et l’utilisation d’une
technique de discrimination, on procède à l’affectation de chaque individu à son groupe.
Cette affectation doit être la plus efficace possible.
Actuellement, les techniques de scoring les plus utilisées sont construites par des méthodes
relevant le plus souvent du domaine de data mining et de l’intelligence artificielle. Nous
Chapitre 2. Le Crédit Scoring
Page 17
citerons: la régression linéaire, la régression logistique, l’analyse discriminante, les réseaux
de neurones, les arbres de décision, etc…
2.3.4. Construction d'une règle de décision.
Après avoir obtenu cette évaluation chiffrée, il suffit d’intégrer le score obtenu dans une grille
de risque préalablement graduée, laquelle permettra l’interprétation du chiffre obtenu qui
aidera à la prise de décision finale du prêteur.
Si la variable Y est binaire, ses deux modalités forment deux classes (groupes) d'individus et
on peut fixer un seuil s pour obtenir la règle suivante :
F(X) ≤ s ==>l'individu est affecté à la classe 1
F(X) > s ==> l'individu est affecté à la classe 2
2.3.5. Validation du modèle.
Dans cette étape, on procèdera à l’appréciation de la qualité prédictive de la fonction score
identifiée.
Les méthodes de validation sont destinées à mesurer la capacité du modèle pour la prise de
décision quant à son utilisation ou à son rejet. Ces méthodes de validation s’appuient sur des
tests de robustesse appliqués sur un échantillon témoin non utilisé pour la construction du
modèle. La validation du modèle est une étape décisive qui permet de vérifier la conformité
des coefficients du modèle de score et évaluer ses performances et sa capacité de prédiction.
Le plus souvent, la robustesse des modèles est vérifiée à travers : la matrice de confusion (ou
de classement correcte) et la surface sous la courbe de ROC.
la matrice de confusion.
Fig.6 : Exemple de matrice de confusion. 2 groupes notés : POSITIF ; NEGATIF. [18]
Prédiction
POSITIF NEGATIF
Réel
POSITIF 95
(vrais positifs)
5
(faux négatifs)
NEGATIF 3
(faux positifs)
97
(vrais négatifs)
Chapitre 2. Le Crédit Scoring
Page 18
Cette matrice permet de calculer certains paramètres pour évaluer la capacité prédictive du
modèle. Celle-ci est d’autant meilleure que l’Accuracy, la Precision et recall sont élevés.
Accuracy = TP+TN/Total des effectifs ; le taux des bien classés,
Erreur = 1 - accuracy
Precision = TP/TP+FP, le taux des vrais positifs par rapport au total prédit positifs
Recall = TP/TP+FN, taux des vrais positifs par rapport au total des positifs de la classe.
Spécificité = TN/(TN+FP), le taux des vrais négatifs
F1.score = 2*( precision *recall) / (precision+recall)
La courbe ROC.
La courbe ROC représente l'évolution du taux de vrais positifs en fonction taux de faux
positifs (1 – spécificité).
L'aire sous la courbe ROC (AUC) est un indicateur de la qualité de la prédiction : plus la
courbe est au-dessus la première bissectrice, meilleure est la prédiction.
Fig.7 : Exemple de la courbe ROC. [19]
2.4. Exemples de modèles de scoring.
Parmi les modèles les plus classiques, on citera :
2.4.1. Le modèle d'Altman (1968).
Ce modèle est développé en utilisant un échantillon de 66 entreprises réparties en deux
classes de 33 chacune : une classe pour des entreprises considérées comme défaillantes,
l’autre classe pour celles considérées comme saines. Le modèle utilise la technique statistique
de l’analyse discriminante multi-variée. Il détermine une fonction de score qui est une
combinaison linéaire de cinq ratios financiers considérés comme les plus pertinents pour
discriminer au mieux les deux groupes d’entreprises (saines ou défaillantes).
Cette fonction de score, nommée Z-score, s'exprime par la relation :
Chapitre 2. Le Crédit Scoring
Page 19
Z = 1.2 R1 + 1.4 R2 + 3.3 R3 + 0.6 R4 +0.9 R5
R1= Fond de net / Actif total
R2= Bénéfice non réparti / Actif total
R3= Bénéfice avants intérêts et impôts / Actif total
R4= Capitaux propres / Dettes totales
R5 = Chiffre d’affaire H.T / Actif total
Le risque encouru par la banque varie dans le sens contraire de Z, avec 3 comme valeur
critique.
Fig.8: Règles de décision pour le modèle d'Altman. [5]
Pour un score supérieur à 3, l’entreprise a peu de risque de faire défaut, entre 2,7 et 3,
l’entreprise est à risque. S’il est compris entre 1,8 et 2,7, la probabilité de faire défaut est
importante et l'entreprise est jugée à haut risque. Enfin pour un score inférieur à 1,8 la
probabilité d’un problème financier est très élevée.
2.4.2. Modèle de Conan et Holder.
Le modèle est basé sur un échantillon de 190 petites et moyennes entreprises industrielles : la
moitié étant considérées comme saines et l’autre moitié comme défaillantes. Les auteurs ont
observé 31 ratios financiers se rapportant à toutes les entreprises de l'échantillon. Ils ont
conclu que seuls 5 ratios sont les plus significatifs et ont abouti à la formalisation de la
fonction score Z définie par l'équation ci-dessous :
Z = 0.24 R1 + 0.22 R2 + 0.16 R3 – 0.87 R4 – 0.10 R5
R1 = Excédent brut d’exploitation / Total des dettes
R2 = Capitaux permanents / Actif total
Chapitre 2. Le Crédit Scoring
Page 20
R3 = Réalisables et Disponibles / Actif total
R4 = Charges financières / Chiffre d’affaires H.T
R5 = Charges du personnel / Valeur ajoutée
Pour perfectionner la règle de décision des banquiers, les auteurs proposent une probabilité
de défaillance selon la valeur du score Z et en fonction de ce score, l’entreprise est considérée
comme saine ou défaillante.
L’entreprise, en fonction de cette loi de probabilité de défaillance et du score Z, est classée
selon son niveau de risque présumé.
Fig.9: Règle de décision pour le modèle Conan et Holder. [5]
Si le score Z > 0.10 : Très bonne situation financière ; risque de défaillance inférieur à 30%.
Si 0.04 < Z < 0.10 : Zone d’alerte ; probabilité de défaillance de 30% à 65%. Pour l’entrprise
Si -0.05 < Z < 0.04: Zone de danger ; probabilité de défaillance de 65% à 90%.
Si Z < -0.05 : Entreprise classée défaillante ; probabilité de défaillance dépassant 90%.
2.5. Avantages et limites du crédit scoring.
L'utilisation du crédit scoring au sein des banques et des établissements de crédit en tant
qu’outil d’aide à la décision offre des avantages non négligeables mais également il présente
certaines limites.
2.5.1. Les Avantages du crédit scoring.
Le scoring permet une appréciation synthétique de la situation d’une entreprise ou
d’un client, il permet également d’anticiper le risque de défaillance de l’entreprise et de
diminuer par conséquent les impayés,
Par rapport aux autres méthodes traditionnelles, les modèles de score permettent, grâce
à la rapidité de prise de décision qu’ils présentent, un traitement d’une population plus
Chapitre 2. Le Crédit Scoring
Page 21
importante d'emprunteurs, leur usage réduit de manière significative la durée du traitement
des dossiers de crédit et procurent un gain de temps appréciable libérant l’analyste financier
à d’autres tâches.
Les outils de scoring sont peu coûteux.
2.5.2. Les limites des modèles de score.
Au-delà d’une certaine durée d’utilisation, le modèle de crédit scoring peut perdre son
pouvoir discriminant dans la mesure où le secteur pour lequel il a été construit ainsi que la
situation économique peuvent évoluer. [10]
Les modèles de score capturent mal les changements pouvant modifier l'attitude des
emprunteurs par rapport au défaut.
Ils comportent certaines erreurs de classement des individus : classer un bon client
comme mauvais ou l’inverse ; ces erreurs ont un coût pour le prêteur.
2.6. Conclusion.
Malgré les limites qu’elle présente, la méthode des scores reste l’une des méthodes les plus
utilisées pour l’appréciation du risque de crédit. C’est une méthode d’aide à la prise de
décision et l’avis du responsable est très important quant à son utilisation.
Chapitre 3.
Les Techniques
Utilisees Pour
Le Scoring
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 22
Introduction.
Dans ce troisième chapitre on présentera les techniques les plus utilisées pour la construction
d’un modèle de scoring. Ces techniques relèvent le plus souvent du data mining :
l’apprentissage et les méthodes de classement ; et du deep learning : les réseaux de neurones
et les arbres de décision.
3.1. La régression linéaire
3.1.1. Présentation.
La régression linéaire permet de modéliser une variable endogène (réponse, à expliquer)
Y continue à partir d’une matrice de P variables explicatives ) continues.
La régression linéaire se base sur une modélisation de type linéaire et demeure la méthode de
prédiction la plus utilisée étant donné sa simplicité de mise en œuvre.
Pour garantir son utilisation optimale, cinq conditions sont à tester au préalable [20]:
l’absence de multi-colinéarité au sein des variables X,
l’indépendance des résidus (erreurs) , entre eux,
l’indépendance entre les variables et les résidus,
normalité des résidus ,
la variance des résidus est constante,
Remarque :
S’il existe des variables colinéaires (dépendantes entre elles), elles seront redondantes et
apportent la même contribution.
Pour les autres hypothèses, l’utilisation de la régression linéaire est possible, sauf que plus
nous nous éloignons des hypothèses et plus nous risquons d’obtenir des résultats peu
efficaces. [20]
3.1.2. Le Modèle :
Le modèle associé à la régression linéaire s’exprime selon la formule suivante :
L’idée est de reconstruire à partir des comme une combinaison linéaire de
ces variables explicatives.
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 23
3.1.3. L’estimation des coefficients:
Il existe différentes méthodes d’estimations des coefficients: les moindres carrés partiels, le
maximum de vraisemblance et l’inférence bayésienne. La méthode des moindres carrés
permet de fournir des estimateurs non biaisés est la plus populaire et la plus utilisée.
L’estimation des coefficients de régression se fait alors au travers du
calcul,
Où est la matrice des variables explicatives à laquelle nous rajoutons en
première colonne le vecteur unitaire (pour pouvoir estimer le coefficient constant β0).
3.1.4. Les indicateurs de performance de la régression linéaire:
En notant :
,
L’expression de la différence entre les valeurs réelles de et les valeurs prédites par le
modèle construit via régression linéaire, les indicateurs de performance régulièrement
retrouvés dans la littérature sont donnés par les formules :
La vraisemblance,
Plus la vraisemblance est forte, meilleur est le modèle.
Le coefficient de détermination :
Avec :
Le coefficient est un indicateur de la qualité de la modélisation ; notamment
de la capacité du modèle à coller aux données réelles utilisées pour le construire. Le
modèle est d’autant meilleur que le coefficient est proche de 1. [20]
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 24
3.2. La régression logistique.
3.2.1. Présentation:
La régression logistique permet de prédire et/ou expliquer une variable catégorielle Y à partir
d’un ensemble de descripteurs ). Il s'agit de mettre en évidence
l'existence d'une liaison fonctionnelle sous-jacente entre ces variables de la forme : Y = f (X;β)
La fonction f ( . ) est le modèle de prédiction ; β est le vecteur des paramètres de la fonction
et dont les valeurs seront estimées à partir des données disponibles. Ces données peuvent être
continues ou qualitatives.
Pour le cas particulier où la variable dépendante Y ne prend que 2 modalités, on parle de
discrimination binaire.
L’objectif est de prédire correctement les valeurs de Y, mais on peut également vouloir
quantifier la probabilité d’appartenance d'un individu à l’une des deux classes.
La force de la régression logistique réside en la forme de la fonction lien utilisée (le logit ou le
probit) qui permet une modélisation de forme sigmoïdale.
3.2.2. Le modèle.
Le modèle de régression logistique est formulé par :
Y = f(β0 + β’ X ) + ɛ
Le classifieur bayesien est celui qui, pour un individu , permet de calculer les probabilités
conditionnelles (probabilité a posteriori) : Y pour chaque modalité yk de Y .
On affecte à l'individu la modalité la plus probable yk*
yk*
= arg
P [Y ( ) = yk / X( )]
On associe donc l'individu à la classe la plus probable compte tenu de ses caractéristiques
X( ). Cette approche est optimale au sens de l'erreur théorique. [11]
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 25
Dans le cas à deux classes, Y prend les deux valeurs notées ‘ 1 ‘ et ‘ 0 ‘, nous devons donc
comparer simplement les probabilités P (Y = 1/ X) et P (Y = 0/ X) pour déterminer la classe
de Y.
On forme le rapport :
La règle de décision devient :
Si
Pour l'estimation du rapport de probabilité
; la régression logistique introduit
l'hypothèse fondamentale suivante :
Ln
= b0 + b1 X 1 + . . . + bp Xp
Remarque.
Cette hypothèse rend opérationnelle la régression logistique dans de très nombreuses
configurations contrairement à l'Analyse Discriminante Linéaire, que l'on qualifie de méthode
paramétrique (émet l’hypothèse sur les distributions respectives des probabilités) alors que la
régression logistique est une méthode semi-paramétrique car l'hypothèse porte uniquement sur
le rapport de ces probabilités. Elle est donc moins restrictive. [11], [12]
Dans la plus part des cas, on utilise le modèle LOGIT, sa fonction de lien est :
P [Y ( ) = yk / X ( )] =
Qui, en fonction d’une valeur de seuil fixée (généralement 0.5), permet la prédiction du statut
de Y.
3.2.3. Estimation des paramètres :
L’estimation des coefficients se fait par l’algorithme de Newton-Raphson
qui est basé sur la méthode itérative du gradient.
On fixe l’itération initiale avec : et
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 26
On pose le vecteur des dérivées partielles premières de la vraisemblance
et la matrice des dérivées partielles secondes de la vraisemblance.
Pour , solution courante à l’itération , nous avons,
L’algorithme converge afin d’obtenir notre vecteur d’estimateurs via les formules:
Avec la matrice carrée de taille p p des poids où le jeme
élément de la diagonale est:
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 27
3.3. L’Analyse discriminante de Fisher.
3.3.1. Présentation.
L’Analyse discriminante permet de modéliser une variable qualitative à K modalités
(K ≥ 2 classes) à partir de P variables explicatives continues X= ( X 1, . . . , X
p ).
On dispose d'un échantillon (échantillon d’apprentissage) de n observations de Y et de X :
pour lequel les p variables explicatives et la variable à expliquer ont été mesurées. L’objectif
est de définir à partir de cet échantillon une règle de classification qui va permettre de prédire
la valeur de Y pour un nouvel individu sur lequel on a mesuré uniquement les p variables
explicatives. On parle de classification supervisée, chaque modalité de Y représente une
classe (ou groupe) d'individus.
3.3.2. Le Modèle.
La variable à expliquer est binaire ou à k ≥ 2 modalités ; les variables explicatives X sont
continues.
L’Analyse discriminante de Fisher permet la construction de deux formes de frontière:
linéaire ou quadratique ; qui nécessitent des hypothèses d’utilisation solides : la normalité des
données pour les deux cas plus celle d’homoscédasticité pour le cas linéaire. [21]
L’analyse discriminante de Fisher est basée sur l’étude des covariances intra et inter classes
ainsi que sur la construction d’un classifieur bayésien optimal au sens de la probabilité de
l’erreur. Cet outil est à mi-chemin entre la modélisation et la classification, il faut en général
passer par une méthode d’apprentissage pour valider la règle décisionnelle [21].
3.3.3. La fonction discriminante du classifieur bayésien:
Pour chaque classe k, k = 1, . . . , K , on note : k la matrice de variance-covariance et k le
centre de gravité du nuage d’individus associé à la classe Clk de , soit à X Y= Clk ,
d’effectif nk.
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 28
On Suppose également que les observations de chaque classe soient générées selon une loi
normale de paramètres ( k , k ), on a :
Si en plus les matrices de variance-covariance sont identiques alors nous sommes dans le cas
d’une discrimination linéaire (hypothèse de normalité et d’homoscédasticité), dans le cas
inverse nous sommes dans le cas quadratique (hypothèse de normalité).
Dans le premier cas, où 1 = . . . =p = (la matrice de variance-covariance toutes classes
confondues), les fonctions discriminantes du classifieur bayésien deviennent:
Dans le second cas, où 1 . . . p , elles deviennent:
3.3.4. Le calcul des coefficients.
Le vecteur des coefficients associé à la règle décisionnelle se retrouve au travers de la formule
de la fonction discriminante décrite ci-dessus en fonction des deux versions,
pour la règle linéaire,
pour la règle quadratique,
Le premier terme du vecteur représentant le coefficient constant.
3.3.5. Règle décisionnelle.
Nous cherchons à savoir de quelle classe le nouvel individu i que nous voulons
classer est le plus près. Nous répondons à cette interrogation via la distance définie par la
matrice et qui correspond la règle descriptive de Mahalanobis-Fisher, de définition,
Où : dans le cas linéaire
dans le cas quadratique.
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 29
La règle décisionnelle basée sur le théorème de Bayes nous donne [21]:
avec Pk =
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 30
3.4. Les Réseaux de Neurones.
Les réseaux de neurones, connus sous l’appellation d’apprentissage profond (Deep Leatning)
sont des algorithmes qui permettent à partir de l'expérience de déterminer la relation entre les
caractéristiques d'un des emprunteurs et leur probabilité de défaut. Cette technique prend en
compte l’effet de non-linéarité entre la variable à expliquer et les variables explicatives. Sa
modélisation et l’interprétation de ces résultats peuvent être complexes. [22]
3.4.1. Présentation.
Un réseau de neurones est une association en un graphe plus ou moins complexe d’objets
élémentaires : les neurones formels.
Fig.10 : Exemple de perceptron multicouche (1 couche cachée, 1couche de sortie). [22]
Les réseaux de neurones se distinguent par : leur architecture (structure du graphe), leur
complexité (le nombre de neurones), le type de neurones (type de fonction d’activation) et
l’objectif visé (apprentissage, optimisation, . . .)
Le neurone formel est un modèle qui se caractérise par un état interne s S ,
Des signaux d’entrés x1, … , x
p et une fonction d’activation.
La fonction d’activation opère une combinaison des signaux d’entrée (α0 , α1, …, αp )
associés à chaque neurone et dont les valeurs sont estimées lors de la phase d’apprentissage.
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 31
Il y a différentes fonction d’activation ; les plus utilisées sont celles adaptées aux algorithmes
d’apprentissage :
Fonction linéaire g(x) est la fonction identité
Sigmoide g(x) = 1/ (1+ ex )
ReLU g(x) = max(0, x)
3.4.2. Fonction de transfert.
Un Perceptron Multi Couche réalise la transformation des variables d’entrée : Y= f(X1, X
2,
…,Xp
; α) de la couche l ; la couche d’entrée ( l=0 ) n’est pas paramétrée ; elle ne fait que
distribuer les entrées sur la couche suivante.
Le théorème d’approximation universelle montre que cette structure élémentaire à une seule
couche cachée est suffisante pour prendre en compte les problèmes classiques de
modélisation ou apprentissage statistique. En effet, toute fonction régulière peut être
approchée uniformément avec une précision arbitraire et dans un domaine fini de l’espace de
ses variables, par un réseau de neurones comportant une couche de neurones cachés en
nombre fini possédant tous la même fonction d’activation et un neurone de sortie linéaire.[22]
En régression (Y quantitative), la dernière couche est constituée d’un seul neurone muni de la
fonction d’activation identité tandis que les autres neurones (couche cachée) sont munis de la
fonction sigmoïde.
En classification binaire, le neurone de sortie est également muni de la fonction sigmoïde.
Ainsi, en régression avec un perceptron à une couche cachée de q neurones et un neurone de
sortie, cette fonction s’écrit :
Y= f(x, α, β)= β0 + β’z
Avec zk = g( αk0 + α’k ) ; k = 1 , … , q
3.4.3. L’Apprentissage.
Disposant d’un échantillon de n d’observations (xi1 , . . . , xi
p; yi) des variables explicatives
X 1
, . . . , X p
et de la variable à prévoir Y .
En considérant le cas le plus simple de la régression avec un réseau constitué d’un neurone de
sortie linéaire et d’une couche à q neurones dont les paramètres sont optimisés par la
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 32
méthode des moindres carrés. Ce ci peut se généraliser à toute fonction perte dérivable et
donc à la discrimination à m classes. [22]
L’apprentissage est l’estimation des paramètres : αj pour j=0,p ; k=1,q et βk pour k = 0, q par
minimisation de la fonction perte de la fonction :
Q(α, β) =
– α β
3.4.4. La Rétro-propagation de l’erreur
Différents algorithmes d’optimisation sont proposés, ils sont généralement basés sur une
évaluation du gradient par rétro-propagation. Il s’agit d’évaluer la dérivée de la fonction coût
en une observation et par rapport aux différents paramètres. Soit : z ki = g(αk0 + α’k0 xi)
et zi = {z1i , . . . , zqi }.
Les dérivées partielles de la fonction perte quadratique s’écrivent :
–
–
Les termes δi et ski sont respectivement les termes d’erreur du modèle courant à la sortie et
sur chaque neurone caché. Ces termes d’erreur vérifient les équations de rétro-propagation :
ski =
Ces les termes sont évalués en deux passes. Une passe avant, avec les valeurs courantes des
poids : l’application des différentes entrées xi au réseau permet de déterminer les valeurs
ajustées . La passe retour permet ensuite de déterminer les δi qui sont rétro-propagés
afin de calculer les ski et ainsi obtenir les évaluations des gradients.
Pour faire décroître Q on applique un algorithme itératif du gradient modifiant les poids de
chaque neurone selon :
est un taux d’apprentissage à déterminer par l’utilisateur
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 33
3.4.5. Conclusion.
Les réseaux de neurones sont des algorithmes qui permettent à partir de l'expérience de
déterminer la relation entre les caractéristiques d'un des emprunteurs et leur probabilité de
défaut. Cette technique prend en compte l’effet de non-linéarité entre la variable à expliquer et
les variables explicatives. Sa modélisation et l’interprétation de ces résultats peuvent être
complexes. [22]
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 34
3.5. Les arbres de décision.
Les arbres de décision sont un des outils les plus importants du Data Mining en raison de la
lisibilité de leurs résultats et de la simplicité des interprétations.
Un arbre de décision permet de discriminer une variable réponse continue, ou
qualitative avec K (K ≥ 2 classes) à partir de P variables explicatives X1,… , X
P continues
et/ou qualitatives.
Lorsque la variable Y est quantitative, on parle d’arbre de régression ; si elle est qualitative
(dans notre cas bon ou mauvais payeur), on parle d’arbre de décision ou de classification.
Un arbre de décision est un graphe orienté (sans cycle) dont les nœuds correspondent aux
variables, les arcs représentent les modalités d’une variable prédictive. Un nœud terminal est
appelé feuille et évoque une classe.
La construction de l'arbre maximal consiste à répartir les individus d'une population
(échantillon d'apprentissage) en K classes prédéfinies (le plus souvent K = 2). Cette répartition
est effectuée selon la variable explicative la plus discriminante c’est-à-dire celle qui sépare le
mieux les individus de chaque classe. La règle de division d'un nœud (segment) dépend de la
nature statistique de la variable explicative: si par exemple la variable est binaire une seule
division est possible.
Ce processus de répartition est répété localement sur chaque nœud de l’arbre jusqu’à
l’obtention de feuilles pures.
L'arbre maximal est atteint si un critère d'arrêt de division de l'arbre est satisfait ou la division
n’est plus possible (un seul individu dans chaque nœud ou tous les individus sont identiques).
Les performances de prédiction dépendent directement de la taille de l’arbre et du choix des
variables explicatives au niveau du nœud en construction. Pour optimiser les performances au
niveau de ce nœud, des critères de séparation dépendant des variables explicatives permettent
d’effectuer le choix des variables pertinentes. Parmi les critères les plus fréquemment utilisés,
on cite [13]:
L’indice de Shannon : appliqué à tout type de variables explicatives ;
L’indice de Gini : appliqué par l’algorithme CART donnant des arbres binaires et
permettant de sélectionner les variables explicatives de tout type.
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 35
Le test du khi-2 : utilisé avec la méthode CHAID qui permet de construire des
arbres de décision non-binaires utilisant des variables prédictive de type qualitatives
ou discrètes.
Une fois l'arbre maximal obtenu, on procède à une phase d'élagage qui consiste à tester
chaque sous arbre en utilisant un échantillon test différent de l'échantillon d'apprentissage.
Cette phase permet de construire l’arbre optimal en supprimant les segments les moins
informatifs ; le sous arbre "optimal" est celui qui minimise le taux d'erreur déterminé en
utilisant l'échantillon test.
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 36
3.6. Les Support Vector Machine (SVM).
C’est une technique de data mining ayant réalisé des performances meilleures que les
méthodes statistiques traditionnelles en matière de classification. Elle est d’utilisation récente
dans le domaine de crédit scoring. Elle peut être utilisée dans les cas de séparation linéaire ou
non linéaire entre classes.
Pour le cas de la classification linéaire, et si les observations sont linéairement séparées, la
méthode permet de séparer les individus en deux classes par une frontière linéaire. Cette
frontière est un hyperplan optimal qui garantit une grande marge de séparation entre deux
classes.
Fig11 : Exemple de deux classes linéairement séparables par SVM. [5]
On cherche l’hyperplan d'équation : X +b qui maximise la marge entre les deux
classes et où {-1, +1} est l'étiquette de la classe associée à une donnée (avec t=1, ...,
N) est le vecteur de données et est le vecteur des poids associé à X.
Il suffit de trouver solutions du problème d’optimisation convexe.
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 37
La distance d’un point au plan est donnée par :
Maximiser la marge de séparation revient à minimiser sous contraintes :
sous ;
- 1
Où : représentant les N données d’apprentissage
et {-1, +1}
La règle de classification se fait selon le signe de + b alors :
Si + b ≥ 0 alors
Si + b 0 alors
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 38
3.7. Comparaison des différentes techniques de scoring.
Technique de
scoring
Avantages Inconvénients Règle de classification
Analyse
discriminante
- Des prédictions explicites.
- Un résultat analytique direct.
- Des calculs très rapides.
- Ne nécessite pas un
échantillon de grande taille
- Tient compte des variables
qualitatives
- Variables explicatives
continues et sans valeurs
manquantes.
- Sensible aux individus hors
norme.
-Absence de tests statistiques
de significativités des
coefficients.
Score d’appartenance à une
classe
Régression
PLS
- Utilisable en présence de
dépendance entre les variables.
- nbre de variables peut être
supérieur au nombre d’obs.
- L'algorithme de la régression
PLS est simple et rapide sans
inversion, ni diagonalisation de
matrices.
- meilleure prédiction
- Efficace sur un grand volume
de données.
-Possibilité de présence de
valeurs manquantes
- nécessité d'adapter au cas
d'une réponse binaire -PLS-
DA ou logistique PLS;
- Calculs supplémentaires
pour obtenir des erreurs
standards sur les coefficients.
Score d’appartenance à une
classe
Régession
logistique
- Variables explicatives
discrètes, qualitatives ou
continues.
- Variables à expliquer ordinale
ou nominale.
- Pas d'hypothèses de
multinormalités, ni
d'homoscédasticités pour les
variables explicatives.
- possibilité de prise en compte
les interactions entre variables.
-Les variables explicatives
doivent être non colinéaires.
- Calcul itératif plus long
qu'une analyse discriminante
de Fisher.
- La précision est moindre que
celle de l'analyse
discriminante.
- La régression logistique ne
converge pas toujours vers une
solution optimale.
Probabilité que
l’évènement se produise
Réseaux de
neurones
- Modéliser des relations non
linéaires entre les données.
- Modéliser des problèmes de
différents types.
- Résiste aux données
défectueuses.
- Les résultats non explicites,
difficile à comprendre
- Le risque de sur-
apprentissage.
- traite un nombre faible de
variables.
- non garantie de la
convergence vers la meilleure
solution globale .
Affecter l'appartenance
des individus aux classes
définies.
Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.
Page 39
Arbres de
décision
- Résultats exprimés sous
forme de condition explicites
sur les variables d'origine.
- Les variables explicatives
peuvent ne pas suivre des lois
probabilistes particulières.
- Les arbres ne sont pas affectés
par les individus hors norme.
- Prise en ciompte les données
manquantes.
- Variables : continues,
discrètes et qualitatives.
- Utilisation simple.
- La détermination des noeuds
du niveau (n+1) dépend
fortement du noeud précédent
(n).
- L'apprentissage d'un arbre de
décision nécessite un nombre
assez grand d'individus.
- Le score d'un individu
dépend de la feuille à laquelle
le conduisent les valeurs de ses
prédicteurs.
Associer une observation
à l'attribut attaché à la
feuille à laquelle il
appartient.
Support Vector
Machine
- Capacités à modéliser les
phénomènes non linéaires.
- Précision de prédictions dans
certains cas.
- Résultats non explicites.
- Difficulté des choix des
paramètres.
- Temps de calcul longs.
- Risque de sur-apprentissage.
- Programmable sur peu de
logiciels.
Estimation d'une
frontière de classification
et l'affectation d'un
individu à une classe se
fait par rapport à sa
position à cette frontière.
Fig.12 : Récapitulatif des avantages et inconvénients des techniques de scoring. [14]
3.8. Conclusion.
Les techniques de scoring donnent le même niveau de risque pour deux individus qui
présentent les mêmes caractéristiques ; leur pondération dans la fonction de score est obtenue
à partir de l’échantillon des données archivées ; ceci exclue l’influence de tout jugement
subjectif.
C’est pourquoi le choix des variables décrivant les caractéristiques des individus est d’une
grande importance ; celles-ci doivent être les plus pertinentes et significatives possible.
Chapitre 4
Construction Du
Modèle de
Scoring
Chapitre 4 : Construction Du Modèle de Scoring.
Page 40
Introduction.
Ce chapitre sera consacré à la construction d’un modèle de scoring ; l’implémentation est
réalisée en utilisant le langage Python.
4.1. Présentation du langage Python.
Python est un langage de programmation très puissant, il est idéal pour l’écriture de scripts et
le développement rapide d’applications dans des domaines très variés.
Développé à l'origine par Guido van Rossum en 1991 (Pays Bas).
Fin 2008 : sorties simultanées de Python 2.6 et de Python 3.
Il est maintenu par une communauté importante de développeurs contribuant à son évolution.
4.1.1. Principales caractéristiques du langage Python
C’est un langage Open Source ; Python est libre et gratuit même pour les usages
commerciaux. De nombreux outils standards sont disponibles.
Python est facile à apprendre et à utiliser. C’est un langage de scripts, il permet également de
créer des applications fonctionnelles rapidement et avec peu d’efforts.
C’est un langage interprété ; de nombreux interpréteurs interactifs sont disponibles.
Il est orienté objet mais la POO n’est pas obligatoire, il dispose d’outils permettant également
la programmation fonctionnelle ou impérative.
C’est un langage très ouvert, il dispose de plusieurs interfaces avec C/C++/FORTRAN.
Python possède une excellente portabilité ; il fonctionne sur tous les principaux systèmes
d’exploitation et plateformes informatiques : sur les différentes variantes d'Unix, sur
MacOS, BeOS, NeXTStep, MS-DOS et les différentes variantes de Windows.
De nombreux modules sont disponibles à partir de bibliothèques et librairies optimisées
écrites en C, C++ ou FORTRAN.
Outre les modules intégrés à la distribution standard de Python, on trouve des bibliothèques
dans tous les domaines : scientifique ; bases de données; tests fonctionnels et contrôle de
qualité ; graphisme 2D et 3D; etc…
4.1.2. Environnement de développement pour Python.
SPYDER ( Scientific PYthon Development EnviRonment) à usage scientifique de
Python, doté de fonctionnalités avancées et intègre de nombreuses
bibliothèques d'usage scientifique : Matplotlib, NumPy, SciPy et IPython. [24]
Chapitre 4 : Construction Du Modèle de Scoring.
Page 41
Fig.13 : la page de l’environnement Spyder pour Python. [24]
JUPITER Notebook : L'interpréteur IPython (versions 0.12 à 3.x) offre la
fonctionnalité notebook qui permet de créer des documents interactifs composés de
code Python. [24]
Fig.14 : la page de l’environnement Jupiter pour Python. [24]
Chapitre 4 : Construction Du Modèle de Scoring.
Page 42
4.1.3. Principaux modules et bibliothèques utilisés dans nos programmes.
Pandas : est une bibliothèque qui permet de manipuler facilement des données à analyser :
manipuler des tableaux de données avec des étiquettes de variables (colonnes) et
d'individus (lignes).
ces tableaux sont appelés Data Frames ; on peut facilement lire et écrire ces data
Frames à partir ou vers un fichier tabulé ou tracer des graphes grâce à matplotlib.
NumPy : Cette bibliothèque permet d’effectuer des calculs numériques avec Python. Elle
introduit une gestion facilitée des tableaux de nombres.
Matplotlib : permet de générer directement des graphiques à partir de Python dans beaucoup
de formats différents. C’est une librairie très puissante, compatible avec beaucoup de
plateformes.
Seaborn : est une bibliothèque qui vient s'ajouter à Matplotlib et lui ajoute de nouvelles
fonctionnalités pour corriger des défauts (dans les versions avant la 2.0 ) de Matplotlib et
permet de :
Générer des graphiques d'une grande qualité esthétique.
Créer facilement des analyses statistiques sophistiquées.
D’interagir avec les Data frames de Panda.
Scipy : est une bibliothèque pour les calculs techniques et scientifiques. Elle regroupe des
modules pour les tâches de science des données et d’ingénierie : l’algèbre, l’interpolation, le
FFT, ou le traitement de signaux et d’images.
Scikit-learn : Scikit-learn est très utile pour les algorithmes de classification, de régression ou
de clustering.
Cette bibliothèque de Machine Learning pour Python se révèle complémentaire pour les
autres bibliothèques telles que NumPy et SciPy.
Keras. C’est la bibliothèque de Deep Learning Python. C’est une API qui permet
d'interagir avec les algorithmes de réseaux de neurones profonds et de machine learning,
Chapitre 4 : Construction Du Modèle de Scoring.
Page 43
notamment Tensorflow et Theano. Elle est conçue comme une séquence ou un graphe de
modules autonomes, complètement configurables et qui peuvent être reliés les uns aux autres
avec le minimum de restrictions possible : les couches de neurones, les fonctions de coût, les
optimiseurs, les fonctions d’activation… sont tous des modules indépendants que l’on peut
combiner pour créer de nouveaux modèles.
4.2. Construction du modèle de scoring.
La construction de notre modèle doit respecter les différentes étapes décrites au chapitre 2 :
4.2.1. Choix et description des données de l’échantillon.
En absence de la disponibilité de données réelles auprès des structures bancaires locales, nous
avons opté pour un jeu de données disponible dans la littérature [23]. Ce jeu de données est
un échantillon de 614 observations se rapportant à l’historique de paiement de crédits
bancaires de particuliers ; chaque individu (client) est décrit à l’aide de 13 caractéristiques
(variables). Ces données sont regroupées dans un fichier CSV ; le tableau ci-dessous montre
les dix premiers éléments de ce fichier.
Fig.15 : Extrait des données de l’échantillon.
Chapitre 4 : Construction Du Modèle de Scoring.
Page 44
La première ligne du fichier des données indique le nom de chacune des variables :
NOM VARIABLE TYPE CODIFICATION
Loan_ID Identification Qualitative Code d’identification
Gender Genre Qualitative Male, Female
Married Marié ou non Qualitative Yes, No
Dependents Enf. à charge Qualitative 0, 1, 2, 3+
Education Formation Qualitative Graduate, Not Graduate
Self_Employed Activité Qualitative Yes, No
ApplicantIncome Revenu Continue Numérique
CoapplicantIncome Revenu Conjoint Continue Client's Husband/wife income
LoanAmount Mt. Du credit Continue Numérique
Loan_Amount_Term Echéance du prêt Continue Numérique
Credit_History Hist. Du credit Continue Numérique
Property_Area Zone d’habitation Qualitative Semi-urban, Urban, Rural
Loan_Status Statut Qualitative Yes, No
Fig.16: Liste des variables
4.2.1.1. Description quantitative des données.
L’état récapitulatif des données est obtenu par :
Chapitre 4 : Construction Du Modèle de Scoring.
Page 45
Ci-dessous ; un état récapitulatif des données manquantes pour chacune des variables.
Données manquantes.
4.2.1.2. Prise en compte des dopnnées manquantes
Pour la prise en compte de ces données manquantes, on procèdera comme suit :
Suppression de la ligne si le montant du prêt est manquant.
Remplacer la donnée manquante pour :
- ‘Genre’ : par celle qui précède.
- ‘Maried’ : par No si ‘CoapplicantIncome’ et ‘ Dependents’ sont égaux à
zero ; sinon par Yes
- ‘dependents’: par 0
- ‘self_employed’: par Yes
- ‘loan_terme’ : par la valeur médiane de la variable ‘loan terms’
- ‘credit history’ : par 0
4.2.1.3. Visualisation des données.
Pour chacune des variables, on visualise à l’aide d’un graphique la répartition des données par
modalité de cette variable. Pour la variable : Loan_Status, on obtient la représentation
suivante :
Chapitre 4 : Construction Du Modèle de Scoring.
Page 46
Fig.17 : Visualisation de la variable ‘Loan_status’
Les coefficients de corrélation de chacune des variables avec la variable à prédire triés par
ordre décroissant sont donnés par :
Chapitre 4 : Construction Du Modèle de Scoring.
Page 47
Fig.18 : Représentation de la matrice des coefficients de corrélation.
4.2.2. Choix des variables explicatives et de la variable à expliquer.
Avant de fixer définitivement le choix de nos variables, un complément de traitement sur les
données de notre échantillon est nécessaire :
Les variables ‘ApplicantIncome’ et ‘CoapplicantIncome’ sont fusionnées en une
seule dans la colonne ‘applicantIncome’.
La variable ‘Self_Employd’ est éliminée car elle présente une corrélation très faible
soit : 0.005955
Chapitre 4 : Construction Du Modèle de Scoring.
Page 48
Une normalisation des données est nécessaire pour obtenir le même ordre de grandeur
pour toutes les variables.
On rééquilibre l’échantillon pour obtenir les mêmes effectifs dans chacune des deux
modalités de la variable cible.
4.2.3. La Méthode utilisée.
Nous avons opté pour l’utilisation de deux méthodes différentes pour la construction
de notre modèle : La régression logistique et les réseaux de neurones. Notre choix est
intuitif dans la mesure où nous avons voulu présenter une méthode aboutissant à une
fonction score (la régression logistique) et une méthode de décision ou de classement
(les réseaux de neurones).
4.2.3.1. La régression logistique.
Pour notre cas, les conditions d’utilisation de la régression logistiques sont réunies,
soit une variable à expliquer binaire et des variables explicatives quelconques : des
variables continues et des variables qualitatives.
Nous devons importer le module : LogisticRegression et les modules accuracy_score,
f1_score, precision_score, recall_score et roc_auc_score qui vont permettre le calcul
des paramètres d’évaluation de la qualité du modèle
Chapitre 4 : Construction Du Modèle de Scoring.
Page 49
l’apprentissage du modèle s’effectue avec les instructions :
Edition des résultats :
On procède à l’édition des paramètres qui vont nous permettre d’apprécier la qualité
du modèle et l’édition des coefficients de la fonction score.
Les coefficients des 9 variables explicatives dans la fonction score.
L’évaluation de la qualité du modèle est effectuée à l’aide de la matrice de confusion
Chapitre 4 : Construction Du Modèle de Scoring.
Page 50
Et de la courbe ROC
4.2.3.2. Les Réseaux de Neurones.
Pour l’exécution du modèle des réseaux de neurones, nous devons importer les modules de
la librairie Kerasqui permet de définir le réseau de neurones
L’apprentissage est réalisé grâce aux instructions :
Chapitre 4 : Construction Du Modèle de Scoring.
Page 51
Les résultats et la qualité du modèle sont obtenus par :
Chapitre 4 : Construction Du Modèle de Scoring.
Page 52
L’instruction [49] nous permet de regrouper les résultats des deux méthodes pour pouvoir
porter un jugement ; on constate que les deux méthodes sont sensiblement identiques.
On constate que l’accuracy et F1 Score pour la régression logistique sont respectivement
égaux à 0.7289 et 0.80 alors que pour les réseaux de neurones sont respectivement égaux à
0.7422 et 0.8284 ; ce qui nous permettra de conclure que la méthode des réseaux de
neurones présente un léger avantage par rapport à la méthode de régression logistique.
4.2.4. Utilisation du modèle.
Les deux modèles construits ont été conservés et seront utilisés et appliqués à de nouveaux
demandeurs de crédits, on a conçu une interface pour l’introduction des caractéristiques du
demandeur et on lance l’exécution des modèle (la régression logistique et les réseaux de
neurones) en cliquant sur la touche CALCULE, la décision sera par le modèle, ensuite elle
est affichée comme indiqué par la figure 20 sous la forme : Bon Payeur ou Mauvais
Payeur.
Chapitre 4 : Construction Du Modèle de Scoring.
Page 53
Fig.19 : Entrée des données pour le modèle
Fig.20 : Visualisation du résultat
Conclusion.
Dans un environnement qui est toujours en évolution ; les banques doivent s’adapter pour
rester compétitives. Elles doivent tout le temps accorder une grande importance à la maîtrise
du risque de non recouvrement.
D’un côté, les banques sont soumises à une règlementation stricte des instances financières et
de l’autre côté, elles agissent dans un environnement concurrentiel ; elles doivent donc tout le
temps évoluer et améliorer leurs techniques de gestion du risque de crédit pour rester
compétitives.
Des modèles automatiques de notation de plus en plus performants sont développés ; ils
permettent aux banques de donner des réponses rapides aux demandes d’octroi de crédits.
Ce mémoire présente un ensemble de méthodes de gestion du risque de crédit au sein des
établissements bancaires ; mais les banques doivent toujours rester attentives pour s’adapter
aux mutations dans le secteur et adopter de nouvelles techniques de gestion qui se
développent et qui leur permettent de rester compétitives et efficaces.
BIBLIOGRAPHIE.
[1] R. Partners, Risque bancaires et contrôle interne :
https://www.abef-dz.org/abef/sites/default/files/3.pdf
[2] Wikimemoire.net/Définition-Risque-Bancaire/2011/05
[3] M.Dubernet, Gestion de crédit –Actif-Passif et Tarification de service Bancaire,
Economica 1997
[4] B. Samir et B. Moussa. Gestion du risque de crédit par la méthode du crédit scoring :Cas
de la BNA de Béjaia, 2013
[5] R. Sublet. La gestion du risque de crédit bancaire sur les portefeuilles professionnels et
particuliers, 2016
[6] A. Riad et B. Boussaad. La réglementation prudentielle et la performance du système
bancaire Algérien, 2013/2014
[7] A.M. Percie Du Sert, ‘Risque et Contrôle de Crédit’ Edition ECONOMICA 1999
[8] M. Dietch et J.Petey, ‘Mesure et Gestion du Risque de Crédit dans les Institutions
Financières’ Revue Banque 2003
[9] A. El Hamma, ‘La Gestion du Risque de Crédit par la Méthode de Scoring : Cas de la
Banque de Rabat-Kenitra’, 2008
[10] B.GHILLOT, La méthode des scores intérêt et limites. Revue banque N°468,1987
[11] Ricco Rakotomalala, Pratique de la Régression Logistique/ Régression Logistique
Binaire et Polytomique,(Version 2.0), 2009
[12] G. Celeux, J.P. Nakache, Analyse Discriminante sur Variables Qualitatives,
Polytechnica, 1994.
[13]Revue d’Economie et de Statistique Appliquée. Numéro 21 Juin 2014
[14] T. George Colince, ‘Evaluation Statistique du Risque de Crédit par la Technique du
Scoring ‘( Afriland Fist Banque), 2006/2007
[15] WWW.Africmemoire.com/Le-Risque-De-Crédit: Identification-Et-Evaluation
[16] http//groupe-sma.fr/SGM/upload/docs/application/pdf2017-07/informations relatives au
pilier – III-de –Bale3-31-12-2016
[17] https://www.Etudier.com/dissertations/la-gestion-du-risque-de -crédit
[18] https://www.recherchecliniquepariscentre.fr/wp-content/uploads/2012/12/Diagnostic-
DIU-2012_elie.pdf
[19] https://www.recherchecliniquepariscentre.fr/wp-content/upload/2012/12
[20] https://lemakistatheux.wordpress.com/category/outils-danalyse-supervisee/la-regression-
logistique/
[21] https://lemakistatheux.wordpress.com/category/outils-danalyse-supervisee/lanalyse-
discriminante-de-fisher/
[22]https://www.gsaf/reseau+de+neurone+et+scoring-présentation+reseau+de+neurone+et
+scoring.
[23] https://www.kaggle.com/sajidvali/loan-prediction
[24] https://enacit1.epfl.ch/introduction-python/outils-python.html