Scoring sur données d’entreprises

download Scoring sur données d’entreprises

of 19

Transcript of Scoring sur données d’entreprises

Scoring sur donnes dentreprises : instrument de diagnostic individuel et outil danalyse de portefeuille dune clientleMireille Bardos Ancien chef de service de lObservatoire des entreprises de la Banque de France [email protected] Mots clefs : prvision du risque de crdit, analyse discriminante, prcision de la probabilit de dfaillance, classes de risque, slection de variables, choix de modle Introduction La plupart des tudes statistiques sur le risque de crdit et lanalyse discriminante se concentrent sur les techniques de construction dun score. Or la ralisation dun outil efficace de dtection du risque doit relier cette construction lutilisation future de cet instrument et les proprits quil doit en consquence ncessairement satisfaire. Les utilisateurs dun scoring sur donnes dentreprises seront des dcideurs, pour la plupart experts en analyse financire, ou responsables du risque de crdit dans les banques, ou superviseurs bancaires. Le prsent article sefforce de relier construction et utilisation en mettant en exergue les proprits requises pour les utilisateurs et les implications techniques quelles entranent. Il en rsultera une rflexion sur la slection des donnes, sur le choix du modle, sur lestimation de la probabilit de dfaut. Ds lors lutilisation de loutil sera approfondie sous deux aspects : le diagnostic individuel de lentreprise et lanalyse du risque dune population dentreprises emprunteuses. Enfin le score comme indicateur probabilis du risque de crdit joue un rle important dans les recherches en conomie. Beaucoup des problmes abords ici se rencontrent sur dautres champs dapplication de lanalyse discriminante. Toutefois il convient de sadapter dans chaque cas aux spcificits de lutilisation.

1. Les enjeux de la prvision du risque de dfaut de paiementLa ncessit de mieux contrler le risque de crdit dans les banques a conduit lintensification des travaux de credit scoring. Plusieurs types de techniques permettent la dtection prcoce des dfauts paiement des entreprises. Elles relvent de lanalyse discriminante. Un des objectifs majeurs pour les banques est destimer lesprance de la perte globale attendue, Expected Loss, et la perte inattendue grce un quantile extrme, Unexpected Loss, sur une population dentreprises, par exemple la clientle dune banque. Pour cela il est ncessaire de disposer au niveau de chaque entreprise dune probabilit de dfaut un horizon donn (ou plusieurs). On peut alors dterminer des classes de risque homogne. Dun tel objectif dcoulent plusieurs questions sur les proprits du score mis disposition : - prcision de lestimation des probabilits et homognit des classes de risque - stabilit temporelle des classes de risque et de leurs proprits

Revue MODULAD, 2008

- 159 -

Numro 38

-

dpendance la conjoncture de la mesure du risque stabilit des matrices de transitions corrlation des risques

La matrise de ces questions oblige se pencher sur le processus de construction du score et dexaminer les stades sensibles de ce processus. La pratique de la construction et de lutilisation conduit une deuxime srie de questions : - type de variables - longueur historique des fichiers de construction - processus de slection des variables - choix de la technique danalyse discriminante - horizon de la prvision - stabilit des entreprises dans les classes de risque - frquence de rvision de loutil - articulation entre conjoncture, prvision et rvision Ces questions constituent un enjeu important. De plus en plus tudies elles se rvlent interdpendantes. Les phases successives de la construction dun score ont une influence sur la robustesse et lefficacit de loutil obtenu. Diverses utilisations dun tel outil seront envisages. Les exemples prsents sont ceux des scores de la Banque de France.

2. Construction dun outil de dtection prcoce2.1 Les donnesLa dfinition de lvnement dtecter constitue une premire difficult : procdure judiciaire ou dfaut de paiement ? quelle gravit du dfaut de paiement ? Le choix est souvent guid par la disponibilit de linformation. Un banquier connatra les dfauts de paiement et sera mme de qualifier leur gravit ; une institution publique est souvent mieux renseigne sur louverture des procdures judiciaires. Ensuite se pose la question de la corrlation entre ces vnements pour une mme entreprise. La population dentreprises cibles. La qualit du travail statistique requiert: la reprsentativit des chantillons et leur redressement ventuel. Une relative homognit de la population est galement ncessaire, pour que la variabilit lie aux difficults des entreprises ne soit pas masque par dautres types de variabilit comme les diffrences structurelles des bilans entre grands secteurs. Dans ce dernier cas la construction dun score par grand secteur est la solution. Au statisticien de dcider quel niveau de nomenclature dactivit sectoriel il doit travailler. Lhorizon de la prvision est fix par les besoins du dcideur, mais conditionn par la fracheur des donnes, limpact de la conjoncture et la prvisibilit du phnomne tudi (ici la dfaillance). Lorganisation des fichiers de donnes rsultera dun compromis. Le schma 1 dcrit la faon dont les chantillons ont t organiss dans les tudes de la Banque de France. Huit annes dobservations des comptes dentreprises permettent de couvrir un cycle conomique. Pour les entreprises dfaillantes, la base de donnes est constitue des bilans des trois annes prcdant la dfaillance. D indique le moment o celleci intervient. Chaque rectangle reprsente les donnes bilancielles dun exercice comptable. Les tudes statistiques sur la prvision de la dfaillance sur donnes comptables ont rvl Revue MODULAD, 2008 - 160 Numro 38

que ds trois ans avant la dfaillance des signes avant-coureurs sont visibles dans beaucoup dentreprises et ceux-ci saccentuent lapproche de lvnement. La prsence des bilans dune entreprise dans les bases de donnes bancaires peut prsenter une certaine discontinuit, en particulier chez les firmes en difficults. Pour ne pas se priver dun maximum dobservations les chantillons dtude sont non constants. De tels fichiers correspondent dailleurs la ralit de lutilisation future du scoring. Schma 1ORGANISATION DES FICHIERS 1995 1996 1997 1998 D D D K=1 K=2 K=3 D D D Entreprises dfaillantes 1999 2000 2001 2002 2003

K=4

Entreprises non dfaillantes

Lgende:

K = 1: entreprises dfaillantes observes 1 an avant la dfaillance K = 2: entreprises dfaillantes observes 2 ans avant la dfaillance K = 3: entreprises dfaillantes observes 3 ans avant la dfaillance K = 4: entreprises non dfaillantes jusqu la date de constitution des fichiers (t 2004)

Schma 2Discrimination linaire Slection des variables une une Discrimination non linaire

fD

dsigne la courbe de densit des entreprises dfaillantes.

fN

dsigne la courbe de densit des entreprises non dfaillantes

Le choix des variables explicatives va galement tre conditionn par la disponibilit et la fiabilit. Les variables qualitatives sont particulirement fragiles et souvent mieux adaptes lexpertise. Parmi les variables quantitatives, le suivi du compte bancaire est probablement trs rvlateur court terme, mais, nest pas toujours disponible ou sil est disponible il ncessite une exploitation difficile et complexe afin daboutir des indicateurs synthtiques quil faudra correctement coder. Les ratios conomiques et financiers construits sur les variables comptables sont largement disponibles et relativement homognes grce lexistence dun plan comptable. Ils reposent sur une thorie sous-jacente: lanalyse financire. La signification conomique des Revue MODULAD, 2008 - 161 Numro 38

ratios et leur fiabilit statistique doivent faire lobjet dune rflexion attentive. Elles conditionnent la qualit du rsultat (Cf. Bardos (2001) chapitre 5 sur la prparation des donnes et la slection des variables) Leur prparation est dlicate et longue. Sont examins les valeurs aberrantes, extrmes, ou encore insolites qui peuvent ncessiter une imputation de valeur, leur loi de probabilit, leur pouvoir discriminant, les corrlations, la linarit ou non vis--vis du problme trait. Cette dernire caractristique ne peut tre connue que grce lexamen des distributions des ratios (Cf. schma 2). Elle impose la cohrence entre les variables slectionnes et le choix de la technique du modle (linaire ou non). La prsence des bilans pouvant tre irrgulire, les taux de variation ne peuvent tre calculs pour toutes les entreprises. Si lon souhaite que le champ dapplication du score soit le plus large possible, les variables explicatives ne devront porter que sur une seule anne. Les taux de variation sont dailleurs statistiquement trs fragiles et peu discriminants : telle variable de trs faible niveau initial chez une entreprise donne, y restera faible mme si elle double en montant. Ainsi on rencontrera des cas dentreprises qui pour un mme taux de variation se trouveront en situation de fait trs diffrente, lune fort montant initial et lautre trs faible montant initial. Le taux de variation dans ce cas les traitera sur un pied dgalit et brouillera lanalyse statistique, mme sil y a dans le score dautres indicateurs qui les dpartagent mieux. Une fois les bons ratios reprs le pouvoir discriminant est contrl par des tests sur les quantiles (Cf. Vessereau (1987) and M.G. Kendall, A. Stuart (1961)). Un test nonparamtrique efficace repose sur le calcul dintervalle de confiance sur les quantiles comme suit.Tableau 1 : Intervalles de confiance des quartiles au niveau 95% pour le ratio dlai fournisseursDlai fournisseurs Entreprises non dfaillantes Entreprises dfaillantes 3 ans avant 2 ans avant 1 an avant 408 391 177 79,4 [73.1 ; 86.4] 84,3 [74.5 ; 87.1] 84,7 [713 ; 90.7] 109,4 [103.8 ; 117.2] 109,4 [103.8 ; 117.2] 106,9 [101 ; 112.4] 142,1 [137.5 ; 149.0] 145,5 [137.5 ; 149.0] 137,8 [129.3 ; 153.0] Nombre d entreprises 11 011 1er quartile 73,0 [71.9 ; 74.1] mdiane 102,4 [101.3 ; 103.3] 3me quartile 132,2 [130.9 ; 133.2]

Source : Banque de France

Si la variable alatoire X a une distribution non paramtrique, la probabilit que le p th quantile X p soit compris entre les observations de rang r et s, x (r ) et x (s ) , est calcule grce une loi Beta complte:

P ( x ( r ) < X p < x ( s ) ) = I p ( r , n r + 1) I p ( s, n s + 1)

1 u 1 v 1 o 0