Indice de Concentration

37
INTRODUCTION A L’ECONOMETRIE Amphi 4 Indices d’inégalité et de concentration Denis Fougère et Francis Kramarz 19 septembre 2008 1

description

Indice de concentration cours

Transcript of Indice de Concentration

  • INTRODUCTION A LECONOMETRIEAmphi 4

    Indices dingalitet de concentration

    Denis Fougre et Francis Kramarz

    19 septembre 2008

    1

  • Les indices dingalit ont t introduits pour valuer la plus oumoins grande ingalit des revenus et des salairesLes indices de concentration ont t introduits pour tudier lephnomne de concentration des entreprisesOn les applique aussi lanalyse de la concentration desrevenus

    PLAN1. La courbe de Lorenz2. Les mesures scalaires dingalit3. Les mesures de concentration4. Dsagrgation des indices5. Calcul de la prcision des estimateurs des indices: la

    mthode du bootstrap

    2

  • 1. La courbe de LorenzIntuitivement une distribution de revenus est ingalitaire si unefaible proportion des individus reoit une forte proportion dumontant total des revenus distribusCette ide est la base de la construction de la courbe deLorenzRappel : Max Otto Lorenz (1880 - 1962) tait un conomiste amricain. Il publia en1905 un article dcrivant la courbe dite depuis de Lorenz alors quil prparait sondoctorat lUniversit du Wisconsin. Son doctorat (1906), qui portait sur La thorieconomique des prix de chemin de fer, ne fait aucune rfrence ce qui acertainement t son plus clbre article. Sa vie sest partage entre les publicationset lenseignement. Il a galement t employ par le bureau du recensement destats-Unis, le bureau des chemins de fer amricains, le bureau des statistiquesamricaines et la chambre de commerce amricaine.

    3

  • Supposons que les revenus x1 xn des individus de lapopulation soient tous connusLes k personnes les plus pauvres k 0, . . . ,n reoivent laproportion

    qk x1 xkx1 xndu revenu total (avec la convention qk 0 si k 0Construction de la courbeLa courbe de Lorenz est obtenue en reliant entre eux les pointspk kn ,qk pour k 0, . . . ,n

    Exemple: n 3, x1 1, x2 3, x3 8, x1 x2 x3 12 (voirGraphique 1)

    4

  • Proprits1. La courbe de Lorenz est linaire par morceaux, inscrite dansle carr de ct 1 (car p et q sont des proportions variant entre 0et 1)2. La courbe passe par les points 0,0 et 1,1 correspondantrespectivement k 0 et k n3. Elle est croissante car qk1 qk. Elle lest strictement sil ny apas de revenu nul4. La courbe de Lorenz est convexe car

    qk1 qk xk1x1 xn qk qk1 xk

    x1 xnElle est donc situe sous la premire bissectrice

    5

  • Utilisation de la courbe de Lorenz pour ltude de lingalit1. Egalit parfaite : lorsque les individus touchent tous le mmerevenu x1 xn x, alors

    x1 xk kx, x1 xn nx et pk qk k/n kLa courbe de Lorenz se confond alors avec la premirebissectrice : les p% les plus pauvres reoivent p% du revenutotalLa distribution sera dautant plus galitaire que la courbe estproche de la premire bissectrice (cf. Graphique 2)2. Distribution fortement ingalitaire : Dans lexemple o n 3,x1 5, x2 5, x3 90, lindividu le plus riche, qui reprsente letiers de la population, reoit 90% du revenu total.La courbe de Lorenz est alors proche des cts du carr(cf. Graphique 3)

    6

  • 3.Comparaison de deux rpartitions diffrentes du mme revenu totalRpartition A : x1 10, x2 30, x3 60Rpartition B : x1 5, x2 10, x3 85La courbe de Lorenz associe A est situe au-dessus de celleassocie B (cf. Graphique 4)Les pauvres de A sont moins pauvres que ceux de B et lesriches de A sont moins riches que ceux de BLa rpartition B est plus ingalitaire que la rpartition A lorsquesa courbe de Lorenz est situe au-dessous de celle de AMais en gnral les courbes sintersectent (Cf. Graphique 5)Rpartition A : x1 20, x2 20, x3 60Rpartition B : x1 10, x2 45, x3 45

    7

  • Invariances1. La courbe de Lorenz est invariante par changement dchelle: les distributionsx1 xn et x1 xn 0 ont mme courbe de Lorenz, ellessont pareillement galitaires (ou ingalitaires)

    2. La distribution x1 h xn h h 0 est plus galitaire que ladistribution x1 xnPreuve: vrai si et seulement si

    x1 xk khx1 xn nh

    x1 xkx1 xn k

    khx1 xn nhx1 xk k khxk1 xn n khx1 xk k

    or cette dernire galit est vraie car les revenus sont rangs par ordre croissant:

    khxk1 xn khn kxk1 n khx1 xk

    8

  • Cas dune distribution continueSupposons que le revenu soit une variable alatoire rellepositive continue X de fonction de rpartition F et de densit f

    La proportion dindividus dont le revenu est infrieur x estpx Fx PrX x

    La part du revenu total perue par cette fraction de la populationest:

    qx 0xvfvdv

    0

    vfvdv

    1m 0

    xvfvdv

    o m dsigne le revenu moyen

    9

  • Dfinition: La courbe de Lorenz est en cas la courbe dquation paramtrique

    q Lp 1m 0pF1udu

    Preuve: Si la densit f est strictement positive (cas dune v.a.r. continue), F estinversible, et donc:

    qx 1m 0F1p

    vfvdvEffectuons ensuite le changement de variable u Fv, qui implique v F1uet du fvdv. On obtient alors le rsultat La courbe de Lorenz est croissante et convexe :

    L p 1m F1p 0 et L p 1m 1fF1p 0

    puisque F1 1F F1

    10

  • 2. Les mesures scalaires dingalit2.1. Lindice de GiniCest la mesure dingalit la plus utiliseRappel: Corrado Gini (1884 - 1965) est un scientifique italien qui a t tout la foisstatisticien, dmographe, ethnologue, et sociologue. Partisan du rgime fasciste, ildevint professeur lUniversit de Rome en 1925 et publia Les bases scientifiquesdu fascisme en 1927. Sous le rgime mussolinien, il occupa de nombreux postesofficiels. Il connut une priode de disgrce de 1945 1957, date laquelle il reut laMdaille dOr de lEducation pour lensemble de son uvre et les services rendus lcole Italienne.

    Dfinition: Lindice de Gini est gal deux fois laire compriseentre la courbe de Lorenz et la premire bissectrice. Il est donccompris entre 0 (galit) et 1 (ingalit maximum: un seulindividu peroit le montal total de la richesse)

    11

  • a. Cas o les revenus x1 xn sont parfaitement connusLa surface comprise entre la courbe de Lorenz, laxe desabscisses et les droites dquation p k/n et p k 1/n vaut :

    surface du rectangle

    k 1n kn x1 xkx1 xn

    surface du traingle

    12

    1n xk1x1 xn

    soit encore1

    2n2 x n2x1 2xk xk1

    La surface totale sous la courbe de Lorenz est donc:12

    G2

    12n2 x n

    k0n12x1 2xk xk1

    1 12n x1 2x2 nxn

    n2 x n

    12

  • Do la valeur de lindice de Gini:

    G 1 1n 2n2 x n x1 2x2 nxnExpression quivalente:

    G 1 1n2 x n

    x1 3x2 2n 1xn

    1 1n2 x n

    2n 1x1 2n 3x2 xn soit encore:

    G 1 1n2 x n

    i1n

    j1n

    minxi,xj

    13

  • Comme xi xj 2minxi,xj |xi xj |, lindice de Gini scritgalement sous la forme :

    G 12n2 x n

    i1n

    j1n

    |xi xj |

    Remarque : Cet indice accorde le mme poids aux revenus desplus riches qu ceux des plus pauvres

    b. Cas dune distribution continue

    La surface comprise entre la 1re bissectrice et la courbe deLorenz q Lp est gale :

    0

    1p Lpdp

    14

  • On en dduit la valeur de lindice de Gini :

    G 2 0

    1p Lpdp

    Comme Lp 1m 0pF1udu, on en dduit que :

    G 1 2m 01

    0

    pF1udu dp 1 2m 0

    1 u

    1F1udp du

    1 2m 011 uF1udu 1 2m 0

    1F1udu 2m 0

    1uF1udu

    1 2mm

    0

    vfvdv 2m 0

    1uF1udu en posant u Fv

    soit encore G 1 2m 01uF1udu

    15

  • En faisant le changement de variables v F1u, qui impliqueu Fv et du fvdv, on obtient :

    G 1 2m 0vFvfvdv

    2.2 Autres mesures scalaires dingalita. Coefficient de variationLe coefficient de variation est le rapport de lcart-type de ladistribution sa moyenne:

    CV mLorsque les revenus sont observs dans le cadre dunchantillonnage, il est estim par:

    CV 1x n1

    n 1 i1n xi x n21/2

    16

  • Dans le cas dune distribution continue, cette mesure a pourexpression:

    CV 1m 0v m2fvdv

    1/2

    Cette mesure est compatible avec lordre dduit des courbes deLorenzb. Ecart quadratique des logarithmesIl est dfini par :

    Iq 1n i1n ln xix n2

    lorsque les revenus sont observs

    Iq 0

    ln vm

    2fvdv dans le cas dune distribution continueIl accorde un poids plus important aux bas revenus et estcompatible avec lordre dduit des courbes de Lorenz

    17

  • c. Ecart moyen des logarithmesIl est dfini par :

    Im 1n i1n ln xix n lorsque les revenus sont observsIm

    0

    ln vm fvdv dans le cas dune distribution continue

    Il est compatible avec lordre dduit des courbes de Lorenzd. Intervalle interquartileLintervalle interquartile est dfini par:

    Ii 3 12o 1 : 1er quartile, 2 : mdiane, 3 : 3me quartileCet indice est simple calculer mais il nest pas toujourscompatible avec lordre dduit des courbes de Lorenz

    18

  • 3. Mesures de concentrationCes mesures sont principalement utilises pour fournir desindicateurs de la plus ou moins grande concentration desentreprises dans un secteur dactivitQuelle variable retenir? Nombre de salaris, chiffre daffaire,bnfice, montant des investissements, etc.? Pas de rponsegnrale, tout dpend de langle danalyseDans la suite, nous considrerons la taille de lentreprise(nombre de salaris)Si, dans un secteur dactivit, une faible proportion dentreprisesemploie une proportion leve du nombre total de salarisemploys dans ce secteur, le secteur est concentrDe ce fait, on pourrait utiliser lordre dduit des courbes deLorenz

    19

  • Mais cette faon de faire nest pas totalement adapte lexamen du phnomne de concentrationExemple:- soient deux secteurs dactivit comprenant respectivement 3 et 6 entreprises,toutes de mme taille

    - les deux courbes de Lorenz sont confondues avec la 1re bissectrice- les deux distributions sont quivalentes pour lordre dduit des courbes de Lorenz- pourtant le 1er secteur est plus concentr que le 2nd, puisquil comporte moinsdentreprises

    Deux aspects prendre en compte :- le nombre dentreprises du secteur,- les diffrences de ces entreprises en termes de taille, dechiffre daffaire, etc.

    20

  • Il est souhaitable quune mesure scalaire de concentrationvrifie les proprits suivantes:1. si les populations sont de mme taille n, et si x x1,,xn

    est plus ingalitaire que y y1,,yn, alors Ix Iy2. lorsquon agrge deux entreprises i et j du secteur en une

    seule entreprise de taille xi xj, la concentration augmenteIx1,,xi xj,,xn Ix1,,xi,,xj,,xn

    Consquence: lorsque toutes les entreprises ont mme taille, lemesure doit dcrotre avec laccroissement du nombredentreprises. En effet,

    I

    n fois

    1n ,, 1n In fois

    1n ,, 1n , 0 In1 fois

    1n 1 ,

    1n 1 ,,

    1n 1

    21

  • 3.1 Mesures classiques de concentrationCes mesures sont construites en calculant une moyenne pondre des parts desentreprises du secteur

    Si x1 xn est la distribution des tailles, lindice est dfinipar:

    Ix1,,xn i1n xin x n h xin x no h xin x n est un poids qui est gnralement compris entre 0et 1Cette mesure vrifie la seconde propritIx1,,xi xj,,xn Ix1,,xi,,xj,,xnsi

    xi xjn x n h

    xi xjn x n

    xin x n h

    xin x n

    xjn x n h

    xjn x n

    22

  • Cette condition est satisfaite lorsque h est croissante, puisquence cas:

    y zhy z yhy z zhy z yhy zhz3.2 Lindice de TheilRappel: Henri Theil (1924 - 2000) tait un conomtre hollandais. Diplm delUniversit dAmsterdam, il fut le successeur lUniversit Erasmus (de Rotterdam)de Jan Tinbergen (laurat, avec Ragnar Frisch, du 1er Prix Nobel dconomie,dcern en 1969). Plus tard, il a enseign Chicago et lUniversit de Floride.

    Lindice de Theil est dfini par:Tx1,,xn i1n xin x n ln xin x n

    Cette mesure est compatible avec lordre dduit des courbes deLorenz.

    23

  • Elle accorde une importance plus grande la concentration despetites entreprisesLa seconde proprit est vrifie puisque la fonction hz ln zest strictement croissante3.3 Lindice dHerfindahlIl correspond la fonction hz z, soit:

    Hx1,,xn i1n xin x n2

    Cet indice est minimum dans le cas de lgalit et prend alors lavaleur 1/nLe rapport 1/H peut donc sinterprter comme le nombredentreprises de mme taille conduisant la mmeconcentration que celle de la distribution initiale

    24

  • Lindice est maximum (et vaut alors 1) lorsquil y a ingalittotale:

    xn n x n et xi 0 i nCet indice accorde la mme importance la concentrationparmi les grandes entreprises qu la concentration parmi lespetitesLindice dHerfindahl est utilis par les autorits de concurrencesous deux formes : en valeur absolue et en variation (avant etaprs lopration de concentration envisage)Il est tabli en additionnant le carr des parts de march(gnralement multiplies par 100) de toutes les entreprises dusecteur considr

    25

  • On distingue habituellement trois intervalles de valeurs :- indice infrieur 1000 : secteur peu concentr, prsentant peu de risques

    - indice compris entre 1000 et 2000 : zone intermdiaire, pouvant prsenter desrisques en prsence de certains facteurs

    - indice suprieur 2000 : zone de risques importants

    Aux tats-unis, une transaction qui augmente de plus de 100points lindice dun secteur est soumise aux lois anti-trust.De mme, la Commission europenne sy rfre dans seslignes directrices sur lapprciation des concentrationshorizontalesRfrence: Herfindahl, O. C. (1950): Concentration in the Steel Industry, Ph. D.Thesis, Columbia University

    26

  • 4. Dsagrgation des indices4.1 Courbes de LorenzConsidrons deux sous-populations (sous-chantillons) detailles respectives n1 et n2 caractrises respectivement par lesrevenus x1 xn1 et y1 yn2A ces deux sous-populations, correspondent les courbes deLorenz :

    L1 kn1 x1 xkx1 xn1 pour k 0,,n1

    L2 kn2 y1 yky1 yn2 pour k 0,,n2

    En gnral, la courbe de Lorenz L associe la populationobtenue en agrgeant ces deux sous-populations ne sexprimepas de manire simple en fonction de L1 et L2

    27

  • Cette difficult se retrouve pour la plupart des mesuresscalaires dingalitLa dcomposition est toutefois possible lorsque les deuxdistributions sont disjointes y1 xn1Preuve:

    L kn1 n2 x1 xk

    x1 xn1 y1 yn2 n1 xn1 x n2 y L1

    kn1 si k 0,,n1

    etL kn1 n2

    x1 xn1 y1 ykn1x1 xn1 y1 yn2

    n1 x n2 y L2 k n1n2

    n1 x n2 y si k n1 1,,n1 n2

    28

  • Cette dcomposition peut tre gnralise un nombrequelconque de sous-populations dont les distributions sontdisjointes4.2 Indices de GiniDans le cas des n1 n2 individus, on montre que lindice de Ginia pour expression :

    G i1

    n1 j1

    n1|xi xj |

    i1

    n2 j1

    n2|yi yj | 2

    i1

    n1 j1

    n2|xi yj |

    2n1 n2n1 x n2 y Les indices de Gini associs aux deux sous-populations sont:

    G1 12n12 xi1

    n1 j1

    n1|xi xj | et G2 12n22 y

    i1

    n2 j1

    n2|yi yj |

    29

  • Appelons G12 la quantit:

    G12 12n1n2 x y

    i1

    n1 j1

    n2|xi yj |

    Si les moyennes x et y taient gales, G12 reprsenterait unemesure de lingalit entre les populationsAvec ces notations,

    G n1n1 n2n1 x

    n1 x n2 y G1 n2

    n1 n2n2 y

    n1 x n2 y G2

    n1n2 x yn1 n2n1 x n2 y G12

    30

  • 4.3 Indice de TheilLindice de Theil pour la population totale a pour expression :

    T i1

    n1 xin1 x n2 y ln

    xin1 x n2 y j1

    n2 yjn1 x n2 y ln

    yjn1 x n2 y

    i1

    n1 xin1 x n2 y ln

    xin1 x

    n1 xn1 x n2 y ln

    n1 xn1 x n2 y

    j1

    n2 yjn1 x n2 y ln

    yjn2 y

    n2 yn1 x n2 y ln

    n2 yn1 x n2 y

    Les indices de Theil pour chacune des sous-populations sont:

    T1 i1

    n1 xin1 x ln

    xin1 x et T2 j1

    n2 yjn2 y ln

    yjn2 y

    31

  • Appelons T12 la quantit:

    T12 n1 xn1 x n2 y lnn1 x

    n1 x n2 y n2 y

    n1 x n2 y lnn2 y

    n1 x n2 yT12 est la mesure de la concentration entre les deuxsous-populations affectes dune taille gale la somme destailles des entreprises les composant

    Finalement on obtient:

    T n1 xn1 x n2 y T1 n2 y

    n1 x n2 y T1 T12

    concentration totale moyenne des concentrations intra concentration inter

    32

  • 4.4 Indice dHerfindahlLindice de Herfindahl pour la population totale est donn par :

    H i1

    n1 xin1 x n2 y

    2

    j1

    n2 yjn1 x n2 y

    2

    n1 xn1 x n2 y2H1 n2 yn1 x n2 y

    2H2

    Lindice pour la population totale est donc obtenu commecombinaison linaire des indices H1 et H2 de chacune des deuxsous-populations, les poids tant gaux aux carrs de chacunedes sous-populations dans la population tout entire

    33

  • 5. Calcul de la prcision statistique desindicesLes indices sont des fonctions compliques (non linaires) des observations, de leursmoments empiriques (moyenne, cart-type, etc.) et/ou des fractiles (mdiane, etc.) deleur distribution

    Difficile de produire une thorie asymptotique pour lesestimateurs de ces indicesRecours la technique du bootstrapOrigine du mot : le bootstrapping fait rfrence aux Aventures du Baron deMnchhausen, lequel est cens stre sorti dun marcage o il tait embourb en setirant par les bottes et en se propulsant ainsi dans les airs. Les bootstraps sont lesanneaux cousus sur le rebord des bottes et dans lesquels on passe les doigts pourles chausser

    34

  • Principe du bootstrapLe bootstrap permet destimer certaines fonctions dune variablealatoire X de loi de probabilit inconnue PX, ainsi quunemesure de la prcision cette estimation, et ce partir dununique chantillon X1,,XnLa variable alatoire X peut tre continue ou discrteLe bootstrap a deux caractristiques essentielles :1) il est non-paramtrique (on ny fait aucune hypothseparamtrique sur la distribution sous-jacente)2) il peut tre utilis en lieu et place dune mthodeparamtrique lorsque celle-ci conduit des calculs inextricables

    35

  • La mise en uvre du bootstrap repose sur :1) La slection dune statistique approprie ZX1,,Xn sur lchantillon. Parexemple, si on veut estimer la mdiane dune distribution, la mdiane de lchantillonsera la statistique retenue. Cette statistique peut galement tre un indice dingalitou de concentration.

    2) La notion dchantillon bootstrap. Dans lchantillon initial X1,,Xn,onprocde n tirages avec remise de faon constituer un nouvel chantillonX1,,Xn dans lequel chaque observation initiale figure au plus n fois. On rpteun grand nombre de fois cette opration de faon disposer dun ensemble de Lchantillons bootstrap X1l ,,Xnl l1,,LLe bootstrap procde alors de la faon suivante :1) Un grand nombre dchantillons bootstrap sont crs

    2) La statistique ZX1,,Xn est calcule pour chacun des chantillons bootstrap

    36

  • La fonction de distribution empirique de ces nouvellesestimations est une approximation de la distribution de lastatistique ZX1,,XnEn particulier:1) La moyenne empirique des L valeurs de Z ainsi produites est lestimationbootstrap de la grandeur tudie

    2) Lcart-type empirique de ces L valeurs de Z est une mesure de lincertitudepesant sur cette estimation

    3) Lintervalle 95% de lestimateur bootstrap est obtenu en retenant les quantiles0.025 et 0.975 de la distribution empirique des ZCombien dchantillons bootstrap?En pratique, L 200 pour la moyenne et lcart-type, L 500 pour lintervalle deconfiance

    37