Doc Stat Probabilite

301
République Tunisienne Présidence du Gouvernement Ecole Nationale d’Administration 24, Avenue du Dr Calmette Mutuelle-ville 1082 Tunis Tél. (+216) 848 300 Fax (+216) 794 188 www.ena.nat.tn STATISTIQUE ET CALCUL DE PROBABILITE (COURS) Par Hassen MZALI Professeur en méthodes quantitatives Septembre 2013 1

Transcript of Doc Stat Probabilite

Doc Stat Probabilite 2015 04 09 22 13 11 786

Rpublique Tunisienne Prsidence du Gouvernement Ecole Nationale dAdministration 24, Avenue du Dr Calmette Mutuelle-ville 1082 Tunis Tl. (+216) 848 300 Fax (+216) 794 188 www.ena.nat.tn STATISTIQUE ET CALCUL DE PROBABILITE (COURS) Par Hassen MZALI Professeur en mthodes quantitatives Septembre 2013 1 Introduction

Gnralits Les statistiques Le mot statistiques , au pluriel, dsigne lensemble des donnes chiffres qui regroupent toutes les observations faites sur des faits relatifs un mme phnomne qui concerne un groupe dindividus ou dobjets. Ces donnes sont essentiellement tires des recensements de la population, des dclarations du registre dtat civil ou denqutes appropries et sont groupes sous forme de tableaux, de graphiques et dindicateurs statistiques. On trouve des statistiques qui concernent la dmographie, lemploi, la sant, lindustrie, les transports, le commerce intrieur, le commerce extrieur, les indices de prix, la finance ..etc. La statistique Le mot statistique , au singulier, dsigne la discipline scientifique constitue par lensemble des procds, des techniques ou des mthodes danalyse visant, dune part, fournir, au moyen dun nombre limit de caractristiques, une Description simple et la plus complte possible dune population envisage sous langle dun caractre donn. Dautre part, la statistique permet dinterprter les caractristiques ainsi dtermines afin de tirer des conclusions concernant la population tudie et de prendre des dcisions. La statistique, en tant que mthode danalyse des donnes quantitatives et qualitatives , comporte deux niveaux : La statistique descriptive, qui consiste en la collecte et la prsentation de donnes, ainsi que leur premire analyse. Le but est de reprsenter dune manire comprhensible et utilisable linformation fournie par les donnes. La statistique infrentielle ou statistique mathmatique , qui cherche trouver les caractristiques de la population mre partir des observations faites sur un chantillon. Elle prend la suite de la statistique descriptive et fait appel au calcul des probabilits. Une opration statistique se droule en gnral en 4 tapes : 1. La collecte des donnes. Cette tape peut se raliser de deux manires : par recensement, auquel cas linformation porte sur la totalit des individus qui forment la population en question. (exemple : le recensement de la population et de lhabitat effectu par lInstitut National de la Statistique, une fois tous les dix ans). par sondage, auquel cas on se limite une partie de la population quon appelle chantillon. Un chantillon est un sous ensemble de la population totale. Il doit tre reprsentatif, cest--dire doit tre choisi de telle sorte quil ait la mme structure et les mmes proprits fondamentales de lensemble dont il est issu (population mre). 2 2. La reprsentation et lorganisation statistique des donnes. Cette tape peut se raliser, soit laide par de graphiques soit laide dindicateurs statistiques. 3. La modlisation. On distingue deux types de modles : les modles explicatifs et les modles prvisionnels 4. Linterprtation des rsultats. Concepts statistiques de base Population statistique : Cest lensemble de rfrence, cest--dire lensemble des units observes, qui constitue lobjet de ltude de la statistique que lon cherche connatre. (La population des tudiants de luniversit de Tunis, la population des salaris dune entreprise industrielle). Une population ne signifie pas exclusivement un ensemble de personnes physiques, mais peut concerner des personnes morales ou des objets (entreprises, exploitations agricoles, universits, ampoules, voitures). Une population doit tre bien dfinie. Sa dfinition est importante car elle conditionne lhomognit des units observes et aussi la fiabilit des rsultats. Individu Un individu ou unit statistique est tout lment de la population ou de lchantillon. La totalit des individus correspond la population. Caractre et modalit Pour chaque individu extrait dune population ou dun chantillon, on relve la valeur dune ou plusieurs de ses caractristiques. Le caractre ou variable statistique est un aspect particulier de lindividu que lon dsire tudier. On distingue deux types de caractres : caractre qualitatif et caractre quantitatif. Caractre qualitatif ou variable qualitative Un caractre est dit qualitatif lorsquil est li une observation qui nest pas mesurable. (Exemple : lors de ltude de la population estudiantine on peut sintresser quelques unes de ses caractristique telles que : La section du baccalaurat ; Le milieu de rsidence (urbain, rural) ; Le sexe (masculin, fminin) ; La rgion de rsidence (nord, centre, sud) ; Ltat matrimonial (mari, veuf, divorc, clibataire). Les modalits dun caractre sont simplement les diffrentes rubriques dune nomenclature dfinie a priori et associes un caractre qualitatif. Une modalit est donc une des rponses possibles un caractre. Par exemple le caractre milieu de rsidence comporte deux modalits : milieu rural et milieu urbain. Ces modalits doivent former 3 une partition, cest dire doivent tre exhaustives et disjointes : pour chaque individu on doit pouvoir lui associer une modalit et une seule. La Nomenclature dsigne lensemble des modalits dun caractre prcdes dun numro. Prsentation du tableau statistique associ un caractre qualitatif Modalits (numrotes) Effectifs Frquences M i ni f i M 1 (1) n1 f 1 M 2 (2) n2 f 2 . . . . . M r ( r) nr fr Ensemble N 1 Leffectif total N est le nombre total dindividus observs r N n n n n 1 2 r i i1 Leffectif ni dune modalit, appel aussi frquence absolue, est le nombre de fois o la modalit numro i a t observe. La frquence relative fi dune modalit est le rapport de leffectif ni leffectif total N n n f i i i r N ni i1 r f 1 i i1 Remarque : les frquences relatives peuvent tre exprimes en pourcentage. Lorsque les modalits ne permettent pas lexhaustivit, cest dire lorsquil y a des individus quon ne peut classer dans le tableau, on peut rajouter une modalit, en bas du tableau, quon appelle autres ou non rponses Caractre quantitatif ou variable quantitative Lorsque les observations relatives un caractre sont mesurables, le caractre est dit quantitatif (taille, ge, poids, moyenne du baccalaurat, superficie du logement,....). A chaque modalit correspond 4 un nombre diffrent. Exemple : lors de ltude de la population estudiantine, on peut sintresser quelques-unes de ses caractristique telles que : Le nombre denfants par mnage, Le nombre dannes dtudes. nombre de voitures par mnage,) Lge, le poids, la taille, Le revenu des parents, la facture de llectricit et du gaz, les dpenses en loyer, ) On distingue deux types de caractres quantitatifs : Les caractres quantitatifs discrets, auxquels cas, les valeurs possibles de la variable sont des nombres isols (en gnral des nombres entiers comme par exemple le nombre denfants dun mnage, le nombre de voyages effectus ltranger Les caractres quantitatifs continus, auxquels cas, les valeurs possibles de la variable sont a priori en nombre infini dans un intervalle de valeurs (comme par exemple la taille, lge, moyenne du baccalaurat .) Remarque : certains caractres discrets sont de prfrence traits en tant que caractres continus. Exemple : le nombre douvriers dans chaque entreprise, nombre de places de cinmas associes chaque salle, .. ) Prsentation du tableau statistique associ un caractre quantitatif discret Valeur observes Effectifs Frquences Frquences cumules x i ni f i F i x 1 n1 f 1 F 1=0 x 2 n2 f 2 F 2= f 1 . . . F 3= f 1+ f 2 . . . . . . . x p np fp Fp Ensemble N 1 Frquences cumules croissantes Fi: le cumul des frquences associes aux valeurs du caractre infrieures strictement la valeur xi i 1 F i f pour i , 3 , 2 ... p . et F 0 j 1 j 1 5 Prsentation du tableau statistique associ un caractre quantitatif continu Classes Centres Effectifs Frquences Frquence cumule numrote [ b b [ c n f i i i F i i 1 i [ b b [ c n f F 0 1 1 1 1 1= f 1 [ b b [ c n f F 1 2 2 2 2 2= f 1+ f 2 [ b b [ . . . F 2 3 3= f 1+ f 2+ f 3 . . . . . . . . . [ b b [ c n f F p 1 p p p p p Ensemble N 1 Remarque : Par convention, les classes sont fermes gauche et ouvertes droite. Une classe est dite borne si : b , b i1 i b b le centre dune classe borne est : i 1 i c , c x i i i 2 lamplitude dune classe borne est : a b b i i i 1 6 Loprateur somme Loprateur (lettre grecque sigma majuscule) permet dcrire de manire compacte la somme dune variable indice entre deux bornes. 5 On peut par exemple crire : x x x x x x 1 2 3 4 5 i i 1 n Dune manire gnrale : x x x x 1 2 n i i1 Cette formule se lit de bas en haut : somme de i gal 1 i gal n de x indice i Remarque : On peut tablir les rsultats suivants : i n i n i n 1) x y ( x y ) i i i i i 1 i 1 i 1 i n 2) a na i1 i n i n 3) ( x a) x na i i i1 i1 i n i n 4) ax a x i i i1 i1 i n i n i n 5) x y x y i i i i i1 i1 i1 i n x i n x i 6) i i 1 i n i y 1 i yi i1 2 i n i n 7) 2 x x i i i1 i1 i n i n i n i n 8) ( x y 2 ) x 2 y 2 2 x y i i i i i i i1 i1 i1 i1 n j m j m i n i n j m j m i n 9) x y x y x y y x i j i j i j j i i1 j1 j1 i1 i1 j1 j1 i1 7 Chapitre 1 : Sries statistiques un seul caractre CHAPITRE I : SERIES STATISTIQUES A UN SEUL CARACTERE 9 I. SERIE STATISTIQUE SIMPLE 9 I.A. Variable discrte 9 I.B. Variable continue 9 II. PRINCIPALES REPRESENTATIONS GRAPHIQUES 9 II.A. Cas dune variable qualitative 9 II.B. Cas dune variable quantitative 11 II.B.1. Srie statistique discrte 11 II.B.2. Srie statistique continue 12 II.B.2.a Principe de construction de lhistogramme 13 II.B.2.b Polygone des frquences 14 II.B.3. Frquences cumuls croissantes, fonction de rpartition et diagrammes cumulatif 14 II.B.3.a Cas dune variable statistique discrte 15 II.B.3.b Cas dune variable statistique continue 17 8 Chapitre I : Sries Statistiques un seul caractre Srie statistique simple Variable discrte On appelle srie statistique dune variable discrte tout ensemble de couples( x , n ) , 1 ou encore ( x , f ) , 1 , o les x i i i ,....p i i i ,....p i dsignent les valeurs possibles prises par la variable et les ni les effectifs correspondants. Variable continue On appelle srie statistique dune variable continue tout ensemble de couples( b [ , b [ , n ) , 1 ou encore ( b [ , b [, f ) , 1 . i i 1 i i ,....p i i 1 i i ,....p Principales reprsentations graphiques Les tableaux statistiques donnent un premier rsum statistique des rsultats dune enqute. Cependant, dans le cas o la variable prsente plusieurs modalits ou dans le cas ou nous avons comparer deux ou plusieurs distributions, il est prfrable de reprsenter les rsultats laide de graphiques. Cas dune variable qualitative Il y a plusieurs manires de reprsenter graphiquement une variable qualitative. Le choix du type de la reprsentation graphique dpend des diffrentes modalits du caractre. On distingue essentiellement le diagramme circulaire, appel aussi diagramme secteurs et le diagramme en tuyaux dorgues, appel aussi diagramme bandes ou encore diagramme en barres. Exemple : Daprs une enqute mene lEole Suprieure de Commerce de Tunis, la rpartition de 50 tudiants selon la section du baccalaurat est reporte dans le tableau suivant : 9 Section du baccalaurat Effectifs Frquences Angles M i ni f i i Economie et gestion 25 0,5 180 Mathmatiques 15 0,3 108 Sciences exp. et autres 10 0,2 72 Ensemble 50 1 360 Le principe de la reprsentation du diagramme secteurs est le suivant : effectif total reprsent par un disque, modalit reprsente par un secteur circulaire dont la surface est proportionnelle la frquence, angle de chaque secteur est gale : 360 f i i Mathmatiques 30% Economie et gestion 50% Sciences exp. et autres 20% Le principe de la reprsentation du diagramme bandes ou en tuyaux dorgues est le suivant : Association chacune des modalits Mi du caractre, qui sont places sur un axe horizontal, une bande verticale ayant une hauteur proportionnelle la frquence fi (ou leffectif ni. ). Les bases des bandes doivent tre gales et quidistantes. fi f 1 f 3 f i M 1 Mi M 3 10 Concernant lexemple de la distribution de la population active agricole en Tunisie, la reprsentation par un diagramme en tuyaux dorgue est la suivante : fi 0,50 0,30 0,20 0 Eco. et gestion Maths Sc. Exp. et autres Cas dune variable quantitative Srie statistique discrte La reprsentation utilise sappelle diagramme en bton. Il sagit de la figure obtenu sur un repre cartsien en associant chaque point de coordonns ( xi, 0) un segment vertical dont la longueur est proportionnelle la frquence fi (ou leffectif ni). fi ou ( ni) f 1 f 4 f i f 2 0 x 1 x 2 x i x 4 Valeurs x i 11 Uniforme Symtrique Asymtrique Lintrt de cette reprsentation est double. Dune part, elle permet de donner une ide gnrale sur la forme de la distribution. Dautre part, elle permet de reprer les valeurs aberrantes. Exemple : La distribution du mme chantillon dtudiants selon le nombre de personnes par mnage est rsume dans le tableau suivant : Valeurs Effectifs Frquences Frquences cumules x i ni f i F i 1 20 0,40 0 2 15 0,30 0,40 3 10 0,20 0,70 4 5 0,10 0,90 Total 50 1,00 ni 20 15 10 5 0 1 2 3 4 Diagramme en btons des effectifs Srie statistique continue Graphiquement, on reprsente une srie statistique continue par un histogramme. Il sagit dune figure obtenue sur un repre cartsien en reprsentant pour chaque classe [ b b [ un rectangle de surface S i 1 i i proportionnelle leffectif ni ou la frquence fi. Les rectangles de lhistogrammes sont contigus. 12 Principe de construction de lhistogramme n S base hauteur a h n a * do, h i * a d a * i i i i i a i i Le a* est appele amplitude de rfrence. Elle est choisie arbitrairement de manire faciliter la reprsentation graphique (valeurs sur laxe des ordonnes). La hauteur hi est dans ce cas appele effectif corrig quon note par c n . i n La densit d i i dune classe est : d . Il sagit du nombre dindividus i ai par unit damplitude. Remarque : on peut utiliser les frquences corriges la place des effectifs corrigs. Dans le cas de classes damplitudes gales, il nest pas ncessaire de calculer les frquences corriges ou les effectifs corrigs. On peut utiliser directement les effectifs ou les frquences comme hauteurs des rectangles. En revanche, dans le cas de classes damplitudes ingales, les hauteurs des rectangles doivent tre proportionnelles la densit, afin davoir une surface proportionnelle leffectif. c c n o u f i i h S i i bi bi+1 Classes Exemple : La rpartition de 100 individus par classes dges est donne par le tableau suivant : Classes Effectif Amplitudes Densit Effectifs Frquences Frquences dges s corrigs a corriges i di f i n c i n c i f i [5 , 10[ 11 5 2,2 22 0,11 0,22 [10 , 15[ 10 5 2 20 0,10 0,20 [15 , 20[ 15 5 3 30 0,15 0,30 [20 , 30[ 20 10 2 20 0,20 0,20 [30 , 40[ 18 10 1,8 18 0,18 0,18 13 [40 , 60[ 16 20 0,8 8 0,16 0,8 Effectif corrigs 30 22 20 18 8 5 0 2,5 5 10 15 20 30 40 60 80 90 Classes dges [60 , 80[ 10 20 0,5 5 0,10 0,5 Total 100 1 Remarque : Dans certains cas, la borne infrieure de la premire classe et la borne suprieure de la dernire classe ne sont pas donnes. Par convention, on retient comme amplitude de la premire classe celle de la deuxime classe et comme amplitude de la dernire classe celle de lavant dernire classe. Polygone des frquences Il sagit dune ligne brise reliant les milieux des sommets des rectangles de lhistogramme. La fermeture se fait par deux points sur laxe des abscisses situs respectivement un demi-intervalle de la borne infrieure de la premire classe et de la borne suprieure de la dernire classe. Dans notre exemple, le polygone des effectifs est prsent par la ligne en pointille gras. Frquences cumuls croissantes, fonction de rpartition et diagrammes 14 cumulatif On appelle fonction de rpartition dune variable statistique quantitative toute application dfinie par : F : 0 , 1 x F ( x ) prop ( X x ) i i i F ( xi) est gale la proportion des individus ayant une valeur du caractre strictement infrieur xi. Cas dune variable statistique discrte On donne, dans le tableau suivant, la distribution du mme chantillon dtudiants selon le nombre de personnes par mnage. Frquence Effectifs Frquences x cumule i n i f i F i 20 0,40 0 1 15 0,30 0,40 2 10 0,20 0,70 3 5 0,10 0,90 4 50 1,00 Ensemble F ) 1 ( prop( x ) 1 0 F ) 5 , 1 ( prop( x ) 5 , 1 prop( x ) 1 , 0 40 F ( ) 2 prop( x ) 2 prop( x ) 1 , 0 40 F ( ) 5 , 2 prop( x ) 5 , 2 prop( x ) 1 prop( x ) 2 7 , 0 0 F ) 3 ( prop( x ) 3 prop( x ) 1 prop( x 2) , 0 70 F ( ) 4 prop( x ) 4 prop( x ) 1 prop( x 2) prop( x ) 3 9 , 0 0 Ainsi, la formulation de la fonction de rpartition de cette distribution statistique est : 0 s i x 1 , 0 4 0 s i 1 x 2 F , 0 7 0 s i 2 x 3 9 , 0 0 s i 3 x 4 1 s i x 4 15 La reprsentation graphique de la fonction de rpartition, appele Fi 100% 0,90 0,70 0,40 0 1 2 3 4 xi diagramme cumulatif ou diagramme intgral, est : Ce diagramme permet de visualiser lvolution des frquences cumules lies aux valeurs de la variable. Le caractre tant discret, la courbe des frquences cumules croissante est la reprsentation graphique dune fonction en escalier. Dune manire gnrale, La fonction de rpartition est constante par intervalle. Sa formulation est la suivante : 0 x x 1 f x x x 1 1 2 f f x x x 1 2 2 3 F : f f ....... f x x x 1 2 1 - p p1 p 1 x xp La reprsentation graphique de la fonction de rpartition, appele diagramme intgral, est : Fi 100% Fp- 1 F2 F1 0 X 1 X 2 X p-1 X p valeurs xi 16 Lintrt de la reprsentation graphique est quelle permet de retrouver pour toute valeur de xi donne, la proportion des individus ayant une valeur de la variable strictement infrieure xi. Cas dune variable statistique continue Classes Effectifs Effectifs cumuls Frquences Frquences cumules dges croissants relatives n croissantes F i i n fi i F( b ) i [5 , 10[ 11 11 0,11 0,11 [10 , 15[ 10 21 0,10 0,21 [15 , 20[ 15 36 0,15 0,36 [20 , 30[ 20 56 0,20 0,56 [30 , 40[ 18 74 0,18 0,74 [40 , 60[ 16 90 0,16 0,9 [60 , 80[ 10 100 0,10 1 total 100 1 La lecture des frquences cumules croissantes se fait par rapport la borne suprieure de chaque classe. La reprsentation graphique de la fonction de rpartition appele courbe cumulative est la suivante : Dune manire gnrale, la courbe cumulative, dans le cas dune variable continue, est une ligne brise obtenue en joignant diffrents points de coordonns ( b , F ) o bi dsigne la borne suprieure de la i i classe i, et Fi la frquence cumule croissante correspondante. 17 Fi 1 0,90 0,74 0,56 0,36 0,21 0,11 0 5 10 15 20 30 40 60 80 Classes dges Remarque : on peut aussi reprsenter graphiquement la courbe des frquences cumules dcroissantes, lesquelles sont dfinies par la proportion des individus ayant une valeur du caractre suprieure ou gale la borne infrieure de la classe i. 18 Chapitre 2 : Les paramtres de position dune srie statistique CHAPITRE II : LES PARAMETRES DE POSITION DUNE SERIE STATISTIQUE 20 I. LE MODE 20 I.A. Cas dune variable discrte 20 I.B. Cas dune variable continue 21 I.B.1. Cas damplitudes identiques 21 I.B.2. Cas damplitudes ingales 22 II. LA MEDIANE 24 II.A. Cas dune variable discrte 24 II.B. Cas dune variable continue 27 III. LA MOYENNE ARITHMETIQUE 29 III.A.1. Cas de donnes non groupes 29 III.A.2. Cas de donnes groupes 29 IV. AUTRES MOYENNES 31 IV.A. La moyenne gomtrique 31 IV.A.1. Cas de donnes non groupes 31 IV.A.2. Cas de donnes groupes 31 IV.B. La moyenne harmonique 33 IV.B.1. Cas de donnes non groupes 33 IV.B.2. Cas de donnes groupes 33 IV.C. La moyenne quadratique 34 IV.C.1. Cas de donnes non groupes 34 IV.C.2. Cas de donnes groupes 34 19 Chapitre II : Les paramtres de position dune srie statistique La reprsentation graphique dune srie statistique nous donne une ide assez gnrale sur la distribution. Pour confirmer certaines impressions sur la srie et pour en donner plus de prcision, nous serons amens trouver une ou plusieurs valeurs centrales de la variable, capables de rsumer la srie en caractrisant lordre de grandeur des observations. De telles valeurs centrales sont appeles paramtres de tendance centrale ou caractristiques de position. Un indicateur de position doit tre dfini de manire rigoureuse et objective, doit tenir compte de lensemble des observations de la srie et doit tre exprim dans la mme unit que la variable. Le mode On appelle mode ou valeur dominante dune srie statistique la valeur observe de la variable ayant le plus grand effectif (ou la frquence la plus leve). On note gnralement le mode MO. Remarques : Le mode est exprim dans la mme unit que la variable. Si toutes les modalits ont la mme frquence alors la distribution statistique ne possde pas de mode. On parle alors de distribution uniforme. Lorsquune srie possde un seul mode, on dit que la distribution est unimodale. En revanche, lorsquelle en possde deux ou plusieurs elle est respectivement qualifie de bimodale et multimodale. Le calcul du mode dpend de la nature de la variable, discrte ou continue. Cas dune variable discrte Exemple 1 : On considre les notes obtenues en statistique par un groupe de 20 tudiants : 7, 13, 5, 15, 12, 9, 7, 8, 14, 16, 13, 6, 13, 10, 13, 12, 10, 7, 12, 13. Le mode de cette srie correspond la note la plus frquente, soit M 13, valeur qui apparat cinq fois. Linterprtation en est que la 0 note la plus frquente est 13. Exemple 2 : On considre une distribution statistique dune population de 100 mnages selon le nombre denfants : 20 Valeurs Effectifs Frquences x i ni f i 1 32 0,32 2 16 0,16 3 23 0,23 4 29 0,29 Total 100 1,00 Le mode de cette srie est : Mo=1. Il signifie que la plupart des mnages ont un seul enfant. Graphiquement, le mode correspond labscisse du bton le plus lev. ni 32 29 23 16 0 1 2 3 4 M o Cas dune variable continue Dans le cas dune variable continue groupe en classes, on parle plutt de classe modale. La classe modale est la base du rectangle ayant la hauteur la plus leve. Cependant, on distingue deux cas selon que les amplitudes des classes sont gales ou ingales. Cas damplitudes identiques Dans ce cas, la classe modale est la classe deffectif ni le plus lev, soit [ b b [ . Leffectif de la classe qui prcde la classe modale est n et i 1 i i 1 celui de la classe qui suit la classe modale est n . La dtermination du i 1 mode partir de la classe modale se fait de la faon gnrale suivante : m b m b m 1 i 1 2 i 1 M b a 0 i 1 i m m m m 1 2 1 2 avec : bi-1 : borne infrieure de la classe modale bi : borne suprieure de la classe modale 21 ai : amplitude de la classe modale m n n 1 i i 1 m n n 2 i i 1 Exemple : Soit la distribution de la population de 20 mnages selon le revenu des deux parents : Classe de Amplitudes Effectifs Frquences Revenu en DT n f i i [200-300[ 100 40 0,20 m 1 [300-400[ 100 60 0,30 m 2 [400-500[ 100 30 0,15 [500-600[ 100 50 0,25 [600-700[ 100 20 0,10 Total 200 1 La classe modale est la classe ayant la frquence la plus leve. Cest la classe 3 [ 00 40 [ 0 dans notre exemple. Dans ce cas, le mode est calcul par : 60 40 M 300 100 340 D T. 0 (60 4 ) 0 (60 3 ) 0 On interprte en disant que le salaire le plus frquent est de 340 Dinars. Remarque : On peut aussi utiliser les frquences relatives au lieu des effectifs. Dans ce cas, on aura : 3 , 0 0 , 0 20 M 300 100 340 D T. 0 ( 3 , 0 0 , 0 2 ) 0 ( 3 , 0 0 1 , 0 ) 5 Cas damplitudes ingales Dans le cas o les amplitudes sont diffrentes, la classe modale est la classe de densit (ou de frquence corrige) la plus leve, ou encore deffectif corrig le plus lev. m b m b m Le mode est donn par : 1 i 1 2 i 1 M b a 0 i 1 i m m m m 1 2 1 2 bi-1 : borne infrieure de la classe modale bi : borne suprieure de la classe modale ai : amplitude de la classe modale 22 m h h , ( c c m n n ); 1 i i 1 1 i i 1 m h h , ( c c m n n ) 2 i i 1 2 i i 1 o h , h e t h sont les effectifs corrigs i i 1 i 1 Classes Amplitudes Effectifs Frquences numrote corriges c [ b b [ a i ni i 1 i c f ou h i i [ b b [ a n f c ou h 0 1 1 1 1 1 [ b b [ a n f c ou h 1 2 2 2 2 2 . c n c f ou h i 1 i 1 i 1 m 1 [ b b [ a c n c f o u h i 1 i i i i i m 2 . c n c f o u h i 1 i 1 i 1 [ b b [ a c n c f o u h p 1 p p p p p Ensemble N 1 E ffe c t i f c o r r i g s D e n s i t s o u e ff e c t i fs c o r r i g s o u fr q u e n c e s c o r r ig e s D t e r m i n a t i o n g r a p h i q u e d u m o d e h i m 2 m h 1 i + 1 h i-1 0 b i-1 M o b i C l a s s e s Exemple : Soit la rpartition de 100 personnes selon leur ge : 23 Classes Effectifs Amplitudes Densits Effectifs corrigs dges n c i ai di n o u h i i [5 , 10[ 11 5 2,2 22 [10 , 15[ 10 5 2 20 [15 , 20[ 15 5 3 30 [20 , 30[ 20 10 2 20 [30 , 40[ 18 10 1,8 18 [40 , 60[ 16 20 0,8 8 [60 , 80[ 10 20 0,5 5 total 100 La plus grande hauteur appartient la classe 1 [ 5 2 [ 0 . Donc : M 1 [ 5 2 [ 0 0 30 20 15 10 20 10 et M 15 5 17 5 , 0 3 ( 0 2 ) 0 (30 2 ) 0 10 10 On interprte en disant que lge observ le plus frquemment est denviron 17ans et 6mois. Remarque : On peut aussi utiliser les frquences corriges la place des effectifs corrigs. Dans ce cas on aura 3 , 0 , 0 2 15 1 , 0 0 20 1 , 0 0 M 15 5 17 5 , 0 ( 3 , 0 , 0 2) ( 3 , 0 , 0 ) 2 1 , 0 1 , 0 La mdiane Soit une srie statistique ordonne par valeurs croissantes ou dcroissante. La mdiane, note gnralement Me , est la valeur de la variable qui partage la population en deux groupes deffectifs gaux. En dautres termes, la mdiane est la valeur de la variable situe au milieu dune srie ordonne telle que la moiti des individus prenne une valeur qui lui soit infrieure, lautre moiti prenant par consquent une valeur qui lui soit suprieure. Comme pour le mode, le calcul de la mdiane dpend de la nature de la variable, discrte ou continue. Cas dune variable discrte La dtermination de la mdiane dune srie statistique ncessite dabord de ranger par ordre croissant (ou dcroissant) les valeurs observes. Si la srie comporte un nombre impair de valeurs, soit N valeurs, la N 1 mdiane sera la valeur de rang ( ) 2 . Si la srie comporte un nombre pair de valeurs, on parle dintervalle mdian. Ce dernier est dfini par : N N ]la ( ) ime valeur , la ( ) 1 ime valeur]. 2 2 24 Toute valeur appartenant cet intervalle fait fonction de mdiane. Remarque : certains proposent de choisir comme mdiane le centre de lintervalle mdian. La mdiane, dans ce cas, nest pas forcment une valeur observe. Exemple 1 : On considre la rpartition de 9 mnages selon le nombre denfants par mnage. nombre denfants 0 0 1 1 2 3 3 3 4 par mnage Rang (ordre 1 2 3 4 5ime 6 7 8 9 croissant) 4 observations M 4 observations La mdiane, dans ce cas, correspond la cinquime valeur : M 2 enfants par mnage. On dit quil y a autant de mnage qui ont moins de 2 enfants que de mnage qui ont plus de 2 enfants. Exemple 2 : On considre la rpartition de 10 mnages selon le nombre denfants par mnage. nombre denfants 0 0 1 1 2 3 3 3 4 4 par mnage Rang (ordre 1 2 3 4 5ime 6ime 7 8 9 10 croissant) 4 observations Intervalle 4 observations mdian Dans ce cas on parle plutt dintervalle mdian ]2 , 3], correspondant la ]cinquime valeur , sixime valeur]. Remarque : certains retiennent comme valeur mdiane le centre de 2 3 lintervalle mdian, soit M e 5 , 2 nfants. Cette valeur ne 2 correspond pas une valeur rellement observe. Exemple 3 : nombre denfants 0 0 1 1 2 2 3 3 3 4 par mnage Rang (ordre 1 2 3 4 5ime 6ime 7 8 9 10 croissant) 4 observations Intervalle 4 observations mdian Dans le cas de cette distribution statistique, lintervalle mdian est : ]2 , 2]. La valeur mdiane est donc gale 2 . Les reprsentation groupe des donnes des exemple 2 et 3 nous donnent les deux tableaux suivants : 25 Exemple 2 x Effectifs Frquences Frquences cumules i n i f i F i 0 2 0,2 0 1 2 0,2 0,2 2 1 0,1 0,4 3 3 0,3 0,5 4 2 0,2 0,8 Ensemble 10 1 Fi 1 0,8 0,5 0,4 0,2 0 1 2 3 4 xi Intervalle mdian Exemple 3 x Effectifs Frquences Frquences cumules i n i f i F i 0 2 0,2 0 1 2 0,2 0,2 2 2 0,2 0,4 3 3 0,3 0,6 4 1 0,1 0,9 Ensemble 10 1 26 Fi 1 0,9 0,6 0,5 0,4 0,2 0 1 M =2 3 4 xi Cas dune variable continue Il ny a aucune diffrence de calcul pour la mdiane selon que les classes sont damplitudes constantes ou variables. Le calcul de la mdiane dans le cas de variable continue passe, dabord, par la dtermination de la classe mdiane. Ensuite, par interpolation linaire, on peut calculer la valeur prcise de la mdiane lintrieur de la classe mdiane. Soit [ b b [ la classe mdiane, a lamplitude de la classe mdiane, N i 1 i i i leffectif cumul croissant de la classe mdiane, N leffectif cumul i 1 croissant de la classe avant la classe mdiane et N leffectif total. Lexpression de la mdiane est donne par : N Ni1 M b a 2 i1 i N N i i1 La mme dmarche pourrait tre utilise en remplaant les frquences absolues par les frquences relatives : 5 , 0 F i 1 M b a , i 1 i F F i i 1 o F dsigne la frquence cumule croissante de la classe mdiane, i F la frquence cumule croissante de la classe qui prcde la classe i 1 mdiane. Exemple : En reprenant notre exemple sur la rpartition des 100 individus selon leur ge : 27 Classes Effectifs Effectifs cumule Frquences Frquences dges n croissants cumules i f i n croissantes i F i [5 , 10[ 11 11 0,11 0,11 [10 , 15[ 10 21 0,10 0,21 [15 , 20[ 36 M N 50 2 [20 , 30 [ 20 56 [30 , 40[ 18 74 0,18 0,74 [40 , 60[ 16 90 0,16 0,9 [60 , 80[ 10 100 0,10 1 Total 100 1 Le calcul, par interpolation linaire, de la mdiane donne : 20 ------ 0,36 M 20 5 , 0 0 3 , 0 6 M ------ 0,50 30 20 5 , 0 6 3 , 0 6 30 ---- ---- 0,56 Ou encore, en utilisant les effectifs cumuls croissants : 20 -------- 36 M 20 50 36 M ------- 50 30 20 56 36 30 --------- 56 Fi 1 0,9 0,74 0,56 0,5 0,36 0,21 0,11 0 5 10 15 20 M 30 40 60 80 Classes 28 N Dans notre exemple : 50 . La classe mdiane est la classe laquelle 2 appartient la valeur mdiane, cest dire la classe [20 3 [ 0 , do : 50 36 M 20 10 2 a 7 ns 56 36 Cest dire que 50% des individus sont gs de moins de 27 ans. La moyenne arithmtique La moyenne arithmtique, dite simplement moyenne est note x , est la caractristique de tendance centrale la plus usuelle. Cas de donnes non groupes En entend par donnes non groupes, celles qui ne sont pas prsentes dans un tableau statistique. Soit une srie statistique de N observations : x , x , x , , x . La 1 2 3 n moyenne arithmtique (appele simple) de ces observations est donne par : i N x x x x x i x 1 2 3 n i 1 N N Exemple : On observe les notes en statistique dun groupe dtudiants : 14, 16, 12, 9, 11, 16, 7, 9, 7, 9. La moyenne simple de ces notes est : 14 16 12 9 11 16 7 9 7 9 x 11 10 Cas de donnes groupes Dans le cas dune variable discrte : i p n x n x n x n x n x i i x 1 1 2 2 3 3 p p i 1 N N o x , e t n , i , 2 , 1 , p reprsentent respectivement la valeur du i i caractre et leffectif correspondant, et p est le nombre de valeurs prises par la variable. Dans le cas dune variable continue, o les donnes sont groupes en classes, on applique la mme formule, en remplaant les valeurs x par i 29 i p i p n c n x i i i i les centres de classes. Dans ce cas on a : x i 1 i 1 N N Exemple : soit la distribution par classe dges suivante : Classes dges f Centre de i n x i i Effectifs classe n c i i ( not aussi) xi [5 , 10[ 11 0,11 7,5 82,5 [10 , 15[ 10 0,10 12,5 125 [15 , 20[ 15 0,15 17,5 262,5 [20 , 30[ 20 0,20 25 500 [30 , 40[ 18 0,18 35 630 [40 , 60[ 16 0,16 50 800 [60 , 80[ 10 0,10 70 700 total 100 1 3100 3100 Lge moyen est donn par : x 31 a ns 100 Remarques : La somme des carts la moyenne arithmtique est nulle : N pour des donnes non groupes x x . En effet : i 0 i i N i N i N i N x x x x x N. x N. x N. x 0 i i i i i i1 i1 i1 N pour des donnes groupes en classes, On a n c x . i i 0 i i i N En effet : n c N. x N. x N. x 0 i i i1 La moyenne arithmtique x dune population deffectif N compose de k sous-populations deffectifs N et de moyenne x est gale : k k i p N x N x .... N x i i x 1 1 p p i 1 N N La moyenne arithmtique est le critre le plus frquemment utilis pour dfinir une valeur moyenne dobservations dune variable additive comme par exemple : la taille, le poids, lge, ...etc. Il y a dautres variables dont le calcul de la moyenne se traite autrement, comme, par exemple, le taux de chmage ou dinflation, le taux de change, la vitesse sur diffrents parcours, ...etc. 30 Autres moyennes La moyenne gomtrique La moyenne gomtrique dune variable, note gnralement G , est gale la racine N- ime du produit des N valeurs observes de cette variable. Elle est utilise souvent dans le calcul des taux de croissance moyens et de certains indices statistiques synthtiques. Cas de donnes non groupes La moyenne gomtrique simple est donne par : N G x . x . x . . x 1 2 3 n Cas de donnes groupes La moyenne gomtrique pondre est dfinie par : 1 n n n n N p p G x 1 . x 2 . x 3 . . x x 1 . x 2 . x 3 . . x 1 2 3 p n n n n 1 2 3 p N La moyenne gomtrique peut tre exprime en fonction des frquences relatives de la manire suivante : n n n n p 1 2 3 f f f f p N N N N G x . x . x . . x x 1 . x 2 . x 3 . . x 1 2 3 p 1 2 3 p Remarques : Le logarithme de la moyenne gomtrique est gale la moyenne arithmtique des logarithmes des xi . En pratique, le calcul de la moyenne gomtrique passe par le logarithme. Ainsi, dans le cas des donnes non groupes, on a : N 1 lnG l x n i N i1 et dans le cas des donnes groupes par classes, on a : p 1 lnG n l x n i i N i1 La moyenne gomtrique est utilise quand les valeurs de la variable sont lies de faon multiplicative les unes aux autres. La moyenne gomtrique dun produit de deux variables est gale au produit de leurs moyennes gomtriques. La moyenne gomtrique dun rapport de deux variables ( 0 ) est gale au rapport de leurs moyennes gomtriques. Exemple : Ltude des bnfices dune entreprise sur 5 ans montre que les 31 bnfices ont augment de 6% pendant les deux premires annes, de 10% pendant les deux annes suivantes et de 8% pendant la dernire anne. Quel est laugmentation moyenne sur 5 ans ? En utilisant la moyenne arithmtique des taux observs, et en dsignant par x , le taux moyen ainsi dfini, on obtient : 2 6% 2 10% 1 8% x 8% 5 Mais ce rsultat est un rsultat erron. En effet : Soit F le bnfice de lentreprise au dbut de la priode dtude. 0 - A la fin de la premire anne le bnfice augmente de 6%. Il est gal F F 0 , 1 6 1 0 - A la fin de la deuxime anne : 2 F F 0 , 1 6 F 0 , 1 ( 6) 2 1 0 - A la fin de la troisime anne : F F 1 , 1 0 F 0 , 1 ( ) 6 2 1 , 1 3 2 0 - A la fin de la quatrime anne : 2 2 F F 1 , 1 0 F , 1 ( 0 ) 6 ) 1 , 1 ( 4 3 0 - A la fin de la 5ime anne : F F 0 , 1 8 F 0 , 1 ( ) 6 2 ) 1 , 1 ( 2 0 , 1 8 5 4 0 Le taux de croissance annuel moyen, c , doit satisfaire la relation : 5 F F 1 ( c) 5 0 On peut alors crire : 2 2 5 F F 0 , 1 ( ) 6 ) 1 , 1 ( 0 , 1 8 F 1 ( c) 5 0 0 2 2 5 0 , 1 ( ) 6 ) 1 , 1 ( 0 , 1 8 1 ( c) 1 0 , 1 ( ) 6 2 ) 1 , 1 ( 2 0 , 1 85 1 c (Cest lcriture de la moyenne gomtrique des augmentations) 2 2 1 ln( 0 , 1 ) 6 ln( ) 1 , 1 ln( 0 , 1 ) 8 ln 1 ( c) 5 5 5 2 ln( 0 , 1 ) 6 2 ln( ) 1 , 1 ln( 0 , 1 8) ln 1 ( c) 5 0 , 0 7682 ln 1 ( c) 0,07682 e 1 c c 0 , 0 798 ln 1 ( c) apparat ainsi comme la moyenne arithmtique des logarithmes des taux de croissance. 1 ( c) est donc la moyenne gomtrique des diffrents taux de croissance du bnfice. On peut dire que laugmentation annuelle moyenne est de 9 , 7 % 8 32 La moyenne harmonique La moyenne harmonique, note H, est gale linverse de la moyenne arithmtique des inverses des valeurs : Cas de donnes non groupes N 1 H i N i N 1 1 1 ( ) i1 x N i1 x i i Cas de donnes groupes 1 1 H i p i 1 n p f i i N i1 x i 1 x i i Remarques : Linverse de la moyenne harmonique est gale la moyenne arithmtique des inverses des x . i La moyenne harmonique est gnralement employe lorsque la variable observe est gale au rapport de deux variables exprimes dans deux units diffrentes, par exemple le prix dun bien exprim en units montaires par unit de bien, la vitesse exprime en units de distance par unit de temps. Exemple : Un tudiant a consacr la mme somme de 36 D pendant trois ans lachat de livres aux prix respectifs de 4 D, 6 D et 9 D le livre. Dans ce cas le prix dachat moyen dun livre nest pas la moyenne 4 6 9 arithmtique des prix : x 3 , 6 3 D 3 En effet, ltudiant a dpens durant les trois ans 3 36 10 D 8 . Il a achet : 36 9 livres pendant la premire anne, 4 36 6 durant la deuxime anne 6 36 et 4 au cours de la troisime anne. 9 33 1 1 1 Il a donc achet : 36 9 6 4 19 livres 4 6 9 et le prix moyen dun livre est donc : 3 36 3 36 3 H 6 , 5 D 8 . 19 1 1 1 1 1 1 36 4 6 9 4 6 9 H est donc la moyenne harmonique des diffrents prix 4, 6 et 9. La moyenne quadratique La moyenne quadratique dune variable statistique, note Q , est gale la racine carre de la moyenne arithmtique des carres des valeurs de la variable. Cas de donnes non groupes i N 1 Q x 2 i N i1 Cas de donnes groupes i p i p 1 Q n x 2 f x 2 i i i i N i1 i1 Exemple : Quelle est la mesure du ct moyen de trois plaques mtalliques carres dont les cts mesurent 3 cm, 6 cm et 9 cm. 3 6 9 x c 6 m 3 Le calcul de la moyenne arithmtique des cts est faux. En effet, les superficies des plaques sont : 9 cm2, 36 cm2 et 81 cm2. La superficie moyenne est de : 9 36 81 x 42 c m 3 Ainsi, le ct moyen mesure : c 42 . Il sagit de la moyenne quadratique des cts : 1 c 3 ( 2 62 92 ) 42 c m. 3 Remarques : La moyenne quadratique est souvent utilise dans le calcul de la variance 34 (voir le section suivante). Les moyennes quadratique et arithmtique tiennent compte davantage des valeurs les plus leves de la srie statistique. En revanche, Les moyennes gomtrique et harmonique rduisent linfluence des observations les plus leves. Les relations existantes entre les diffrentes moyennes est : x H G x Q x min max Exemple : Calculer les moyennes arithmtique, gomtrique, harmonique et quadratique de la srie suivante :2, 5, 11, 18. 2 5 11 18 1 ; x 9 ; 4 G 2 5 11 18 2 5 11184 , 6 67 4 4 ; 1 H , 4 72 ; Q (2 2 52 112 182 ) 10 8 , 8 1 1 1 1 4 2 5 11 18 On peut vrifier la relation tablie entre les diffrentes moyennes : 2 , 4 72 , 6 67 9 10 8 , 8 18 35 Chapitre 3 : Les paramtres de dispersion et de forme CHAPITRE III : LES CARACTERISTIQUES DE DISPERSION ET DE FORME 37 I. LETENDUE 37 II. LES ECARTS INTERQUANTILES 37 II.B. Les quantiles 37 II.B.1. Les quartiles 38 II.B.2. Les dciles 38 II.B.3. Les centiles 39 III. MESURE DE LA DISPERSION AUTOUR DE LA MOYENNE 41 III.B. Ecart absolu moyen par rapport la moyenne 42 III.B.1. Cas de donnes non groupes 42 III.B.2. Cas de donnes groupes 42 III.C. Variance et cart type 43 III.C.1. Cas de donnes non groupes 43 III.C.2. Cas de donnes groupes 43 III.C.3. Cas de donnes non groupes 43 III.C.4. Cas de donnes groupes 43 III.D. Variance intra-population et variance inter-populations 45 III.E. Le coefficient de variation 49 IV. MESURE DE LA DISPERSION AUTOUR DE LA MEDIANE 50 IV.B.1. Cas de donnes non groupes 50 IV.B.2. Cas de donnes groupes 50 V. MOMENTS D'UNE SERIE STATISTIQUE 51 V.B. Moments non centrs 51 V.B.1. Cas de donnes non groupes 51 V.B.2. ii) Cas de donnes groupes 51 V.C. Moments centrs 51 V.C.1. Cas de donnes non groupes 51 V.C.2. Cas de donnes groupes 51 VI. INDICATEURS DE FORME 52 VI.B. Asymtrie 52 VI.C. Aplatissement 53 36 Chapitre III : Les caractristiques de dispersion et de forme Trs souvent les indicateurs de tendance centrale (mode, mdiane et moyenne) savrent insuffisants pour permettre de rsumer eux seuls et de comparer deux ou plusieurs sries statistiques. Prenons, titre dexemple, les deux sries de notes en statistique obtenues par deux groupes dtudiants : Groupe I 1 3 4 10 10 16 17 19 Groupe II 8 9 10 10 10 10 11 12 Nous pouvons constater que les deux sries ont un mme mode ( Mo=10), une mme mdiane ( M=10) et une mme moyenne ( x 10) . Cependant, leur distribution se fait dune manire nettement diffrente. En effet, pour le groupe II, les notes ne scartent pas trop des valeurs centrales ( M x 10 ). Ce qui nest pas le cas pour le groupe I. Do la ncessit de calculer dautres indicateurs capables de rendre compte des carts entre les diffrentes valeurs observes et la valeur centrale. Ces indicateurs, qui nous informent sur la variabilit des valeurs observes, sont appels indicateurs de dispersion. Ltendue On appelle tendue dune srie statistique, la diffrence entre la plus leve et la plus faible des valeurs observes, soit : e x x max min Ltendue est un indicateur de dispersion. Il est simple et facile calculer. Toutefois, il est trs sensible aux valeurs extrmes aberrantes . Les carts interquantiles Il sagit des carts entre les premiers et les derniers principaux quantiles. Les quantiles Comme pour la mdiane o lon sest intress la valeur de la variable qui partage la population en deux parties dgal effectif, on sintresse ici aux valeurs qui partagent la population en quatre, en dix ou en cent parties de mme effectif. Ces valeurs sont appeles respectivement quartiles, dciles et centiles. Dune manire gnrale, on appelle quantile dordre , La valeur de la variable x telle que % des valeurs observes lui sont infrieures. On peut alors crire : F ( x ) % , o F dsigne la fonction de rpartition de la variable. La dtermination des diffrents quantiles se fait de la mme manire que la mdiane (par interpolation linaire). 37 Les principaux quantiles sont les quartiles, les dciles et les centiles Les quartiles Les quartiles, en nombre de trois nots Q , Q e t Q , sont les valeurs 1 2 3 dune variable, ranges par ordre croissant ou dcroissant, qui partagent la population tudie en quatre parties de mme effectif. Lexpression des trois quartiles peut tre drive de la mme manire que la mdiane. Soit [ b b [ la classe damplitude a Q , N i i 1 i laquelle appartient 1 i leffectif cumul croissant de cette classe, N leffectif cumul i 1 croissant de la classe prcdant la classe [ b b [ et N leffectif total. i i 1 Lexpression du premier quartile est donne par : N Ni1 2 , 0 5 F Q b a 4 b i1 a 1 i i i i N N F F i i1 i i1 Q (premier quartile) : valeur de la variable telle que 25% des 1 observations lui soient infrieures Si Q appartient [ b b [ alors : 2 i i 1 N N 1 i 5 , 0 F Q b a 2 b a i1 M 2 i i N N i i 1 F F i i i i1 Q (deuxime quartile) : valeur de la variable telle que 50% des 2 observations lui soient infrieures Si Q appartient [ b b [ alors : 3 i i 1 3 N Ni1 7 , 0 5 F Q b a 4 b i1 a 3 i i i i N N F F i i1 i i1 Q (troisime quartile) : valeur de la variable telle que 75% des 3 observations lui soient infrieures Les dciles Les dciles, en nombre de neuf, nots D , D , e t D sont les valeurs 1 2 9 de la variable qui partagent la population en dix sous-populations de mme effectif. De la mme manire, on peut dfinir les expressions des dciles : 38 1 N Ni1 1 , 0 0 F D b a 10 b i1 a 1 i i i i N N F F i i1 i i1 2 N Ni1 2 , 0 0 F D b a 10 b i1 a 2 i i i i N N F F i i1 i i1 9 N Ni1 9 , 0 0 F D b a 10 b i1 a 9 i i i i N N F F i i1 i i1 D (premier dcile) : valeur de la variable telle que 10% des 1 observations lui soient infrieures. D (deuxime dcile) : valeur de la variable telle que 20% des 2 observations lui soient infrieures. D (neuvime dcile) : valeur de la variable telle que 90% des 9 observations lui soient infrieures. Remarque : Q M D 2 5 Les centiles Les centiles, en nombre de 99, nots C , C , e , t C et appels aussi 1 2 99 percentiles, sont les valeurs de la variable qui partagent la population en cent sous-populations dgal effectifs. On peut dfinir les centiles de la manire suivante : 1 N Ni1 0 , 0 1 F C b a 100 b i 1 a 1 i i i i N N F F i i 1 i i1 2 N Ni1 0 , 0 2 F C b a 100 b i1 a 2 i i i i N N F F i i1 i i1 99 N Ni1 9 , 0 9 F D b a 100 b i1 a 99 i i i i N N F F i i1 i i1 C (premier centile) : valeur de la variable telle que 1% des observations 1 lui soient infrieures. 39 C (deuxime centile) : valeur de la variable telle que 2% des 2 observations lui soient infrieures. C (99ime centile) : valeur de la variable telle que 99% des observations 99 lui soient infrieures. Remarques : Q Me D C et Q C 2 5 50 3 75 Les quartiles, les dciles et les centiles permettent de calculer les diffrents intervalles interquantiles. La longueur de ces intervalles correspond aux carts interquantiles qui sont des indicateurs de dispersion. Plus la longueur de lintervalle est grande, plus la dispersion est forte. On distingue : Lintervalle interquartile, qui contient 50% des observations, est : [ Q , Q ]. 1 3 Lcart interquartile est gal : e Q - Q . Q 3 1 Lintervalle interdcile, qui contient 80% des observations, est : [ D , D ]. 1 9 Lcart interdcile est gal : e D - D . D 9 1 Lintervalle intercentile, qui contient 98% des observations, est : [ C , C ]. 1 99 Lcart intercentile est gal : e C - C . C 99 1 Exemple : Soit la rpartition de 100 individus par classe dges : Classes Effectifs Effectifs cumules Frquences cumules dges croissantes n i n i F i [5 , 10[ 11 11 0,11 [10 , 15[ 10 21 0,21 [15 , 20[ 15 36 0,36 [20 , 30[ 20 56 0,56 [30 , 40[ 18 74 0,74 [40 , 60[ 16 90 0,9 [60 , 80[ 10 100 1 total 100 Calculons les quantiles et les intervalles interquartiles. 40 2 , 0 5 2 , 0 1 Q 1 [ 5 2 [ 0 Q 15 5 16 3 , 3 a ns 1 1 3 , 0 6 2 , 0 1 Ce qui signifie que 25% des individus sont gs de moins de 16 ans et 4 mois. 7 , 0 5 7 , 0 4 Q [40 6 [ 0 Q 40 20 41 2 , 5 a ns 3 3 9 , 0 0 7 , 0 4 Ce qui signifie que 75% des individus sont gs de moins de 41 ans et 3 mois. 1 , 0 0 0 D 5 [ 1 [ 0 D 5 5 a 5 , 9 ns 1 1 1 , 0 1 0 Ce qui signifie que 10% des individus sont gs de moins de 9 ans et 6 mois. En ce qui concerne le neuvime dcile, on peut lire sa valeur directement sur le tableau. Il sagit de la borne suprieure de la classe ayant une frquence cumule croissante gale 0,90 (puisque la valeur F i C o u rb e d e s frq u e n c es 1 cu m u le s cro issa n tes 0 ,9 0,7 5 0,5 0,2 5 0,1 0 0 5 1 0 15 20 M 30 4 0 60 8 0 C lasses D 1 Q 1 Q 2 Q 3 D 9 0,9 figure dans la colonne des Fi du tableau). Donc D 60 . 9 Ce qui signifie que 90% des individus sont gs de moins de 60 ans. Mesure de la dispersion autour de la moyenne Exemple 1 : Considrons les notes suivantes en statistique dun groupe de 6 tudiants : 2, 17, 7,18, 3, 13. 41 La moyenne des notes est : x 10 . Faut-il conclure alors que ce groupe est homogne ? En dautres termes, faut-il conclure que les tudiants ont le mme niveau ? La rponse est non, car 50% des tudiants seulement ont la moyenne. Pour mesurer cette dispersion autour de la moyenne on peut calculer les diffrentes distances (carts) entre la moyenne et les notes observes. On obtient : x x 2 10 , 8 x x 17 10 , 7 x x 7 10 3 1 2 3 x x 18 10 , 8 x x 3 10 , 7 x x 13 10 3 4 5 6 Calculons maintenant la moyenne des six distances : x x x x x x x x x x x x 1 2 3 4 5 5 6 i6 x 6 x i 1 i6 1 i 1 ( x x) ( 8 7 3 8 7 3) 0 6 6 i i 1 6 1 N Remarque : On a toujours : ( x x) 0 . i N i 1 Ceci traduit le fait que certains tudiants ont des notes suprieures la moyenne et dautres ont des notes qui lui sont infrieures (certaines diffrences sont positives et dautres sont ngatives). Une premire solution consiste prendre les valeurs absolues de ces carts et de calculer leur moyenne. Ecart absolu moyen par rapport la moyenne Lcart absolu moyen par rapport la moyenne, not e , dune srie x statistique est gal la moyenne arithmtique de la valeur absolu des carts entre les valeurs observes et leur moyenne. Cas de donnes non groupes i N 1 e x x x i N i1 Cas de donnes groupes i p i p 1 e n x x f x x x i i i i N i1 i1 Cet indicateur de dispersion tient compte de tous les carts entre chaque valeur observe et la moyenne. Ces carts sont exprims dans la 42 mme unit que la variable. Le calcul de lcart absolue moyen nest pas commode pour le calcul algbrique (expression de la valeur absolue). Variance et cart type Une solution alternative consiste considrer la moyenne des carrs des diffrences (dans ce cas toutes les valeurs ngatives deviennent positives). 1 i6 2 1 ( x x) i ( 8 )2 72 ( 3 )2 82 ( 7 )2 32 40 6 , 6 6 i 1 6 On peut calculer maintenant la racine carre de la moyenne des carrs des diffrences pour retrouver la moyenne des carts par rapport la moyenne. 1 i6 ( x x)2 40 6,6 3, 6 7 6 i i 1 Donc, certains tudiants (les bons) auront approximativement la note moyenne (10) plus 6,37, les autres (les mauvais) auront la note moyenne (10) moins 6,37. On appelle variance dune variable la moyenne des carrs des carts des valeurs de cette variable sa moyenne : Cas de donnes non groupes N 1 V ( x) ( x x 2 ) i N i1 Cas de donnes groupes N N 1 n V ( x) n ( x x)2 = f ( x x)2 o f i N i i i i i N i1 i1 Remarques : La variance peut tre crite sous une autre forme dite formule dveloppe : Cas de donnes non groupes N 1 V ( x) ( x 2 ) x 2 i N i1 Cas de donnes groupes 43 N N 1 V ( x) n x 2 x 2 = f x 2 x 2 i i i i N i1 i1 Cette formule dveloppe de la variance est plus aise retenir et plus rapide calculer. La variance dune srie statistique correspond la plus petite des moyennes des carrs des carts par rapport une constante k : N N 1 2 1 V ( x) ( x x) ( x k)2 , k . N i i1 N i i1 La variance dune variable y dfinie par : y ax b , est : V ( y) 2 a V ( x). La variance est exprime dans le carr de lunit de la variable. Par exemple, la variance de la variable ge est exprime en annes au carr (anne2). Cest la raison pour laquelle on ne doit pas interprter la variance, mais plutt sa racine carre. On appelle cart type que lon le note par , La racine carre de la x variance. Il est utilis comme un indicateur de la dispersion de la srie statistique : V ( x) x Lcart type est exprim dans la mme unit de mesure que la variable. Plus lcart type est grand, plus la dispersion des observations autour de la moyenne de la variable est forte. Exemple: Considrons les notes suivantes en statistique dun groupe de 4 tudiants : 8, 12, 9, 11 Calculer lcart type des notes et comparer le rsultat obtenu avec le rsultat de lexemple 1. 4 1 40 x x 10 4 i i1 4 1 4 V ( x) ( x x)2 4 i i 1 1 8 ( 10)2 1 ( 2 10)2 9 ( 10)2 1 ( 1 10)2 4 5 , 2 . V ( x) 5 , 1 8 x La dispersion des notes dans lexemple 1 est deux fois plus importante que celle de lexemple 2. Le second groupe dtudiant est un groupe plus homogne que le groupe 1. 44 Exemple 3 : Soit la rpartition de 100 salaris selon leur salaire mensuel : Salaire en Effectifs Centres de 2 x x n 2 n x i i i i i (DT) n classe xi i [200 - 300[ 15 250 62500 3750 937500 [300 - 400[ 20 350 122500 7000 2450000 [400 - 600[ 35 500 250000 17500 8750000 [600- 700[ 15 650 422500 9750 6337500 [700 - 900[ 10 800 640000 8000 6400000 [900 - 1100[ 5 1000 1000000 5000 5000000 Total 100 ------- 51000 29875000 Calculer la variance et lcart type des salaires. 1 6 51000 x n x 510 D inars . 100 i i i 1 100 1 k 1 2 2 2 2 V ( x) n x x = 29875000 510 38650 ( Dinars) i i N i 1 100 V ( x) 38650 196 5 , 9 D inars. x Variance intra-population et variance inter-populations On considre une population P de taille N compose de deux sous-populations : P e t P . Leffectif et la moyenne de chaque 1 2 sous-population sont : N , x p ou r P 1 1 1 N , x p ou r P 2 2 2 Ou N N N 1 2 Calculons la moyenne arithmtique de la population P. On sait que : i N i 1 1 1 N x x N x x 1 i 1 1 i N i1 i1 1 et 45 i N i 2 2 1 N x x N x x 2 i 2 2 i N i1 i1 2 La moyenne de la population P est donne par : 1 i N 1 i 1 N N 2 1 x x x x i i i N x N x 1 1 2 2 N i 1 N i 1 i 1 N Calculons la variance de la population P. Soit c une constante, on peut crire : N N N 1 1 1 x c 2 x c x x 2 x x) ( x c 2 i i i N i1 N i1 N i1 i N 1 x x 2 x c 2 2 x x x c i i N i1 i N i N i N 1 1 x x 2 1 x c 2 2 x x x c i i N i1 N i1 N i1 i N i N i N 1 1 x x 2 1 x c 2 2 x c x x i i N i1 N i1 N i 1 i N Comme x x 0 , on obtient alors : i i1 1 N x c2 V ( x) x c2 N i i 1 N 1 V ( x) x c 2 2 , i x c c N i1 Revenons maintenant au calcul de la variance de la population P. N N N 1 2 1 1 V ( x) x x x x x x i 2 1 i 2 i 2 N i1 N i1 N i1 1 1 N 2 Par dfinition la variance de P est donn par : V ( x) x x 1 i 1 1 N i1 1 N 2 1 2 et celle de P par : V ( x) x x 2 i 2 2 N i1 2 N 1 N V ( x) x x 1 1 i 1 2 i 1 N 2 N V ( x) x x 2 2 i 2 2 i 1 En utilisant le rsultat prcdent et en prenant c x (o x est la moyenne de la population P), les deux variances V ( x) et V ( x) peuvent 1 2 tre exprimes sous la forme suivante : 46 1 N 1 1 1 N V ( x) x x x x x x V ( x) x x 1 i 2 1 2 i 2 1 2 1 N N 1 i1 1 i1 N 1 x x N V x N x x i 2 ( ) 1 1 1 2 1 i 1 N 2 N 2 1 1 V ( x) x x x x x x V ( x) x x 2 i 2 2 2 i 2 2 2 2 N N 2 i1 2 i1 N 2 x x N V x N x x i 2 ( ) 2 2 2 2 2 i 1 1 V ( x) N V ( x) N x x N V ( x) N x x 1 1 1 2 1 2 2 2 2 2 N 1 V ( x) 1 N V ( x) N V ( x) N x x N x x 1 1 2 2 1 2 1 2 2 2 N N Moyenne d es v ariances Variance d es m oyennes La moyenne des variances est note par : V ( x). La variance des moyennes est note par : V ( x) . La variance totale est dcompose en deux parties : V ( x) V ( x) V ( x) La premire composante, V ( x) , nous renseigne sur la dispersion au sein de chaque population. On lappelle variance intra-population. La deuxime composante, V ( x), nous indique la dispersion de la moyenne de chaque sous population par rapport la moyenne de la population totale. On lappelle variance inter-populations. Exemple : La distribution des salaires dans une entreprise E, compose de deux tablissements, est la suivante : Etablissement 1 Etablissement 2 Salaires Effectifs Salaires Effectifs en102 Dinars en102 Dinars n i ni [4 8[ 40 [8 12[ 60 [8 12[ 30 [12 20[ 50 [12 - 28[ 20 [20 - 40[ 30 1) Calculer la moyenne des salaires pour lentreprise E : 2) Calculer la variance totale des salaires dans lentreprise E. 47 3) Dcomposer la variance totale en variance intra-tablissements et inter-tablissements. Commenter. Solution : Etablissement 1 Classes n x n x i i i i n 2 x i i [4 8[ 40 6 240 1440 [8 12[ 30 10 300 3000 [12 - 28[ 20 20 400 8000 Total 90 940 12440 Etablissement 2 Classes n x n x i i i i n 2 x i i [8 12[ 60 10 600 6000 [12 20[ 50 16 800 12800 [20 - 40[ 30 30 900 27000 Total 140 2300 45800 1) Calcul de la moyenne des salaires pour lentreprise E : 1 i6 1 X n x . i i 940 2300 14 0 , 8 102 DT N i 1 230 2) Calcul de la variance totale des salaires de lentreprise E : i 6 1 1 2 2 4 2 4 V ( x) n x x 1 ( 2440 45800) 10 14 0 , 8 10 N i i i 1 230 6 V ( x) 54 9 , 7 10 3) Dcomposition de la variance totale des salaires de lentreprise E : La variance totale est donne par : V ( x) V ( x) V ( x) La moyenne des variances est : 1 V ( x) N V ( x) N V ( x) 1 1 2 2 N La variance des salaires de ltablissement 1 est : 1 4 2 4 4 V ( x) 12440 10 1 , 0 444 10 29 1 , 3 10 1 90 La variance des salaires de ltablissement 2 est : 48 1 4 2 4 4 V ( x) 45800 10 1 , 6 42 10 5 , 7 26 10 2 140 1 V ( x) 4 90 29 1 , 3 140 5 , 7 2 ) 6 10 2 4 , 6 25 10 230 La variance des moyenne est : j 2 1 1 V ( x) N x x N x x N x x 1 1 2 2 2 2 2 2 j j N N j1 1 V ( x) 2 2 90 10 4 , 4 140 16 4 , 2 4 2 4 4 10 14 0 , 8 10 5 , 8 1 10 230 4 4 V ( x) V ( x) V ( x) (46 2 , 5 5 , 8 ) 1 10 54 7 , 6 10 La variance des salaires est donc imputable pour une grande partie la variance intra-tablissement des salaires. Remarque : Plus gnralement, La variance totale V ( x) dune population P, de taille N compose de k sous-populations, P , P ,..., P , de tailles respectives 1 2 k N , N ,..., N , de moyennes respectives x , x ,...... , x , et de 1 2 k 1 2 k variances respectives V ( x , ) V ( x , ) ...... , V ( x), est donne par : 1 2 k 1 K 1 K V ( x) N V ( x) N x x k k k k 2 N k 1 N k 1 Variance i ntra-population Variance i nter-populations K 1 Avec N N N N , et x N x 1 2 k k k N k1 Le coefficient de variation Aussi bien lcart-type que les indicateurs de tendance centrale (mode, mdiane et moyenne) sont exprims dans la mme unit de mesure de la variable. Dautre part, lcart-type dpend de lordre de grandeur des observations de la variable. Ainsi, pour comparer la dispersion de deux ou plusieurs distributions exprimes dans des units diffrentes, il est indispensable dutiliser un indicateur de dispersion indpendant de lunit de mesure et de lordre de grandeur des valeurs observes. Pour ce faire, on utilise Le coefficient de variation, quon note par : CV( x), et que lon dfinit par : CV ( x x ) x Remarque : Le coefficient de variation est un nombre pur sans unit. Cest un indicateur de dispersion relatif. Exemple : Reprenons lexemple de la distribution des salaires dans une entreprise E, compose de deux tablissements : 49 Etablissement 1 Etablissement 2 Salaires Effectifs Salaires Effectifs en102 Dinars en102 Dinars n i ni [4 8[ 40 [8 12[ 60 [8 12[ 30 [12 20[ 50 [12 - 28[ 20 [20 - 40[ 30 On peut rsumer les caractristiques principales de ces deux tablissements dans le tableau suivant Etablissement 1 Etablissement 2 Moyenne 10,44. 102 16,42. 102 Variance 29,13. 104 57,26. 104 Ecart-type 5,39. 102 7,56. 102 Coefficient de O,51 0,46 variation La comparaison directe des carts-types indique une dispersion des salaires plus forte dans ltablissement 2 que dans ltablissement 1 (7,56. 102 contre 5,39. 102). La comparaison des dispersions partir du coefficient de variation, indique au contraire une dispersion plus forte (O,51) pour ltablissement 1, que pour ltablissement 2 (0,46). En conclusion, on peut dire que les salaires sont plus disperss dans ltablissement 1 que dans ltablissement 2. Mesure de la dispersion autour de la mdiane Lcart absolu moyen par rapport la mdiane, not e dune srie M statistique est gal la moyenne arithmtique de la valeur absolue des carts entre les valeurs observes et leur mdiane. Cas de donnes non groupes i N 1 e x M M i N i1 Cas de donnes groupes i p i p 1 e n x M f x M M i i i i N i1 i1 Cet indicateur de dispersion tient compte de tous les carts entre chaque valeur observe et la mdiane. Ces carts sont exprims dans la 50 mme unit que la variable. Remarque : Pour toute srie statistique on a : e e M x x Moments d'une srie statistique Moments non centrs Cas de donnes non groupes Le moment non centr d'ordre r, quon note m ( x), dune srie r statistique est : i N 1 m ( x) x r ri N i1 ii) Cas de donnes groupes i p i p 1 m ( x) n x f x r r i i r i i N i1 i 1 Remarque : Le moment non centr dordre 1 est : m x 1 Le moment non centr dordre 2 est : m ( 2 x ) 2 Moments centrs Cas de donnes non groupes Le moment centr d'ordre r , quon note ( x), dune srie statistique r est : i N 1 r ( x) ( x x) r i N i 1 Cas de donnes groupes i p i p 1 ( x) n ( x x) f ( x x) r r i i r i i N i1 i 1 Remarque : Le moment centr dordre 1 est : 0 1 51 Le moment centr dordre 2 est : V ( x) 2 A partir de la formule dveloppe de la variance, on a : 2 V ( x) m ( m ) 2 2 1 En gnral, les moments centrs d'ordre pair donnent une indication sur la dispersion des observations autour de la moyenne. Les moments centrs d'ordre impair donnent une indication sur le degr de symtrie de la distribution. Exemple : La rpartition de 100 individus par classes dges est donne par le tableau suivant : Classes f Centres 2 i n x n x n x x n x M dges i i i i i i i i n x i i [5 , 10[ 11 0,11 7,5 82,5 618,75 258,5 214,5 [10 , 15[ 10 0,10 12,5 125 1562,5 185 145 [15 , 20[ 15 0,15 17,5 262,5 4593,75 202,5 142,5 [20 , 30[ 20 0,20 25 500 12500 120 40 [30 , 40[ 18 0,18 35 630 22050 72 144 [40 , 60[ 16 0,16 50 800 40000 304 368 [60 , 80[ 10 0,10 70 700 49000 390 430 total 100 1 3100 130325 1532 1484 3100 x 31 a ns , M 27 a ns , e 15 3 , 2 a ns , e 14 8 , 4 a ns 100 x M V(x) 1303,25 - (31)2 342 2 , 5 ( annes)2 342 2 , 5 18 a 5 , ns x On remarque bien que : e e M x x Indicateurs de forme Les polygones des frquences nous livrent une reprsentation approximative de la distribution relle des frquences. Pour avoir une ide satisfaisante et plus prcise sur la forme de la distribution, il est recommand de calculer des indicateurs de forme. On distingue les indicateurs dasymtrie et les indicateurs daplatissement. Ces indicateurs sont sans unit de mesure. Ils sont indpendants dun changement dchelle et/ou dorigine. Asymtrie Une distribution est dite symtrique si les observations se rpartissent dans la mme proportion de part et dautre des trois valeurs centrales (mode, mdiane et moyenne). Les mesures d'asymtrie permettent de quantifier le degr de dviation de la forme de distribution par rapport une distribution symtrique. i) Le coefficient dasymtrie de Fisher, quon note par : 1 52 moment c entr d 'ordre 3 3 1 3 3 (cart - type) La distribution est dite symtrique dans le cas o 0 . 1 La distribution est dite tale gauche dans le cas o 0 . 1 La distribution est dite tale droite dans le cas o 0 . 1 ii) Le coefficient dasymtrie de Yule, bas sur les quartiles, quon note par C : Y ( Q Q ) ( Q Q ) 3 2 2 1 C Y ( Q Q ) 3 1 La distribution est dite symtrique dans le cas o C 0 . Y La distribution est dite tale gauche dans le cas o C 0 . Y La distribution est dite tale droite dans le cas o C 0 . Y iii) Le coefficient dasymtrie de Pearson, bas sur la moyenne, le mode et lcart-type, quon note par C : P x Mo C P x La distribution est dite symtrique dans le cas o C 0 . P La distribution est dite tale gauche dans le cas o C 0 . P La distribution est dite tale droite dans le cas o C 0 . P Aplatissement Une distribution est dautant plus plate que la dispersion des observations autour des valeurs centrales est forte. i) Le coefficient daplatissement de Pearson, quon note par : moment c entr d 'ordre 4 4 4 4 (cart - type) La distribution est dite normale dans le cas o 3 . La distribution est dite hyponormale (plus aplatie que la normale) dans le cas o 3 . La distribution est dite hypernormale (moins aplatie que la normale) dans le cas o 3 . ii) Le coefficient daplatissement de Fisher, quon note par : 2 4 3 3 2 4 53 La distribution est dite normale dans le cas o 0 . 2 La distribution est dite hyponormale (plus aplatie que la normale) dans le cas o 0 . 2 La distribution est dite hypernormale (moins aplatie que la normale) dans le cas o 0 . 2 54 Chapitre 4 : Concentration dune srie statistique CHAPITRE IV : CONCENTRATION DUNE SERIE STATISTIQUE 56 I. VALEURS GLOBALES ET VALEURS GLOBALES RELATIVES 56 II. MEDIALE 57 II.A. Dfinition 57 II.B. Dtermination graphique 57 II.C. Calcul de la mdiale 58 III. ECART MEDIALE- MEDIANE 59 IV. COURBE DE CONCENTRATION 60 Dfinition 60 IV.B. Interprtation 60 IV.C. Cas extrmes 60 V. INDICE DE CONCENTRATION DE GINI 61 V.A. Surface de concentration 61 V.B. Dfinition de lindice de Gini 61 V.C. Calcul de lindice de Gini 62 55 Chapitre IV : Concentration dune srie statistique Ltude de concentration a pour objet de mesurer et de mettre en exergue dventuelles ingalits de rpartition dune valeur globale totale. Cette tude nest pas centre sur lindividu, elle est plutt globale. Lanalyse porte davantage sur la rpartition de la masse totale. Elle permet de complter lanalyse de la dispersion relative dune distribution. Les domaines dapplications sont nombreux : concentration des salaires, des revenus, des superficies agricoles, etc. Le concept de concentration a t labor dans les annes 1910-1914 par le statisticien italien Corrado Gini (1884-1965). Ltude de la concentration porte sur toute srie positive La notion de concentration ne sapplique qu des variables quantitatives continues valeurs positives cumulables, celles o le cumul a un sens. La question fondamentale, laquelle on doit rpondre est, par exemple : La masse salariale totale est-elle rpartie dune manire galitaire ? Dans le cas o elle sest faite dune manire ingalitaire, on observe un faible nombre dindividus dtenir une grande partie de cette masse, la partie restante tant dtenue par un grand nombre dindividus. Valeurs globales et valeurs globales relatives Soit X une variable statistique continue. On considre la srie statistique correspondante. On appelle valeur globale associe au couple ( x , n ), le produit dfini i i par : VG n x i i i On appelle valeur globale totale, quon note VGT : p VGT n x i i i1 On appelle valeur globale relative associe au couple ( x , n ), le i i rapport, quon note qi, dfini par : x n q i i i p x n i i i1 On appelle valeur globale relative cumule croissante associe la valeur x , centre de la classe b b , , quon note Q i 1 i i i, : j i Q q i j j1 56 Exemple : Superficie Centre Effectif Valeurs Valeurs Valeurs en ha s s globales globales globales relatives relatives nixi cumules n x x i i i ni q i croissantes n x i i Q i [1 5[ 3 11 33 0,008 0,008 [5 10[ 7,5 12 90 0,022 0,030 [10 20[ 15 15 225 0,056 0,086 [20 50[ 35 26 910 0,229 0,315 [50 100[ 75 36 2700 0,685 1 Total 100 3958 1 On peut interprter la cinquime ligne en disant que les exploitation qui ont moins de 50 ha se partagent 31,5% de la superficie totale qui est gale 3958 ha. Mdiale Dfinition On appelle mdiale dune srie statistique, quon note par Mle, la valeur de la variable telle que : ( Q Mle) 5 , 0 50% Dtermination graphique La mdiale est dtermine graphiquement comme tant labscisse du point dordonne 0,5 de la courbe des valeurs globales relatives cumules croissantes. Cette courbe est dfinie en tant quune ligne brise obtenue sur un repre cartsien, en joignant les points de coordonnes ( b , Q ), o b i i i dsigne la borne suprieure de la classe b b , et Q i 1 i i la valeur globale cumule croissante. 57 Qi 1 Courbe des valeurs globales relatives cumules croissantes 0,5 0,315 0,086 0,030 0,008 1 5 10 20 50 Mle 100 Classes Calcul de la mdiale La mdiale se dtermine, par interpolation linaire, de la mme manire que la mdiane. Seulement, les calculs ne se font plus sur les frquences cumules croissantes de la srie statistique, mais sur les valeurs globales relatives cumules croissantes. Le calcul de la mdiale passe dabord par la dtermination de la classe mdiale. Dans un deuxime temps, on dtermine la valeur prcise de la mdiale par interpolation linaire. Soit [ b b [ la classe mdiale, a lamplitude de la classe mdiane, Q i 1 i i i la valeur globale relative cumule croissante de la classe mdiale, Q i 1 la valeur globale relative cumule croissante de la classe qui prcde la classe mdiale. Lexpression de la mdiale est alors donne par : 5 , 0 Q Mle b i1 a i1 i Q Q i i1 Dans notre exemple, la classe mdiale laquelle appartient la mdiale, est la classe 5 [ 0 10 [ 0 do : 58 Superficie Amplitude Valeurs Valeurs Valeurs s globales globales globales en relatives relatives a n ha i ixi cumules n x q i i i croissantes n x i i Q i [1 5[ 4 33 0,008 0,008 [5 10[ 5 90 0,022 0,030 [10 20[ 10 225 0,056 0,086 [20 , 50[ 0,315 30 910 0,229 Mle 1 5 , 0 [50 , 100 [ 2 50 2700 0,685 1 Total 3958 1 Le calcul de la mdiale par interpolation linaire donne : Mle 50 5 , 0 0 3 , 0 15 100 50 1 3 , 0 15 5 , 0 0 3 , 0 15 Mle 50 50 63 5 , ha 1 3 , 0 15 On interprte en disant que les exploitations qui ont individuellement moins de 63,5 ha totalisent 50% de la superficie totale. Ecart mdiale- mdiane On appelle cart mdiale-mdiane dune srie statistique, quon note par M , le nombre dfini par : M Mle M Cet cart nous fournit un premier renseignement sur la concentration dune distribution statistique. Son interprtation se fait par rapport ltendue de la srie. En dautres termes, on calcule : M Intervalle d e v ariation Si M est grand par rapport lintervalle de variation, alors la concentration est forte Si M est petit par rapport lintervalle de variation, alors la concentration est faible Sil y a absence de concentration ou situation dquipartition parfaite, alors M est nul. 59 Dans notre exemple, la mdiane est gale : 5 , 0 0 3 , 0 8 M 20 30 33 8 , h 4 a 6 , 0 4 3 , 0 8 Donc, lcart mdiale-mdiane est : M 63 5 , 0 33 8 , 4 29 6 , 6 29 6 , 6 Par consquent, lcart mdiale-mdiane relatif est : 2 , 0 9 100 -1 On peut dire que la concentration est relativement moyenne. Courbe de concentration Dfinition On appelle courbe de concentration (ou courbe de Lorenz), Le polygone obtenu en joignent, les points de coordonnes( F , Q ), dans un repre i i orthonorm, o les Fi sont ports sur laxe des abscisses et les Qi sur laxes des ordonnes. Cette reprsentation se fait dans un carr de cte gal lunit. Valeurs globales relatives cumules croissantes Qi B 1 Diagonale Q4 Surface de concentration Q3 S Courbe de concentration Q2 Q S 1 A O F1 F2 F3 F4 1 Fi Frquences cumules croissantes Interprtation Plus la courbe de concentration se rapproche de la diagonale, plus la rpartition est galitaire, et plus la courbe sloigne de la diagonale, plus la distribution est concentre, cest--dire ingalement rpartie. Cas extrmes 60 Cas 1. La courbe de concentration se confond avec la diagonale. Cest le cas dune quirpartition parfaite. On dit aussi que la concentration est nulle. Cas 2. La courbe de concentration se confond avec les cts OA et AB du triangle OAB. Cest le cas, hypothtique, o un seul individu possde toute la richesse. On dit aussi que la srie est totalement concentre. Valeurs globales relatives Valeurs globales relatives cumules croissantes Cas 1 cumules croissantes Cas 2 Qi B Qi B 1 1 Diagonale Diagonale Q4 Q4 Q Courbe de concentration Courbe de concentration 3 Q3 Q2 Q2 Q1 Q A 1 A O O F1 F2 F3 F4 1 Fi F1 F2 F3 F4 1 Fi Frquences cumules croissantes Frquences cumules croissantes Indice de concentration de Gini Surface de concentration On appelle surface de concentration, quon note par S, la surface comprise entre la diagonale principale OB et la courbe de concentration. Plus la courbe sloigne de la diagonale et plus la surface de concentration est grande. Remarque : La courbe de concentration se situe toujours en dessous de la diagonale car on a, pour toute valeur de x : F( x) ( Q x) Dfinition de lindice de Gini On appelle indice de Gini (ou indice de concentration), le rapport entre laire de la surface de concentration et laire du triangle OAB. On le note par IG. : 61 Aire d e l a s urface d e c oncentra i t on S I 2 S. G Aire d u t riangl e O AB 1 2 Remarque : Lindice de Gini est compris entre [0 , 1] Dans le Cas 1, o la courbe de concentration se confond avec la diagonale, lindice de Gini est gal zro. Dans le Cas 2, o la courbe de concentration se confond avec les cts OA et AB du triangle OAB, lindice est gal un. Plus lindice de Gini tend vers 1, plus la concentration est forte. Plus lindice de Gini tend vers 0, plus la concentration est faible Calcul de lindice de Gini Pour le calcul de lindice de Gini, on retient la mthode des trapzes. Celle-ci consiste calculer laire de la surface complmentaire S par rapport laire du triangle OAB. Pour ce faire, il suffit de crer une nouvelle colonne f ( Q Q ). i i i 1 Lindice est alors gal : p I 1 f Q ( Q ) G i i i 1 i 1 La surface de chaque trapze est : g ( rande b ase petite b as e ) hauteur S i 2 ( Q Q ) ( F F ) ( Q Q ) ( f ) i 1 i i i 1 i 1 i i 2 2 Par exemple : ( Q Q ) ( F F ) ( f ) ( Q Q ) 3 4 4 3 4 3 4 S 4 2 2 62 Qi 1 Q4 Q Q 3 4 S 4 Q2 Q Q 3 1 f 4 F1 F2 F3 F4 1 Fi Superficie xi ni fi Fi nixi n x Q f ( Q Q ) q i i i i i i 1 en ha i n x ( VGi) i i [1 5[ 3 11 0,11 0,11 33 0,008 0,008 0,00088 [5 10[ 7,5 12 0,12 0,23 90 0,022 0,030 0,00456 [10 20[ 15 15 0,15 0,38 225 0,056 0,086 0,0174 [20 50[ 35 26 0,26 0,64 910 0,229 0,315 0,10426 [50 100[ 75 36 0,36 1 2700 0,685 1 0,4734 Total 100 1 3958 1 0,6005 En reprenant notre exemple concernant la rpartition des exploitations agricoles, lindice de Gini est gal : I 1 6 , 0 005 3 , 0 995 4 , 0 . G Cette valeur indique que la concentration est relativement moyenne. 63 Chapitre 5 : Les indices statistiques CHAPITRE V : LES INDICES STATISTIQUES 65 I. LES INDICES ELEMENTAIRES 65 I.A. Dfinition 65 I.B. Les proprits de lindice lmentaire : 66 I.B.1. La circularit ou transitivit 66 I.B.2. La rversibilit : 67 I.B.3. Autres proprits de lindice lmentaire : 67 II. LES INDICES SYNTHETIQUES 68 II.A. Indices synthtiques de Laspeyres 69 II.A.1. Indice de prix de Laspeyres: 69 II.A.2. Indice de quantit de Laspeyres: 69 II.B. Indices synthtiques de Paasche 70 II.B.1. Indice de prix de Paasche : 70 II.B.2. Indice de quantit de Paasche : 70 II.C. Les coefficients budgtaires 70 II.D. Indices synthtiques de Laspeyres et moyenne arithmtique 71 II.E. Indices synthtiques de Paasche et moyenne harmonique 71 II.F. Limites et extension des indices de laspeyres et de Paasche 72 II.F.1. Limites 72 II.F.2. Indices de Fisher 73 64 Chapitre V : Les indices statistiques Lanalyse conomique et sociale fait appel la comparaison et ltude de lvolution de grandeurs simples, telles que la production de bl, le prix de ptrole, .etc. La comparaison peut se faire dans le temps ou dans lespace, moyennant le calcul dun rapport entre deux valeurs de cette grandeur, prises par consquent en deux priodes diffrentes ou dans deux lieux diffrents. Il est aussi important de pouvoir suivre lvolution de grandeurs complexes telles que la production agricole, les exportations dun pays, etc. Ces comparaisons se font au moyen dindices synthtiques. Ainsi, on distingue deux types dindices : Lindice lmentaire et lindice synthtique. Les Indices lmentaires Lindice lmentaire permet de calculer lvolution dune grandeur simple (comme, par exemple, le prix ou la production dun bien donn), soit dans le temps, auquel cas on appelle cet indice un indice lmentaire temporel, soit entre deux lieux gographiques diffrents, auquel cas on parle dindice lmentaire spatial. Dfinition On peut dfinir lindice lmentaire temporel ou spatial comme un nombre pur (sans dimension) rsultant du rapport de deux valeurs prises par la mme grandeur, soit deux dates diffrentes, soit sur deux espaces diffrents. Soit x la valeur de la grandeur G la date t 1 et x la valeur de la 1 0 variable la date t 0 . Lindice lmentaire de la grandeur G est donn par : x 1 I 100 / 1 0 x 0 La date t 1 est appele date courante ou priode courante, ou encore situation courante, dans le cas dun indice spatial. La date t 0 est dite date de rfrence, ou priode de base, ou encore situation de base, dans le cas dun indice spatial. Exemple 1: Le prix dun billet davion Tunis - Toulouse est pass de 310 D en 1985 400 D en 1998. Lindice de prix dans ce cas est donn par : 65 P 400 98 I 100 100 107 7 , 5 98/85 P 310 85 On dit que le prix dun billet davion a augment de (107,75-100), soit 7,75% entre 1995 et 1998. Exemple 2: Le loyer dun studio Tunis est de 240 D, alors qu Bizerte il est de 120 D. Dans ce cas lindice de loyer entre Bizerte et Tunis est de : P 120 Bizerte I 100 100 5 % 0 Bizerte/T n u is P 240 Tunis Donc le loyer dun studio Bizerte est le moiti de celui Tunis. Les proprits de lindice lmentaire : La circularit ou transitivit Cette proprit est intressante dans le cas dun changement de lanne de base. Si une grandeur conomique prend les valeurs x , x et x 0 1 2 respectivement aux dates t , 0 e 1 t 2 , lindice lmentaire satisfait : 1 I I I 2/0 2 1 / / 1 0 100 Ainsi on a : I 2/0 I 100 2 1 / I base 1 / 1 0 base 0 Dmonstration : x x 100 x 1 x x 2 2 1 2 1 I 100 100 100 100 2/0 x x 100 x 100 x x 0 0 1 1 0 1 I I I 2/0 2 1 / / 1 0 100 Dune manire gnrale : I I I I t / t 1 t1/ t 2 t2 / t 3 1/ 0 I 100 t / 0 100 100 100 100 Exemple : Le prix dun bien Z pour trois dates est donn dans le tableau suivant : 66 Date Prix 1985 150 1990 210 1995 230 Calculons les diffrents indices lmentaires: 210 230 I 100 14 % 0 , I 100 153 3 , 90 / 85 150 95 / 85 150 230 I 100 109 5 , 95 / 90 210 On vrifie que : 1 1 I I I 109 5 , 140 153 % 3 , 95 / 85 100 95/ 90 90 / 85 100 Ainsi, pour comparer deux variables entre deux dates, il suffit de faire le rapport de leur indice. La rversibilit : Cette proprit est prenante dans le cas du calcul dindice spatial car le choix de lespace de rfrence est arbitraire. La proprit de la rversibilit peut tre prsente sous la forme suivante : 4 10 4 I I 10 ou encore I / 1 0 0 1 / 0 1 / I / 1 0 Dmonstration : x x 1 0 4 100 100 100 100 10 I I / 1 0 0 1 / x x 0 1 Exemple : En reprenant les donnes de lexemple prcdent, on peut vrifier que :. 210 150 I 100 14 % 0 , I 100 7 , 1 42 % 8 90 / 85 85/ 90 150 210 4 I I 140 7 , 1 428 10 90 / 85 85 / 90 Autres proprits de lindice lmentaire : Si a bc alors lindice lmentaire de a est donn par : 1 I ( a) I ( b) . I ( c). / 1 0 / 1 0 / 1 0 100 67 Exemple : Supposons que I ( p) 110% et I ( q) 12 % 0 . / 1 0 / 1 0 La recette tant gale au produit du prix par la quantit , R pq , lindice lmentaire de la recette est : 1 1 I ( R) I ( p) I ( q) 110 120 132% / 1 0 / 1 0 / 1 0 100 100 Entre la date 0 et la date 1 la recette a augment de 32% b Si a , alors lindice lmentaire de a est donn par : c I ( b) I ( a) / 1 0 100 / 1 0 I ( c) / 1 0 Les indices synthtiques Soit G une grandeur complexe compose de plusieurs autres grandeurs simples : G 1 2 k g , g , , g Pour chaque grandeur simple g i , i , 2 , 1 , k on peut calculer un indice lmentaire simple : g i I ( g i t ) 10 , 0 i , 2 , 1 , k t / 0 g i 0 On peut rsumer cette srie dindices lmentaires par un indice synthtique not I ( G). t / 0 En conomie on sintresse souvent aux variations des prix, des quantits et de la valeur globale (prix fois quantits). Ainsi, on peut calculer trois indices synthtiques, savoir lindice des prix, lindice des quantits et lindice de valeur globale. Soient i i p , q respectivement le prix et la quantit du bien i la date 0 , 0 0 et i i p , q respectivement le prix et la quantit du mme bien la date t. t t Considrons un panier compos de k biens. Les valeurs globales de ce panier values la date 0 et la date 1 sont donnes respectivement par : i k i k V et V p q t i i 0 i i p q 0 0 t t i1 i 1 Lindice de la valeur globale est donn par : 68 i k i i p q t t V I ( V ) I ( . p q) t 100 i 1 100 t /0 t /0 i k V i i 0 p q 0 0 i 1 Par exemple, I ( V ) 130% signifie que la valeur du panier a t / 0 augment de 30% entre la date 0 et la date t. A ce niveau, une question importante se pose : quelle est lorigine de cette augmentation ? rsulte-elle de laugmentation des prix, des quantit ou des deux ? En effet, dans ce cas, plusieurs cas de figures peuvent se prsenter : les prix augmentent et les quantits restent constantes. les quantits augmentent et les prix restent constants. les prix augmentent et les quantits baissent, mais la hausse des prix lemporte sur la baisse des quantits. les quantits augmentent et les prix baissent, mais la hausse des quantits lemporte sur la baisse des prix. les quantits et les prix augmentent simultanment. Afin de cerner avec prcision les origines de la variation, on fixe les quantits et on calcule un indice de prix, ensuite on fixe les prix et on calcule un indice de quantits Gnralement, on distingue deux types dindices selon que lon fixe les quantits ou les prix la date de base 0 ou la date courante t. Dans le premier cas, lorsque lon fixe les prix ou les quantits la date de base 0 : on calcule les indices synthtiques de Laspeyres. Dans le deuxime cas, lorsque lon fixe les prix ou les quantits la date courante t, on calcule les indices synthtiques de Paasche. Indices synthtiques de Laspeyres Indice de prix de Laspeyres: Cet indice indique lvolution de la valeur dun panier de biens composition constante. Les quantits fixes sont values la date de base 0 : i k i i p q t 0 P i 1 L 100 t / 0 i k i i p q 0 0 i 1 Indice de quantit de Laspeyres: Cet indice indique lvolution de la valeur dun panier de biens prix constants. Les prix constants sont valus la date de base 0 : 69 i k i i p q 0 t q i 1 L 100 t /0 i k i i p q 0 0 i 1 Indices synthtiques de Paasche Indice de prix de Paasche : Cet indice indique lvolution de la valeur dun panier de biens composition constante. Les quantits fixes sont values la date courante t. i k i i p q t t P i 1 P 100 t / 0 i k i i p q 0 t i 1 Indice de quantit de Paasche : Cet indice indique lvolution de la valeur dun panier de biens prix constants. Les prix constants sont valus la date courante t : i k i i p q t t q i 1 P 100 t /0 i k i i p q t 0 i 1 Les coefficients budgtaires On appelle coefficient budgtaire associ au bien i , la part de la dpense consacre ce bien. Ainsi, les coefficients budgtaires dun bien i, respectivement la date 0 et la date t sont : i i p q i i p q i W 0 0 et i W t t 0 i k t i k i i p q i i p q 0 0 t t i 1 i 1 Les coefficients budgtaires ont les proprits suivantes : 0 W 1 i k W 1 i i 1 70 Indices synthtiques de Laspeyres et moyenne arithmtique Lindice synthtique de Laspeyres peut tre dfini comme tant la moyenne arithmtique des indices lmentaires pondrs par les coefficients budgtaires de la date de base. Dmonstration : Nous allons la faire pour le cas de lindice de prix de Laspeyres. Le cas de lindice de quantit de Laspeyres se fait dune manire similaire. i k i i p q t 0 P i 1 L 100 t /0 i k i i p q 0 0 i 1 i k i i p q P t 0 L t 100 /0 i k i 1 i i p q 0 0 i 1 En multipliant et en divisant par i p , on obtient : 0 i i i i k q p p P 0 t 0 L 100 t /0 i k i i 1 i i p 0 p q 0 0 i 1 i i i i k q p p 0 0 t 100 i k i i 1 i i p p q 0 0 0 i 1 I i ( p ) t / O i 0 W i k LP W i I i ( p) t /0 0 t / O i 1 Indices synthtiques de Paasche et moyenne harmonique Lindice synthtique de Paasche peut tre dfini comme tant la moyenne harmonique des indices lmentaires pondrs par les coefficients budgtaires de la date courante. Dmonstration : Nous allons le faire pour le cas de lindice de prix de Paasche. Le cas de lindice de quantit de Paasche se fait dune manire similaire. i k i i p q t t P i 1 P 100 t /0 i k i i p q 0 t i 1 On calcul linverse de lindice de Paasche 71 i k i i p q 1 0 t 1 i 1 P i k P i i 100 t /0 p q t t i 1 1 i k i i p q 1 0 P t i k P i 1 i i 100 t /0 p q t t i 1 En multipliant et en divisant par i p , on obtient : t 1 i k i i i p q p 1 0 P t t i k i P i 1 i i p 100 t /0 t p q t t i 1 i k i i i p q p 1 t t ( 0 ) i k i i 1 i i p 1 00 t p q t t i 1 1 i I i ( p ) t / 0 Wt 1 i k i 1 W P P t i i 1 I ( p) t /0 t /0 Limites et extension des indices de laspeyres et de Paasche Limites Les deux indices de Laspeyers et de Paasche ne sont pas rversibles 4 L L 10 t /0 0/ t et 4 P P 10 t /0 0/ t Ces proprits sont valables pour les deux indices, prix et quantit. Les indices de Laspeyers et de Paasche ne vrifient pas la proprit de circularit : 1 L L L t /0 t / t ' t / ' 0 100 et 1 P P P t /0 t / t ' t / ' 0 100 Dune manire gnrale lindice de Paasche est toujours infrieur ou gal lindice de Laspeyers. 72 Lindice de Laspeyers surestime lvolution des prix. Lindice de Paasche sous-estime lvolution des prix. Indices de Fisher On peut dfinir un troisime indice, dit indice de Fisher, comme la moyenne gomtrique des deux indices de Paasche et de Laspeyers. Lindice de prix de Fisher est donc : 1 P F P L 2 P L t /0 P P t /0 t /0 P P t /0 t /0 Lindice de quantits de Fisher est donc : 1 q F P L 2 P L t /0 q q t /0 t /0 q q t /0 t /0 Proprits de lindice de Fisher Lindice de Fisher est compris entre ceux de Laspeyers et Paasche P F L Lindice de Fishe