Cours Ms Logistique Stat Descriptive

33
1 1 ère partie : STATISTIQUE DESCRIPTIVE CHAPITRE 1 : COLLECTE DE L’INFORMATION, TABLEAUX ET GRAPHIQUES. I. Définition et vocabulaire Définition : la statistique est une méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles nombreux, puis à analyser, à commenter et à critiquer ces données. Cette science n’a pas pour objet la connaissance des éléments des ensembles dans ce qui fait leur individualité, mais au contraire dans ce qu’ils ont en commun : il s’agit d’obtenir des résultats globaux. Ainsi, une enquête statistique portant sur des personnes n’a pas besoin de faire intervenir leurs noms, mais seulement les renseignements que l’on désire étudier : elle permet de connaître la répartition de ces personnes par âge, par sexe, groupe sanguin … Comme toute science, la statistique fait appel à un vocabulaire spécialisé : - Les ensembles sont appelés populations. Comme un ensemble, une population statistique doit être clairement définie. - Les éléments de la population sont appelés individus ou unités statistiques, (que ce soient des hommes ou des automobiles). - La population est étudiée selon un ou plusieurs caractères. - Un caractère permet de déterminer une partition de la population selon diverses modalités. Ainsi le sexe est un caractère à deux modalités : masculin et féminin. - Lorsque les modalités du caractère sont des nombres, le caractère est dit quantitatif ; on lui donne souvent le nom de variable statistique. Une variable statistique peut être discrète si elle ne prend que des valeurs isolées ou continue si elle peut prendre n’importe quelle valeur intermédiaire entre deux valeurs données. - Lorsque les modalités du caractère ne sont pas mesurables, le caractère est dit qualitatif. Les modalités d’un caractère qualitatif peuvent faire l’objet d’une nomenclature ou énumération ; la nomenclature doit en principe être courte (une dizaine pour une étude statistique simple). Mais les exigences de l’étude sont parfois telles que la nomenclature occupe des volumes entiers : c’est le cas de nomenclatures codées des catégories socioprofessionnelles et des professions faites par l’I.N.S.E.E. Exemples : Pour des chômeurs, l’âge est un caractère quantitatif continu ; le nombre d’enfants est un caractère quantitatif discret. Pour des automobiles, la couleur est un caractère qualitatif. II. La collecte des informations Le premier objet de la méthode statistique est de réunir les informations avant de les traiter.

description

Statistique Descriptive

Transcript of Cours Ms Logistique Stat Descriptive

1 1re partie : STATISTIQUE DESCRIPTIVE CHAPITRE 1 : COLLECTE DE LINFORMATION, TABLEAUX ET GRAPHIQUES. I.Dfinition et vocabulaire Dfinition : la statistique est une mthode scientifique qui consiste runir des donnes chiffres sur des ensembles nombreux, puis analyser, commenter et critiquer ces donnes. Cette science na pas pour objet la connaissance des lments des ensembles dans ce qui fait leur individualit, mais au contraire dans ce quils ont en commun : il sagit dobtenir des rsultats globaux. Ainsi, une enqute statistique portant sur des personnes na pas besoin de faire intervenir leurs noms, mais seulement les renseignements que lon dsire tudier : elle permet de connatre la rpartition de ces personnes par ge, par sexe, groupe sanguin Comme toute science, la statistique fait appel un vocabulaire spcialis : -Les ensembles sont appels populations. Comme un ensemble, une population statistique doit tre clairement dfinie. -Les lments de la population sont appels individus ou units statistiques, (que ce soient des hommes ou des automobiles). -La population est tudie selon un ou plusieurs caractres. -Un caractre permet de dterminer une partition de la population selon diverses modalits. Ainsi le sexe est un caractre deux modalits : masculin et fminin. -Lorsque les modalits du caractre sont des nombres, le caractre est dit quantitatif ; on lui donne souvent le nom de variable statistique. Une variable statistique peut tre discrte si elle ne prend que des valeurs isoles ou continue si elle peut prendre nimporte quelle valeur intermdiaire entre deux valeurs donnes.-Lorsque les modalits du caractre ne sont pas mesurables, le caractre est dit qualitatif. Les modalits dun caractre qualitatif peuvent faire lobjet dune nomenclature ou numration ; la nomenclature doit en principe tre courte (une dizaine pour une tude statistique simple). Mais les exigences de ltude sont parfois telles que la nomenclature occupe des volumes entiers : cest le cas de nomenclatures codes des catgories socioprofessionnelles et des professions faites par lI.N.S.E.E. Exemples :Pour des chmeurs, lge est un caractre quantitatif continu ; le nombre denfants est un caractre quantitatif discret. Pour des automobiles, la couleur est un caractre qualitatif. II.La collecte des informations Le premier objet de la mthode statistique est de runir les informations avant de les traiter. 2 Voici quelques gnralits : - Objectif de linformation. Enqute :Il importe, ds le dpart, de bien dfinir le ou les objectif(s) avant de raliser lenqute. Si un lment est oubli dans les premires recherches, il risque dtre long et coteux de le rechercher ensuite. Exemple : Si lon ralise une enqute sur lemploi dans un secteur dtermin, il ne faut oublier aucune variable. On peut demander aux personnes interroges leur qualification professionnelle, leur ge, etc Mais si ensuite on saperoit que le salaire est un caractre important, il est trop tard et il faut refaire lenqute. - Quantit dinformation : Cependant il ne faut pas tre trop ambitieux. Il ne doit pas y avoir de lacunes dans linformation mais il ne doit pas y avoir trop dinformations, car il devient alors impossible den tirer une synthse. - Collecte de donnes : Les donnes sont recueillies soit par observation directe, soit indirectement. -observation directe : enqute mene par les statisticiens laide de questionnaires qui sont ensuite dpouills. -Observation indirecte statistiques dune entreprise tires de sa comptabilit, statistiques de naissances et des dcs tires de ltat civil . - Diffrents modes de collecte de linformation : -Les rsultats statistiques peuvent tre obtenus partir dune enqute exhaustive instantane (dnombrement instantan ou recensement) ou dun relev continu (tat civil). -De mme, lenqute peut tre exhaustive ou partielle. Lenqute exhaustive porte sur toutes les units de la population ; elle est utile mais souvent coteuse. Cest pourquoi on a recours des enqutes partielles faites sur un chantillon de la population : il sagit alors de sondage, et il faut dterminer un chantillon reprsentatif, de manire que les rsultats statistiques trouvs sur cet chantillon soient voisins de ceux que lon aurait obtenus si on avait tudi la population entire. III.Dpouillement des observations Lorsque les observations sont obtenues, elles doivent tre classes et exploites. Auparavant une critique des rponses doit tre faite afin dliminer les contradictions et les invraisemblances. Pour chaque caractre tudier, on dfinit un certain nombre de classes selon les modalits, puis on fait le tri des observations, cest dire une rpartition par classes. Ces oprations peuvent tre faites la main ou laide dun ordinateur. Le document denqute doit tre au moins partiellement cod pour viter la surcharge des mmoires. IV Tableaux statistiques On peut reprsenter les donnes brutes dune tude dans un tableau. Mais il est possible den dduire un tableau plus clair, en faisant un regroupement par classes. On choisit les classes pas trop nombreuses, mais suffisamment pour quil ny ait pas de perte dinformation. Il 3 importe que les classes recouvrent tous les rsultats et aient une intersection vide, do les formulations du type de moins de ; la diffrence entre les deux extrmits est appel amplitude de la classe. On peut fixer le nombre de classes selon lun des deux formules suivantes : i)Rgle de Sturge : nb. de classes = 1+ (3.3 log n) ii)Rgle de Yule : Avec n = effectif de lchantillon. Lamplitude de classe est alors donne par : Leffectif dune classe est le nombre dlments de la population observs dans cette classe. La frquence est le rapport de cet effectif leffectif total de la population. La frquence est exprime en pourcentage. Exemple 1: On sintresse la charge de rupture dun fil en grammes. On va regrouper ces donnes en classes. Nous avons un effectif de 100 ce qui nous donne en nombre de classes daprs les rgles de Sturge et de Yule : 7 classes. En fait danslexemple ils en prennent 6. 45 . 2 classes de nb. n =classes de nb.min. valeur- max. valeur 711 862 851 912 922 791 825 935 895 758 8462915 873 926 864 800 931 722 774 903 925 8633853 700 885 857 844 907 917 786 820 930 8499789 790 753 910 847 784 936 706 758 887 8160941 909 784 882 859 903 925 704 792 888 8587890 925 895 768 869 892 895 912 850 920 8816763 805 796 759 916 853 789 942 712 764 8099892 893 915 890 888 865 909 931 710 798 8691914 794 931 701 772 935 887 880 933 905 8652889 791 782 713 724 868 842 892 905 792 8198847974 IV.Graphiques 4.1. Cas de distributions quantitatives Les graphiques sont normalement raliss en portant en abscisse la variable observe et en ordonne leffectif ou la frquence. -dans le cas dune variable discrte, le graphique est un diagramme btons, ainsi apparat la discontinuit entre deux valeurs. -dans le cas dune variable continue, le graphique est un histogramme. La surface limite par lhistogramme doit tre proportionnelle leffectif ou la frquence. Il convient de prendre garde lamplitude des classes (on se ramne la plus petite amplitude, amplitude lmentaire, et on divise la hauteur du rectangle par la mesure de lamplitude de la classe par rapport cette amplitude lmentaire). Exemple : On a rcolt les donnes suivantes : classe la de amplitudee lmentair amplitude frquence oueffectifrectangle duhauteur =TOTAL 100 1880 moins de 920920 et plusEffectifsFrquences0,230,040,150,320,16700 moins de 750750 moins de 800800 moins de 840840 moins de 88032161023415Charge en grammes0,15 4.2. Cas de distributions qualitatives Diverses mthodes sont possibles, par exemple : -on peut raliser des diagrammes bandes-ou des diagrammes secteurs charges en g. (classes) effectifs amplitude hauteur du rectangle700 moins de 750 10 50 (10*40)/50=8750 moins de 800 23 50 (23*40)/50=18,4800-840 4 40 4840-880 15 40 15880-920 32 40 32effectifs par classes051015202530351 2 3 4 5sans tenircompte de l'amplitudeen tenant compte de l'amplitude6 CHAPITRE 2 : ETUDE DES SERIES STATISTIQUES SIMPLES. I.Introduction Un tableau statistique ou un graphique sont parfois long consulter, sans permettre davoir une ide suffisamment concise de la distribution statistique observe. On cherche alors rsumer celle-ci par une caractristique de tendance centrale, cest dire par un seul nombre destin caractriser lensemble dune faon objective et impersonnelle, comme par exemple la moyenne arithmtique, la mdiane ou le mode. II.La moyenne arithmtique La moyenne arithmtique dune srie de valeurs dune variable statistique est gale la somme de ces valeurs divise par leur nombre. 2.1. Cas de donnes numres La formule gnrale est, pour n observations x1, x2, x3, xn : 2.2. Cas dune variable discrte Si la variable est discrte on emploie la formule de la moyenne pondre. Pour t classes deffectifs ni ou de frquences fi la moyenne x scrit pour les valeurs x1, x2, x3, xt de la variable : On a lhabitude de rsumer cette criture en employant le signe : 2.3. Variable continue et donnes groupes. Si la variable est continue et si les donnes sont groupes on ne peut que rechercher arbitrairement une moyenne lintrieur de chaque classe ; dfaut on choisit le centre de nx ... x xxn 2 1+ + +=tt ttt tf f fx f x f x fn n nx n x n x nx+ ++ + + ++ + + ++ ++ ++ + + ++ + + ++ += == =+ ++ + + ++ + + ++ ++ ++ + + ++ + + ++ += == =............2 12 2 1 12 12 2 1 1===== =t1 iit1 ii it1 iit1 ii ifx fnx nx7 classe . Le calcul est effectu comme si tous les individus dune classe avaient pour caractre le centre de classe, avec toute la part dapproximation que cela comporte. Exemple : Lors dune tude sur la rsistance dun mtal, on a ralis 100 expriences de rupture en charge dun fil de mme paisseur et lon a not les poids limites dans chaque cas. Le tableau ci-dessous reprsente la rpartition par classes des rsultats. On calcule la moyenne de la charge de rupture dun fil, partir des effectifs. Tableau 1 Remarque : si on avait fait le calcul sur les donnes brutes on aurait trouv : 848g. Cette perte de prcision est due au regroupement des donnes en classes, et au choix des centres de classes comme moyenne de la classe, do perte dinformation. III.Le mode ou la classe modale Le mode ou valeur modale est la valeur que la variable statistique prend le plus frquemment. - Dans le cas dune variable discrte, le mode peut tre trouv immdiatement, au vu du tableau des frquences ou des effectifs. -Si la variable est continue, et si les donnes sont groupes en classes, on parle plutt de classe modale : la classe ayant leffectif le plus lev (effectif ramen lunit damplitude). Attention il peut arriver que la classe modale ne soit pas celle o leffectif apparat, sur le tableau, le plus lev. En effet, cette dernire classe peut avoir une amplitude plus grande quune autre dont leffectif par unit damplitude, est plus lev. Sur lexemple prcdent, si la classe 700 moins de 800 figurait, son effectif serait 33, suprieur celui retenu pour la classe modale. Mais ramen lunit damplitude 40, leffectif ne serait plus que : 33*40/100=13.2. La rpartition des charges de rupture dun fila pour classe modale la classe 880 moins de 920 , deffectif 32.effectifscentre de classenixi700750800840880920960TOTAL 100 85095charge en grammes nixi9407250178253280129002880015040725775820860 1532 9001610234g. 851 95 , 85010085095nx nxii i = = =8 IV.La mdiane La mdiane dune srie statistique est une valeur de la variable telle quil y ait autant dobservations ayant une valeur suprieure la mdiane que dobservations ayant une valeur infrieure la mdiane. Exemple : si nous considrons les cinq valeurs suivantes : 711 862 851 912 922. Ces valeurs peuvent tre ranges selon les grandeurs croissantes : 711 851 862 912 922. La valeur 862est telle que deux observations ont une valeur infrieure et deux autres une valeur suprieure : cest la mdiane. Lorsque les observations sont toutes donnes, il suffit donc de les classer par ordre de grandeurs croissantes (ou dcroissantes), et de prendre celle qui se trouve au milieu. Si le nombre des observations est pair, la mdiane peut tre thoriquement lune quelconque des valeurs comprises entre les deux valeurs centrales observes ; le plus souvent on choisit leur demi-somme. Si par contre les observations sont regroupes en classes , il est ncessaire de recourir aux effectifs ou aux frquences- cumuls. V.Effectifs ou frquences cumuls. Il est souvent intressant, devant une srie statistique, de pouvoir dire il y a tant dobservations ou il y a tel pourcentage dobservations infrieures telle valeur (ou suprieures). Cest ce genre de proccupation que rpond le calcul des frquences ou des effectifs cumuls. 5.1. Variable continue On ajoute leffectif dune classe leffectif cumul prcdent, en commenant par le haut du tableau pour leffectif cumul moins de et le bas pour leffectif plus de , voir tableau 2. La seule difficult est de bien commencer ; pour cela, il suffit de se rfrer la signification des rsultats ; si lon cherche combien de fil nont pu rsister un poids de moins de 700g, le tableau 2 permet de rpondre quil ny en a aucun, on crit leffectif cumul 0 en face du poids 700g. On lit par exemple que 67 fils ont support une charge de plus de 800g. Il est possible deffectuer une reprsentation graphique des effectifs cumuls. 9 Tableau 2 5.2. Variable discrte Si la variable est discrte, une petite difficult supplmentaire apparat, au niveau de la signification. Plusieurs dfinitions des effectifs ou frquences cumuls sont possiblesIl faut faire attention si on parle au sens stricte ou au sens large. VI.Calcul de la mdiane La mdiane est la valeur de la variable qui correspond la frquence cumule 50% ou leffectif cumul n /2. On calcule la valeur de la variable correspondant la frquence cumule 50%. Considrons les donnes du tableau 2 : la mdiane M correspond leffectif 100/2=50. On procde linterpolation linaire sur les effectifs cumuls moins de (ou ventuellement plus de ) : effectifscentre de classenixi"- de" "+ de"700750800840880920960 100 0TOTAL 100 850954816charge en grammes nixi100906763010333752849407250178253280129002880015040725775effectifs cumuls1610234 820860 1532 900Effectifs cumules020406080100600 700 800 900 1000charge en g."+ de""- de"10 Le point de coordonnes (M,50) est sur la droite passant par les points A et B.Trouvons lquation de cette droite : y=ax+b. Remarque : Cette valeur peut tre lue sur le graphique des effectifs cumuls ; cest la valeur de la variable correspondant leffectif 50 ; on lit environ 875g. VII.Etendue. Ltendue est la diffrence entre la valeur maximale et la valeur minimale dune srie. VIII.Caractristiques de dispersion On considre les deux sries de donnes suivantes : 95 97 100 103105 50 75 100 125 150 Elles ont mme moyenne arithmtique et mme mdiane (100). Cependant elles diffrent profondment. Ce qui fait leur diffrence, cest ce quen statistique on nomme la dispersion ; la deuxime srie est beaucoup plus disperse que la premire. Il est donc important de rsumer une srie statistique non seulement par des caractristiques de tendance centrale, mais aussi par des caractristiques de dispersion. Nous en dfinirons de deux sortes : celle lies la moyenne : cart absolu moyen et cart-type ; celles lies la mdiane : cart interquartile, cart interdcile, etc 840 37880 52effectifs cumuls "moins de"2025303540455055830 840 850 860 870 880 890x == =+ =+ =278 b83a a 40 15b a 880 52b a 840 37 B(880,52) etA(840,37)g. 875 67 , 87483278 50Mab yx += =11IX.Ecart absolu moyen On calcule dabord lcart la moyenne. Pour chaque valeur de la variable x, on calcule lcart de cette valeur la moyennex ; on cherche ensuite rsumer ces carts en calculant une moyenne. Pour les deux sries du VII, les carts sont : -5 -3 0 3 5 -50-2502550 Il est impossible de rsumer ces carts par leur moyenne arithmtique, puisque par dfinition mme de x : Cependant, la simple vue des deux lignes dcart calcules ci-dessus montre que ceux-ci caractrisent convenablement la dispersion. On a alors recours la moyenne des valeurs absolues des carts, cest lcart absolu moyen : Ou, si les observations sont rparties par classes : Pour la premire srie observe on a :Et pour la deuxime : Cette caractristique rend convenablement compte de la diffrence de dispersion entre les deux sries. Elle est cependant peu utilise. En outre, la formulation des lois statistiques fait appel une autre caractristique :l'cart type. X.Ecart-type 10.1.Dfinition La caractristique de dispersion la plus usuelle est en effet lcart-type. Puisque la moyenne arithmtique des carts la moyenne est nulle, on a recours la moyenne quadratique de ces carts. On dfinit : 0 x n x n x x n ) x x (n1 iin1 ii= + = + = = =nx xei =nx x nei i =2 , 3516e1= =305150e2= =12-la variance dune srie : cest une moyenne arithmtique des carrs des carts la moyenne : -Lcart type dune srie : cest la moyenne quadratique des carts la moyenne, autrement dit, cest la racine carre de la variance. En reprenant les sries du 7, on a pour la premire : Et pour la deuxime : 10.2.Mthode de calcul Les calculs risquent de devenir laborieux si la moyenne nest pas entire : on a traiter des carts la moyenne non entiers avec dinvitables arrondis, do des calculs lourds et forcment peu prcis. Pour allger les calculs, on se sert du thorme de Koenig. Dveloppons : On exprime souvent ce thorme partir de la formule de la variance qui sen dduit : =i2i in) x x ( nV= = i2i in) x x ( nV22i i) x (nx n) X ( V = =2i i) x x ( n S + =2i i i2i ix n x x n 2 x n|||

\|= + =nx nx car x n x n x 2 x ni i2x ni i2i i3 2 1 =22i ix n x n69 , 3 et6 , 1359 25 9 25v1 1= =+ + +=36 , 35 et12505625052500 625 625 2500v2 2= = =+ + +=13 La variance est gale la moyenne des carrs moins le carr de la moyenne. Ce rsultat simplifie considrablement les calculs ncessaires pour obtenir la variance et lcart-type ; cest sous cette forme que le thorme de Koenig est utilis ds quon dispose dune machine calculer. Remarque : cette dernire formulation de la variance limite les erreurs darrondis car la moyenne nintervient quune seule fois alors que dans la formulation prcdente elle intervient i fois. 10.3.Exemples Il est possible de calculer la variance et lcart type sur lexemple du 2. Pour la rupture en charge des fils, sur les donnes groupes du tableau 1. On utilise la formule : Tableau 3 10.4.Signification de lcart type Remarque : Il existe une autre quantit reprsentante de la dispersion dune srie, cest ltendue : tendue = valeur maximale valeur minimale. g. 73 , 70 35 , 5002 35 , 5002 ) 95 , 850 (10072911825) x (nx n) X ( V2 2i2i i= = = = =effectifscentre de classenixi700750800840880920960TOTAL 100 85095 729118251109400026896002592000014137600nixi2nixi52562501381437532 9001610234775820860 15charge en grammes940725017825328012900288001504072522i i) x (nx n) X ( V = 14 Lorsque lon compare deux sries de mme nature, celle qui a lcart type le plus lev est la plus disperse. Cependant, par rfrence une loi statistique usuelle, la loi normale, il est possible de prciser un peu la signification de lcart type. Lorsquune srie statistique satisfait la loi normale, 95% des observations sont comprises entre 2 xet 2 + ++ + x : plus lcart type est lev, plus les observations sont disperses. Si la srie statistique tudie, sans suivre une loi normale, nest pas trop dissymtrique, la mme proprit est approximativement vraie. On dduit de la proprit nonce ci-dessus dans le cas de la loi normale, la rgle de vrification suivante : ltendue dune srie statistique (diffrence entre observation la plus leve et la plus basse) est du mme ordre de grandeur que quatre cart-types. Par exemple : pour la rupture en charge de fils, ltendue est certainement infrieure 960-700=260g (en effet 960 et 700 sont des extrmits de classes dont on sait par les donnes brutes quelles ne sont pas toutes deux atteintes) et 4=283g : les deux nombres ne sont pas gaux mais ils sont du mme ordre de grandeur. 10.5.Coefficient de variation Ltendue, la variance et lcart type sont des paramtres de dispersion absolue qui mesurent la variation absolue des donnes. Cependant, un cart type de 6 mm na pas la mme signification sil se rapporte des mesures de lordre de 160 mm ou des mesures de lordre de 80 mm. Aussi dispose-t-on dun indice de dispersion relative appel coefficient de variation, not CV. Par dfinition, le coefficient de variation est gal Remarque : ce coefficient cesse dtre efficace pour xpetit. Ce coefficient de variation a lavantage dtre comparable pour toutes les sries statistiques. Exemple : (rupture en charges ) le coefficient de variation de la srie tudie ci-dessus est : La srie de poids apparat peu disperse, parce que toutes les observations sont relativement voisines de la moyenne. XI.Caractristiques de position : quartiles, dciles, centiles 08 . 095 , 85073 , 70=xCV 100=15Les quartiles, dciles et centiles sont des caractristiques qui correspondent au mme genre de proccupation que la mdiane.Il sagit des valeurs de la variable qui correspondent aux effectifs cumuls : n/4, 2n/4, 3n/4pour des quartiles, le 2me quartile est la mdiane, n/10, 2n/10,9n/10 pour les dciles ; le 5me dcile est la mdiane, n/100, 2n/100,99n/100 pour les centiles ; le 50me centile est la mdiane. On les appelle caractristiques de position, puisquelle permettent de placer les valeurs de la variable. - Cas dune variable continue Les calculs seffectuent comme ceux concernant la mdiane. Reprenons lexemple de rupture des fils. Les quartiles peuvent tre dtermins soit graphiquement, soit par un calcul dinterpolation linaire. La premier quartile Q1 correspond leffectif cumul 25% soit : Ce qui donne : De mme on peut trouver pour le 3me quartile : (Q3,75) On calculerait de la mme manire les dciles. Pour le 1er et le 9me dcile, on obtient : D1=750 g et D9=935 g. - Cas dune variable discrte Le principe est le mme. Pour des populations nombreuses, on calculerait de mme certains centiles, particulirement les centiles extrmes, C1 et C99. XII.Caractristiques de dispersion : tendue, carts interdciles, carts interquartiles 3355023750 10 b et5023a a 50 23b a 800 33b a 750 10= = = = + =+ =A 750 10? Q125B 800 33g. 783 61 , 7822350) 335 25 ( Q 3355023Q 251 1 = + = =. g 909 g 75 , 908 Q3 =16Les caractristiques de position dfinies au X suggrent une manire de caractriser la dispersion sensiblement diffrente de celle qui aboutit lusage de lcart-type. En effet, un intervalle dans lequel on trouve toute la population tudie, ou un intervalle lintrieur duquel se situe 80% de cette population, les 10% extrmes (les plus aberrants) tant limins des deux cts, peut donner une ide de la faon dont se rparti une srie. Le premier intervalle ainsi dfini est ltendue, diffrence entre lobservation la plus leve et lobservation la plus faible. Le second est lcart interdcile : D9 D1. On dfinit de la mme manire lcart interquartile :Q3 Q1. Ainsi pour la srie des charges de rupture du fil, ltendue est : e= 960-700 =260 g. Lcart interdcile est : D9-D1 = 935-750=185 g Interprtation de ce rsultat : En liminant les 10% les plus rsistants et les 10% les moins rsistants, les charges de rupture des fils sont rparties lintrieur dune plage de 185 g. Lcart interquartile est : Q3-Q1 = 909-783=126 g. Interprtation : 50% de la population des fils a une charge de rupture rpartie sur 126g. Cet cart est lev par rapport au prcdent : mais la rpartition des charges de rupture fait apparatre en quelque sorte deux populations distinctes ; llimination des 20% ou des 50% de lensemble qui se trouvent aux extrmits ne fait pas disparatre la classe centrale 800 moins de 840 dont leffectif est trs faible. On peut faire les mmes calculs pour une variable discrte. Les rsultats sont sensiblement moins intressants. En effet, il est frquent que des quartiles ou des dciles soient gaux la mdiane. XIII.Quelques conseils pour ltude de sries statistiques simples Il est ncessaire de sparer clairement deux types de calculs : -moyenne, cart-type .. raliser partir des centres de classes et des effectifs de classes. -mdiane, quartiles, intervalles interquartiles .. raliser partir des extrmits de classes et des effectifs cumuls. 17 CHAPITRE 3 : ETUDE DES SERIES STATISTIQUES DOUBLES I.Position du problme Dans les chapitres prcdents on tudiait une population selon un seul caractre. Cependant il est souvent utile de considrer la fois plusieurs caractres de la mme population : taille, ge, poids dun groupe denfants ; qualification et salaire de salaris ;temprature et pression dun milieu diffrentes heures Nous nous limiterons ici ltude simultane de deux caractres ; lanalyse des donnes permet den tudier un grand nombre. II.Notations et reprsentation des sries statistiques doubles Une srie statistique double peut tre donne comme lnumration dun certain nombre de rsultats. La tableau ci-dessous donne la consommation en milliers de calories de douze familles en moyenne par jour. Chaque homme adulte est compt pour une unit de consommation ; un enfant est compt pour une part dunit, dpendant de son ge et de son sexe. Tableau 1 On peut avoir des donnes groupes : on parle alors de tableaux carrs ou de tableaux double entre. Il est alors ncessaire demployer des notations prcises.Soient x et y deux caractres (quantitatifs ou non). Les classes du caractre x sont dsignes par les indices 1,,j,.,p, celles du caractre y par 1,,i,,q. nij est le nombre dunits reprsentant la modalit yi de y et la modalit xj de x. Les sommes des effectifs de la ligne i, de la colonne j et de lensemble sont nots respectivement : n de unit de caloriesconsommation par jour xiyi1 5,3 132 7,2 183 5,6 9,44 7,1 15,45 5 7,86 3,3 9,37 5,2 10,18 4,5 7,19 4 8,910 2 4,411 5,7 12,112 4,7 11,5TOTAL 59,6 127 famille18 Tableau 2 : Notation des tableaux carrs La dernire ligne et la dernire colonne du tableau reprsentent les distributions marginales, cest dire la distribution de x sans tenir compte du caractre y ou celle de y sans tenir compte de x. La distribution marginale des yi , comme celle des xj, peut tre traite comme une srie simple. On dfinit en particulier la moyenne y, la variance V(y) et lcart type (y). De mme, lune quelconque des lignes ou des colonnes du tableau peut tre interprte comme une distribution conditionnelle. Il est possible dtudier les distributions conditionnelles comme des sries statistiques simples. III.Ajustement linaire. Principe de la mthode des moindres carrs

Les donnes du tableau 1 peuvent tre reprsentes graphiquement : ..p1 jq1 iij .jq1 ij . . ip1 jijn n , n n , n n = = = = = = =x1x2xjxptotaly1n11n12n1jn1pn1.y2n21n22n2jn2.: : :: : : : :yi: : nijni.: : : :: : :yqnq1nqpnq.total n.1n.2. n.j.. n.pn..caractre xcaractre y 19 On constate sur la figure ci-dessus que les points reprsentatifs de la srie des consommations ne sont pas rigoureusement aligns, mais quils forment un nuage de points allong.Il nest pas alors dpourvu de sens de chercher si lon peut trouver une droite qui rsume approximativement lensemble des points. La recherche dune telle droite est un ajustement linaire. 3.1. Ajustement graphique Thoriquement, diverses sortes dajustement linaires sont possibles. La plus simple est lajustement graphique, ralis par le dessinateur. Linconvnient majeur de lajustement graphique est quil est subjectif. 3.2. Autres ajustements Dautres ajustements peuvent tre raliss de faon plus objective, par exemple en utilisant les points extrmes ou les moyennes de certains groupes de rsultats. Lorsquil sagit de sries chronologiques, il est usuel de raliser un ajustement linaire par de telles mthodes. 3.3. Mthode des moindres carrs La mthode des moindres carrs prsente un caractre plus rigoureux que les prcdentes. Elle consiste rechercher une droite telle que la somme de ses distances aux diffrents points reprsentant les donnes soit minimale. Le mot distance est pris au sens large. La distance choisie est le carr de la diffrence des ordonnes entre chaque point et le point de la droite ayant mme abscisse. 3.4. Notion de corrlation linaire La mthode des moindres carrs peut tre utilise pour nimporte quelle srie double. Quelle que soit cette srie, il existe une droite destimation par la mthode des moindres carrs. Pour sassurer de faon objective que lajustement est valable, on calcule le coefficient de corrlation linaire : y x) y , x cov(r =024681012141618200 2 4 6 8nb. d'units de consommationnb. de calories par jour20 Ce coefficient est compris entre 1 et +1. Sil est voisin en valeur absolu de 1, lajustement est valide (0.70 < | r | < 1). La covariance joue un rle analogue la variance dans les sries statistiques simples, elle est dfinie par : Remarque : si on fait x=y, on retrouve la formule de la variance. Sur lexemple du tableau 1, calculons le coefficient de corrlation linaire. A laide de ce tableau, on peut effectuer les calculs suivants : Tableau 3 y x y xny y x xny xi i i i = == = = == = 1) ( ) (1) , cov(n de unit de caloriesconsommation par jour xiyixi2yi2xiyi1 5,3 13 28,09 169 68,92 7,2 18 51,84 324 129,63 5,6 9,4 31,36 88,36 52,644 7,1 15,4 50,41 237,16 109,345 5 7,8 25 60,84 396 3,3 9,3 10,89 86,49 30,697 5,2 10,1 27,04 102,01 52,528 4,5 7,1 20,25 50,41 31,959 4 8,9 16 79,21 35,610 2 4,4 4 19,36 8,811 5,7 12,1 32,49 146,41 68,9712 4,7 11,5 22,09 132,25 54,05TOTAL 59,6 127 319,46 1495,5 682,06 familleon consommati de units 5 97 , 4126 , 59x = =on consommati de units 4 . 1 95 , 1 ) 97 , 4 (1246 , 319x xn1) x ( Vx2 22i= = = =calories 10 . 55 , 3 62 . 12 ) 58 . 10 (125 . 1495y yn1) y ( V3y2 22i= = = =calories. 10 . 6 , 10 58 . 1012127y3 = =21 Le coefficient de corrlation est alors : Sans indiquer une bonne corrlation (il faudrait quil soit suprieur 0.95), ce coefficient autorise lajustement linaire. IV.Application de la mthode des moindres carrs des donnes individuelles 4.1. Principe de la mthode La droite dfinie au paragraphe (3.3) a pour quation : On recherche les paramtres a et b. La diffrence des ordonnes entre un point(xi,yi) et le point de la droite ayant mme abscisse est : La somme des carrs de ces diffrences doit tre minimum : Pour dfinir les coefficients a et b, on dveloppe S et on le considre successivement comme un trinme en b, puis b tant dtermin, comme un trinme en a. On trouve : On reconnat au numrateur la covariance de x et de y et au dnominateurla variance de x, au coefficient n prs. b ax y + =b ax y y yi i i i = minimum) b ax y ( Sn1 i2i i = =x a y b == =22ii i2ii ix n xy x n y x) x x () y y )( x x (a26 . 4 58 . 10 97 . 41206 . 682 1) , cov( = == = = == = = == = y x y xny xi i86 . 0355 4 . 126 . 4 ) y , x cov(ry x== =22 La forme du coefficient b permet de constater que la droite dajustement passe par le point moyen (x,y). Son quation est : 4.2. Application lexemple du tableau 3 : En utilisant les formules ci-dessus, on trouve : 4.3. Droite destimation de x en y Le calcul prcdent fait jouer unrle dissymtrique x et y. Or rien au plan statistique ne permet de dire si une variable dpend de lautre. Il est alors aussi logique de recommencer les calculs prcdents, mais en inversant les rles des deux variables. On dfinit une droite destimation de x en y, dquation : Elle diffre de la prcdente par sa pente. ) x ( V) y , x cov(a =) x x ( a y y + =34 . 062 . 1226 . 4) y ( V) y , x cov(aavec ) y y ( a x x = = = + =18 . 295 . 126 . 4a = =en x. yde estimation d' droite ) 5 x ( 2 . 2 6 . 10 y) x x ( a y x a y ax b ax y1 + = + = + = + =) 5 x ( 3 6 . 10 y 6 . 1034 . 05 xy) x ( f ycrire s' peutqui) 6 . 10 y ( 34 . 0 5 x2 2 + = += = + =0510152025300 2 4 6 8 10 12nb. d'units de consommationnb. de calories par jour234.4. Retour sur le coefficient de corrlation linaire Les deux droites destimation trouves sont diffrentes. Le carr du coefficient de corrlation linaire est prcisment gal au produit des pentes. Si les deux droites taient identiques, r serait en valeur absolue gal 1. Si les droites sont proches, | r | est voisin de 1. Par contre si | r | est voisin de 0, les deux pentes sont loin dtre inverse lune de lautre, et par consquent les droites dajustement sont sensiblement diffrentes : les points reprsentatifs sont loin dtre rellement aligns. V.Application de la mthode des moindres carrs des donnes groupes 5.1. Mthode Le principe de la mthode est le mme, calculer si ncessaire les centres de classes. Le tableau ci-dessous reprsente la rpartition des distances parcourues par des vhicules aprs un coup de frein selon la vitesse. Les colonnes ni.yi, ni.yi2 et les lignes n.jxj et n.jxj2 permettent de calculer les caractristiques des deux distributions marginales. 22y x2r) y , x cov() y ( V ) x ( V) y , x cov(a a =|||

\| = = 75 . 0 86 . 0 a a r2 2= = =70 120 ni.yini.yini.yi2nijxjxyyi100n.j200 11915 775325 18180 1109875xjn.jxj18180n.jxj21680800nijyi11915yxxj1109875110 80406090 1001 28012345203033 4 51213 29 24 1225 5187552 10 16 521 6 122253078561050390039203 25 753335507090 297036750195000274400267300 337576,6789,4994,64102,323006980530056258050034900037100030375075y distance (m)x vitesse (km/h)47 48 55 40 1075 85 95 105 1151150264375 346800 496375 441000 1322503525 4080 5225 420080042,9787255,1041764,90909 72 802020 2645 3570 288092000 151500 224825 339150 30240024 5.2. Distributions conditionnelles : courbes de rgression Sur ce tableau il est possible danalyser les distributions conditionnelles.En calculant sur une ligneIl est possible de calculer xy, cest dire la moyenne (conditionnelle) de x pour un y donn (plus exactement, pour y compris entre les limites de classes).Ainsi pour y compris entre 30 et 40 m. (ligne 2) : De mme, en colonne, on calcule les moyennes conditionnelles de y pour x donn.Pour x compris entre 100 et 110 km/h : Il serait possible de mme de calculer les cart-types conditionnels. Lensemble des points de coordonnes (xy , xi ) constitue la courbe de rgression de y en x, et lensemble des points de coordonnes (y x ,yi ) constitue la courbe de rgression de x en y.Ces deux courbes reprsentent valablement la distribution.On peut en dduire que si on roule telle vitesse, on sarrte en moyenne en tant de mtres. Ou si lon a besoin de tant de mtres pour sarrter, cest quon roulait en moyenne telle vitesse. Il nest gure possible de dcrire efficacement lensemble des 200 observations. jj ijx nkm/h 9 . 1119 . 141 ) 9 . 90 (2001680800) x ( Vh / km 9 . 9020018180xx2= = == =m 1 . 1844 . 327 ) 58 . 59 (200775325) y ( Vm 58 . 5920011915yy2= = == =km/h. 67 . 76302300nx nxjj 2jj j 2y= = =m. 72ny nyi4 iii 4 ix= =25 5.3. Coefficient de corrlation linaire On peut constater que les deux courbes de rgression sont sensiblement diffrentes de droites. Il est possible en effet de vrifier que le coefficient de corrlation linaire entre x et y est assez mauvais. Pour obtenir la covariance on calcule : Do le coefficient de corrlation linaire : Ce coefficient est presque gal 0.60, ce qui est faible. Lajustement linaire ne reprsente pas un bon rsum des observations. Puisquil est toujours possible de calculer les droites des moindres carrs, nous allons vrifier que lajustement linaire est mauvais en calculant les quations de ces droites. 5.4. Droites destimation par la mthode des moindres carrs Pour la droite destimation de y en x : = =j i i ji j ij i ij jjj ijiiy x n y n x x n yFigure 2203040506070809010070 80 90 100 110 120 130vitesse en km/hdistance en mcourbe de rgressionde y enxcourbe de rgressionde x enyLinaire (courbe dergressionde x en y)Linaire (courbe dergressionde y en x)55 . 133 ) 58 . 59 )( 9 . 90 (2001109875) y , x cov( = =62 . 09 . 11 1 . 1855 . 133r ==95 . 019 . 14155 . 133) x ( V) y , x cov(a = = =26 Do lquation : Pour la droite destimation de x en y : Lquation est, en rtablissant les axes : Ces deux droites, traces sur la figure 2, sont diffrentes ; par contre, elles ne sont pas trs loignes chacune de la courbe de rgression correspondante. Ce rsultat explique la frquente confusion entre courbe de rgression et droite dajustement par la mthode des moindres carrs . VI.Ajustement non linaire Il peut arriver que les points reprsentant une srie double ne soient pas aligns, mais soient voisins dune courbe connue. On se sert alors en gnral de la mthode des moindres carrs, mais en transformant au pralable lune des variables. Ainsi, un ajustement entre y et xn donne un ajustement de la forme y = a xn + b ; un ajustement entre y et ln x donne :y =beax. Relations usuelles : Il est galement possible de raliser des ajustements linaires ou non, plusieurs variables, toujours sur le principe de la mthode des moindres carrs. (Weibull) ) ax exp( abx y(Gompertz) ca yue) (gomtriqab y(parabole)x a x a a ydx cx yx log b a yax y) bx exp( a yb 1 - bbxx22 1 0b ab ===+ + =+ =+ ===) 9 . 90 x ( 95 . 0 58 . 59 ) x x ( a y y1 + = + =41 . 044 . 32755 . 133) y ( V) y , x cov(a = = = ) 9 . 90 x ( 44 . 2 58 . 59 y yax xy ) y y ( a x x2 + = += + =27 VII.Quelques conseils pour lajustement linaire -Faire dabord une tude graphique. On distinguera ainsi si un ajustement, linaire ou non peut se justifier. -Un coefficient de corrlation est compris entre 1 et +1. -Calculer le coef. de corrlation avant deffectuer lajustement, si ce coef est trop faible en valeur absolue, ne pas continuer les calculs (chercher un ajustement non linaire) -La covariance est du mme signe que la pente de la droite ajuste. 28CHAPITRE 4 : LES PRINCIPALES LOIS DE PROBABILITE I.Loi binomiale Lorsque les ventualits se rduisent une alternative ( succs ou chec ), la variable alatoire nombre de succs suit une loi de probabilit appele loi binomiale dfinie par : -chaque preuve donne lieu deux ventualits exclusives de probabilit constante p (succs) et donc q=1-p (checs). -Les preuves rptes sont indpendantes. La loi binomiale est note B(n,p) et a pour caractristique : E(X)=np Remarques : la loi binomiale est symtrique pour p=1/2, et dissymtrique sinon, la dissymtrie est dautant plus forte : -Pour n fixe, que p est diffrent de q -Pour p fixe, que n est petit. II.Loi hypergomtrique Dans le cas de la loi binomiale, la proportion p dlments possdant le caractre recherch est fixe, ce qui peut changer si par exemple le tirage se fait sans remise. Pour une population deffectif N dont on tire un chantillon deffectif n sans remise : Si N est grand par rapport n et si p nest pas trop voisin de 0 ou de 1, il est possible de faire une approximation de la loi hypergomtrique par la loi binomiale. III.Loi de Poisson On appelle processus de Poisson, la ralisation dvnements alatoires dans le temps et dans lespace, obissant aux conditions suivantes :- la probabilit de ralisation de lvnement au cours dune petite priode ou sur une petite portion despace t est proportionnelle t, soit pt, - la probabilit de deux apparitions sur le mme t est ngligeable. Ainsi des vnements qui se ralisent de faon alatoire dans le temps : appels tlphoniques sur un central, pannes de machines, arrives un page dautoroute ou un guichet de vente, ou dans lespace : rpartition de points au hasard sur une droite peuvent tre considrs comme raliss par un processus de Poisson. npq et npq ) p 1 ( np ) p p ( n ) X ( V2= = = =1 Nn Nnpq ) X ( V etnp ) X ( E= =29 En utilisant Remarque : On substitue en gnral une loi de Poisson une loi binomiale si lon a la fois : n>50 et np30. Importante en biologie : comparaisons (moyenne, variance), calcul des intervalles de confiance, tests de conformit, dindpendance de deux caractres. VI.Loi de Student Soient X et Z deux variables alatoires indpendantes. Z suit une loi du 2 degrs de libert et X une loi N(0,1). La variable alatoire suit une loi de Student (ou loi de Student-Fisher) degrs de libert. On calcule sa moyenne et sa variance pour >2 : Il existe des tables de la loi de Student qui donnent t tel que : Utilise pour les comparaisons de paramtres (moyenne), estimation des paramtres dune population partir dun chantillon. =ZXT2) T ( V et 0 ) T ( E = =32VII.Loi de Fisher-Snedecor Si X12 et X22 sont un couple de variables alatoires indpendantes suivantes deux lois du 2 1 et 2 d.d.l. , alors :suit une loi F(1 , 2). La loi de Fisher-Snedecor sapplique lors de la comparaison de variances exprimentales et pour lanalyse de variance et covariance. Sa fonction de densit est toujours positive :222121XXF=33