Post on 16-Jan-2016
description
1
Statistiques Licence 2 LEA
Caroline Tahar
2
Plan du cours
Introduction
1. Les données statistiques et leur représentation
2. Les valeurs caractéristiques des séries statistiques
3. Indices et taux de croissance
3
Introduction
4
Chapitre 1 : les données statistiques et leur représentation
5
1-Le vocabulaire statistique
1.1-Les notions de base Population : ensemble des individus étudiés, Échantillon : partie de la population considérée, Caractère ou variable : grandeur ou caractéristique
étudiée Exemple : on étudie l’âge moyen d’obtention du bac dans
une académie. Cet âge constitue la variable, La population est constituée de tous les candidats
« admis », Le responsable de l’étude décide d’interroger 200 admis,
ils constituent l’échantillon.
6
1-Le vocabulaire statistique (suite)1.2-Les variables statistiquesOn distingue : Variables quantitatives et qualitatives, :
Une variable est quantitative si sa valeur est mesurable. Exemple : revenu d’une famille, nombre de voitures par foyer …
Une variable est qualitative si sa valeur n’est pas mesurable. Exemple : couleur des yeux, marque de voiture …
Variables discrètes et continues : Une variable est discrète si elle prend ses valeurs parmi un
ensemble de nombres définis. Exemple : nombre d’enfants par famille …
Une variable est continue si elle peut prendre toute valeur sur un intervalle. Elle est alors présentée en classes.
Exemple : revenu moyen par foyer, chiffre d’affaires …
7
1-Le vocabulaire statistique (suite)1.3-Les effectifs et les fréquences L’effectif est le nombre de réalisations de chaque valeur
possible de la variable. Exemple avec une variable discrète : On a recensé le nombre
d’enfants par employé d’une entreprise, on obtient les effectifs suivants :
nb enfant(s) 0 1 2 3 4 Totaleffectifs 5 14 35 15 2 71
8
1-Le vocabulaire statistique (suite)1.3-Les effectifs et les fréquences (suite) L’effectif est le nombre de réalisations de chaque valeur
possible de la variable. Exemple avec une variable continue :
Voici la répartition des revenus dans une zone d’habitation :
revenus moyens700€ - 1400€
1400 € - 1800€
1800€ - 2400€
2400€ - 3200€
3200€ - 4000 €
plus de 4000 € total
nombre de ménages 54 102 186 144 66 48 600
9
1-Le vocabulaire statistique (suite)1.3-Les effectifs et les fréquences (suite) Les fréquences relatives : effectif associé à une
valeur/effectif total, Les fréquences en pourcentage : FR x 100, Les fréquences cumulées : croissantes et décroissantes
revenus moyens
700€ - 1400€
1400 € - 1800€
1800€ - 2400€
2400€ - 3200€
3200€ - 4000 €
plus de 4000 € total
nombre de ménages 54 102 186 144 66 48 600
fréquences relatives 0,09 0,17 0,31 0,24 0,11 0,08 1fréquences % 9 17 31 24 11 8 100
10
1-Le vocabulaire statistique (suite)
17% des ménages ont un revenu compris entre 1400 et 1800 €,
26% des ménages ont un revenu inférieur à 1800€, 91% des ménages ont un revenu supérieur à 1400€.
revenus moyens
700€ - 1400€
1400 € - 1800€
1800€ - 2400€
2400€ - 3200€
3200€ - 4000 €
plus de 4000 € total
nombre de ménages 54 102 186 144 66 48 600
fréquences relatives 0,09 0,17 0,31 0,24 0,11 0,08 1fréquences % 9 17 31 24 11 8 100Fcumulées croissantes 9 26 57 81 92 100f cumulées décroissantes 100 91 74 43 19 8
11
2-La présentation des données2.1-La présentation en tableaux
On présente les données statistiques dans des tableaux. Les séries à une variable (séries simple), voir exemples précédents, Les séries à deux variables : elles sont présentées dans des tableaux
à double entrée.Exemple : les prix moyens d’une nuitée relevés en fonction de la zone géographique.
niveau 0 étoile 1 étoile 2 étoiles 3 étoiles 4 étoilesville-centre 50 70 90 140 210petite couronne 40 55 75 110reste département 30 45 60 90zo
ne
12
2-La présentation des données (suite)2.2-La présentation des données chronologiques Les séries chronologiques : la variable étudiée évolue
en fonction du temps.Exemple : l’évolution du chiffre d’affaires mensuel sur l’année 2009.
janvier février mars avril mai juin totalCA HT 5984 6412 10260 13822 18383 23798% CA annuel 4,20% 4,50% 7,20% 9,70% 12,90% 16,70%
juillet août septembre octobre novembre décembreCA HT 15675 7125 16530 11115 3278 10118 142500% CA annuel 11,00% 5,00% 11,60% 7,80% 2,30% 7,10% 100%
13
3-Les représentations graphiques3.1-La représentation d’une répartition La représentation d’une variable discrète: les
représentations en bâtons sont bien adaptées.
Nombre d'enfants par salarié
0
10
20
30
40
nombre d'enfants
effe
ctif
s
Série1 5 14 35 15 2
0 1 2 3 4
14
3-Les représentations graphiques (suite)3.1-La représentation d’une répartition (suite) La représentation d’une variable continue :
l’histogramme permet de prendre en compte la largeur de la classe. La superficie du rectangle est proportionnelle à l’effectif.
Effectifs corrigés
8281
784274057057
7 842 7 967 8 281 7 7167 405
3074 5 521
3 074
878 878
20 - 29 ans 30 - 39 ans 40 - 49 ans 50 - 59 ans 60 - 69 ans 70 - 79 ans 80 - 99 ans 90 - 99 ans0 - 19 ans
14 115
15
3-Les représentations graphiques (suite)3.1-La représentation d’une répartition (suite) Une répartition en fréquences fait souvent l’objet d’un
diagramme circulaire : les angles des différents secteurs correspondent à la fréquence (360° x fréquence).
Nombre d'enfants par employé
7,04%
19,72%
49,30%
21,13%
2,82%
0
1
2
3
4
16
3-Les représentations graphiques (suite)3.1-La représentation d’une répartition (suite) Il est parfois nécessaire de procéder à des regroupements pour simplifier
la représentation. Les regroupements ne sont jamais neutres. Pour les variables quantitatives, on parle de classes. Le choix du
nombre de classes et de la largeur des classes ont une incidence sur les interprétations. Pour le calcul, on utilisera souvent le centre de classe.
17
3-Les représentations graphiques (suite)
nb d'étudiants inscrits en L1
487573
672583
0
200
400
600
800
nb d'étudiants inscritsen L1
487 573 672 583
2007 2008 2009 2010
3.2-La représentation de l’évolution d’une variable L’évolution d’une variable peut être représentée par un
diagramme en bâtons ou par un graphique en courbes.
évolution du chiffre d'affaires d'un magasin
0
500
1000
1500
2000
chiffre d'affaires (en K €) 560 915 1105 1690 1896
2006 2007 2008 2009 2010
18
3-Les représentations graphiques (suite)3.3-La représentation de plusieurs séries chronologiques sur un
même graphique
On peut utiliser un diagramme en bâtons ou un graphique en courbes.
19
Chapitre 2 : les valeurs caractéristiques des séries statistiques
Méthodes numériques permettant de résumer une série.
20
1-La moyenne
1.1-Définition Elle permet de résumer la tendance centrale. C’est la somme
des valeurs de la variable/nombre d’observations. Il peut s’agir d’une moyenne simple ou pondérée. La moyenne simple est égale au quotient de la somme des
valeurs par le nombre de valeurs. Si à chaque valeur possible correspond un nombre variable de
réalisations, on calcule une moyenne pondérée
21
1-La moyenne (suite)
1.2-Calcul de la moyenne simple La moyenne simple est égale au quotient de la somme des
valeurs par le nombre de valeurs. Moyenne arithmétique simple : x = ∑xi/N
Exemple : voici le nombre de commandes prises par un représentant pendant une semaine. Le nombre moyen de commande par jour est égal à :
(18+14+9+17+15) / 5 = 14.6 commandes / jour
Jour Lundi Mardi Mercredi Jeudi vendredi
Nombre de commandes
18 14 9 17 15
22
1-La moyenne (suite)
1.3-Calcul de la moyenne pondérée La moyenne pondérée est égale au quotient de la somme des
valeurs par le nombre total de valeurs, en tenant compte du nombre de réalisations de chacune des valeurs.
Moyenne arithmétique pondérée : x = nixi/N ou x = fixi
Exemple : voici les salaires relevés dans une entreprise.
Le salaire moyen est égal à : (1200x10) + (1600x20) + (2000x25) + (2400x10) + (2800x10) /75= 1946.67 euros
Salaires (xi) ni nixi fi fixi
1200 10 12000 0,13 1601600 20 32000 0,27 426,672000 25 50000 0,33 666,672400 10 24000 0,13 3202800 10 28000 0,13 373,33Total 75 146000 1946,67
Moyenne 1946,67 1946,67Source : B. PY (2007)
Moyenne pondérée des salaires mensuelles
23
1-La moyenne (suite)
1.4-Calcul de la moyenne dans le cas d’une variable continue Pour chaque classe, on retiendra simplement le centre de classe
comme valeur pour réaliser les calculs. Exemple : à partir du tableau ci-dessous, on calcule le chiffre d’affaires
moyen mensuel des succursales d’une grande enseigne :
41050/84 = 488.69 K€.
CA [100 - 300[ [300 - 500[ [500 - 600[ [600 - 700[ [700 - 900[ Total
xi (centre de classe) 200 400 550 650 800
ni (nb succursales) 14 22 25 18 5 84
Xi x ni 2800 8800 13750 11700 4000 41050
2-La médiane et les quantiles
Note Effectiffréquence relative (%)
fréquence cumulée (%)
fixi
1 2 4 4 0,042 6 12 16 0,243 10 20 36 0,64 13 26 62 1,045 19 38 100 1,9
Total 50 100Moyenne 3,82
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)
Distribution des notes pour le restaurant Y
2.1-La médiane La médiane est la valeur de la variable pour laquelle 50% des
observations ont une valeur supérieure et 50% des observations ont une valeur inférieure.
Pour la calculer, il faut classer les observations par ordre croissant, calculer les fréquences cumulées croissantes puis déterminer la médiane par interpolation linéaire.
24
Me - 3 4 -3 10,5 - 0,36 0,62 - 0,36 0,26
Me = 3,85*0,14+3 = 3,54
= 3,85= =
2-La médiane et les quantiles (suite)2.1-La médiane (suite) Exemple d’une variable continue : le responsable d’un
supermarché étudie la valeur du caddie (150 relevés). La médiane est égale à : 60 + (75-60) x (0.5-0.46)/(0.8-0.46) = 61.76 €
Valeur 10 à 30€
30 à 50€
50 à 60€
60 à 75€
75 à 100 €
100 à 150 €
150 à 250 €
Total
Nb de caddies
12 21 36 51 21 6 3 150
Fréquence 8% 14% 24% 34% 14% 4% 2% 100%
Cumul croissant
8% 22% 46% 80% 94% 98% 100%
25
26
2-La médiane et les quantiles (suite)
2.2-Les quantiles (quartiles, déciles et centiles) généralisent la logique de la médiane
Les quartiles partagent les observations en 4 groupes égaux, chacun représentant 25% des observations :
Le premier quartile est la valeur telle que 25% des observations aient une valeur inférieure (Q1 = 51.25 €),
Le troisième quartile est la valeur telle que 75% des observations aient une valeur inférieure (Q3 = 72.80 €),
Le deuxième correspond à la médiane.
Les déciles partagent les observations en 10 groupes égaux, chacun représentant 10% des observations,
Les centiles partagent les observations en 100 groupes égaux, chacun représentant 1% des observations.
27
3-Le mode
3.1-Dans le cas d’une variable discrète Le mode est une caractéristique de position, comme la moyenne, la
médiane ou les quantiles. Il s’agit de la valeur la plus fréquente prise par la variable. C’est celle
pour laquelle on a le plus fort effectif.
3.2-Dans le cas d’une variable continue On parle alors de classe modale, celle à laquelle correspond le plus
grand nombre d’observations.
Ici, il s’agit de la classe 60 à 75€.
28
4-La variance et l’écart-type4.1- Définition et calcul L’écart-type peut être défini comme la moyenne des écarts de
chaque donnée à la moyenne arithmétique. Comme cette somme serait nulle (écarts + et – se compensant), on calcule la moyenne des carrés des écarts (variance), puis la racine carrée de la variance.
La variance :
L’écart-type :
Le coefficient de variation :
222 11)( xxn
Nxxn
NxV
iii
iii
)(xVx
xc x
v
29
4-La variance et l’écart-type (suite)4.2- Exemple
Voici l’exemple des notes de 3 étudiants.
Etudiant X Etudiant Y Etudiant Z0 7 120 6 120 15 120 13 12
20 4 1220 18 1220 20 1220 16 1220 12 1220 9 12
Max 20 20 12Min 0 4 12
intevalle de variation
20 16 0
moyenne 12 12 12variance 96 26 0écart-type 9,80 5,10 0
Notes des étudiants
4-La variance et l’écart-type (suite)4.3- Exemple avec un regroupement par classes
30
Dépense en euros
Effectifscentre de classe (ci)
nici ni(ci-X)2
[300; 400[ 5 350 1750,00 309530,90[400; 500[ 60 450 27000,00 1328656,46[500; 600[ 15 550 8250,00 35735,54[600; 700[ 95 650 61750,00 248944,16[700; 800[ 30 750 22500,00 685756,80[800; 1000[ 5 900 4500,00 453578,51
Total 210 125750,00 3062202,38Moyenne (X) 598,81
variance 14581,92écart-type 120,76coeff. Var. 0,58
Source : B. PY (2007)
Dépenses mensuelles en emplois à domicile
31
5-Quelques éléments supplémentaires
Valeur maximale et valeur minimale
Intervalle de variation : valeur max. – valeur min.Problème : les valeurs extrêmes peuvent être très différentes des autres valeurs.
Intervalle interquartile ou interdécile : Q3 – Q1 ou D9 – D1Ils délimitent la plage au sein de laquelle 50% ou 80% des valeurs sont regroupées.Plus ces plages sont larges, plus les valeurs sont dispersées.Problème : ce calcul ne pas prend en compte toutes les valeurs.
32
Chapitre 3 : indices et taux de croissance
1-Comparaison de données
1.1- Calcul de parts
Lorsqu’une variable est égale à la somme de plusieurs composantes, on peut calculer la part de chaque composante par rapport à l’ensemble pour une même date.
33
Population (en milliers)
Villes 2000 2008 2008Brest 10000 11000 300Caen 8000 9000 260Nantes 20000 27000 800Rennes 15 000 18000 500Total 53000 65000 1860
Chiffres d'affaires et nombre d'employés de l'hypermarché Machin pour différentes villes
CA en millions d'euros
Données fictives
1-Comparaison de données (suite)
1.1- Calcul de parts (suite)
Part = CA ville / CA total * 100 Elle permet de visualiser la structure du chiffre d’affaire de cette
entreprise et ses modifications.
34
Villes 2000 2008Brest 18,87 16,92Caen 15,09 13,85Nantes 37,74 41,54Rennes 28,30 27,69Total 100,00 100,00
Parts des Chiffres d'affaires de Machin (en %)
1-Comparaison de données (suite)
1.2-Ecarts relatifs et écarts absolus
Permet de comparer des variables à une même date pour des individus différents.
Ecart absolu = valeur i – valeur j
Ecart relatif = ((valeur i – valeur j)/valeur j)*100
= (valeur i/valeur j – 1)*100
Remarque : Attention au sens du calcul de l’écart relatif
35
Villes
ecart absolu (en millions
d'euros)
écart relatif (en %)
Rennes - Brest 5 000 50Brest - Rennes -5 000 -33,33
Comparaisons des CA
1-Comparaison de données (suite)
1.3-Ratios
Un ratio est un rapport significatif entre 2 variables. Il permet d’affiner l’analyse à une même date.
36
CA (en millions d'euros)
RangPopulation (en milliers)
CA/population (en millions
d'eurosRang
Brest 11000 3 300 36,67 1Caen 9000 4 260 34,62 3Nantes 27000 1 800 33,75 4Rennes 18000 2 500 36,00 2Total 65000 1860 34,95
CA et CA/population
2-Mesure de l’évolution
37
2.1-Calcul du taux de croissance
Il mesure l’évolution d’une variable entre deux dates différentes pour un même individu
V0 : valeur à la date t = 0
Vt : valeur à la date t
g : taux de croissance
Variation absolue = Vt – V0
Variation relative = taux de croissance g
100*0/)0( VVVtg
2-Mesure de l’évolution (suite)
2.1-Calcul du taux de croissance (suite)
V2008 = (1+g)*V2000 V2000 = V2008/ (1+g)
38
Villes 2000 2008
Ecart absolu(en millions d'euros)
Taux de croissance (en %)
Brest 10000 11000 1000 10Caen 8000 9000 1000 12,5Nantes 20000 27000 7000 35Rennes 15 000 18000 3000 20Total 53000 65000 12000 22,64
EvolutionsCA (en millions d'euros)
2-Mesure de l’évolution (suite)
2.1-Calcul du taux de croissance (suite)
V2008 = (1+g)*V2000
V2000 = V2008/ (1+g)
Attention : Les taux de croissance ne sont pas additifs
Points de croissance = différence entre deux taux de croissance
Le taux de croissance de Brest est 2,5 points plus élevé que le taux de croissance de Rennes
V2008 = (1+g)*V2000 V2000 = V2008/ (1+g)
39
2-Mesure de l’évolution (suite)
2.2-Taux de croissance annuel moyen
On cherche le taux de croissance théorique identique pour chaque année qui donnerait la même évolution sur la période totale.
V1 = (1+g)*V0
V2 = (1+g)*V1 = (1+g)2 *V0
V3 = (1+g)*V2 = (1+g)3 *V0
…
V9 = (1+g)9 *V0 g = (V9/V0)1/9 - 1
40
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007Niveau 1315,26 1367,97 1441,37 1497,17 1548,56 1594,81 1660,19 1726,07 1807,46 1892,24
taux de croissance 1999/1998 2000/1999 2001/2000 2002/2001 2003/2002 2004/2003 2005/2004 2006/2005 2007/20064,01 5,37 3,87 3,43 2,99 4,10 3,97 4,72 4,69
Produit intérieur brut aux prix de marché (en valeur)
2-Mesure de l’évolution (suite)
2.2-Taux de croissance annuel moyen (suite)
g = (1892,24/1315,26)1/9 – 1 = 0,0412
Le taux de croissance annuel moyen est de 4,12%
Taux de croissance annuel moyen
41
1
1
0
nn
V
V
2-Mesure de l’évolution (suite)
42
2.3-Taux de croissance d’un produit et d’un quotient
Taux de croissance d’un produit
= x*y
g = (1+gx)(1+gy) – 1
Approximation : Pour de faibles taux de croissance (< 10%) : g gx + gy
Ex : en 2009, une entreprise a vendu 100 articles à 5 € l’unité. En 2010, les quantités ont augmenté de 10 % et le prix de vente de 2%. Le taux de croissance du chiffre d’affaire :
(Q*PV)= (1.1*1.02)-1 = 0.122 = 12.20%
2-Mesure de l’évolution (suite)
43
2.3-Taux de croissance d’un produit et d’un quotient (suite)
Taux de croissance d’un quotient (ou d’un ratio)
Q = x/y
gQ = (1+gx)/(1+gy) – 1
Approximation : Pour de faibles taux de croissance (< 10%) : gQ gx – gy
Ex : en 2009, la ville de A. avait 10 000 habitants et ses dépenses d’investissement étaient de 2 000 000 €.
Son ratio Investissement/habitant était donc de 200 €/habitant.Si en 2010, l’investissement total augmente de 10% et le nombre
d’habitants s’accroit de 5%, le taux de croissance du ratio sera de 1.1/1.05 -1 = 0.0476 = 4.76%
2-Mesure de l’évolution (suite)2.4-Contribution à la croissanceQuestion : quelle la contribution de chaque ville à la croissance du CA de
l’hypermarché Machin ? Ou quel est le magasin qui entraîne le plus la croissance du groupe ? CC = part * taux de croissance
CAtotal = CABrest + CACaen + CANantes + CARennes
gCAtotal = PartCABrest2000*gCABrest + PartCACaen2000 *gCABrest + PartCANantes2000 *gCABrest + PartCARennes2000 *gCABrest
44
PartsTaux de
croissanceContribution
Villes 2000 2008 2000Brest 10000 11000 18,87 10,00 1,89Caen 8000 9000 15,09 12,50 1,89Nantes 20000 27000 37,74 35,00 13,21Rennes 15 000 18000 28,30 20,00 5,66Total 53000 65000 22,64 22,64
CA en millions d'euros
Contribution à la croissance du CA de Machin
3-Les indices
45
3.1-Définition et calcul
Ils permettent de mesurer deux grandeurs en les rendant comparables, c’est-à-dire en leur donnant une unité de mesure commune. De nombreuses variables sont exprimées sous forme d’indices. Un indice évalue une variation et non un niveau. Il existe des indices élémentaires et des indices synthétiques.
Exemple
L’indice du taux de change €/$ en 2008 base 100 en 2002 est 160, alors l’ s’est apprécié de 60% par rapport au $.
3-Les indices (suite)
46
3.2-Indices élémentaires (ou indices simples)
Ils sont utilisés pour comparer des données à une donnée de référence (appelée « base »). Ceux-ci représentent simplement un pourcentage par rapport à la donnée de référence. Un indice élémentaire est un rapport de la même variable prise à deux dates différentes ou lieux distincts.
L’indice est calculé en effectuant le rapport : donnée de l’année étudiée / donnée de l’année de base.
Indice élémentaire de la variable G, à la date t, base 1 en t = 0, est It/0 = Gt/G0 Indice élémentaire de la variable G, à la date t, base 100 en t = 0, est It/0 =
Gt/G0 *100
3-Les indices (suite)
Année Prix de la baguette
Indice base 1970
Indice base 1975
1970 0,57 100,00 63,33 1971 0,60 105,26 66,67 1972 0,67 117,54 74,44 1973 0,70 122,81 77,78 1974 0,80 140,35 88,89 1975 0,90 157,89 100,00 1976 1,04 182,46 115,56 1977 1,12 196,49 124,44 1978 1,27 222,81 141,11 1979 1,49 261,40 165,56 1980 1,67 292,98 185,56
47
3.2-Indices élémentaires (ou indices simples)
Exemple du prix de la baguette de pain
3-Les indices (suite)
48
3.2-Les propriétés des indices élémentairesCes indices simples ont des propriétés intéressantes que n’ont pas les indices synthétiques la circularité et la
réversibilité.
Circularité (ou enchaînement ou transitivité)
Cette propriété permet de changer de base. Pour un indice donné, on peut être amené à changer de période de référence afin de se ramener à une époque plus proche. Soit i les indices divisés par 100 :
Ce qui nous permet de déduire les indices base 0 des indices base1 sans avoir à recourir aux prix.
Réversibilité
Si l’on permute l’année de base et l’année courante, le nouvel indice s’obtient à l’aide de l’inverse de l’ancien.
It1/t0= 1/ It0/t1
0
11
22
30
3 iiii
0
t
oj
tj i
ii
3-Les indices (suite)
49
3.2-Les propriétés des indices élémentaires (suite) Réversibilité
Si l’on permute l’année de base et l’année courante, le nouvel indice s’obtient à l’aide de l’inverse de l’ancien.
ab
ba i
i1
3-Les indices (suite)
3.3-Les indices synthétiques
Ils permettent de synthétiser l’évolution simultanée de plusieurs variables.
50
Prix Quantité dépense Prix Quantité Dépense2000 0,8 100 80 0,2 90 18 982008 1,4 120 168 0,5 70 35 203
dépense totale
café sucrePrix et quantités consommées du café et du sucre
51
3-Les indices (suite)
3.3-Les indices synthétiques (suite)
Indice de valeur :
Cet indice mesure globalement l’évolution des prix et des quantités. Il est nécessaire de calculer des indices qui fixent les quantités et
qui mesurent donc uniquement l’évolution des prix.
10000
0/
i
iii
it
it
t qp
qpI
20002008
100207,14
Indices de valeur de la consommation de café et de sucre base 100 en 2000
52
3-Les indices (suite)
3.3-Les indices synthétiques (suite)
Indice de Laspeyres : L’indice de Laspeyres des prix fixe les quantités à l’année de départ
(2000)
Seuls les prix évoluent Indice de Laspeyres = moyenne pondérée des indices élémentaires
par les coefficients budgétaires calculés à la date de la base
10000
0
0/
i
iii
iit
t qp
qpL
53
3-Les indices (suite)
3.3-Les indices synthétiques (suite)
Indice de Laspeyres (suite) :
L’INSEE utilise l’indice de Laspeyres pour calculer l’indice des prix à la consommation.
188,78
Indice de Laspeyres base 100 en 2000
Indice de Laspeyreprix 2000*quantité 2000 Prix 2008*quantité 2000
98 185
Dépense 2000 Dépense 2008
54
3-Les indices (suite)
3.3-Les indices synthétiques (suite)
Indice de Paasche
L’ indice de Paasche des prix fixe les quantités à l’année finale ou année courante (2008).
10000
0
0/
i
iii
iit
t qp
qpL
184,55
Indice de Paasche base 100 en 2000Dépense 2000 Dépense 2008
Indice de Paascheprix 2000*quantité 2008 Prix 2008*quantité 2008
110 203
55
Chapitre 4 : liaisons et corrélation entre des variables
56
Introduction
Dans ce chapitre nous étudierons le croisement de deux ou plusieurs variables.
Le but du croisement de variables est de déterminer l’existence (ou non) d’un lien de dépendance entre ces variables ou d’une liaison.
Exemples : PIB et gaz à effets de serre ? Salaire et âge des salariés ? Montant R et D et bénéfice ?
Attention à ne pas confondre causalité et corrélation.
57
1-Représentation graphique de la série
Question : existe-t-il une liaison statistique entre le nombre de spots et le CA ?
Le CA et le nombre de spots évoluent-ils de manière concomitante ?
SemainesNombres de
spots publicitaires
CA en centaines de
dollars1 2 502 5 573 1 414 6 545 5 546 1 387 6 638 3 489 4 59
10 7 65Source : adapté de Anderson et alii ( 2001)
CA et spots publicitaires pour le magasin Truc
58
1-Représentation graphique de la série (suite)Une représentation
graphique du nuage de points (ou diagramme de corrélation) permet :
• D’apprécier l’existence ou non d’une éventuelle liaison
• De déterminer la forme de la liaison
Magasin Truc
0
10
20
30
40
50
60
70
0 2 4 6 8
Nombre de spots publicitaires
CA
en
ce
nta
ine
s d
e $
59
1-Représentation graphique de la série (suite)La forme du nuage de point suggère les interprétations
suivantes :
Il existe une liaison entre les 2 variables : si le nombre de spots varie alors le CA a tendance à varier aussi
Cette liaison est linéaire : les points sont à peu près alignés sur une droite
Cette liaison est positive : plus le nombre de spots s’accroît, plus le CA augmente.
60
Nuages de points : formes de liaison
liaison linéaire décroissante
0
2
4
68
10
12
14
0 2 4 6 8 10 12
X
Y
Pas de liaison
0
2
4
6
8
10
12
0 2 4 6 8 10 12
X
Y
liaison puissance
0
2000
4000
6000
8000
10000
12000
0 2 4 6 8 10 12
X
Y
liaison hyperbolique
0
0,2
0,4
0,6
0,8
1
1,2
0 2 4 6 8 10 12
X
Y
61
2-La covariance
Pour le magasin, le nuage de points montre que les variables ont tendance à covarier (varier ensemble)
La covariance est un indicateur qui mesure la variabilité conjointe des 2 variables.
Mesure descriptive de la relation entre les 2 variables Mesure les fluctuations simultanées de chaque variable
par rapport à sa moyenne
62
2-La covariance (suite)
COV (X,Y) = moyenne du produit XY – produit des moyennes de X et de Y
N
yyxxYXCOV i
ii ),(
yxyx
NYXCOV
iii 1
),(
SemainesNombres de
spots publicitaires (X)
CA en centaines de dollars (Y)
XY
1 2 50 1002 5 57 2853 1 41 414 6 54 3245 5 54 2706 1 38 387 6 63 3788 3 48 1449 4 59 236
10 7 65 455Moyenne 4 52,9 227,1
Covariance = 227,1 - 4*52,9 = 15,5
Calcul de la covariance pour le magasin Truc
63
2-La covariance (suite)
Interprétation des résultats :
Covariance > 0 les variables ont tendance à varier dans le même sens
Covariance < 0 les variables ont tendance à varier en sens opposée
Plus la valeur absolue de la covariance est élevée plus la relation entre les variables est forte
S’il n’y a pas de tendance à la croissance ou à la décroissance entre les variables covariance nulle
La covariance est un indicateur de relation linéaire entre les variables
Covariance = 0 peut signifier une relation non linéaire.
64
3- Le coefficient de corrélation linéaireCovariance dépend des unités des variables
coefficient de corrélation linéaire.
Coefficient de corrélation linéaire :
-1 < r < 1 Si r = 1 ou r = -1 alors les points sont
parfaitement alignés.
yx
YXCOVr
),(
903,0
37,8*049,2
5,15r
65
4- La régression linéaire
Elle permet de caractériser quantitativement le lien entre deux variables afin d’établir des prévisions.
On cherche donc à déterminer l’équation de la droite qui «s’ajuste » le mieux au nuage :
baxy
66
4- La régression linéaire
Notation :
y : valeurs réelles (observées) de la variable y, il s’agit de la variable expliquée,
: valeurs estimées de la variable y obtenues à l’aide du modèle (l’équation de la droite),
X : variable explicative.
y
67
4- La régression linéaire
Représentation graphique
Magasin Truc
0
10
20
30
40
50
60
70
0 1 2 3 4 5 6 7 8
Nombre de spots publicitaires
CA
en
cen
tain
es d
e $
baxy ^
68
4- La régression linéaire
La droite de régression
a pour équation
)(
),(
XVar
YXCOVa
xayb
SemainesNombres de spots publicitaires (X)
CA en centaines de dollars (Y)
XY X2
1 2 50 100 42 5 57 285 253 1 41 41 14 6 54 324 365 5 54 270 256 1 38 38 17 6 63 378 368 3 48 144 99 4 59 236 16
10 7 65 455 49Total 40 529 2271 202
Moyenne 4 52,9 227,1
Cov(X,Y) = 227,1 - 4*52,9 = 15,5
Var (X) = 202/10 - 4 2 = 4,2
a = 15,5/4,2 = 3,69b = 52,9 - 3,69*4 = 38,14
ŷ = 3,69x + 38,14
Calcul de la de la droite de régression pour le magasin Truc
69
4-Régression linéaire : coefficient de déterminationCette droite explique-t-elle de façon satisfaisante les variations de y
(ou la variance de y)
La droite de régression passe par la covariance moy (ŷ) =
y
ŷi
on montre que
x
y
iy
yyi
^
yyi
yy^
yyyyyy ii
^^
SCRSCESCTyyyyyy ii
2^2^2
70
4-Régression linéaire : coefficient de détermination
Semaines
Nombres de spots
publicitaires (X)
CA en centaines de dollars (Y)
Ŷ (Y - Ŷ) (Y- my)2 (Ŷ - mŷ)
2(Y - Ŷ)2
1 2 50 45,52 4,48 8,41 54,48 20,082 5 57 56,59 0,41 16,81 13,62 0,173 1 41 41,83 -0,83 141,61 122,58 0,694 6 54 60,28 -6,28 1,21 54,48 39,455 5 54 56,59 -2,59 1,21 13,62 6,716 1 38 41,83 -3,83 222,01 122,58 14,667 6 63 60,28 2,72 102,01 54,48 7,398 3 48 49,21 -1,21 24,01 13,62 1,469 4 59 52,90 6,10 37,21 0,00 37,21
10 7 65 63,97 1,03 146,41 122,58 1,06Total 40 529 700,90 572,02 128,88
Moyenne 4 52,9 SCT SCE SCRSCE
a = 15,5/4,2 = 3,69 SCTb = 52,9 - 3,69*4 = 38,14
572,02700,9
SCT = 700,90 R2 = 81,61
ŷ = 3,69x + 38,14
572,02 + 128,88 =
Calcul de la covariance pour le magasin Truc
R2 =
R2 =
71
Régression linéaire : coefficient de déterminationR2 représente la part de la variabilité de Y « expliquée » par la droite de
régression.R2 1
Si les observations sont parfaitement alignées, il n’y a pas de différence entre y et ŷ pas de résidu SCT = SCE R2 = 1
Donc R2 exprime la qualité du modèle. Plus est proche de 1, meilleure est la qualité du modèle linéaire
Ici le nombre de spots publicitaires « explique » 81,61% de la dispersion des CA
Remarque : R2 = r2, uniquement pour un modèle linéaire
72
Statistiques Licence 2 LEA
Caroline Tahar