MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... ·...

27
_____________________________ Département TECHNIQUES DE COMMERCIALISATION Cours en ligne : sur l’ENT, section « outils pédagogiques », plateforme Claroline, catégorie TC, Cours « MATHS2 ». Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats aux devoir et partiel. Semestre 2 Statistiques descriptives et prévisionnelles ______________ à deux variables ______________ MATHEMATIQUES

Transcript of MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... ·...

Page 1: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

_____________________________Département TECHNIQUES DE COMMERCIALISATION

Cours en ligne : sur l’ENT, section « outils pédagogiques », plateforme Claroline, catégorie TC, Cours « MATHS2 ».

Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats aux devoir et partiel.

Semestre 2

Statistiques descriptives et prévisionnelles

______________ à deux variables ______________

MATHEMATIQUES

Page 2: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

SOMMAIRE

Cours et TD 3

I Introduction, vocabulaire 3

I-1 Objectifs 3

I-2 Mises en forme 3

II Paramètres des séries à deux variables 4

II-1 Tendance centrale 4

II-2 Dispersion 4

III Nuage de points et ajustement linéaire 6

III-1 Nuage de points 6

III-2 Problématique de l'ajustement linéaire 6

III-3 Méthode de Mayer 7

III-4 Méthode des moindres carrés 9

III-5 Coefficient de corrélation linéaire 10

IV Ajustement non linéaire : le changement de variable 12

V Statistiques prévisionnelles 13

V-1 Estimation ponctuelle 13

V-2 Estimation par intervalle de confiance 14

VI Particularités des tableaux de contingence 16

VI-1 Variables quantitatives et régression 16

VI-2 Test d'indépendance du χ² (Khi-deux) 18

Exercices 22

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 2 sur 25

Page 3: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

I Introduction, vocabulaire

I-1 Objectifs

Deux caractères seront ici étudiés simultanément sur chaque individu d'une population de taille n .

Les deux listes de valeurs des caractères forment deux variables quantitatives X et Y .

Objectifs : * faire apparaître un lien, une relation, entre ces deux caractères : une corrélation ;

modéliser cette corrélation par une fonction mathématique : régression ;

utiliser cette relation à des fins prévisionnelles, confiance en cette prévision.

* tester l'hypothèse qu'il n'y a pas de lien entre ces deux variables croisées

I-2 Mises en forme

Deux mises en forme des résultats peuvent apparaître, suivant l'étude menée :

1. Une observation (n° i) se décrira comme un couple de valeurs (x i ; y i).

exemple : lien entre quantité d'engrais épandu et production recueillie

parcelle n° X (kg.ha-1

) Y (q.ha-1

)

1 150 46 "liste"

2 80 37

3 120 46

4 220 51

5 100 43 n = 5

Ce type de cas sera étudié dans les parties II à V.

2. A deux valeurs x i et y j prises au hasard correspond un certain effectif "n ij"

exemple : lien entre âge et taille (mesures prises sur 200 personnes)

X : âge

Y : acuité "tableau de contingence"

1 5 10 20

8 12 25 18

55 26 14 6 n = 200

Ce type de cas sera exclusivement étudié dans la partie VI.

Remarque

Dans le cas d'un lien, il y a une relation de cause à effet entre les deux caractères.

La variable correspondant à la cause sera nommée variable explicative (le plus souvent X ),

celle correspondant à l'effet sera nommée variable expliquée (le plus souvent Y ).

3/10

20 40 50 60

quantité d'engrais production recueillie

9/10

6/10

1

2

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 3 sur 25

Page 4: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

II Paramètres des séries à deux variables

II-1 Tendance centrale

La moyenne de X et celle de Y sont bien entendu : et

déf Le point particulier est appelé de la série.

II-2 Dispersion

La variance de X et celle de Y sont bien entendu :

et

et leurs écarts-types : et

On appelle du couple (X ,Y ) le nombre :

théorème de Koenig : V(X ) = ; V(Y ) =

et Cov(X ,Y ) =

TD1 : paramètres d'une série à deux variables

1 - Calculs manuels

En se basant sur l'exemple 1 (engrais/récolte), calculer les paramètres définis ci-dessus :

1

( )( )

n

i

i

x x

V Xn

=

−=∑

2

1 ( )( )

n

i

i

y y

V Yn

=

−=∑

2

1

( )( )( )

,

n

i i

i

x x y y

Cov X Yn

=

− −=∑

1

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 4 sur 25

Page 5: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

2 - Utilisation de la calculatrice

En se basant sur l'exemple précédent, saisir les données dans les colonnes 1 et 2

de votre calculatrice, puis noter les résultats obtenus (en "2var", bien sûr).

Calculer alors les paramètres définis dans le cours.

Notez ci-dessous les actions

que vous avez effectuées sur votre calculatrice.

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 5 sur 25

Page 6: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

III Nuage de points et ajustement linéaire

III-1 Nuage de points

Dans un repère orthogonal, on porte les valeurs de X sur l'axe des abscisses et celles de Y sur l'axe

des ordonnées. Chaque couple (x i ; y i) donne lieu à un point Mi.

Exemple 3 : Voici les dépenses en publicité (en k€) d'un groupe de produits alimentaires :

X : année 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013

Y : dépense 41 60 55 66 87 61 90 95 82 120 125 118

III-2 Problématique de l'ajustement linéaire

Un nuage de points peut refléter un lien entre les deux variables si ses points ne sont apparemment pas

dispersés au hasard. Dans certains cas, ce nuage peut être de forme allongée, relativement fine, avec

un "axe" assez droit montrant une certaine tendance…

Peut-on trouver un axe, une droite, dans ce repère, qui "suive au mieux" l'ensemble du nuage ?

y

Imaginons que l'on ait tracé (D)

une droite (D), d'équation

y = ax + b.

Pour une valeur x i choisie, on observe

la valeur (ordonnée du point Mi du nuage)

et la valeur (sur la droite) =

x

définition : on appelle résidu le nombre

Vocabulaire

On l'appellera droite d'ajustement de la série et on dira qu'on fait un ajustement linéaire (ou affine ).

La pratique consistant à modéliser un nuage de points par une droite est appelée régression linéaire .

M3

×

×

M2

Mi

×

1 2 3 4 5 6 7 8 9 10 11 12 année (1 : 2002)

dépense (k€)

120

100

80

60

+

++

+

+

+

++

+

++

+

3

M1

×

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 6 sur 25

Page 7: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

III-3 Méthode de Mayer

Certains résidus sont positifs, d'autres négatifs.

L'idée de Mayer est de dire que la "meilleure" droite est celle pour laquelle la somme des résidus est nulle

(les résidus négatifs compensent les résidus positifs).

définition : on appelle principe de Mayer celui qui consiste à trouver une droite d'ajustement

conduisant à

étude mathématique :

Cette somme vaut zéro

propriété : la droite de Mayer, d'équation y = ax + b , contient le point moyen du nuage, G(x , y ).

remarque : cette propriété est en soi insuffisante pour trouver la droite de Mayer, puisqu'elle ne porte que sur

un point. Il existe une infinité de droites annulant la somme des résidus ! On montre que la droite

qui contient les points G1 et G2, points moyens de deux "demi-nuages", est l'une d'entre elles.

Méthode de Mayer :

Diviser le nuage de points en deux parties :

* Le nuage est divisé en deux nuages de même nombre de points (n /2) si n est pair

ou si n est impair, en un nuage de (n +1)/2 points et un autre de (n -1)/2 points.

* Les abscisses des points du premier nuage sont toutes inférieures à celles des points du second.

Calculer les coordonnées de G1 et G2, points moyens des deux nuages ;

Tracer la droite (G1G2), droite de Mayer, annulant la somme des résidus.

TD2 : Droite de Mayer d'une série

Avec l'exemple 1 :

quantité d'engrais production recueillie

parcelle n° X (kg.ha-1

) Y (q.ha-1

)

1 150 46

2 80 37

3 120 46 Ci-dessous, représenter

4 220 51 le nuage de points et

5 100 43 la droite de Mayer de la série.

coordonnées des points moyens :

Trouver l'équation de la droite de Mayer :

n

i

i

e=

=∑1

0

( )i i i i ie y ax b y a x nb= − − = − −∑ ∑ ∑ ∑

i issi y a x n b ssi y ax bn n n

− − = − − =∑ ∑1 1 1

0 0

1

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 7 sur 25

Page 8: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

TD3 : Lissage d'une série chronologique :

moyennes mobiles, droite de Mayer

Considérons l'évolution du chiffre d'affaires d'une entreprise.

tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4

(M€) 28 45 49 36 30 44 48 40 28 46 52 37 31 42 54 39

Outre les variations saisonnières liées à son secteur d'activités, peut-on avoir une vision plus claire de

son évolution et voir se dégager une tendance ?

1 - Droite de Mayer

La méthode (grossière) consiste à couper la période étudiée en deux périodes de même durée, puis

à calculer leurs deux valeurs moyennes, à placer les deux points moyens correspondants, et enfin

à les relier par une droite : la droite de Mayer.

2 - Les moyennes mobiles

Objectif : tracer une courbe comportant moins de points et plus régulière, montrant une tendance.

Chaque nouveau point est un point moyen de 2, ou 3, ou 4, ou …, points initiaux.

Par exemple : représentons les moyennes mobiles groupées par 5 points :

(faire un travail de groupe, mutualiser les calculs)

moyenne moyenne moyenne

valeurs 1 à 5 valeurs 2 à 6 valeurs 3 à 7

explications :

etc… etc… etc…

12 à 16etc…etc…etc… etc…

etc…

20122009 2010 2011

2009 2010 2011 2012

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 8 sur 25

Page 9: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

III-4 Méthode des moindres carrés

L'idée de cette méthode est de considérer le carré de chaque résidu, puis la somme de ces carrés,

et enfin de dire que la "meilleure" droite est celle qui rend cette somme minimale (obtenir la plus petite

somme possible, en considérant l'infinité des droites du plan).

définition : On appelle principe des moindres carrés celui qui consiste à trouver une droite d'ajustement

conduisant à

étude mathématique : posons : : polynôme de deux

variables a et b .

On peut développer ce polynôme d'au moins deux manières différentes :

(1)

qui est un trinôme du second degré en b ;

(2)

qui est un trinôme du second degré en a .

Dans ce contexte, on peut suivre cet itinéraire :

* considérons a constant et b variable. P(a,b) (1) est minimal lorsque sa dérivée par rapport à b

s'annule (son 1er coefficient, n , est positif), ce qui conduit à ;

* considérons que b a la valeur précédemment trouvée, et que a est variable. P(a,b) (2) est alors

minimal lorsque sa dérivée par rapport à a s'annule, ce qui conduit à

Pour les férus de calcul : essayez de retrouver les deux résultats précédents !

remarque : l'expression de b entraîne que la droite trouvée contient le point moyen G du nuage.

méthode des moindres carrés :

Calculer les coefficients puis

Ecrire l'équation de la droite de régression de Y en X , D Y/X : y = ax + b

TD4 : Droite d'ajustement suivant la méthode des moindres carrés

Reprendre l'exemple 3 et réaliser l'ajustement linéaire suivant la méthode des moindres carrés ;

Tracer cette droite sur le graphique déjà établi et vérifier qu'elle contient G .

Calculs :

n

i

i

e est minimum sur le nuage=∑

2

1

( ) ( ),2

i iP a b y ax b= − −∑

( ) ( ) ( ) ( ), ( )i i i i i i

P a b y ax b nb b y ax y ax= − − = − − + −∑ ∑ ∑2 22 2

( ) ( ) ( ) ( ), ( )i i i i i i iP a b y b ax a x a x y b x y b= − − = − − + −∑ ∑ ∑ ∑ ∑2 22 2 2

b y ax= −

( )( )

. ,i i

i

x y x y Cov X YnaV X

x xn

−= =

∑2 2

1

1

( )( )

,Cov X Ya

V X= b y ax= −

3

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 9 sur 25

Page 10: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

III-5 Coefficient de corrélation linéaire

Un nuage de points présente un lien plus ou moins fort entre deux variables X et Y , qui se révèle parfois sous la forme

d'un nuage de forme allongée et plutôt droite : dans ce cas on parle bien entendu de corrélation linéaire .

Le but du coefficient de corrélation linéaire est de chiffrer cette tendance.

déf coefficient de corrélation linéaire

entre X et Y : r =

On montre que quelle que soit la série statistique, on a toujours

(en pratique, la majuscule R ou la lettre grecque ρ sont souvent employées pour désigner ce coefficient)

Sur la calculatrice :

En général, une calculatrice le note r . Certains modèles ne le calculent pas.

On choisira donc toujours de calculer soi-même un coefficient de corrélation linéaire.

Interprétation de sa valeur :

Plus la corrélation linéaire est forte (nuage tendant vers une droite), plus |r | est proche de 1.

r est positif lorsque Y est globalement fonction croissante de X "corrélation positive"

r est négatif lorsque Y est globalement fonction décroissante de X "corrélation négative"

0 ≤ |r | ≤ 0,5 : corrélation linéaire faible, modèle linéaire inadapté.

0,5 ≤ |r | ≤ 0,75 : corrélation linéaire moyenne, modèle linéaire peu fiable.

0,75 ≤ |r | ≤ 0,95 : corrélation linéaire assez forte, modèle linéaire pas forcément le meilleur.

0,95 ≤ |r | ≤ 1 : corrélation linéaire très forte, modèle linéaire parmi les plus adaptés.

Remarques :

* lien concrêt ? Un coefficient de corrélation linéaire proche de 1 (ou de -1) rend compte d'un

nuage de points presque alignés, mais ne dit pas que les variables X et Y sont concrêtement liées.

exemple : en France, de 1974 à 1981, le taux de mariages a baissé de manière quasi linéaire, alors

que le PIB a augmenté de manière quasi linéaire. Le quatrième graphique, ci-dessous, montre le

nuage de points obtenu en croisant ces deux variables : la corrélation est très forte.

Cependant, il n'y a pas de relation de cause à effet entre les deux ! (l'évolution du taux de

mariage après 1981 ne correspond plus à la droite d'ajustement).

* corrélation linéaire r ne rend compte que d'une corrélation linéaire . Il se peut que la corrélation

entre X et Y soit très forte, mais sans que le nuage de points suive une droite. Dans ce cas,

r est éloigné de 1 et de -1, et il faudra prolonger l'étude (voir II-4).

Quelques exemples : taux de réussite en collège / % de CSP défavorisées

revenus (€)

ancienneté

R = 0,8449 (semaines)

R = -0,7457

-1 ≤ r ≤ 1

Cov(X, Y)

σ(X)σ(Y)

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 10 sur 25

Page 11: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

marge unitaire (€/u) taux de mariage en fonction du PIB

quantité (milliers d'u)

R = 0,6438

R = -0,9875

TD5 : Corrélation linéaire

Calculer les coefficients de corrélation linéaire des exemples 1 et 3.

1

3

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 11 sur 25

Page 12: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

IV Ajustement non linéaire : le changement de variable

Il est pratiqué lorsque le nuage de points semble suivre la courbe d'une fonction.

La fonction à envisager sera toujours indiquée dans un énoncé. Elle peut être notamment :

* une fonction logarithme ou exponentielle

* une fonction du second degré ou puissance

* une fonction trigonométrique

TD6 : Changement de variable

Exemple et méthodologie :

Soit le tableau de données suivant :

Pour un deux-roues, on a relevé simultanément la vitesse X

(km.h-1

) et la consommation Y (L par 100 km) :

X 10 20 30 40 50 60 70 80 90

Y 15,2 11,6 9,3 7,8 7 6,6 6,9 8 9,6

Ces points semblent suivre une parabole dont le sommet a pour

abscisse 60. L'énoncé dira :

Soit la variable T = (X - 60)². Etudier la corrélation linéaire

des variables T et Y .

Ce que vous devez faire :

Changement de variable : remplacement de X par T .

T

Y

Déterminer le coefficient de corrélation linéaire du couple (T , Y ), interpréter.

Déterminer une équation de la droite de régression de Y en T par la méthode des moindres carrés.

En déduire l'expression de la régression curvilinéaire donnant Y en fonction de X .

Représenter sur le graphique la courbe de cette fonction.

8 9,66,6 6,97,8 715,2 11,6 9,3

0

2

4

6

8

10

12

14

16

0 10 20 30 40 50 60 70 80 90 100

4

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 12 sur 25

Page 13: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

V Statistiques prévisionnelles

V-1 Estimation ponctuelle

La droite d'ajustement obtenue (sans ou avec changement de variable) permet de par son équation

d'estimer une valeur de la variable expliquée Y en choisissant une valeur non explorée de la variable

explicative X (en général supérieure à celles récoltées dans la série).

En l'occurrence, si X représente une date, il est permis de faire une prévision sur le futur.

TD7 : Estimation ponctuelle

1 - Avec l'exemple 3, estimer la dépense publicitaire à prévoir en 2013.

2 - Avec l'exemple 1, estimer la quantité d'engrais à épandre pour récolter 60 q/ha.

3 - Avec l'exemple 4, estimer la consommation à une vitesse de 100 km/h.

3

1

4

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 13 sur 25

Page 14: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

V-2 Estimation par intervalle de confiance

La valeur donnée par une estimation ponctuelle est à prendre avec du recul : suivant la valeur du coefficient

de corrélation linéaire (donc suivant la dispersion du nuage de points), on peut lui faire plus ou moins confiance.

L'idée ici est de donner une fourchette pour l'estimation faite, plutôt qu'une valeur unique, et de savoir dire

quelle est la probabilité que la valeur réelle, non encore mesurée, se trouve dans cet intervalle.

Méthode des rapports (en corrélation linéaire, pour estimer y à partir de x ) :

1. Pour chaque valeur x i du tableau de données :

* calculer les valeurs y 'i d'après l'équation de la droite de régression

* calculer les rapports z i = y i / y 'i

* calculer la moyenne et l'écart-type des valeurs z i de la variable Z

2. On fait ensuite l'hypothèse, souvent très proche de la réalité, que les valeurs de Z suivent

une loi normale , cadre mathématique bien défini par une certaine répartition des valeurs

autour de leur moyenne. Il en découle entre autres que :

95 % des valeurs de Z se trouvent dans l'intervalle

99 % des valeurs de Z se trouvent dans l'intervalle

3. Calculer la valeur y '0 associée à la nouvelle valeur souhaitée x 0, d'après la régression linéaire.

On estime alors la valeur réelle y 0, inconnue, comme suit :

Il y a 95% de chances que y 0 se trouve dans

Il y a 99% de chances que y 0 se trouve dans

remarques : * cette méthode n'est valable que pour r > 0 (corrélation positive)

* le taux (95%, 99%, etc.) s'appelle niveau de confiance de l'estimation.

Son complémentaire (5%, 1%, etc.) est le seuil de risque .

* l'amplitude d'un tel intervalle de confiance (donc l'incertitude) augmente lorsque

. le niveau de confiance désiré augmente,

. |r | diminue,

. x 0 s'éloigne des valeurs x i de la série relevée.

[ ], ; ,z z

z zσ σ− +1 96 1 96

( ) ( )' , ; ' ,z zy z y zσ σ− + 0 01 96 1 96

[ ], ; ,z zz zσ σ− +2 58 2 58

( ) ( )' , ; ' ,z z

y z y zσ σ− + 0 02 58 2 58

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 14 sur 25

Page 15: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

TD8 : Estimation par intervalle de confiance

1 - Avec l'exemple 3, estimer la dépense publicitaire à prévoir en 2013 par un intervalle de confiance

au niveau de confiance de 95%.

2 - Avec l'exemple 1, estimer la récolte pour 300 kg/ha d'engrais épandus, par un intervalle de

confiance à 99%.

3

1

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 15 sur 25

Page 16: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

VI Particularités des tableaux de contingence

Une observation, donc ici un couple de valeurs (x , y ), peut avoir été observée sur plus d'un individu.

Dans ce cas, on peut former ce qu'on appelle un tableau de contingence :

* en colonnes (par exemple) les différentes valeurs de X , les x i ;

* en lignes celles de Y , les y j , pas forcément en même nombre que celles de X ;

* en contenu, chaque effectif ; l'effectif correspondant à x i et y j se notera alors n ij .

VI-1 Variables quantitatives et régression

exemple : relation entre acuité visuelle et tranche d'âge

X : âge * Les colonnes sont composées des valeurs du

Y : acuité caractère X : tranche d'âge ; x 1, x 2, x 3, x 4.

3/10 1 5 10 20 * Les lignes sont composées des valeurs du

6/10 8 12 25 18 caractère Y : acuité ; y 1, y 2, y 3.

9/10 55 26 14 6 * L'intérieur du tableau est composé des nombres

n = 200 de personnes étudiées correspondant aux critères.

Le nombre 25, par exemple, correspond aux caractères x 3 et y 2. On notera : n 32 = 25.

remarque : les variables X ou Y pourraient être continues, donc exprimées en classes.

A ce moment-là, on prend pour valeurs de X ou Y les centres des classes.

Comment, alors, calculer les moyennes, variances, et la covariance ?

La calculatrice (et une personne traitant manuellement les données) calcule les sous-totaux

des colonnes et des lignes : effectifs marginaux , ainsi que le total : effectif total de la série

X : âge

Y : acuité

3/10

6/10

9/10

n i.

Les effectifs marginaux n i. correspondent à chaque valeur de X .

On calculera donc E(X) et V(X) avec ces effectifs.

Les effectifs marginaux n .j correspondent à chaque valeur de Y .

On calculera donc E(Y) et V(Y) avec ces effectifs.

Pour Cov(X , Y ), chaque effectif individuel doit être multiplié par les valeurs de X et de Y associées.

Les lignes et colonnes qui ont été rajoutées ici au tableau initial correspondent à ce qu'il

faudrait réaliser manuellement pour arriver à nos fins. Les résultats chiffrés de cet exemple

sont présentés en début de TD10.

Bien entendu, vous n'aurez pas à faire tout cela par vous-même : il faudra plus simplement

être capable d'utiliser les résultats pré-calculés par votre calculatrice pour obtenir les

paramètres demandés par tel ou tel exercice.

n i.x i

n i.x i²

Sn ijx iy jSn 1jx 1y j Sn 2jx 2y j Sn 3jx 3y j Sn 4jx 4y j

Sn i.x i

Sn i.x i²

n 1. n 2. n 3. n 4. N Sn .jy j

n 13 n 23 n 33 n 43

n .2 Sn i2x iy 2n 12 n 22 n 32 n 42

n 11 n 21 n 31 n 41

60n .j n .jy j n .jy j²

20 40 50

6020 40 50

n .1

n .3

Sn .jy j²

Sn i1x iy 1

Sn i3x iy 3

Sn ijx iy j

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 16 sur 25

Page 17: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

TD9 : Calculs des paramètres dans un tableau de contingence

Reprenons l'exemple donné, complété suivant les instructions ci-dessus :

X : âge

Y : acuité

3/10

6/10

9/10

n i.

Saisissez le tableau de contingence (valeurs de X et de Y , effectifs) sur votre calculatrice.

Donnez les résultats qu'elle vous renvoie en mode stat.

Vous vérifierez que certains correspondent aux cellules grisées du tableau donné page précédente.

Donner l'équation de la droite de régression de Y en X suivant les moindres carrés.

Donner un intervalle de confiance à 99 % de l'acuité visuelle d'une personne de 80 ans.

107,73 523864 43 49 44 200 139,5

158400 37530068800 122500

n i.x i1280

n i.x i² 25600

2640

52381092 1284 1530 1332

101 90,9 81,81 288055 26 14 6

80901720 2450

1 5 10 20 36 10,8 3,24 576

22,68 17828 12 25 18 63 37,8

20 40 50 60n .j n .jy j n .jy j²

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 17 sur 25

Page 18: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

VI-2 Test d'indépendance du χχχχ² (Khi-deux)

Un test statistique consiste à décider si une hypothèse donnée peut ou ne peut pas être rejetée.Cette hypothèse est formulée au départ et est nommée "hypothèse nulle", H0.

Si la décision conduit à un rejet de H0 (on répond "non" au test), cela se fait avec un certain risque

de se tromper, risque dont la probabilité est nommée "seuil de risque" et notée αααα .

Le cas particulier du test d'indépendance :

Une étude croise deux variables en général qualitatives (dans l'exemple du prochain TD : sexe etrelation au tabac), variables dont on souhaite estimer, chiffrer, la dépendance au sein d'une population, à partir de la seule connaissance de la répartition des citations (effectifs) dans le tableau croisé obtenu d'un échantillon interrogé.

En cas d'indépendance, les réponses sont censées se répartir uniformément dans le tableau,en respectant simplement la proportion des sous-totaux imposés (par exemple : on a interrogé un certainnombre d'hommes et un certain nombre de femmes, nombres éventuellement différents).

Le but ici est de comparer la réalité des observations à cette répartition idéale d'indépendance,d'en tirer une valeur, "χ²" (prononcer Khi-deux), symbolisant un "écart à l'indépendance" constaté surl'échantillon étudié, puis enfin de juger si cet écart est anormalement grand ou pas.

Méthodologie du test :n observations sont faites : n individus sont évalués sur deux variables X et Y .On suppose que le caractère X présente r modalités différentes,et que Y présente k modalités.

L'hypothèse nulle H0 est par convention : les variables sont indépendantes

Le test compare la réalité à ce qu'aurait donné l'indépendance parfaite.

On rejette cette hypothèse lorsque la distribution observée diffère trop de la distribution théorique.

1. Calcul du χ²* tableau des observations sur n individus

* tableau de répartition théorique dans le cas de l'indépendanceOn construit un tableau sur le même modèle, où les sous-totaux et le total général sontrespectés, mais où les effectifs thij respectent les proportions des sous-totaux par rapport à n .

* calcul du χ² total entre observation et théorie : χχχχ²calc.

2. Seuil de non-rejetLa variable χ² exprime la différence globale, aléatoire, entre ce que peut donner n'importe quel échantillon issu d'une population où règne l'indépendance, et ce qu'aurait donné unéchantillon parfaitement représentatif de la population (ce qui est en général rare).

Cette variable suit une loi du même nom, réglée par son nombre de degrés de liberté (ddl).ddl = (r - 1)(k - 1)

A chaque χ² possible correspond une probabilité "αααα " qu'un échantillon a de le dépasser.

On fait alors une lecture, dans la table de la loi du χ², du seuil χχχχ²lim (connaissant p = 1 - α )

3. Comparaison et décisionSi χχχχ²calc (calculé entre les tableaux) > χχχχ²lim (donné par la table de la loi), alors on peut

rejeter l'hypothèse nulle (l'indépendance), mais au risque αααα de se tromper.

Y1 Y2 … Yk total X

X1

X2

Xr obsr1 effobs r2 … obsrk total Xr

total Y

obs11 obs12 … obs1k total X1

obs21 obs22 … obs2k total X2

… … … … …

total Y1 total Y2 … total Yk n

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 18 sur 25

Page 19: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

TD10 : Test du χχχχ² d'indépendance de deux variablesLa position d'une personne vis-à-vis du tabac est-elle indépendante de son sexe au seuil de 10 % ?Voici les résultats d'une enquête portant sur 85 hommes et 61 femmes :

S : caractère "sexe" T : caractère "position vis-à-vis du tabac"Sh : hommes Tj : n'ont jamais fuméSf : femmes Tf : sont fumeurs

Ta : ont arrêté

observations : effectifs théoriques sous l'hypothèse H0 :

Sh Sf

Tj 26 20 Tj

Tf 44 28 Tf

Ta 15 13 Ta

1. Placer les sous-totaux et le total général du tableau d'observations2. Reporter ces valeurs dans le tableau théorique reflétant l'indépendance, puis le compléter

par le calcul (6 valeurs th centrales) : l'indépendance se traduit par un tableau de proportion

3. Rédaction du test et de la décision, au seuil de 10 % :

Hypothèse nulle :

Calcul du χ²

Valeur de la variable aléatoire χ² calculée entre l'échantillon et la théorie : χ²calc =

Seuil de non-rejet

Seuil de risque : α = 1 - p = Nombre de ddl : (r-1)(k-1) =

Valeur de la variable aléatoire χ² limite avant rejet : χ²lim =

Comparaison et décision :

S : caractère "sexe" Sh : hommesSf : femmes

T : caractère "position vis-à-vis du tabac"Tj : n'ont jamais fuméTf : sont fumeursTa : ont arrêté

Sh Sf

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 19 sur 25

Page 20: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

TD11 : Test du χχχχ² d'indépendance de deux variables : exemple concretExemple d’utilisation de ce test lors d’un projet réalisé par des étudiants de seconde année :

Un sondage a été réalisé sur un échantillon de 335 personnes (180 hommes, 155 femmes).Les données sont récoltées dans le logiciel Sphinx (traitement statistique), que vous utiliserezavec M.Gonzales.

* Une des questions portait sur les stations de radio écoutées (plusieurs réponses possibles par personne), ce qui a donné les tableaux suivants (les non-réponses n’ont pas été comptabilisées) :Ces pourcentages sont des « taux de pénétration » : Voici le tableau exprimé en « citations » Europe 1 touche 56,70% des hommes, etc : (nombre de réponses)

Remarque : les sous-totaux se dénomment « effectifs marginaux »

On peut réaliser ci-dessous un tableau d’effectifs et représenter ci-dessous les valeurs des c² partielsthéoriques respectant les effectifs marginaux : (obs - th)²/th, et en faire le total (c²calc) :

Le logiciel Sphinx donne le résultat précédent, arrondi à deux décimales : Khi2 = 7,92puis en déduit un seuil de risque (qu'il note « p »…). Il donne l’information suivante : 1 – p = 83,95 %.

Dans quelle mesure cette valeur est-elle compatible avec les informations que vous pouvez trouver dans la table du Khi2 ?

Quelle signification peut-on donner aux 83,95 % indiqués par Sphinx ?

* Remarque 1 : En pratique, on rejette l’hypothèse nulle d’indépendance tant que ce pourcentage est inférieur à 95%, ce qui est le cas ici.

Station/Sexe: Homme Femme TOTAL station/Sexe: Homme Femme TOTAL

Europe1 0,567 0,51 0,54 Europe1 102 79 181

Fr.Cult/Mus 0,106 0,129 0,116 Fr.Cult/Mus 19 20 39

France Info 0,311 0,232 0,275 France Info 56 36 92

France Inter 0,317 0,316 0,316 France Inter 57 49 106

RMC 0,144 0,252 0,194 RMC 26 39 65

RTL 0,267 0,239 0,254 RTL 48 37 85

TOTAL 308 260 568

station/Sexe: Homme Femme TOTAL station/Sexe: Homme Femme TOTAL

Europe1 98,15 82,85 181 Europe1 0,1512 0,1791 0,3303

Fr.Cult/Mus 21,15 17,85 39 Fr.Cult/Mus 0,2182 0,2584 0,4766

France Info 49,89 42,11 92 France Info 0,7490 0,8873 1,6362

France Inter 57,48 48,52 106 France Inter 0,0040 0,0047 0,0087

RMC 35,25 29,75 65 RMC 2,4257 2,8735 5,2992

0,0936 0,1726

TOTAL 308 260 568 TOTAL 3,6270 4,2966 7,9237RTL 46,09 38,91 85 RTL 0,0790

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 20 sur 25

Page 21: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

* Remarque 2 : On peut analyser en particulier la liste des rapports Khi2 partiel / Khi2 total, en pourcentage, pour voir à quels endroits la contribution d’un écart observation/indépendance est la plus forte :

(Sphinx arrondit ces pourcentagesà l'entier et place devant eux unsigne moins lorsque la valeurobservée est inférieure à lavaleur théorique)

Donner une interprétation de ces résultats :

En conclusion :Le Khi2 observé et le niveau de confiance qui en découle sont des informations globales, il conviendra d’observer en détail quelles réponses contribuent le plus à la valeur c²calc et donc à la dépendance

des deux caractères que l’on confronte.

écoute rpn/Sexe: Homme Femme

Europe1 1 -2

-2 3

RTL 0 -1

France Info 9 -11

France Inter 0 0

RMC -30 36

Fr.Cult/Mus

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 21 sur 25

Page 22: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

Exercice 1 ajustement affine

On a comparé l'indice de pouvoir d'achat des habitants d'un pays au chiffre d'affaires de son industrie automobile :

pouvoir d'achat (indice) X

CA automobile (G€) Y

1) Donner une équation de la droite de régression de Y en X suivant la méthode de Mayer.

2) Par estimation ponctuelle faite sur cette régression, dire quel indice de pouvoir d'achat il faudrait

atteindre pour que l'industrie automobile atteigne un CA de 10 G€ (10 milliards d'euros).

3) Une bonne corrélation linéaire entre deux variables est-elle le signe d'une forte relation de cause à effet

de l'une vers l'autre ?

Exercice 2 ajustement affine

Les recettes mensuelles d'un site internet commercial sont listées ci-dessous, de janvier à décembre 2010 :

en k€ : 3 5 4 8 10 9 13 12 17 18 18 21

1) Décrire en quelques mots la méthode des moindres carrés.

2) En se basant sur la tendance générale de l'évolution de la recette mensuelle, avec la méthode des

moindres carrés, donner l'intervalle de confiance à 95% de la recette de décembre 2011.

(numéroter les mois à partir de 1 pour janvier 2010)

3) Quelle est la probabilité qu'en décembre 2011 la recette soit inférieure à 29,23 k€ ?

4) Représenter le nuage de points (échelle 2 cm pour un mois), la droite de régression

et enfin l'intervalle de confiance trouvé.

Exercice 3 ajustement affine

ville X Y Le tableau ci-contre regroupe huit grandes villes d'un pays.

A 850 58 La variable X donne, en milliers, le nombre d'habitants de la ville ;

B 623 37 la variable Y donne, en milliers, le nombre d'étudiants de cette ville.

C 587 38

D 360 20 1) En annexe, représenter le nuage de points de cette série.

E 312 16 2) Donner les coordonnées de G, point moyen du nuage.

F 275 15 3) a. En appliquant la méthode de Mayer, déterminer manuellement

G 262 12 l'équation de la droite de régression du nuage de points.

H 244 12 b. Tracer cette droite. Contient-elle G ?

c. Donner le "principe de Mayer".

4) On utilisera ici une autre droite de régression, dont l'équation est : y ' = 0,07x - 6.

a. En s'appuyant sur cette droite, donner l'intervalle de confiance à 95% du nombre d'étudiants inscrits

dans une ville de deux millions d'habitants.

b. Que dire de la probabilité que le nombre d'étudiants de cette ville dépasse 155000 ?

Exercice 4 ajustement affine

Le tableau suivant indique le prix de vente (€) d’une machine et le nombre d’exemplaires vendus sur quatre ans.

rang de l'année

prix de vente X

nombre de ventes Y

1) Représenter le nuage des points M i de coordonnées (x i , y i ) dans le plan muni d’un repère orthogonal.

On prendra pour origine du repère le point de coordonnées (210, 160), et les échelles

1 cm pour 15 € sur l’axe des abscisses et 1 cm pour 10 unités sur l’axe des ordonnées.

Vérifier qu’un ajustement affine paraît justifié.

2) Déterminer les coordonnées du point moyen G du nuage. Le placer sur la figure.

3) a) Déterminer une équation de la droite D de régression de Y sur X par la méthode des moindres carrés.

Les coefficients seront déterminés à 10-3 près.

b) Construire cette droite de régression sur le graphique du 1°)

4) En quelle année a-t-on eu le chiffre d’affaires le plus élevé ? Quel est ce chiffre d’affaires ?

210 270 375

4

EXERCICES

59400 50400 59940 60000198 240

9,479,3 9,56 9,36 9,24

3,63,26 3,85 3,44 3,08

1 2 3

222 160

300

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 22 sur 25

Page 23: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

pour aller plus loin :

5) On suppose maintenant que, chaque année, le nombre d’exemplaires vendus y et le prix de vente x suivent

la relation : y = – 0,498x + 349.

On note S (x ) le chiffre d’affaire réalisé en vendant y machines valant chacune x francs.

a) Exprimer S (x ) en fonction de x .

b) Étudier les variations de la fonction S définie sur [210 ; 375] par x → S (x ).

c) En déduire le prix de vente d’une machine l’année de rang 5 si l’on veut que la somme encaissée S (x )

soit maximale. Quel sera le nombre d’exemplaires vendus, à une unité près ?

Quelle sera alors la somme encaissée ?

Exercice 5 ajustement du second degré

Une entreprise a noté son bénéfice réalisé Y en fonction de la quantité produite et vendue X :

2 3 5 7 11

38 55 72 69 24

1) A l'aide de la calculatrice, donner le coefficient de corrélation linéaire entre X et Y . Interpréter.

2) On introduit la variable T = -(X - 6)².

a. Compléter le tableau.

b. Calculer, à l'aide de la calculatrice, Cov(T , Y ) puis leur coefficient de corrélation linéaire.

c. Un ajustement affine de Y sur T est-il justifié ?

d. Donner l'équation de la droite de régression de Y sur T par la méthode des moindres carrés.

e. En déduire une expression de la régression de Y sur X .

3) Sur un graphique, placer le nuage de points (x i, y i) ainsi que la courbe dont l'équation a été trouvée

à la question 2)e.

Exercice 6 ajustement du second degré

Une étude de marché a été conduite sur un nouveau type de produit. Le tableau ci-dessous donne, pour

plusieurs prix de ventes proposés, le nombre de personnes prêtes à payer ce prix-là.

X

Y

1) Calculer la covariance des variables X et Y puis interpréter son signe.

2) On pose T = X (X - 20)

a. Calculer le coefficient de corrélation linéaire entre les variables T et Y .

b. Interpréter sa valeur.

c. Donner l'équation de la droite de régression de Y sur T (méthode des moindres carrés).

d. En déduire une expression développée de Y en fonction de X .

3) On examine ici le chiffre d'affaires attendu (prix unitaire de vente × nombre de ventes), si les nombres

de citations obtenus lors du sondage sont autant d'unités vendues.

a. Calculer les différents chiffres d'affaires CA issus du tableau de citations.

b. Calculer, pour les mêmes valeurs de X , les chiffres d'affaires CA' obtenus grâce à la formule

obtenue à la question 2)d.

c. Quel prix unitaire de vente fixeriez-vous, pour obtenir le meilleur chiffre d'affaires possible ?

Exercice 7 ajustement inverse

Une enseigne de parfumerie, lors de l'analyse de son chiffre d'affaires, met en relation les nombres ( Y ) de ventes

de différentes marques et différents modèles de parfum avec les prix (X ) des flacons.

Les résultats sont consignés dans le tableau suivant :

X , prix du flacon (€) 15 25 30 40 45 60 75 90

Y , quantité vendue 202 117 107 82 78 60 55 48

Dans les questions commençant par "calculer", on s'aidera des résultats intermédiaires de la calculatrice.

1) a. Calculer la covariance des variables X et Y ; interpréter son signe.

b. Calculer le coefficient de corrélation linéaire de X et Y ; interpréter sa valeur.

2) Pour une étude plus précise de la relation entre X et Y , on décide d'un changement de variable :

a. Après avoir calculé les différentes valeurs de T dans une troisième liste de votre calculatrice,

justifier que la corrélation linéaire entre T et Y est excellente.

b. Donner l'équation de la droite de régression de Y en T , selon la méthode des moindres carrés.

c. Rappeler le critère des moindres carrés.

d. Déduire de la question 2)b une expression modélisée de Y en fonction de X .

e. D'après cette modélisation, combien de flacons d'un parfum coûtant 150€ est-on supposé vendre ?

5 6 74

34 25

X (tonnes)

Y (k€)

T

prix à l'unité (€) 2 3

nombre de citations 47 18 1466

TX

= 850

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 23 sur 25

Page 24: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

Exercice 8 ajustement logarithmique

Dans cet exercice tous les résultats seront donnés par leur valeur approchée à 10 -3 près. On a étudié la

durée de vie d’un certain nombre équipements bureautique identiques. Dans le tableau suivant, t i représente

la durée exprimée en milliers d'heures et R(t i ) le pourcentage d’équipements encore en service à la date t i .

(par exemple, au bout de 1000 heures, il reste 90 % d’équipements en service, et R(t i ) = 0,90).

1) On pose y i = ln R (t i ) où ln désigne le logarithme népérien. Remplir le tableau suivant puis représenter le

nuage de points M i de coordonnées (t i , y i ) dans le plan muni d’un repère orthogonal.

2) Peut-on envisager un ajustement affine du nuage précédent ?

Calculer le coefficient de corrélation linéaire de la série statistique de variables T et Y .

3) Déterminer par la méthode des moindres carrés une équation de la droite de régression de Y sur T .

En déduire qu’il existe deux nombres réels positifs k et λ, tels que l'ajustement précédent donne :

R (t ) = k e-λλλλt

.

4) Dans cette question on prend k = 1,174 et λ = -0,266.

a. Déterminer le pourcentage d’équipements encore en service au bout de 10000 heures de fonctionnement.

b.Déterminer la date t 0 à laquelle 50 % des équipements sont encore en service.

5) Dans cette question on cherche un intervalle de confiance du pourcentage restant en service au bout de

10000 heures de fonctionnement.

a. Calculer les valeurs y 'i issues de la régression linéaire de Y sur T .

b. Calculer les valeurs z i = y i/y 'i, puis la moyenne et l'écart-type de Z .

c. En déduire un intervalle de confiance à 95% de y pour t = 10.

d. Quel est alors l'intervalle de confiance à 95% de R ?

Exercice 9 tableau de contingence

500 personnes ayant obtenu leur permis de conduire sont classées dans le tableau ci-dessous.

Elles sont réparties en fonction du nombre X de fois qu'elles ont tenté l'épreuve de conduite avant de la réussir

et du nombre Y d'heures de conduite passées en présence d'un moniteur (ces 500 personnes n'ont pas bénéficié

de la conduite accompagnée) avant la première tentative.

X Y 1) Qu'est-ce qu'un effectif marginal ?

Donner un exemple à partir de ce tableau.

1 2) Décrire brièvement la marche à suivre pour saisir les

2 données de ce tableau correctement sur calculatrice.

3 3) Calculer la covariance du couple (X, Y) et interpréter

4 la valeur trouvée (on sera concret).

4) Parmi les personnes qui ont pris entre 15 et 25 h de leçons de conduite, quel est le taux de celles qui ont obtenu

leur permis au troisième essai ?

5) Parmi les personnes qui ont obtenu leur permis au troisième essai, quel est le taux de celles qui ont pris

entre 15 et 25 h de leçons de conduite ?

Exercice 10 tableau de contingence

Un commercial analyse son activité et son efficacité. Y

A chaque visite chez un client potentiel, il a noté le temps X 0 1 2 3

(X , en minutes) pendant lequel il a présenté son produit, 3 2 2 0

ainsi que la quantité (Y ) vendue. L'intérieur du tableau 0 4 8 7

se compose des nombres de visites correspondant 1 5 12 3

à chaque couple (X , Y ).

[0 ; 15[ [15 ; 25[ [25 ; 40[

y i

t i 1 2 3 4 5 6 7 8

0,4

5

0,32

8

0,14

9

0,1

9

6

0,25

7

0,19

t i

R (t i )

1 3

0,53

4

0,9

2

0,66

[0 ; 10[

[10 ; 20[

[20 ; 30[

42 35 13

12 6 3

23 92 80

77 84 33

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 24 sur 25

Page 25: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

1) Que signifie l'effectif "8" du tableau ?

2) Calculer manuellement le temps moyen passé par visite.

3) Donner la covariance du couple (X , Y ).

Exercice 11 tableau de contingence

Reprenons l'exemple du début du cours : 100 enfants répartis en fonction de leur âge et de leur taille.

taille Y (cm)

âge X (ans) x i y j

1) Saisissez ce tableau sur calculatrice.

2) Calculer alors la variance et l'écart-type de X et de Y , et leur covariance.

3) Calculer leur coefficient de corrélation linéaire. Interpréter cette valeur.

4) Au vu du tableau, voit-on néanmoins se dégager une tendance ?

5) En considérant que la relation entre âge et taille est linéaire jusqu'à l'âge de 12 ans,

donner l'intervalle de confiance à 95% de la taille d'un enfant de 12 ans.

Exercice 12 test d'indépendance du Khi-2

Pour l’élection présidentielle, deux candidats sont en présence, S. R. et N. S.

Dans un village du Nord de la France, il y a 500 électeurs, dont 100 sont retraités, 50 sont chômeurs,

et 350 sont actifs.

Les résultats des élections sont (après décompte manuel) :

1) Dire, au seuil de risque de 1%, si dans ce village l’opinion dépend de l’appartenance à un groupe social.

2) Que peut-on dire si on ne tient pas compte des votes blancs et des abstentions ?

Exercice 13 test d'indépendance du Khi-2

On observe dans le tableau ci-contre la fréquentation de deux magasins A et B.

A l'issue d'un sondage, on note le nombre de personnes ayant effectué au A B

moins un achat, par tranches d'âges (10 à 15 ans, etc). 46 24

29 35

1) Dire, au seuil de 5%, si le magasin fréquenté est lié à l'âge 14 17

des consommateurs. 12 18

2) Quelle tranche d'âge contribue le plus au résultat précédent ? Expliquer.

3) Donner la signification de ce "seuil de 5 %" par rapport à votre réponse à la question 1.

4) D'après la table, peut-on être plus précis quant au risque pris lors de notre affirmation ?

Exercice 14 test d'indépendance du Khi-2

Dans le cadre d'un sondage, on a interrogé 100 personnes sur leur âge et leur fréquentation des salles de cinéma.

On note ici X la variable "âge" et Y la variable "nombre annuel de sorties au cinéma". Le résultat du sondage est

le tableau de citations suivant : Y X

1) Par un test du Khi-2 d'indépendance, dire au seuil de 2% si, dans la population, il y a un lien ou non entre

l'âge d'une personne et le nombre de sorties qu'elle consacre au cinéma.

2) Discuter du niveau de confiance que l'on peut accorder à l'affirmation "âge et fréquentation sont dépendants".

3) Repérer les Khi-2 partiels les plus importants et donner la signification de ces fortes valeurs.

magasins

10 à 15

15 à 20

20 à 40

40 et plus

0

15

[3 ; 5[ 15 10

[7 ; 9[ 2 13

[5 ; 7[ 8 32

Actifs

[95 ; 105[ [105 ; 125[ [125 ; 135[

5

122 148 80

Retraités 36 27 37

candidatSR NS

blanc /

absten.électeursRentiers 24 16 10

12 à 23 13 8 4

≥ 24 6 3 2

[15 ; 25[ [25 ; 50[ 50 et plus

aucune 4 6 13

1 à 11 10 16 15

IUT de Saint-Etienne – Département TC - J.F.Ferrari s - Mathématiques - S2 - Stat2var - CoursEx - Rev 2014 - page 25 sur 25

Page 26: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

IUT - TC Mathématiques - Formulaire "Statistiques à deux variables"

Sans contingence

* moyenne, variance et écart-type

* covariance et coefficient de corrélation linéaire

* paramètres de l'équation de la droite d'ajustement de Y sur X (méthode des moindres carrés)

y = ax + b avec et

Avec contingence (pour le partiel uniquement)

* moyenne et variance

* covariance

* les autres formules sont identiques à celles données au-dessus

Intervalle de confiance de y pour une valeur x 0 donnée :

où * y' 0 = ax 0 + b * y' i = ax i + b et

* u = 1,96 (niveau de confiance : 95%) ou 2,58 (niveau de confiance : 99%)

;

n n

i i

i i

x y

x yn n

= == =∑ ∑

1 1 ( ) ( );

n n

i i

i i

x y

V X x V Y yn n

= == − = −∑ ∑2 2

2 21 1

( ) ( ) ( ) ( );x yX V X Y V Yσ σ σ σ= = = =

( ).

, .

n

i i

i

x y

Cov X Y x yn

== −∑

1( , )

.x y

Cov X Yρσ σ

=

b y ax= −( )( )

,Cov X Ya

V X=

..

;

qp

j ji iji

n yn x

x yN N

=== =∑∑

11 ( ) ( )..

;

qp

j ji iji

n yn x

V X x V Y yN N

=== − = −∑∑

22

12 21

( ), .

p q

ij i j

i j

n x y

Cov X Y x yN

= == −∑∑

1 1

i

i

i

yz

y=

( ) ( );Z Z

y z u y z uσ σ′ ′− × + × 0 0

Page 27: MATHEMATIQUES - JFF & des mathsjff-dut-tc.weebly.com/uploads/1/4/7/9/14799044/s2_-_stat2var... · Suivront au même endroit : les corrigés des TD et ceux des exercices ; les résultats

Table de la loi du χχχχ²

Le tableau donne les valeurs χ²lim

telles que p(χ² < χ²lim) = p

1 - p 1 - p 1 - p 1 - p

ddl 1% 2% 5% 10% ddl 1% 2% 5% 10% ddl 1% 2% 5% 10% ddl 1% 2% 5% 10%

1 6,64 5,41 3,84 2,71 26 45,6 42,9 38,9 35,6 51 77,4 73,8 68,7 64,3 76 108 103 97,4 92,2

2 9,21 7,82 5,99 4,61 27 47 44,1 40,1 36,7 52 78,6 75 69,8 65,4 77 109 105 98,5 93,3

3 11,3 9,84 7,82 6,25 28 48,3 45,4 41,3 37,9 53 79,8 76,2 71 66,5 78 110 106 99,6 94,4

4 13,3 11,7 9,49 7,78 29 49,6 46,7 42,6 39,1 54 81,1 77,4 72,2 67,7 79 111 107 101 95,5

5 15,1 13,4 11,1 9,24 30 50,9 48 43,8 40,3 55 82,3 78,6 73,3 68,8 80 112 108 102 96,6

6 16,8 15 12,6 10,6 31 52,2 49,2 45 41,4 56 83,5 79,8 74,5 69,9 81 114 109 103 97,7

7 18,5 16,6 14,1 12 32 53,5 50,5 46,2 42,6 57 84,7 81 75,6 71 82 115 110 104 98,8

8 20,1 18,2 15,5 13,4 33 54,8 51,7 47,4 43,7 58 86 82,2 76,8 72,2 83 116 112 105 99,9

9 21,7 19,7 16,9 14,7 34 56,1 53 48,6 44,9 59 87,2 83,4 77,9 73,3 84 117 113 106 101

10 23,2 21,2 18,3 16 35 57,3 54,2 49,8 46,1 60 88,4 84,6 79,1 74,4 85 118 114 108 102

11 24,7 22,6 19,7 17,3 36 58,6 55,5 51 47,2 61 89,6 85,8 80,2 75,5 86 119 115 109 103

12 26,2 24,1 21 18,5 37 59,9 56,7 52,2 48,4 62 90,8 87 81,4 76,6 87 121 116 110 104

13 27,7 25,5 22,4 19,8 38 61,2 58 53,4 49,5 63 92 88,1 82,5 77,7 88 122 117 111 105

14 29,1 26,9 23,7 21,1 39 62,4 59,2 54,6 50,7 64 93,2 89,3 83,7 78,9 89 123 118 112 106

15 30,6 28,3 25 22,3 40 63,7 60,4 55,8 51,8 65 94,4 90,5 84,8 80 90 124 120 113 108

16 32 29,6 26,3 23,5 41 65 61,7 56,9 52,9 66 95,6 91,7 86 81,1 91 125 121 114 109

17 33,4 31 27,6 24,8 42 66,2 62,9 58,1 54,1 67 96,8 92,9 87,1 82,2 92 126 122 115 110

18 34,8 32,3 28,9 26 43 67,5 64,1 59,3 55,2 68 98 94 88,3 83,3 93 128 123 117 111

19 36,2 33,7 30,1 27,2 44 68,7 65,3 60,5 56,4 69 99,2 95,2 89,4 84,4 94 129 124 118 112

20 37,6 35 31,4 28,4 45 70 66,6 61,7 57,5 70 100 96,4 90,5 85,5 95 130 125 119 113

21 38,9 36,3 32,7 29,6 46 71,2 67,8 62,8 58,6 71 102 97,6 91,7 86,6 96 131 127 120 114

22 40,3 37,7 33,9 30,8 47 72,4 69 64 59,8 72 103 98,7 92,8 87,7 97 132 128 121 115

23 41,6 39 35,2 32 48 73,7 70,2 65,2 60,9 73 104 99,9 93,9 88,9 98 133 129 122 116

24 43 40,3 36,4 33,2 49 74,9 71,4 66,3 62 74 105 101 95,1 90 99 135 130 123 117

25 44,3 41,6 37,7 34,4 50 76,2 72,6 67,5 63,2 75 106 102 96,2 91,1 100 136 131 124 118

χ²lim χ²

p