Post on 23-Jun-2022
TD2 Biostatistiques 1
Faculté de Médecine Vétérinaire Université de Liège
Séance de TD n°2 : Résolutions
Aide pour la résolution : Comment choisir le bon test ? via le site www.biostat.ulg.ac.be => « Notions d’info » => « ABC de R » => « 5. Statistiques
inférentielles : les tests d’hypothèse » => « Choix du test inférentiel »
Dont voici une copie (et le lien direct :
http://www.biostat.ulg.ac.be/pages/Site_r/Inferentielles.html#choix ) :
2ème baccalauréat en Sciences Vétérinaires
Biostatistiques – Travaux dirigés
TD2 Biostatistiques 2
Faculté de Médecine Vétérinaire Université de Liège
1. Un clinicien étudie l'influence d'un bétabloquant sur la fréquence cardiaque (batt/min.) chez le chien. Il répartit donc 12 chiens selon la taille et le produit administré (cf tableau). Deux heures après l'administration du placébo ou du bétabloquant, le clinicien mesure la fréquence cardiaque chez chaque chien (les données sont supposées être de même variance et distribuées normalement).
Placébo Bétabloquant
Petits 95 80 90 75 88 76
Grands 92 76 81 72 85 78
REPONSE :
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : 2 VI :
• Taille : 2 modalités (Petits vs Grands)
• Produit : 2 modalités (Placébo vs Bétaboquant)
-VD (variable dépendante) = Fréquence cardiaque : variable continue
- Mesures répétées ? Non ce sont 12 chiens au total
- Normalité des données ? Oui. Cela est précisé dans l’énoncé.
ANOVA 2
B. Poser les hypothèses :
��: ��� ���� � ���� �� ∶ �������� = �������������
��: ��� ���� � � ��� ∶ ����!� = �"#��$
��: ��� ��%���&���% ∶ ��������'���!� = �������������'���!� = ��������'"#��$= �������������'"#��$
�(: )��� � ���� �� ∶ �������� ≠ �������������
�(: )��� � � ��� ∶ ����!� ≠ �"#��$
�(: +%���&���% ���� �� , ��� ∶ � -��%� % ����é�%&
TD2 Biostatistiques 3
Faculté de Médecine Vétérinaire Université de Liège
C. Calcul :
Tableau de l’anova :
SC Ddl CM F Produit 456,33 1 456,33 30,25 Taille 33,33 1 33,33 2,2099 Interaction 8,33 1 8,33 0,5525 Erreur 120,667 8 15,083 Total 618,67 11
Calculons les moyennes des différents groupes :
/�������00000000000 = ∑ /% = (95 + 90 + 88 + 92 + 81 + 85)6 = 5316 = 88,5
/>���0000000 = ∑ /% = (80 + 75 + 76 + 76 + 72 + 78)6 = 4576 = 76,167
/���A�B00000000 = ∑ /% = (95 + 90 + 88 + 80 + 75 + 76)6 = 5046 = 84
/"#��$B0000000000 = ∑ /% = (92 + 81 + 85 + 76 + 72 + 78)6 = 4846 = 80,667
/��.'���.0000000000 = ∑ /% = (95 + 90 + 88)3 = 2733 = 91
/��.'"#..0000000000 = ∑ /% = (92 + 81 + 85)3 = 2583 = 86
/>���.'���.0000000000000 = ∑ /% = (80 + 75 + 76)3 = 2313 = 77
/>���.'"#.000000000000 = ∑ /% = (76 + 72 + 78)3 = 2263 = 75,33
/D�����000000000 = ∑ /% = 98812 = 82,33
On peut à présent calculer les sommes de carré :
EF�#�$�!� = %��. ∗ H/��.00000 − /D.0000JK + %>���. ∗ (/>���.00000000 − /D.0000)K= 6 ∗ (88,5 − 82,33)K + 6 ∗ (76,167 − 82,33)K = 456,33
TD2 Biostatistiques 4
Faculté de Médecine Vétérinaire Université de Liège
EF��!��� = %���. ∗ H/���.000000 − /D.0000JK + %"#. ∗ H/"#.00000 − /D.0000JK= 6 ∗ (84 − 82,33)K + 6 ∗ (80,667 − 82,33)K = 33,33
EF!���#���!�� = %��.'���. ∗ H/��.'���.0000000000 − /��.00000 − /���.000000 + /D.0000JK + %��.'"#..∗ H/��.'"#.0000000000 − /��.00000 − /"#.00000 + /D.0000JK + %>���.'���..∗ H/>���.'���.0000000000000 − />���.00000000 − /���.000000 + /D.0000JK + %>���.'"#..∗ H/>���.'"#.000000000000 − />���.00000000 − /"#.00000 + /D.0000JK= 3 ∗ (91 − 88,5 − 84 + 82,33)K + 3 ∗ (86 − 88,5 − 80,667 + 82,33)K + 3∗ (77 − 76,167 − 84 + 82,33)K + 3 ∗ (75,33 − 76,167 − 80,667 + 82,33)² = 8,33
EF�##��# = M(/!NO − /AP0000)²= (95 − 91)K + (90 − 91)K + (88 − 91)K + (92 − 86)K + (81 − 86)K+ (85 − 86)K + (80 − 77)K + (75 − 77)K + (76 − 77)K + (76 − 75,33)K+ (72 − 75,33)K + (78 − 75,33)K = 120,667
EFQ����� = M(/!NO − /D.0000)²= (95 − 82,33)K + (90 − 82,33)K + (88 − 82,33)K + (92 − 82,33)K+ (81 − 82,33)K + (85 − 82,33)K + (80 − 82,33)K + (75 − 82,33)K+ (76 − 82,33)K + (76 − 82,33)K + (72 − 82,33)K + (78 − 82,33)K = 618,67
R� �#�$�!� = %�#�$�!� − 1 = 2 − 1 = 1
R� ��!��� = %��!��� − 1 = 2 − 1 = 1
R� !���#���!�� = H%�#�$�!� − 1J ∗ (%��!��� − 1) = (2 − 1) ∗ (2 − 1) = 1
R� �##��# = S − H%�#�$�!� ∗ %��!���J = 12 − (2 ∗ 2) = 8
R� ����� = S − 1 = 12 − 1 = 11
FT�#�$�!� = EF�#�$�!�R� �#�$�!� = 456,331 = 456,33
FT��!��� = EF��!���R� ��!��� = 33,331 = 33,33
FT!���#���!�� = EF!���#���!��R� !���#���!�� = 8,331 = 8,33
FT�##��# = EF�##��#R� �##��# = 120,6678 = 15,083
TD2 Biostatistiques 5
Faculté de Médecine Vétérinaire Université de Liège
U�#�$�!� = FT�#�$�!�FT�##��# = 456,3315,083 = 30,25
U��!��� = FT��!���FT�##��# = 33,3315,083 = 2,2099
U!���#���!�� = FT!���#���!��FT�##��# = 8,3315,083 = 0,5525
Allons voir dans la table des F (5%) :
- Effet produit : On regarde à 1 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F
seuil est 5,32.
- Effet taille : On regarde à 1 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F seuil
est 5,32.
- Interaction : On regarde à 1 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F seuil
est 5,32.
D. Conclusion :
- Effet produit : Etant donné que la valeur de F observée (30,25) est supérieure à la valeur de F
seuil (5,32), on peut rejeter l’H0. Cela signifie que l’on a une probabilité inférieure à 0,05
d’observer les données récoltées si l’H0 était vraie. Cette probabilité étant très petite on rejette
l’H0 et on peut conclure qu’il y a une différence significative entre les deux produits.
- Effet taille : La valeur de F observée (2,2099) est inférieure à la valeur de F seuil (5,32). Cela
signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0
était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence
significative en fonction de la taille.
- Interaction : La valeur de F observée (0,5525) est inférieure à la valeur de F seuil (5,32). Cela
signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0
était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence
significative entre les différents sous-groupes.
TD2 Biostatistiques 6
Faculté de Médecine Vétérinaire Université de Liège
2. L'agressivité chez la poule pondeuse a été mesurée dans différentes souches avant de les remettre sur des parcours libres. La mesure est un indice qui englobe des mesures oui/non (0/1) faites sur une série d'attitudes considérées par l'éthologiste comme des marques d'agressivité. Cette mesure, bien que résultant d'une somme, ne peut être considérée comme ayant une distribution normale. Les résultats pour 3 souches sont donnés ci-dessous: Souche A Souche B Souche C 4 8 7 5 7 7 6 8 5 5 9 5
L’agressivité est-elle différente entre les souches ?
REPONSE :
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : 1 VI : Souches : 3 modalités (A vs B vs C)
-VD (variable dépendante) = Agressivité : variable continue
- Mesures répétées ? Non ce sont des poules différentes
- Normalité des données ? NON. Cela est précisé dans l’énoncé.
Test de kruskall-Wallis
B. Poser les hypothèses :
��: ��%V�(0000000000 = ��%V�>0000000000 = ��%V�W0000000000
�(: X -��%� % ����é�%& %�� � -�Y%%� � ��%V�.
C. Calcul :
A partir du formulaire de stat au point 10.2, on a la formule suivante :
Z[ = 12S ∗ (S + 1) ∗ MH%! ∗ �A\KJ − 3 ∗ (S + 1)
Il faut donc d’abord transformer les données en rangs :
Pour ce faire, on classe les données par ordre croissant (sans tenir compte des groupes), puis on
attribue le rang dans l’ordre. Lorsqu’on a des rangs ex-aequos, on attribue la moyenne des rangs.
TD2 Biostatistiques 7
Faculté de Médecine Vétérinaire Université de Liège
Souche A Souche B Souche C Données
brutes Rangs Données
brutes Rangs Données
brutes Rangs
4 1 8 =(10+11)/2 = 10,5
7 8
5 =(2+3+4+5)/4 = 3,5
7 =(7+8+9)/3 = 8 7 8
6 6 8 10,5 5 3,5
5 3,5 9 12 5 3,5
�(\ = ∑ �%# = (1 + 3,5 + 6 + 3,5)4 = 144 = 3,5
�>\ = ∑ #�] = (^�,_`a`^�,_`^K)b = bb̂ = 10,25
�W\ = ∑ �%# = (8 + 8 + 3,5 + 3,5)4 = 234 = 5,75
Z[ = 12S ∗ (S + 1) ∗ MH%! ∗ �A\KJ − 3 ∗ (S + 1)= 1212 ∗ (12 + 1) ∗ c(4 ∗ 3,5K) + (4 ∗ 10,25K) + (4 ∗ 5,75)Kd − 3 ∗ (12 + 1)= 0,0769 ∗ 601,5 − 39 = 7,2692
Cette valeur peut être considérée comme une valeur de chi-carré avec ddl = nombre de groupes – 1.
Ddl = 3-1 = 2
Allons dans la table des chi-carrés :
On regarde dans la colonne e�,f_K et à la ligne 2. La valeur de X² seuil = 5,991
D. Conclusions :
La valeur de X² observé (7,2692) est supérieure à la valeur de X² seuil (5,991). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 5%. On rejette donc H0 : il y a au
moins une différence significative entre les 3 souches.
TD2 Biostatistiques 8
Faculté de Médecine Vétérinaire Université de Liège
3. Dans trois fermes de vaches laitières, on a comparé la calcémie (en mg%) des bêtes lactantes en fonction de l'époque et du niveau de production. Les résultats sont les suivants:
Niveau de production Epoque
Février Avril Juillet Octobre Décembre 0-8 L 104 113 116 110 98 8-15 L 104 115 117 115 94 >15 L 104 116 118 113 97
Quelles sont les influences respectives du facteur "époque" et du facteur "niveau de production" ?
REPONSE :
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : 2 VI :
• Epoque : 5 modalités (Février vs Avril vs Juillet vs Octobre vs Décembre)
• Niveau de production : 3 modalités (0-8L vs 8-15L vs >15L)
-VD (variable dépendante) = calcémie : variable continue
- Mesures répétées ? Non
- Normalité des données ? Pas de précision dans l’énoncé. Mais vu qu’il y a 2 VI et que vous n’avez
pas vu comment faire dans ce genre de plan expérimentaux avec des tests non paramétriques, on
suppose que c’est normal.
ANOVA 2
B. Poser les hypothèses :
��: ��� ���� � é��g : �héi#!�# = ��i#!� = �N�!���� = ������#� = �$é��j�#�
��: ��� ���� � %�k� � ���� &���% ∶ �h�!��� = �j�l�� = �é��ié
�(: )��� � é��g : �héi#!�# ≠ ��i#!� ≠ �N�!���� ≠ ������#� ≠ �$é��j�#�
�(: )��� � %�k� � ���� &���% ∶ �h�!��� ≠ �j�l�� ≠ �é��ié
L’interaction est impossible à tester puisqu’il n’y a qu’une donnée à chaque croisement des 2 VI.
TD2 Biostatistiques 9
Faculté de Médecine Vétérinaire Université de Liège
C. Calcul :
Tableau de l’anova :
SC Ddl CM F Epoque 884,93 4 221,2333 0,8555 Niveau production
4,93 2 2,467 76,7283
Erreur 23,067 8 2,88 Total 912,93 14
Calculons les moyennes des différents groupes :
/m�A���000000000 = ∑ /% = (104 + 113 + 116 + 110 + 98)5 = 5415 = 108,2
/n�l��000000000 = ∑ /% = (104 + 115 + 117 + 115 + 94)5 = 5455 = 109
/o��ié00000000 = ∑ /% = (104 + 116 + 118 + 113 + 97)5 = 5485 = 109,6
/méi#A�#0000000000 = ∑ /% = (104 + 104 + 104)3 = 3123 = 104
/(i#A�0000000 = ∑ /% = (113 + 115 + 116)3 = 3443 = 114,67
/p�A����000000000 = ∑ /% = (116 + 117 + 118)3 = 3513 = 117
/q����#�00000000000 = ∑ /% = (110 + 115 + 113)3 = 3383 = 112,667
/ré��j�#�0000000000000 = ∑ /% = (98 + 94 + 97)3 = 2893 = 96,33
/D�����000000000 = ∑ /% = 163415 = 108,93
On peut à présent calculer les sommes de carré :
EF�#�$���!�� = %m. ∗ (/m.0000 − /D.0000)K + %n. ∗ (/n.00000 − /D.0000)K + %o. ∗ (/o.0000 − /D.0000)K= 5 ∗ (108,2 − 108,93)K + 5 ∗ (109 − 108,93)K + 5 ∗ (109,6 − 108,93) = 4,93
TD2 Biostatistiques 10
Faculté de Médecine Vétérinaire Université de Liège
EF������ = %méi. ∗ (/méi.000000 − /D.0000)K + %(. ∗ (/(.0000 − /D.0000)K + %p. ∗ H/p.0000 − /D.0000JK + %q. ∗ (/q.0000 − /D.0000)K+ %r. ∗ (/r.0000 − /D.0000)K= 3 ∗ (104 − 108,93)K + 3 ∗ (114,67 − 108,93)K + 3 ∗ (117 − 108,93)K + 3∗ (112,67 − 108,93)K + 3 ∗ (96,33 − 108,93)² = 884,93
EF�##��# = MH/!N − /A\ − /P\ + /D.0000JK= (104 − 108,2 − 104 + 108,93)K + (113 − 108,2 − 114,67 + 108,92)K+ (116 − 108,2 − 117 + 108,92)K + (110 − 108,2 − 112,667 + 108,92)K+ (98 − 108,2 − 96,33 + 108,92)K + (104 − 109 − 104 + 108,92)K+ (115 − 109 − 114,67 + 108,92)K + (117 − 109 − 117 + 108,92)K+ (115 − 109 − 112,667 + 108,92)K + (94 − 109 − 96,33 + 108,92)K+ (104 − 109,6 − 104 + 108,92)K + (116 − 109,6 − 114,67 + 108,92)K+ (118 − 109,6 − 117 + 108,92)K + (113 − 109,6 − 112,667 + 108,92)K + (97− 109,6 − 96,33 + 108,92)² = 23,067
EFQ����� = M(/!NO − /D.0000)²= (104 − 108,93)K + (113 − 108,92)K + (116 − 108,92)K + (110 − 108,92)K+ (98 − 108,92)K + (104 − 108,92)K + (115 − 108,92)K + (117 − 108,92)K+ (115 − 108,92)K + (94 − 108,92)K + (104 − 108,92)K + (116 − 108,92)K+ (118 − 108,92)K + (113 − 108,92)K + (97 − 108,92)² = 912,93
R� �#�$���!�� = %�#�$���!�� − 1 = 3 − 1 = 2
R� ������ = %������ − 1 = 5 − 1 = 4
R� �##��# = H%�#�$���!�� − 1J ∗ H%������ − 1J = (3 − 1) ∗ (5 − 1) = 8
R� ����� = S − 1 = 15 − 1 = 14
FT�#�$���!�� = EF�#�$���!��R� �#�$���!�� = 4,932 = 2,467
FT������ = EF������R� ������ = 884,934 = 221,233
FT�##��# = EF�##��#R� �##��# = 23,0678 = 2,88
U�#�$���!�� = FT�#�$���!��FT�##��# = 2,4672,88 = 0,8555
U������ = FT������FT�##��# = 221,2332,88 = 76,73
TD2 Biostatistiques 11
Faculté de Médecine Vétérinaire Université de Liège
Allons voir dans la table des F (5%) :
- Effet production : On regarde à 2 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F
seuil est 4,46.
- Effet epoque : On regarde à 4 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F
seuil est 3,84.
D. Conclusion
- Effet production : La valeur de F observée (0,8555) est inférieure à la valeur de F seuil (4,46).
Cela signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si
l’H0 était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence
significative entre les niveaux de production.
- Effet epoque : La valeur de F observée (76,73) est supérieure à la valeur de F seuil (3,84).
Cela signifie que l’on a une probabilité inférieure à 0,05 d’observer les données récoltées si
l’H0 était vraie. Cette probabilité étant très faible, cela signifie que H0 est probablement
fausse. On rejette H0. Il y a une différence significative en fonction de l’époque.
TD2 Biostatistiques 12
Faculté de Médecine Vétérinaire Université de Liège
4. Un groupe de chats d’une même chatterie subit deux tests sérologiques afin de doser les anticorps anti-coronavirus, et cela à 4 mois d’intervalle. Les données sont les suivantes: Attention, il y a une erreur dans le tableau. Pour le chat 1 au test 2, il y a un seul signe + TEST1 TEST2 Chat 1 - + Chat 2 + + Chat 3 - + Chat 4 - + Chat 5 + -
Existe-t-il un statut virologique différent entre les deux tests ?
REPONSE :
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : Moment du test : 2 modalités (Test 1 vs Test 2)
-VD (variable dépendante) = statut virologique : variable discrète à 2 modalités (+ vs - )
- Mesures répétées ? Oui
- Normalité des données ? La variable dépendante n’est pas continue donc on ne se pose même pas
cette question.
Test de Mc Nemar
B. Poser les hypothèses :
��: ��� ���� � -�-%� � ��� � � ���� � k��� �V�g
�(: )��� � -�-%� � ��� � � ���� � k��� �V�g
C. Calcul :
Pour réaliser le test de Mc Nemar, il faut réécrire les données pour avoir la table de fréquence :
Test 2 + -
Test 1 + 1 1 - 3 0
On s’intéresse uniquement aux changements de statut sérologique entre le test 1 et le test 2.
TD2 Biostatistiques 13
Faculté de Médecine Vétérinaire Université de Liège
Les données observées sont donc :
Changements Test 1 + vers Test 2 - = 1
Changements Test 1 – vers Test 2 + = 3
Nombre total de changements = 1+3 = 4
On calcule les données attendues si l’hypothèse nulle est vraie :
Nombre de changements attendus dans un cas comme dans l’autre = 4/2 = 2
On calcule la valeur de chi-carré :
eK = ∑(�s� − ���)²��� = (1 − 2)²2 + (1 − 3)²2 = 1
Ddl = possibilités de changements – 1 = 2 – 1 = 1
A présent, on va dans la table des chi-carré pour chercher la valeur seuil :
On regarde à e�,f_K (en colonne) et à 1 ddl (en ligne). La valeur seuil est 3,841
D. Conclusion
La valeur de eK observée (1) est inférieure à la valeur de eK seuil (3,841). Cela signifie que l’on a
une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0 était vraie. On ne peut donc
pas rejeter H0. On accepte H0. Il n’y a pas d’effet du moment du test sur le statut virologique.
Une autre possibilité est d’utiliser le test du signe :
Pour ce test, il faut calculer les différences entre le test 1 et le test 2 :
TEST1 TEST2 Différence Chat 1 - + + Chat 2 + + = Chat 3 - + + Chat 4 - + + Chat 5 + - -
On ne s’occupe que des changements. Donc on a 4 valeurs au total, 3 différences positive et une
différence négative.
TD2 Biostatistiques 14
Faculté de Médecine Vétérinaire Université de Liège
On utilise la distribution binomiale pour calculer la probabilité d’avoir 3 différences positives et 1
différences négatives selon l’hypothèse nulle.
Pour rappel :
�(�|�, %) = F�# ∗ �# ∗ (1 − �)�'#
Selon l’hypothèse nulle, il y a autant de différences positives que négatives et donc la prévalence
d’une différence positive ou négative = 0,5.
P(r>=3 |p=0,5 ; n = 4) = P(r=3) + P(r=4) = Fbu ∗ 0,5u ∗ 0,5^ + Fbb ∗ 0,5b ∗ 0,5� = 0,3125
OU
P(r<=1 |p=0,5 ;n=4) = P(r=1) + P(r=0) = Fb̂ ∗ 0,5^ ∗ 0,5u + Fb� ∗ 0,5� ∗ 0,5b = 0,3125
La probabilité d’observer nos données si H0 était correct est donc de 0,3125. Cette probabilité étant
supérieure à 0,05, on accepte H0. Il n’y a pas d’effet du moment du test sur le statut virologique.
TD2 Biostatistiques 15
Faculté de Médecine Vétérinaire Université de Liège
5. Un groupe de chiennes Jack Russell Terrier subit des tests sanguins de dosage des oestrogènes au début de leurs chaleurs et cela sur 2 cycles consécutifs. Les données sont les suivantes:
Cycle 1 Cycle 2 Chien 1 12 10 Chien 2 18 18 Chien 3 20 22 Chien 4 16 20
Montrez si les taux ostrogéniques diffèrent significativement entre les deux cycles et entre les chiennes.
REPONSE :
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : 2 VI :
• Cycle : 2 modalités (Cycle 1 vs Cycle 2)
• Chiennes : 4 modalités (Chien 1 vs Chien 2 vs Chien 3 vs Chien 4)
-VD (variable dépendante) = taux oestrogènes : variable continue
- Mesures répétées ? Oui. Ce sont les mêmes chiennes aux 2 cycles. Mais vu qu’on prend en compte
l’effet chien, cet appariement sera considéré dans l’ANOVA 2.
- Normalité des données ? Pas de précision dans l’énoncé. Mais vu qu’il y a 2 VI et que vous n’avez
pas vu comment faire dans ce genre de plan expérimentaux avec des tests non paramétriques, on
suppose que c’est normal.
ANOVA 2
B. Poser les hypothèses :
��: ��� ���� � � &ℎ�%%: �^ = �K = �u = �b = �_
��: ��� ���� � &Y& ∶ ��l���^ = ��l���K
�(: )��� � � &ℎ�%%: � -��%� % ����é�%& ��V%���&���k
�(: )��� � &Y& ∶ ��l���^ ≠ ��l���K
L’interaction est impossible à tester puisqu’il n’y a qu’une donnée à chaque croisement des 2 VI.
TD2 Biostatistiques 16
Faculté de Médecine Vétérinaire Université de Liège
C. Calcul :
Tableau de l’anova :
SC Ddl CM F Cycle 2 1 2 0,6 Chienne 108 3 36 10,8 Erreur 10 3 3,33 Total 120 7
Calculons les moyennes des différents groupes :
/�l���^000000000 = ∑ /% = (12 + 18 + 20 + 16)4 = 664 = 16,5
/�l���K000000000 = ∑ /% = (10 + 18 + 22 + 20)4 = 704 = 17,5
/^000 = ∑ /% = (12 + 10)2 = 11
/K000 = ∑ /% = (18 + 18)2 = 18
/u000 = ∑ /% = (20 + 22)2 = 21
/b000 = ∑ /% = (16 + 20)2 = 18
/D�����000000000 = ∑ /% = 1368 = 17
On peut à présent calculer les sommes de carré :
EF�l��� = %�l���^ ∗ H/�l���^000000000 − /D.0000JK + %�l���K ∗ H/�l���K000000000 − /D.0000JK= 4 ∗ (16,5 − 17)K + 4 ∗ (17,5 − 17)K = 2
EF�w!���� = %^ ∗ (/^000 − /D.0000)K + %K ∗ (/K000 − /D.0000)K + %u ∗ (/u000 − /D.0000)K + %b ∗ (/b000 − /D.0000)K= 2 ∗ (11 − 17)K + 2 ∗ (18 − 17)K + 2 ∗ (21 − 17)K + 2 ∗ (18 − 17)K = 108
TD2 Biostatistiques 17
Faculté de Médecine Vétérinaire Université de Liège
EF�##��# = MH/!N − /A\ − /P\ + /D.0000JK= (12 − 16,5 − 11 + 17)K + (18 − 16,5 − 18 + 17)K + (20 − 16,5 − 21 + 17)K+ (16 − 16,5 − 18 + 17)K + (10 − 17,5 − 11 + 17)K + (18 − 17,5 − 18 + 17)K+ (22 − 17,5 − 21 + 17)K + (20 − 17,5 − 18 + 17)K = 10
EFQ����� = M(/!NO − /D.0000)²= (12 − 17)K + (18 − 17)K + (20 − 17)K + (16 − 17)K + (10 − 17)K+ (18 − 17)K + (22 − 17)K + (20 − 17)K = 120
R� �l��� = %�l��� − 1 = 2 − 1 = 1
R� �w!���� = %�w!���� − 1 = 4 − 1 = 3
R� �##��# = H%�l��� − 1J ∗ (%�w!���� − 1) = (2 − 1) ∗ (4 − 1) = 3
R� ����� = S − 1 = 8 − 1 = 7
FT�l��� = EF�l���R� �l��� = 21 = 2
FT�w!���� = EF�w!����R� �w!���� = 1083 = 36
FT�##��# = EF�##��#R� �##��# = 103 = 3,33
U�l��� = FT�l���FT�##��# = 23,33 = 0,6
U�w!���� = FT�w!����FT�##��# = 363,33 = 10,8
Allons voir dans la table des F (5%) :
- Effet cycle : On regarde à 1 (en colonne) et 3 (en ligne) degrés de liberté. La valeur de F seuil
est 10,13.
- Effet chienne: On regarde à 3 (en colonne) et 3 (en ligne) degrés de liberté. La valeur de F
seuil est 9,28.
TD2 Biostatistiques 18
Faculté de Médecine Vétérinaire Université de Liège
D. Conclusion
- Effet cycle : La valeur de F observée (0,6) est inférieure à la valeur de F seuil (10,13). Cela
signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0
était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence
significative entre les cycles.
- Effet chienne : La valeur de F observée (10,8) est supérieure à la valeur de F seuil (9,28). Cela
signifie que l’on a une probabilité inférieure à 0,05 d’observer les données récoltées si l’H0
était vraie. Cette probabilité étant très faible, cela signifie que H0 est probablement fausse. On
rejette H0. Il y a une différence significative en fonction de la chienne.
TD2 Biostatistiques 19
Faculté de Médecine Vétérinaire Université de Liège
6. Trois doses croissantes d'un facteur A ont été essayées sur trois groupes de deux mâles et trois groupes de deux femelles. Cette expérience a donné les teneurs suivantes d'un constituant sanguin: Attention, l’énoncé n’est pas en accord avec le tableau. Il y a 3 groupes de mâles (2 avec 3 mâles et un avec 4 mâles) et 3 groupes de femelles (un avec 2, un avec 3 et un avec 4 femelles).
Facteur A
Dose I Dose II Dose III
Mâles 9 10 10 3 4 6 5 6 7 10
Femelles 10 13 6 9 5 5 9 3 3
On demande de tester si la dose et le sexe de l'animal ont un effet sur le constituant sanguin. L'effet du facteur est-il indépendant du sexe ?
REPONSE:
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : 2 VI :
• Dose : 3 modalités (I vs II vs III)
• Sexe : 2 modalités (Mâles vs Femelles)
-VD (variable dépendante) = constituant sanguin : variable continue
- Mesures répétées ? Non ce sont des chiens différents dans tous les groupes.
- Normalité des données ? Pas de précision dans l’énoncé. Mais vu qu’il y a 2 VI et que vous n’avez
pas vu comment faire dans ce genre de plan expérimentaux avec des tests non paramétriques, on
suppose que c’est normal.
ANOVA 2
B. Poser les hypothèses :
��: ��� ���� � � ��� ∶ �x = �xx = �xxx ��: ��� ���� � �, ∶ �jâ��B = �h�j����B
��: ��� ��%���&���% ∶ �x'jâ��B = �x'h�j����B = �xx'jâ��B = �xx'h�j����B
�(: )��� � � ��� ∶ � -��%� % ����é�%& ��V%���&���k
�(: )��� � �, ∶ �jâ��B ≠ �h�j����B
�(: +%���&���% ∶ X -��%� % ����é�%& ��V%���&���k
TD2 Biostatistiques 20
Faculté de Médecine Vétérinaire Université de Liège
C. Calcul :
Tableau de l’anova :
SC Ddl CM F Dose 80,23 2 40,11 8,9 Sexe 0 1 0 0 Interaction 17,19 2 8,59 1,91 Erreur 58,58 13 4,51 Total 156 18
Calculons les moyennes des différents groupes :
/x000 = ∑ /% = (9 + 10 + 10 + 10 + 13)5 = 525 = 10,4
/xx0000 = ∑ /% = (3 + 4 + 6 + 6 + 9 + 5 + 5)7 = 387 = 5,43
/xxx00000 = ∑ /% = (5 + 6 + 7 + 10 + 9 + 3 + 3)7 = 437 = 6,14
/jâ��B00000000 = ∑ /% = (9 + 10 + 10 + 3 + 4 + 6 + 5 + 6 + 7 + 10)10 = 7010 = 7
/h�j����B000000000000 = ∑ /% = (10 + 13 + 6 + 9 + 5 + 5 + 9 + 3 + 3)9 = 639 = 7
/x'j.0000000 = ∑ /% = (9 + 10 + 10)3 = 293 = 9,67
/xx'j.00000000 = ∑ /% = (3 + 4 + 6)3 = 133 = 4,33
/xxx'j.000000000 = ∑ /% = (5 + 6 + 7 + 10)4 = 284 = 7
/x'h.000000 = ∑ /% = (10 + 13)2 = 232 = 11,5
/xx'h.0000000 = ∑ /% = (6 + 9 + 5 + 5)4 = 254 = 6,25
/xxx'h.00000000 = ∑ /% = (9 + 3 + 3)3 = 153 = 5
/D�����000000000 = ∑ /% = 13319 = 7
TD2 Biostatistiques 21
Faculté de Médecine Vétérinaire Université de Liège
On peut à présent calculer les sommes de carré :
EF$�B� = %x ∗ (/x000 − /D.0000)K + %xx ∗ (/xx0000 − /D.0000)K + %xxx ∗ (/xxx00000 − /D.0000)K= 5 ∗ (10,4 − 7)K + 7 ∗ (5,43 − 7)K + 7 ∗ (6,14 − 7)K = 80,2286
EFB�z� = %h. ∗ H/h.0000 − /D.0000JK + %j. ∗ (/j.00000 − /D.0000)K = 10 ∗ (7 − 7)K + 9 ∗ (7 − 7)² = 0
EF!���#���!�� = %x'j. ∗ (/x'j.0000000 − /x000 − /j.00000 + /D.0000)K + %xx'j. ∗ (/xx'j.00000000 − /xx0000 − /j.00000 + /D.0000)K+ %xxx'j. ∗ (/xxx'j.000000000 − /xxx00000 − /j.00000 + /D.0000)K + %x'h. ∗ H/x'h.000000 − /x000 − /h.0000 + /D.0000JK+ %xx'h. ∗ H/xx'h.0000000 − /xx0000 − /h.0000 + /D.0000JK + %xxx'h. ∗ H/xxx'h.00000000 − /xxx00000 − /h.0000 + /D.0000JK= 3 ∗ (9,67 − 10,4 − 7 + 7)K + 3 ∗ (4,33 − 5,43 − 7 + 7)K + 4∗ (7 − 6,14 − 7 + 7)K + 2 ∗ (11,5 − 10,4 − 7 + 7)K + 4 ∗ (6,25 − 5,43 − 7 + 7)K+ 3 ∗ (5 − 6,14 − 7 + 7)² = 17,188
EF�##��# = M(/!NO − /AP0000)²= (9 − 9,67)K + (10 − 9,67)K + (10 − 9,67)K + (3 − 4,33)K + (4 − 4,33)K+ (6 − 4,33)K + (5 − 7)K + (6 − 7)K + (7 − 7)K + (10 − 7)K + (10 − 11,5)K+ (13 − 11,5)K + (6 − 6,25)K + (9 − 6,25)K + (5 − 6,25)K + (5 − 6,25)K+ (9 − 5)K + (3 − 5)K + (3 − 5)K = 58,583
EFQ����� = M(/!NO − /D.0000)²= (9 − 7)K + (10 − 7)K + (10 − 7)K + (3 − 7)K + (4 − 7)K + (6 − 7)K + (5 − 7)K+ (6 − 7)K + (7 − 7)K + (10 − 7)K + (10 − 7)K + (13 − 7)K + (6 − 7)K+ (9 − 7)K + (5 − 7)K + (5 − 7)K + (9 − 7)K + (3 − 7)K + (3 − 7)K = 156
R� $�B� = %$�B� − 1 = 3 − 1 = 2
R� B�z� = %B�z� − 1 = 2 − 1 = 1
R� !���#���!�� = (%$�B� − 1) ∗ (%B�z� − 1) = (3 − 1) ∗ (2 − 1) = 2
R� �##��# = S − (%$�B� ∗ %B�z�) = 19 − (3 ∗ 2) = 13
R� ����� = S − 1 = 19 − 1 = 18
FT$�B� = EF$�B�R� $�B� = 80,22862 = 40,11
FTB�z� = EFB�z�R� B�z� = 01 = 0
FT!���#���!�� = EF!���#���!��R� !���#���!�� = 17,182 = 8,59
TD2 Biostatistiques 22
Faculté de Médecine Vétérinaire Université de Liège
FT�##��# = EF�##��#R� �##��# = 58,58313 = 4,51
U$�B� = FT$�B�FT�##��# = 40,114,51 = 8,9016
UB�z� = FTB�z�FT�##��# = 04,51 = 0
U!���#���!�� = FT!���#���!��FT�##��# = 8,594,51 = 1,907
Allons voir dans la table des F (5%) :
- Effet dose : On regarde à 2 (en colonne) et 13 (en ligne) degrés de liberté. La valeur de F seuil
est 3,81.
- Effet sexe : On regarde à 1 (en colonne) et 13 (en ligne) degrés de liberté. La valeur de F seuil
est 4,67.
- Interaction : On regarde à 2 (en colonne) et 13 (en ligne) degrés de liberté. La valeur de F seuil
est 3,81.
D. Conclusion :
- Effet dose : Etant donné que la valeur de F observée (8,9) est supérieure à la valeur de F seuil
(3,81), on peut rejeter l’H0. Cela signifie que l’on a une probabilité inférieure à 0,05
d’observer les données récoltées si l’H0 était vraie. Cette probabilité étant très petite on rejette
l’H0 et on peut conclure qu’il y a une différence significative entre les différentes doses.
- Effet sexe : La valeur de F observée (0) est inférieure à la valeur de F seuil (4,67). Cela
signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0
était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence
significative en fonction du sexe.
- Interaction : La valeur de F observée (1,907) est inférieure à la valeur de F seuil (3,81). Cela
signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0
était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas d’interaction dose-sexe.
L’effet de la dose est donc indépendant du sexe.
TD2 Biostatistiques 23
Faculté de Médecine Vétérinaire Université de Liège
7. Les performances de lévriers de course ont été enregistrées (temps pour parcourir 1000m) et sont présentées dans le tableau qui suit :
Ecurie Chien Temps (sec.) Les Lévriers du Plat Pays
Médor 50 Saxo 48 – 49 - 52
Dog Speed Speed 49 – 55 Trash 71 - 62 Fusée 47
Faites les comparaisons possibles dans ce type d'analyse.
REPONSE :
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : 2 VI :
• Ecurie: 2 modalités (Les lévriers vs Dog Speed)
• Chien : 5 modalités (Médor vs Saxo vs Speed vs Trash vs Fusée)
! les modalités dépendent de l’écurie : Médor et Saxo se trouvent uniquement pour l’écurie
« Lévriers » et Speed, Trash et Fusée se trouvent uniquement pour l’écurie « Dog Speed ».
-VD (variable dépendante) = temps: variable continue
- Mesures répétées ? Non ce sont des chiens différents dans tous les groupes.
- Normalité des données ? Pas de précision dans l’énoncé. Mais vu qu’il y a 2 VI et que vous n’avez
pas vu comment faire dans ce genre de plan expérimentaux avec des tests non paramétriques, on
suppose que c’est normal.
ANOVA 2 hiérarchique
B. Poser les hypothèses :
��: ��� ���� � ′é& �� ∶ �|éi#!�#B = �r�" }���$
��: ��� ���� �� &ℎ�%� ��%� é& �� ∶ �né$�# = �}�z�� �}���$ = �Q#�Bw = �m�Bé�
�(: )��� � ′é& �� ∶ �|éi#!�#B ≠ �r�" }���$
�(: )��� �� &ℎ�%� ��%� é& �� ∶ �né$�# ≠ �}�z��/� �}���$ ≠ �Q#�Bw ≠ �m�Bé�
TD2 Biostatistiques 24
Faculté de Médecine Vétérinaire Université de Liège
C. Calcul :
Tableau de l’anova :
SC Ddl CM F Ecurie 110,45 1 110,45 6,58 Chien (Ecurie) 330,38 3 110,13 6,56 Erreur 67,17 4 16,79 Total 508 8
Calculons les moyennes des différents groupes :
/�éi#A�#B00000000000 = ∑ /% = (50 + 48 + 49 + 52)4 = 1994 = 49,75
/r�"}���$0000000000000 = ∑ /% = (49 + 55 + 71 + 62 + 47)5 = 2845 = 56,8
/né$�#000000000 = ∑ /% = (50)1 = 50
/}�z�0000000 = ∑ /% = (48 + 49 + 52)3 = 1493 = 49,67
/}���$00000000 = ∑ /% = (49 + 55)2 = 1042 = 52
/Q#�Bw000000000 = ∑ /% = (71 + 62)2 = 1332 = 66,5
/m�Bé�00000000 = ∑ /% = (47)1 = 47
/D�����000000000 = ∑ /% = 4839 = 53,67
On peut à présent calculer les sommes de carré :
EF���#!� = %��i#!�#B ∗ (/��i#A�#B00000000000 − /D.0000)K + %r�"}���$ ∗ H/r�"}���$0000000000000 − /D.0000JK= 4 ∗ (49,75 − 53,67)K + 5 ∗ (56,8 − 53,67)K = 110,45
EF�w!�� = %né$�# ∗ (/né$�#000000000 − /�éi#A�#B00000000000)K + %}�z� ∗ (/}�z�0000000 − /��i#A�#B00000000000)K + %}���$∗ H/}���$00000000 − /r�"}���$0000000000000JK + %Q#�Bw ∗ H/Q#�Bw000000000 − /r�"}���$0000000000000JK + %m�Bé�∗ H/m�Bé�00000000 − /r�"}���$0000000000000JK= 1 ∗ (50 − 49,75)K + 3 ∗ (49,67 − 49,75)K + 2 ∗ (52 − 56,8)K + 2∗ (66,5 − 56,8)K + 1 ∗ (47 − 56,8)K = 330,3833
TD2 Biostatistiques 25
Faculté de Médecine Vétérinaire Université de Liège
EF�##��# = M(/!NO − /AP0000)²= (50 − 50)K + (48 − 49,67)K + (49 − 49,67)K + (52 − 49,67)K + (49 − 52)K+ (55 − 52)K + (71 − 66,5)K + (62 − 66,5)K + (47 − 47)K = 67,167
EFQ����� = M(/!NO − /D.0000)²= (50 − 53,67)K + (48 − 53,67)K + (49 − 53,67)K + (52 − 53,67)K+ (49 − 53,67)K + (55 − 53,67)K + (71 − 53,67)K + (62 − 53,67)K+ (47 − 53,67)K = 508
R� ���#!� = %���#!� − 1 = 2 − 1 = 1
R� �w!�� = %�w!�� − %é��#!� = 5 − 2 = 3
R� �##��# = S − %�w!�� = 9 − 5 = 4
R� ����� = S − 1 = 9 − 1 = 8
FT���#!� = EF���#!�R� ���#!� = 110,451 = 110,45
FT�w!�� = EF�w!��R� �w!�� = 330,38333 = 110,1278
FT�##��# = EF�##��#R� �##��# = 67,1674 = 16,79167
U���#!� = FT���#!�FT�##��# = 110,4516,79 = 6,5776
U�w!�� = FT�w!��FT�##��# = 110,127816,79 = 6,56
Allons voir dans la table des F (5%) :
- Effet écurie : On regarde à 1 (en colonne) et 4 (en ligne) degrés de liberté. La valeur de F seuil
est 7,71.
- Effet chien (écurie) : On regarde à 3 (en colonne) et 4 (en ligne) degrés de liberté. La valeur de
F seuil est 6,59.
TD2 Biostatistiques 26
Faculté de Médecine Vétérinaire Université de Liège
D. Conclusion:
- Effet écurie : La valeur de F observée (6,58) est inférieure à la valeur de F seuil (7,71). Cela
signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0
était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence
significative en fonction de l’écurie.
- Effet chien dans l’écurie : La valeur de F observée (6,56) est inférieure à la valeur de F seuil
(6,59). Cela signifie que l’on a une probabilité supérieure à 0,05 d’observer les données
récoltées si l’H0 était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de
différence entre les chiens dans l’écurie.
TD2 Biostatistiques 27
Faculté de Médecine Vétérinaire Université de Liège
8. Un clinicien souhaite évaluer l’efficacité de trois molécules antalgiques sur groupe de chiens atteints de fractures multiples réduites chirurgicalement. Un score clinique, dont la distribution n’est pas normale, de 0 (pas de douleur) à 5 (douleur intense), est attribué afin de voir l’efficacité de chaque molécule. Les données sont les suivantes: Carprofen Méloxidyl Paracétamol 2 1 2 2 2 4 1 0 3 3 5
Existe-t-il une différence d’efficacité entre les molécules ?
REPONSE :
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : molécules antalgiques : 3 modalités (Carprofen vs Méloxidyl vs
Paracétamol)
-VD (variable dépendante) = score clinique: variable continue
- Mesures répétées ? Non ce sont des chiens différents dans tous les groupes.
- Normalité des données ? Non, on précise dans l’énoncé que la distribution n’est pas normale.
Test de Kruskal-Wallis.
B. Poser les hypothèses :
��: �#��"B W�#�#�h�� = �#��"B né��z!$l� = �#��"B ��#��é��j�� �(: X -��%� % ����é�%& %�� � 3 -� é& �.
C. Calcul :
On doit commencer par transformer les données en rangs (indépendamment du groupe dans lequel
elles appartiennent) :
Carprofen Méloxidyl Paracétamol Données Rangs Données Rangs Données Rangs 2 (4+5+6+7)/4 = 5,5 1 (2+3)/2 = 2,5 2 5,5 2 5,5 2 5,5 4 10 1 2,5 0 1 3 8,5 3 (8+9)/2 = 8,5 5 11
TD2 Biostatistiques 28
Faculté de Médecine Vétérinaire Université de Liège
La formule du test de kruskal-Wallis se trouve dans le formulaire de stat au point 10.2 :
eK = 12% ∗ (% + 1) ∗ M %! ∗ �̅!K − 3 ∗ (% + 1)
Nous devons donc calculer les moyennes de rangs de chaque groupe :
�W��#�h��000000000000 = ∑ ��%V�% = (5,5 + 5,5 + 2,5 + 8,5)4 = 224 = 5,5
�né��zA$l�000000000000 = ∑ ��%V�% = (2,5 + 5,5 + 1)3 = 93 = 3
���#��é��j��000000000000000 = ∑ ��%V�% = (5,5 + 10 + 8,5 + 11)4 = 354 = 8,75
eK = 12% ∗ (% + 1) ∗ M %! ∗ �̅!K − 3 ∗ (% + 1)= 1211 ∗ (11 + 1) ∗ (4 ∗ 5,5K + 3 ∗ 3K + 4 ∗ 8,75K) − 3 ∗ (11 + 1) = 5,2954
Ddl = n groupe – 1 = 3 – 1 = 3
A présent, on va dans la table des chi-carré pour chercher la valeur seuil :
On regarde à e�,f_K (en colonne) et à 2 ddl (en ligne). La valeur seuil est 5,91
D. Conclusion
La valeur de eK observée (5,29) est inférieure à la valeur de eK seuil (5,91). Cela signifie que l’on a
une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0 était vraie. On ne peut donc
pas rejeter H0. On accepte H0. Il n’y a pas d’effet de différence d’efficacité entre les molécules.
TD2 Biostatistiques 29
Faculté de Médecine Vétérinaire Université de Liège
9. Des bovins ont été répartis par classe d'âge et par catégorie de conformation, et le poids (moyen) de chaque animal a ensuite été mesuré. Les données sont dans la table suivante:
Age Catégorie Poids 1 1 411 1 2 356 1 3 485 2 1 621 2 2 584 2 3 613 3 1 681 3 2 599 3 3 702
Montrez l’existence d’une relation linéaire du poids en fonction de l’âge puis montrez l’influence de l’âge et de la catégorie sur le poids. Tenir compte de la catégorie est-il nécessaire ?
REPONSE :
1. Relation linéaire du poids en fonction de l’âge :
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : âge : variable continue
-VD (variable dépendante) : poids : variable continue
=> Relation linéaire entre 2 variables continues = Régression linéaire simple.
Test de régression linaire simple.
B. Poser les hypothèses :
��: � = 0 ∶ ��� � � ����% �%é���. �(: � ≠ 0 ∶ � ����% �%é���.
On n’a pas d’a priori sur le sens de la relation linéaire : pente positive ou négative. On est donc dans
un test bilatéral
TD2 Biostatistiques 30
Faculté de Médecine Vétérinaire Université de Liège
C. Calcul :
Nous devons commencer par estimer la pente de notre échantillon (voir formulaire de stat au point 8) :
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)²
/0 = ∑ /% = (1 + 1 + 1 + 2 + 2 + 2 + 3 + 3 + 3)9 = 189 = 2
�0 = ∑ �% = (411 + 256 + 485 + 621 + 584 + 613 + 681 + 599 + 702)9 = 50529 = 561,33
Age = X
Poids = Y
x = / − /0 y = � − �0 x*y x²
1 411 (1-2) = -1 (411-561,33)=-150,33 (-1*-150,33) = 150,33 (-1)² = 1 1 356 (1-2) = -1 (356-561,33)=-205,33 (-1*-205,33)=205,33 (-1)² = 1 1 485 (1-2) = -1 (485-561,33)=-76,33 (-1*-76,33)=76,33 (-1)² = 1 2 621 (2-2) = 0 (621-561,33)=59,667 (0*59,667)=0 0²=0 2 584 (2-2) = 0 (584-561,33)=22,667 (0*22,667)=0 0²=0 2 613 (2-2) = 0 (613-561,33)=51,667 (0*51,667)=0 0²=0 3 681 (3-2) = 1 (681-561,33)=119,667 (1*119,667)=119,667 1²=1 3 599 (3-2) = 1 (599-561,33)=37,667 (1*37,667)=37,667 1²=1 3 702 (3-2) = 1 (702-561,33)=140,667 (1*140,667)=140,667 1²=1 Somme : 0 0 730 6
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 7306 = 121,667
A présent, nous avons deux possibilités pour tester si cette valeur de b estimée dans l’échantillon est
significativement différente de 0 dans la population :
- Utilisé la statistique t
- Faire une analyse de variance
• En utilisant la statistique t : (les formules sont dans le formulaire de stat au point 8 et 8.1)
� = s − �E�
Où E�K = ∑(�'��)²(�'K)∗∑(�'�0)²
TD2 Biostatistiques 31
Faculté de Médecine Vétérinaire Université de Liège
Il faut donc calculer les valeurs de Y prédits (��) puis l’écart entre ces valeurs et les valeurs réelles de
Y :
�� = � + s ∗ /
Où � = �0 − s ∗ /0
� = �0 − s ∗ /0 = 561,33 − 121,667 ∗ 2 = 318
Age = X
Poids = Y
Y prédits (��) (� − ��)²
1 411 =318+121,667*1 = 439,667 =(411-439,667)²=821,778 1 356 =318+121,667*1 = 439,667 (356-439,667)² = 7000,111 1 485 =318+121,667*1 = 439,667 (485-439,667)² = 2055,111 2 621 =318+121,667*2 = 561,33 (621-561,33)² = 3560,111 2 584 =318+121,667*2 = 561,33 (584-561,33)² = 513,778 2 613 =318+121,667*2 = 561,33 (613-561,33)² = 2669,444 3 681 =318+121,667*3 = 683 (681-683)² = 4 3 599 =318+121,667*3 = 683 (599-683)² = 7056 3 702 =318+121,667*3 = 683 (702-683)² = 361 Somme : 24041,333
E�K = ∑(�'��)²(�'K)∗∑(�'�0)² = Kb�b^,uu(f'K)∗� = 572,412698
� = �'�}� = ^K^,��'�√_�K,b^ = 5,085
Ddl = n – 2 = 9-2 = 7
Allons dans la table des t à t0,025 (comme on est dans un test bilatéral) et 7 degrés de liberté.
La valeur de t seuil est 2,365.
• En passant par l’analyse de variance :
SC Ddl CM F Régression 88816,667 1 88816,667 25,86 Erreur 24041,33 7 3434,57619 Total 112858 8
EF�é"#�BB!�� = M(�� − �0)² = sK ∗ M ,K = s ∗ M , ∗ Y
TD2 Biostatistiques 32
Faculté de Médecine Vétérinaire Université de Liège
Vous avez trois possibilités pour calculer la somme des carrés régression. Nous avons déjà les valeurs
pour les deux dernières possibilités, on en conclut donc que :
EF�é"#�BB!�� = s ∗ M , ∗ Y = 121,67 ∗ 730 = 88816,667
EF�##��# = ∑H�� − �JK = 24041,33 C’est le numérateur de E�K calculer dans le test de t.
EF����� = M(� − �0)² = M Y²
Age = X
Poids = Y
y = � − �0 y²
1 411 (411-561,33)=-150,33 (-150,33)² = 22600,11 1 356 (356-561,33)=-205,33 (-205,33)² = 42161,78 1 485 (485-561,33)=-76,33 (-76,33)² = 5826,78 2 621 (621-561,33)=59,667 (59,67)² = 3560,11 2 584 (584-561,33)=22,667 (22,67)² = 513,78 2 613 (613-561,33)=51,667 (51,67)² = 2669,44 3 681 (681-561,33)=119,667 (119,67)² = 14320,11 3 599 (599-561,33)=37,667 (37,67)² = 1418,78 3 702 (702-561,33)=140,667 (140,67)² = 19787,11 Somme : 0 112858
EF����� = 112858
Ddl regression = nombre de X = 1
Ddl erreur = N – 2 = 9 – 2 = 7
Ddl total = N – 1 = 9-1 = 8
FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 88816,6671 = 88816,667
FT�##��# = EF�##��#R� �##��# = 24041,337 = 3434,57619
U = FT#�"#�BB!��FT�##��# = 88816,6673434,57619 = 25,8603
Vous pouvez vérifier que t² = F : 5,0853047² = 25,8603
TD2 Biostatistiques 33
Faculté de Médecine Vétérinaire Université de Liège
Allons voir dans la table des F (5%) :
On regarde à 1 (en colonne) et 7 (en ligne) degrés de liberté. La valeur de F seuil est 5,59.
D. Conclusions :
Par rapport au test de t :
La valeur de t observée (5,085) est supérieure à la valeur de t seuil (2,365). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
relation linéaire significative entre le poids et l’âge.
Par rapport au test de F :
La valeur de F observée (25,86) est supérieure à la valeur de F seuil (5,59). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
relation linéaire significative entre le poids et l’âge.
2. Tenir compte de la catégorie est-il nécessaire ?
Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : 2 VI :
• âge : variable continue discrète (seulement 3 valeurs : 1, 2 ou 3)
• catégorie : variable continue discrète (seulement 3 valeurs : 1, 2 ou 3)
-VD (variable dépendante) : poids : variable continue
Vous avez 2 possibilités :
Soit vous considérez l’âge et la catégorie comme des variables continues, vous êtes donc dans une
régression linéaire multiple.
Soit vous considérez l’âge et la catégorie comme des variables discrètes avec 3 modalités chacune,
vous êtes donc dans une Anova II.
• Régression linéaire multiple :
A. Poser les hypothèses :
��: �^ = �K = 0
�(: �^ ≠ �K ≠ 0
TD2 Biostatistiques 34
Faculté de Médecine Vétérinaire Université de Liège
B. Calcul :
On calcule les pentes des deux variables indépendantes (âge et catégorie) :
Selon le formulaire de stat (8.3.1):
s^ = R^R
sK = RKR
Où R = ∑ ,K̂ ∗ ∑ ,KK − (∑ ,^,K)²
R^ = M ,^Y ∗ M ,KK − M ,^,K ∗ M ,KY
RK = M ,KY ∗ M ,K̂ − M ,^,K ∗ M ,^Y
On va compléter le tableau de tout à l’heure :
Age = X1
Cat. = X2
Poids = Y
x1= /^ − /^000 y = � − �0
x1*y x1² x2²= (/K − /K000)²
x2*y x1*x2
1 1 411 -1 -150,33 150,33 1 (1-2)² = 1 (-1*-150,33)
= 150,33 -1*-1 =
1
1 2 356 -1 -205,33 205,33 1 (2-2)² = 0 (0*-205,33) =
0 -1*0 =
0
1 3 485 -1 -76,33 76,33 1 (3-2)² = 1 (1*-76,33) =
-76,33 -1*1 =
-1
2 1 621 0 59,667 0 0 (1-2)² = 1 (-1*59,667) =
-59,667 0*-1 =
0
2 2 584 0 22,667 0 0 (2-2)² = 0 (0*22,667) =
0 0*0 =
0
2 3 613 0 51,667 0 0 (3-2)² = 1 (1*51,667) =
51,667 0*1 =
0
3 1 681 1 119,667 119,667 1 (1-2)² = 1 (-1*119,667)
= -119,667
1*-1 = -1
3 2 599 1 37,667 37,667 1 (2-2)² = 0 (0*37,667) =
0 1*0 =
0
3 3 702 1 140,667 140,667 1 (3-2)² = 1 (1*140,667) =
140,667 1*1 =
1
/K000= 2
SOMME 0 0 730 6 6 87 0
R = M ,K̂ ∗ M ,KK − �M ,^,K�K = 6 ∗ 6 − 0K = 36
R^ = M ,^Y ∗ M ,KK − M ,^,K ∗ M ,KY = 730 ∗ 6 − 0 ∗ 87 = 4380
TD2 Biostatistiques 35
Faculté de Médecine Vétérinaire Université de Liège
RK = M ,KY ∗ M ,K̂ − M ,^,K ∗ M ,^Y = 87 ∗ 6 − 0 ∗ 730 = 522
s^ = R^R = 438036 = 121,67
sK = RKR = 52236 = 14,5
On est dans le cas particulier où ∑ ,^,K = 0 et donc les pentes de la régression multiple sont identique
aux pentes de la régression simple de chaque X avec Y.
A présent, pour tester si la régression multiple est significative, nous devons faire une analyse de
variance sur les données de Y prédits :
SC Ddl CM F Régression 90078,17 2 45039,08 11,86 Erreur 22779,83 6 3796,64 Total 112853 8
EF�é"#�BB!�� = M(�� − �0)² = s^ ∗ M ,^Y + sK ∗ M ,KY = 121,67 ∗ 730 + 14,5 ∗ 87 = 90078,17
EF�##��# = MH�� − �JK = EF����� − EF#é"#�BB!�� = 112853 − 90078,17 = 22779,83
EF����� = M(� − �0)² = M Y² = 112853
Ddl régression = nombre de X = 2
Ddl erreur = N – nombre de variables = 9 – 3 = 6
Ddl total = N – 1 = 9-1 = 8
FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 90078,172 = 45039,08
FT�##��# = EF�##��#R� �##��# = 22779,836 = 3796,64
U = FT#�"#�BB!��FT�##��# = 45039,083796,64 = 11,86
TD2 Biostatistiques 36
Faculté de Médecine Vétérinaire Université de Liège
Allons voir dans la table des F (5%) :
On regarde à 2 (en colonne) et 6 (en ligne) degrés de liberté. La valeur de F seuil est 5,14.
C. Conclusion :
La valeur de F observée (11,86) est supérieure à la valeur de F seuil (5,14). Cela signifie que la
probabilité d’observer les données si H0 était vraie est inférieure à 0,05. On rejette H0. La régression
linéaire multiple est significative.
D. Différence entre régression simple et régression multiple :
On a vu au point 1 que la régression simple de l’âge était significative. On vient de voir que la
régression multiple de l’âge et de la catégorie est également significative. La question qu’on peut se
poser à présent est « Y a-t-il un modèle meilleur que l’autre ? L’ajout de la variable catégorie
améliore-t-elle le modèle ? »
Pour ce faire, on va comparer le modèle de régression simple de l’âge avec le modèle de régression
multiple.
�� : EF �éV�����%j���!��� − EF �éV�����%�"� = 0
�( : EF �éV�����%j���!��� − EF �éV�����%�"� > 0
Pour rappel :
EF �éV�����%("� = 88816,67
EF �éV�����%j���!��� = 90078,17
EF )�� �j���!��� = 22779,83
RR �éV�����%�"� = 1
RR �éV�����%j���!��� = 2
RR )�� �j���!��� = 6
U = (EF�j���!��� − EF��"�) (R� j���!��� − R� �"�)�
EF)j���!��� R� j���!���� = (90078,17 − 88816,67) (2 − 1)�22779,83/6 = 0,33
TD2 Biostatistiques 37
Faculté de Médecine Vétérinaire Université de Liège
Allons voir dans la table des F (5%) :
On regarde à 1 (en colonne) et 6 (en ligne) degrés de liberté. La valeur de F seuil est 5,99.
La valeur de F observée (0,33) est inférieure à la valeur de F seuil (5,99). Cela signifie que la
probabilité d’observer les données si H0 était vraie est supérieure à 0,05. On accepte H0. La régression
multiple n’explique pas plus que la régression simple de l’âge sur le poids. Il n’y a donc pas d’intérêt
d’ajouter la catégorie au modèle.
• Anova II :
Je vais refaire le tableau des données brutes croisées pour plus de facilités :
Catégorie 1 2 3
Age 1 411 356 485 2 621 584 613 3 681 599 702
A. Poser les hypothèses :
��: ��� ���� � âV: �^ = �K = �u
��: ��� ���� � � &��éV��� ∶ �^ = �K = �u
�(: )��� � âV: � -��%� % ����é�%& ��V%���&���k
�(: )��� � � &��éV���: � -��%� % ����é�%& ��V%���&���k
L’interaction est impossible à tester puisqu’il n’y a qu’une donnée à chaque croisement des 2 VI.
B. Calcul :
Tableau de l’anova :
SC Ddl CM F Age 97794,67 2 48897,33 59,46 Catégorie 11777 2 5884 7,16 Erreur 3289,33 4 822,33 Total 112858 8
TD2 Biostatistiques 38
Faculté de Médecine Vétérinaire Université de Liège
Calculons les moyennes des différents groupes :
/("�^0000000 = ∑ /% = (411 + 356 + 485)3 = 417,33
/("�K0000000 = ∑ /% = (621 + 584 + 613)3 = 606
/("�u0000000 = ∑ /% = (681 + 599 + 702)3 = 660,667
/���.^0000000 = ∑ /% = (411 + 621 + 681)3 = 571
/���.K0000000 = ∑ /% = (356 + 584 + 599)3 = 513
/���.u0000000 = ∑ /% = (485 + 613 + 702)3 = 600
/D�����000000000 = ∑ /% = 50529 = 561,33
On peut à présent calculer les sommes de carré :
EF�"� = %�"�^ ∗ H/�"�^0000000 − /D.0000JK + %�"�K ∗ H/�"�K0000000 − /D.0000JK + %�"�u ∗ H/�"�u0000000 − /D.0000JK= 3 ∗ (417,33 − 561,33)K + 3 ∗ (606 − 561,33)K + 3 ∗ (660,67 − 561,33)K= 97794,67
EF���é"�#!� = %���.^ ∗ (/���.^0000000 − /D.0000)K + %���.K ∗ (/���.K0000000 − /D.0000)K + %���.u ∗ (/���.u0000000 − /D.0000)K= 3 ∗ (571 − 561,33)K + 3 ∗ (513 − 561,33)K + 3 ∗ (600 − 561,33)K = 11774
EF�##��# = MH/!N − /A\ − /P\ + /D.0000JK= (411 − 417,32 − 571 + 561,33)K + (356 − 417,33 − 513 + 561,33)K+ (485 − 41,33 − 600 + 561,33)K + (621 − 606 − 571 + 561,33)K+ (584 − 606 − 513 + 561,33)K + (613 − 606 − 600 + 561,33)K+ (681 − 660,67 − 571 + 561,33)K + (599 − 660,67 − 513 + 561,33)K + (702− 660,67 − 600 + 561,33)² = 3289,33
TD2 Biostatistiques 39
Faculté de Médecine Vétérinaire Université de Liège
EFQ����� = M(/!NO − /D.0000)²= (411 − 561,33)K + (256 − 561,33)K + (485 − 561,33)K + (621 − 561,33)K+ (584 − 561,33)K + (613 − 561,33)K + (681 − 561,33)K + (599 − 561,33)K+ (702 − 561,33)² = 112858
R� �"� = %�"� − 1 = 3 − 1 = 2
R� ����"�#!� = %���. − 1 = 3 − 1 = 2
R� �##��# = H%�"� − 1J ∗ (%���. − 1) = (3 − 1) ∗ (3 − 1) = 4
R� ����� = S − 1 = 9 − 1 = 8
FT�"� = EF�"�R� �"� = 97794,672 = 48897,33
FT���é"�#!� = EF���é"�#!�R� ���é"�#!� = 117772 = 5884
FT�##��# = EF�##��#R� �##��# = 3289,334 = 822,33
U�"� = FT�"�FT�##��# = 48897,33822,33 = 59,46
U���é"�#!� = FT���é"�#!�FT�##��# = 5884822,33 = 7,16
Allons voir dans la table des F (5%) :
- Effet age : On regarde à 2 (en colonne) et 3 (en ligne) degrés de liberté. La valeur de F seuil
est 6,94.
- Effet catégorie: On regarde à 2 (en colonne) et 4 (en ligne) degrés de liberté. La valeur de F
seuil est 6,94.
C. Conclusion :
-Effet de l’âge : La valeur de F observée (59,46) est supérieure à la valeur de F seuil (6,94). Cela
signifie que la probabilité d’observer les données si H0 était vraie est inférieure à 0,05. On rejette H0. Il
y a un effet significatif de l’âge.
TD2 Biostatistiques 40
Faculté de Médecine Vétérinaire Université de Liège
-Effet de la catégorie : La valeur de F observée (7,16) est supérieure à la valeur de F seuil (6,94). Cela
signifie que la probabilité d’observer les données si H0 était vraie est inférieure à 0,05. On rejette H0. Il
y a un effet significatif de la catégorie.
Il y a donc un intérêt de tenir compte de la catégorie.
TD2 Biostatistiques 41
Faculté de Médecine Vétérinaire Université de Liège
10. L'injection d'hormone de croissance (GH) chez le mouton augmente le poids à l'abattage. On a remarqué que ce gain pondéral était d'autant plus grand que la quantité d'hormone injectée était élevée. On suppose donc la relation linéaire entre ces deux variables. Voici les mesures prises sur 5 moutons différents : GH(UI/10 kg) Gain pondéral (kg)
6 8 1,6 4
20,3 19 16,2 16 12,5 13
Montrez la relation entre le gain pondéral et l’administration de GH.
REPONSE :
Choix du test :
Via l’ « ABC de R » :
-Variable 1 : Injection d’hormone de croissance : variable continue
-Variable 2 : gain pondéral : variable continue
=> Relation linéaire entre 2 variables continues :
- Régression linéaire simple.
- Test de corrélation.
1. Régression linéaire simple :
Il faut choisir une variable qui sera la variable dépendante (Y) et une autre qui sera la variable
indépendante (X). Dans l’énoncé, on dit que l’injection de GH augmente le poids à l’abattage. Donc,
le poids à l’abattage dépend de l’injection de GH. Le poids à l’abattage sera donc la variable
dépendante (Y) et l’injection de GH sera la variable indépendante (X).
A. Poser les hypothèses :
��: � = 0 ∶ ��� � � ����% �%é���. �(: � > 0 ∶ � ����% �%é���. On dit dans l’énoncé que le gain pondéral est d’autant plus grand que la quantité d’hormone est
injectée est élevée. On supposer donc un sens positif à la relation linéaire. On est donc dans un test
unilatéral
TD2 Biostatistiques 42
Faculté de Médecine Vétérinaire Université de Liège
B. Calcul :
Etant donné que la statistique F est toujours positive et bilatérale, on va utiliser un test de t qui nous
permet de tester uniquement si la pente est significativement positive.
Nous devons commencer par estimer la pente de notre échantillon (voir formulaire de stat au point 8) :
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)²
/0 = ∑ /% = (6 + 1,6 + 20,3 + 16,2 + 12,5)5 = 11,32
�0 = ∑ �% = (8 + 4 + 19 + 16 + 13)5 = 12
GH = X
Gain = Y
x = / − /0 y = � − �0 x*y x²
6 8 (6-11,32) = -5,32 (8-12) = -4 -5,32*-4 = 21,28 (-5,32)² = 28,30 1,6 4 (1,6-11,32) = -9,72 (4-12) = -8 -9,72*-8 = 77,76 (-9,72)² = 94,48
20,3 19 (20,3-11,32) = 8,98 (19-12) = 7 8,98*7 = 62,86 8,98² = 80,64 16,2 16 (16,2-11,32) = 4,88 (16-12) = 4 4,88*4 = 19,52 4,88² = 23,81 12,5 13 (12,5-11,32) = 1,18 (13-12) = 1 1,18*1 = 1,18 1,18² = 1,39
Somme : 0 0 182,6 228,628
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 182,6228,628 = 0,7987
En utilisant la statistique t : (les formules sont dans le formulaire de stat au point 8 et 8.1)
� = s − �E�
Où E�K = ∑(�'��)²(�'K)∗∑(�'�0)²
Il faut donc calculer les valeurs de Y prédits (��) puis l’écart entre ces valeurs et les valeurs réelles de
Y :
�� = � + s ∗ /
Où � = �0 − s ∗ /0
� = �0 − s ∗ /0 = 12 − 0,7987 ∗ 11,32 = 2,9589
TD2 Biostatistiques 43
Faculté de Médecine Vétérinaire Université de Liège
GH = X
Gain = Y
Y prédits (��) (� − ��)²
6 8 =2,9589+0,7987*6 = 7,75 (8-7,75)² = 0,06 1,6 4 =2,9589+0,7987*1,6 = 4,24 (4-4,24)² = 0,056
20,3 19 =2,9589+0,7987*20,3 =
19,17 (19,17-19)² = 0,030
16,2 16 =2,9589+0,7987*16,2 =
15,90 (15,90-16)² = 0,01
12,5 13 =2,9589+0,7987*12,5 =
12,94 (12,94-13)² = 0,003
Somme : 0,16152002
E�K = ∑(�'��)²(�'K)∗∑(�'�0)² = �,^�(_'K)∗KKa,�Ka = 0,00023549
� = �'�}� = �,�fa�'�√�,���Ku = 52,045
Ddl = n – 2 = 5-2 = 3
Allons dans la table des t à t0,05 (comme on est dans un test unilatéral) et 3 degrés de liberté.
La valeur de t seuil est 2,353.
C. Conclusion :
La valeur de t observée (52,045) est supérieure à la valeur de t seuil (2,353). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
relation linéaire significative entre le poids à l’abattage et l’injection de GH.
2. Corrélation :
Dans ce cas-ci, il n’y a pas d’importance du choix de X et Y.
A. Poser les hypothèses :
��: � = 0 ∶ ��� � &���é ����%
�(: � > 0 ∶ F���é ����% ������k
On dit dans l’énoncé que le gain pondéral est d’autant plus grand que la quantité d’hormone est
injectée est élevée. On supposer donc un sens positif à la relation linéaire. On est donc dans un test
unilatéral
TD2 Biostatistiques 44
Faculté de Médecine Vétérinaire Université de Liège
B. Calcul :
La formule de la corrélation se trouve dans le formulaire de stat au point 9.
� = ∑ ,Y�∑ ,² ∗ ∑ Y²
On peut repartir des données calculées lors de la régression. Il nous manque le calcul de y².
/0 = ∑ /% = (6 + 1,6 + 20,3 + 16,2 + 12,5)5 = 11,32
�0 = ∑ �% = (8 + 4 + 19 + 16 + 13)5 = 12
GH = X
Gain = Y
x = / − /0 y = � − �0 x*y x² y²
6 8 (6-11,32) =
-5,32 (8-12) =
-4 -5,32*-4 =
21,28 (-5,32)² =
28,30 (-4)² = 16
1,6 4 (1,6-11,32) =
-9,72 (4-12) =
-8 -9,72*-8 =
77,76 (-9,72)² =
94,48 (-8)² = 64
20,3 19 (20,3-11,32) =
8,98 (19-12) =
7 8,98*7 =
62,86 9,28² = 80,64
7² = 49
16,2 16 (16,2-11,32) =
4,88 (16-12) =
4 4,88*4 =
19,52 4,88² = 23,81
4² = 16
12,5 13 (12,5-11,32) =
1,18 (13-12) =
1 1,18*1 =
1,18 1,18² =
1,39 1² = 1
Somme : 0 0 182,6 228,628 146
� = ∑ ,Y�∑ ,² ∗ ∑ Y² = 182,6√228,628 ∗ 146 = 0,999
On passe par la statistique t :
� = ��1 − �² ∗ √S − 2 = 0,99�1 − 0,99K ∗ √5 − 2 = 52,045
On constate que cette valeur de t est identique à celle calculée dans la régression simple.
Ddl = n – 2 = 5-2 = 3
TD2 Biostatistiques 45
Faculté de Médecine Vétérinaire Université de Liège
Allons dans la table des t à t0,05 (comme on est dans un test unilatéral) et 3 degrés de liberté.
La valeur de t seuil est 2,353.
C. Conclusion :
La valeur de t observée (52,045) est supérieure à la valeur de t seuil (2,353). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
corrélation significative entre le poids à l’abattage et l’injection de GH.
TD2 Biostatistiques 46
Faculté de Médecine Vétérinaire Université de Liège
11. Au terme d’une expérience comportant l’administration d’un même régime à 10 souches de White Leghorn, on a mesuré le poids moyen de 50 poules de chaque souche après 350 jours et la consommation alimentaire moyenne de chacune de ces souches. Les résultats ont été les suivants (exprimés en livres) : Poids corporel Consommation alimentaire
4,6 87,1 5,1 93,1 4,8 89,8 4,4 91,4 5,9 99,5 4,7 92,1 5,1 95,5 5,2 99,3 4,9 93,4 5,1 94,4
a) On demande de mesurer la relation qui existe entre ces deux variables et d’en tester la signification au moyen de deux tests. Calculez l’intervalle de confiance 95% du coefficient de régression b) Quel serait l’intervalle de confiance 95% de la prédiction de la consommation en 350 jours d’une poule ayant un poids de 5,3 livres. c) Soit un lot de 50 poules ayant atteint, au terme de l’expérience, le poids moyen de 5,3 livres, on demande de calculer l’intervalle de confiance 95% de la prédiction de la consommation moyenne en 350 jours, pour ce lot particulier.
REPONSE :
a) On demande de mesurer la relation qui existe entre ces deux variables et d’en
tester la signification au moyen de deux tests. Calculez l’intervalle de confiance
95% du coefficient de régression :
A. Choix du test :
Via l’ « ABC de R » :
-Variable 1 : Poids corporel : variable continue
-Variable 2 : Consommation alimentaire : variable continue
=> Relation linéaire entre 2 variables continues :
- Régression linéaire simple.
- Test de corrélation.
Comme dans la question, on nous demande de calculez l’intervalle de confiance 95% du coefficient de
régression, on en déduit qu’on doit réaliser une régression.
TD2 Biostatistiques 47
Faculté de Médecine Vétérinaire Université de Liège
B. Poser les hypothèses :
��: � = 0 ∶ ��� � � ����% �%é���. �(: � ≠ 0 ∶ � ����% �%é���. On n’a pas d’a priori sur le sens de la relation linéaire : pente positive ou négative. On est donc dans
un test bilatéral.
Comme on veut voir l’influence du poids sur la quantité consommée, c’est le poids qui influence la
consommation alimentaire. La consommation alimentaire dépend donc du poids. Le poids sera donc la
variable indépendante (X) et la consommation sera la variable dépendante (Y).
On nous demande de tester la régression au moyen de deux tests. Pour tester la nullité de la pente, on
peut utiliser un test de t ou une analyse de variance.
C. Calcul :
Nous devons commencer par estimer la pente de notre échantillon (voir formulaire de stat au point 8) :
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)²
/0 = ∑ /% = (4,6 + 5,1 + 4,8 + 4,4 + 5,9 + 4,7 + 5,1 + 5,2 + 4,9 + 5,1)10 = 4,98
�0 = ∑ �% = (87,1 + 93,1 + 89,8 + 91,4 + 99,5 + 92,1 + 95,5 + 99,3 + 93,4 + 94,4)10 = 93,56
Poids = X
Consommation = Y
x = / − /0 y = � − �0 x*y x²
4,6 87,1 (4,6-4,98)
= -0,38 (87,1-93,56) =
-6,46 (-0,38*-6,46) =
2,4548 (-0,38)² =
0,1444
5,1 93,1 (5,1-4,98)
= 0,12 (93,1-93,56) =
-0,46 (0,12*-0,46) =
-0,0552 (0,12)² = 0,0144
4,8 89,8 (4,8-4,98)
= -0,18 (89,8-93,56) =
-3,76 (-0,18*-3,76) =
0,6768 (-0,18)² =
0,0324
4,4 91,4 (4,4-4,98)
= -0,58 (91,4-93,56) =
-2,16 (-0,58*-2,16) =
5,4648 (-0,58)² =
0,3364
5,9 99,5 (5,9-4,98)
= 0,92 (99,5-93,56) =
5,94 (0,92*5,94) =
5,4648 (0,92)² = 0,8464
4,7 92,1 (4,7-4,98)
= -0,28 (92,1-93,56) =
-1,46 (-0,28*-1,46) =
0,4088 (-0,28)² =
0,0784
5,1 95,5 (5,1-4,98)
= 0,12 (95,5-93,56) =
1,94 (0,12*1,94) =
0,2328 (0,12)² = 0,0144
5,2 99,3 (5,2-4,9) =
0,22 (99,3-93,56) =
5,74 (0,22*5,74) =
1,2628 (0,22)² = 0,0484
4,9 93,4 (4,9-4,98)
= -0,08 (93,4-93,56) =
-0,16 (-0,08*-0,16) =
0,0128 (-0,08)² =
0,0064
5,1 94,4 (5,1-4,98)
= 0,12 (94,4-93,56) =
0,84 (0,12*0,84) =
0,1008 (0,12)² = 0,0144
Somme : 0 0 11,812 1,536
TD2 Biostatistiques 48
Faculté de Médecine Vétérinaire Université de Liège
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 11,8121,536 = 7,69
A présent, nous avons deux possibilités pour tester si cette valeur de b estimée dans l’échantillon est
significativement différente de 0 dans la population :
- Utilisé la statistique t
- Faire une analyse de variance
• En utilisant la statistique t : (les formules sont dans le formulaire de stat au point 8 et 8.1)
� = s − �E�
Où E�K = ∑(�'��)²(�'K)∗∑(�'�0)²
Il faut donc calculer les valeurs de Y prédits (��) puis l’écart entre ces valeurs et les valeurs réelles de
Y :
�� = � + s ∗ /
Où � = �0 − s ∗ /0
� = �0 − s ∗ /0 = 93,56 − 7,69 ∗ 4,98 = 55,26
Poids = X
Consommation = Y
Y prédits (��) (� − ��)²
4,6 87,1 55,26 + 7,69*4,6 = 90,64 (87,1-90,64)² = 12,51 5,1 93,1 55,26 + 7,69*5,1 = 94,48 (93,1-94,48)² = 1,91 4,8 89,8 55,26 + 7,69*4,8 = 92,17 (89,8-92,17)² = 5,64 4,4 91,4 55,26 + 7,69*4,4 = 89,10 (91,4-89,10)² = 5,29 5,9 99,5 55,26 + 7,69*5,9 = 100,63 (99,5-100,63)² = 1,29 4,7 92,1 55,26 + 7,69*4,7 = 91,41 (92,1-91,41)² = 0,48 5,1 95,5 55,26 + 7,69*5,1 = 94,48 (95,5-94,48)² = 1,03 5,2 99,3 55,26 + 7,69*5,2 = 95,25 (99,3-95,25)² = 16,39 4,9 93,4 55,26 + 7,69*4,9 = 92,94 (93,4-92,94)² = 0,21 5,1 94,4 55,26 + 7,69*5,1 = 94,48 (94,4-94,48-² = 0,007
Somme : 44,76849
E�K = ∑(�'��)²(�'K)∗∑(�'�0)² = bb,��abf(^�'K)∗^,_u� = 3,64
� = �'�}� = �,�f'�√u,�b = 4,0289
TD2 Biostatistiques 49
Faculté de Médecine Vétérinaire Université de Liège
Ddl = n – 2 = 10-2 = 8
Allons dans la table des t à t0,025 (comme on est dans un test bilatéral) et 8 degrés de liberté.
La valeur de t seuil est 2,306.
• En passant par l’analyse de variance :
SC Ddl CM F Régression 90,83 1 90,83 16,23 Erreur 44,768 8 5,596 Total 135,604 9 15,067
EF�é"#�BB!�� = M(�� − �0)² = sK ∗ M ,K = s ∗ M , ∗ Y
Vous avez trois possibilités pour calculer la somme des carrés régression. Nous avons déjà les valeurs
pour les deux dernières possibilités, on en conclut donc que :
EF�é"#�BB!�� = s ∗ M , ∗ Y = 7,69 ∗ 11,812 = 90,83
EF�##��# = ∑H�� − �JK = 44,76849 C’est le numérateur de E�K calculer dans le test de t.
EF����� = M(� − �0)² = M Y²
Poids = X
Consommation = Y
y = � − �0 y²
4,6 87,1 (87,1-93,56) = -6,46 (-6,46)² = 41,73 5,1 93,1 (93,1-93,56) = -0,46 (-0,46)² = 0,21 4,8 89,8 (89,8-93,56) = -3,76 (-3,76)² = 14,14 4,4 91,4 (91,4-93,56) = -2,16 (-2,16)² = 4,66 5,9 99,5 (99,5-93,56) = 5,94 (5,94)² = 35,28 4,7 92,1 (92,1-93,56) = -1,46 (-1,46)² = 2,13 5,1 95,5 (95,5-93,56) = 1,94 (1,94)² = 3,76 5,2 99,3 (99,3-93,56) = 5,74 (5,74)² = 32,95 4,9 93,4 (93,4-93,56) = -0,16 (-0,16)² = 0,026 5,1 94,4 (94,4-93,56) = 0,84 (0,84)² = 0,70
Somme : 0 135,604
EF����� = 135,604
OU EF����� = EF�é"#�BB!�� + EF�##��# = 90,83 + 44,768 = 135,604
TD2 Biostatistiques 50
Faculté de Médecine Vétérinaire Université de Liège
Ddl regression = nombre de X = 1
Ddl erreur = N – 2 = 10 – 2 = 8
Ddl total = N – 1 = 10-1 = 9
FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 90,831 = 90,83
FT�##��# = EF�##��#R� �##��# = 44,7688 = 5,596
U = FT#�"#�BB!��FT�##��# = 90,835,596 = 16,23
Vous pouvez vérifier que t² = F : 4,0289² = 16,23
Allons voir dans la table des F (5%) :
On regarde à 1 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F seuil est 5,32.
D. Conclusions :
Par rapport au test de t :
La valeur de t observée (4,029) est supérieure à la valeur de t seuil (2,306). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
relation linéaire significative entre le poids et la consommation alimentaire.
Par rapport au test de F :
La valeur de F observée (16,23) est supérieure à la valeur de F seuil (5,32). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
relation linéaire significative entre le poids et la consommation alimentaire.
E. Calcul de l’intervalle de confiance (voir formule 8.1):
� = s ± ��/K ∗ E�
� = 7,69 ± 2,306 ∗ �3,64 = 3,288 )� 12,09
La pente dans la population a 95% de chance de se trouver entre 3,288 et 12,09.
TD2 Biostatistiques 51
Faculté de Médecine Vétérinaire Université de Liège
b) Quel serait l’intervalle de confiance 95% de la prédiction de la consommation en
350 jours d’une poule ayant un poids de 5,3 livres.
Pour prédire une valeur, on utilise la formule 8.2.2 : Prédiction de Y en fonction de X.
� = �� ± ��/K ∗ Elz ∗ �1 + 1% + ,²∑ ,²
X = 5,3 �� = � + s ∗ / = 55,26 + 7,69 ∗ 5,3 = 96,02
Y prédit à partir des valeurs de l’équation de régression linéaire trouvée au point précédent (a).
��/K = 2,306
Valeur trouvée également au point précédent correspondant à la valeur de t0,025 dans la table avec 8 degrés de liberté.
Elz = √FT �� � = �∑(� − ��)²S − 2 = �5,596 = 2,36
,K = (/ − /0)K = (5,3 − 4,98)K = 0,1024 M ,² = 1,536
Calculé au point précédent.
� = �� ± ��/K ∗ Elz ∗ �1 + 1% + ,K∑ ,K = 96,02 ± 2,306 ∗ 2,36 ∗ �1 + 110 + 0,10241,536= 90,1287 )� 101,91
Donc la prédiction de la consommation d’une poule ayant un poids de 5,3 livres a 95% de chance de se trouver entre 90,13 et 101,91.
c) Soit un lot de 50 poules ayant atteint, au terme de l’expérience, le poids moyen de
5,3 livres, on demande de calculer l’intervalle de confiance 95% de la prédiction
de la consommation moyenne en 350 jours, pour ce lot particulier.
Pour prédire une valeur moyenne, on utilise la formule 8.2.1 : Prédire la moyenne des Y en fonction
de X.
�0 = �� ± ��/K ∗ Elz ∗ �1% + ,²∑ ,²
TD2 Biostatistiques 52
Faculté de Médecine Vétérinaire Université de Liège
X = 5,3 �� = � + s ∗ / = 55,26 + 7,69 ∗ 5,3 = 96,02
Y prédit à partir des valeurs de l’équation de régression linéaire trouvée au point précédent (a).
��/K = 2,306
Valeur trouvée également au point précédent (a) correspondant à la valeur de t0,025 dans la table avec 8 degrés de liberté.
Elz = √FT �� � = �∑(� − ��)²S − 2 = �5,596 = 2,36
,K = (/ − /0)K = (5,3 − 4,98)K = 0,1024 M ,² = 1,536
Calculé au point précédent (a).
�0 = �� ± ��/K ∗ Elz ∗ �1% + ,K∑ ,K = 96,02 ± 2,306 ∗ 2,36 ∗ � 110 + 0,10241,536= 93,79 )� 98,25
Donc la prédiction de la consommation moyenne de poules ayant un poids moyen de 5,3 livres a 95% de chance de se trouver entre 93,79 et 98,25.
TD2 Biostatistiques 53
Faculté de Médecine Vétérinaire Université de Liège
12. Des scientifiques ont minutieusement disséqué les carrés de 12 porcs d’abattoir et, parallèlement au poids des carrés, ils ont relevé le poids abattu et la longueur des carcasses. Voici les résultats : Poids des carrés Poids abattu Longueur 17 75,4 76 18,2 72,2 71 19,2 80,4 75 18 71,2 71 18,2 77 76 15,2 65,8 76 15 67,8 73 17 71,8 73 16,8 69,2 74 16 68 74 12,8 55 67 13 59 68
a) Trouver la relation significative permettant d’estimer le poids des carrés à partir du poids abattu et de la longueur de la carcasse b) Calculer la part des variations du poids des carrés qui est expliquée par les variations du poids abattu et de la longueur c) Mesurer la relation qui existe entre le poids abattu et la longueur lorsque le poids des carrés est constant et tester cette relation
REPONSE :
a) Trouver la relation significative permettant d’estimer le poids des carrés à partir
du poids abattu et de la longueur de la carcasse
A. Choix du test :
Via l’ « ABC de R » :
-VI (variable indépendante) : 2 VI :
• Poids abattu : variable continue
• Longueur de la carcasse: variable continue
-VD (variable dépendante) : poids des carrés : variable continue
Régression linéaire multiple.
B. Poser les hypothèses :
��: �^ = �K = 0
�(: �^ ≠ �K ≠ 0
TD2 Biostatistiques 54
Faculté de Médecine Vétérinaire Université de Liège
C. Calcul :
On calcule les pentes des deux variables indépendantes (Poids abattu = X1 et longueur de la caracasse
= X2) :
Selon le formulaire de stat (8.3.1):
s^ = R^R
sK = RKR
Où R = ∑ ,K̂ ∗ ∑ ,KK − (∑ ,^,K)²
R^ = M ,^Y ∗ M ,KK − M ,^,K ∗ M ,KY
RK = M ,KY ∗ M ,K̂ − M ,^,K ∗ M ,^Y
Calculons les moyennes des différentes variables :
/^000 = ∑ /% = (75,4 + 72,2 + 80,4 + 71,2 + 77 + 65,8 + 67,8 + 71,8 + 69,2 + 68 + 55 + 59)12= 69,4
/K000 = ∑ /% = (76 + 71 + 75 + 71 + 76 + 76 + 73 + 73 + 74 + 74 + 67 + 68)12 = 72,83
�0 = ∑ /% = (17 + 18,2 + 19,2 + 18 + 18,2 + 15,2 + 15 + 17 + 16,8 + 16 + 12,8 + 13)12= 16,3667
TD2 Biostatistiques 55
Faculté de Médecine Vétérinaire Université de Liège
Y X1 X2 y = �− �0
x1= /−̂ /^000
x2= /K − /K000 y² x1² x2² x1*y x2*y x1*x2
17 75,4 76 17-16,37
= 0,633
75,4-69,4 = 6
76-72,83 = 3,167
0,63² =
0,40 6² = 36
3,167² =
10,028
6*0,633 = 3,8
3,167* 0,633
= 2,005
6*3,167 = 19
18,2 72,2 71 18,2-16,37
= 1,833
72,2-69,4 = 2,8
71-72,83 = -1,83
1,83² =
3,36 2,8² = 7,84
(-1,83)² = 3,36
2,8*1,83 = 5,13
-1,83* 1,833
= -3,36
2,8*-1,83 = -5,13
19,2 80,4 75 19,2-16,37
= 2,833
80,4-69,4 = 11
75-72,83 = 2,167
2,83² =
8,03 11² = 121
2,167² =
4,694
11*2,83 = 31,167
2,167* 2,833
= 6,138
11*2,167 = 23,83
18 71,2 71 18-16,37
= 1,633
71,2-69,4 = 1,8
71-72,83 = -1,83
1,63² =
2,67 1,8² = 3,24
(-1,83)² = 3,36
1,8* 1,63 = 2,94
-1,83* 1,633
= -2,99
1,8*-1,83 = -3,3
18,2 77 76 18,2-16,37
= 1,833
77-69,4 = 7,6
76-72,83 = 3,167
1,83² =
3,36 7,6² = 57,76
3,167² =
10,028
7,6* 1,83 = 13,93
3,167* 1,833
= 5,805
7,6*3,167 = 24,067
15,2 65,8 76 15,2-16,37
= -1,167
65,8-69,4 = -3,6
76-72,83 = 3,167
(-1,17)²
= 1,36
(-3,6)² =
12,96
3,167² =
10,028
-3,6*-1,17 =
4,2
3,167* -1,167
= -3,69
-3,6*3,167
= -11,4
15 67,8 73 15-16,37
= -1,367
67,8-69,4 = -1,6
73-72,83 = 0,167
(-1,37)²
= 1,87
(-3,6)² =
12,96
0,167² =
0,028
-1,6*-1,17 = 2,187
0,167* -1,167
= -
0,2278
-1,6*0,167 = -0,267
17 71,8 73 17-16,37
= 0,63
71,8-69,4 = 2,4
73-72,83 = 0,167
0,63² =
0,40 2,4² = 5,76
0,167² =
0,028
2,4* 0,63 = 1,52
0,167* 0,63 = 0,105
2,4*0,167 = 0,4
16,8 69,2 74 16,8-16,37
= 0,43
69,2-69,4 = -0,2
74-72,83 = 1,167
0,43² =
0,19 (-0,2)² = 0,04
1,167² = 1,36
-0,2* 0,43 = -0,087
1,167* 0,43 = 0,505
-0,2*1,167 = -0,233
16 68 74 16-16,37
= -0,367
68-69,4 = -1,4
74-72,83 = 1,167
(-0,37)²
= 0,13
(-1,4)² = 1,96
1,167² = 1,36
-1,4* -0,37
= 0,513
1,167* -0,367
= -0,427
-1,4*1,167 = -1,633
12,8 55 67 12,8-16,37
= -3,567
55-69,4 = -
14,4
67-72,83 = -5,83
(-3,57)²
= 12,72
(-14,4)²
= 207,36
(-5,83)²
= 34,028
-14,4* -3,57
= 51,36
-5,83*-3,57 = 20,805
-14,4*-5,83 = 84
13 59 68 13-16,37
= -3,67
59-69,4 = -
10,4
68-72,83 = -4,83
(-3,67)²
= 11,33
(-10,4)²
= 108,16
(-4,83)²
= 23,36
-10,4* -3,7 = 35,013
-4,83* -3,67
= 16,27
-10,4*-4,83 = 50,267
SOMME 45,83 564,64 101,67 151,68 40,93 179,6
TD2 Biostatistiques 56
Faculté de Médecine Vétérinaire Université de Liège
R = M ,K̂ ∗ M ,KK − �M ,^,K�K = 564,64 ∗ 101,67 − 179,6K = 25148,90667
R^ = M ,^Y ∗ M ,KK − M ,^,K ∗ M ,KY = 151,68 ∗ 101,667 − 179,6 ∗ 40,933 = 8069,173
RK = M ,KY ∗ M ,K̂ − M ,^,K ∗ M ,^Y = 40,93 ∗ 564,64 − 179,6 ∗ 151,68 = −4129,13067
s^ = R^R = 8069,17325148,91 = 0,3208
sK = RKR = − 4129,1325148,91 = −0,16418728
A présent, pour tester si la régression multiple est significative, nous devons faire une analyse de
variance sur les données de Y prédits :
SC Ddl CM F Régression 41,95 2 20,97 48,65 Erreur 3,88 9 0,4311 Total 45,83 11 4,166
EF�é"#�BB!�� = M(�� − �0)² = s^ ∗ M ,^Y + sK ∗ M ,KY = 0,32 ∗ 151,68 ± 0,16 ∗ 40,93= 41,9466796
EF�##��# = MH�� − �JK = EF����� − EF#é"#�BB!�� = 45,83 − 41,95 = 3,879987
EF����� = M(� − �0)² = M Y² = 45,82667
Ddl régression = nombre de X = 2
Ddl erreur = N – nombre de variables = 12 – 3 = 9
Ddl total = N – 1 = 12-1 = 11
FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 41,952 = 20,9733
FT�##��# = EF�##��#R� �##��# = 3,889 = 0,4311
TD2 Biostatistiques 57
Faculté de Médecine Vétérinaire Université de Liège
U = FT#�"#�BB!��FT�##��# = 20,970,43 = 48,64966
Allons voir dans la table des F (5%) :
On regarde à 2 (en colonne) et 9 (en ligne) degrés de liberté. La valeur de F seuil est 4,26.
D. Conclusion :
La valeur de F observée (48,65) est supérieure à la valeur de F seuil (4,26). Cela signifie que la
probabilité d’observer les données si H0 était vraie est inférieure à 0,05. On rejette H0. La régression
linéaire multiple est significative.
b) Calculer la part des variations du poids des carrés qui est expliquée par les
variations du poids abattu et de la longueur
La part de variance = R² = }W�é�]������}W��� ¡ = b^,f_b_,au = 0,9153
Le poids abattu et la longueur explique 91,53% de la variation du poids des carrés.
c) Mesurer la relation qui existe entre le poids abattu et la longueur lorsque le poids
des carrés est constant et tester cette relation
Pour ce faire, on doit ajuster les valeurs de poids abattu et de la longueur au poids des carrés. On va
donc chercher la relation entre premièrement le poids abattu et le poids des carrés et deuxièmement
entre la longueur et le poids des carrés. A partir de ces relations, on ajustera le poids abattu et la
longueur. On aura donc des nouvelles valeurs de poids abattu et de longueur. On pourra alors calculer
la relation entre ces deux nouvelles variables.
A. Relation entre le poids abattu et le poids des carrés :
Dans ce cas-ci, poids abattu = Y et poids des carrés = X.
Comme calculé dans le point précédent (a), on sait que
M ,² = 45,83
M ,Y = 151,68
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 151,6845,83 = 3,30986
TD2 Biostatistiques 58
Faculté de Médecine Vétérinaire Université de Liège
B. Ajustement des poids abattu :
A présent, on peut calculer des nouvelles valeurs de poids abattu en ajustant pour le poids des carrés.
On considèrera que tout le monde à la moyenne des poids des carrés. Dès lors, les nouveaux poids
abattus se calculent comme suit :
����� �s��� ���i��� = ����� �s��� + s ∗ (/0 − /)
T�Y%% �� ����� �� &���é� = 16,367
Poids des carrés Poids abattu Poids abattu ajusté 17 75,4 75,4+3,31*(16,37-17) = 73,3 18,2 72,2 72,2+3,31*(16,37-18,2) = 66,13 19,2 80,4 80,4+3,31*(16,37-19,2) = 71,02 18 71,2 71,2+3,31*(16,37-18) = 65,79 18,2 77 77+3,31*(16,37-18,2) = 70,93 15,2 65,8 65,84+3,31*(16,37-15,2) = 69,66 15 67,8 67,8+3,31*(16,37-15) = 72,32 17 71,8 71,8+3,31*(16,37-17) = 69,70 16,8 69,2 69,2+3,31*(16,37-16,8) = 67,76 16 68 68+3,31*(16,37-16) = 69,21 12,8 55 55+3,31*(16,37-12,8) = 66,80 13 59 59+3,31*(16,37-13) = 70,14
C. Relation entre la longueur et le poids des carrés :
Dans ce cas-ci, longueur = Y et poids des carrés = X.
Comme calculé dans le point précédent (a), on sait que
M ,² = 45,83
M ,Y = 40,93
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 40,9345,83 = 0,89322
TD2 Biostatistiques 59
Faculté de Médecine Vétérinaire Université de Liège
D. Ajustement des longueurs :
A présent, on peut calculer des nouvelles valeurs de longueur en ajustant pour le poids des carrés. On
considèrera que tout le monde à la moyenne des poids des carrés. Dès lors, les nouvelles longueurs se
calculent comme suit :
¢�%V ����i��� = ¢�%V � + s ∗ (/0 − /)
T�Y%% �� ����� �� &���é� = 16,367
Poids des carrés Longueur Longueur ajustée 17 76 76+0,89*(16,37-17) = 75,43 18,2 71 71+0,89*(16,37-18,2) = 69,36 19,2 75 75+0,89*(16,37-19,2) = 72,47 18 71 71+0,89*(16,37-18) = 69,54 18,2 76 76+0,89*(16,37-18,2) = 74,36 15,2 76 76+0,89*(16,37-15,2) = 77,04 15 73 73+0,89*(16,37-15) = 74,22 17 73 73+0,89*(16,37-17) = 72,43 16,8 74 74+0,89*(16,37-16,8) = 73,61 16 74 74+0,89*(16,37-16) = 74,33 12,8 67 67+0,89*(16,37-12,8) = 70,18 13 68 68+0,89*(16,37-13) = 71,01
E. Relation entre les poids abattus ajustés et les longueurs ajustées :
On utilise les nouvelles valeurs calculées pour tester la relation entre ces deux variabes.
Poids abattu ajusté Longueur ajustée 73,3 75,43 66,13 69,36 71,02 72,47 65,79 69,54 70,93 74,36 69,66 77,04 72,32 74,22 69,70 72,43 67,76 73,61 69,21 74,33 66,80 70,18 70,14 71,01
Pour tester la relation entre 2 variables continues, on peut réaliser une régression simple ou une
corrélation.
TD2 Biostatistiques 60
Faculté de Médecine Vétérinaire Université de Liège
1ère méthode : Régression linéaire simple :
On ne nous donne pas d’information sur le sens de cette relation. Donc on choisit une variable comme
X et une autre comme Y. Arbitrairement, je choisis de prendre le poids abattu comme X et la longueur
comme Y.
��: � = 0 ∶ ��� � � ����% �%é���. �(: � ≠ 0 ∶ � ����% �%é���. On n’a pas d’a priori sur le sens de la relation linéaire : pente positive ou négative. On est donc dans
un test bilatéral.
Nous devons commencer par estimer la pente de notre échantillon (voir formulaire de stat au point 8) :
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)²
Les moyennes ne doivent pas avoir changer par rapport à la première analyse. Donc,
/0 = 69,4
�0 = 72,83
Poids = X
Longueur = Y
x = / − /0 y = � − �0 x*y x²
73,3 75,43 73,3-69,4 = 3,9
75,43-72,83 = 2,5967
3,9*2,60 = 10,127
3,9² = 15,21
66,13 69,36 66,13-69,4 = -3,27
69,36-72,83 = -3,473
-3,27*-3,47 = 11,3578
(-3,27)² = 10,6929
71,02 72,47 71,02-69,4 = 1,62
72,47-72,83 = -0,363
1,62*-0,36 = -0,5886
1,62² = 2,6244
65,79 69,54 65,79-69,4 = -3,61
69,54-72,83 = -3,293
-3,61*-3,29 = 11,889
(-3,61)² = 13,0321
70,93 74,36 70,93-69,4 = 1,53
74,36-72,83 = 1,5267
1,53*1,53 = 2,3358
1,53² = 2,3409
69,66 77,04 69,66-69,4 = 0,26
77,04-72,83 = 4,2067
0,26*4,21 = 1,0937
0,26² = 0,0676
72,32 74,22 72,32-69,4 = 2,92
74,22-72,83 = 1,3867
2,92*1,29 = 4,049
2,92² = 8,5264
69,70 72,43 69,70-69,4 = 0,3
72,43-72,83 = -0,40
0,3*-0,40 = -0,121
0,3² = 0,03
67,76 73,61 67,76-69,4 = -1,64
73,61-72,83 = 0,7767
-1,64*0,78 = -1,27
(-1,64)² = 2,6896
69,21 74,33 69,21-69,4 = -0,19
74,33-72,83 = 1,4967
-0,19*1,50 = -0,28
(-0,19)² = 0,0361
66,80 70,18 66,80-69,4 = -2,6
70,18-72,83 = -2,653
-2,6*-2,65 = 6,8987
(-2,6)² = 6,76
70,14 71,01 70,14-69,4 = 0,74
71,01-72,83 = -1,823
0,74*-1,82 = -1,3493
0,74² = 0,5476
Somme : 0 0 44,134 62,6176
TD2 Biostatistiques 61
Faculté de Médecine Vétérinaire Université de Liège
s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 44,13462,6176 = 0,7048
A présent, nous avons deux possibilités pour tester si cette valeur de b estimée dans l’échantillon est
significativement différente de 0 dans la population :
- Utilisé la statistique t
- Faire une analyse de variance
• En utilisant la statistique t : (les formules sont dans le formulaire de stat au point 8 et 8.1)
� = s − �E�
Où E�K = ∑(�'��)²(�'K)∗∑(�'�0)² Il faut donc calculer les valeurs de Y prédits (��) puis l’écart entre ces valeurs et les valeurs réelles de
Y :
�� = � + s ∗ /
Où � = �0 − s ∗ /0
� = �0 − s ∗ /0 = 72,83 − 0,70 ∗ 69,4 = 23,91894
Poids = X
Longueur = Y
Y prédits (��) (� − ��)²
73,3 75,43 23,92+0,70*73,3 = 75,58 (75,43-75,58)² = 0,023 66,13 69,36 23,92+0,70*66,13 = 70,53 (69,36-70,53)² = 1,36 71,02 72,47 23,92+0,70*71,02 = 73,97 (72,47-73,97)² = 2,26 65,79 69,54 23,92+0,70*65,79 = 70,29 (69,54-70,29)² = 0,56 70,93 74,36 23,92+0,70*70,93 = 73,91 (74,36-73,91)² = 0,20 69,66 77,04 23,92+0,70*69,66 = 73,016 (77,04-73,02)² = 16,19 72,32 74,22 23,92+0,70*72,32 = 74,89 (74,22-74,89)² = 0,45 69,70 72,43 23,92+0,70*69,70 = 73,04 (72,43-73,04)² = 0,38 67,76 73,61 23,92+0,70*67,76 = 71,68 (73,61-71,68)² = 3,73 69,21 74,33 23,92+0,70*69,21 = 72,699 (74,33-72,70)² = 2,66 66,80 70,18 23,92+0,70*66,80 = 71,001 (70,18-71)² = 0,67 70,14 71,01 23,92+0,70*70,14 = 73,35 (71,01-73,35)² = 5,50
Somme : 33,9985
E�K = ∑(�'��)²(�'K)∗∑(�'�0)² = uu,ffa_(^K'K)∗�K,�^�� = 0,054
� = �'�}� = �,��'�√�,�_b = 3,02479
TD2 Biostatistiques 62
Faculté de Médecine Vétérinaire Université de Liège
Ddl = n – 2 = 12-2 = 10
Allons dans la table des t à t0,025 (comme on est dans un test bilatéral) et 10 degrés de liberté.
La valeur de t seuil est 2,228.
La valeur de t observée (3,02) est supérieure à la valeur de t seuil (2,228). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
relation linéaire significative entre le poids abattu ajusté et la longueur ajustée.
• En passant par l’analyse de variance :
SC Ddl CM F Régression 31,11 1 31,11 9,15 Erreur 33,9985 10 3,39985 Total 65,105 11
EF�é"#�BB!�� = M(�� − �0)² = sK ∗ M ,K = s ∗ M , ∗ Y
Vous avez trois possibilités pour calculer la somme des carrés régression. Nous avons déjà les valeurs
pour les deux dernières possibilités, on en conclut donc que :
EF�é"#�BB!�� = s ∗ M , ∗ Y = 0,70 ∗ 44,13 = 31,1065
EF�##��# = ∑H�� − �JK = 33,9985 C’est le numérateur de E�K calculer dans le test de t.
EF����� = M(� − �0)² = M Y² = EF�é"#�BB!�� + EF�##��# = 31,1065 + 33,9985 = 65,105
Ddl regression = nombre de X = 1
Ddl erreur = N – 2 = 12 – 2 = 10
Ddl total = N – 1 = 12-1 = 11
FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 31,111 = 31,11
FT�##��# = EF�##��#R� �##��# = 33,998510 = 3,39985
TD2 Biostatistiques 63
Faculté de Médecine Vétérinaire Université de Liège
U = FT#�"#�BB!��FT�##��# = 31,113,4 = 9,14936
Vous pouvez vérifier que t² = F : 3,025² = 9,15
Allons voir dans la table des F (5%) :
On regarde à 1 (en colonne) et 10 (en ligne) degrés de liberté. La valeur de F seuil est 4,96.
La valeur de F observée (9,15) est supérieure à la valeur de F seuil (4,96). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
relation linéaire significative entre le poids abattu ajusté et la longueur ajustée.
2ème méthode : Corrélation :
Dans ce cas-ci, il n’y a pas d’importance du choix de X et Y.
��: � = 0 ∶ ��� � &���é ����%
�(: � ≠ 0 ∶ F���é ����% ������k
On n’a pas d’a priori sur le sens de la relation linéaire : corrélation positive ou négative. On est donc
dans un test bilatéral.
La formule de la corrélation se trouve dans le formulaire de stat au point 9.
� = ∑ ,Y�∑ ,² ∗ ∑ Y²
On peut repartir des données calculées lors de la régression. Il nous manque les y² mais qui
correspondent à la SC total calculée lors du test d’anova ci-dessus = 65,105
TD2 Biostatistiques 64
Faculté de Médecine Vétérinaire Université de Liège
Poids = X
Longueur = Y
x = / − /0 y = � − �0 x*y x²
73,3 75,43 73,3-69,4 = 3,9
75,43-72,83 = 2,5967
3,9*2,60 = 10,127
3,9² = 15,21
66,13 69,36 66,13-69,4 = -3,27
69,36-72,83 = -3,473
-3,27*-3,47 = 11,3578
(-3,27)² = 10,6929
71,02 72,47 71,02-69,4 = 1,62
72,47-72,83 = -0,363
1,62*-0,36 = -0,5886
1,62² = 2,6244
65,79 69,54 65,79-69,4 = -3,61
69,54-72,83 = -3,293
-3,61*-3,29 = 11,889
(-3,61)² = 13,0321
70,93 74,36 70,93-69,4 = 1,53
74,36-72,83 = 1,5267
1,53*1,53 = 2,3358
1,53² = 2,3409
69,66 77,04 69,66-69,4 = 0,26
77,04-72,83 = 4,2067
0,26*4,21 = 1,0937
0,26² = 0,0676
72,32 74,22 72,32-69,4 = 2,92
74,22-72,83 = 1,3867
2,92*1,29 = 4,049
2,92² = 8,5264
69,70 72,43 69,70-69,4 = 0,3
72,43-72,83 = -0,40
0,3*-0,40 = -0,121
0,3² = 0,03
67,76 73,61 67,76-69,4 = -1,64
73,61-72,83 = 0,7767
-1,64*0,78 = -1,27
(-1,64)² = 2,6896
69,21 74,33 69,21-69,4 = -0,19
74,33-72,83 = 1,4967
-0,19*1,50 = -0,28
(-0,19)² = 0,0361
66,80 70,18 66,80-69,4 = -2,6
70,18-72,83 = -2,653
-2,6*-2,65 = 6,8987
(-2,6)² = 6,76
70,14 71,01 70,14-69,4 = 0,74
71,01-72,83 = -1,823
0,74*-1,82 = -1,3493
0,74² = 0,5476
Somme : 0 0 44,134 62,6176
� = ∑ ,Y�∑ ,² ∗ ∑ Y² = 44,134
�62,6176 ∗ 65,105 = 0,6912
On passe par la statistique t :
� = ��1 − �² ∗ √S − 2 = 0,69�1 − 0,69K ∗ √12 − 2 = 3,02479
On constate que cette valeur de t est identique à celle calculée dans la régression simple.
Ddl = n – 2 = 12-2 = 10
Allons dans la table des t à t0,025 (comme on est dans un test unilatéral) et 10 degrés de liberté.
La valeur de t seuil est 2,228.
La valeur de t observée (3,025) est supérieure à la valeur de t seuil (2,228). Cela signifie que la
probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une
corrélation significative entre le poids abattu ajusté et la longueur ajustée.