Test de corrélation simple et test de Normalité
-
Upload
adad-med-cherif -
Category
Education
-
view
43 -
download
5
Transcript of Test de corrélation simple et test de Normalité
Test de corrélation simple Et test de Normalité
Prof. Adad Mohamed Cherif 2017
Université d’Oum El Bouaghi Faculté des sciences de la terre et de l’architecture
∑. µ. Α. ρ
Rappel théorique
Analyse de corrélation sur le logiciel SPSS.
Principe de la méthode de corrélationC’est une méthode bi-variée, Elle sert à croiser des variables X et Y pour détecter une relation possible entre elles. Cependant, X et Y ne sont pas forcément causales . Donc, « UNE CORRELATION N'IMPLIQUE PAS NECESSAIREMENT UNE CAUSALITE »Par exemple, la corrélation positive qui existe entre 2 variables Taille et Poids. Généralement, il est admis qu’au fur à mesure que la taille augmente, le poids tend à prendre des valeurs de plus en plus importante. Donc, il y a une relation entre elles, la variable taille agit sur le la variable poids.
La corrélation de Pearson, qui est un test paramétrique, sert à croiser 2 variables quantitatives discrètes ou continues ( valeurs mesurées à l’aide d’intervalles ou de rapport). Cette corrélation est exprimé par le coefficient « r » qui indique le sens et l’intensité de cette liaison. -1
1. r est proche de 0, la corrélation n’existe pas entre X et Y 2. 0.0 < r < 0.5 : Très faible3. r est proche de 1, la corrélation très forte positive entre X et Y 4. r est proche de -1, la corrélation très forte négative entre X et Y
D’une manière générale, Au fur est mesure que r s’approche de +1 ou -1, la corrélation est forte. Quand r s’approche de plus près de « 0 », la corrélation est faible, voire nulle. La corrélation est donc définie par le sens et l’intensité de la liaison des 2 variables. Corrélation positive (0 < r < 1) : relation proportionnelle Corrélation négative ( Corrélation négative (-1 < r < 0) : relation inversement
proportionnelle
La corrélation de Spearman « ρ », quant à elle, sert à croiser 2 variables dont l’une est mesurée à l’aide de l’échelle ordinale.
On peut appréhender beaucoup mieux le sens et l’intensité de la corrélation par un examen visuel . On fait appel, donc, au nuage de points (scatter diagrams). C’est intersection des 2 variables. Le coefficient de corrélation linéaire r est tel que -1
Y est la variable dépendante (à expliquer, à prédire) et que X est la variable indépendante (explicative, prédicteur). On peut dire que les valeurs de X permettent de prédire les valeurs de X. Cependant , en statistique, il y a 3 types de variable : variable dépendante, variable indépendante et variable de contrôle. Cette dernière peut avoir un effet négatif sur la prédiction. Elle doit être maintenue constante dans l’analyse de corrélation, exemple conduite à haute vitesse (VI), risque d’accident (VD) et l’état de santé du conducteur, l’état des routes, état du véhicule ( les variables de contrôle).
Variables qu’on peut leur appliquer l’analyse de corrélation Variable X (indépendante) Variable Y (dépendante)Taille Poids Revenus DépensesTaux de précipitation Rendement agricole Industrialisation Pollution Dépenses Epargne Tabagisme Cancer des poumons Hauteur des bâtiments Vitesse de l’airConduire à haute vitesse Risque d’accident Distance Temps
Dans l’analyse de corrélation , on évoque souvent la covariance qui est la moyenne des produits moins le produit des moyens . Comme la variance , la covariance n’a pas de signification tangible. Pour quelle soit un indicateur interprétable , il faut passez au coefficient de corrélation linéaire . C’est à l’image de la variance interprétée par l’écart-type (standard deviation) qui est racine carré de sigma =variance .
Relation est linéaire Données sont indépendantes Choix de la méthode
Méthode paramétrique (variables quantitatives) : coefficient de Pearson Méthode non- paramétrique (variable qualitative) : coefficient de Spearman
la distribution des variables suivent la loi normale
Exemple d’analyse de corrélation
Variable indépendance : Démographie Variable dépendante : Demande de logements
Variable indépendante X Variable dépendante Y Démographie en million Demande de logements en millier
7 3010 6514 8018 10522 14026 18531 20434 23037 26040 340
Données fictives
La question de recherche « Est-ce que la démographie galopante est responsable de la hausse de la demande en logements »
Formulation des hypothèses•Hypothèse nulle (H₀ ). Il n ’existe pas de relation
entre la démographie et la demande en logements
• Hypothèse alternative (H₁). Il existe une relation entre la démographie et la demande en logements,
Toutes les conditions citées ci-avant sont respectées
Vérification de la normalité de la distribution des 2 variables . Procédure
Les variables sont indépendantes
1. Analyse2. Statistiques descriptives 3. Explorer 4.Transférez les variables (Démographie et demande en logements) dans le champ « liste variables dépendantes »5. Cliquez sur Diagrammes6. Puis cochez Histogramme et graphes de répartitions avec tests7. Poursuivre , en fin OK
Nous obtenons 3 tableaux - Récapitulatif du traitement des observations - Descriptives - Test de normalité Puis
- Les différents graphes Tableau 1:Récapitulatif du traitement des observations
Dans ce tableau, il est indiqué le nombre de l’effectif n=10 et le nombre manquant n=0 .
Tableau 2: C’est l’analyse descriptive – des 2 variables Démographie et demande en logements .- La moyenne - Ecart-type - Asymétrie (Skewness )- Aplatissement (kurtosis)
Quand les données sont distribuées selon la loi normale, skewness et kurtosis tendent vers « zéro »Pour la variable démographie skewness= - 0,007Kurtosis = -1,357
Tableau3: tableau de normalité
Ici , nous avons 2 tests: Kolmogorov-Smirnov (KS) et Shapiro-Wilk (SW) , le 1er n’est pas assez puissant et la majorité de statisticiens recommandent l’utilisation du 2ème test. Même pour tester la normalité des variables, on doit émettre les deux hypothèses H₀ et H₁
Pour H₀ (hypothèse nulle), les données sont normalement distribuées .Si la signification > 0,05 alors H₀ est maintenue et H₁ est rejetée .
On voit clairement sur le tableau que le KS et SW pour les 2 variables, démographie et demande en logement sont supérieurs à 0,05. Donc, la loi de normalité est de rigueur pour le 2 variables.
•Histogramme de la variable « demande en logements » . Le graphe de cette variable suit approximativement la forme de la cloche qui incarne la loi normale.
Pour incérer la forme de cloche dans l’histogramme : • Cliquer sur l’histogramme lui même de la variable « Demande en
logement » • Choisir la forme de cloche• Fermer
Coefficient de Pearson Méthode paramétrique (variables quantitatives)
1.Transférer le 2 variables vers le champs « variable » 2. Cliquer Option3. Choisir Moyenne et écarts-types 4. Poursuivre 5. Cocher Pearson (test de Pearson) 6. Cocher Repérer les corrélations significations7. Ok
Résultat1er tableau: statistiques descriptives 2ème tableau : Corrélations
- Sur ce tableau, il s’agit d’indiquer la moyenne et l'écart-types des 2 variables. - Pour la variable Démographie , la moyenne est 23,80 et l’écart type de 11,688- Pour la variable demande en logements, la moyenne est de 163.90 et l’écart-type de 97.44 , avec le nombre de l’effectif N de 10.
• Ce tableau montre la corrélation entre les 2 variables. Le croisement entre la démographie et la
démographie donne la corrélation de Pearson de 1, ce qui est tout à fait normal, la relation est très
forte. Puis, le croisement entre démographie et Demande en logements , la corrélation de
Pearson est de 0,987, ce qui signifie que la relation entre les 2 variables est très forte car 0,987
est très proche de 1 .
• Aussi, l’hypothèse nulle H₀ est rejetée et H₁ (hypothèse alternative) est retenue car la relation entre
les 2 variables est très significative , p-value=0,000 <0,05 (0,05 le niveau de signification) .
Mais cela ne signifie pas que la démographie est la cause de la hausse de la demande de
logements
•H₁: Il y aune relation significative entre la démographie et la demande en logements
Merci pour votre attention
Prof. Adad Mohamed Chérif