Test de corrélation simple Et test de Normalité
Prof. Adad Mohamed Cherif 2017
Université d’Oum El Bouaghi Faculté des sciences de la terre et de l’architecture
∑. µ. Α. ρ
Rappel théorique
Analyse de corrélation sur le logiciel SPSS.
Principe de la méthode de corrélationC’est une méthode bi-variée, Elle sert à croiser des variables X et Y pour détecter une relation possible entre elles. Cependant, X et Y ne sont pas forcément causales . Donc, « UNE CORRELATION N'IMPLIQUE PAS NECESSAIREMENT UNE CAUSALITE »Par exemple, la corrélation positive qui existe entre 2 variables Taille et Poids. Généralement, il est admis qu’au fur à mesure que la taille augmente, le poids tend à prendre des valeurs de plus en plus importante. Donc, il y a une relation entre elles, la variable taille agit sur le la variable poids.
La corrélation de Pearson, qui est un test paramétrique, sert à croiser 2 variables quantitatives discrètes ou continues ( valeurs mesurées à l’aide d’intervalles ou de rapport). Cette corrélation est exprimé par le coefficient « r » qui indique le sens et l’intensité de cette liaison. -1
1. r est proche de 0, la corrélation n’existe pas entre X et Y 2. 0.0 < r < 0.5 : Très faible3. r est proche de 1, la corrélation très forte positive entre X et Y 4. r est proche de -1, la corrélation très forte négative entre X et Y
D’une manière générale, Au fur est mesure que r s’approche de +1 ou -1, la corrélation est forte. Quand r s’approche de plus près de « 0 », la corrélation est faible, voire nulle. La corrélation est donc définie par le sens et l’intensité de la liaison des 2 variables. Corrélation positive (0 < r < 1) : relation proportionnelle Corrélation négative ( Corrélation négative (-1 < r < 0) : relation inversement
proportionnelle
La corrélation de Spearman « ρ », quant à elle, sert à croiser 2 variables dont l’une est mesurée à l’aide de l’échelle ordinale.
On peut appréhender beaucoup mieux le sens et l’intensité de la corrélation par un examen visuel . On fait appel, donc, au nuage de points (scatter diagrams). C’est intersection des 2 variables. Le coefficient de corrélation linéaire r est tel que -1
Y est la variable dépendante (à expliquer, à prédire) et que X est la variable indépendante (explicative, prédicteur). On peut dire que les valeurs de X permettent de prédire les valeurs de X. Cependant , en statistique, il y a 3 types de variable : variable dépendante, variable indépendante et variable de contrôle. Cette dernière peut avoir un effet négatif sur la prédiction. Elle doit être maintenue constante dans l’analyse de corrélation, exemple conduite à haute vitesse (VI), risque d’accident (VD) et l’état de santé du conducteur, l’état des routes, état du véhicule ( les variables de contrôle).
Variables qu’on peut leur appliquer l’analyse de corrélation Variable X (indépendante) Variable Y (dépendante)Taille Poids Revenus DépensesTaux de précipitation Rendement agricole Industrialisation Pollution Dépenses Epargne Tabagisme Cancer des poumons Hauteur des bâtiments Vitesse de l’airConduire à haute vitesse Risque d’accident Distance Temps
Dans l’analyse de corrélation , on évoque souvent la covariance qui est la moyenne des produits moins le produit des moyens . Comme la variance , la covariance n’a pas de signification tangible. Pour quelle soit un indicateur interprétable , il faut passez au coefficient de corrélation linéaire . C’est à l’image de la variance interprétée par l’écart-type (standard deviation) qui est racine carré de sigma =variance .
Relation est linéaire Données sont indépendantes Choix de la méthode
Méthode paramétrique (variables quantitatives) : coefficient de Pearson Méthode non- paramétrique (variable qualitative) : coefficient de Spearman
la distribution des variables suivent la loi normale
Exemple d’analyse de corrélation
Variable indépendance : Démographie Variable dépendante : Demande de logements
Variable indépendante X Variable dépendante Y Démographie en million Demande de logements en millier
7 3010 6514 8018 10522 14026 18531 20434 23037 26040 340
Données fictives
La question de recherche « Est-ce que la démographie galopante est responsable de la hausse de la demande en logements »
Formulation des hypothèses•Hypothèse nulle (H₀ ). Il n ’existe pas de relation
entre la démographie et la demande en logements
• Hypothèse alternative (H₁). Il existe une relation entre la démographie et la demande en logements,
Toutes les conditions citées ci-avant sont respectées
Vérification de la normalité de la distribution des 2 variables . Procédure
Les variables sont indépendantes
1. Analyse2. Statistiques descriptives 3. Explorer 4.Transférez les variables (Démographie et demande en logements) dans le champ « liste variables dépendantes »5. Cliquez sur Diagrammes6. Puis cochez Histogramme et graphes de répartitions avec tests7. Poursuivre , en fin OK
Nous obtenons 3 tableaux - Récapitulatif du traitement des observations - Descriptives - Test de normalité Puis
- Les différents graphes Tableau 1:Récapitulatif du traitement des observations
Dans ce tableau, il est indiqué le nombre de l’effectif n=10 et le nombre manquant n=0 .
Tableau 2: C’est l’analyse descriptive – des 2 variables Démographie et demande en logements .- La moyenne - Ecart-type - Asymétrie (Skewness )- Aplatissement (kurtosis)
Quand les données sont distribuées selon la loi normale, skewness et kurtosis tendent vers « zéro »Pour la variable démographie skewness= - 0,007Kurtosis = -1,357
Tableau3: tableau de normalité
Ici , nous avons 2 tests: Kolmogorov-Smirnov (KS) et Shapiro-Wilk (SW) , le 1er n’est pas assez puissant et la majorité de statisticiens recommandent l’utilisation du 2ème test. Même pour tester la normalité des variables, on doit émettre les deux hypothèses H₀ et H₁
Pour H₀ (hypothèse nulle), les données sont normalement distribuées .Si la signification > 0,05 alors H₀ est maintenue et H₁ est rejetée .
On voit clairement sur le tableau que le KS et SW pour les 2 variables, démographie et demande en logement sont supérieurs à 0,05. Donc, la loi de normalité est de rigueur pour le 2 variables.
•Histogramme de la variable « demande en logements » . Le graphe de cette variable suit approximativement la forme de la cloche qui incarne la loi normale.
Pour incérer la forme de cloche dans l’histogramme : • Cliquer sur l’histogramme lui même de la variable « Demande en
logement » • Choisir la forme de cloche• Fermer
Coefficient de Pearson Méthode paramétrique (variables quantitatives)
1.Transférer le 2 variables vers le champs « variable » 2. Cliquer Option3. Choisir Moyenne et écarts-types 4. Poursuivre 5. Cocher Pearson (test de Pearson) 6. Cocher Repérer les corrélations significations7. Ok
Résultat1er tableau: statistiques descriptives 2ème tableau : Corrélations
- Sur ce tableau, il s’agit d’indiquer la moyenne et l'écart-types des 2 variables. - Pour la variable Démographie , la moyenne est 23,80 et l’écart type de 11,688- Pour la variable demande en logements, la moyenne est de 163.90 et l’écart-type de 97.44 , avec le nombre de l’effectif N de 10.
• Ce tableau montre la corrélation entre les 2 variables. Le croisement entre la démographie et la
démographie donne la corrélation de Pearson de 1, ce qui est tout à fait normal, la relation est très
forte. Puis, le croisement entre démographie et Demande en logements , la corrélation de
Pearson est de 0,987, ce qui signifie que la relation entre les 2 variables est très forte car 0,987
est très proche de 1 .
• Aussi, l’hypothèse nulle H₀ est rejetée et H₁ (hypothèse alternative) est retenue car la relation entre
les 2 variables est très significative , p-value=0,000 <0,05 (0,05 le niveau de signification) .
Mais cela ne signifie pas que la démographie est la cause de la hausse de la demande de
logements
•H₁: Il y aune relation significative entre la démographie et la demande en logements
Merci pour votre attention
Prof. Adad Mohamed Chérif
Top Related