Download - Test de corrélation simple et test de Normalité

Test de corrélation simple Et test de Normalité

Prof. Adad Mohamed Cherif 2017

Université d’Oum El Bouaghi Faculté des sciences de la terre et de l’architecture

∑. µ. Α. ρ

Rappel théorique

Analyse de corrélation sur le logiciel SPSS.

Principe de la méthode de corrélationC’est une méthode bi-variée, Elle sert à croiser des variables X et Y pour détecter une relation possible entre elles. Cependant, X et Y ne sont pas forcément causales . Donc, « UNE CORRELATION N'IMPLIQUE PAS NECESSAIREMENT UNE CAUSALITE »Par exemple, la corrélation positive qui existe entre 2 variables Taille et Poids. Généralement, il est admis qu’au fur à mesure que la taille augmente, le poids tend à prendre des valeurs de plus en plus importante. Donc, il y a une relation entre elles, la variable taille agit sur le la variable poids.

La corrélation de Pearson, qui est un test paramétrique, sert à croiser 2 variables quantitatives discrètes ou continues ( valeurs mesurées à l’aide d’intervalles ou de rapport). Cette corrélation est exprimé par le coefficient « r » qui indique le sens et l’intensité de cette liaison. -1

1. r est proche de 0, la corrélation n’existe pas entre X et Y 2. 0.0 < r < 0.5 : Très faible3. r est proche de 1, la corrélation très forte positive entre X et Y 4. r est proche de -1, la corrélation très forte négative entre X et Y

D’une manière générale, Au fur est mesure que r s’approche de +1 ou -1, la corrélation est forte. Quand r s’approche de plus près de « 0 », la corrélation est faible, voire nulle. La corrélation est donc définie par le sens et l’intensité de la liaison des 2 variables. Corrélation positive (0 < r < 1) : relation proportionnelle Corrélation négative ( Corrélation négative (-1 < r < 0) : relation inversement

proportionnelle

La corrélation de Spearman « ρ », quant à elle, sert à croiser 2 variables dont l’une est mesurée à l’aide de l’échelle ordinale.

On peut appréhender beaucoup mieux le sens et l’intensité de la corrélation par un examen visuel . On fait appel, donc, au nuage de points (scatter diagrams). C’est intersection des 2 variables. Le coefficient de corrélation linéaire r est tel que -1

Y est la variable dépendante (à expliquer, à prédire) et que X est la variable indépendante (explicative, prédicteur). On peut dire que les valeurs de X permettent de prédire les valeurs de X. Cependant , en statistique, il y a 3 types de variable : variable dépendante, variable indépendante et variable de contrôle. Cette dernière peut avoir un effet négatif sur la prédiction. Elle doit être maintenue constante dans l’analyse de corrélation, exemple conduite à haute vitesse (VI), risque d’accident (VD) et l’état de santé du conducteur, l’état des routes, état du véhicule ( les variables de contrôle).

Variables qu’on peut leur appliquer l’analyse de corrélation Variable X (indépendante) Variable Y (dépendante)Taille Poids Revenus DépensesTaux de précipitation Rendement agricole Industrialisation Pollution Dépenses Epargne Tabagisme Cancer des poumons Hauteur des bâtiments Vitesse de l’airConduire à haute vitesse Risque d’accident Distance Temps

Dans l’analyse de corrélation , on évoque souvent la covariance qui est la moyenne des produits moins le produit des moyens . Comme la variance , la covariance n’a pas de signification tangible. Pour quelle soit un indicateur interprétable , il faut passez au coefficient de corrélation linéaire . C’est à l’image de la variance interprétée par l’écart-type (standard deviation) qui est racine carré de sigma =variance .

Relation est linéaire Données sont indépendantes Choix de la méthode

Méthode paramétrique (variables quantitatives) : coefficient de Pearson Méthode non- paramétrique (variable qualitative) : coefficient de Spearman

la distribution des variables suivent la loi normale

Exemple d’analyse de corrélation

Variable indépendance : Démographie Variable dépendante : Demande de logements

Variable indépendante X Variable dépendante Y Démographie en million Demande de logements en millier

7 3010 6514 8018 10522 14026 18531 20434 23037 26040 340

Données fictives

La question de recherche « Est-ce que la démographie galopante est responsable de la hausse de la demande en logements »

Formulation des hypothèses•Hypothèse nulle (H₀ ). Il n ’existe pas de relation

entre la démographie et la demande en logements

• Hypothèse alternative (H₁). Il existe une relation entre la démographie et la demande en logements,

Toutes les conditions citées ci-avant sont respectées

Vérification de la normalité de la distribution des 2 variables . Procédure

Les variables sont indépendantes

1. Analyse2. Statistiques descriptives 3. Explorer 4.Transférez les variables (Démographie et demande en logements) dans le champ « liste variables dépendantes »5. Cliquez sur Diagrammes6. Puis cochez Histogramme et graphes de répartitions avec tests7. Poursuivre , en fin OK

Nous obtenons 3 tableaux - Récapitulatif du traitement des observations - Descriptives - Test de normalité Puis

- Les différents graphes Tableau 1:Récapitulatif du traitement des observations

Dans ce tableau, il est indiqué le nombre de l’effectif n=10 et le nombre manquant n=0 .

Tableau 2: C’est l’analyse descriptive – des 2 variables Démographie et demande en logements .- La moyenne - Ecart-type - Asymétrie (Skewness )- Aplatissement (kurtosis)

Quand les données sont distribuées selon la loi normale, skewness et kurtosis tendent vers « zéro »Pour la variable démographie skewness= - 0,007Kurtosis = -1,357

Tableau3: tableau de normalité

Ici , nous avons 2 tests: Kolmogorov-Smirnov (KS) et Shapiro-Wilk (SW) , le 1er n’est pas assez puissant et la majorité de statisticiens recommandent l’utilisation du 2ème test. Même pour tester la normalité des variables, on doit émettre les deux hypothèses H₀ et H₁

Pour H₀ (hypothèse nulle), les données sont normalement distribuées .Si la signification > 0,05 alors H₀ est maintenue et H₁ est rejetée .

On voit clairement sur le tableau que le KS et SW pour les 2 variables, démographie et demande en logement sont supérieurs à 0,05. Donc, la loi de normalité est de rigueur pour le 2 variables.

•Histogramme de la variable « demande en logements » . Le graphe de cette variable suit approximativement la forme de la cloche qui incarne la loi normale.

Pour incérer la forme de cloche dans l’histogramme : • Cliquer sur l’histogramme lui même de la variable « Demande en

logement » • Choisir la forme de cloche• Fermer

Coefficient de Pearson Méthode paramétrique (variables quantitatives)

1.Transférer le 2 variables vers le champs « variable » 2. Cliquer Option3. Choisir Moyenne et écarts-types 4. Poursuivre 5. Cocher Pearson (test de Pearson) 6. Cocher Repérer les corrélations significations7. Ok

Résultat1er tableau: statistiques descriptives 2ème tableau : Corrélations

- Sur ce tableau, il s’agit d’indiquer la moyenne et l'écart-types des 2 variables. - Pour la variable Démographie , la moyenne est 23,80 et l’écart type de 11,688- Pour la variable demande en logements, la moyenne est de 163.90 et l’écart-type de 97.44 , avec le nombre de l’effectif N de 10.

• Ce tableau montre la corrélation entre les 2 variables. Le croisement entre la démographie et la

démographie donne la corrélation de Pearson de 1, ce qui est tout à fait normal, la relation est très

forte. Puis, le croisement entre démographie et Demande en logements , la corrélation de

Pearson est de 0,987, ce qui signifie que la relation entre les 2 variables est très forte car 0,987

est très proche de 1 .

• Aussi, l’hypothèse nulle H₀ est rejetée et H₁ (hypothèse alternative) est retenue car la relation entre

les 2 variables est très significative , p-value=0,000 <0,05 (0,05 le niveau de signification) .

Mais cela ne signifie pas que la démographie est la cause de la hausse de la demande de

logements

•H₁: Il y aune relation significative entre la démographie et la demande en logements

Merci pour votre attention

Prof. Adad Mohamed Chérif