Ana-Donnees-Repr- carpenti/Cours/PSR-M2-Ana-Donnees-Repr.pdfآ  Title: Ana-Donnees-Repr-2014...

download Ana-Donnees-Repr- carpenti/Cours/PSR-M2-Ana-Donnees-Repr.pdfآ  Title: Ana-Donnees-Repr-2014 Author:

of 167

  • date post

    03-Mar-2021
  • Category

    Documents

  • view

    0
  • download

    0

Embed Size (px)

Transcript of Ana-Donnees-Repr- carpenti/Cours/PSR-M2-Ana-Donnees-Repr.pdfآ  Title: Ana-Donnees-Repr-2014...

  • PSR92C - Analyse multidimensionnelle des données 2013/2014

    F.-G. Carpentier - 2013/2014 1

    Analyse multidimensionnelle des données Master 2ème année - Psychologie Sociale des Représe ntations

    Réf. (polycopié et fichiers de données utilisés) : http://geai.univ-brest.fr/~carpenti/

    1 Présentation

    1.1 Introduction Comment peut-on définir l'analyse multidimensionnelle des données ? L'analyse statistique élémentaire s'applique à des situations dans lesquelles une ou deux variables ont été observées sur un ensemble d'individus statistiques (populations ou échantillons). L'extension de ces méthodes aux cas où le nombre de variables devient plus élevé est souvent appelé analyse multivariée. Cependant les conclusions ou résultats obtenus par ces méthodes restent de même nature, unidimensionnelle. Par exemple, la MANOVA (analyse de variance multivariée) permet d'étudier l'effet de facteurs de variation sur un "vecteur" de variables dépendantes, mais apporte une conclusion analogue à celle de l'ANOVA : les facteurs ont (ou n'ont pas) un effet sur le vecteur des VD. L'analyse multidimensionnelle (ou plutôt, les méthodes qui en relèvent) étudie également des situations où un ensemble de variables doit être étudié simultanément sur un ensemble d'objets statistiques. Par nature, ces données se modélisent dans un espace à plusieurs dimensions. Mais, à la différence des méthodes précédentes, l'analyse multidimensionnelle des données s'attache à fournir des résultats en réduisant le nombre de dimensions, mais en ne se limitant pas à une seule. La plupart des méthodes d'analyse multidimensionnelle utilisent un modèle géométrique (une géométrie dans un espace de dimension supérieure à 3) et ses possibilités de projection sur des sous-espaces de dimension plus réduite, notamment sur des plans bien choisis. Les "écarts" entre objets y sont alors traduits par les distances habituelles. G. Drouet d'Aubigny schématise ce traitement d'un tableau de données complexes, ou système relationnel empirique de la façon suivante :

    R

    empirique S géométrique

    Méthodes d’analyse

    Interprétation

  • PSR92C - Analyse multidimensionnelle des données 2013/2014

    F.-G. Carpentier - 2013/2014 2

    Le plus souvent, les méthodes d'analyse multidimensionnelle s'appliquent à des tableaux de l'un des types suivants : - Tableau protocole individus x variables numériques. Exemple : On dispose des consommations annuelles de 8 types de denrées alimentaires pour 8 catégories socio-professionnelles (en 1972).

    PAO PAA VIO VIA POT LEC RAI PLP AGRI 167 1 163 23 41 8 6 6 SAAG 162 2 141 12 40 12 4 15 PRIN 119 6 69 56 39 5 13 41 CSUP 87 11 63 111 27 3 18 39 CMOY 103 5 68 77 32 4 11 30 EMPL 111 4 72 66 34 6 10 28 OUVR 130 3 76 52 43 7 7 16 INAC 138 7 117 74 53 8 12 20

    Légende : Variables : PAO Pain ordinaire PAA Autre pain VIO Vin ordinaire VIA Autre vin POT Pommes de terre LEC Légumes secs RAI Raisin de table PLP Plats préparés

    Observations : AGRI Exploitants agricoles SAAG Salariés agricoles PRIN Professions indépendantes CSUP Cadres supérieurs CMOY Cadres moyens EMPL Employés OUVR Ouvriers INAC Inactifs

    - Tableau de contingence. Exemple : Répartition des étudiants selon la catégorie socio-professionnelle des parents et le type d'études suivi en 1975-1976 (simplifié) :

    Droit Sciences Médecine IUT Exp. agri. 80 99 65 58 Patron 168 137 208 62 Cadre sup. 470 400 876 79 Employé 145 133 135 54 Ouvrier 166 193 127 129

    - Tableau protocole pour des variables nominales

    Sexe Revenu Preference s1 F M A s2 F M A s3 F E B s4 F E C

  • PSR92C - Analyse multidimensionnelle des données 2013/2014

    F.-G. Carpentier - 2013/2014 3

    s5 F E C s6 H E C s7 H E B s8 H M B s9 H M B s10 H M A

    - Tableau individus x variables comportant des variables numériques et une variable dichotomique

    Age Etat- Civil

    Feministe Frequence Agressivite Harcelem ent

    1 13 1 102 2 4 0 2 45 2 101 3 6 0 3 19 2 102 2 7 1 4 42 2 102 1 2 1 5 27 1 77 1 1 0 6 19 1 98 0 6 1 7 37 1 96 1 6 0

    On cherche à analyser les résultats contenus dans ces tableaux, en explicitant plusieurs dimensions, si possible indépendantes l'une de l'autre.

    1.2 Quelques méthodes utilisées De nombreuses méthodes ont été proposées. Ces méthodes peuvent être regroupées d'une part selon les outils mathématiques utilisés (méthodes linéaires ou non linéaires), d'autre part selon la nature du résultat recherché (méthodes descriptives ou prédictives). Méthodes descriptives : toutes les variables jouent des rôles analogues. Méthodes prédictives : on cherche à "expliquer" ou "prévoir" une ou plusieurs variables (variables dépendantes ou VD) à l'aide des autres variables (variables indépendantes ou VI).

    Méthodes d’analyse de données

    Fondées sur un modèle linéaire

    Exploratoires, descriptives, non supervisées

    Statistiques élémentaires Analyse en composantes principales Méthodes de classification

    Prédictives, supervisées

    Variable dépendante quantitative

    Variable dépendante qualitative

    Régression linéaire multiple Régression en composantes principales Partial Least Squares

    Régression Logistique Analyse discriminante

    Non linéaires Non supervisées Réseau neuromimétique de Kohonen

    Prédictives Supervisées

    Variable dépendante quantitative ou qualitative

    Réseau neuromimétique multicouche

  • PSR92C - Analyse multidimensionnelle des données 2013/2014

    F.-G. Carpentier - 2013/2014 4

    1.3 Concepts fondamentaux Selon [Doise], toute distribution de réponses sur plusieurs variables peut être statistiquement décomposée en trois éléments : le niveau (la moyenne des réponses des individus), la dispersion (le degré d'éparpillement des réponses individuelles autour de la moyenne), et la corrélation (le lien entre les réponses individuelles pour deux variables). Ces composantes sont autant de points de vue sur les données. Un tableau de données carré ou rectangulaire est appelé matrice. L'élément générique du tableau est désigné par une notation à double indice, par exemple ijx . En général, le premier indice désigne le

    numéro de ligne, et le second indice le numéro de colonne. Un tableau comportant n lignes et p colonnes est dit de dimension (n, p). Lorsque l'on traite un tableau Individus x Variables de dimension (n, p), les individus peuvent être représentés comme des points d'un espace à p dimensions, les variables comme des points d'un espace à n dimensions. L'ensemble des points représentant les individus est appelé nuage des individus. La distance entre deux individus Mi, Mj est calculée par :

    ( ) ( ) ( ) ( ) ( )∑ =

    −=−++−+−== p

    k jkikjpipjijijiji xxxxxxxxMMdMM

    1

    222 22

    2 11

    22 ...,

    L'inertie du nuage de points par rapport à un point donné O de l'espace est la somme des carrés des distances des points Mi à O.

    ∑ =

    = n

    i iOMI

    1

    2

    L'inertie du nuage de points par rapport au point moyen du nuage est encore appelée somme des carrés ou variation totale. Le "lien" entre deux variables Xk et Xl peut être mesuré par leur coefficient de corrélation r(Xk,Xl). Lorsque les variables sont centrées et réduites, ce coefficient de corrélation est, à une division par n près, le produit scalaire des vecteurs représentant ces variables. C'est aussi le cosinus de l'angle entre ces deux vecteurs. Pour des variables centrées réduites :

    ( )lk n

    i iliklk XXxxn

    XXr ,cos 1

    ),( 1

    == ∑ =

  • PSR92C - Analyse multidimensionnelle des données 2013/2014

    F.-G. Carpentier - 2013/2014 5

    2 Méthodes exploratoires, descriptives

    2.1 Analyse en composantes principales ou ACP

    2.1.1 Introduction On a observé p variables sur n individus. On dit qu'il s'agit d'un protocole multivarié. Les données à traiter forment une matrice :

    npnnn

    p

    p

    p

    xxxi

    xxxi

    xxxi

    XXX

    ...

    ...............

    ...

    ...

    ...

    21

    222212

    121111

    21

    On cherche à remplacer ces p variables par q nouvelles variables (composantes principales ou facteurs) résumant au mieux le protocole, avec q ≤ p et si possible q=2. L'une des solutions à ce problème est l'ACP, méthode qui a l'avantage de résumer un ensemble de variables corrélées en un nombre réduit de facteurs non corrélés. Les principaux résultats d'une ACP sont donnés par : - Les coordonnées des individus sur les composantes principales ou scores des individus ; - Les coordonnées des variables sur les composantes principales, ou saturations des variables ; dans le cas d'une ACP normée, les saturations sont aussi les coefficients de corrélation entre les variables initiales et les composantes principales ; - Les valeurs propres associées à chacune des composantes principales, qui représentent l'inertie du nuage prise en compte par la composante.

    Principaux résultats d’une ACP

    Coordonnées factorielles ou scores

    n

    p Variables

    n

    p

    k

    Valeurs propresk

    Vecteurs propres (transposés)

    k