T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 ·...

32
CEDEX - Curso de formaci´ on estad´ ıstica ecnicas de an´ alisis multivariante Andr´ es M. Alonso Departamento de Estad´ ıstica Universidad Carlos III de Madrid Madrid - 19 de diciembre de 2005 2 Estructura 1. Introducci´on. 2. ecnicas de an´ alisis multivariante - I. An´ alisis de componentes principales. An´ alisis factorial. Escalado multidimensional. An´ alisis de correspondencias. 3. ecnicas de an´ alisis multivariante - II. An´ alisis discriminante lineal. An´ alisis discriminante log´ ıstico. An´ alisis cluster. An´ alisis de correlaciones can´onicas. ecnicas de an´ alisis multivariante - I Andr´ es M. Alonso 3 Introducci´ on Matriz de datos. Vector de medias y matriz de covarianzas. Proyecciones y combinaciones lineales. Representaci´ongr´ afica de los datos: matriz de diagramas de dispersi´ on, diagramas de estrellas y de caras, diagramas de Andrews. ecnicas de an´ alisis multivariante - I 4 Variable (vectorial o multivariante): es un conjunto de caracter´ ısticas o rasgos de los elementos de una poblaci´on. Notaci´on: x. Observaci´on o dato : valor de una variable multivariante en un elemento de la muestra.Notaci´on: x i corresponde al elemento i. Matriz de datos : representaci´on de los valores de una muestra de tama˜ no n de una variable vectorial x. X = x 11 x 12 ··· x 1p x 21 x 22 ··· x 2p . . . . . . . . . . . . x n1 x n2 ··· x np = x 1 x 2 . . . x n = x (1) x (2) ··· x (p) , donde: x ij es el valor de la variable escalar j en el individuo i. x i es un vector fila 1 × p que representa los valores de las p variables univariantes en el individuo i. x (j) es un vector columna n × 1 que representa los valores de la variable escalar j en las n observaciones. ecnicas de an´ alisis multivariante - I

Transcript of T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 ·...

Page 1: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

CEDEX - Curso de formacion estadıstica

Tecnicas de analisis multivariante

Andres M. Alonso

Departamento de EstadısticaUniversidad Carlos III de Madrid

Madrid - 19 de diciembre de 2005

2

Estructura

1. Introduccion.

2. Tecnicas de analisis multivariante - I.

Analisis de componentes principales.Analisis factorial.Escalado multidimensional.Analisis de correspondencias.

3. Tecnicas de analisis multivariante - II.

Analisis discriminante lineal.Analisis discriminante logıstico.Analisis cluster.Analisis de correlaciones canonicas.

Tecnicas de analisis multivariante - I Andres M. Alonso

3

Introduccion

Matriz de datos.

Vector de medias y matriz de covarianzas.

Proyecciones y combinaciones lineales.

Representacion grafica de los datos: matriz de diagramas de dispersion,diagramas de estrellas y de caras, diagramas de Andrews.

Tecnicas de analisis multivariante - I

4

Variable (vectorial o multivariante): es un conjunto de caracterısticas o rasgosde los elementos de una poblacion. Notacion: x.

Observacion o dato: valor de una variable multivariante en un elemento de lamuestra. Notacion: xi corresponde al elemento i.

Matriz de datos: representacion de los valores de una muestra de tamano n deuna variable vectorial x.

X =

x11 x12 · · · x1p

x21 x22 · · · x2p... ... ... ...

xn1 xn2 · · · xnp

=

x′1

x′2...

x′n

= [x(1)x(2) · · ·x(p)

],

donde: • xij es el valor de la variable escalar j en el individuo i.• x′

i es un vector fila 1 × p que representa los valores de las pvariables univariantes en el individuo i.• x(j) es un vector columna n× 1 que representa los valores dela variable escalar j en las n observaciones.

Tecnicas de analisis multivariante - I

Page 2: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

5

Ejemplo 0. Rectangulos.

Ejemplo 5.9 del libro Analisis de Datos Multivariantes de Daniel Pena.Se tienen 6 observaciones bivariantes, cada observacion corresponde con unrectangulo y las variables univariantes son la longitud de la base y la altura delrectangulo. La matriz de datos es:

X =

2,0 2,0

1,5 0,5

0,7 0,5

0,5 1,5

0,5 0,7

0,7 0,7

.

Tecnicas de analisis multivariante - I

6

Ejemplo 1. Medidas de craneos de cocodrilos.

Codigo Descripcion

cl Longitud del craneo

cw Ancho del craneo

sw Ancho del hocico

sl Longitud del hocico

dcl Longitud dorsal del craneo

ow Ancho maximo orbital

oiw Ancho mınimo inter–orbital

ol Longitud maxima orbital

lcr Longitud del paladar post–orbital

wcr Ancho posterior del paladar craneal

wn Ancho maximo entre orificios nasales

Tecnicas de analisis multivariante - I

7

Ejemplo 2. Medidas o caracterısticas de automoviles.

Codigo Descripcionconsumo Consumo (l/100Km)motor Cilindrada en cccv Potencia (CV)peso Peso total (kg)acel Aceleracion 0 a 100 km/h (segundos)ano Ano del modeloorigen Paıs de origencilindr Numero de cilindros

Tecnicas de analisis multivariante - I

8

Ejemplo 3. Gases contaminantes

En la Tabla siguiente se presentan las 10 primeras observaciones de cincovariables de niveles de gases contaminantes (CO: X3, NO: X4, NO2: X5,O3: X6, y HC: X7) y dos variables relacionadas (Intensidad del viento: X1, yRadiacion solar: X2).

X1 X2 X3 X4 X5 X6 X7

8 98 7 2 12 8 27 107 4 3 9 5 37 103 4 3 5 6 310 88 5 2 8 15 46 91 4 2 8 10 38 90 5 2 12 12 49 84 7 4 12 15 55 72 6 4 21 14 47 82 5 1 11 11 38 64 5 2 13 9 4

Tecnicas de analisis multivariante - I

Page 3: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

9

Ejemplo 4. Graficos de control de un proceso industrial.

XXXn×60: 60 Mediciones del proceso en n maquinas.

Tecnicas de analisis multivariante - I

10

Ejemplo 5. Esclerosis multiple.

En un estudio sobre esclerosis multiple se registran las respuestas del ojoizquierdo (I) y del ojo derecho (D) a dos estımulos visuales diferentes. Seconsideran dos grupos, 29 individuos que padecen esclerosis multiple y ungrupo control de 69 individuos que no la padecen. Se registran las siguientesvariables:X1: Edad,X2 = R1L+R1D,X3 = |R1L−R1D|,X4 = R2L+R2D,X5 = |R2L−R2D|.

X1 X2 X3 X4 X5 Paciente/Control

23 148.0 0.8 205.4 0.6 1

25 195.2 3.2 262.8 0.4 1

25 158.0 8.0 209.8 12.2 1

28 134.4 0.0 198.4 3.2 1

29 190.2 14.2 243.8 10.6 1

18 152.0 1.6 198.4 0.0 0

19 138.0 0.4 180.8 1.6 0

20 144.0 0.0 186.4 0.8 0

20 143.6 3.2 194.8 0.0 0

20 148.8 0.0 217.6 0.0 0

Tecnicas de analisis multivariante - I

11

Estadısticos univariantes y bivariantes

Media muestral de la variable xj:

xj =1n

n∑i=1

xij.

Varianza muestral de la variable xj:

s2j = sjj =1n

n∑i=1

(xij − xj)2.

Covarianza muestral entre las variables xj y xk:

sjk =1n

n∑i=1

(xij − xj)(xik − xk).

Tecnicas de analisis multivariante - I

12

Los estadısticos anteriores dependen de las unidades de medidas y por estosuelen utilizarse, como complemento en el resumen numerico, los siguientesestadısticos:

Coeficiente de variacion de la variable xj:

CVj =

√s2jx2

j

,

que podra calcularse siempre que xj sea distinta de cero.

Correlacion muestral entre las variables xj y xk:

rjk =sjk√sjjskk

=sjk

sjsk.

Tecnicas de analisis multivariante - I

Page 4: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

13

Estadısticos multivariantes - I

Vector de medias muestral de la variable vectorial x:

x =1n

n∑i=1

xi =

x1

x2...xp

.x es un vector de dimension p × 1. Tambien podemos obtener el vector demedias de la siguiente expresion:

x =1nX′1,

donde 1 es un vector de unos de dimension n× 1.

Tecnicas de analisis multivariante - I

14

Estadısticos multivariantes - II

Matriz de varianzas y covarianzas de la variable vectorial x:

S =

s11 s12 · · · s1p

s21 s22 · · · s2p... ... . . . ...sp1 sp2 . . . spp

.S es una matriz cuadrada simetrica (sjk = skj) de dimension p × p. Tam-bien podemos obtener la matriz de varianzas y covarianzas de las siguientesexpresiones:

S =1n

n∑i=1

(xi − x)(xi − x)′ =1n(X − 1x′)′(X − 1x′) =

1nX′X,

donde la matriz X = X − 1x′ = X − 1n11′X recibe el nombre de

matriz de datos centrados.

Tecnicas de analisis multivariante - I

15

Estadısticos multivariantes - Ejemplo - I

Ejemplo 0. De las siguientes salidas de SPSS podemos obtener el vector demedias y las matrices de covarianzas y de correlaciones del conjunto de datosde rectangulos:

Estadísticos descriptivos

6 ,9833 ,62102 ,386

6 ,9833 ,62102 ,386

6

BASE

ALTURA

N válido (según lista)

N Media Desv. típ. Varianza

Vector de medias:

x =[0,98330,9833

].

Tecnicas de analisis multivariante - I

16

Estadısticos multivariantes - Ejemplo - II

Ejemplo 0.

Correlaciones

1 ,461

,386 ,178

6 6

,461 1

,178 ,386

6 6

Correlación de Pearson

Covarianza

N

Correlación de Pearson

Covarianza

N

BASE

ALTURA

BASE ALTURA

Matriz de covarianzas: S =[0,386 0,1780,178 0,386

].

Matriz de correlaciones: R =[1,000 0,4610,461 1,000

].

Tecnicas de analisis multivariante - I

Page 5: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

17

Estadısticos multivariantes - Ejemplo - III

Estadísticos descriptivos

398 5 26 11,23 3,946406 66 7456 3179,73 1724,013400 46 230 104,83 38,522406 244 1713 989,51 283,277

406 8 25 15,50 2,821

406 70 82 75,92 3,749

405 1 3 1,57 ,798405 3 8 5,47 1,710391

Consumo (l/100Km)Cilindrada en ccPotencia (CV)

Peso total (kg)Aceleración 0 a 100km/h (segundos)Año del modelo

País de origenNúmero de cilindrosN válido (según lista)

N Mínimo Máximo Media Desv. típ.

La media y la varianza no tienen sentido en la variable “Pais de origen”.

El vector de medias es:

x =[11, 23 3179, 73 104, 83 989, 51 15, 50 75, 92 5, 47

]′.

Tecnicas de analisis multivariante - I

18

Estadısticos multivariantes - Ejemplo - IV

Correlaciones

1 ,837** ,836** ,837** -,490** -,554** ,842**

. ,000 ,000 ,000 ,000 ,000 ,000398 398 392 398 398 398 397,837** 1 ,897** ,933** -,545** -,370** ,952**,000 . ,000 ,000 ,000 ,000 ,000

398 406 400 406 406 406 405,836** ,897** 1 ,859** -,701** -,417** ,844**,000 ,000 . ,000 ,000 ,000 ,000392 400 400 400 400 400 399

,837** ,933** ,859** 1 -,415** -,296** ,895**,000 ,000 ,000 . ,000 ,000 ,000398 406 400 406 406 406 405

-,490** -,545** -,701** -,415** 1 ,314** -,528**

,000 ,000 ,000 ,000 . ,000 ,000398 406 400 406 406 406 405

-,554** -,370** -,417** -,296** ,314** 1 -,357**,000 ,000 ,000 ,000 ,000 . ,000

398 406 400 406 406 406 405,842** ,952** ,844** ,895** -,528** -,357** 1,000 ,000 ,000 ,000 ,000 ,000 .397 405 399 405 405 405 405

Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)

NCorrelación de PearsonSig. (bilateral)N

Correlación de PearsonSig. (bilateral)NCorrelación de Pearson

Sig. (bilateral)NCorrelación de PearsonSig. (bilateral)

NCorrelación de PearsonSig. (bilateral)N

Consumo (l/100Km)

Cilindrada en cc

Potencia (CV)

Peso total (kg)

Aceleración 0 a 100km/h (segundos)

Año del modelo

Número de cilindros

Consumo(l/100Km)

Cilindrada encc Potencia (CV)

Peso total(kg)

Aceleración 0a 100 km/h(segundos)

Año delmodelo

Número decilindros

La correlación es significativa al nivel 0,01 (bilateral).**.

Tecnicas de analisis multivariante - I

19

Estadısticos multivariantes - Ejemplo - V

Correlaciones

1 -,101 -,194 -,270 -,110 -,254 ,156. ,523 ,219 ,084 ,489 ,105 ,324

42 42 42 42 42 42 42-,101 1 ,183 -,074 ,116 ,319* ,052

,523 . ,247 ,643 ,465 ,039 ,74442 42 42 42 42 42 42

-,194 ,183 1 ,502** ,557** ,411** ,166,219 ,247 . ,001 ,000 ,007 ,293

42 42 42 42 42 42 42-,270 -,074 ,502** 1 ,297 -,134 ,235,084 ,643 ,001 . ,056 ,398 ,135

42 42 42 42 42 42 42

-,110 ,116 ,557** ,297 1 ,167 ,448**,489 ,465 ,000 ,056 . ,292 ,003

42 42 42 42 42 42 42-,254 ,319* ,411** -,134 ,167 1 ,154

,105 ,039 ,007 ,398 ,292 . ,32942 42 42 42 42 42 42

,156 ,052 ,166 ,235 ,448** ,154 1,324 ,744 ,293 ,135 ,003 ,329 .

42 42 42 42 42 42 42

Correlación de PearsonSig. (bilateral)N

Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)

NCorrelación de PearsonSig. (bilateral)N

Correlación de PearsonSig. (bilateral)NCorrelación de Pearson

Sig. (bilateral)NCorrelación de PearsonSig. (bilateral)

N

VIENTO

RADIACIO

CO

NO

NO2

O3

HC

VIENTO RADIACIO CO NO NO2 O3 HC

La correlación es significante al nivel 0,05 (bilateral).*.

La correlación es significativa al nivel 0,01 (bilateral).**.

Tecnicas de analisis multivariante - I

20

Proyecciones y combinaciones lineales

Una forma simple de resumir una variable vectorial, x, es construir unavariable univariante, y, que sea el resultado de una combinacion lineal de lascomponentes de x:

y = a′x,

donde a es un vector de constantes de dimension p× 1.

Si obtenemos las combinaciones lineales de todos los datos tendremos unvector y de dimension n× 1. y puede obtenerse de la siguiente expresion:

y = Xa,

donde X es la matriz de datos de dimension n× p.

Tecnicas de analisis multivariante - I

Page 6: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

21

Ejemplo de rectangulos

Ejemplo 0. En el ejemplo de los rectangulos, una variable de interes es elperımetro del rectangulo, 2(base + altura), que podemos obtener mediante:

y = Xa =

2,0 2,01,5 0,50,7 0,50,5 1,50,5 0,70,7 0,7

[2,02,0

]

=

8,004,002,404,002,402,80

0 0.5 1 1.5 2

0

0.5

1

1.5

21

23

4

5 6

Tecnicas de analisis multivariante - I

22

Estandarizacion univariante

Estandarizacion univariante:

y = D−1/2(x − x),

donde D−1/2 es una matriz diagonal de dimension p × p con la siguienteexpresion:

D−1/2 =

s−11 0 · · · 00 s−1

2 · · · 0... ... . . . ...0 0 · · · s−1

p

.Propiedades:

La media de y es cero, i.e., y = 0.

La matriz de covarianzas de y es la matriz de correlaciones de x, i.e.,Sy = Rx.

Tecnicas de analisis multivariante - I

23

Estandarizacion multivariante

Estandarizacion multivariante: Si Sx es la matriz de covarianzas de x podemos

definir su raız cuadrada, S1/2x , por la siguiente condicion:

Sx = S1/2x (S1/2

x )′.

Esto nos permitira definir la estandarizacion multivariante mediante la expre-sion:

y = S−1/2x (x − x).

Propiedades:

La media de y es cero, i.e., y = 0.

La matriz de covarianzas de y es la matriz identidad de dimension p × p,i.e., Sy = I.

Tecnicas de analisis multivariante - I

24

Representacion grafica de datos

El objetivo que perseguimos con la representacion grafica de datos es identificar:

Relaciones (¿debil/fuerte o lineal/no lineal?).Grupos (¿los grupos o conglomerados observados corresponden a grupos ocategorıas conocidas?)Atıpicos.

Estudiaremos los siguientes graficos:

Matriz de diagramas de dispersion.Diagramas de estrellas.Diagramas de caras.Diagramas de Andrews.

Tecnicas de analisis multivariante - I

Page 7: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

25

Matriz de diagramas de dispersion - I

Si tenemos p variables podemos con-struir p(p − 1)/2 diagramas de disper-sion diferentes tomando las variables porpares. Una manera de presentar estosgraficos es en forma de matriz.

Ejemplo 1. La Figura muestra la ma-triz de diagramas de dispersion en laque observamos, por ejemplo: (i) rela-ciones lineales entre la mayor parte delas variables, (ii) posible relacion no lin-eal entre las variables oiw y ow, y entreoiw y wn, (iii) posibles atıpicos en lavariable ow.

Gráfico

CL

CW

SW

SL

DCL

OW

OIW

OL

LCR

WCR

WN

Gráfico

CL

CW

SW

SL

DCL

OW

OIW

OL

LCR

WCR

WN

Tecnicas de analisis multivariante - I

26

Matriz de diagramas de dispersion - II

Ejemplo 1. (Zoom x2)

Gráfico

SL

cp8

cn9

am11

cp8

cn9

am11

cp8

cn9

am11

cp8

cn9

am11

cp8

cn9

am11 DCL

cp8

cn9

am11

cp8

cn9

am11

cp8

cn9

am11

cp8

cn9

am11

cp8

cn9

am11

OW

cp8

cn9

am11

cp8

cn9

am11

cp8cn9

am11

cp8cn9

am11

cp8cn9

am11

OIW

cp8cn9

am11

cp8

cn9

am11

cp8

cn9

am11

cp8

cn9

am11

cp8

cn9

am11OL

Tecnicas de analisis multivariante - I

27

Matriz de diagramas de dispersion - III

Ejemplo 1. (Zoom x8)

OIW

100806040200

OW

70

60

50

40

30

20

10

cp8

cn9

am11

am4

Tecnicas de analisis multivariante - I

28

Diagramas de estrellas - I

Cada dato se representara mediante unaestrella que tendra tantos rayos o ejes comovariables se deseen representar.

La longitud del rayo j-esimo en la estrellaque representa al datos i dependera delvalor de la variable j en ese dato, xij.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

cl

cw

sw

sl

dcl

owoiw

ol

lcr

wcr

wn

Tecnicas de analisis multivariante - I

Page 8: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

29

Diagramas de estrellas - II

Ejemplo 1. 44 observaciones.

cn1

cn2

cn3

cn4

cn5

cn6

cn7

cn8

cn9

cp1

cp2

cp3

cp4

cp5

cp6

cp7

cp8

ot1

ot2

ot3

ot4

ot5

ot6

ot7

ot8

ot9

ot10

ot11

ot22

ot23

ot24

ot25

ot26

am1

am2

am3

am4

am5

am6

am7

am8

am9

am10

am11

Tecnicas de analisis multivariante - I

30

Diagramas de estrellas - III

Ejemplo 1. Medias por especies.

Crocodylus niloticus

Crocodylus porosus

Osteolaemus tetraspis

Alligator mississippiensis

Tecnicas de analisis multivariante - I

31

Diagramas de caras

Caras de Chernoff: Cada dato se rep-resentara mediante una cara. A cadavariable se asocia un rasgo o carac-terıstica de una cara, por ejemplo:(1) area de la cara, (2) forma de lacara, (3) longitud de la nariz, (4)localizacion de la boca, (5) curva dela sonrisa (6) grosor de la boca, (7)localizacion, separacion, inclinacion,forma y grosor de los ojos, etcetera.

Crocodylus niloticus

Crocodylus porosus

Osteolaemus tetraspis

Alligator mississippiensis

Tecnicas de analisis multivariante - I

32

Diagramas de Andrews - I

Los diagramas de Andrews representanal vector de observaciones x′

i =[xi1 xi2 · · · xip] mediante el grafico de lasiguiente funcion:

fi(t) = xi1√2+ xi2 sin(t) + xi3 cos(t)+

+xi4 sin(2t) + xi5 cos(2t) + · · ·

con −π ≤ t ≤ π.

Es claro que la funcion anterior cambiasi cambiamos el orden de las variables,por lo que se recomienda explorar distintosordenes para decidir cual representa mejorlos datos.

-4 -2 0 2 40

200

400

600

800

1000

Tecnicas de analisis multivariante - I

Page 9: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

33

Diagramas de Andrews - II

Ejemplo 1.

-4 -2 0 2 40

200

400

600

800

1000

-4 -2 0 2 40

50

100

150

200

250

300

350

400

-4 -2 0 2 4-1000

-500

0

500

1000

-4 -2 0 2 4-200

-100

0

100

200

300

Tecnicas de analisis multivariante - I

34

Tecnicas de analisis multivariante - I

Analisis de componentes principales.

Analisis factorial.

Escalado multidimensional.

Analisis de correspondencias.

Tecnicas de analisis multivariante - I Andres M. Alonso

35

Tecnicas de analisis para la reduccion de la dimension

Analisis de componentes principales:

Interpretacion geometrica.

Obtencion y propiedades de las componentes principales.

Criterios para elegir el numero de componentes.

Interpretacion de las componentes.

Tecnicas de analisis multivariante - I

36

Analisis de componentes principales

Al estudiar una matriz de datos X, es posible que encontremos correlacionesaltas (en valor absoluto) entre varias variables. El caso mas extremo es queuna de las variables sea combinacion lineal de las restantes. Entonces,el investigador puede preguntarse si no serıa mas adecuado estudiar unsubconjunto de las variables originales o combinaciones lineales de estas.

Tambien el numero de variables, p, puede ser grande, lo que dificulta suanalisis conjunto y en tal caso el trabajo del investigador se facilitarıasi existiese un conjunto de dimension menor (r < p) de combinacioneslineales que describiera la matriz de datos X con una “pequena perdida deinformacion”.

Reduccion de la dimension

Tecnicas de analisis multivariante - I

Page 10: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

37

El analisis de componentes principales tiene como objetivo lareduccion de la dimension de p variables preservando en lo posible la es-tructura de varianzas presente en la matriz X. Se intentara explicar la mayorvariabilidad posible con un numero r < p de combinaciones lineales de lasvariables originales. Ası:

La primera componente principal sera la combinacion lineal z1 = Xa1 quetenga varianza maxima.

La segunda componente principal sera la combinacion lineal z2 = Xa2 quetenga varianza maxima y que sea incorrelada con z1.

Las siguientes componentes se definen de manera similar, es decir, se intentaobtener la maxima varianza con combinaciones lineales que sean incorreladascon las componentes previamente calculadas.

¿Cuantas componentes se necesitan para explicar el 100% de la variabilidad?

Tecnicas de analisis multivariante - I

38

Interpretacion geometrica

Tecnicas de analisis multivariante - I

39

Obtencion de las componentes principales

Supuesto inicial: El vector de medias cumple que x = 0.

Obtencion de la primera componente principal: z1 = Xa1.

Varianza de z1: σ2z1= a′

1Sa1, donde S = 1nX′X es la matriz de covarianzas de

x.

¿Que problema debemos resolver para obtener z1?

Maximizar {a′1Sa1}

s.a. ||a1|| = 1.

Tecnicas de analisis multivariante - I

40

Solucion:

Mediante los multiplicadores de Lagrange:

L = a′1Sa1 − λ(a′

1a1 − 1).

Derivamos respecto de a1 e igualamos la derivada a 0:

∂L

∂a1= 2Sa1 − 2λa1 = 0.

La solucion cumple que: Sa1 = λa1.

El vector, a1, que define la primera componente principal es un vectorpropio de la matriz de covarianzas, S.

Pero, σ2z1= a′

1Sa1 = λa′1a1 = λ, Entonces:

El vector, a1, que define la primera componente principal es el vectorpropio asociado al mayor valor propio de la matriz de covarianzas, S.

Tecnicas de analisis multivariante - I

Page 11: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

41

Obtencion de la segunda componente principal: z2 = Xa2.

Problema a resolver:Maximizar {a′

2Sa2}

s.a.{ ||a2|| = 1.

a′1a2 = 0.

Que equivale a:

L = a′2Sa2 − λ1(a′

2a2 − 1) − λ2a′1a2.

Derivamos respecto de a2 e igualamos la derivada a 0:

∂L

∂a2= 2Sa2 − 2λ1a2 − λ2a1 = 0.

Tecnicas de analisis multivariante - I

42

Obtencion de la segunda componente principal:

Premultiplicando la expresion anterior por a′1 obtenemos:

2a′1Sa2 − 2λ1a′

1a2 − λ2a′1a1 = 0 + 0 + λ2 = 0,

es decir λ2 = 0. Por lo tanto:

2Sa2 = 2λ1a2.

El vector, a2, que define la segunda componente principal es el vec-tor propio asociado al segundo mayor valor propio de la matriz decovarianzas, S.

Tecnicas de analisis multivariante - I

43

Componentes principales - Ejemplo

Ejemplo 0. En el tema anterior calculamos la matriz de covarianzas de esteejemplo:

S =[0,386 0,1780,178 0,386

].

y sus valores y vectores propios:

λ1 = 0,5633, a1 =[0,70710,7071

], y λ2 = 0,2080, a2 =

[0,7071

−0,7071].

De manera que las componentes principales son:

z1 = 0,7071x1 + 0,7071x2,z2 = 0,7071x1 − 0,7071x2.

Tecnicas de analisis multivariante - I

44

Componentes principales - Ejemplo con SPSS - I

Ejemplo 0. Resultados utilizando SPSS:

Matriz de componentes

,531 -,322 ,855 -,519

,531 ,322 ,855 ,519

BASE

ALTURA

1 2

Componente

1 2

Componente

Bruta Reescalada

Comp. bruta:

b1 =

√λ1a1 =

√0,5633

[0,70710,7071

]=

[0,53070,5307

]

b2 =√λ2a2 =

√0,2080

[0,7071

−0,7071]=

[0,3224

−0,3224].

Tecnicas de analisis multivariante - I

Page 12: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

45

Componentes principales - Ejemplo con SPSS - II

Ejemplo 0.

Matriz de componentes

,531 -,322 ,855 -,519

,531 ,322 ,855 ,519

BASE

ALTURA

1 2

Componente

1 2

Componente

Bruta Reescalada

Comp. re-escalada:

c1 =

[b11/σ1

b12/σ2

]=

[0,5307/0,6210,5307/0,621

]=

[0,85510,8551

]

c2 =[b21/σ1

b22/σ2

]=

[0,3224/0,621

−0,3224/0,621]=

[0,5191

−0,5191].

Tecnicas de analisis multivariante - I

46

Componentes principales - Ejemplo - IIIMatriz de componentesa

3,404 ,736 -,523 -1,137 ,095 1,2051714,500 -15,221 ,271 ,002 ,001 ,000

34,415 2,310 -16,596 ,175 ,146 -,027264,193 98,475 ,422 -,008 -,016 -,010

-1,507 ,676 1,445 -,183 1,659 -,095

-1,347 ,419 ,785 3,274 ,118 ,4151,620 ,029 ,054 -,010 -,036 ,068

Consumo (l/100Km)

Cilindrada en ccPotencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)Año del modeloNúmero de cilindros

1 2 3 4 5 6Componente

Bruta

Método de extracción: Análisis de componentes principales.

Matriz de componentesa

,874 ,189 -,134 -,292 ,024 ,3101,000 -,009 ,000 ,000 ,000 ,000

,899 ,060 -,434 ,005 ,004 -,001,937 ,349 ,001 ,000 ,000 ,000

-,546 ,245 ,524 -,066 ,601 -,034

-,366 ,114 ,214 ,891 ,032 ,113,951 ,017 ,031 -,006 -,021 ,040

Consumo (l/100Km)

Cilindrada en ccPotencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)Año del modeloNúmero de cilindros

1 2 3 4 5 6ComponenteReescalada

Método de extracción: Análisis de componentes principales.

6 componentes extraídosa.

Tecnicas de analisis multivariante - I

47

Propiedades de las componentes principales - I

1. Conservan la variabilidad inicial: la suma de las varianzas de las p compo-nentes principales es igual a la de las p variables originales:∑p

j=1σ2

xj=

∑p

j=1λj =

∑p

j=1σ2

zj.

2. La proporcion de variabilidad explicada por una componente es igual al valorpropio asociado dividido por la suma de los valores propios de S:

var(σ2zh) =

λh∑pj=1 λj

.

3. Las covarianzas entre la componente principal zh y la variable x es:

Cov(zh,x) = λhah,

donde λh es el h-esimo valor propio de S y ah su vector propio asociado.

Tecnicas de analisis multivariante - I

48

Propiedades de las componentes principales - II

4. La correlacion entre la componente principal zh y la variable univariante xk

es:

Corr(zh, xk) =λhakh√λhs2k

= akh

√λh

sk.

5. La estandarizacion de las componentes principales, Z, permite obtener laestandarizacion multivariante de la matriz de datos, X:

Zu = ZD−1/2 = XAD−1/2,

y recordamos que Ym = XAD−1/2A′. Por lo tanto, Zu y Ym son “iguales”salvo rotaciones.

Tecnicas de analisis multivariante - I

Page 13: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

49

Analisis normado de componentes principales

¿Como es la primera componente de S =

100 0 00 2 10 1 2

?Respuesta: a′

1 =[1 0 0

].

Problema: Una variable con “mayor” varianza que el resto de las variables

tendra asociada la primera componente principal. � Ejemplo 2

Solucion: Obtener las componentes principales de la matriz de correlaciones.

R =

1 0 00 1 0,50 0,5 1

Cuyos valores y vectores propios son:

λ1 = 1,5, a′1 =

[0 1/

√2 1/

√2

],

λ2 = 1,0, a′2 =

[1 0 0

],

λ3 = 0,5, a′3 =

[0 1/

√2 −1/√2 ]

.

Tecnicas de analisis multivariante - I

50

Propiedades de las componentes principales - III

6. La proporcion de variabilidad explicada por una componente normada zRh

es:

var(σ2zRh) =

λRh∑p

j=1 λRj

=λR

h

p,

donde λRh es el h-esimo valor propio de la matriz R.

7. Las covarianzas entre la componente principal normada zRh y la variable

vectorial yu (estandarizacion univariante de x) es:

Cov(zRh ,yu) = λR

h aRh ,

donde λRh es el h-esimo valor propio de R y aR

h su vector propio asociado.

8. La correlacion entre la componente principal zRh y la variable univariante yk

(estandarizacion univariante de xk) es:

Corr(zRh , yk) = aR

kh

√λR

h .

Tecnicas de analisis multivariante - I

51

Componentes principales normadas - Ejemplo- I

Observacion: En general, los valores y vectores propios de S y de R no coin-ciden. Esto hace que los resultados del analisis de componentes principalesy de componentes principales normadas sean, en general, diferentes.

Ejemplo 0. Obtenemos los valores y vectores propios de la matriz de correla-

ciones, R =[1,000 0,4610,461 1,000

]:

λR1 = 1,4610, aR

1 =[0,70710,7071

], y λR

2 = 0,5390, aR2 =

[0,7071

−0,7071].

Entonces, las componentes principales son:

{zR1 = 0,7071 y1 + 0,7071 y2,zR2 = 0,7071 y1 − 0,7071 y2.

En este caso los vectores propios de S y R coinciden.

Tecnicas de analisis multivariante - I

52

Componentes principales normadas - Ejemplo - II

Ejemplo 0. Resultados utilizando SPSS:

Matriz de componentes

,855 ,519

,855 -,519

BASE

ALTURA

1 2

Componente

Componentes:

a1 = 1√

λ1b1 = 1√

1,4610

[0,8550,855

]≈

[0,70730,7073

]

a2 = 1√λ2

b2 = 1√0,539

[0,519

−0,519]≈

[0,7069

−0,7069]

Tecnicas de analisis multivariante - I

Page 14: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

53

Componentes principales normadas - Ejemplo - III

Matriz de componentesa

,936 -,088 ,195 ,186 -,198 ,064,964 ,161 ,075 -,115 ,052 -,027,951 ,041 -,150 ,148 ,187 ,114

,928 ,233 ,205 ,091 ,032 -,173

-,648 ,120 ,747 ,018 ,072 ,053

-,499 ,845 -,172 ,063 -,047 ,031,934 ,184 ,103 -,262 -,054 ,073

Consumo (l/100Km)Cilindrada en cc

Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)

Año del modeloNúmero de cilindros

1 2 3 4 5 6Componente

Método de extracción: Análisis de componentes principales.

6 componentes extraídosa.

Tecnicas de analisis multivariante - I

54

Criterios de reduccion de la dimension

Grafico de sedimentacion o de “codo”: Obtener el grafico de los valorespropios, λi, frente a i. Buscar un codo en el grafico, i.e., un punto a partirdel cual los valores propios son aproximadamente iguales.

Criterio de la varianza explicada: Seleccionar el numero de componentesnecesario para explicar una proporcion predeterminada de la varianza, porejemplo, el 80% o el 90%.

Criterio del valor propio: Seleccionar los componentes principales asociadosa valores propios superiores a un valor prefijado, por ejemplo, la varianzamedia:∑p

j=1 λj/p en componentes principales,∑pj=1 λ

Rj /p = 1 en componentes principales normadas.

Tecnicas de analisis multivariante - I

55

Reduccion de la dimension - Ejemplo - I

Ejemplo 1. Analisis de componentes principales normadas.

El criterio de la variabilidad expli-cada (> 90%) sugiere utilizar unacomponente.

El criterio del valor propio (> 1)sugiere utilizar una componente.

10,326 93,871 93,871

,383 3,480 97,352

,114 1,038 98,390

6,490E-02 ,590 98,980

4,130E-02 ,375 99,355

3,910E-02 ,355 99,711

1,965E-02 ,179 99,889

7,515E-03 6,832E-02 99,958

3,306E-03 3,005E-02 99,988

1,051E-03 9,556E-03 99,997

3,090E-04 2,809E-03 100,000

Componente1

2

3

4

5

6

7

8

9

10

11

Total% de lavarianza % acumulado

Autovalores iniciales

Tecnicas de analisis multivariante - I

56

Reduccion de la dimension - Ejemplo - II

Ejemplo 1.

Número de componente

1110987654321

Autova

lor

12

10

8

6

4

2

0

• El criterio del grafico de sedimentacion sugiere utilizar una componente.

Tecnicas de analisis multivariante - I

Page 15: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

57

Reduccion de la dimension - Ejemplo - III

Ejemplo 2. Analisis de componentes principales.Varianza total explicada

3010511,5 99,661 99,661 3010511,5 99,661 99,6619935,469 ,329 99,990

278,648 ,009 99,99912,078 ,000 100,000

2,798 9,263E-05 100,0001,639 5,426E-05 100,000

,268 8,878E-06 100,000

Componente1234

567

Total% de lavarianza % acumulado Total

% de lavarianza % acumulado

Autovalores inicialesSumas de las saturaciones al cuadrado

de la extracción

Método de extracción: Análisis de Componentes principales.

Tecnicas de analisis multivariante - I

58

Reduccion de la dimension - Ejemplo - IV

Ejemplo 2. Analisis de componentes principales normadas.Varianza total explicada

5,112 73,024 73,024 5,112 73,024 73,024,852 12,168 85,192,706 10,085 95,276,151 2,158 97,434

,088 1,264 98,698,057 ,813 99,511,034 ,489 100,000

Componente1234

567

Total% de lavarianza % acumulado Total

% de lavarianza % acumulado

Autovalores inicialesSumas de las saturaciones al cuadrado

de la extracción

Método de extracción: Análisis de Componentes principales.

Tecnicas de analisis multivariante - I

59

Reduccion de la dimension - Ejemplo - V

Ejemplo 2. Analisis de componentes principales normadas.Gráfico de sedimentación

Número de componente

7654321

Autov

alor

6

5

4

3

2

1

0

Tecnicas de analisis multivariante - I

60

Interpretacion de las componentes - Ejemplo - I

Ejemplo 0. Las componentes principales:

{z1 = 0,7071x1 + 0,7071x2,z2 = 0,7071x1 − 0,7071x2.

La primera componente, que explica el 73.03% de la variabilidad total,asigna igual peso a las variables base y altura, x1 y x2. Si re–escribimosesta componente como: z1 = 0,7071

2 (2x1+2x2) podemos interpretarla comouna ponderacion del perımetro del rectangulo.

Si ordenamos los datos segun esa componente. obtenemos:

Es decir, los rectangulos quedan ordenados segun su “tamano”.

Tecnicas de analisis multivariante - I

Page 16: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

61

Interpretacion de las componentes - Ejemplo- II

Ejemplo 0. Las componentes principales:

{z1 = 0,7071x1 + 0,7071x2,z2 = 0,7071x1 − 0,7071x2.

La segunda componente, que explica el 26.97% de la variabilidad total,asigna igual peso a la base y la altura pero con signo diferente. Ası, porejemplo, un valor de z2 positivo correspondera a un rectangulo con masbase que altura.

Si ordenamos los datos segun esa componente, obtenemos:

Es decir, los rectangulos quedan ordenados segun su “forma”.

Tecnicas de analisis multivariante - I

62

Interpretacion de las componentes - Casos Particulares - I

Componentes principales de una matriz diagonal:ΣΣΣ =

σ2

1 0 · · · 00 σ2

2 · · · 0... ... . . . ...0 0 · · · σ2

p

.Entonces, los pares valor–vector propio son:

σ21 y a1 =

10...0

, σ22 y a2 =

01...0

, · · · , σ2p y ap =

00...1

.

Las componentes principales en matrices diagonales son las variables origi-nales.

En una matriz de covarianzas no necesariamente diagonal, si existe unavariable, xk, incorrelada con el resto de las variables, entonces habra unacomponente principal que dara peso 1 a la variable xk y 0 al resto.

Tecnicas de analisis multivariante - I

63

Interpretacion de las componentes - Casos Particulares - II

Componentes principales de una matriz equicorrelada:R =

1 ρ · · · ρρ 1 · · · ρ... ... . . . ...ρ ρ · · · 1

Entonces, los pares de valor–vector propio son:

λ1 = 1 + (p− 1)ρ a′1 =

[1√p,

1√p,

1√p,

1√p, . . . ,

1√p

],

λ2 = 1− ρ a′2 =

[1√1×2

, −1√1×2

, 0, 0, . . . , 0],

λ3 = 1− ρ a′3 =

[1√2×3

, 1√2×3

, −2√2×3

, 0, . . . , 0],

... ...

λp = 1− ρ a′p =

[1√

(p−1)p, 1√

(p−1)p, 1√

(p−1)p, 1√

(p−1)p, . . . , −(p−1)√

(p−1)p

].

Tecnicas de analisis multivariante - I

64

Interpretacion de las componentes - Casos Particulares - III

Componentes principales de una matriz equicorrelada:

Si ρ > 0, entonces el mayor valor propio es λ1 = 1 + (p − 1)ρ y su vectorpropio asociado a1 define una componente principal que asigna igual pesoa todas las variables: z1 = 1√

p

∑pj=1 xj.

Si ρ > 0, entonces la primera componente principal explica una proporcion1+(p−1)ρ

p = ρ+ 1−ρp . Por ejemplo, si ρ = 0,9 y p = 10, entonces la primera

componente explica el 90.01% de la variabilidad total.

Si ρ es cercano a 1, entonces las restantes p− 1 componentes, explican unapequena proporcion de la variabilidad total.

Tecnicas de analisis multivariante - I

Page 17: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

65

Interpretacion de las componentes - Ejemplo - I

Ejemplo 1. La matriz de correlaciones de este ejemplo es aproximadamenteequicorrelada:

1,000 ,991 ,976 ,997 ,999 ,821 ,963 ,929 ,962 ,984 ,900

,991 1,000 ,987 ,986 ,989 ,840 ,965 ,934 ,968 ,993 ,914

,976 ,987 1,000 ,969 ,974 ,859 ,952 ,950 ,956 ,985 ,941

,997 ,986 ,969 1,000 ,998 ,796 ,958 ,917 ,958 ,978 ,890

,999 ,989 ,974 ,998 1,000 ,824 ,961 ,930 ,964 ,983 ,900

,821 ,840 ,859 ,796 ,824 1,000 ,766 ,906 ,858 ,861 ,893

,963 ,965 ,952 ,958 ,961 ,766 1,000 ,895 ,932 ,958 ,833

,929 ,934 ,950 ,917 ,930 ,906 ,895 1,000 ,922 ,945 ,954

,962 ,968 ,956 ,958 ,964 ,858 ,932 ,922 1,000 ,974 ,886

,984 ,993 ,985 ,978 ,983 ,861 ,958 ,945 ,974 1,000 ,908

,900 ,914 ,941 ,890 ,900 ,893 ,833 ,954 ,886 ,908 1,000

CL

CW

SW

SL

DCL

OW

OIW

OL

LCR

WCR

WN

CL CW SW SL DCL OW OIW OL LCR WCR WN

Tecnicas de analisis multivariante - I

66

Interpretacion de las componentes - Ejemplo - II

Ejemplo 1.

La primera componente principalestara definida por un vectoraproximadamente igual a a′

1 =[1√11, 1√

11, . . . , 1√

11

].

Recordemos que en SPSS aparece√λ1a1, por tanto los coeficientes seran

aproximadamente iguales a√

10,326√11≈ 0,969.

Matriz de componentes

,989

,992

,991

,982

,988

,882

,957

,964

,975

,993

,940

CL

CW

SW

SL

DCL

OW

OIW

OL

LCR

WCR

WN

1

Componente

Tecnicas de analisis multivariante - I

67

Interpretacion de las componentes - Ejemplo - III

Ejemplo 1. Diagrama de caja de la primera componente.

12578N =

Osteolaemus_tetraspi

Crocodylus_porosus

Crocodylus_niloticus

Alligator_mississipp

3

2

1

0

-1

-2

ot26ot25

am1

Tecnicas de analisis multivariante - I

68

Interpretacion de las componentes - Ejemplo - IV

Ejemplo 1. Matriz de diagramas de dispersion de las tres primeras CP.

CP1

4 4

44 44 44444 4

3

3

3

3

3

2

2

2

2

2

2

2

1

11

11

1

1

1

44

4 444 4 4444 4

3

3

3

3

3

2

2

2

2

2

2

2

1

11

11

1

1

1

4

4

4

4

4

4

4

444

4

4

3

3

3

3

3

2

22

2

22

2

1

1

1

1

1

1

1

1

CP2

4

4

4

4

4

4

4

444

4

4

3

3

3

3

3

2

2 2

2

22

2

1

1

1

1

1

1

1

1

44

4

4

4

4

4

4

4

44

43

3

3

3

3

2

22

2

2

22

1

1

1

1

1

1

11

4 4

4

4

4

4

4

4

4

44

43

3

3

3

3

2

22

2

2

22

1

1

1

1

1

1

11

CP3

Tecnicas de analisis multivariante - I

Page 18: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

69

Interpretacion de las componentes - Ejemplo - V

Ejemplo 2. Analisis de componentes principales normadas.Matriz de componentesa

,936 -,088 ,195,964 ,161 ,075,951 ,041 -,150

,928 ,233 ,205

-,648 ,120 ,747

-,499 ,845 -,172,934 ,184 ,103

Consumo (l/100Km)Cilindrada en cc

Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)

Año del modeloNúmero de cilindros

1 2 3Componente

Método de extracción: Análisis de componentes principales.

3 componentes extraídosa.

Tecnicas de analisis multivariante - I

70

Interpretacion de las componentes - Ejemplo - VI

Ejemplo 2. Analisis de componentes principales normadas.

CP 1

CP 2

CP 3

País de origen

Japón

Europa

EE.UU.

Tecnicas de analisis multivariante - I

71

Interpretacion de las componentes - Ejemplo - VII

Ejemplo 5. Esclerosis multiple.

2,917 58,342 58,342

1,227 24,534 82,876

,703 14,056 96,932

9,095E-02 1,819 98,751

6,245E-02 1,249 100,000

Componente1

2

3

4

5

Total% de lavarianza % acumulado

Autovalores iniciales Matriz de componentes

,299 ,734

,878 ,316

,862 -,433

,852 ,336

,766 -,535

EDAD

R1SUMA

R1DIF

R2SUMA

R2DIF

1 2

Componente

La primera componente da mayor peso a las variables relacionadas con lasrespuestas a estımulos visuales, y menor peso a la edad.La segunda componente da mayor peso a la edad, y por otra parte con-trapone las variables de tipo respuesta conjunta y respuesta diferencial.

Tecnicas de analisis multivariante - I

72

Interpretacion de las componentes - Ejemplo - VIIII

Ejemplo 5. Esclerosis multiple.

REGR factor score 2 for analysis 1

420-2-4-6

REGR fa

ctor sco

re 1 f

or analy

sis 1

6

5

4

3

2

1

0

-1

-2

1

11

1

1

1

1

11

1 1

1

1

1

1

1

1

11

1

1

1

1 1

1

1

1

1

1

Tecnicas de analisis multivariante - I

Page 19: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

73

Tecnicas de analisis multivariante - I

Analisis de componentes principales.

Analisis factorial.

Escalado multidimensional.

Analisis de correspondencias.

Tecnicas de analisis multivariante - I Andres M. Alonso

74

Tecnicas de analisis para la reduccion de la dimension

Analisis Factorial:

Modelo factorial.

Estimacion del modelo factorial.

Contraste del modelo factorial.

Rotaciones y puntuaciones factoriales.

Tecnicas de analisis multivariante - I

75

Analisis Factorial

El objetivo del analisis factorial es representar la estructura de covarianzapresente en las variables originales mediante un numero pequeno de variableslatentes o no observadas que denominaremos factores.

Modelo de analisis factorial: Sea x el vector de p variables escalares y sean µµµy ΣΣΣ su esperanza y su matriz de covarianzas. El modelo expresa a x comofuncion dem factores comunes, f = [f1, f2, . . . , fm], y de p factores especıficos,u = [u1, u2, . . . , up]:

x1 = µ1 + λ11f1 + λ12f2 + · · ·+ λ1mfm + u1,x2 = µ2 + λ21f1 + λ22f2 + · · ·+ λ2mfm + u2,... ...xp = µp + λp1f1 + λp2f2 + · · ·+ λpmfm + up.

Tecnicas de analisis multivariante - I

76

Analisis Factorial - Modelo

Modelo de analisis factorial en notacion matricial:

x = µµµ+ΛΛΛf + u,

donde ΛΛΛ =

λ11 λ12 · · · λ1m

λ21 λ22 · · · λ2m... ... ... ...λp1 λp2 · · · λpm

es una matriz de dimension p ×m de

constantes desconocidas que denominaremos matriz de carga.

El elemento λkj recibe el nombre de saturacion de la variable xk en el factorfj.

Tecnicas de analisis multivariante - I

Page 20: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

77

Analisis Factorial - Supuestos

El vector de factores comunes tiene media cero y matriz de covarianzas laidentidad, i.e. E [f ] = 0 y E [ff ′] = I. Notemos que esta hipotesis implicaque los factores comunes son incorrelados y estandarizados.

El vector de factores especıficos tiene media cero y matriz de covarianzas

diagonal, i.e. E [u] = 0 y E [uu′] = ΨΨΨ =

ψ2

1 0 · · · 00 ψ2

2 · · · 0... ... . . . ...0 0 . . . ψ2

p

. Notemos

que esta hipotesis implica que los factores especıficos son incorrelados.

Los vectores f y u son incorrelados, i.e. E [fu′] = 0.

Tecnicas de analisis multivariante - I

78

Analisis Factorial - Propiedades - I

1. La matriz de covarianzas de la variable vectorial x verifica que:

ΣΣΣ = ΛΛΛΛΛΛ′ +ΨΨΨ.

Si nos centramos en la diagonal de la matriz ΣΣΣ, tenemos que:

σjj = σ2j =

∑m

k=1λ2

jk + ψ2j ,

donde h2j =

∑mk=1 λ

2jk recibe el nombre de comunalidad o variabilidad

comun y ψ2j recibe el nombre de variabilidad especıfica.

Observacion: En el analisis de componentes principales, la matriz ΣΣΣse descompone en el producto ADA′ que podemos escribir comoAD1/2(AD1/2)′. En SPSS, el analisis de componentes principales puedeobtenerse como un “caso particular” de analisis factorial en el que lamatriz de carga ΛΛΛ = AD1/2.

Tecnicas de analisis multivariante - I

79

Analisis Factorial - Propiedades - II

2. La covarianza entre la variable vectorial, x, y los factores, f , verifica que:

cov(x, f) = E[(x −µµµ)f ′] = ΛΛΛ,

es decir, el elemento λkj de la matriz de carga es la covarianza entre lavariable original xk y el factor fj.

3. No unicidad de la solucion factorial: Si tomamos una matriz ortogonal Hde dimension m×m, es decir HH′ = I, entonces:

x = µµµ+ΛΛΛf + u= µµµ+ (ΛΛΛH)(H′f) + u,

y esto implica que ΛΛΛH y H′f tambien satisfacen el modelo factorial.

Tecnicas de analisis multivariante - I

80

Estimacion del modelo factorial - I

Estimacion por el metodo de las componentes principales: Sea S la matriz decovarianzas de dimension p×p, y sean (d1,a1), (d2,a2), . . . , (dp,ap) sus paresde valor–vector propio que supondremos ordenados d1 ≥ d2 ≥ · · · ≥ dp ≥ 0.Sea m < p el numero de factores comunes en el modelo factorial, entonces:

La estimacion de la matriz de carga es: ΛΛΛ =[√

d1a1...√d2a2

... · · · ...√dmam

].

La estimacion de las varianzas especıficas es: ψ2j = s2j −

∑mk=1 λ

2jm, donde

λjm es el elemento de la fila j y columna m de la matriz estimada ΛΛΛ.

La estimacion de las comunalidades es: h2j =

∑mk=1 λ

2jk.

El metodo de estimacion basado en componentes principales tiene la ventajade que siempre converge a una solucion.

Tecnicas de analisis multivariante - I

Page 21: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

81

Estimacion del modelo factorial - II

Estimacion maximo verosımil: Si f ∼ Nm(0, I) y u ∼ Np(0,ΨΨΨ), entonces lavariable vectorial x seguira una normal multivariante y podemos escribir sufuncion de verosimilitud:

L =∏n

i=1|ΣΣΣ|−1/2(2π)−p/2 exp

(−(1/2)(xi −µµµ)′ΣΣΣ−1(xi −µµµ)).

Si sustituimos, en la expresion anterior, µµµ por su estimador x y ΣΣΣ por ΛΛΛΛΛΛ′+ΨΨΨ,no es difıcil comprobar que:

L = |ΛΛΛΛΛΛ′ +ΨΨΨ|−n/2(2π)−np/2 exp(−(n/2)tr((ΛΛΛΛΛΛ′ +ΨΨΨ)−1S)

).

Los estimadores maximo verosımiles, ΛΛΛ, ΨΨΨ y µµµ = x, maximizan L sujeto

a que ΛΛΛ′ΨΨΨ

−1ΛΛΛ sea diagonal. Esta condicion se impone para solventar el

problema de la no unicidad de la solucion.

Tecnicas de analisis multivariante - I

82

Contraste del modelo factorial

Contraste de razon de verosimilitudes: Nos interesa contrastar si el modelofactorial es adecuado:

H0 : ΣΣΣ = ΛΛΛΛΛΛ′ +ΨΨΨ,H1 : ΣΣΣ �= ΛΛΛΛΛΛ′ +ΨΨΨ.

Podemos utilizar el estadıstico obtenido por razon de verosimilitudes:

−2 lnΛ = n ln|ΛΛΛΛΛΛ′

+ ΨΨΨ||S| ,

donde ΛΛΛ y ΨΨΨ son los estimadores maximo verosımil bajo H0. Bajo H0, elestadıstico se distribuye como una χ2

((p−m)2−p−m)/2, y por tanto rechazaremos

la hipotesis nula cuando:

n ln|ΛΛΛΛΛΛ′

+ ΨΨΨ||S| > χ2

((p−m)2−p−m)/2(α).

Tecnicas de analisis multivariante - I

83

Estimacion y contraste - Ejemplo - I

Ejemplo 5.

Estimacion

Matriz de componentes

,299 ,734

,878 ,316

,862 -,433

,852 ,336

,766 -,535

EDAD

R1SUMA

R1DIF

R2SUMA

R2DIF

1 2

Componente

Matriz factoriala

,200 ,290

,886 ,462

,886 -,462

,813 ,435

,742 -,538

EDAD

R1SUMA

R1DIF

R2SUMA

R2DIF

1 2

Factor

Método de extracción: Máxima verosimilitud.

2 factores extraídos. Requeridas 10 iteraciones.a.

Contraste

Modelo con un factor

157,278 5 ,000

Chi-cuadrado gl Sig.Modelo con dos factores

,891 1 ,345

Chi-cuadrado gl Sig.

Tecnicas de analisis multivariante - I

84

Estimacion y contraste - Ejemplo - II

Ejemplo 2.

Matriz factoriala

,895,989,911

,945

-,554

-,384,955

Consumo (l/100Km)Cilindrada en cc

Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)

Año del modeloNúmero de cilindros

1Factor

Método de extracción: Máxima verosimilitud.

1 factores extraídos. Requeridas 6 iteraciones.a.

Prueba de la bondad de ajuste

521,732 14 ,000Chi-cuadrado gl Sig.

Matriz factoriala

,501 ,751,573 ,800,720 ,613

,451 ,848

-,999 ,030

-,304 -,256,535 ,787

Consumo (l/100Km)Cilindrada en cc

Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)

Año del modeloNúmero de cilindros

1 2Factor

Método de extracción: Máxima verosimilitud.

2 factores extraídos. Requeridas 7 iteraciones.a.

Prueba de la bondad de ajuste

296,893 8 ,000Chi-cuadrado gl Sig.

Tecnicas de analisis multivariante - I

Page 22: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

85

Estimacion y contraste - Ejemplo - III

Ejemplo 2.

Matriz factoriala

,871 ,489 -,029,843 ,307 ,422,913 ,132 ,208

,781 ,439 ,337

-,846 ,532 ,006

-,493 -,231 ,312,804 ,314 ,412

Consumo (l/100Km)Cilindrada en cc

Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)

Año del modeloNúmero de cilindros

1 2 3Factor

Método de extracción: Máxima verosimilitud.

3 factores extraídos. Requeridas 6 iteraciones.a.

Prueba de la bondad de ajuste

96,174 3 ,000Chi-cuadrado gl Sig.

Advertencia

El número de grados de libertad (-1) no es positivo. El análisis factorial podría noser apropiado.

Matriz factoriala

Se han intentado extraer 4 factores. En la iteración 25, el Hessianno ha sido definido positivo. Se ha terminado la extracción.

a.

Tecnicas de analisis multivariante - I

86

Estimacion y contraste - Ejemplo - IV

Ejemplo 2.Correlaciones reproducidas

,999b ,873 ,854 ,885 -,478 -,552 ,842

,873 ,984b ,898 ,936 -,548 -,355 ,948,854 ,898 ,894b ,841 -,701 -,416 ,861,885 ,936 ,841 ,916b -,425 -,381 ,905

-,478 -,548 -,701 -,425 ,999b

,296 -,511

-,552 -,355 -,416 -,381 ,296 ,394b -,340,842 ,948 ,861 ,905 -,511 -,340 ,914b

-1,686E-05 -5,313E-05 8,136E-05 -2,388E-07 ,000 6,609E-05-1,686E-05 -2,407E-05 -,002 5,162E-06 -,013 ,003-5,313E-05 -2,407E-05 ,022 -3,080E-05 ,005 -,0198,136E-05 -,002 ,022 4,254E-05 ,078 -,007

-2,388E-07 5,162E-06 -3,080E-05 4,254E-05 ,000 -3,988E-05

,000 -,013 ,005 ,078 ,000 -,0016,609E-05 ,003 -,019 -,007 -3,988E-05 -,001

Consumo (l/100Km)Cilindrada en ccPotencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)Año del modeloNúmero de cilindros

Consumo (l/100Km)Cilindrada en ccPotencia (CV)Peso total (kg)

Aceleración 0 a 100km/h (segundos)Año del modeloNúmero de cilindros

Correlación reproducida

Residuala

Consumo(l/100Km)

Cilindrada encc Potencia (CV)

Peso total(kg)

Aceleración 0a 100 km/h(segundos)

Año delmodelo

Número decilindros

Método de extracción: Máxima verosimilitud.

Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (4,0%) residuales no redundantes con valores absolutos mayores que 0,05.a.

Comunalidades reproducidasb.

Tecnicas de analisis multivariante - I

87

Rotaciones

Sabemos que la solucion del modelo factorial no era unica. A partir de unasolucion ΛΛΛ y f podemos hallar otra solucion mediante una matriz ortogonalH: ΛΛΛH y H′f son soluciones que tienen la misma matriz residual, varianzasespecıficas y comunalidades.

¿Cual es el resultado de multiplicar por una matriz ortogonal? Una rotacion delos factores.

Metodos de rotacion:

Varimax: minimiza el numero de variables que tienen saturaciones altas encada factor.Quartimax: minimiza el numero de factores necesarios para explicar cadavariable.Equamax: metodo de rotacion que combina los dos metodos anteriores.Rotaciones oblicuas: metodos de rotacion no ortogonal, i.e. H es una matrizno singular general. Los factores resultantes son correlados.

Tecnicas de analisis multivariante - I

88

Rotaciones - Ejemplo - I

Ejemplo 5.

Rotacion Varimax:

Matriz de factores rotadosa

-3,915E-02 ,350

,365 ,930

,972 ,233

,328 ,861

,913 8,082E-02

EDAD

R1SUMA

R1DIF

R2SUMA

R2DIF

1 2

Factor

Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Varimax con Kaiser.

La rotación ha convergido en 3 iteraciones.a.

Rotacion Quartimax:

Matriz de factores rotadosa

-5,256E-02 ,348

,329 ,944

,962 ,270

,295 ,873

,909 ,116

EDAD

R1SUMA

R1DIF

R2SUMA

R2DIF

1 2

Factor

Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Quartimax con Kaiser.

La rotación ha convergido en 3 iteraciones.a.

Tecnicas de analisis multivariante - I

Page 23: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

89

Rotaciones - Ejemplo - II

Rotacion Oblicua Promax:

Matriz de configuración.a

-,174 ,409

5,811E-02 ,968

,990 1,794E-02

4,246E-02 ,899

,981 -,140

EDAD

R1SUMA

R1DIF

R2SUMA

R2DIF

1 2

Factor

Método de extracción: Máxima verosimilitud. Método de rotación: Normalización Promax con Kaiser.

La rotación ha convergido en 3 iteraciones.a.

Matriz de correlaciones entre los factores

1,000 ,518

,518 1,000

Factor1

2

1 2

Notemos que en este caso los factores son correlados, sin embargo hemoslogrado la matriz de carga “mas sencilla” y por tanto mas facil de interpretar.

Tecnicas de analisis multivariante - I

90

Rotaciones - Ejemplo - III

Ejemplo 2.

Rotacion Varimax:

Matriz de componentes rotados a

,851 ,192 -,401,925 ,287 -,150,798 ,501 -,206

,962 ,146 -,103

-,279 -,947 ,128

-,191 -,126 ,970,916 ,247 -,127

Consumo (l/100Km)Cilindrada en cc

Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)

Año del modeloNúmero de cilindros

1 2 3Componente

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.

La rotación ha convergido en 4 iteraciones.a.

Rotacion Quartimax:

Matriz de componentes rotados a

,922 -,266 ,023,979 -,006 -,056,915 -,076 -,293

,973 ,044 ,088

-,512 ,070 ,851

-,357 ,928 ,057,957 ,015 -,020

Consumo (l/100Km)Cilindrada en cc

Potencia (CV)Peso total (kg)Aceleración 0 a 100km/h (segundos)

Año del modeloNúmero de cilindros

1 2 3Componente

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Quartimax con Kaiser.

La rotación ha convergido en 4 iteraciones.a.

Tecnicas de analisis multivariante - I

91

Puntuaciones factoriales

En analisis factorial, usualmente, el interes se centra en los parametros delmodelo factorial, en particular en la matriz de carga. Sin embargo, puede serutil obtener los valores de los factores comunes:

Metodo basado en regresion:

fi = ΛΛΛ′ΣΣΣ

−1(xi − x), con i = 1, 2, . . . , n.

Este metodo puede obtener soluciones correladas incluso cuando los factoressean ortogonales.

Metodo de Bartlett o Metodo de mınimos cuadrados ponderados:

fi = (ΛΛΛΨΨΨ−1ΛΛΛ)−1ΛΛΛ

′ΨΨΨ

−1(xi − x), con i = 1, 2, . . . , n.

El metodo de Anderson–Rubin es una modificacion de este metodo queasegura la ortogonalidad de los factores.

Tecnicas de analisis multivariante - I

92

Puntuaciones factoriales - Ejemplo

Ejemplo 5. Esclerosis multiple. Factores rotados.

A-R factor score 2

322110-1-1

A-R fac

tor sco

re 1

10

8

6

4

2

0

-2

111

1

1

1

1

1

11 1

11

1

1

1

1

1

1

1

1

1

1

1

1

1

1

11

Tecnicas de analisis multivariante - I

Page 24: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

93

Ejemplo con graficos de control - I

Ejemplo 4. Seis tipos de escenarios.Varianza total explicada

31,479 52,465 52,465 31,479 52,465 52,4655,930 9,884 62,348 5,930 9,884 62,3484,184 6,973 69,322 4,184 6,973 69,3221,989 3,314 72,636 1,989 3,314 72,636

1,846 3,077 75,712 1,846 3,077 75,7121,254 2,090 77,803 1,254 2,090 77,8031,011 1,685 79,488 1,011 1,685 79,488

,957 1,595 81,082

,736 1,226 82,309,715 1,192 83,501

: : :,045 ,076 99,792

Componente1234

5678

910:60

Total% de lavarianza % acumulado Total

% de lavarianza % acumulado

Autovalores inicialesSumas de las saturaciones al cuadrado

de la extracción

Método de extracción: Análisis de Componentes principales.

Tecnicas de analisis multivariante - I

94

Ejemplo con graficos de control - II

Ejemplo 4. (AF) Componentes principales normadas.

CP 1

CP 2

CP 3

Tend.Decreciente

Tend. Creciente

Normal

Esc.Positivo

Esc. Negativo

Ciclico

Tecnicas de analisis multivariante - I

95

Ejemplo con graficos de control - III

Ejemplo 4. (AF) Componentes principales normadas rotadas.

CP 1 (r)

CP 2 (r)

CP 3 (r)

Tend. Decreciente

Tend. Creciente

Normal

Esc. Positivo

Esc. Negativo

Ciclico

Tecnicas de analisis multivariante - I

96

Ejemplo con graficos de control - IV

Ejemplo 4. Interpretacion de las CP - factores.

Variable

58

55

52

49

46

43

40

37

34

31

28

25

22

19

16

13

10

7

4

1

1,5

1,0

,5

0,0

-,5

-1,0

Coef. CP 1 (r)

Coef. CP 2 (r)

Coef. CP 3 (r)

Tecnicas de analisis multivariante - I

Page 25: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

97

Tecnicas de analisis multivariante - I

Analisis de componentes principales.

Analisis factorial.

Escalado multidimensional.

Analisis de correspondencias.

Tecnicas de analisis multivariante - I Andres M. Alonso

98

Escalado multidimensional - I

Las tecnicas de escalado multidimensional son una generalizacion de com-ponentes principales cuando en lugar de una matriz de datos, XXX, tenemosuna matriz de distancias o de disimilaridades, DDD, entre los elementos de lamuestra en estudio.

• Similitudes entre n productos fabricados por una empresa.• Distancias percibidas entre n candidatos polıticos.• Diferencias de dificultad entre las n preguntas de un examen.

Las mediciones de estas distancias pueden obtenerse mediante:

• Estimacion directa por expertos: n(n− 1)/2 evaluaciones.• Estimacion por rangos: se selecciona un elemento y se pide a los expertosque ordenen los restantes n−1 segun proximidad al elemento seleccionado.Se continua con el siguiente elemento.

• Estimacion por pares: se forman todos los pares posibles y se pide a losexpertos que los ordene de mayor a menor distancia.

Tecnicas de analisis multivariante - I

99

Escalado multidimensional - II

El objetivo del escalado multidimensional es representar la matriz de distan-cias mediante un conjunto de variables ortogonales tales que las distanciaseuclıdeas entre estas variables sea lo mas proximo posible a DDD.

• DDDn×n �XXXn×p.• Distancias euclıdeas de XXX ≈DDD.

¿Es siempre posible encontrar XXXn×p tal que se verifique la igualdad? No.

Si la matriz de distancias,DDD, es una matriz de distancias euclıdeas entoncesrecuperaremos las componentes principales.

El escalado multidimensional es complementario a componentes principalesen el sentido que CP considera la matriz p × p de covarianzas entre lasvariables mientras que el EM considera la matriz n× n de distancias entrelos individuos.

Tecnicas de analisis multivariante - I

100

Escalado multidimensional metrico - I

A partir de la matriz de datos, XXX, podemos obtener la matriz de datoscentrada:

XXX = (III − n−1111111)XXX = PPPXXX

y a partir de ella las siguientes matrices cuadradas y semidefinidas positivas:

SSS = XXX′XXX/n: Matriz de covarianzas.

QQQ = XXXXXX′: Matriz de “covarianzas” entre individuos.

Las siguientes relaciones permiten obtener DDD a partir de QQQ y viceversa:

d2ij = qii + qjj − 2qij,

y

qij = −12

(d2

ij − d2i· − d2

·j + d2··).

Tecnicas de analisis multivariante - I

Page 26: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

101

Escalado multidimensional metrico - II

¿Como obtener XXX a partir de QQQ?

Bajo el supuesto de que QQQ sea de rango p se puede escribir mediante ladescomposicion en valores, Λ, y vectores propios, V:

QQQ = VΛV′ = VΛ1/2Λ′1/2V′.

Tomamos como “matriz de datos” a YYY = VΛ1/2.

YYY son p variables incorreladas medidas en n individuos.

No es posible obtener la matriz de datos original, XXX, pues la matriz dedistancias es invariante ante traslaciones y rotaciones de los datos.

Tecnicas de analisis multivariante - I

102

Escalado multidimensional metrico - III

¿Es siempre posible encontrar YYY n×p tal que las distancias euclıdeas entre suselementos sea igual a DDD? Respuesta 1: En general, no.

Ejemplo: Consideremos la distancia porcarretera:

DDD =

0 1 1√

2

1 0 2 1

1 2 0 1√2 1 1 0

QQQ =

0,390 −0,036 −0,036 −0,316

−0,036 0,536 −0,463 −0,036

−0,036 −0,463 0,536 −0,036

−0,316 −0,036 −0,036 0,390

-0.2 0 0.2 0.4 0.6 0.8 1 1.2

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

X1

X2

X3

X4

que tiene como valores propios a: 0.0000, 0.1464, 0.7071 y 1.0000.

Tecnicas de analisis multivariante - I

103

Escalado multidimensional metrico - IV

Respuesta 2: Si es posible cuando la matriz QQQn×n = −12PPPDDDPPP es de rango p y

semidefinida positiva.

Ejemplo: Consideremos la distancia por ciudad:

DDD =

0 1 1 21 0 2 11 2 0 12 1 1 0

QQQ =

0,5 0 0 −0,50 0,5 −0,5 00 −0,5 0,5 0

−0,5 0 0 0,5

.

que tiene como valores propios a: 0, 0, 1 y 1.

Tecnicas de analisis multivariante - I

104

Ejemplo: Si tomamos los dos valores propios (positivos) mayores obtenemos:

YYY (1) =

0,5946 0,0000

0,0000 −0,7071

−0,0000 0,7071

−0,5946 −0,0000

e

YYY (2) =

−0,7071 0

0 0,7071

0 −0,7071

0,7071 0

-1 -0.5 0 0.5 1-1

-0.5

0

0.5

1

X1

X2

X3

X4

Y(1)1

Y(1)2

Y(1)3

Y(1)4

Y(2)1

Y(2)2

Y(2)3

Y(2)4

Precision de la aproximacion: (0.7071 + 1)/(0.1464 + 0.7071 + 1) = 92.1%,y 100%, respectivamente.

Tecnicas de analisis multivariante - I

Page 27: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

105

Escalado multidimensional metrico - Resumen

1. Construir la matriz QQQn×n = −12PPPDDDPPP .

2. Calcular los valores propios de QQQ. Tomar los p valores propios mayores, demanera que los n− r valores propios restantes sean proximos a cero.

3. Obtener las coordenadas de las variables ortogonales yi = vi

√λi, donde λi

es un valor propio y vi su vector propio asociado.

Este procedimiento equivale a aproximar la matriz QQQ mediante:

QQQr = VrΛ1/2r Λ′1/2

r V′r,

y tomar como matriz de datos (centrados y rotados) a:

YYY r = VrΛ1/2r .

Tecnicas de analisis multivariante - I

106

Ejemplo con graficos de control - I

Ejemplo 4. Distancias euclıdeas entre los casos (n = 600).

Medidas de ajuste y stress

,02315,15214a

,30873a

,02130b

,97685

,98836

Stress bruto normalizadoStress-IStress-IIS-Stress

Dispersión explicada(D.A.F.)Coeficiente decongruencia de Tucker

PROXSCAL minimiza el stress bruto normalizado.

Factor para escalamiento óptimo = 1,024.a.

Factor para escalamiento óptimo = ,972.b. DIM_2

,6,4,2,0-,2-,4-,6-,8-1,0

DIM

_1

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Tend. Decreciente

Tend. Creciente

Normal

Esc. Positivo

Esc. Negativo

Ciclico

Tecnicas de analisis multivariante - I

107

Ejemplo con graficos de control - II

Ejemplo 4. Distancias euclıdeas entre las variables (p = 60).

Medidas de ajuste y stress

,05256,22926a

,52979a

,08298b

,94744

,97337

Stress bruto normalizadoStress-IStress-IIS-Stress

Dispersión explicada(D.A.F.)Coeficiente decongruencia de Tucker

PROXSCAL minimiza el stress bruto normalizado.

Factor para escalamiento óptimo = 1,056.a.

Factor para escalamiento óptimo = ,935.b. Número de variable

5855524946434037343128252219161310741

1,0

,5

0,0

-,5

-1,0

DIM_1

DIM_2

Tecnicas de analisis multivariante - I

108

Escalado multidimensional no metrico - I

Supongamos que la matriz de distancias es no euclıdea, entonces la matrizQQQ = −1

2PPPDDDPPP tiene valores propios negativos.

El objetivo de escalado multidimensional no metrico es transformar lasdistancias, di,j, para convertirlas en euclıdeas conservando las relaciones deproximidad originales:

Si di,j ≥ dk,l entonces di,j ≥ dk,l,

donde di,j = ϕ(di,j) y ϕ es una transformacion monotona.

Existen varias posibilidades para la funcion ϕ. Por ejemplo:

ϕ1(di,j) ={

d2i,j − 2a si i �= j0 si i = j

ϕ2(di,j) ={

di,j + c si i �= j0 si i = j

Tecnicas de analisis multivariante - I

Page 28: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

109

Escalado multidimensional no metrico - II

Los parametros ay c se seleccionan de manera que se minimice las diferenciasentre las distancias originales y las transformadas:

∑i

∑j(di,j − di,j)2.

Un criterio de ajuste utilizado para evaluar la representacion obtenida es elconocido por STRESS (adecuado si < 5%):

S2 =∑i<j

(di,j − di,j)2∑i<j d

2i,j

.

Otra alternativa es obtener el diagrama de Shepard que consiste en repre-sentar los n(n − 1)/2 puntos (di,j, di,j) y comprobar la monotonıa de lacurva resultante.

Tecnicas de analisis multivariante - I

110

Ejemplo:

YYY (1) =

0,5946 0,0000

0,0000 −0,7071

−0,0000 0,7071

−0,5946 −0,0000

e

YYY (nm) =

−0,1854 0,6118

0,8667 0,2577

−0,8705 −0,2668

0,1796 −0,6213

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Tecnicas de analisis multivariante - I

111

Ejemplo: Si calculamos las matrices de distancias euclıdeas de las matrices dedatos obtenidas, YYY (1) y YYY (nm):

DDD(1) =

0 0,923 0,923 1,189

0,923 0 1,414 0,9230,923 1,414 0 0,9231,189 0,923 0,923 0

DDD(nm) =

0 1,110 1,114 1,285

1,110 0 1,814 1,1151,114 1,814 0 1,1081,285 1,115 1,108 0

y las comparamos con la matriz original: DDD =

0 1 1

√2

1 0 2 11 2 0 1√2 1 1 0

Obtenemos que el STRESS es: 0.0417 y 0.0101 y el S-STRESS es: 0.6414 y0.3827.

Tecnicas de analisis multivariante - I

112

Reconstruccion del mapa de Espana - I

A partir de las distancias entre provincias:

Alicante 171

Almería 369 294

Avila 366 537 663

Badajoz 525 696 604 318

Barcelona 540 515 809 717 1022

Bilbao 646 817 958 401 694 620

Burgos 488 659 800 243 536 583 158

Cáceres 504 675 651 229 89 918 605 447

Cádiz 617 688 484 618 342 1284 1058 900 369

Castellón 256 231 525 532 805 284 607 524 701 873

Ciudad Real 207 378 407 256 318 811 585 427 324 464 463

Córdoba 354 525 332 457 272 908 795 637 319 263 610 201

A Coruña 860 1031 1172 538 772 1118 644 535 683 1072 1026 799 995

Cuenca 142 313 511 282 555 562 562 404 451 708 305 244 445 776

Gerona 640 615 909 817 1122 100 720 683 1018 1384 384 911 1008 1218 662

Granada 363 353 166 534 438 868 829 671 485 335 584 278 166 1043 479 968

Guadalajara 309 480 621 173 459 563 396 238 355 721 396 248 458 667 486 663 492

Albacete

Guadalajara

A Coruña

Cuenca

Gerona

Granada

Cádiz

Castellón

Ciudad Real

Córdoba

Barcelona

Bilbao

Burgos

Cáceres

Alicante

Almería

Avila

Badajoz

...

Tecnicas de analisis multivariante - I

Page 29: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

113

Reconstruccion del mapa de Espana - II

Iteration history for the 2 dimensional solution (in squared distances)

Young’s S-stress formula 1 is used.

Iteration S-stress Improvement1 ,091122 ,07500 ,016123 ,07373 ,001274 ,07354 ,00020

Iterations stopped because S-stress improvement is less than ,001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)in the partition (row, matrix, or entire data) which is accounted for bytheir corresponding distances. Stress values are Kruskal’s stress formula 1.

Stress = ,05474 RSQ = ,98449

Tecnicas de analisis multivariante - I

114

Reconstruccion del mapa de Espana - III

Distancias originales

543210

Dis

tanc

ias

tran

sfor

mad

as

5

4

3

2

1

0

Tecnicas de analisis multivariante - I

115

Reconstruccion del mapa de Espana - IV

-600 -400 -200 0 200 400 600 800-800

-600

-400

-200

0

200

400

600

Albacete

Alicante

Almería

Avila

Badajoz

Barcelona

Bilbao

Burgos

Cáceres

Cádiz

Castellón

Ciudad Real

Córdoba

Coruña

Cuenca

Gerona

Granada

Guadalajara

Huelva

Huesca

Jaén

León Lérida

Logroño Lugo

Madrid

Málaga

Murcia

Orense

Oviedo

Palencia

Pamplona Pontevedra

Salamanca

SanSebastiánSantander

Segovia

Sevilla

Soria Tarragona

Teruel

Toledo Valencia

Valladolid

Vitoria

Zamora

Zaragoza

Tecnicas de analisis multivariante - I

116

Tecnicas de analisis multivariante - I

Analisis de componentes principales.

Analisis factorial.

Escalado multidimensional.

Analisis de correspondencias.

Tecnicas de analisis multivariante - I Andres M. Alonso

Page 30: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

117

Analisis de correspondencias

El analisis de correspondencias es una tecnica analoga a las componentesprincipales para variables cualitativas.

Se utiliza para representar tablas de contingencias. Esto es, la informacionde partida es una matriz de dimension I × J que representa las frecuenciasabsolutas de dos variables cualitativas observadas en n individuos.

X : Y D1 D2 · · · DJC1C2...CI

Tecnicas de analisis multivariante - I

118

Analisis de correspondencias - Ejemplo

Tabla de contingencia del color de los ojos y el pelo de escolares escoceses(R.A. Fisher, 1940).

Ojos : Pelo Rubio Pelirrojo Castano Oscuro NegroClaros 688 116 584 188 4Azules 326 38 241 110 3

Castanos 343 84 909 412 26Oscuros 98 48 403 681 85

Podemos representar esta tabla en forma de matriz de datos con n = 5387individuos y p = 9 = 4 (ojos) + 5 (pelo) variables dicotomicas.

Representar las variables en un espacio de dimension menor.

Asignar valores numericos a variables cualitativas.

Tecnicas de analisis multivariante - I

119

Analisis de correspondencias - Procedimiento - I

1.- Se obtiene la tabla de contingencia en terminos de frecuencias relativas, FFF :

Ojos : Pelo Rubio Pelirrojo Castano Oscuro NegroClaros 0.128 0.022 0.108 0.035 0.001Azules 0.061 0.007 0.045 0.020 0.001

Castanos 0.064 0.016 0.169 0.076 0.005Oscuros 0.018 0.009 0.075 0.126 0.016

2.- Se estandarizan las frecuencias relativas respecto a las frecuencias relativas

marginales por filas y columnas, ZZZ =DDD−1/2f FFFDDD

−1/2c :

Ojos : Pelo Rubio Pelirrojo Castano Oscuro NegroClaros 0.454 0.173 0.318 0.127 0.009Azules 0.319 0.084 0.195 0.110 0.010

Castanos 0.213 0.118 0.467 0.262 0.057Oscuros 0.071 0.078 0.240 0.504 0.216

Tecnicas de analisis multivariante - I

120

Analisis de correspondencias - Procedimiento - II

3.- Se obtiene la matriz ZZZ ′ZZZ y sus valores y vectores propios:

ZZZ ′ZZZ =

0,358 0,136 0,323 0,184 0,0350,136 0,057 0,145 0,101 0,0260,323 0,145 0,415 0,305 0,0830,184 0,101 0,305 0,351 0,1260,035 0,026 0,083 0,126 0,050

Valores propios: 0.001, -0.0001, 0.0304, 0.1998, 0.9998 (1).

Vectores propios:

-0.2195 -0.1024 -0.5219 -0.6317 0.51960.9073 0.3229 -0.0673 -0.1225 0.2303

-0.0554 -0.1593 0.7556 -0.0609 0.6300-0.2028 0.3995 -0.3002 0.6716 0.50810.2907 -0.8368 -0.2492 0.3623 0.1479

Tecnicas de analisis multivariante - I

Page 31: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

121

Analisis de correspondencias - Procedimiento - III

4.- Se toman los dos vectores propios, aaa1 y aaa2, ligados a los mayores valorespropios que sean menores que 1.

5.- Calcular las proyecciones ZZZaaa1 y ZZZaaa2 y representarlas graficamente.

-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4-0.1

-0.05

0

0.05

0.1

0.15

Ojos claros

Ojos azules

Ojos castaños

Ojos oscuros

Tecnicas de analisis multivariante - I

122

Analisis de correspondencias - Procedimiento - IV

El procedimiento es analogo para las columnas y ambos resultados puedencombinarse.

-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4-0.1

-0.05

0

0.05

0.1

0.15

O. claroO. azules

O. oscuros

O. castañoRubio

Pelirrojo

P. castaño

P. oscuroP. negro

Tecnicas de analisis multivariante - I

123

Analisis de correspondencias - Resumen

El procedimiento de Analisis de correspondencias conduce a una representacionde las filas (columnas) de una tabla de consistencia.

1. Caracterizar las filas (columnas) por sus frecuencias relativas condicionadas,y considerarlas como puntos en el espacio. ¿Por que es necesario?

2. Definir una distancia entre puntos que tenga en cuenta que cada fila semide con distinta precision, χ2.

3. Proyectar los puntos sobre las direcciones de maxima variabilidad.

Tecnicas de analisis multivariante - I

124

Analisis de correspondencias - Estandarizacion

Suspenso Aprobado Notable Sobresaliente TotalZona A 0.03 0.06 0.15 0.06 0.3Zona B 0.07 0.14 0.35 0.14 0.7Total 0.1 0.2 0.5 0.2 1.0

Suspenso Aprobado Notable Sobresaliente TotalZona A 0.1 0.2 0.5 0.2 1.0Zona B 0.1 0.2 0.5 0.2 1.0

Aunque las frecuencia relativas de las dos zonas son muy distintas, pero ladistribucion de calificaciones es la misma para ambas zonas.

Tecnicas de analisis multivariante - I

Page 32: T´ - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/CEDEX... · 2005-12-15 · CEDEX-Cursodeformaci´ onestad´ ıstica T´ ecnicasdean´ alisismultivariante Andr´ esM.Alonso

125

Ejemplo: Tipo de fumador vs Categorıa en la empresa - I

Tabla de correspondencias

4 2 3 2 114 3 7 4 18

25 10 12 4 51

18 24 33 13 8810 6 7 2 2561 45 62 25 193

Staff GroupSenior ManagersJunior Managers

Senior EmployeesJunior EmployeesSecretariesTotal

None Light Medium Heavy TotalSmoking

Resumen

,273 ,075 ,878 ,878 ,070 ,020,100 ,010 ,118 ,995 ,076,020 ,000 ,005 1,000

,085 16,442 ,172a 1,000 1,000

Dimensión123

Total

Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada

Proporción de inercia

Desviacióntípica 2

Correlación

Confianza para el Valor propio

12 grados de libertada.

Tecnicas de analisis multivariante - I

126

Ejemplo: Tipo de fumador vs Categorıa en la empresa - II

Dimensión 1

,8,6,4,2,0-,2-,4-,6-,8-1,0

Dim

ensi

ón 2

1,0

,8

,6

,4

,2

-,0

-,2

-,4

-,6

Smoking

Staff Group

Heavy

Medium

Light

None

SecretariesJunior Employees

Senior Employees

Junior Managers

Senior Managers

Tecnicas de analisis multivariante - I

127

Lecturas recomendadas

Analisis de componentes principales: Capıtulo 5 de Cuadras (2004); Capıtulo 8 de Johnson

y Wichern (2002); Capıtulo 2 de McGarigal et al (2000); Capıtulo 5 de Pena (2002);

Capıtulo 7 de Selvin (1995).

Analisis factorial: Capıtulo 6 de Cuadras (2004); Capıtulo 9 de Johnson y Wichern (2002);

Capıtulo 12 de Pena (2002).

Escalado multidimensional: Capıtulo 8 de Cuadras (2004); Capıtulo 12 de Johnson y

Wichern (2002); Capıtulo 6 de Pena (2002).

Analisis de correspondencias: Capıtulo 9 de Cuadras (2004); Capıtulo 12 de Johnson y

Wichern (2002); Capıtulo 7 de Pena (2002).

Cuadras, C. (2004) Analisis multivariante, Universidad de Barcelona.

Johnson, R.A. y Wichern, W.A. (2002) Applied multivariate statistical analysis, Prentice

Hall.

McGarigal, K., Cushman, S. y Stafford, S. (2000) Multivariate analysis for wildlife and

ecology research, Springer.

Pena, D. (2002) Analisis de datos multivariantes, McGraw–Hill.

Selvin, S. (1995) Practical biostatistical methods, Duxbury Press.

Tecnicas de analisis multivariante - I