Вы находитесь на странице: 1из 11

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

UNIVERSIDAD DE PUERTO RICO


RECINTO DE RIO PIEDRAS
FACULTAD DE ADMINISTRACION DE EMPRESAS
Instituto de Estadstica y Sistemas Computadorizados de Informacin

INTRODUCCION AL
ANALISIS MULTIVARIADO
Marzo - 2011

Preparado por:
Jos Carlos Vega Vilca, Ph.D.

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

INTRODUCCION AL ANALISIS MULTIVARIADO


El anlisis multivariado es una rama de la estadstica que se centra en la
investigacin simultnea de dos o ms caractersticas (variables) medidas en un
conjunto de objetos (sujetos, individuos).
VECTOR ALEATORIO
Es un vector de p componentes, cada una de las cuales representa una variable
aleatoria.
Un individuo est representado por un vector

vector aleatorio: x =

x1
x2
M

x p

Peso
Estatura
M
M
Ingreso

MUESTRA ALEATORIA
Sobre cada uno de los n individuos que conforman la muestra de estudio, son
observados p caractersticas, dando origen a la matriz de datos X de orden n p
Sujeto

Matriz de datos

x11

x12 L x1 p

x21

x22 L x2 p

xn1

xn 2 L xnp

VECTOR MEDIA MUESTRAL


x = ( x1

x2 L x p ) '

xj =

x
i =1

ij

j = 1, 2, L, p

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

MATRIZ DE COVARIANZAS
Matriz simtrica de orden p p
s11
s
21
S=
M

s p1

s12
s22
M
sp2

s1 p
L s2 p
M

L s p p
L

varianzas
Varianza:

sq q =

1 n
( xi q xq )2
n 1 i =1

Covarianza:

sq h =

1 n
( xi q xq )( xi h xh )
n 1 i =1

MATRIZ DE CORRELACIONES
Matriz simtrica de orden p p
1 r12

R=

Coeficiente de correlacin:

r13 L r1 p
r23 L r2 p
1 L r3 p

O M
1
rq h =

sq h
sq q sh h

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

ALGUNAS TECNICAS DEL ANALISIS MULTIVARIADO


1) Componentes Principales: Transforma la matriz de datos original (variables) en
una matriz de componentes (vector transformado), los cuales son no
correlacionados.
Elimina la multicolinealidad
Reduce la dimensin del vector aleatorio transformado
2) Anlisis Factorial: Identifica las ideas fundamentales, mediante la bsqueda de
asociacin entre variables
3) Anlisis Discriminante: Construye una funcin clasificadora basada en una
muestra de observaciones multivariadas pertenecientes a poblaciones
diferentes. Esta funcin permitir clasificar nuevas observaciones, de origen
desconocido, como pertenecientes a una de las poblaciones en estudio.
4) Anlisis cluster: Agrupa sujetos con caractersticas similares para formar los
llamados cluster. Sujetos de un mismo cluster deben ser muy semejantes.
Sujetos de diferente cluster deben ser muy diferentes.
5) Correlacin Cannica: Busca la mejor combinacin lineal de dos grupos de
variables, tal que la correlacin entre ellos es mxima.
6) MANOVA (Multivariate Analysis Of Variance): Tiene el mismo objetivo que
el anlisis de varianza (ANOVA) pero las observaciones son multivariadas.

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

ANALISIS DE COMPONENTES PRINCIPALES


El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de
sntesis de la informacin, o reduccin de la dimensin (nmero de componentes).
El ACP construye combinaciones lineales de las variables originales, llamadas
componentes principales, las cuales son no correlacionadas tomadas dos a dos.
TEOREMA DE DESCOMPOSICION ESPECTRAL
Toda matriz simtrica A de orden p p puede ser escrita como un producto de
matrices:
A = '

: matriz diagonal p p contiene los autovalores o valores propios de A


: matriz ortogonal p p contiene los autovectores o vectores propios de A

Ejemplo:
Una matriz de datos A de orden 50 4 , donde las variables son:
X1: longitud del spalo
X2: ancho del spalo
X3: longitud del ptalo
X4: ancho del ptalo

La matriz de covarianzas: En la diagonal principal se ubican las varianzas de cada


variable y fuera de ella se ubican las covarianzas de cada par de variables.
Sepal.Length
Sepal.Width
Petal.Length
Petal.Width

Sepal.Length Sepal.Width Petal.Length Petal.Width


0.12424898 0.09921633 0.016355102 0.010330612
0.09921633 0.14368980 0.011697959 0.009297959
0.01635510 0.01169796 0.030159184 0.006069388
0.01033061 0.00929796 0.006069388 0.011106122

El vector de medias: Es el promedio aritmtico de cada variable.


Sepal.Length
5.006

Sepal.Width Petal.Length
3.428
1.462

Petal.Width
0.246

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

Valores y vectores propios de la matriz de covarianzas


$values
[1] 0.23645569 0.03691873 0.02679640 0.00903326
$vectors
[1,]
[2,]
[3,]
[4,]

[,1]
[,2]
[,3]
[,4]
-0.6690784 0.5978840 0.4399628 -0.03607712
-0.7341478 -0.6206734 -0.2746075 -0.01955027
-0.0965439 0.4900556 -0.8324495 -0.23990129
-0.0635636 0.1309379 -0.1950675 0.96992969

La matriz de correlaciones: Los valores fuera de la diagonal principal representan


las correlaciones de cada par de variables.
Sepal.Length
Sepal.Width
Petal.Length
Petal.Width

Sepal.Length Sepal.Width Petal.Length Petal.Width


1.0000000
0.7425467
0.2671758
0.2780984
0.7425467
1.0000000
0.1777000
0.2327520
0.2671758
0.1777000
1.0000000
0.3316300
0.2780984
0.2327520
0.3316300
1.0000000

Valores y vectores propios de la matriz de correlaciones


$values
[1] 2.0585402 1.0221782 0.6678202 0.2514613
$vectors
[1,]
[2,]
[3,]
[4,]

[,1]
[,2]
[,3]
[,4]
0.6044164 0.3349908 -0.0673598261 0.71966982
0.5756194 0.4408461 -0.0007138239 -0.68870645
0.3754348 -0.6269717 -0.6770628102 -0.08683986
0.4029788 -0.5480350 0.7328356536 -0.01475204

La transformacin a Componentes Principales desde los datos originales


Datos originales: X
Matriz de covarianzas: S
Descomposicin espectral: S = '
Matriz de componentes principales: Y = X

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

La transformacin a Componentes Principales desde los datos estandarizados


Datos estandarizados: Z
Matriz de correlaciones: R
Descomposicin espectral: R = '
Matriz de componentes principales: Y = Y
APLICACIN DE ACP
Con el objetivo de conocer la calidad de servicio de las Agencias Hipotecarias
fueron entrevistados 15 clientes que recientemente haban hecho su prstamo
hipotecario, ellos respondieron a las siguientes preguntas:
X1: Las agencias pequeas cobran menos que las grandes
X2: Las agencias pequeas cometen menos errores que las grandes
X3: Los representantes de las agencias pueden ser descorteses
X4: Es importantes ser conocido por la Agencia Hipotecaria
X5: Si soy tratado mal en una Agencia Hipotecaria, debo cambiar a otra
Los entrevistados respondieron siguiendo una escala de 0 a 9, indicando su
acuerdo desacuerdo. Los datos estn en la siguiente tabla:

cliente

X1

X2

X3

X4

X5

10

11

12

13

14

15

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

Vector de medias
X1
X2
X3
X4
X5
4.400000 5.333333 5.133333 3.666667 4.400000

Matriz de covarianzas
X1
X2
X3
X4
X5
X1 8.1142857 5.071429 4.157143 -0.1428571 -0.8857143
X2 5.0714286 8.523810 2.095238 1.5476190 3.0000000
X3 4.1571429 2.095238 9.695238 -7.2380952 -7.7714286
X4 -0.1428571 1.547619 -7.238095 7.8095238 8.3571429
X5 -0.8857143 3.000000 -7.771429 8.3571429 10.4000000

Matriz de correlaciones
X1
X2
X3
X4
X5
X1 1.00000000 0.6098012 0.4686953 -0.01794587 -0.0964166
X2 0.60980123 1.0000000 0.2304821 0.18968584 0.3186308
X3 0.46869526 0.2304821 1.0000000 -0.83182655 -0.7739358
X4 -0.01794587 0.1896858 -0.8318265 1.00000000 0.9273184
X5 -0.09641660 0.3186308 -0.7739358 0.92731841 1.0000000

Valores y vectores de la matriz Correlacin


$values: son las varianzas de los componentes principales
[1] 2.75460213 1.77486895 0.37709134 0.06496408 0.02847350
$vectors
[,1]
[,2]
[,3]
[,4]
[,5]
[1,] -0.17791317 -0.6404237 0.6960478 -0.04249672 0.2681714
[2,] 0.02870415 -0.6904963 -0.6145465 -0.36880496 -0.0933081
[3,] -0.56492098 -0.2082999 -0.1532765 0.69364239 -0.3644749
[4,] 0.57217736 -0.1711274 0.2814909 0.08468054 -0.7462711
[5,] 0.56656890 -0.2009949 -0.1874012 0.61144613 0.4791817

Variabilidad explicada por los Componentes Principales: El 90.59% de la


variabilidad total es explicada por los dos primeros componentes principales
Standard deviation
Variance
Proportion of Variance
Cumulative Proportion

Comp.1
1.6596994
2.7546021
0.5509204
0.5509204

Comp.2
1.3322421
1.7748689
0.3549738
0.9058942

Comp.3
0.61407764
0.37709134
0.07541827
0.98131248

Comp.4
0.25488052
0.06496408
0.01299282
0.99430530

Comp.5
0.1687409
0.0284735
0.0056947
1.0000000

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

Varianzas de las componentes

Componentes Principales: Los datos originales han sido transformados en


componentes no correlacionados
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]

Comp.1
-1.7451683
1.5345436
-1.2771900
2.9486042
-0.9664387
0.6628802
0.0090652
-1.5012813
2.4629200
1.1115146
-1.5014136
-0.4336379
1.9813234
-1.3746993
-1.9110222

Comp.2
-1.19888894
-0.16306128
2.75828241
1.05805038
-1.29060389
-0.48947241
0.05189008
-0.90716768
0.25895024
-0.25898721
1.99354661
-1.34835815
-0.90588053
1.81477069
-1.37307033

Comp.3
0.7649288828
0.0001182997
-0.0596011387
0.6378053465
-0.5077591540
-1.0143542884
-0.2303680312
0.5698042016
0.6629031326
-1.1087505472
-0.2854626853
-0.5747542590
0.3701709395
0.1627728754
0.6125464257

Comp.4
0.202989272
-0.212591223
-0.235695250
0.347104289
-0.134087918
0.157388441
0.524302980
-0.004861891
-0.155280978
-0.020160718
-0.280488605
0.022345037
-0.371617270
0.273588216
-0.112934383

Comp.5
0.04760346
0.07103122
0.09720818
-0.25926552
-0.33210657
0.09589514
0.28731946
0.07051519
-0.01644218
-0.14823807
0.01037708
0.08212391
0.22595484
-0.09903195
-0.13294417

Correlacin de las Componentes principales: la correlacin entre componentes es


cero
[1,]
[2,]
[3,]
[4,]
[5,]

[,1]
[,2]
[,3]
[,4]
[,5]
1.000000e+00 3.405484e-16 7.278479e-16 2.272443e-16 1.979391e-15
3.405484e-16 1.000000e+00 1.209005e-15 -2.801290e-16 8.096328e-16
7.278479e-16 1.209005e-15 1.000000e+00 -3.571375e-16 -1.290301e-15
2.272443e-16 -2.801290e-16 -3.571375e-16 1.000000e+00 -4.663723e-15
1.979391e-15 8.096328e-16 -1.290301e-15 -4.663723e-15 1.000000e+00

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

Correlacin de las variables originales y la dos primeras componentes: La primera


componente principal est asociada a las variables X3, X4 y X5, mientras que la
segunda componente principal se asocia con las variables X1 y X2.
Comp.1
Comp.2
X1 -0.29528239 -0.8531993
X2 0.04764026 -0.9199082
X3 -0.93759902 -0.2775059
X4 0.94964243 -0.2279831
X5 0.94033407 -0.2677739

Representacin grfica de clientes

Interpretacin

La escala de respuestas 0 a 9, indican su acuerdo desacuerdo.


Respuestas bajas indican acuerdo, respuestas altas indican desacuerdo. Algunos
ejemplos de interpretacin del grfico anterior, son:
1) Los clientes 3, 11 y 14, estn fuertemente de acuerdo con X1 y X2. Tambin estn
fuertemente de acuerdo con X4 y X5. Estn medianamente en desacuerdo con X3.

Introduccin al Anlisis Multivariado

Dr. Jos Vega Vilca

2) Los clientes 4 y 9 estn fuertemente en desacuerdo con X4 y X5. Tambin estn


fuertemente de acuerdo con X3. Estn medianamente de acuerdo con X1 y X2
3) Los clientes 5 y 12 estn en desacuerdo con X1 y X2. Estn medianamente de
acuerdo con X4 y X5. Estn en desacuerdo con X3.
4) El cliente 7 est medianamente de acuerdo con X1, X2, X3, X4 y X5.

REFERENCIAS

Richard A. Johnson and Dean W. Wichern (2007). Applied Multivariate


Statistical Analysis. Sixth edition. Pearson, Prentice Hall.

Ezequiel Uriel Jimenez y Joaquin Aldas Manzano (2005). Anlisis Multivariante


Aplicado. Thomsom Paraninfo, S.A.

Mardia, K.V., Kent, J.T. and Bibby, J.M. (2003). Multivariate Analysis
(paperback). London: Academic Press.

Morrison, D.F. (2005). Multivariate Statistical Methods. 4th ed. Belmont, CA:
Brooks/Cole Thomsom Learning.

Srivastava, M.S. (2002). Methods of Multivariate Statistics. New York: John


Wiley.

10

Вам также может понравиться