Вы находитесь на странице: 1из 45

Ing.

Virgilio Fredy Tito Chura


ESCUELA PROFESIONAL DE
INGENIERIA DE SISTEMAS


SESION 04
PRE PROCESAMIENTO DE DATOS.


Anlisis de componentes principales PCA
ICA.
Correlacin
Examina el grado en que 2 variables varan a la
par.
Por ejemplo, existe una variacin a la par
entre el largo de la nariz (x) y el largo de la
oreja izquierda (y)?
La hiptesis nula sera:
H
0
: x no se correlaciona con y

Correlacin
Correlacin
r = coeficiente de correlacin; provee una
medida de la dispersin de los valores desde
la lnea de mejor correlacin
y = a + bx; define la lnea de mejor correlacin
a = intercepto en y
b = pendiente de la lnea de correlacin
Anlisis de componentes
principales
Reduccin de 3 dimensiones a slo 2 dimensiones
Tamao
largo
ancho
Primer componente resume ambas variables:

Tamao = largo + ancho

centroide
Otro ejemplo con 3 variables en 28
muestras
X1, X2, X3
a - z
Reduccin de datos
Resumen de los datos con muchos (p) variables de un conjunto
ms pequeo de (k)derivados (compuesto sinttico) variables.
n
p
A n
k
X
Anlisis de Componentes Principales
PCA
Tiene una matriz de datos de n objetos de p variables, que
pueden ser correlacionadas, y resume por ejes correlacionados
(componentes principales o ejes principales) que son
combinaciones lineales de las variables p original
los componentes k primera muestra tanto como sea posible de
la variacin entre los objetos.
Justificacin geomtrica de la ACP
Los objetos se representan como una nube de n puntos en
un espacio multidimensional con un eje para cada una
de las variables p
El centroide de los puntos se define por la media de cada variable
La varianza de cada variable es la desviacin media al cuadrado de
los valores de n alrededor de la media de esa variable.
( )

=
n
m
i im i
X X
n
V
1
2
1
1
El grado en que las variables son correlacionadas
linealmente est representado por sus covarianza
( )( )

=
n
m
j jm i im ij
X X X X
n
C
1
1
1
Sum over all
n objects
Value of
variable j
in object m
Mean of
variable j
Value of
variable i
in object m
Mean of
variable i
Covariance of
variables i and j
Justificacin geomtrica de la ACP
El objetivo del PCA es rotar rgidamente los ejes de
este espacio p-dimensional a nuevas posiciones (ejes
principales) que tienen las siguientes propiedades:
ordenados de tal manera que un eje principal tiene
la mayor varianza, el eje 2 tiene la variacin ms
alta siguiente, .... , y el eje p tiene la menor varianza
covarianza entre cada par de los ejes principales es cero (los
ejes principales no estn correlacionados).
Justificacin geomtrica de la ACP
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14 16 18 20
Variable X
1
V
a
r
i
a
b
l
e

X
2
+
Ejemplo 2D de PCA
Las variables X1 y X2 tienen covarianza positiva y cada
uno tiene una variacin similar.
67 . 6
1
= V 24 . 6
2
= V 42 . 3
2 , 1
= C
35 . 8
1
= X
91 . 4
2
= X
-6
-4
-2
0
2
4
6
8
-8 -6 -4 -2 0 2 4 6 8 10 12
Variable X
1
V
a
r
i
a
b
l
e

X
2
La configuracin es Centrado
cada variable se ajusta a una
media de cero (restando la media de cada valor).
X
1
=Presin arterial media (mmHg)
X
2
=Edad (aos)
X
3
=Peso (kg.)
X
4
=Superficie corporal (m
2
)
X
5
=Duracin de la hipertensin (aos)
X
6
=Pulso (pulsaciones/minuto)
X
7
=Medida del estress (0-100)
9
Ejemplo inicial: Riesgo Coronario
n=20 pacientes
p=7 variables


X
1
X
2
X
3
X
4
X
5
X
6
X
7

1 105 47 85,4 1,75 5,1 63 33
2 115 49 94,2 2,10 3,8 70 14
3 116 49 95,3 1,98 8,2 72 10
4 117 50 94,7 2,01 5,8 73 99
5 112 51 89,4 1,89 7,0 72 95
6 121 48 99,5 2,25 9,3 71 10
7 121 49 99,8 2,25 2,5 69 42
8 110 47 90,9 1,90 6,2 66 8
9 110 49 89,2 1,83 7,1 69 62
10 114 48 92,7 2,07 5,6 64 35
11 114 47 94,4 2,07 5,3 74 90
12 115 49 94,1 1,98 5,6 71 21
13 114 50 91,6 2,05 10,2 68 47
14 106 45 87,1 1,92 5,6 67 80
15 125 52 101,3 2,19 10,0 76 98
16 114 46 94,5 1,98 7,4 69 95
17 106 46 87,0 1,87 3,6 62 18
18 113 46 94,5 1,90 4,3 70 12
19 110 48 90,5 1,88 9,0 71 99
20 122 56 95,7 2,09 7,0 75 99

Ser posible describir el conjunto de datos utilizando un nmero
menor de dimensiones, aprovechando las interrelaciones entre las variables?
ACP
Es posible definir un ndice general, combinando todas las variables,
que cuantifique la situacin de riesgo? AF

X
1
X
2

1 105 47
2 115 49
3 116 49
4 117 50
5 112 51
6 121 48
7 121 49
8 110 47
9 110 49
10 114 48
11 114 47
12 115 49
13 114 50
14 106 45
15 125 52
16 114 46
17 106 46
18 113 46
19 110 48
20 122 56

Ejemplo inicial: 2 variables
100
105
110
115
120
125
130
p
r
e
s
i
o
n
1
2
3
4
5
6 7
8 9
10 11
12
13
14
15
16
17
18
19
20
42,5 45 47,5 50 52,5 55 57,5
edad
edad
presion
Variable
48,6
114
Mean
2,500526
5,428967
Std Dev
0,659093
Correlation
0,0016
Signif. Prob
20
Number
Correlation
Los individuos 6 y 7 son similares
ya que tienen prcticamente los
mismos valores de edad y presin
(Distancia se interpreta en trminos
de similitud)
8
Datos
Disponemos de una matriz X
nxp
que contiene las medidas de p
variables cuantitativas tomadas sobre n individuos. Para
simplificar el resto de la exposicin supondremos, sin prdida de
generalidad, que las columnas de X tienen media cero, es decir
que se le ha restado la media de cada columna de forma que el
origen se sita en el centro de gravedad de la nube de puntos.
Todas las variables tienen el mismo papel, es decir, el conjunto
no se divide en variables dependientes e independientes.
X = (x
ij
) =
x
11
K x
1 j
K x
1p
M O M O M
x
i1
K x
ij
K x
ip
M O M O M
x
n1
K x
nj
K x
np
|
\

|
.
|
|
|
|
|
|
- Las nuevas variables (componentes principales) son incorreladas, y
se obtienen en orden decreciente de importancia.
7
- El Anlisis de Componentes Principales es una tcnica de reduccin
de la dimensin que describe la informacin de un conjunto de
variables observadas mediante un conjunto de variables ms pequeo
(las componentes principales).
- Esperamos que slo unas pocas recojan la mayor
parte de la informacin de los datos.
Definicin
- La transformacin es, en realidad, una rotacin ortogonal en el
espacio p-dimensional.
- El espacio generado por las primeras q componentes es un
subespacio vectorial del espacio p-dimensional original.
- El ACP puede entenderse, entonces, como la bsqueda del subespacio
de mejor ajuste a los datos.
10


Mtodos de obtencin
1.- Buscando aquella combinacin lineal de las variables que
maximiza la variabilidad. (Hottelling).

2.- Buscando el subespacio de mejor ajuste por el mtodo de los
mnimos cuadrados. (Minimizando la suma de cuadrados de las
distancias de cada punto al subespacio). (Pearson).

3.- Minimizando la discrepancia entre las distancias eucldeas entre
los puntos calculadas en el espacio original y en el subespacio de
baja dimensin. (Coordenadas principales, Gower).

4.- Regresiones alternadas (Mtodos Biplot).
ACP Bidimensional (Fig)
X
1
X
2
( x
i1
, x
i2
)
X
1
X
2
CP
1
CP
2
( x
i1
, x
i2
)
Direccin de
mxima
variabilidad
Direccin, perpendicular
a la primera, que recoge
el resto de la
variabilidad
Rotacin a las componentes
X
1
X
2
CP
1
CP
2
CP
1
CP
2
Y
1
Y
2
( y
i1
, y
i2
)
y
i1
= x
i1
v
11
+ x
i 2
v
21
y
i 2
= x
i1
v
12
+ x
i 2
v
22
11
X
1
X
2
Y
1
Y
2
X
1
X
2
Y
1
Y
2
v
1
=
v
11
v
21
|
\

|
.
|
v
2
=
v
12
v
22
|
\

|
.
|
Y
j
= v
1j
X
1
+ v
2 j
X
2
+K + v
pj
X
p
y
i1
= x
i1
v
11
+ x
i 2
v
21
y
i 2
= x
i1
v
12
+ x
i 2
v
22
y
ij
= x
i1
v
1j
+ x
i 2
v
2 j
+K + x
ip
v
pj
y
1 j
M
y
nj
|
\

|
.
|
|
|
=
x
11
L x
1p
M O M
x
n1
K x
np
|
\

|
.
|
|
|
v
1 j
M
v
pj
|
\

|
.
|
|
|
y
j
= Xv
j
En general
La coordenada del individuo i en la
componente j es
Para todos los individuos
En notacin matricial
Mxima Varianza (1)
y
11
L y
1p
M O M
y
n1
K y
np
|
\

|
.
|
|
|
=
x
11
L x
1p
M O M
x
n1
K x
np
|
\

|
.
|
|
|
v
11
L v
1p
M O M
v
p1
K v
pp
|
\

|
.
|
|
|
y
j
= Xv
j
Donde Y contiene las puntuaciones de cada individuo sobre
cada componente, y V contiene los coeficientes (pesos) de las
combinaciones lineales en columnas.
Y= XV
Para todo el conjunto de datos
En notacin matricial
Mxima Varianza (2)
Buscamos una primera componente principal Y
1
que tenga varianza
mxima. Como las variables originales tienen media 0, tambin Y
1
tendr
media nula. La varianza de Y
1
se calcula como
Podemos maximizar la varianza sin lmite, aumentando el mdulo del
vector v
1
. Es decir, en las ecuaciones de las componentes existe un
factor de escala arbitraria (existen infinitas soluciones en las mismas
direcciones del espacio). Conviene que los vectores directores tengan
mdulo 1. Para que la maximizacin de la varianza de Y
1
tenga solucin
debemos imponer una restriccin:
12
' v
1
v
1
=1 ' VV= I
Es decir, tomamos un vector unitario en la direccin de la primera
componente principal.
Mxima Varianza (3)
Var(Y
1
) =
1
n
' y
1
y
1
=
1
n
' v
1
' X Xv
1
= ' v
1
Sv
1
L(v
1
) = ' v
1
Sv
1
Se trata de buscar el mximo de
Sujeto a la restriccin
' v
1
v
1
=1
Introduciendo el multiplicador de Lagrange l, se trata de buscar el
mximo de
L(v
1
) = ' v
1
Sv
1
( ' v
1
v
1
1)
L(v
1
)
cv
1
= 2Sv
1
2v
1
= 0
Derivando e igualando a cero
Se tiene
Sv
1
= v
1
Mxima Varianza (4)
Sv
1
= v
1
Esto quiere decir que v
1
debe ser un vector propio de la matriz de covarianzas S
con valor propio asociado .
Esto quiere decir que v
1
debe ser un vector propio de la matriz de covarianzas S
con valor propio asociado .
pero S tiene p valores propios
1
,
p
que supondremos distintos y
ordenados en orden decreciente
1

p
0.

Teniendo en cuenta que
debe ser
1
el valor propio ms grande y v
1
el vector propio asociado,
por lo que el primer valor propio se puede interpretar como la varianza muestral
de la primera componente principal.
Var(Xv
1
) = ' v
1
Sv
1
= ' v
1
v
1
=
Mxima Varianza (5)
La segunda componente principal Y
2
=Xv
2
, se obtiene de forma similar,
pero aadiendo la restriccin adicional de que Y
1
e Y
2
sean incorreladas,
como habamos establecido en la definicin de las componentes:
15
cov(Y
1
,Y
2
) =
1
n
' y
2
y
1
=
1
n
' v
2
' X Xv
1
= ' v
2
Sv
1
= ' v
2

1
v
1
= 0
' v
2
v
1
= 0
L(v
2
) = ' v
2
Sv
2
( ' v
2
v
2
1) o ' v
2
v
1
Utilizando multiplicadores para ambas restricciones, se trata de buscar
el mximo de
L(v
2
)
cv
2
= 2Sv
2
2v
2
ov
1
= 0
Derivando e igualando a cero
premultiplicando por v
1
,
Mxima Varianza (6)
2 ' v
1
Sv
2
2 ' v
1
v
2
o ' v
1
v
1
= 0
2 ' v
1
Sv
2
o = 0
como ,
entonces o = 0 en el punto estacionario, de forma que ,
' v
1
Sv
2
= 0
Sv
2
= v
2
con lo que es el segundo valor propio
2
y v
2
es el segundo vector
propio.
Siguiendo con el mismo argumento, podemos obtener las sucesivas
componentes principales a partir de los correspondientes valores y
vectores propios.
Mxima Varianza (7)
Seleccionando q componentes, las puntuaciones de los individuos en
las componentes estn dadas por
17
S = ' V AV
A = diag(
1
,K ,
p
)
' V V = I

En definitiva, las componentes principales se obtienen de la descomposicin en


valores propios (autovalores) y vectores propios (autovectores) de la matriz de
covarianzas
Y
q
= XV
q
donde V
q
est formada por las q primeras columnas de V, y
suponiendo X centrada.
Mxima Varianza (8)
Diferencia con regresin
100
105
110
115
120
125
130
p
r
e
s
i
o
n
1
2
3
4
5
6 7
8 9
10 11
12
13
14
15
16
17
18
19
20
42,5 45 47,5 50 52,5 55 57,5
edad
Recta de regresin Componentes principales
BONDAD DEL AJUSTE
(q COMPONENTES)
PROP. DE VARIANZA ABSORBIDA
POR CADA COMPONENTE
18
Bondad del ajuste
Var(Y
j
)
j =1
p

=
j
= traza(A)
j =1
p

traza(A) = traza( ' V SV) = traza(S ' V V) =


traza(S) = Var(X
j
)
j =1
p

i
i=1
p

j
j =1
q

i
i=1
p

Escalas de medida


Si las escalas de medida de las variables son muy diferentes,
la variabilidad estara dominada por las variables con
magnitudes mayores de forma que las primeras componentes
pueden mostrar simplemente las diferencias en la escala. En
este caso conviene tomar la matriz X estandarizada por
columnas y centrando y dividiendo por la desviacin tpica. En
este caso las componentes estaran colocadas sobre la matriz
de correlaciones.

Interpretacin de resultados

Diagramas de dispersin que representan los valores de los
individuos en las primeras componentes principales.

Interpretacin de distancias en trminos de similitud.

Bsqueda de clusters (grupos) y patrones.

Interpretacin de las componentes utilizando las correlaciones
con las variables originales. Las posiciones de los individuos se
interpretan despus en relacin a la interpretacin dada a las
componentes.

Correlaciones con las componentes
A los vectores escalados de la forma:



se les denomina factores de carga (C)

Cuando las componentes principales se calculan usando la matriz
de correlaciones, la matriz C contiene las correlaciones entre las
variables originales y las componentes.
A las correlaciones al cuadrado se las denomina contribuciones relativas
del factor al elemento y miden la proporcin de la variabilidad de las
variables explicadas por cada componente.

v
j
*
=
j
1/2
v
j
C= VA
1/2
Seleccin de componentes
-Prueba de Anderson: Si los datos son normales, es posible realizar
un test para contrastar si las ltimas (p-q) races son iguales a cero.





sigue una ji-cuadrado con (1/2) (p-q) (p-q+1) - 1 grados de libertad.

-Scree Plot: Grfico de los valores propios. Se seleccionan ejes hasta
que se vea un decrecimiento brusco en la magnitud de los valores
propios.

-Seleccionar las componentes necesarias para explicar un
determinado porcentaje de la varianza.

-Nmero elegido a priori por el usuario
_
2
= (n 1) ln(
i
)
I =q+1
p

+ (n 1)( p q)ln
i
I =q+1
p

p q
|
\

|
.
|

Вам также может понравиться