Вы находитесь на странице: 1из 15

PROFESOR: LUIS E.

NIETO BARAJAS

4. Análisis de componentes principales

Ø El análisis de componentes principales (ACP) trata de explicar la estructura


de varianza-covarianza de un conjunto de variables a través de pocas
combinaciones lineales de estas variables.

Ø El ACP es un procedimiento geométrico que transforma un conjunto de


variables posiblemente correlacionadas en un conjunto (menor) de
variables no correlacionadas llamadas componentes principales.

Ø Sus objetivos generales son dos:


1) Reducción de dimensionalidad: Aunque necesitemos p componentes
principales para reproducir la varianza total, muchas veces k≤p
componentes son suficientes para representar la mayor parte de la
variabilidad, por lo que k componentes pueden reemplazar a las p
variables originales.
2) Interpretación: un ACP usualmente revela relaciones que no se
apreciaban con anterioridad, por lo que permite una mejor
interpretación de las variables y de los individuos.

4.1 Componentes principales poblacionales

Ø Sea X' = (X1 ,K, X p ) un vector aleatorio con matriz de var-cov Σ, con

eigenvalores λ 1 ≥ λ 2 ≥ Lλ p ≥ 0 . Considera las combinaciones lineales:

40
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

Y1 = a 1' X = a 11X1 + a 12 X 2 + L + a 1p X p
Y2 = a '2 X = a 21X1 + a 22 X 2 + L + a 2 p X p
M
Yp = a 'p X = a p1X1 + a p 2 X 2 + L + a ppX p
donde aj’ son vectores de constantes. Entonces,
Var (Yj ) = a j ' Σa j , j=1,...,p

Cov(Yj , Yk ) = a j ' Σa k , j,k=1,…,p

o Los componentes principales son aquellas combinaciones lineales


Y1,Y2,...,Yp no correlacionadas cuyas varianzas son tan grande como sea
posible. Es decir,
⇒ 1a componente principal: Y1 = a 1' X ,

( )
donde a1 maximiza Var a 1' X sujeto a: a 1' a 1 = 1

⇒ 2a componente principal: Y2 = a '2 X ,

( ) (
donde a2 maximiza Var a '2 X sujeto a: a '2 a 2 = 1 y Cov a 1' X , a '2 X = 0 )
⇒ ja componente principal: Yj = a 'j X ,

( )
donde aj maximiza Var a 'j X sujeto a: a 'j a j = 1 y Cov a 'j X, a 'k X = 0 ( )
para k<j

Ø Como veremos, los c.p. dependen únicamente de la matriz de var-cov Σ (o


de la matriz de correlaciones Ρ) de X1,...,Xp , en ningún momento se
requiere del supuesto de normalidad. Por otro lado, los c.p. obtenidos a
partir de poblaciones normales multivariadas, tienen interpretaciones útiles
en términos de las elipsoides de densidad constante (curvas de nivel).

41
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

Además se pueden realizar inferencias sobre los c.p. muestrales cuando la


población es normal multivariada.

Ø Dos formas de ver a los c.p.:


o Algebraicamente: son combinaciones lineales particulares de p v.a.’s
o Geométricamente: son un nuevo sistema de coordenadas obtenido al
rotar el sistema original formado por X1,...,Xp como los ejes. Es decir,

Ø Resultado 4.1. Sea Σ la matriz de var-cov del vector X' = (X1 ,K, X p ). Sean

(λ1 , e1 ),K, (λ p , e p ) los eigenvalores y eigenvectores de Σ, donde

λ 1 ≥ λ 2 ≥ Lλ p ≥ 0 . Entonces, el j-ésimo componente principal está dado

por:
Yj = e 'j X = e j1X1 + e j2 X2 + L + e jp X p , j=1,...,p

con esta elección,


Var (Yj ) = e j ' Σe j = λ j , j=1,...,p

Cov(Yj , Yk ) = e j ' Σe k = 0 , j≠k=1,…,p

Si algunos λj son iguales, la elección de ej no es única ⇒ Yj no es único.

42
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

DEM.

Ø Notemos que:

∑ Var (X j ) = tr (Σ ) = tr(PΛP') = tr (ΛP' P ) = tr (Λ ) = ∑ λ j = ∑ Var(Yj ) ,


p p p

j =1 j=1 j=1

es decir,
p p
∑ σ jj = ∑ λ j .
j =1 j=1

Por lo tanto, el porcentaje de la varianza total explicada por el k-ésimo


componente principal es:
λk
p
, k=1,2,...,p
∑λj
j=1

Ø Si casi toda la varianza total (más del 80%) puede ser explicada por uno,
dos o tres componentes, entonces estos componentes pueden sustituir a las
p variables originales sin mucha pérdida de información (variabilidad).

Ø Interpretación de ejk : Los componentes del vector de coeficientes


e j ' = (e j1 ,K, e jp ) tienen dos connotaciones:

1) La magnitud de ejk mide la importancia de la k-ésima variable en el


componente j (sin importar las demás variables).
λj
2) ejk ∝ Corr(Yj, Xk), es decir, Corr(Yj , X k ) = e jk , j,k=1,...,p.
σ kk
DEM.

43
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

o Ejemplos: Obtenga los c.p. a partir de las siguientes matrices de var-cov:


1 4   1 0.4 
Σ1 =   , Σ 2 =  
 4 100   0 .4 1 

Ø COMPONENTES PRINCIPALES DE VARIABLES NORMALES:


Sea X ∼ Np (µ,Σ), sabemos que la función de densidad es constante en las
elipsoides centradas en µ, i.e.,
(x − µ )' Σ −1 (x − µ ) = c2
la cual tiene ejes ± c λ j e j , j=1,...,p, donde (λ j , e j ) son eigenvalores y

vectores de Σ. Como,
p
Σ = ∑ λ j e j e j ' y tomando µ=0, entonces
j=1

(x'e j ) = c2 .
p
1
x'Σ x = ∑
−1 2

j =1 λ j

Tomando y j = e j ' x tenemos que,


p
1 2
c =∑
2
yj
j=1 λ j

es una elipsoide (ya que todas las λj’s > 0) en un sistema con ejes yj y cada
yj está en la dirección de ej (en un sistema con ejes xj).

44
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

o Caso particular (p=2): Sea X ∼ N2(0,Σ) tal que ρ=0.5, entonces,

Ø COMPONENTES PRINCIPALES OBTENIDOS DE VARIABLES ESTANDARIZADAS:


Sean
Xj −µj
Zj = , j=1,...,p
σ jj

variables estandarizadas. En notación matricial,


Z = V −1/ 2 (X − µ )
⇒ E(Z)=0, y
Var (Z ) = V −1/ 2 ΣV −1/ 2 = Ρ (rho).

q Resultado 4.2. Los componentes principales de las variables estandarizadas


Z' = (Z1 ,K, Z p ) con var-cov Ρ, están dados por

Yj = e 'j Z = e j ' V −1/ 2 (X − µ ) , j=1,...,p.

Más aún,

45
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

∑ Var (Yj ) = ∑ Var (Z j ) = p ,


p p
y
j =1 j=1

Corr(Yj , Z k ) = λ j e jk , j,k=1,...,p

donde (λ j, e j ) son los eigen valores y vectores de Ρ (rho), con

λ 1 ≥ λ 2 ≥ Lλ p ≥ 0 .

q En este caso, el porcentaje de la varianza total explicada por el k-ésimo c.p.


de Z es:
λk
, k=1,...,p
p
donde λk’s son eigenvalores de Ρ (rho).

Ø Nota: Los c.p. obtenidos a partir de X (Σ) no son, en general, los mismos
obtenidos a partir de Z (Ρ).

Ø ¿Qué pasa si Σ = diag (σ11 ,K, σ pp )?

Y1,Y2,...,Yp son iguales a las variables originales X1,X2,..,Xp .


¡Lo mismo ocurre si se utiliza Ρ (rho) en vez de Σ !!.

4.2 Componentes principales muestrales

Ø Sean X1,X2,..,Xn una m.a. de una población p−variada con vector de


medias µ y matriz de var-cov Σ. Con esta muestra se pueden construir
estimadores puntuales X , S y R.

46
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

Ø El objetivo es construir combinaciones lineales no correlacionadas de las


variables medidas que representen la mayor varianza posible de la muestra.

Ø Los n valores de una combinación lineal


a 1 ' X i = a 11 Xi1 + L + a 1p Xip , i=1,...,n

tienen media muestral a 1 ' X y varianza muestral a 1 ' Sa 1 . También, los pares
de valores (a 1 ' Xi , a 2 ' Xi ) para dos combinaciones lineales, tienen
covarianza muestral a 1 ' Sa 2 .

Ø Si S = {S jk } es la matriz de var-cov muestrales de dim. p×p, con pares de

eigen valor-vector (λˆ 1 , ê1 ),K, (λˆ p , ê p ) , entonces el j-ésimo componente

principal muestral está dado por:


Ŷ j = X ê j = ê j1X 1 + ê j 2 X 2 + L + ê jp X p , j=1,...,p (Ŷ j (n×1) )

donde λˆ 1 ≥ λˆ 2 ≥ Lλˆ p ≥ 0 . También,

( )
VarM Ŷj = λˆ j , j=1,...,p

CovM (Ŷ j , Ŷk ) = 0 , j≠k=1,…,p

además,
p p
VarMtotal = ∑ S jj = ∑ λˆ j
j=1 j=1

λˆ j
rŶj, Xk = ê jk , j,k=1,...,p.
S kk

47
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

Ø Se usará la misma notación Ŷ1 ,K, Ŷp para las componentes principales

muestrales sin importar si se obtuvieron de S o de R.

Ø ¿Cuántos c.p. muestrales son suficientes?


El número de c.p. muestrales suficientes para representar la variabilidad de
los datos originales se puede obtener de 3 formas:
1) El porcentaje de varianza muestral explicada.
Si el porcentaje explicado es mayor a 80% (60% en algunas
aplicaciones).
2) El tamaño relativo de los eigenvalores (la varianza muestral de los
componentes muestrales) ⇒ Gráfica de sedimentación.
Si los c.p. se obtienen de R ⇒ nos quedamos con aquellos c.p. tal que
λˆ j > 1 .

3) Las interpretaciones de cada uno de los componentes o de los


individuos en los componentes.

q Gráfica de sedimentación (scree plot): Una herramienta gráfica para


determinar el número de componentes muestrales es un “scree plot”
(gráficas de rocas dispersas al fondo de un acantilado). λ̂ j vs. j

48
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

Ø Interpretación de los c.p. muestrales.


o Ŷij = ê j ' (X i − X ) , i=1,...,n, j=1,...,p son llamados marcadores (scores) y

representan las observaciones multivariadas i=1,...,n en un nuevo


sistema coordenado.

{ }
o Los puntos (X i − X) S−1 (X i − X ) = c 2 , i = 1,K, n definen una elipsoide
'

centrada en X cuyos ejes están dados por los eigenvectores de S-1 o S.

El largo de estos ejes son proporcionales a λ̂ j , j=1,...,p, donde

λˆ 1 ≥ λˆ 2 ≥ Lλˆ p ≥ 0 son los eigenvalores de S.

o En consecuencia, los c.p. muestrales se pueden ver como el resultado de


trasladar el origen del sistema coordenado original a X y
posteriormente una rotación de los ejes hasta que pasen por la
dispersión de los puntos en la dirección de máxima varianza.
o Trabajar con (Xi − X ) no afecta el análisis: la media muestral de los
(Xi − X ) ’s es igual a cero y la varianza muestral de (Xi − X ) ’s es S.
o Cuando las curvas de nivel (elipsoides) de distancia constante son casi
circulares, o equivalentemente, cuando los eigenvalores de S son casi
iguales, la varianza muestral es homogénea en todas las dimensiones.
En este caso no es posible representar los datos en menos de p
dimensiones.
o Ver ejemplo anexo.

Ø ESTANDARIZACIÓN EN C.P. MUESTRALES.

o Si las variables están medidas en distintas escalas, es recomendable


estandarizarlas.

49
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

 1 
 0 L 0 
 Xi1 − X1   S11 
 
 S11   1 
L
= 
0 0 
Z i = D−1 / 2 (Xi − X ) =  M  , con D −1/ 2 S 22 
 Xip − X p 
   M O M 
 S   1 
 pp   0 L 0 
 S pp 

La matriz de observaciones estandarizadas se puede escribir como


Z = (X − 1X')D −1 / 2 , donde 1n×1, es decir,

 X − X1 X1p − X p 
 Z1 '   Z11 Z12 L Z1p   11 
     S11 S pp 
 Z '   Z 21 Z 22 L Z 2 p   
Z =  2  = =
M M O 
     X n1 − X1 X np − X p 
 Z n 2 L Z np  
 Z n '   Z n1 S11 S pp 

o La media muestral es entonces


 n Xi1 − X1 
∑ 
1 1 1  i =1 S11 
Z = (1' Z ) = Z '1 =   = 0 p×1 ,
'
M
n n n  n Xip − X p 
∑ 
 i =1 S 
 pp 
y la varianza muestral es

SZ =
1
(Z − 1Z')' (Z − 1Z') = 1 Z' Z = R
n −1 n −1

o Los c.p. muestrales de las variables estandarizadas se obtienen calculando


los eigenvalores y eigenvectores de R en lugar de S.

50
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

4.3 Gráficas de los componentes principales

Ø Gráficas de los c.p. pueden ayudar en tres cosas:


1) Detectar observaciones sospechosas (extremas).
2) Verificar el supuesto de normalidad (ya que los c.p. son combinaciones
lineales de variables).
3) Apreciar la relación entre individuos y variables (individuos semejantes
estarán cerca).

Ø Sea Ŷij = ê jX i el valor del i-ésimo individuo en la j-ésima componente

principal, entonces
Ŷi ' = (Ŷi1 ,K, Ŷip ) = P̂ ' X i ,

donde P̂ = (ê1 , ê 2 ,K, ê p ) son los eigenvectores de S (ó R)

⇒ X i = P̂Ŷi
p
= ∑ Ŷij ê j = Ŷi1ê1 + Ŷi 2 ê 2 + L + Ŷip ê p
j=1

r p
⇒ X i − ∑ Ŷij ê j = ∑ Ŷijê j
j=1 j= r +1

p
∴ ∑ Ŷijê j es la diferencia entre el valor observado Xi y la aproximación
j= r+1

por los primeros r componentes principales, cuya norma al


cuadrado está dada por
2 '
p  p  p  p

∑ Ŷijê j =  ∑ Ŷij ê j   ∑ Ŷik ê k  =


 ∑ Ŷij2
j= r +1  j=r +1   k=r +1  j= r +1

51
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

q Observaciones sospechosas (extremas) serán aquellas que al menos una


coordenada Ŷij , Ŷi , j+1 ,K, Ŷip (de las últimas componentes) sea grande.

Graficar Q-Q plots de los últimos c.p.

q Para verificar el supuesto de normalidad podemos construir diagramas de


dispersión para pares de c.p. Además, construir gráficas de probabilidad
normal con cada uno de los c.p.

q Para apreciar la relación entre individuos y variables se pueden graficar


simultáneamente en el espacio de las componentes tanto a los individuos
como a las variables (estas últimas mediante sus coeficientes) ⇒ Biplot.

4.4 Inferencias asintóticas para λ j y e j

Ø Hemos visto que el análisis de c.p. se basa principalmente en λ̂ j y ê j que

son los eigen valores-vectores de S ó R.


λ̂ j determina las varianzas de los componentes y

ê j especifica la dirección de máxima variabilidad

Ø Resultado 4.3. Sean X1,X2,..,Xn una m.a. de una población Np (µ,Σ).


Supongamos que los eigenvalores de Σ son distintos entre sí y positivos,
i.e., λ 1 > λ 2 > Lλ p > 0 . Sean λˆ ' = (λˆ 1 ,K, λˆ p ) y ê1 ,K, ê p los eigen valores-

vectores de S. Para n grande,

52
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

a) Sea Λ = diag (λ1 ,K, λ p ) de eigenvalores de Σ, entonces

(
n (λˆ − λ ) ≈ Np 0, 2Λ2 )
p
λk
b) Sea E j = λ j ∑
k ≠ j (λ k − λ j )
2
e k e k ' , entonces

n (ê j − e j ) ≈ N p (0, E j )

c) La distribución de los λ̂ j ’s es independiente de los elementos del

correspondiente ê j .

o La parte (a) del resultado anterior implica que para n grande los λ̂ j ’s son

independientes, más aún


 2 λ2j 
λˆ j ≈ N λ j , .
 n 

o Con esta distribución podemos construir IC asintóticos para λj


( )
P λˆ j − λ j ≤ Z α / 2 λ j 2 n = 1 − α ,

 λˆ j λˆ j 
∴ λ j ∈  ,  con (1−α)100% de confianza.

 1 + Z α/ 2 2 n 1 − Z α/2 2 n 

o IC conjuntos se pueden construir usando la desigualdad de Bonferroni


 m c m 
P I A j = 1 − P U A j  ,
 
 j=1   j=1 
   
donde A cj = IC uniparametral para λj de nivel (1−α j)100%

53
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

 m c
⇒ P I A j ≥ 1 − ∑ P(A j ) = 1 − ∑ α j
m m
 
 j=1 
  j=1 j=1

m
Por lo tanto la confianza conjunta será de al menos 1 − ∑ α j .
j=1

v R: princomp

54
Maestría: Administración de riesgos Análisis multivariado para riesgos

Вам также может понравиться