Notas AMR3

PROFESOR: LUIS E.
NIETO BARAJAS
4. Análisis de componentes principales
Ø El análisis de componentes principales (ACP) trata de explicar la estructura

de varianza-covarianza de un conjunto de variables a través de pocas
combinaciones lineales de estas variables.
Ø El ACP es un procedimiento geométrico que transforma un conjunto de

variables posiblemente correlacionadas en un conjunto (menor) de
variables no correlacionadas llamadas componentes principales.
Ø Sus objetivos generales son dos:

1) Reducción de dimensionalidad: Aunque necesitemos p componentes
principales para reproducir la varianza total, muchas veces k≤p
componentes son suficientes para representar la mayor parte de la
variabilidad, por lo que k componentes pueden reemplazar a las p
variables originales.
2) Interpretación: un ACP usualmente revela relaciones que no se
apreciaban con anterioridad, por lo que permite una mejor
interpretación de las variables y de los individuos.
4.1 Componentes principales poblacionales
Ø Sea X' = (X1 ,K, X p ) un vector aleatorio con matriz de var-cov Σ, con
eigenvalores λ 1 ≥ λ 2 ≥ Lλ p ≥ 0 . Considera las combinaciones lineales:
40
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS
Y1 = a 1' X = a 11X1 + a 12 X 2 + L + a 1p X p
Y2 = a '2 X = a 21X1 + a 22 X 2 + L + a 2 p X p
M
Yp = a 'p X = a p1X1 + a p 2 X 2 + L + a ppX p
donde aj’ son vectores de constantes. Entonces,
Var (Yj ) = a j ' Σa j , j=1,...,p
Cov(Yj , Yk ) = a j ' Σa k , j,k=1,…,p
o Los componentes principales son aquellas combinaciones lineales

Y1,Y2,...,Yp no correlacionadas cuyas varianzas son tan grande como sea
posible. Es decir,
⇒ 1a componente principal: Y1 = a 1' X ,
( )
donde a1 maximiza Var a 1' X sujeto a: a 1' a 1 = 1
⇒ 2a componente principal: Y2 = a '2 X ,
( ) (
donde a2 maximiza Var a '2 X sujeto a: a '2 a 2 = 1 y Cov a 1' X , a '2 X = 0 )
⇒ ja componente principal: Yj = a 'j X ,
( )
donde aj maximiza Var a 'j X sujeto a: a 'j a j = 1 y Cov a 'j X, a 'k X = 0 ( )
para k<j
Ø Como veremos, los c.p. dependen únicamente de la matriz de var-cov Σ (o

de la matriz de correlaciones Ρ) de X1,...,Xp , en ningún momento se
requiere del supuesto de normalidad. Por otro lado, los c.p. obtenidos a
partir de poblaciones normales multivariadas, tienen interpretaciones útiles
en términos de las elipsoides de densidad constante (curvas de nivel).
41
Además se pueden realizar inferencias sobre los c.p. muestrales cuando la

población es normal multivariada.
Ø Dos formas de ver a los c.p.:

o Algebraicamente: son combinaciones lineales particulares de p v.a.’s
o Geométricamente: son un nuevo sistema de coordenadas obtenido al
rotar el sistema original formado por X1,...,Xp como los ejes. Es decir,
Ø Resultado 4.1. Sea Σ la matriz de var-cov del vector X' = (X1 ,K, X p ). Sean
(λ1 , e1 ),K, (λ p , e p ) los eigenvalores y eigenvectores de Σ, donde
λ 1 ≥ λ 2 ≥ Lλ p ≥ 0 . Entonces, el j-ésimo componente principal está dado
por:
Yj = e 'j X = e j1X1 + e j2 X2 + L + e jp X p , j=1,...,p
con esta elección,

Var (Yj ) = e j ' Σe j = λ j , j=1,...,p
Cov(Yj , Yk ) = e j ' Σe k = 0 , j≠k=1,…,p
Si algunos λj son iguales, la elección de ej no es única ⇒ Yj no es único.
42
DEM.
Ø Notemos que:
∑ Var (X j ) = tr (Σ ) = tr(PΛP') = tr (ΛP' P ) = tr (Λ ) = ∑ λ j = ∑ Var(Yj ) ,

p p p
j =1 j=1 j=1
es decir,
p p
∑ σ jj = ∑ λ j .
j =1 j=1
Por lo tanto, el porcentaje de la varianza total explicada por el k-ésimo

componente principal es:
λk
p
, k=1,2,...,p
∑λj
j=1
Ø Si casi toda la varianza total (más del 80%) puede ser explicada por uno,
dos o tres componentes, entonces estos componentes pueden sustituir a las
p variables originales sin mucha pérdida de información (variabilidad).
Ø Interpretación de ejk : Los componentes del vector de coeficientes

e j ' = (e j1 ,K, e jp ) tienen dos connotaciones:
1) La magnitud de ejk mide la importancia de la k-ésima variable en el

componente j (sin importar las demás variables).
λj
2) ejk ∝ Corr(Yj, Xk), es decir, Corr(Yj , X k ) = e jk , j,k=1,...,p.
σ kk
DEM.
43
o Ejemplos: Obtenga los c.p. a partir de las siguientes matrices de var-cov:

1 4   1 0.4 
Σ1 =   , Σ 2 =  
 4 100   0 .4 1 
Ø COMPONENTES PRINCIPALES DE VARIABLES NORMALES:

Sea X ∼ Np (µ,Σ), sabemos que la función de densidad es constante en las
elipsoides centradas en µ, i.e.,
(x − µ )' Σ −1 (x − µ ) = c2
la cual tiene ejes ± c λ j e j , j=1,...,p, donde (λ j , e j ) son eigenvalores y
vectores de Σ. Como,
p
Σ = ∑ λ j e j e j ' y tomando µ=0, entonces
j=1
(x'e j ) = c2 .
p
1
x'Σ x = ∑
−1 2
j =1 λ j
Tomando y j = e j ' x tenemos que,

p
1 2
c =∑
2
yj
j=1 λ j
es una elipsoide (ya que todas las λj’s > 0) en un sistema con ejes yj y cada
yj está en la dirección de ej (en un sistema con ejes xj).
44
o Caso particular (p=2): Sea X ∼ N2(0,Σ) tal que ρ=0.5, entonces,
Ø COMPONENTES PRINCIPALES OBTENIDOS DE VARIABLES ESTANDARIZADAS:

Sean
Xj −µj
Zj = , j=1,...,p
σ jj
variables estandarizadas. En notación matricial,

Z = V −1/ 2 (X − µ )
⇒ E(Z)=0, y
Var (Z ) = V −1/ 2 ΣV −1/ 2 = Ρ (rho).
q Resultado 4.2. Los componentes principales de las variables estandarizadas

Z' = (Z1 ,K, Z p ) con var-cov Ρ, están dados por
Yj = e 'j Z = e j ' V −1/ 2 (X − µ ) , j=1,...,p.
Más aún,
45
∑ Var (Yj ) = ∑ Var (Z j ) = p ,

p p
y
j =1 j=1
Corr(Yj , Z k ) = λ j e jk , j,k=1,...,p
donde (λ j, e j ) son los eigen valores y vectores de Ρ (rho), con
λ 1 ≥ λ 2 ≥ Lλ p ≥ 0 .
q En este caso, el porcentaje de la varianza total explicada por el k-ésimo c.p.

de Z es:
λk
, k=1,...,p
p
donde λk’s son eigenvalores de Ρ (rho).
Ø Nota: Los c.p. obtenidos a partir de X (Σ) no son, en general, los mismos
obtenidos a partir de Z (Ρ).
Ø ¿Qué pasa si Σ = diag (σ11 ,K, σ pp )?
Y1,Y2,...,Yp son iguales a las variables originales X1,X2,..,Xp .

¡Lo mismo ocurre si se utiliza Ρ (rho) en vez de Σ !!.
4.2 Componentes principales muestrales
Ø Sean X1,X2,..,Xn una m.a. de una población p−variada con vector de

medias µ y matriz de var-cov Σ. Con esta muestra se pueden construir
estimadores puntuales X , S y R.
46
Ø El objetivo es construir combinaciones lineales no correlacionadas de las

variables medidas que representen la mayor varianza posible de la muestra.
Ø Los n valores de una combinación lineal

a 1 ' X i = a 11 Xi1 + L + a 1p Xip , i=1,...,n
tienen media muestral a 1 ' X y varianza muestral a 1 ' Sa 1 . También, los pares
de valores (a 1 ' Xi , a 2 ' Xi ) para dos combinaciones lineales, tienen
covarianza muestral a 1 ' Sa 2 .
Ø Si S = {S jk } es la matriz de var-cov muestrales de dim. p×p, con pares de
eigen valor-vector (λˆ 1 , ê1 ),K, (λˆ p , ê p ) , entonces el j-ésimo componente
principal muestral está dado por:

Ŷ j = X ê j = ê j1X 1 + ê j 2 X 2 + L + ê jp X p , j=1,...,p (Ŷ j (n×1) )
donde λˆ 1 ≥ λˆ 2 ≥ Lλˆ p ≥ 0 . También,
( )
VarM Ŷj = λˆ j , j=1,...,p
CovM (Ŷ j , Ŷk ) = 0 , j≠k=1,…,p
además,
p p
VarMtotal = ∑ S jj = ∑ λˆ j
j=1 j=1
λˆ j
rŶj, Xk = ê jk , j,k=1,...,p.
S kk
47
Ø Se usará la misma notación Ŷ1 ,K, Ŷp para las componentes principales
muestrales sin importar si se obtuvieron de S o de R.
Ø ¿Cuántos c.p. muestrales son suficientes?

El número de c.p. muestrales suficientes para representar la variabilidad de
los datos originales se puede obtener de 3 formas:
1) El porcentaje de varianza muestral explicada.
Si el porcentaje explicado es mayor a 80% (60% en algunas
aplicaciones).
2) El tamaño relativo de los eigenvalores (la varianza muestral de los
componentes muestrales) ⇒ Gráfica de sedimentación.
Si los c.p. se obtienen de R ⇒ nos quedamos con aquellos c.p. tal que
λˆ j > 1 .
3) Las interpretaciones de cada uno de los componentes o de los

individuos en los componentes.
q Gráfica de sedimentación (scree plot): Una herramienta gráfica para

determinar el número de componentes muestrales es un “scree plot”
(gráficas de rocas dispersas al fondo de un acantilado). λ̂ j vs. j
48
Ø Interpretación de los c.p. muestrales.

o Ŷij = ê j ' (X i − X ) , i=1,...,n, j=1,...,p son llamados marcadores (scores) y
representan las observaciones multivariadas i=1,...,n en un nuevo

sistema coordenado.
{ }
o Los puntos (X i − X) S−1 (X i − X ) = c 2 , i = 1,K, n definen una elipsoide
'
centrada en X cuyos ejes están dados por los eigenvectores de S-1 o S.
El largo de estos ejes son proporcionales a λ̂ j , j=1,...,p, donde
λˆ 1 ≥ λˆ 2 ≥ Lλˆ p ≥ 0 son los eigenvalores de S.
o En consecuencia, los c.p. muestrales se pueden ver como el resultado de

trasladar el origen del sistema coordenado original a X y
posteriormente una rotación de los ejes hasta que pasen por la
dispersión de los puntos en la dirección de máxima varianza.
o Trabajar con (Xi − X ) no afecta el análisis: la media muestral de los
(Xi − X ) ’s es igual a cero y la varianza muestral de (Xi − X ) ’s es S.
o Cuando las curvas de nivel (elipsoides) de distancia constante son casi
circulares, o equivalentemente, cuando los eigenvalores de S son casi
iguales, la varianza muestral es homogénea en todas las dimensiones.
En este caso no es posible representar los datos en menos de p
dimensiones.
o Ver ejemplo anexo.
Ø ESTANDARIZACIÓN EN C.P. MUESTRALES.
o Si las variables están medidas en distintas escalas, es recomendable

estandarizarlas.
49
 1 
 0 L 0 
 Xi1 − X1   S11 
 
 S11   1 
L
= 
0 0 
Z i = D−1 / 2 (Xi − X ) =  M  , con D −1/ 2 S 22 
 Xip − X p 
   M O M 
 S   1 
 pp   0 L 0 
 S pp 
La matriz de observaciones estandarizadas se puede escribir como

Z = (X − 1X')D −1 / 2 , donde 1n×1, es decir,
 X − X1 X1p − X p 
 Z1 '   Z11 Z12 L Z1p   11 
     S11 S pp 
 Z '   Z 21 Z 22 L Z 2 p   
Z =  2  = =
M M O 
     X n1 − X1 X np − X p 
 Z n 2 L Z np  
 Z n '   Z n1 S11 S pp 

o La media muestral es entonces

 n Xi1 − X1 
∑ 
1 1 1  i =1 S11 
Z = (1' Z ) = Z '1 =   = 0 p×1 ,
'
M
n n n  n Xip − X p 
∑ 
 i =1 S 
 pp 
y la varianza muestral es
SZ =
1
(Z − 1Z')' (Z − 1Z') = 1 Z' Z = R
n −1 n −1
o Los c.p. muestrales de las variables estandarizadas se obtienen calculando

los eigenvalores y eigenvectores de R en lugar de S.
50
4.3 Gráficas de los componentes principales
Ø Gráficas de los c.p. pueden ayudar en tres cosas:

1) Detectar observaciones sospechosas (extremas).
2) Verificar el supuesto de normalidad (ya que los c.p. son combinaciones
lineales de variables).
3) Apreciar la relación entre individuos y variables (individuos semejantes
estarán cerca).
Ø Sea Ŷij = ê jX i el valor del i-ésimo individuo en la j-ésima componente
principal, entonces
Ŷi ' = (Ŷi1 ,K, Ŷip ) = P̂ ' X i ,
donde P̂ = (ê1 , ê 2 ,K, ê p ) son los eigenvectores de S (ó R)
⇒ X i = P̂Ŷi
p
= ∑ Ŷij ê j = Ŷi1ê1 + Ŷi 2 ê 2 + L + Ŷip ê p
j=1
r p
⇒ X i − ∑ Ŷij ê j = ∑ Ŷijê j
j=1 j= r +1
p
∴ ∑ Ŷijê j es la diferencia entre el valor observado Xi y la aproximación
j= r+1
por los primeros r componentes principales, cuya norma al

cuadrado está dada por
2 '
p  p  p  p
∑ Ŷijê j =  ∑ Ŷij ê j   ∑ Ŷik ê k  =

 ∑ Ŷij2
j= r +1  j=r +1   k=r +1  j= r +1
51
q Observaciones sospechosas (extremas) serán aquellas que al menos una

coordenada Ŷij , Ŷi , j+1 ,K, Ŷip (de las últimas componentes) sea grande.
Graficar Q-Q plots de los últimos c.p.
q Para verificar el supuesto de normalidad podemos construir diagramas de

dispersión para pares de c.p. Además, construir gráficas de probabilidad
normal con cada uno de los c.p.
q Para apreciar la relación entre individuos y variables se pueden graficar

simultáneamente en el espacio de las componentes tanto a los individuos
como a las variables (estas últimas mediante sus coeficientes) ⇒ Biplot.
4.4 Inferencias asintóticas para λ j y e j
Ø Hemos visto que el análisis de c.p. se basa principalmente en λ̂ j y ê j que
son los eigen valores-vectores de S ó R.

λ̂ j determina las varianzas de los componentes y
ê j especifica la dirección de máxima variabilidad
Ø Resultado 4.3. Sean X1,X2,..,Xn una m.a. de una población Np (µ,Σ).

Supongamos que los eigenvalores de Σ son distintos entre sí y positivos,
i.e., λ 1 > λ 2 > Lλ p > 0 . Sean λˆ ' = (λˆ 1 ,K, λˆ p ) y ê1 ,K, ê p los eigen valores-
vectores de S. Para n grande,
52
a) Sea Λ = diag (λ1 ,K, λ p ) de eigenvalores de Σ, entonces
(
n (λˆ − λ ) ≈ Np 0, 2Λ2 )
p
λk
b) Sea E j = λ j ∑
k ≠ j (λ k − λ j )
2
e k e k ' , entonces
n (ê j − e j ) ≈ N p (0, E j )
c) La distribución de los λ̂ j ’s es independiente de los elementos del
correspondiente ê j .
o La parte (a) del resultado anterior implica que para n grande los λ̂ j ’s son
independientes, más aún

 2 λ2j 
λˆ j ≈ N λ j , .
 n 

o Con esta distribución podemos construir IC asintóticos para λj

( )
P λˆ j − λ j ≤ Z α / 2 λ j 2 n = 1 − α ,
 λˆ j λˆ j 
∴ λ j ∈  ,  con (1−α)100% de confianza.

 1 + Z α/ 2 2 n 1 − Z α/2 2 n 
o IC conjuntos se pueden construir usando la desigualdad de Bonferroni

 m c m 
P I A j = 1 − P U A j  ,
 
 j=1   j=1 
   
donde A cj = IC uniparametral para λj de nivel (1−α j)100%
53
 m c
⇒ P I A j ≥ 1 − ∑ P(A j ) = 1 − ∑ α j
m m
 
 j=1 
  j=1 j=1
m
Por lo tanto la confianza conjunta será de al menos 1 − ∑ α j .
j=1
v R: princomp
54

Notas AMR3

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Notas AMR3

Загружено:

Авторское право:

Доступные форматы

PROFESOR: LUIS E.

4. Análisis de componentes principales

Ø El análisis de componentes principales (ACP) trata de explicar la estructura

Ø El ACP es un procedimiento geométrico que transforma un conjunto de

Ø Sus objetivos generales son dos:

4.1 Componentes principales poblacionales

eigenvalores λ 1 ≥ λ 2 ≥ Lλ p ≥ 0 . Considera las combinaciones lineales:

Cov(Yj , Yk ) = a j ' Σa k , j,k=1,…,p

o Los componentes principales son aquellas combinaciones lineales

⇒ 2a componente principal: Y2 = a '2 X ,

Ø Como veremos, los c.p. dependen únicamente de la matriz de var-cov Σ (o

Además se pueden realizar inferencias sobre los c.p. muestrales cuando la

Ø Dos formas de ver a los c.p.:

(λ1 , e1 ),K, (λ p , e p ) los eigenvalores y eigenvectores de Σ, donde

λ 1 ≥ λ 2 ≥ Lλ p ≥ 0 . Entonces, el j-ésimo componente principal está dado

con esta elección,

Cov(Yj , Yk ) = e j ' Σe k = 0 , j≠k=1,…,p

Si algunos λj son iguales, la elección de ej no es única ⇒ Yj no es único.

∑ Var (X j ) = tr (Σ ) = tr(PΛP') = tr (ΛP' P ) = tr (Λ ) = ∑ λ j = ∑ Var(Yj ) ,

Por lo tanto, el porcentaje de la varianza total explicada por el k-ésimo

Ø Interpretación de ejk : Los componentes del vector de coeficientes

1) La magnitud de ejk mide la importancia de la k-ésima variable en el

o Ejemplos: Obtenga los c.p. a partir de las siguientes matrices de var-cov:

Ø COMPONENTES PRINCIPALES DE VARIABLES NORMALES:

Tomando y j = e j ' x tenemos que,

o Caso particular (p=2): Sea X ∼ N2(0,Σ) tal que ρ=0.5, entonces,

Ø COMPONENTES PRINCIPALES OBTENIDOS DE VARIABLES ESTANDARIZADAS:

variables estandarizadas. En notación matricial,

q Resultado 4.2. Los componentes principales de las variables estandarizadas

Yj = e 'j Z = e j ' V −1/ 2 (X − µ ) , j=1,...,p.

∑ Var (Yj ) = ∑ Var (Z j ) = p ,

donde (λ j, e j ) son los eigen valores y vectores de Ρ (rho), con

q En este caso, el porcentaje de la varianza total explicada por el k-ésimo c.p.

Ø ¿Qué pasa si Σ = diag (σ11 ,K, σ pp )?

Y1,Y2,...,Yp son iguales a las variables originales X1,X2,..,Xp .

4.2 Componentes principales muestrales

Ø Sean X1,X2,..,Xn una m.a. de una población p−variada con vector de

Ø El objetivo es construir combinaciones lineales no correlacionadas de las

Ø Los n valores de una combinación lineal

Ø Si S = {S jk } es la matriz de var-cov muestrales de dim. p×p, con pares de

eigen valor-vector (λˆ 1 , ê1 ),K, (λˆ p , ê p ) , entonces el j-ésimo componente

principal muestral está dado por:

donde λˆ 1 ≥ λˆ 2 ≥ Lλˆ p ≥ 0 . También,

CovM (Ŷ j , Ŷk ) = 0 , j≠k=1,…,p

muestrales sin importar si se obtuvieron de S o de R.

Ø ¿Cuántos c.p. muestrales son suficientes?

3) Las interpretaciones de cada uno de los componentes o de los

q Gráfica de sedimentación (scree plot): Una herramienta gráfica para

Ø Interpretación de los c.p. muestrales.

representan las observaciones multivariadas i=1,...,n en un nuevo

centrada en X cuyos ejes están dados por los eigenvectores de S-1 o S.

El largo de estos ejes son proporcionales a λ̂ j , j=1,...,p, donde

λˆ 1 ≥ λˆ 2 ≥ Lλˆ p ≥ 0 son los eigenvalores de S.

o En consecuencia, los c.p. muestrales se pueden ver como el resultado de

Ø ESTANDARIZACIÓN EN C.P. MUESTRALES.

o Si las variables están medidas en distintas escalas, es recomendable

La matriz de observaciones estandarizadas se puede escribir como

o La media muestral es entonces

o Los c.p. muestrales de las variables estandarizadas se obtienen calculando

4.3 Gráficas de los componentes principales

Ø Gráficas de los c.p. pueden ayudar en tres cosas:

Ø Sea Ŷij = ê jX i el valor del i-ésimo individuo en la j-ésima componente

donde P̂ = (ê1 , ê 2 ,K, ê p ) son los eigenvectores de S (ó R)