Вы находитесь на странице: 1из 29

Anlisis de Componentes Principales

Integrantes:
ROMERO GUTIERREZ, FRANKZ SALINAS LUIS, GIANCARLOS VASQUEZ ROBLES, CRISTIAN VILLANUEVA AMAYA, CARLOS

Antecedentes
El anlisis de componentes principales tiene sus antecedentes en el Siglo XIX, Galton fue el primero en emplear el trmino intercorrelacin. En un intento para identificar criminales a partir de sus caractersticas fsicas se tomaron doce medidas del cuerpo de estos delincuentes. Galton critic este procedimiento sosteniendo que varias de las medidas proporcionaban informacin redundante Estos estudios iniciados por Galton le sirvieron a Karl Pearson, quien en 1901 presenta un trabajo sobre el ajuste de un sistema de puntos en un multiespacio a una lnea o a un plano, llegando as a la primera aproximacin del Anlisis de componentes. Posteriormente fueron estudiadas por Hotelling en los aos 30 (siglo XX), quien desarroll un mtodo de extraccin de factores sobre la tcnica de "componentes principales. Sin embargo, hasta la aparicin de los ordenadores no se empezaron a popularizar.

Introduccin
Un problema central en el anlisis de datos multivariantes es la reduccin de la dimensionalidad: si es posible describir con precisin los valores de p variables por un pequeo subconjunto r < p de ellas, se habr reducido la dimensin del problema a costa de una pequea prdida de informacin. El anlisis de componentes principales tiene este objetivo: dadas n observaciones de p variables, se analiza si es posible representar adecuadamente esta informacin con un nmero menor de variables construidas como combinaciones lineales incorrelacionadas de las originales. Partiendo de unos pocos factores, explicar la mayor parte de la variabilidad total observada en las variables originales.

Componentes Principales
El anlisis de componentes principales es una tcnica estadstica de extraccin de datos ampliamente utilizada en la actualidad. El objetivo principal del ACP es reducir la dimensionalidad (n de variables) de un conjunto de observaciones con una gran cantidad de variables, crear estructuras de interdependencia entre variables cuantitativas para crear unas nuevas variables que son funcin lineal de las originales; ayudndose del estudio de la estructura de varianzas-covarianzas entre las variables que componen los datos de entrada. . A partir de la proyeccin de los datos de entrada sobre las direcciones de mxima varianza se obtendr un nuevo espacio de representacin de los datos en el que se puede eliminar fcilmente aquellas componentes con menor varianza, garantizando la minina perdida de informacin.

El PCA tiene dos propiedades muy importantes que hacen de este mtodo de reduccin de la dimesionalidad tan popular:

Las componentes principales obtienen secuencialmente la mxima variabilidad o varianza de X, por lo que se garantiza la mnima perdida de informacin (en el sentido de error de reconstruccin).

Las componentes principales obtenidas son ortogonales entre s, facilitando su posterior procesado, ya que pueden tratarse independientemente.

Diferencias y Similitudes Son tcnicas para examinar la interdependencia entre las variables.
ANALISIS DE COMPONENTES PRINCIPALES
Tiene como objetivo principal resumir la mayora de la informacin original en una cantidad mnima. Se centra en la varianza total.

ANALISIS FACTORIAL

Se utiliza para identificar los valores subyacentes que reflejen que es lo que las variables comparten en comn. Se distingue entre varianza comn y varianza nica. Pretende hallar un nuevo conjunto de variables, menor en nmero que las variables originales, que exprese lo que es comn a esas variables.

Busca hallar combinaciones lineales de las variables originales que expliquen la mayor parte de la variacin total.

El mtodo de anlisis factorial y componentes principales constituyen tcnicas para analizar las asociaciones lineales entre las variables. Cuando no existe asociacin entre las variables las correlaciones entre ellas son nulas y carece de sentido realizar estos tipos de anlisis. El anlisis de los componentes principales (Hair, 1999) considera la varianza total y estima los factores que contiene proporciones bajas de la varianza nica. Los factores que resultan en el anlisis factorial comn se basan en la varianza comn.
Para seleccionar el modelo adecuado, el investigador debe de plantearse cules son los objetivos que busca en su investigacin, teniendo en cuenta que estos mtodos se basan en las diferencias de varianzas. Es claro que estos mtodos se basan en la varianza entre los factores y/o variables.

"El anlisis de componentes principales es apropiado cuando el inters primordial se centrase en la prediccin o el mismo nmero de factores necesarios para justificar la porcin mxima de la varianza representada en la serie de la variable original.

Por el contrario cuando el objetivo principal es identificar las dimensiones latentes o las construcciones representadas en las variables originales y el investigador quiere eliminar la varianza, lo ms apropiado es utilizar el modelo factorial comn".

ANLISIS MATEMTICO DEL MODELO

En el modelo de C.P. no existe a priori ninguna hiptesis sobre la cualidad de los factores. El valor de una variable en un caso determinado se explica en un 100% por los K factores. El modelo matemtico es:

K: n de variables inicialmente.

Donde:

Valor de la j-sima variable que tiene el i-simo caso Coeficiente factorial de la j- sima variable con el primer factor.

Conceptualmente el modelo nos indica que el 100% de la informacin de la variable se explica por los k factores.

FASES DE UN ANLISIS DE COMPONENTES PRINCIPALES


1 Anlisis de los test estadsticos del modelo El primer paso en el anlisis factorial o de componentes principales es el examen de la matriz de correlaciones, construida a partir de las variables cuantitativas que entran en el anlisis. Un anlisis factorial tiene sentido si existen altas correlaciones entre las variables. La comprobacin del grado de incorrelacin entre las variables puede realizarse por los siguientes mtodos: Prueba de esfericidad de Bartlett El test de Bartlett comprueba que la matriz de correlaciones se ajuste a la matriz identidad ( I ), es decir que exista ausencia de correlacin significativa entre las variables. Esto significa que la nube de puntos se ajusta a una esfera perfecta, expresando la hiptesis nula por: es decir, que el determinante de la matriz de correlaciones es 1 (incorrelacin lineal entre las variables).

Es muy til cuando el tamao de la muestra es pequeo. La prueba de Bartlett slo prueba la presencia de relaciones significativas, pero no indica el nivel de correlacin.
P R U E B A D E H I P T E S I S

Ho: |R| = I H1 : |R| I


Estadstico de prueba:
X 2 = - ( n - 1 - (2p + 5)/6 ) ln |R| X 2(p2 - p)/2

Donde: n :Tamao de la muestra. p : Nmero de variables. |R| : Determinante de la matriz de correlaciones.

Se acepa H0 (p>0.05) significa que las variables no estn intercorrelacionadas y por tanto no tiene mucho sentido llevar a cabo un Anlisis Factorial.

ndice KMO (Kaiser-Meyer-Olkin) Es una prueba ms completa an que la anterior. Se trata de cuantificar, mediante un ndice estadstico, el grado de intercorrelacin entre variables, y la conveniencia del Anlisis de Componentes Principales (ACP). Examina la presencia de correlaciones significativas indicando solamente si existen o no. KMO se calcula como:

donde: rji - coeficiente de correlacin observada entre las variables j y h. aji - coeficiente de correlacin parcial entre las variables j y h.

Si KMO < 0.5 no resultara aceptable para hacer un AF.

Est comnmente aceptado que:

Si 0.5 < KMO < 0.6 grado de correlacin medio, y habra aceptacin media.
Si KMO > 0.7 indica alta correlacin y, por tanto, conveniencia de AF.

Si KMO es mayor que 0,80: Sobresaliente Si KMO est entre 0,70 y 0,80: Regular . Si KMO est entre 0,60 y 0,70: Mediocre Si KMO est entre 0,50 y 0,60: Despreciable Si KMO es menor que 0,50: Inaceptable Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP. Los ndices obtenidos pueden ser:

Correlacin Mltiple
Indica el grado de asociacin entre una variable y todas las otras que intervienen en el anlisis. Si hay muchas variables con un coeficiente de correlacin mltiple alto, ser indicativo de que el anlisis factorial puede emplearse. Las variables con un coeficiente de correlacin mltiple bajo podran eliminarse del anlisis factorial.

2. Seleccin de los componentes


La eleccin de los ejes factoriales se realiza de la siguiente manera: Que el primer factor recoja la mxima proporcin posible de la variabilidad de la nube de puntos (observaciones) original. La variabilidad de la proyeccin de la nube de puntos sobre el eje definido por el factor debe ser lo mxima posible

El segundo factor debe recoger la mxima variabilidad posible no recogida por el primer factor, y as sucesivamente, hasta la seleccin de los K factores. Del total de factores posibles se elegirn aquellos que recojan el porcentaje de informacin (variabilidad) que consideremos suficiente. A los factores elegidos los llamaremos COMPONENTES PRINCIPALES.

3Analisis de la Matriz Factorial


Rotacin de ejes Para que un factor sea fcilmente interpretable debe tener las siguientes caractersticas: 1. Las cargas factoriales deben ser prximas a 1. 2. Una variable debe tener cargas elevadas solo con un factor, intentando que la mayor parte de la informacin (varianza) de una variable sea explicada solo con un factor. 3. No deben existir factores con cargas factoriales similares. Si dos o mas factores tienen tienen cargas factoriales altas o bajas con las mismas variables, en realidad estarn explicando los mismo.

Mtodos de rotacin
Mtodos de rotacin ortogonal: Esta rotacin se puede aplicar a los factores que no estn correlacionados. Rotacin Varimax.- Fue propuesta por Kaiser (1958), Este mtodo esta orientado a minimizar saturaciones altas. Rotacin Quartimax.- El Efecto ms importante de esta estrategia es que reduce el nmero de factores que son necesarios para explicar una variable superficial. Rotacin Equimax.- Es una mezcla de las dos anteriores, por lo tanto minimiza la funcin Varimax y maximiza Q, lo que se traduce en que simplifica la interpretacin debido a que reduce el nmero de factores necesarios para explicar una variable

Mtodo de rotacin oblicua: Son similares a las rotaciones ortogonales, excepto que las rotaciones oblicuas permiten la existencia de factores correlacionadas en lugar de mantener la independencia entre los factores rotados. Este mtodo se caracteriza por que las correlaciones son nulas

De entre las rotaciones ortogonales la ms utilizada es la varimax mientras en que las oblicuas es la oblimin 4Clculo de las puntuaciones factoriales
Son los puntuaciones que tienen los componentes principales para cada caso, lo cual permitir entre otras cosas representar los casos en el espacio de los Componentes principales. Las puntuaciones factoriales para cada uno de los casos de la muestra pueden calcularse por la siguiente expresin:

= + + + =
=

Los a son los coeficientes, y Z son los valores estandarizados que tienen las variables en cada uno de los sujetos de la muestra.

Clculo de los Componentes Principales


Se considera una serie de variables , , , sobre un objetos o individuos y se trata de calcular, a partir de ellas, conjunto de variables , ,, , incorreladas entre s, cuyas vayan decreciendo progresivamente. Cada (donde j = 1, , combinacin lineal de las , , , originales, es decir grupo de un nuevo varianzas p) es una

= + + + =
Siendo = , , , un vector de constantes, y, =

Obviamente, si lo que queremos es maximizar la varianza, como veremos luego, una forma simple podra ser aumentar los coeficientes . Por ello, para mantener la ortogonalidad de la transformacin se impone que el mdulo del vector = , , , sea

Es decir,
=

=
=

El primer componente se calcula eligiendo de modo que tenga la mayor varianza posible, sujeta a la restriccin de que = . El segundo componente principal se calcula obteniendo de modo que la variable obtenida, est incorrelada con .

Del mismo modo se eligen , , , , incorrelados entre s, de manera que las variables aleatorias obtenidas vayan teniendo cada vez menor varianza.

PROCESO DE EXTRACCIN DE FACTORES


Queremos elegir de modo que se maximice la varianza de sujeta a la restriccin de que =
= =

El problema consiste en maximizar la funcin sujeta a la restriccin = . Se puede observar que la incgnita es precisamente (el vector desconocido que nos da la combinacin lineal ptima). As, construyo la funcin L:

y busco el mximo, derivando e igualando a 0:


= = =

Esto es, en realidad, un sistema lineal de ecuaciones. Por el teorema de Roch Frobenius, para que el sistema tenga una solucin distinta de 0 la matriz ( I) tiene que ser singular. Esto implica que el determinante debe ser igual a cero:

| I| = 0
y de este modo, es un autovalor de . La matriz de covarianzas es de orden p y si adems es definida positiva, tendr p autovalores distintos, 1, 2, . . . , p tales que, por ejemplo, > > > .

Se tiene que, desarrollando la expresin anterior, = = =


Entonces,
= = = = = = . = .

Luego, para maximizar la varianza de se tiene que tomar el mayor autovalor, digamos , y el correspondiente autovector .

En realidad, es un vector que nos da la combinacin de las variables originales que tiene mayor varianza, esto es, si = , , , entonces = = + + +

El segundo componente principal, digamos = , se obtiene mediante un argumento parecido. Adems, se quiere que est incorrelado con el anterior componente , es decir, , = . Por lo tanto:
, = , = = = = ,

Es decir, se requiere que = . Como de tenia que = , lo anterior es equivalente a


= = = ,

Esto equivale a que = , es decir, que los vectores sean ortogonales. De este modo, tendremos que maximizar la varianza de , es decir, , sujeta a las siguientes restricciones:

= , = .

Se toma la funcin: = Y se deriva: = = Porque: = = = .

Si se multiplica por , entonces =

Luego: = = = , Ya que: , = .

De este modo,

queda finalmente como:

= = = =

Usando los mismos razonamientos que antes, elegimos como el segundo mayor autovalor de la matriz con su autovector asociado . Los razonamientos anteriores se pueden extender, de modo que al j-simo componente le correspondera el j-simo autovalor.

Entonces todos los componentes Y (en total p) se pueden expresar como el producto de una matriz formada por los autovectores, multiplica por el vector X que contiene las variables originales , ,

=
Donde: = = =

Como

= = =

La matriz de covarianzas de Y ser :


Porque , , se han construido como variables incorreladas. Se tiene que = = =

o bien

Ya que A es una matriz ortogonal (porque = para todas sus columnas) por lo que = .

Вам также может понравиться