Вы находитесь на странице: 1из 12

Tema 2: Anlisis factorial

El anlisis factorial es un mtodo de anlisis multivariante que intenta explicar, segn un


modelo lineal, un conjunto extenso de variables observables mediante un n reducido de
variables hipotticas llamadas factores.

Caractersticas:

Mtodo descriptivo y de interdependencia

Reducir la dimensionalidad de un fenmeno tratando de perder la menor informacin


posible

Trata toda la informacin posible

Escalas Mtricas: de intervalos y de razn

Ser de inters la representacin grafica que generan para la interpretacin.

Cuando es elevado el n variables empleadas para representar y conocer cierto fenmeno,


aumentar la necesidad de inters por conocer en profundidad la estructura de las mismas y sus
interrelaciones.

Permite identificar las pautas de relaciones: complejas (multidimensionales) y subyacentes


(latentes o no directamente observables) entre las variables observadas.

El anlisis factorial es un conjunto de mtodos estadsticos multivariantes con el propsito de


definir la estructura subyacente en una matriz de datos, identificando factores capaces de
reproducir la estructura de interrelaciones existente entre las variables.

Objetivos Fundamentales Enfoques fundamentales

Identificar la estructura de datos Exploratorio

Reduccin exploratoria de datos Confirmatorio(prueba de hiptesis en


relacin con el n y estructura de los
componentes)
Enfoques fundamentales

Exploratorio Confirmatorio

Identificar la Exploracin de Confirmacin de


estructura de datos estructura de datos estructura de datos
Objetivos
Fundamentales

Reduccin Reduccin
Reduccin
exploratoria de confirmatoria de
exploratoria de datos
datos datos

Aplicacin:

Reducir el n de variables-dimensiones.

Conocer que indicadores-medidas miden un mismo concepto

Validar una escala: validez convergente y discriminante

Seleccin variables indicadores mantengan una mayor correlacin con sus factores

Crear un conjunto de factores incorrelados que permitan evitar problemas de


multicolinealidad

Identificar clusters de casos y outliers

Objetivos (identificar estructura vs reduccin de datos) (seleccin de las variables)

Propsito es generar tcnicas analticas de factores: encontrar la manera de resumir la


informacin contenida en el conjunto de variables originales en una pequea serie de
dimensiones compuestas o valores tericos (FACTORES) nuevos buscando una
mnima perdida de los datos
Realizandose a traves de
objetivos: Intrumentalidad Principal
Reduccion de las dimensiones
del problema a travs de la
identificacion de variables con
mayor capacidad de representar
al resto.

I
dentificar la estructura de
dimensiones subyacentes de un
fenmeno, que sirven de base a la
formacin de las variables
originales, identificando las
relaciones y agrupaciones entre las
variables o casos.

La calidad de los resultados de un anlisis factorial depender directamente del criterio del
investigador-analista a la hora de seleccionar las variables objeto de anlisis.

Ello resulta especialmente importante en el caso de perseguirse un objetivo de identificacin de


la estructura de dimensiones de un fenmeno.

Debemos tener en cuenta:

La seleccin de las variables determina implcitamente que dimensiones potenciales


pueden ser identificadas

La seleccin de las variables debe apoyarse sobre los resultados de investigaciones o


razonamientos tericos previos.

Debe existir cierta homogeneidad entre la naturaleza de las variables.

Diseo (variables vs casos) (tamao de muestra//n variables y propiedades)

El anlisis factorial es abordables a travs de dos enfoques:

A. Factorial R: centrado en el anlisis de las interrelaciones existentes entre las


variables.

A. Factorial Q: centrado en el anlisis de las agrupaciones existentes entre casos-


individuales.
N y Propiedades de las variables:

Como regla general, las variables estn medidas en escalas mtricas

Debe incluirse 5 ms variables por factor (siempre sobre la base de los resultados
previsibles)

El poder del anlisis factorial se basa en su capacidad de encontrar pautas en los grupos
de variables, y resulta de escasa utilidad identificar factores compuestos por una nica
variable.

N de Observaciones:

Al menos 10 veces el nmero de variables(con un mnimo de 100).

Tendremos en cuenta que el n de correlaciones a estimar = p(p-1)/2

Supuestos (Estadsticos) (Conceptuales)

Comprobacin previa de supuestos estadsticos clsicos:

No suele prestarse atencin al cumplimiento de las hiptesis de normalidad


homocedasticidad y linealidad.

Tan slo tiene inters comprobar la normalidad cuando se aplican pruebas estadsticas a
la significacin de los factores.

Ms an, en este caso es deseable (necesario) cierto grado de multicolinealidad ya que


el objetivo del anlisis factorial es identificar pautas de correlacin lineal entre las
variables originales.

El investigador debe asegurare de contar con una cantidad suficiente de correlaciones


entre las variables para justificar la realizacin del anlisis:

Inspeccin visual de matriz de correlaciones: comprobar si existe un nmero


considerable de correlaciones superiores a 0,3 (0.5 para algunos autores).

Test de esferidad de Bartlett y Estadstico KMO.

Bartlett: probabilidad estadstica de que la matriz de correlaciones entre las


variables sea una matriz identidad.

Kaiser Meyer Olkin(KMO): Rij= coeficiente de correlacin simple entre i y j

Aij= coeficiente de correlacin parcial entre i y j

KMO > 0,8 Muy bueno

KMO < 0,5 Inaceptable


Coeficientes de correlacin parcial, matriz anti-imagen, MSA

Coeficientes de correlacion parcial: representa el grado de asociacin


lineal entre dos variables, una vez eliminado de las mismas el efecto
producido por el resto de las variables del anlisis.

Valores bajos indicaran la existencia de factores subyacentes, y


viceversa.

Matriz de Correlaciones Anti-Imagen: Negativo de la correlacin


parcial.

Altos valores negativos (altos valores absolutos) indican la existencia


de factores subyacentes.

Muestra el valor MSA en la diagonal principal.

MSAj > 0,8 muy bueno

MSAj < 0,5 inaceptable (eliminar la variable en cuestin)

Comunalidad

Calculada (estimada a priori) como coeficiente de correlacin mltiple al


cuadrado entre la variable en cuestin y el resto de las variables incluidas en el
anlisis.

Su valor (calculado a posteriori) es igual a la suma de los cuadrados de las


cargas factoriales de los factores comunes respecto a la variable en cuestin.

Representa la proporcin de la varianza de cada variable que es explicada por


los factores comunes.

Es un indicador de la existencia de una estructura de correlacin entre las


variables.

Informa de lo bien (o mal) representada que se encuentra cierta variable por


dicha estructura de correlaciones.

Supuestos conceptuales:

Se supone que existe una estructura subyacente en la serie de variables seleccionadas.

Es una responsabilidad del analista-investigador asegurarse de que las pautas


observadas sean vlidas y conceptualmente apropiadas para utilizar el anlisis factorial.

El anlisis factorial no cuenta con los medios necesarios para determinar la validez
terica de las pautas de relaciones derivadas, al margen de los coeficientes de
correlacin.

El analtica-investigador debe asegurarse tambin de que la muestra es homognea en


relacin con la estructura factorial subyacente.

Cuando se esperan grupos diferentes en la muestra, deben realizarse anlisis por


separado.
Estimacin de factores (anlisis de componentes principales) (anlisis factorial)

ANALISIS DE COMPONENTES PRINCIPALES:

Mtodo geomtrico de carcter descriptivo

Objetivo: se parte de un conjunto de p variables, buscando obtener un nuevo conjunto de p


variables incorreladas, combinacin lineal de las originales, permitiendo resumir el mayor
porcentaje posible de informacin (varianza) en el menor n posible de dimensiones.

Planteamiento matemtico:

Muestra de tamao n

P variables X1, X2, , Xp (correlacionadas y tipificadas)

Buscamos p nuevas variables incorreladas Y1, Y2, , Yp, combinacin lineal de las
anteriores y ordenadas decrecientemente en cuanto a su capacidad explicativa.

Matemticamente, la transformacin podra representarse como:

Debe incluirse que:

Las nuevas variables, Y1, Y2, Yp, son variables aleatorias de varianzas decrecientes:

Las nuevas variables, Y1, Y2, Yp, son ortogonales (incorreladas). Su covarianza es
nula

Los coeficientes o pesos Uhj son tales que,

Partiendo de estas condiciones, se trata de resolver el sistema de ecuaciones:


Donde V = matriz de covarianzas

Resolviendo este sistema se obtiene p races caractersticas o valores propios.

El mayor de los cuales se corresponden con el primer factor (Y1), y nos permite calcular su
vector caracterstico (U1).

Ya que:

Por estar tipificadas las variables originales

ANALISIS FACTORIAL

Mtodo estadstico-matemtico de carcter descriptivo

Objetivo: descomponer la variabilidad original de un conjunto de p variables observadas, de


modo que stas puedan ser expresadas como combinacin lineal de un conjunto de m (mp)
factores comunes y un conjunto de p factores especficos. Esta nueva expresin nos ofrecer una
idea ms clara de las dimensiones fundamentales del fenmeno en estudio.

Planteamiento matemtico:

Muestra de tamao n

P variables X1, X2, , Xp (correlacionadas)

Buscamos m factores comunes incorrelados (Fh) y p factores especficos (Ej)


incorrelados

Matemticamente, la transformacin podra representarse como:


Supuestos:
Los factores comunes estn incorrelados
entre s y su media es 0 y su varianza es 1.

Los factores nicos estn incorrelados entre


s, su media es 0 y su varianza puede ser
diferente.

Los factores comunes estn incorrelados


con los factores nicos.

La matriz de varianzas-covarianzas
coincide con la de correlaciones (por estar las
variables tipificadas).

Descomposicin:

La matriz de correlaciones poblacional


puede descomponerse en dos partes, una
debida a los factores comunes y otra que
coincide con la matriz de varianzas-
covarianzas de los factores nicos.
La varianza de la variable poblacional Xj
puede descomponerse en la suma de su
comunalidad (o parte de la varianza debida a
los factores comunes) y su especificidad(o
parte de la varianza debida a su factor
especfico).

METODOS DE ESTRACCIN DE FACTORES:

Mtodo de Componentes Principales:

Mtodo de extraccin en el que los factores obtenidos son los autovectores de la matriz de
correlaciones re-escalados.

Los m factores se estiman mediante las m primeras componentes tipificadas

La comunalidad de cada variable j se estima por los coeficientes de correlacin al cuadrado


entre la variable observada y cada factor. De modo que para m factores, la comunalidad total de
la variable j sera:

La especificidad se obtiene calculando el complementario a 1 de la comunalidad

Ventaja: siempre proporciona una solucin

Inconveniente: puede llevar a estimadores muy sesgados de la matriz de cargas


factoriales, particularmente si existen variables con comunalidades bajas.
Mtodo de Ejes Principales (Principal Axis Factoring)

Procedimiento similar al de CC.PP., aunque basado en un proceso iterativo.

Se opta por sustituir la diagonal principal de la matriz de correlaciones por estimaciones de la


comunalidad (en lugar de 1) que, inicialmente, vienen dadas por los coeficientes de correlacin
mltiple al cuadrado entre cada variable observada y el resto de las variables observadas.

A continuacin se calculan las cargas factoriales, se retienen m factores y se calcula la


comunalidad (coeficientes de correlacin al cuadrado entre la de cada variable y cada factor):

El proceso se repite hasta que el resultado converge (resultados estables, sin variacin).

Ventaja: suele ofrecer mejores estimaciones que el procedimiento de cc.pp.

Inconveniente: la convergencia del procedimiento iterativo no est garantizada


especialmente cuando se cuenta con muestras pequeas.

Mtodo de Mnimos Cuadrados No Ponderados

Basado en minimizas la suma de las diferencias al cuadrado entre las matrices de correlaciones
observada y reproducida, ignorando los elementos de la diagonal principal

Ventaja. No exige normalidad en las variables observadas

Inconveniente: Requiere establecer a priori el n de factores a extraer.

Mtodo de Mnimos Cuadrados Generalizados (o ponderados)

Procedimiento similar al de Mnimos cuadrados No ponderados, en el que las correlaciones se


ponderan inversamente a la unicidad (especifidad o varianza del factor especfico). Las
variables con menor especifidad tienen un mayor peso en el resultado final.

Ventajas: No exige normalidad en las variables observadas. Ofrece un contraste


Chi-cuadrado de bondad de ajuste (H0: Matriz residual = Matriz nula)

Inconvenientes: No se han encontrado

Mtodo de Mxima Verosimilitud

Procedimiento similar a los de Mnimos cuadrados: proceso iterativo en el que las correlaciones
estn ponderadas inversamente a la especifidad-unicidad.

Asume que las variables observadas siguen una distribucin normal multivariable, implicara
que las estimaciones de los parmetros seran asintticamente insesgados y eficientes.

Ventajas: soluciones asintticamente insesgadas y eficientes, si se cumple con


normalidad multivariable. Las estimaciones obtenidas son independientes de
escala de medida de las variables. Ofrece un contraste de hiptesis que permite
seleccionar el n de factores.

Inconveniente: requiere una distribucin normal multivariable. En caso


contrario, puede haber problemas de convergencia (especialmente en muestras
de n<500).
Metodo Alfa

Procedimiento orientado a maximizar el coeficiente alfa de fiabilidad.

Intenta maximizar la generabilidad de los factores, considerando las variables como una muestra
del universo de potenciales variables, observadas sobre determinada poblacin de sujetos.

Los valores propios no se obtienen como suma de las cargas factoriales al cuadrado.

Los factores especficos seran errores introducidos por el muestreo aleatorio. Las
comunalidades estimadas se consideran fiabilidades en un contexto de medicin.

Otros mtodos: Metodo del centroide(antiguo) o Mtodo de imagen(regresin mltiple


de una variable sobre todas las dems, asumiendo que la comunalidad es igual al
cuadrado de la correlacin mltiple entre una variable y todas las dems).

Comparacin entre los distintos mtodos

Cuando las comunalidades son ALTAS (mayores de 0,6), todos los mtodos tienen a ofrecer
soluciones similares.

Con comunalidades BAJAS para algunas variables, el mtodo de componentes principales


tiende a ofrecer soluciones muy diferentes del resto de mtodos, mostrando generalmente cargas
mayores.

Cuando el n de variables observadas es BAJO, las diferencias entre los resultados ofrecidos
por los distintos mtodos dependern fundamentalmente del tamao de las comunalidades.

El mtodo ms robusto generalmente es el de Ejes Principales.

En caso de no convergencia del mtodo de Ejes Principales, generalmente se usa CC.PP.


SELECCIN DE FACTORES

Fijar a priori un n de factores determinado: cuando se dispone de informacin sobre el


fenmeno objeto de estudio y sobre las dimensiones que lo conforman.

Fijar a priori un porcentaje mnimo de varianza a conservar: forma de garantizar que la solucin
final ser capaz de representar correctamente los datos originales.

Fijar un mnimo de varianza explicada por cada factor igual al porcentaje de varianza promedio
a cada variable.

Grafico de sedimentacin o scree-plot (test del codo o de Cattell): en una versin analtica, se
seleccionarn todos los factores hasta que la diferencia en reduccin del valor propio sea
negativa.

Criterio de Kaiser o del Valor Propio: se seleccionan los factores con valores propios mayores
que 1

Criterio de fiabilidad por mitades: muestra en dos mitades. Se seleccionan factores obtenidos en
ambos casos.

Comunalidad mnima de las variables observadas.

INTERPRETACIN DE FACTORES

Matriz inicial de factores no rotados (cargas factoriales)

Factores ordenados en orden decreciente de su capacidad de representacin de las variables


originales.

El 1er factor es el mejor posible resumen de las relaciones lineales que los datos manifiestan.

El 2do factor es la segunda mejor combinacin lineal de las variables, sujeto a que sea ortogonal
el 1er factor.

El F2 se deriva de la varianza restante tras la extraccin del F1.

Cargas factoriales: son las correlaciones entre cada

Rotacin de los factores (rotacin ortogonal vs. Rotacin oblicua)

Redistribucin de la varianza explicada desde los primeros factores a los ltimos con el objetivo
de obtener soluciones factoriales ms simples y tericamente mas significativas:

Tipos:

Ortogonal: los ejes(factores) mantienen un ngulo de 90 (mantienen


ortogonalidad).

Quartimax: nfasis en simplificar las filas(variables). Cada variable cargar alto


en 1 nico factor

Varimax: nfasis en simplificar las columnas(factores)

Equimax: solucin intermedia, simplificando tanto filas como columnas.

Oblicua: no se establece restriccin alguna en relacin con el ngulo de los ejes


(con correlacin de los factores). Adecuada para objetivo de identificacin de
estructura subyacente. ROTACIN OBLIMIN.
Significacin de las cargas factoriales: criterios de significacin (ajustes basado en el
tamao de la muestra, el n de variables observadas y el n de factores)

Cargas factoriales: mnimo 0,3 // significacin: 0,5

Ajustes: tamao de la muestra: cuanto menor es una carga, mayor deber ser el tamao de la
muestra para que sta pueda ser considerada como significativa.

Nmero de variables: cuanto mayor es el n de variables analizadas, menor a ser la carga para
que sea considerada significativa.

N de factores: cuanto mayor es el n de factores, mayor ha de ser la carga de los ltimos


factores para que sea considerada como significativa.

Interpretacin de la matriz de factores: examen de la matriz de cargas (valoracin de


la comunalidad y etiquetado de factores)

Examen de la matriz de cargas factoriales (inicial y rotada)

Identificacin de la mayor carga para cada variable: agrupacin de variables en torno a factores

Valoracin de la comunalidad: representa la proporcin de la varianza con la que contribuye


cada variable a la solucin final (>0,5 como refer.)

Etiquetado de factores: atribuir un significado al patrn de cargas factoriales. Los signos deben
ser interpretados como los de un coeficiente de correlacin.

VALIDACIN (REPLICACION DE LA MUESTRA) (DIVISION DE LA MUESTRA)

Evaluacin del grado de generalidad de los resultados para la poblacin.

Especialmente importante en los mtodos de interdependencia

Planteamientos alternativos:

Replicacin de la muestra/ uso de muestra adicional

Divisin de la muestra

Dificultades en la comparacin de resultados: A. Factorial Confirmatorio

Deteccin de observaciones influyentes (casos atpicos)

USOS ADICIONALES DEL OUTPUT

Uso de puntuaciones factoriales como variables sustitutas de las variables observadas originales.

Creacion de escalas aditivas: uso de varable con mayor carga factorial como representante de
una dimensin factoria

Вам также может понравиться