Академический Документы
Профессиональный Документы
Культура Документы
N 001
Anlisis Multivariado de
datos con Xlstat de AdiSoft
CUADENILLO DE
ESTUDIO N 001
TCNICAS
MULTIVARIADAS
con Xlsat
1
http://www.xlstat.com/es/
Csari 2014 Pgina 1 de 38
CUADENILLO DE
ESTUDIO N 001
TCNICAS
MULTIVARIADAS
con Xlsat
Una vez que XLSTAT-Pro ste activado, haga clic en el men XLSTAT/Anlisis de datos/
Anlisis de Componentes Principales, o haga clic en el botn correspondiente de la
barra "Anlisis de datos" (ver a continuacin).
TCNICAS
MULTIVARIADAS
con Xlsat
o
Seleccionamos las etiquetas para identificar las ciudades a la derecha del cuadro de dilogo,
luego de tildar a opcin Etiquetas de las Observaciones.
Por defecto el tipo de ACP es Pearson (n), que es el algoritmo que hemos visto en la teora y
los resultados se visualizar en una nueva hoja que se crea a la derecha de la hoja con los
datos.
En la pestaa Opciones podemos especificar algunas opciones de anlisis. Podramos
realizar un anlisis normalizado o no normalizado para que el espacio factorial sea
ortonormal o bien ortogonal, respectivamente. En la mayora de casos se utiliza la
primera opcin para igualar las escalas en que estn medidas las variables.
Tambin podemos indicar cuantos ejes factoriales se desean conservar (como mximo
tantos como variables continuas activas), y cuantos queremos editar en los resultados
de salida. Las opciones por defecto son en la mayora de casos suficientes
TCNICAS
MULTIVARIADAS
con Xlsat
La pestaa Resultados nos permite elegir los resultados que deseamos que genere y el
nivel de significacin para las pruebas de esfericidad del ACP.
Los cosenos cuadrados permitirn asignar el tamao a los puntos para representar el nivel
de significacin en la representacin en el plano. Las coordenadas permitirn rehacer los
planos a travs de las funciones de visualizacin scatterplot, sin tener que volver a aplicar
el algoritmo.
TCNICAS
MULTIVARIADAS
con Xlsat
Presionamos Terminar una vez seleccionado el plano conformado por los dos primeros
factores.
Podemos ver todos los resultados en la hoja etiquetada ACP.
El valor del coeficiente de correlacin vara entre -1.00 y +1.00. Ambos extremos
representan relaciones perfectas y 0.00 representa la ausencia de asociacin.
Csari 2014 Pgina 5 de 38
CUADENILLO DE
ESTUDIO N 001
TCNICAS
MULTIVARIADAS
con Xlsat
En nuestro caso, observamos que el primer valor propio vale 2,70 representa 45% de la
variabilidad. Eso significa que si representamos los datos en un slo eje, tendremos
entonces siempre 45% de la variabilidad total que ser preservada.
A cada valor propio corresponde un factor. Cada factor es en realidad una combinacin
lineal de las variables de inicio. Los factores tienen la particularidad de no ser
correlacionados entre ellos. Los valores propios y los factores son ordenados en orden
descendente de variabilidad representada
Idealmente, los dos primeros valores propios corresponden a un % elevado de la
variabilidad, de manera que la representacin sobre los dos primeros ejes factoriales es de
buena calidad. En nuestro ejemplo, tenemos el 70,7% de informacin en el plano formado
por los dos primeros factores.
Csari 2014 Pgina 6 de 38
CUADENILLO DE
ESTUDIO N 001
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
El crculo de las correlaciones es tambin til para interpretar la significacin de los ejes.
En nuestro caso, el eje F1 es claramente vinculado al Cine, el eje F2 es esencialmente
vinculado a los Diarios. Para confirmar el hecho que una variable es fuertemente vinculada
a un factor, debe consultar la tabla de los cosenos: mientras ms elevado es el coseno (en
valor absoluto), ms vinculada est la variable al factor. Mientras ms cerca est el coseno
de cero, menos vinculada est la variable al eje. En nuestro caso, vemos que en lo que se
refiere a la Radio, ser mejor interpretada en los ejes F1/F3.
Podemos observar qu pases estn bien representados en los ejes, a partir de las
contribuciones y los cosenos cuadrados.
El grfico a continuacin corresponde a Bilplot de distancias (PLANO escalarde las
OBSERVACIONES). Permite representar los individuos en un plano de dos dimensiones, e
identificar tendencias.
Los pases cercanos son pases que presentan distribuciones parecidas en el reparto
de los gastos publicitarios. Observamos que podes pueden diferenciar claramente los
pases latinos de los pases anglosajones.
Estas tcnicas biplot permiten la representacin de los casos y las variables, de forma
conjunta, en el subespacio factorial de dimensin reducida.
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas
para algunos puntos pero tambin pueden ser de mala calidad para otros puntos. Se
requiere entonces de un ndice que ponga en evidencia este hecho, que se denomina
coseno cuadrado o contribucin relativa.
Por lo tanto puede resultar interesante ponderar los puntos a partir de la
contribucin de cada pas en el espacio factorial creado. Para ello debemos ejecutar las
opciones de Visualizacin que nos permite realizar esta opcin y muchas otras, como
zoon del grfico, tamao de smbolos,...
Para cambiar las escalas recortando los mnimos y mximos podemos hacer un zoon y
visualizar mejor la nube de individuos. Seleccionamos el grafico e ingresamos en
Visualizacin/AxesZoomer.
Aparece un cuadro de dilogo donde podemos probar la escalas, cuando est conforme
precione Terminar.
TCNICAS
MULTIVARIADAS
con Xlsat
2
Primero seleccionar una variable y utilizar la tecla de fecha hacia abajo para encontrar la serie de las variables en los extremos
de los vectores.
Csari 2014 Pgina 11 de 38
CUADENILLO DE
ESTUDIO N 001
TCNICAS
MULTIVARIADAS
con Xlsat
Elementos suplementarios
Es posible proyectar elementos suplementarios o ilustrativos (individuos, variables
continuas y variables nominales) sobre los planos construidos en el ACP. Los elementos
suplementarios permiten explorar asociaciones con los elementos activos o enriquecer los
anlisis. Los elementos que participan en el anlisis se denominan activos, en el caso del
ACP son variables continuas activas e individuos activos.
Individuos suplementarios Un individuo que tiene los valores para todas las variables
activas pero que no particip en el ACP se puede proyectar sobre los ejes obtenidos de la
misma forma que los individuos activos. Mediante este procedimiento se puede posicionar
un nuevo individuo con respecto a todos los individuos activos para responder a objetivos
preestablecidos, por ejemplo explorar su posible discriminacin entre grupos.
Variables nominales ilustrativas Como una variable nominal representa un particin
(divisin en clases) de los individuos lo que se proyecta son los centros de gravedad de
cada subconjunto asociado a una modalidad
Variables continuas En le ACP normado la proyeccin de una variable continua
ilustrativa equivale a su correlacin con el eje, lo que da la clave para su interpretacin.
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
Una vez que XLSTAT est abierto, seleccionamos del men: XLSTAT/Anlisis de los
datos/Anlisis factorial de correspondencias, o haga clic en el botn correspondiente de
la barra de herramientas "Anlisis de los datos".
Indicamos como formato de los datos Tabla cruzada (por defecto) y con el mouse
seleccionamos de la hoja de MS Excel la tabla completa con etiquetas filas y columna
(primer fila y primer columna) sin incluir los totales marginales. Asegurarse que est
activada la opcin Etiquetas incluidas.
TCNICAS
MULTIVARIADAS
con Xlsat
Los resultados son visualizados despus de especificar algunas opciones relativas a los
grficos. Estn disponibles numerosos detalles, incluido la prueba del chi-cuadrado de
independencia de filas y columnas. La calidad de la representacin grfica puede ser
evaluada gracias al histograma o a la tabla de los valores propios. Si la suma de los dos
primeros (o de los n primeros) valores propios representan una gran parte de la totalidad
de la varianza, la calidad de los grficos es buena.
En nuestro caso esta calidad es buena en la medida en que los dos primeros valores propios
totalizan el 77,41% de la varianza total.
TCNICAS
MULTIVARIADAS
con Xlsat
Cuando la calidad del anlisis es buena el plano permite interpretar fcilmente los datos.
Podemos observar que las marcas de ropa de mayor precio (ESCORPION, RODIER) no son
las ms elegantes pero si de ms prestigio social. Elegancia, precio, vanguardia y
complementos son las cuatro caractersticas importantes que mejor estn representadas en el
plano y diferencian y caracterizan las distintas marcas. En el cuadrante superior izquierdo
tenemos las marcas ms caras, en el superior derecho las de vanguardia, en el cuadrante
inferior izquierdo las marcas consideradas de mayor elegancia y en el inferior derecho las que
poseen ms complementos.
Los criterios de interpretacin del Anlisis de Correspondencias se basan en los principios
siguientes:
La proximidad de perfiles fila de la variable X revela un comportamiento similar de
esas categoras respecto a la otra variable Y (y a la inversa).
La presencia de perfiles fila de la variable X, radicalmente opuestos a perfiles de Y,
puede ser tambin interpretada como relacin inversa entre ellos.
Los perfiles situados en las proximidades del centroide de la representacin son los
que no expresan relacin alguna.
La proximidad de un perfil a un cierto eje expresa su mayor contribucin en su
definicin. Esta contribucin aumenta cuanto ms alejado se encuentre del centroide
de la representacin.
Es decir, las asociaciones no sern ms que la cuantificacin numrica de la relacin
existente entre categoras fila y columna:
Mayor alejamiento del centroide y menor ngulo MAYOR ASOCIACIN
Acercamiento al centroide y aumento del ngulo MENOR ASOCIACIN
Puntos opuestos (/2 < ngulo < 3/2) ASOCIACIN NEGATIVA
La variabilidad explicada por cada eje es proporcional al valor singular que lo define.
En un ACS las modalidades aparecen repartidas a ambos lados de los ejes, lo que conlleva a
la lectura de las contraposiciones ms importantes entre modalidades.
En una tabla de contingencia de gran tamao se puede buscar las modalidades ms
importantes sobre cada eje recurriendo a las denominadas contribuciones absolutas.
Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas para
algunos puntos pero tambin pueden ser de mala calidad para otros puntos. Se requiere
entonces de un ndice que ponga en evidencia este hecho, que se denomina coseno
cuadrado o contribucin relativa.
Proyeccin de elementos suplementarios
Al igual que en ACP sobre los ejes factoriales se pueden proyectar filas y columnas que
no hayan participando en el anlisis. Se hace mediante las relaciones cuasi-bibaricntricas
y por lo tanto se interpreta de la misma forma, pero debe hacerse por cada modalidad
ilustrativa con respecto a las modalidades activas. No es apropiado interpretar
modalidades ilustrativas entre s pues no han participado en la construccin de los ejes.
Para introducir filas o columnas suplementarias o ilustrativas con el Xlstat, en la pestaa de
Opciones debemos activar el Anlisis avanzado Datos suplementarios e ingresar el
nmero de filas columnas a considerar de la tabla seleccionada como suplementario.
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
Elegimos la opcin 1/p para filtrar los valores propios: no sern exhibidos los resultados
detallados que corresponden a los factores para los cuales el valor propio es menos que
1/p (donde p es el nmero de variables cualitativas activas).
TCNICAS
MULTIVARIADAS
con Xlsat
Una vez que haya pulsado en el botn "OK", empiezan los clculos y luego aparecen los
resultados. XLSTAT empieza por visualizar tablas implicadas en los clculos (tabla
disyuntiva completa y tabla de Burt).
La gua para decidir cuntos ejes analizar en al ACM es la forma del histograma de los
valores propios, Interesan los primeros ejes que se destaquen sobre los dems.
TCNICAS
MULTIVARIADAS
con Xlsat
El primer plano factorial del ACM tiene la misma forma que el del ACS y produce los
mismos resultados en trminos de las correspondencias entre las modalidades de las dos
variables. De modo que los ejes adicionales del ACM se pueden considerar parsitos. En
Lebart et al. (1995) aparecen las relaciones para dos variables entre los anlisis de
correspondencias de la tabla de contingencia K, la tabla disyuntiva completa Z y la tabla de
Burt B.
Luego se visualizan las coordenadas de las categoras en el espacio factorial (las diferentes
categoras de las variables cualitativas seleccionadas) y los cosenos cuadrados. Las
coordenadas de las observaciones estn ms abajo.
TCNICAS
MULTIVARIADAS
con Xlsat
El grfico (sin editar) a continuacin representa el mapa factorial que superpone categoras
y observaciones.
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
Lo primero que debemos hacer es un anlisis de componentes principales para obtener los
factores, abrimos el Xlstat y elegimos la opcin en el men XLSTAT/Anlisis de datos/
Anlisis de Componentes Principales, o haga clic en el botn correspondiente de la
barra "Anlisis de datos". Los datos no tiene columna de identificacin de observaciones.
Directamente seleccionamos toda la tabla incluyendo primer fila con identificador de
variables.
TCNICAS
MULTIVARIADAS
con Xlsat
En grfico indicamos que no figuren las etiquetas de las observaciones en los grficos, ya
que son numerosos y no tenemos etiquetas y el programa asigna una por defecto.
TCNICAS
MULTIVARIADAS
con Xlsat
En este ejemplo, comenzamos la clasificacin aplicando sobre los tres primeros factores, el
mtodo de Clasificacin Jerrquica, ingresamos en el men Xlstat en XLSTAT/Anlisis de
datos/Clasificacin Ascendente Jerrquica (CAJ).
3
Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de
datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para
la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el
ruido.
Csari 2014 Pgina 29 de 38
CUADENILLO DE
ESTUDIO N 001
TCNICAS
MULTIVARIADAS
con Xlsat
Indicamos que se vean todos los resultados y para mejor visualizacin que el dendograma
sea Horizontal.
4
El mtodo de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de
aglomeracin, las dos clases que incrementen menos la inercia intraclases. La distancia de Ward entre los dos
grupos, en funcin de la distancia euclidiana cannica
Csari 2014 Pgina 30 de 38
CUADENILLO DE
ESTUDIO N 001
TCNICAS
MULTIVARIADAS
con Xlsat
TCNICAS
MULTIVARIADAS
con Xlsat
5
La propuesta de Lebart et al. (1995) es utilizarlo para obtener una particin que minimice la inercia intraclases
6
En cada paso del algoritmo se actualizan los centros mviles calculando los centros de gravedad de la particin
obtenida del paso anterior
Csari 2014 Pgina 32 de 38
CUADENILLO DE
ESTUDIO N 001
TCNICAS
MULTIVARIADAS
con Xlsat
Debajo nos permite seleccionar de la hoja con los resultados de la clasificacin jerrquica
(CAJ) la matriz con tantas filas como clases, en este caso 6, y tanta columnas como factores,
incluir la primer fila con etiquetas pero no la primer columna con las clases.
TCNICAS
MULTIVARIADAS
con Xlsat
Buscamos los resultados por objetos y seleccionamos la columna que indica para cada
observacin su clase. La pegamos junta la las variables, de esta manera nos que una
variable Tipolgica que clasifica a los crneos en 6 grupos o patrones diferentes.
Volvemos a realizar el ACP, pero esta vez, proyectamos de manera ilustrativa la variable
cualitativa de clase. Esta tabla es utilizada para caracterizar las clases mediante el
algoritmo DECLA.
A continuacin visualizamos el cartografiado con los centro de clase proyectados sobre el
plano.
Si armamos una tabla tomando las coordenadas y la suma de cosenos cuadrados de las
observaciones, adems de la variable de clase podemos utilizar la herramienta de graficado
del Xlstat Scatter plots para colorear las observaciones en funcin de los grupos o clases
y darle un efecto burbuja (3D) y no slo el tamao, a travs del coseno cuadrado de los dos
primeros factores.
TCNICAS
MULTIVARIADAS
con Xlsat
Para realizar este grafico preparamos la siguiente tabla a partir de los resultados del ltimo
ACP.
TCNICAS
MULTIVARIADAS
con Xlsat
Al seleccionar OK se genera una nueva hoja en el libro de MS Excel (SCA) con el biplot o
plano factorial. Cada grupo de puntos coloreados para cada clase representa una serie de
datos para el grfico de Excel, por lo tanto basta seleccionar una vez cualquiera de los
puntos pertenecientes a un grupo para cambiar el color de todas las observaciones de una
clase.
TCNICAS
MULTIVARIADAS
con Xlsat
Referencias
- Cabarcas, G. y Pardo Campo Elas (2001), Mtodos estadsticos multivariados en investigacin social,
Simposio de Estadstica
- Cazes, P., Chessel, D. & Doledec, S. (1988), Lanalyse des correspondances internes dun tableau
partitionn. Son usage en hydrobiologie, Revue de Statistique Applique 36(1), 3954.
- Csari Matilde (2007), Estrategias de anlisis y exploracin de datos como soporte a la adquisicin de
conocimiento para modelizacin de sistemas expertos bayesianos causales. Trabajo Final de
Especialidad en Ingeniera de Sistemas Expertos. ITBA
- Csari R., Csari M, Mtodos y Tcnicas de Investigacin Pofesional, U. Aconcagua, ISSPN, Mendoza,
Argentina, (2005-2007).
- Crivisky, Eduardo (1999), Presentacin de los Mtodos de Clasificacin. Programa PRESTA.
http://www.ulb.ac.be/assoc/ presta/Cursos/cursos.html
- Dalgaard, P. (2005), ISwR: Introductory Statistics with R. R package version 1.0-6.
- Decisia (2003), SPAD Data Mining and Text Mining, http://www.decisia.com/
- Escofier B. y Pags J. (1994), Multiple factor analysis: AFMULT package. Comp. Statistics &. Data
Analysis 18, 121-140
- Etxeberra, J. Garca, E. Gil J. Y Rodriguez G. (1995), Anlisis de datos y textos. Madrid, Editorial Ra-
Ma
- Fisher, D.H., Pazzani M.J. y Langley P. (1991), "Concept formation: knowledge and experience in
unsupervised learning", Morgan Kaufmann
- Friendly, M. (1994), Mosaic Displays for Multi-Way Contingency Tables, Journal of the American
Statistical Association 89(425), 190200.
- Hartigan, J. A. & Wong, M. A. (1979), A K-means Clustering Algorithm, Applied Statistics 28(100
108).
- Husson, F., L, S. & Mazet, J. (2007), FactoMineR: Factor Analysis and Data Mining with R. R package
version 1.05. *http://factominer.free.fr, http://www.agrocampus-rennes.fr/math/
- Lebart, L. (2007), DTM. Data and Text Mining, Software. *http://ses.enst.fr/lebart/
- Lebart, L., Morineau, A. & Piron, M. (1995), Statisitique exploratoire multidimensionnelle, Dunod,
Paris.
- Lebart, L., Morineau, A., Lambert, T. & Pleuvret, P. (1999), SPAD. Systme Pour lAnalyse des Dones,
Paris. *http://www.spad.eu
- Ligges, U. & Murdoch, D. (2005), R Help Desk: Make R CMD Work Ander Windows an Example, R
News 5(2), 2728.
- Ligges, U. (2006), R Help Desk: Accessing the Sources, R News 6(4), 4345.
- Ortiz, J. y Pardo, Campo Elas (2004), Anlisis multivariado de datos en R, in Simposio de Estadstica,
Universidad Nacional de Colombia. Departamento de Estadstica, Cartagena.
- Pardo Campo Elas (2005). Anlisis de correspondencias de tablas de contingencia estructuradas, in
Memorias Coloquio Distrital de Matemticas y Estadstica, Universidad Distrital, pp. 6590.
- Pardo, C. E. (1992), Anlisis de la aplicacin del mtodo de Ward de clasicacin jerrquica en el caso
de variables cualitativas, Tesis de Maestra, Estadstica, Universidad Nacional de Colombia, Facultad de
Ciencias, Departamento de Matemticas y Estadstica, Bogot.
- Pinheiro, J., Bates, D., DebRoy, S. & the R Core team., D. S. (2007), nlme: Linear and Nonlinear Mixed
Eects Models. R package version 3.1-83.
- R Development Core Team (2007a), R: A Language and Environment for Statistical Computing, R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. *http://www.R-
project.org