Вы находитесь на странице: 1из 38

CUADERNILLO

N 001
Anlisis Multivariado de
datos con Xlstat de AdiSoft
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Anlisis Multivariado con Xlstat (versin 2009)


En este apartado presentamos los mtodos multivariantes simples de reduccin de
datos que pueden realizarse con XLSTAT1: anlisis de componentes principales (ACP),
anlisis de correspondencias simples (AFC) y anlisis de correspondencias mltiples
(ACM).

1. Anlisis de Componentes Principales (ACP)


El anlisis de componentes principales (ACP) consiste en expresar un conjunto de
variables en un conjunto de combinaciones lineales de factores no correlacionados entre
s, estos factores dando cuenta una fraccin cada vez ms dbil de la variabilidad de los
datos. Este mtodo permite representar los datos originales (individuos y variables) en un
espacio de dimensin inferior del espacio original, mientras limite al mximo la prdida de
informacin. La representacin de los datos en espacios de dimensin dbil (aqu 2
dimensiones) le facilita considerablemente el anlisis.
El Anlisis de Componentes Principales es a menudo utilizado ante una regresin ya que
permite evitar el uso de variables redundantes, o ante una clasificacin ya que permite
identificar la estructura de la poblacin y eventualmente determinar el nmero de grupos a
construir.
El ACP se utiliza cuando la matriz de datos est compuesta por un conjunto de
variables continuas (activas). Igualmente puede ser de nuestro inters utilizar
variables ilustrativas (continuas o categricas) que no participen en la creacin de los
ejes pero que estemos interesados en proyectarlas en el espacio factorial creado.
Gastos de publicidad a Europa
En la siguiente tabla se muestra la reparticin (en porcentajes) de los gastos
publicitarios segn el medio de comunicacin de 16 pases de Europa. Los datos
corresponden al ao 1990 y se extrajeron de la revista Press Landscape update & Eur.
Direct Marketing NTC, 1991.

Los datos se encuentran en el archivo


PublicidadEuropa.xls
Abrir la planilla de MS Excel con los
datos.

1
http://www.xlstat.com/es/
Csari 2014 Pgina 1 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Una vez que XLSTAT-Pro ste activado, haga clic en el men XLSTAT/Anlisis de datos/
Anlisis de Componentes Principales, o haga clic en el botn correspondiente de la
barra "Anlisis de datos" (ver a continuacin).

Una vez seleccionada la opcin, aparece el cuadro de dilogo correspondiente al anlisis de


componentes principales. Puede entonces seleccionar los datos en la hoja Excel. Hay varias
manera de seleccionar los datos en los cuadros de dilogo XLSTAT (ver tutorial on-line).

Donde dice Tabla observaciones/variables debemos ingresar las variables Continuas


activas, es decir los datos activos. Presionamos el botn a la derecha o directamente nos
vamos a la hoja de Excel. Por defecto (a la derecha) hemos indicado tildando en Etiquetas
de las Variables que parte de esta seleccin incluye una fila (la primera) con las etiquetas
que identifican a las variables.

Csari 2014 Pgina 2 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

En el ejemplo estudiado, los datos aparecen desde la primer fila/columna de la hoja.


Siempre que debajo de la tabla no existan datos, podemos seleccionar las variables
directamente sobre el identificador alfabtico de columna de la hoja de Excel, o seleccionar
a mano con el Mouse los datos incluyendo la primer fila con etiquetas variable, pero sin
incluir el identificador de ciudades (observaciones). A continuacin podemos ver en lneas
punteadas la seleccin.

o
Seleccionamos las etiquetas para identificar las ciudades a la derecha del cuadro de dilogo,
luego de tildar a opcin Etiquetas de las Observaciones.

Por defecto el tipo de ACP es Pearson (n), que es el algoritmo que hemos visto en la teora y
los resultados se visualizar en una nueva hoja que se crea a la derecha de la hoja con los
datos.
En la pestaa Opciones podemos especificar algunas opciones de anlisis. Podramos
realizar un anlisis normalizado o no normalizado para que el espacio factorial sea
ortonormal o bien ortogonal, respectivamente. En la mayora de casos se utiliza la
primera opcin para igualar las escalas en que estn medidas las variables.
Tambin podemos indicar cuantos ejes factoriales se desean conservar (como mximo
tantos como variables continuas activas), y cuantos queremos editar en los resultados
de salida. Las opciones por defecto son en la mayora de casos suficientes

Csari 2014 Pgina 3 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

La pestaa Resultados nos permite elegir los resultados que deseamos que genere y el
nivel de significacin para las pruebas de esfericidad del ACP.
Los cosenos cuadrados permitirn asignar el tamao a los puntos para representar el nivel
de significacin en la representacin en el plano. Las coordenadas permitirn rehacer los
planos a travs de las funciones de visualizacin scatterplot, sin tener que volver a aplicar
el algoritmo.

La pestaa Grficos permite configurar qu y cmo vamos a visualizar el Biplot.


Si tenemos una tabla con muchas observaciones, podemos filtrar el numro a visualizar en
el plano o no incluir las etiquetas que los identifican.

Csari 2014 Pgina 4 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Una vez parametrizado, seleccionamos OK para ejecutar el algoritmo.


La primer ventana (informativa) que surge presenta las opciones para la visualizacin de
los planos, este cuadro de dilogo visualiza a travs de un grafico de barra la informacin
obre los valores propios. Observamos que los dos primeros ejes factoriales conservan
un 70,70% de la inercia.

Presionamos Terminar una vez seleccionado el plano conformado por los dos primeros
factores.
Podemos ver todos los resultados en la hoja etiquetada ACP.

El primer resultado interesante a analizar es la matriz de las correlaciones.

El valor del coeficiente de correlacin vara entre -1.00 y +1.00. Ambos extremos
representan relaciones perfectas y 0.00 representa la ausencia de asociacin.
Csari 2014 Pgina 5 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Cuanto ms cercano sea a cero el coeficiente de correlacin, ms dbil ser la asociacin.


Con la intencin de hacer una adecuada interpretacin de los ndices correlacin, se har
uso de la clasificacin que aparece en figura:

Categoras del coeficiente de correlacin

La siguiente tabla y el grfico asociado estn vinculados a un objeto matemtico, los


valores propios, que son afortunadamente vinculados a un concepto muy simple: la
calidad de la proyeccin cuando pasamos de N dimensiones (N siendo el nmero de
variables, igual a 5) a un nmero ms dbil de dimensiones.

En nuestro caso, observamos que el primer valor propio vale 2,70 representa 45% de la
variabilidad. Eso significa que si representamos los datos en un slo eje, tendremos
entonces siempre 45% de la variabilidad total que ser preservada.
A cada valor propio corresponde un factor. Cada factor es en realidad una combinacin
lineal de las variables de inicio. Los factores tienen la particularidad de no ser
correlacionados entre ellos. Los valores propios y los factores son ordenados en orden
descendente de variabilidad representada
Idealmente, los dos primeros valores propios corresponden a un % elevado de la
variabilidad, de manera que la representacin sobre los dos primeros ejes factoriales es de
buena calidad. En nuestro ejemplo, tenemos el 70,7% de informacin en el plano formado
por los dos primeros factores.
Csari 2014 Pgina 6 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

El nmero de dimensiones "tiles" mximo es automticamente detectado por el mtodo


utilizado.

El primer grfico que se muestra el Biplot de correlacin


(PLANO vectorial de las VARIABLES). Corresponde a una
proyeccin de las variables iniciales sobre un plano de
dos dimensiones constituido por los dos primeros
factores.

Este grafico podemos editarlo con las herramientas de


MS Excel y de Xlstat, eliminado los datos no relevantes
del mismo, cambiando color, fuente, y tamao segn
coseno cuadrando.

Las flechas deben interpretarse como direcciones de crecimiento de las variables en el


espacio factorial. Observamos pues que los pases que utilizan mucha publicidad en
Televisin tambin utilizan la Radio y muy poco el Cine. Por el otro lado los pases que
utilizan Revistas como medio, suelen tambin utilizar ms recursos en publicidad Exterior.
El centro representa la media de todas las variables, a partir de este los vectores crecen en
un sentido y decrecen en el sentido opuesto. Dos variables estn relacionadas
positivamente si su ngulo es de casi 0 (paralelas), dos variables estn relacionadas de
manera negativa si su ngulo es de casi 180 (opuestas) y dos variables no estn asociadas
si su ngulo es cercano a 90 (perpendicular). Mientras ms cerca del centro (vector
pequeo) la variable no es relevante y si la eliminamos y volvemos a realizar el ACP, el
plano no cambia. Cuando las variables estn relativamente cercas del centro del grfico,
entonces cualquiera interpretacin es arriesgada, y es necesario referirse a la matriz de
correlaciones o a otros planos factoriales para interpretar los resultados.
En nuestro ejemplo, podemos deducir del grfico que las variables Revista y Exterior estn
relacionadas positivamente, cuando una crece la otra tiende a crecer, TV y Radio tambin
estn relacionadas positivamente, pero Cine y Diarios no estn relacionados, Cine est
relacionado de manera opuesta con Radio, cuando una crece la otra tiende a decrecer.

Csari 2014 Pgina 7 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

El crculo de las correlaciones es tambin til para interpretar la significacin de los ejes.
En nuestro caso, el eje F1 es claramente vinculado al Cine, el eje F2 es esencialmente
vinculado a los Diarios. Para confirmar el hecho que una variable es fuertemente vinculada
a un factor, debe consultar la tabla de los cosenos: mientras ms elevado es el coseno (en
valor absoluto), ms vinculada est la variable al factor. Mientras ms cerca est el coseno
de cero, menos vinculada est la variable al eje. En nuestro caso, vemos que en lo que se
refiere a la Radio, ser mejor interpretada en los ejes F1/F3.

Podemos observar qu pases estn bien representados en los ejes, a partir de las
contribuciones y los cosenos cuadrados.
El grfico a continuacin corresponde a Bilplot de distancias (PLANO escalarde las
OBSERVACIONES). Permite representar los individuos en un plano de dos dimensiones, e
identificar tendencias.

Los pases cercanos son pases que presentan distribuciones parecidas en el reparto
de los gastos publicitarios. Observamos que podes pueden diferenciar claramente los
pases latinos de los pases anglosajones.
Estas tcnicas biplot permiten la representacin de los casos y las variables, de forma
conjunta, en el subespacio factorial de dimensin reducida.

Csari 2014 Pgina 8 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

A continuacin se visualiza el Biplot simtrico con ambos planos de variables y


observaciones juntos, Xlstat se encarga de normalizar las escalas.
Muy a menudo se suelen interpretar estos grficos diferenciando en los cuatro cuadrantes.
Los pases ms alejados del origen de coordenadas son los pases que presentan un
perfil ms alejado del perfil medio.
En este grfico podramos concluir lo siguiente: Portugal , Grecia, Italia y Espaa tienden a
dedicar ms recursos publicitarios en televisin y radio y muy poco en el cine. Francia y
Blgica dedican ms recursos en revistas y outdoor. Por el otro lado, pases nrdicos como
Suiza, Noruega, Suecia, Dinamarca, Finlandia y Irlanda destinan ms recursos a los
diarios. Suiza, Holanda y Alemania en concreto dedican ms recursos al cine

Los criterios de interpretacin de la representacin se ajustan a las normas siguientes:


- Los vectores representativos de las variables identifican con su medida la dispersin de
las mismas, estando por ello situados sus extremos sobre la hiperesfera de radio unidad
en el caso de un ACP estandarizado. Este ltimo modelo es especialmente interesante, ya
que el producto escalar de dos vectores variables se corresponde con su coeficiente de
correlacin o coseno del ngulo que forman y, la proyeccin de cada vector variable
sobre un eje, mide la correlacin existente entre dicha variable y la correspondiente
componente principal.
- En el Anlisis de Componentes Principales (y tcnicas Biplots derivadas), la
interpretacin correspondiente a variables (relaciones entre ellas y con las componentes
principales) es distinta de la obtenida para individuos (comportamientos similares en
funcin de la distancia existente entre ellos). De forma general la relacin entre variables
se determinar mediante ngulos y la existente entre casos mediante distancias.

Csari 2014 Pgina 9 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas
para algunos puntos pero tambin pueden ser de mala calidad para otros puntos. Se
requiere entonces de un ndice que ponga en evidencia este hecho, que se denomina
coseno cuadrado o contribucin relativa.
Por lo tanto puede resultar interesante ponderar los puntos a partir de la
contribucin de cada pas en el espacio factorial creado. Para ello debemos ejecutar las
opciones de Visualizacin que nos permite realizar esta opcin y muchas otras, como
zoon del grfico, tamao de smbolos,...

Para cambiar las escalas recortando los mnimos y mximos podemos hacer un zoon y
visualizar mejor la nube de individuos. Seleccionamos el grafico e ingresamos en
Visualizacin/AxesZoomer.

Aparece un cuadro de dilogo donde podemos probar la escalas, cuando est conforme
precione Terminar.

Csari 2014 Pgina 10 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Desde las opciones de grfico de Excel, eliminamos la visualizacin e las escalas.


A partir de la suma del coseno cuadrado de los dos primeros factores podemos representar
con el tamao la importancia del punto y de la variable en su representacin en este plano,
es decir nivel de significacin. De esta manera podemos corregir errores de proyeccin.

Para esto selecciono la serie de puntos de las observciones e ingreso en el men


XLSTAT/Visualiacin/EasyPoint. En el cuadro de dilogo le indicamos la columna con la
suma de los cosenos cuadrados. Hacemos lo mismo para las 2variables.

2
Primero seleccionar una variable y utilizar la tecla de fecha hacia abajo para encontrar la serie de las variables en los extremos
de los vectores.
Csari 2014 Pgina 11 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Elementos suplementarios
Es posible proyectar elementos suplementarios o ilustrativos (individuos, variables
continuas y variables nominales) sobre los planos construidos en el ACP. Los elementos
suplementarios permiten explorar asociaciones con los elementos activos o enriquecer los
anlisis. Los elementos que participan en el anlisis se denominan activos, en el caso del
ACP son variables continuas activas e individuos activos.

Individuos suplementarios Un individuo que tiene los valores para todas las variables
activas pero que no particip en el ACP se puede proyectar sobre los ejes obtenidos de la
misma forma que los individuos activos. Mediante este procedimiento se puede posicionar
un nuevo individuo con respecto a todos los individuos activos para responder a objetivos
preestablecidos, por ejemplo explorar su posible discriminacin entre grupos.
Variables nominales ilustrativas Como una variable nominal representa un particin
(divisin en clases) de los individuos lo que se proyecta son los centros de gravedad de
cada subconjunto asociado a una modalidad
Variables continuas En le ACP normado la proyeccin de una variable continua
ilustrativa equivale a su correlacin con el eje, lo que da la clave para su interpretacin.

Csari 2014 Pgina 12 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

2. Anlisis Factorial de Correspondencias (AFC)


El anlisis de correspondencias simples se utiliza cuando queremos analizar dos
variables categricas, que definen una tabla de contingencia. El inters recae en analizar las
asociaciones entre las categoras de ambas variables, y su proyeccin en un biplot. Utilice el
anlisis factorial de correspondencias con el fin de estudiar la conexin entre dos conjuntos
de modalidades que constituyen las filas y columnas de una tabla de contingencia.
Una tabla de contingencia (TC) se obtiene al clasicar dos variables cualitativas. El
conjunto de las las representan a las categoras de una variable y el conjunto de las
columnas, a las categoras de la otra variable. El valor de una celda representa al numero de
unidades estadsticas = individuos, que poseen simultneamente las categoras de la la y
de la columna que se cruzan. Al dividir la tabla sobre su total se obtiene la tabla de
frecuencias relativas asociada a la TC, esta representa la distribucin conjunta de
probabilidad bivariada de la poblacin en estudio, segn las dos variables cualitativas que
dan origen a la tabla. La suma de las las (marginal la), representa la distribucin de
probabilidad segn la variable la y la suma de las columnas (marginal columna), la
distribucin de probabilidad asociada a la variable columna. La divisin de cada una de las
las (respectivamente, columnas) por su marginal origina las distribuciones condicionales
o perles la (columna). El anlisis de correspondencias simples (ACS) permite la
descripcin de una TC, cumpliendo con tres objetivos: 1) obtener y comparar una tipologa
de los perles la; 2) obtener y comparar una topologa de los perles columnas y 3)
estudiar las asociaciones entre las dos variables.
En aplicaciones ms complejas las las y las columnas pueden estar estructuradas
mediante sendas particiones, denidas por otras variables cualitativas. En este documento
se utiliza como ejemplo una tabla sobre marcas de ropa, en donde se valora a cada marca
segn su asociacin con diferentes caractersticas como precio, calidad, prestigio,
exclusividad, elegancia, vanguardia y complementos.
Del archivo de datos deseamos caracterizar las distintas marcas segn su mayor relacin
con determinadas caractersticas e identificar marcas comunes.

Tabla de contingencia cuya suma de marginales fila y columna son equivalentes


Csari 2014 Pgina 13 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Una vez que XLSTAT est abierto, seleccionamos del men: XLSTAT/Anlisis de los
datos/Anlisis factorial de correspondencias, o haga clic en el botn correspondiente de
la barra de herramientas "Anlisis de los datos".

Aparece un cuadro de dilogo donde podemos ingresar la tabla de contingencia o crearla a


partir de una tabla de datos cualitativos, con el cruce de dos variables.

Indicamos como formato de los datos Tabla cruzada (por defecto) y con el mouse
seleccionamos de la hoja de MS Excel la tabla completa con etiquetas filas y columna
(primer fila y primer columna) sin incluir los totales marginales. Asegurarse que est
activada la opcin Etiquetas incluidas.

Csari 2014 Pgina 14 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Los resultados son visualizados despus de especificar algunas opciones relativas a los
grficos. Estn disponibles numerosos detalles, incluido la prueba del chi-cuadrado de
independencia de filas y columnas. La calidad de la representacin grfica puede ser
evaluada gracias al histograma o a la tabla de los valores propios. Si la suma de los dos
primeros (o de los n primeros) valores propios representan una gran parte de la totalidad
de la varianza, la calidad de los grficos es buena.

En nuestro caso esta calidad es buena en la medida en que los dos primeros valores propios
totalizan el 77,41% de la varianza total.

Csari 2014 Pgina 15 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Cuando la calidad del anlisis es buena el plano permite interpretar fcilmente los datos.
Podemos observar que las marcas de ropa de mayor precio (ESCORPION, RODIER) no son
las ms elegantes pero si de ms prestigio social. Elegancia, precio, vanguardia y
complementos son las cuatro caractersticas importantes que mejor estn representadas en el
plano y diferencian y caracterizan las distintas marcas. En el cuadrante superior izquierdo
tenemos las marcas ms caras, en el superior derecho las de vanguardia, en el cuadrante
inferior izquierdo las marcas consideradas de mayor elegancia y en el inferior derecho las que
poseen ms complementos.
Los criterios de interpretacin del Anlisis de Correspondencias se basan en los principios
siguientes:
La proximidad de perfiles fila de la variable X revela un comportamiento similar de
esas categoras respecto a la otra variable Y (y a la inversa).
La presencia de perfiles fila de la variable X, radicalmente opuestos a perfiles de Y,
puede ser tambin interpretada como relacin inversa entre ellos.
Los perfiles situados en las proximidades del centroide de la representacin son los
que no expresan relacin alguna.
La proximidad de un perfil a un cierto eje expresa su mayor contribucin en su
definicin. Esta contribucin aumenta cuanto ms alejado se encuentre del centroide
de la representacin.
Es decir, las asociaciones no sern ms que la cuantificacin numrica de la relacin
existente entre categoras fila y columna:
Mayor alejamiento del centroide y menor ngulo MAYOR ASOCIACIN
Acercamiento al centroide y aumento del ngulo MENOR ASOCIACIN
Puntos opuestos (/2 < ngulo < 3/2) ASOCIACIN NEGATIVA
La variabilidad explicada por cada eje es proporcional al valor singular que lo define.
En un ACS las modalidades aparecen repartidas a ambos lados de los ejes, lo que conlleva a
la lectura de las contraposiciones ms importantes entre modalidades.
En una tabla de contingencia de gran tamao se puede buscar las modalidades ms
importantes sobre cada eje recurriendo a las denominadas contribuciones absolutas.
Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas para
algunos puntos pero tambin pueden ser de mala calidad para otros puntos. Se requiere
entonces de un ndice que ponga en evidencia este hecho, que se denomina coseno
cuadrado o contribucin relativa.
Proyeccin de elementos suplementarios
Al igual que en ACP sobre los ejes factoriales se pueden proyectar filas y columnas que
no hayan participando en el anlisis. Se hace mediante las relaciones cuasi-bibaricntricas
y por lo tanto se interpreta de la misma forma, pero debe hacerse por cada modalidad
ilustrativa con respecto a las modalidades activas. No es apropiado interpretar
modalidades ilustrativas entre s pues no han participado en la construccin de los ejes.
Para introducir filas o columnas suplementarias o ilustrativas con el Xlstat, en la pestaa de
Opciones debemos activar el Anlisis avanzado Datos suplementarios e ingresar el
nmero de filas columnas a considerar de la tabla seleccionada como suplementario.

Csari 2014 Pgina 16 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Csari 2014 Pgina 17 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

3. Anlisis de Correspondencias Mltiples (ACM)


El anlisis de correspondencias mltiples (ACM) es una extensin del anlisis factorial
de correspondencia (AFC) aplicada no a una tabla de contingencia, sino a una tabla
disyuntiva completa. Este mtodo se adapta particularmente al anlisis de encuestas para
las cuales las filan de la tabla son en general individuos y las columnas son modalidades de
variables cualitativas, generalmente modalidades de respuesta a las preguntas.
Utilice el anlisis de correspondencias mltiples con el fin de estudiar datos bajo la forma
de una tabla de individuos descritos por varias variables cualitativas.
El anlisis de correspondencias mltiples compara individuos a travs de las modalidades
de las variables. Encuentra asociaciones entre variables a travs de las modalidades de
ellas.
Los datos de ejemplo corresponden a una encuesta efectuada ante 28 clientes por un
concesionario, una semana despus que estos ltimos recuperaron su vehculo tras una
reparacin mecnica.
El cuestionario incluye cinco preguntas:
Est Ud. globalmente satisfecho de su visita al taller? (Si/ No)
Considera Ud. que la reparacin fue efectuada correctamente? (Si / No / No sabe)
Cmo juzga Ud. la calidad de la atencin? (de 1 a 5)
Le parece correcta la relacin de calidad precio? (Si / No)
Volver Ud. a este taller para una reparacin? (Si / No / No sabe)
Efectuando un Anlisis de
Correspondencias Mltiples (ACM),
deseamos identificar las posibles
relaciones entre las diferentes
respuestas en las diferentes
preguntas.

Csari 2014 Pgina 18 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Una vez iniciado XLSTAT, elija el comando XLSTAT/Anlisis de datos/Anlisis de


Correspondencias Mltiples o haga clic en el botn "Anlisis de Correspondencias
Mltiples" de la barra de herramientas "Anlisis de los datos".

Aparece el cuadro de dilogo que corresponde al anlisis de Correspondencia Mltiples. En


la primera pestaa seleccionamos los datos. La opcin "Etiquetas de variables" se deja
activada ya que la primera fila de las columnas incluye el nombre de las variables. La
opcin "Etiquetas de las observaciones" es activada y seleccionamos la columna de las
etiquetas de las observaciones.

Selecciono las variables cualitativas nominales activas

Selecciono el identificador de individuos

Csari 2014 Pgina 19 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Al igual que en correspondencias simples se pueden proyectar elementos ilustrativos:


individuos, variables nominales (sus modalidades) y variables continuas. Los individuos y
modalidades se proyectan utilizando las frmulas cuasibibaricntricas. Las variables
continuas calculando la correlacin entre la variable y el eje.
En la ficha Opciones activamos la opcin de datos suplementarios y despus vamos a la
ficha correspondiente. La variable "Volver" se utiliza como "Variable adicional" ya que no
deseamos que influya en los clculos; pero nos interesa a posteriori su ubicacin.

Elegimos la opcin 1/p para filtrar los valores propios: no sern exhibidos los resultados
detallados que corresponden a los factores para los cuales el valor propio es menos que
1/p (donde p es el nmero de variables cualitativas activas).

Csari 2014 Pgina 20 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Activamos las siguientes opciones de Resultados y de Grficos.

Una vez que haya pulsado en el botn "OK", empiezan los clculos y luego aparecen los
resultados. XLSTAT empieza por visualizar tablas implicadas en los clculos (tabla
disyuntiva completa y tabla de Burt).
La gua para decidir cuntos ejes analizar en al ACM es la forma del histograma de los
valores propios, Interesan los primeros ejes que se destaquen sobre los dems.

La inercia total vale 2. En ACM la inercia de la tabla representada no tiene significado


estadstico, esta depende del nmero de modalidades y del nmero de variables. Por la
manera como se desarrolla el mtodo (ACS de la tabla Z), el porcentaje de inercia no es un
criterio para saber cuntos ejes retener en un ACM. La explicacin de este ltimo hecho se
ve muy bien cuando se compara un ACM de dos variables con el ACS de la tabla de
contingencia que las cruza.
Csari 2014 Pgina 21 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

En la siguiente tabla se visualizan los 8 valores propios y el % de inercia correspondiente.

El primer plano factorial del ACM tiene la misma forma que el del ACS y produce los
mismos resultados en trminos de las correspondencias entre las modalidades de las dos
variables. De modo que los ejes adicionales del ACM se pueden considerar parsitos. En
Lebart et al. (1995) aparecen las relaciones para dos variables entre los anlisis de
correspondencias de la tabla de contingencia K, la tabla disyuntiva completa Z y la tabla de
Burt B.
Luego se visualizan las coordenadas de las categoras en el espacio factorial (las diferentes
categoras de las variables cualitativas seleccionadas) y los cosenos cuadrados. Las
coordenadas de las observaciones estn ms abajo.

Csari 2014 Pgina 22 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

El grfico (sin editar) a continuacin representa el mapa factorial que superpone categoras
y observaciones.

Utilizando las herramientas de visualizacin de Xlstat y de edicin de grficos del Excel


podemos modificar el grafico, eliminado titulos y escalas de los ejes, dispersando la
visualizacin de las escalas, cambiando formato y color de etiquetas y puntos y cambiando
el tamao de los puntos en funcin de la suma del coseno cuadrado de los dos primeros
factores.
Para esto ltimo, primero seleccionamos la serie de puntos de las observaciones, con un
clic sobre cualquiera de los individuos (azul), accedemos a la herramienta EasyPoint el
men de visualizacin del Xlstat y seleccionamos la suma de los cosenos cuadrados slo de
las observaciones.

Ahora seleccionamos la serie de los puntos correspondientes a las modalidades de las


variables cualitativas activas con un clic sobre cualquiera de ellas (rojo). Accedemos a la
herramienta EasyPoint y seleccionamos la suma de los cosenos cuadrados slo de las
modalidades activas.
Por ltimo seleccionamos los tres puntos correspondientes a las modalidades
suplementarias. Accedemos a la herramienta EasyPoint y seleccionamos las tres ltimas
filas de la tabla de cos2.

Csari 2014 Pgina 23 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Serie de puntos de las observaciones

Suma coseno cuadrado de individuos

Serie de puntos modalidades activas

Suma coseno cuadrado de las modalidades activas

Csari 2014 Pgina 24 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Serie de puntos de las modalidades suplementarias

Suma coseno cuadrado de modalidades suplementarias


El grafico quedara como sigue:

Confirmamos una evidencia: un cliente volver si est globalmente satisfecho de la prestacin, de la


calidad de atencin, del precio y si tiene la impresin que la reparacin se efectu efectivamente.
Tambin se observa que cuando la reparacin no se efectu satisfactoriamente coincide con una
atencin no satisfactoria. Esto merece un amplio anlisis: La persona indic equivocadamente el
problema porque no estaba satisfactoriamente atendida? o bien llam de nuevo para sealar que
sigue el problema y que no fue atendida satisfactoriamente en aquel momento?.
Sobre los planos factoriales se tienen tres claves para la lectura:
Los individuos que aparecen cerca se parecen porque asumen mas o menos las mismas
modalidades. Cada uno es el cuasibibaricentro de las modalidades que asume y las
caractersticas se derivan de las modalidades que se proyectan cerca.
Las modalidades de variables diferentes se parecen porque son asumidas mas o menos por los
mismos individuos. Cada modalidad se sita en el cuasibibaricentro de los individuos que la
asumen.
Dos modalidades de una misma variable no pueden ser asumidas por los mismos individuos y si
caen cerca se debe al parecido de los individuos por modalidades de otras variables.
Las contribuciones y cosenos cuadrados tienen la misma interpretacin que en
correspondencias simples. Se agrega la contribucin de una variable como suma de las
contribuciones de sus modalidades.

Csari 2014 Pgina 25 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

4. Anlisis Cluster con Xlstat


El Anlisis Cluster, tambin conocido como Anlisis de Conglomerados, Taxonoma
Numrica o Reconocimiento de Patrones, es una tcnica estadstica multivariante cuya
finalidad es dividir un conjunto de objetos en grupos (cluster en ingls) de forma que los
perfiles de los objetos en un mismo grupo sean muy similares entre s (cohesin interna del
grupo) y los de los objetos de clusters diferentes sean distintos (aislamiento externo del
grupo).
Para llevar a cabo un anlisis de este tipo se deben los siguientes pasos:
1. Plantear el problema a resolver por un Anlisis Cluster
2. Establecer medidas de semejanza y de distancia entre los objetos a clasificar en
funcin del tipo de datos analizado
3. Analizar algunos de los mtodos de clasificacin propuestos en la literatura
haciendo especial nfasis en los mtodos jerrquicos aglomerativos y en el
algoritmo de las k-medias, y determinar el nmero de grupos.
4. Interpretar los resultados obtenidos
5. Analizar la validez de la clasificacin obtenida
Conviene hacer notar, finalmente, que es una tcnica eminentemente exploratoria cuya
finalidad es sugerir ideas al analista a la hora de elaborar hiptesis y modelos que
expliquen el comportamiento de las variables analizadas identificando grupos homogneos
de objetos. Los resultados del anlisis deberan tomarse como punto de partida en la
elaboracin de teoras que explicquen dicho comportamiento.
Algoritmo de clasicacin mixta
La propuesta descrita en Lebart et al. (1995) aprovecha las ventajas del mtodo de Ward
y las del K-medias, combinndolos de la manera siguiente:
1. Clasicacin inicial. Si la cantidad de individuos por clasicar es muy alta, es probable que la
clasicacin jerrquica no se pueda ejecutar directamente. Entonces se efecta esta primera
etapa, la cual busca obtener rpidamente y a bajo costo una particin de los individuos en s
clases homogneas, donde s es mucho mayor que el nmero de clases deseado en la poblacin,
y menor que la cantidad de individuos. Se emplea el algoritmo de agregacin alrededor de
centros mviles (K-medias). Los centros iniciales se establecen al azar.
2. Agregacin jerrquica con el mtodo de Ward. Se efecta una clasicacin ascendente
jerrquica donde los elementos terminales del rbol son las s clases de la particin inicial
(calcular las distancias entre las o entre las clases previas obtenidas en 1) o los individuos
directamente. El rbol correspondiente se construye segn el criterio de Ward, el cual une en
cada paso de agregacin las dos clases que incrementen lo menos posible la inercia intraclases.
3. Corte del rbol. El rbol o dendrograma que resume el procedimiento de clasicacin permite
ver la estructura de clases de los individuos que son objeto de anlisis. En el grco de ndices
de nivel es ms fcil observar los cambios de inercia ms grandes (saltos) y decidir el nmero
de clases K. Para el paso siguiente es necesario calcular los pesos y centros de gravedad de las
clases obtenidas.
4. Consolidacin de la clasicacin. La particin obtenida en el paso anterior no es ptima
siempre, debido a la estructura de particiones anidadas del dendrograma obtenido. Para
mejorarla se utiliza de nuevo un procedimiento de agregacin alrededor de centros mviles (K-
medias), utilizando los centros de gravedad de las clases obtenidas al cortar el rbol como
centros iniciales.

Csari 2014 Pgina 26 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Clasificacin Ascendente Jerrquica


Utilice la clasificacin ascendente jerrquica para constituir grupos de individuos
similares (clases) sobre la base de su descripcin por un conjunto de variables
cuantitativas, cualitativas binarias (0/1), o eventualmente de todos tipos.
Nota: sobre todo para las variables cualitativas no binarias es preferible efectuar
previamente un anlisis de correspondencias mltiples (ACM) y de considerar los datos de
los individuos sobre los ejes factoriales como nuevas variables.
Ejemplo Clasificacin sobre un ACP
Tomamos como ejemplo una tabla correspondiente a 200 muestras de caras o crneos,
de las mismas se obtuvo 6 medidas, como se muestra en la siguiente figura. La idea es usar
estas medidas para construir mascaras, pero no se pueden hacer 200 mscaras, sino que se
trata de descubrir patrones o clases de crneos con medidas similares que permitirn
disear una mascara que va bien para un grupo de personas.

Lo primero que debemos hacer es un anlisis de componentes principales para obtener los
factores, abrimos el Xlstat y elegimos la opcin en el men XLSTAT/Anlisis de datos/
Anlisis de Componentes Principales, o haga clic en el botn correspondiente de la
barra "Anlisis de datos". Los datos no tiene columna de identificacin de observaciones.
Directamente seleccionamos toda la tabla incluyendo primer fila con identificador de
variables.

Csari 2014 Pgina 27 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

En grfico indicamos que no figuren las etiquetas de las observaciones en los grficos, ya
que son numerosos y no tenemos etiquetas y el programa asigna una por defecto.

A continuacin podemos visualizar el plano de los individuos y el plano de las variables,


despus de editarlo con MS Excel y con las herramientas de Visualizacin del xlstat.

Csari 2014 Pgina 28 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

La muestra de datos medida es bastante dispersa y podemos encontrar varios patrones o


clases de caretas. Para la clasificacin debemos 3seleccionar el nmero de factores a
considerar, en este caso, los tres primeros. Se suele utilizar el subconjunto de los primeros
k ejes factoriales tales que proyecten en conjunto un mnimo del 80% de la inercial
original. El diagrama de valores propios orienta la decisin del nmero de ejes que se
utilizan en la clasicacin. Algunas veces, sobre todo en tablas pequeas, se usan todos los
ejes.

En este ejemplo, comenzamos la clasificacin aplicando sobre los tres primeros factores, el
mtodo de Clasificacin Jerrquica, ingresamos en el men Xlstat en XLSTAT/Anlisis de
datos/Clasificacin Ascendente Jerrquica (CAJ).

En la hoja de resultados del ACP, buscamos las coordenadas de las observaciones y


seleccionamos los factores a considerar, podemos o no tomar la primer fila con
identificador de factores o Axes, y podems o no seleccionar la columna con etiquetas de
observaciones. En este caso no tenemos y tampoco nos interesa identificar los individuos
pero si mantenemos la primer fila.
Recordemos que la tabla observaciones/variables en este caso no es la tabla original sino
la tabla de observaciones/factores.

3
Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de
datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para
la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el
ruido.
Csari 2014 Pgina 29 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

El tipo de proximidad es por disimilitudes (buscamos grupos diferenciados) y para calcular


la matriz disimilitud utilizamos la distancia euclidiana y el 4mtodo de Ward para la
agregacin, segn lo visto en la teora.
En Opciones indicamos qu vamos a clasificar, en este caso filas (las observaciones), y esta
primera vez indicamos que Xlstat determine automticamente donde partir el
dendograma. Esta decisin es recomendable hacerla sobre el grfico del dendograma.

Indicamos que se vean todos los resultados y para mejor visualizacin que el dendograma
sea Horizontal.

4
El mtodo de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de
aglomeracin, las dos clases que incrementen menos la inercia intraclases. La distancia de Ward entre los dos
grupos, en funcin de la distancia euclidiana cannica
Csari 2014 Pgina 30 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Automticamente Xlstat selecciona la particin de 4 elementos. Tambin podramos


seleccionar una particin de 6 grupos.

Si elegimos otra particin debemos volver a realizar la clasificacin e indicar que el


truncamiento no sea automtico sino en 6 clases. Vemos a continuacin el dendograma con
la particin de 6 y la informacin sobre las inercias.

Csari 2014 Pgina 31 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Mtodo de las k-medias


Este tipo de mtodo es conveniente utilizarlo cuando los datos a clasificar son muchos
y/o para refinar una clasificacin obtenida utilizando un mtodo jerrquico. Supone que el
nmero de grupos es conocido a priori. Existen varias formas de implementarlo pero todas
ellas siguen, bsicamente, los siguientes pasos:
1. Se seleccionan k centroides o semillas donde k es el nmero de grupos deseado
2. Se asigna cada observacin al grupo cuya semilla es la ms cercana
3. Se calculan los puntos semillas o centroides de cada grupo
4. Se iteran los pasos 2) y 3) hasta que se satisfaga un criterio de parada como, por
ejemplo, los puntos semillas apenas cambian o los grupos obtenidos en dos iteraciones
consecutivas son los mismos.
El mtodo suele ser muy sensible a la solucin inicial dada por lo que es conveniente
utilizar una que sea buena. Una forma de construirla es mediante una clasificacin obtenida
por un algoritmo jerrquico. Para 5optimizar esta particin vamos a aplicar sobre los
factores el mtodo de clasificacin K-means, pero requiere el nmero de clases por obtener
y de puntos iniciales para cada una de ellas, es decir usa los factores obtenidos en el ACP y
los 6centros mviles utilizados para la agregacin de la particin elegida (en el ejemplo: 6
clases).

En el men buscamos el mtodo en Anlisis de Datos y seleccionamos los factores del


ACP igual como se hizo en la Clasificacin Jerrquica, en nmero de clases indicar 6.
En Opciones indicamos que la particin inicial se realiza a partir de Centros de Clase
definidos por el usuario, es decir se lo damos nosotros.

5
La propuesta de Lebart et al. (1995) es utilizarlo para obtener una particin que minimice la inercia intraclases
6
En cada paso del algoritmo se actualizan los centros mviles calculando los centros de gravedad de la particin
obtenida del paso anterior
Csari 2014 Pgina 32 de 38
CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Debajo nos permite seleccionar de la hoja con los resultados de la clasificacin jerrquica
(CAJ) la matriz con tantas filas como clases, en este caso 6, y tanta columnas como factores,
incluir la primer fila con etiquetas pero no la primer columna con las clases.

En la hoja de resultados podemos ver que la inercia Intraclase ha sido minimizada y la


Interclase maximizada.

Csari 2014 Pgina 33 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Buscamos los resultados por objetos y seleccionamos la columna que indica para cada
observacin su clase. La pegamos junta la las variables, de esta manera nos que una
variable Tipolgica que clasifica a los crneos en 6 grupos o patrones diferentes.

Volvemos a realizar el ACP, pero esta vez, proyectamos de manera ilustrativa la variable
cualitativa de clase. Esta tabla es utilizada para caracterizar las clases mediante el
algoritmo DECLA.
A continuacin visualizamos el cartografiado con los centro de clase proyectados sobre el
plano.

Si armamos una tabla tomando las coordenadas y la suma de cosenos cuadrados de las
observaciones, adems de la variable de clase podemos utilizar la herramienta de graficado
del Xlstat Scatter plots para colorear las observaciones en funcin de los grupos o clases
y darle un efecto burbuja (3D) y no slo el tamao, a travs del coseno cuadrado de los dos
primeros factores.

Csari 2014 Pgina 34 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Para realizar este grafico preparamos la siguiente tabla a partir de los resultados del ltimo
ACP.

Luego buscamos la herramienta en el men de Visualizacin del Xlstat.

Csari 2014 Pgina 35 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Seleccionamos en X el primer factor F1, en Y el factor F2, en Z la suma de los cosenos


cuadrados y en Grupo la variable tipolgica. La opcin Z permite darle el tamao y la forma
de burbuja y la opcin Grupo permite colorear las burbujas en funcin de una variable
categrica o de clase. En el ejemplo no se toma la primer fila con identificador X e Y y
tampoco se muestra en el grfico ttulos de ejes y grficos.

Al seleccionar OK se genera una nueva hoja en el libro de MS Excel (SCA) con el biplot o
plano factorial. Cada grupo de puntos coloreados para cada clase representa una serie de
datos para el grfico de Excel, por lo tanto basta seleccionar una vez cualquiera de los
puntos pertenecientes a un grupo para cambiar el color de todas las observaciones de una
clase.

Csari 2014 Pgina 36 de 38


CUADENILLO DE
ESTUDIO N 001

TCNICAS
MULTIVARIADAS
con Xlsat

Referencias
- Cabarcas, G. y Pardo Campo Elas (2001), Mtodos estadsticos multivariados en investigacin social,
Simposio de Estadstica
- Cazes, P., Chessel, D. & Doledec, S. (1988), Lanalyse des correspondances internes dun tableau
partitionn. Son usage en hydrobiologie, Revue de Statistique Applique 36(1), 3954.
- Csari Matilde (2007), Estrategias de anlisis y exploracin de datos como soporte a la adquisicin de
conocimiento para modelizacin de sistemas expertos bayesianos causales. Trabajo Final de
Especialidad en Ingeniera de Sistemas Expertos. ITBA
- Csari R., Csari M, Mtodos y Tcnicas de Investigacin Pofesional, U. Aconcagua, ISSPN, Mendoza,
Argentina, (2005-2007).
- Crivisky, Eduardo (1999), Presentacin de los Mtodos de Clasificacin. Programa PRESTA.
http://www.ulb.ac.be/assoc/ presta/Cursos/cursos.html
- Dalgaard, P. (2005), ISwR: Introductory Statistics with R. R package version 1.0-6.
- Decisia (2003), SPAD Data Mining and Text Mining, http://www.decisia.com/
- Escofier B. y Pags J. (1994), Multiple factor analysis: AFMULT package. Comp. Statistics &. Data
Analysis 18, 121-140
- Etxeberra, J. Garca, E. Gil J. Y Rodriguez G. (1995), Anlisis de datos y textos. Madrid, Editorial Ra-
Ma
- Fisher, D.H., Pazzani M.J. y Langley P. (1991), "Concept formation: knowledge and experience in
unsupervised learning", Morgan Kaufmann
- Friendly, M. (1994), Mosaic Displays for Multi-Way Contingency Tables, Journal of the American
Statistical Association 89(425), 190200.
- Hartigan, J. A. & Wong, M. A. (1979), A K-means Clustering Algorithm, Applied Statistics 28(100
108).
- Husson, F., L, S. & Mazet, J. (2007), FactoMineR: Factor Analysis and Data Mining with R. R package
version 1.05. *http://factominer.free.fr, http://www.agrocampus-rennes.fr/math/
- Lebart, L. (2007), DTM. Data and Text Mining, Software. *http://ses.enst.fr/lebart/
- Lebart, L., Morineau, A. & Piron, M. (1995), Statisitique exploratoire multidimensionnelle, Dunod,
Paris.
- Lebart, L., Morineau, A., Lambert, T. & Pleuvret, P. (1999), SPAD. Systme Pour lAnalyse des Dones,
Paris. *http://www.spad.eu
- Ligges, U. & Murdoch, D. (2005), R Help Desk: Make R CMD Work Ander Windows an Example, R
News 5(2), 2728.
- Ligges, U. (2006), R Help Desk: Accessing the Sources, R News 6(4), 4345.
- Ortiz, J. y Pardo, Campo Elas (2004), Anlisis multivariado de datos en R, in Simposio de Estadstica,
Universidad Nacional de Colombia. Departamento de Estadstica, Cartagena.
- Pardo Campo Elas (2005). Anlisis de correspondencias de tablas de contingencia estructuradas, in
Memorias Coloquio Distrital de Matemticas y Estadstica, Universidad Distrital, pp. 6590.
- Pardo, C. E. (1992), Anlisis de la aplicacin del mtodo de Ward de clasicacin jerrquica en el caso
de variables cualitativas, Tesis de Maestra, Estadstica, Universidad Nacional de Colombia, Facultad de
Ciencias, Departamento de Matemticas y Estadstica, Bogot.
- Pinheiro, J., Bates, D., DebRoy, S. & the R Core team., D. S. (2007), nlme: Linear and Nonlinear Mixed
Eects Models. R package version 3.1-83.
- R Development Core Team (2007a), R: A Language and Environment for Statistical Computing, R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. *http://www.R-
project.org

Csari 2014 Pgina 37 de 38

Вам также может понравиться