Вы находитесь на странице: 1из 28

Análisis Multivariante en la Investigación Comercial

Asignatura: Investigación de Mercados II

Centro: Universidad Autónoma de Madrid

TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL

Estructura de la clase:

• Introducción.
• Definición del AM.
• Diseños y conceptos básicos del AM.
• Tratamientos previos de los datos.
• Supuestos del AM.
• Clasificación de los métodos del AM.
• Programas informáticos.
• Introducción.

En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces
no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables
que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no
solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM.

Debemos reflexionar que sería mejor emplear: análisis univariante, análisis bivariante o análisis multivariante.
Si queremos analizar por separado variables utilizaremos el anáilisis univariante y bivariante. En el caso de
necesitar un análisis en conjunto, emplearemos técnicas multivariantes. Con esta técnica determinaremos si
las variables están influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las
relaciones múltiples. Si queremos utilizar /analizar múltiples variables simultáneamente, tenemos que utilizar
técnicas multivariantes.

• Definición del AM.

El AM se puede definir como:

Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar
simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado.

Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables
cuando sus efectos no tienen sentido si se interpretan por separado.

Valor teórico: Es el elemento esencial del AM. Combinación de todas las variables. Debemos sintetizar
todas las variables en un solo valor teórico. (Muchas veces hay que ponderar múltiples variables de
modo empírico).

• Diseños y conceptos básicos del AM.

(Diseño de una investigación de mercados−−−flujo del AM)

Los pasos a seguir al realizar una investigación se pueden resumir como sigue:

1
• Definir el objetivo a través de un estudio previo.
• Establecer las hipótesis.
• Seleccionar variables y escalas.
• Establecer la metodología (instrumentos, muestreo, etc.)
• Seleccionar la técnica multivariante más apropiada.
• Determinar el nivel de significación (alpha).
• Coleccionar datos.
• Evaluar los supuestos básicos de la técnica multivariante.
• Estimación del modelo multivariante y valoración del ajuste del modelo.
• Interpretar el valor teórico (rechazar o no las hipótesis).
• Validación e interpretación de los resultados.

1) Definir el objetivo a través de un estudio previo

Primeramente, tenemos que determinar el objetivo del estudio. A continuación, investigaremos la literatura
existente para establecer el estado del arte.

Definir para qué queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados
anteriormente sobre el tema. Determinamos así qué queremos realizar en el trabajo, es decir, justificar la
pretensión del trabajo.

Hay dos cosas importantes Conocimiento y creatividad. Hay que establecer un objetivo pero justificarlo a
través de la revisión bibliográfica.

2) Establecer las hipótesis

Establecemos las hipótesis que queremos validar o rechazar mediante el estudio.

3) Seleccionar variables y escalas

Después, tenemos que determinar el tipo de variables y escalas a emplear. La palabra variable se refiere a una
magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos básicos de datos, no
métricos (cualitativos) o métricos (cuantitativos). Según el tipo de datos, tendremos que determinar el tipo de
escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas.

Escalas Características

Nominal • Identifica por categorías mutuamente excluyentes


• Los números no tienen valor matemático

Ordinal • Ordenación de las categorías.


• Los números no dan información de la distancia entre categorías.

Intervalo • Identifica una distancia constante entre categorías.


• Tiene un origen arbitrario.

Razón • Se puede realizar comparación proporcional entre categorías.


• Tiene un origen absoluto.

A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada
técnica multivariante requiere un determinado tipo de variables (métricas y no métricas). Respecto al primer

2
trabajo, es aconsejable incluir entre 15−20 "atributos" que se puedan medir en una escala de intervalo que
tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. También, os conviene incluir variables
que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables
métricas con una escala de razón, tales como gastos mensuales (de una determinada marca, etc.), ingresos,
tiempo, etc., podremos utilizar algunas técnicas de dependencia, por ejemplo, regresión múltiple y análisis
discriminante, para el segundo trabajo.

Para convertir valores no métricos en métricos:

Desacuerdo 1 2 3 4 Acuerdo Ordenamos las opiniones

Escala de Linkert: Con 5 grados, también lo hay con 7 grados. Siempre es mejor tener más grados.

Completamente en desacuerdo −2

Más o menos en desacuerdo −1

No sabe, no contesta 0

Más o menos de acuerdo + 1

Completamente de acuerdo −2

4) Establecer la metodología (instrumentos, muestreo, etc.)

Tras seleccionar variables y escalas, ahora tendremos que establecer la metodología.

5) Seleccionar la técnica multivariante más apropiada.

Después, seleccionaremos la técnica multivariante más adecuada, y a continuación, determinaremos el nivel


de significación.

6) Determinar el nivel de significación (alpha).

El nivel de significación está fuertemente relacionado con el llamado error de medida. Debemos aumentar el
nivel de significación para aumentar el valor del estudio y para ello hay que disminuir el error de medida.
Cuanto mayor nivel de significación mejor.

El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos.
(Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando
calculamos correlaciones o medias, normalmente el efecto verdadero está parcialmente camuflado por este
error de medida, causando la perdida de precisión. Es decir, la presencia del error de medida produce
distorsiones en las relaciones observadas y debilita el poder de las técnicas multivariantes.

Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y
la validez. (conceptos que hay que incluir en trabajo)

• La fiabilidad es el grado en que la variable observada mide el valor verdadero y está libre de error. Si
la misma medida se realiza muchas veces, las medidas fiables llegarán a los mismos resultados. La
fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que
no es necesariamente idéntico en todas las mediciones. Ejemplos de este tipo de error son errores de
codificación, sesgos de entrevistadores, caracteres de los entrevistados, etc.

3
• La validez se define como el grado en que la medida representa con precisión lo que se supone que
representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por
los gastos totales de las economías domésticas. La validez puede verse perjudicada tanto por el error
aleatorio como por el error sistemático. El error sistemático es el sesgo permanente en todas las
mediciones. Por ejemplo, errores en los ítems de la escala, ausencia de claridad en el cuestionario, etc.
Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la
validez del instrumento de investigación.

Todas las técnicas multivariantes, excepto el análisis cluster y el análisis multidimensional, se basan en la
inferencia estadística de los valores de una población o la relación entre variables de una muestra. Si estamos
realizando un censo de toda la población, entonces no tenemos que preocuparnos de la inferencia estadística
por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la población total, y
por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadístico

Para interpretar las inferencias estadísticas, tenemos que determinar el nivel aceptable de error estadístico. Se
tienen que establecer hipótesis nula Ho. Se suelen comparar las medias determinando que una o dos medias
sean iguales o distintas.

El modo de aproximación más común es determinar el nivel de error de Tipo I, que también se llama alfa. El
error de Tipo I es la probabilidad de rechazar la hipótesis nula cuando es cierta. O dicho de otra manera, la
probabilidad de que la prueba estadística muestre significación estadística cuando en realidad no está presente.
Al determinar el nivel de error de Tipo I, tenemos que fijar también el segundo tipo de error, que es el error de
Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hipótesis nula cuando es realmente
falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo
II, y maximizar el nivel de confianza (1−alfa) y la potencia (1−beta).

Realidad
Cierta Falsa
Decisión
Error Tipo I Nivel de Confianza
Rechazar H0
1−
No rechazar H0 Potencia Error Tipo II

Aceptar H0 1−

Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa

Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho
cuando es falsa.

Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza
y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor.

Establecer el nivel de significación es importante y por ello, tenemos que seguir determinados pasos para
poder determinarlo:

• Establecer la Ho (Hipótesis nula) y la H1 (Hipótesis alternativa)


• Elegir la prueba estadística
• Fijar el nivel de significación (alfa)
• Calcular estadístico.
• Se compara el estadístico calculado con el teórico. Si es mayor se rechaza H0. Si es menor no se rechaza
Ho.

4
7) Recopilar datos

8) Evaluar los supuestos básicos de la técnica multivariante.

9) Estimación del modelo multivariante y valoración del ajuste del modelo.

10) Interpretar el valor teórico (rechazar o no las hipótesis).

11) Validación e interpretación de los resultados: (en el trabajo esta última parte debe tener implicaciones
para el mundo real. Ej: ¿ para qué sirven los resultados para la empresa, para la vida real −−−−lo valorará
mucho en el trabajo)

• Tratamientos previos de los datos.

Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos.
Existen dos razones que explican la importancia de realizar un buen análisis de los datos:

• Cuanto más cuidado tengamos en analizar los datos, mejor será la predicción y podremos determinar
más fácilmente las relaciones entre las variables.
• Las técnicas multivariantes requieren muchos más datos y supuestos más complejos que las técnicas
univariante o bivariantes. Hay que ver si cumplen una serie de supuestos. Muchas veces los efectos
del incumplimiento de los supuestos no se representan directamente en los resultados, sino que tienen
un efecto importante sobre la naturaleza e interpretación de los datos.

Es fundamental observar las variables individualmente, pero también hay que ver las relaciones entre las
variables conjuntamente. Para ello. Hacemos los siguientes tratamientos:

• Examinar gráficamente los datos para saber la forma de la distribución, analizar las relaciones entre
variables, y analizar las diferencias entre grupos.
• Tratar datos ausentes mediante métodos de imputación
• Detectar casos atípicos y eliminarlos si no son aleatorios.

Examinar gráficamente: Hay que examinar la forma de la distribución y para ello podemos utilizar:

Histograma: Representación gráfica de los datos que muestra la frecuencia de los datos en categorías. Es una
forma muy útil de averiguar si existe una distribución normal, si los datos siguen una distribución normal.

Es el primer método de examen gráfico.

Gráfico de dispersión: Se analizan las relaciones bivariantes. Es un conjunto o representación gráfica de los
puntos de datos basados en dos variables. Se investiga si la relación entre las dos variables es
aproximadamente lineal.

Gráfico de cajas y bigotes: Se analiza las diferencias entre grupos, es el análisis para detectar casos atípicos.
Se transforma la distribución normal en cajas y bigotes.

La línea de la caja representa el valor de la mediana

La línea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias
entre grupos.

Es una forma útil de identificar casos atípicos porque, al transformar la distribución, los datos que queden

5
fuera de un cuartil serán los casos atípicos. Se representan con asteriscos o círculos.

Datos ausentes: Hay que determinar si existen datos ausentes, ya que son una molestia para nosotros.
Tenemos dos opciones:

• Eliminar casos para evitar el sesgo. Por lo que eliminamos y no utilizamos esos datos. Hay que
averiguar si los datos son decisorios o no.

A veces, el eliminar datos no es bueno porque tendríamos menos datos, y no conseguimos un nivel de
significación aceptable.

• No eliminar casos y sustituir datos ausentes. Tres métodos:


• Sustitución por la media: la media es el valor más representativo de una población, por ello
sustituimos los datos por la media.
• Sustitución por valor constante: hay que buscar algún valor que creamos que representa esta
población, igual es necesario buscar estudio semejante.
• Imputación por regresión: para predecir el valor más representativo

Casos atípicos: Hay que decidir si emplearlos o eliminarlos. Hay que eliminarlos si no son aleatorios.
Podemos emplear:

♦ Procedimientos univariantes: el concepto de la distribución normal para ello tenemos que


tipificar o estandarizar los datos. Si podemos aplicar el proceso de estandarización de datos:
media igual a cero, desviación estándar igual a 1
Si el tamaño de la muestra n< 80, podemos eliminar los datos fuera de 2.5

Si el tamaño n>80: > 4

♦ Procedimientos bivariantes: diagramas cajas y bigotes.


♦ Procedimientos multivariantes: D2 Mahalanovis. Es una forma de medir la distancia con la
media estandarizada.
Si tenemos un conjunto de datos, en primer lugar hay que determinar el punto o centroide de todas las
variables (x) y luego medir la distancia para cada variable con una media estandarizada. Por ello,
cuando existe un caso atípico podemos medir su distancia y podemos decir en comparación con otras
distancias si es o no atípico.

• Supuestos del AM.

Para evitar los sesgos más importantes, por qué debemos saber si los datos cumplen los supuestos.
Hay dos razones principales:

• Las relaciones entre una gran cantidad de variables son muy complejas, hablamos de muchos datos, y
para estudiar estas relaciones utilizamos las técnicas multivariantes. Y cuando no cumplen los
supuestos, los sesgos serán más potentes, al igual que las distorsiones.
• Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadísticos
aún cuando no cumplen los supuestos. Podemos estar analizando cosas que no tienen que ver con la
realidad.

Las técnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los
supuestos como variables aisladas, y tienen que cumplir los supuestos de las variables multivariantes.

Entonces, para poder aplicar las técnicas multivariantes, se suponen las siguientes condiciones o

6
supuestos:

⋅ Normalidad: cumplirlo es importante porque muchas técnicas multivariantes


tiene que utilizar las estadísticas de la prueba T y la F, y para emplearlas es
necesario que la distribución sea normal.
⋅ Homocedasticidad: consiste en suponer que las variables dependientes
tengan los mismos niveles de dispersión desde el punto de vista de la variable
independiente. Es importante para muchas técnicas multivariantes que
utilizan las métricas de varianza ya que es necesario que existan iguales
niveles de dispersión ( como ejemplo análisis discriminante )
⋅ Linealidad: Es importante porque muchas técnicas multivariantes tienen que
utilizar el concepto de correlación. Es necesario que exista una relación lineal
entre las dos variables. En las técnicas multivariantes hay que calcular las
correlaciones, para lo cual se debe cumplir el supuesto de linealidad.
⋅ Ausencia de errores correlacionados: consiste en suponer que cualquiera
de los errores de predicción es independiente del resto. Son errores que no
están correlaciones, que son independientes.
• Clasificación de los métodos del AM.

TÉCNICAS DE DEPENDENCIA

TÉCNICAS DE INDEPENDENCIA

Para realizar una investigación comercial multivariante hay que realizar los siguientes preguntas:

¿ podemos dividir las variables en dependientes o independientes?

¿ cuántas de estas variables son tratadas como dependientes?

¿ cómo son las variables medidas ( el tipo de escala ) ?

• Programas Informáticos.

Vamos a utilizar dos programas : SPSS y Dyane

• Ejercicio 1
• Define el análisis multivariante con sus propias palabras.
• ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de
datos multivariante?
• Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo
I y error de Tipo II.
• ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis
multivariante? ¿Por qué son necesarios e importantes?
• Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario
que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de
errores correlacionados.
• Define el análisis multivariante con sus propias palabras.

Son aquellas técnicas estadísticas que nos van a ayudar a analizar al mismo tiempo un conjunto de
variables. El efecto de cada una de estas variables independiente de las otras no tiene sentido, pero
analizadas simultáneamente su efecto tiene interpretación.

7
• ¿Por qué es importante el conocimiento de las escalas de medida para planificar una
investigación de datos multivariante?

Existen dos tipos de escalas: métricas y no métricas. Si los datos son no métricos, no dan valores
matemáticos, sin embargo, si son métricos si que dan valores matemáticos. Por tanto, es crucial
conocer que escala para determinar que técnica multivariante es más apropiada en función de la
escala.

• Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de
Tipo I y error de Tipo II.

Nivel de significación: me indica en que medida el valor observado es representativo de la muestra.

Error tipo I: se define como la probabilidad de que se rechace la hipótesis de un posible valor
cuándo este es cierto.

Error tipo II: se define como la probabilidad de que se acepte la hipótesis de un posible valor
cuándo este es falso.

• ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis
multivariante? ¿Por qué son necesarios e importantes?

Existen tres métodos:

♦ Primero hay que saber la forma de la distribución, para ello hacemos un histograma que
nos va a indicar la frecuencia de los datos, esto nos indicará si existe una distribución
normal.
♦ El segundo método es el gráfico de dispersión, este nos va a servir para indicar si la
relación entre dos variables es lineal.
♦ El tercer método son los gráficos de cajas y bigotes. Este gráfico está dividido en cuartiles y
nos sirve para detectar casos atípicos.
• Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es
necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y
ausencia de errores correlacionados.

Las técnicas multivariantes nos sirven para estudiar la relación simultánea entre el
comportamiento de más de dos variables. La afirmación es falsa ya que esta relación debe cumplir
todos los supuestos:

♦ el supuesto de normalidad nos servirá para poder usarse los estadísticos de la t− Student y
de la f− Snedecor.
♦ Linealidad: nos indica la relación existente entre las variables y nos permitirá hallar
correlaciones.
♦ Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersión de la
varianza en todas las variables independientes.
♦ El último supuesto que debe cumplir es que cualquier error de predicción sea
independiente del resto.
TEMA 2: EL ANALISIS FACTORIAL

Estructura de la clase:

• Definición y objetivo del AF.

8
• Conceptos básicos del AF.
• Distinción entre el AFC y ACP.
• Supuestos del ACP.
• Diseño del ACP.
♦ Estimación del número de factores a ser extraídos.
♦ Métodos de rotación de los factores.
♦ Criterios para determinar el nivel de significación de las cargas factoriales.
• Caso práctico.
• Tratamiento de los datos con DYANE y SPSS.
• Definición y objetivo del AF.

El análisis factorial (AF) se puede definir como la técnica estadística multivariante (de
interdependencia) cuyo objetivo principal es resumir las variables y extraer información (los factores
más importantes) de grandes bases de datos, procurando una mejor comprensión de la estructura de
los mismos.

El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente,


y que permite extraer un número reducido de los factores (es decir, los valores teóricos) con los cuales
se intenta explicar al máximo todo el conjunto de variables originales. Dichas variables deben ser
métricas.

−−>[Author:RGM]

El AF tiene dos objetivos:

⋅ La reducción y sintetización de los datos para identificar sus estructuras


básicas (de las grandes BBDD).
⋅ La creación de una nueva serie de variables (los llamados factores) que
pueden ser utilizados posteriormente en otros análisis multivariantes (por
ejemplo la regresión múltiple o el análisis cluster).
El AF se utiliza principalmente para los siguientes tipos de investigación:

Imagen de marca, imagen del establecimiento, imagen de los consumidores sobre una bebida, etc. En
definitiva, se enmarca dentro de la segmentación, factores principales y diferenciación de nuestro
producto, estudio de aptitudes, etc

Para el AF buscaremos los índices de correlación entre variables, e identificaremos las correlaciones
altas.

Lo que haremos es juntar aquellas que tengan una correlación alta entre ellas y formar un factor con
ellas.

−−>[Author:RGM]

• Conceptos básicos.

Conceptos Definición
Factor Es el valor teórico que se extrae con el AF. Es una combinación lineal
(Y=X1+ X2+...+ nXn)de las variables originales. Los factores
representan las dimensiones subyacentes (extracción del Factor1) que
resumen la serie original de variables.

9
El factor es una relación lineal. Calcularemos , , ..., n para hallar el
factor (Y=X1+ X2+...+ nXn). Los factores no son directamente
observables. Por ello usamos la técnica del AF.
Es la correlación entre las variables originales (el peso de cada variable en el
factor) y los factores, y la clave para entender la naturaleza de un factor
específico. Las cargas de los factores al cuadrado indican qué porcentaje de
la varianza en una variable original se atribuye a un determinado factor.
Cargas
Dicho de un modo mejor, Las cargas son el peso de cada variable en el
Factor.

Las (Cargas)2 es la proporción de varianza de la variable que contribuye a


las correlaciones con otras variables. Las (Cargas)2 = Comunalidad
Es una varianza compartida con otras variables. Es la proporción de varianza
Comunalidad−−>[Author:RGM]
de la variable que contribuye a su vez con correlaciones con otras variables.
Es una medida de la cantidad de varianza contenida en la matriz de
correlación de tal forma que la suma de los autovalores debe ser igual al
Autovalor
número de variables.
(eigenvalue)
Otra definición− Es la cantidad de información explicada por el modelo AF
y su varianza asociada con cada factor.
Reglas de extracción

1.− Factores con cargas > 50%

2.− Factores tipo autovalor > 1

• Distinción entre AF y ACP.

En investigación comercial se suelen utilizar métodos o modelos básicos para obtener soluciones
factoriales: análisis factorial común (AFC) y análisis de componentes principales (ACP). La
diferencia entre estos dos métodos consiste en el tipo de varianza que analizan. En el AFC los factores
se basan solamente en la varianza común. En el ACP los factores se basan en la varianza total (que
incluye la varianza común y la varianza específica y error).

Nota: En Investigación de Mercados (IM), cuando se menciona AF, se está refiriendo en realidad al
ACP.

Varianza específica y error Distorsionan los procesos de


AFC Varianza común
extracción
ACP Varianza total

La Varianza Total se divide en:

1.− Varianza Común: es aquella varianza donde una variable se comparte con todas las demás
variables.

2.− Varianza Específica: es aquella varianza asociada únicamente con una variable específica.

3.− Varianza del Error: es aquella varianza debida al error de medición.

10
En este curso, nos centramos sólo en el ACP.

En AFC no se usa la Varianza Específica y la Varianza de Error porque se supone que distorsiona.
Pero se supone que tiene varios inconvenientes:

♦ Puede proporcionar múltiples soluciones en lugar de una, como sucede en el ACP.


♦ Es muy difícil estimar sólo la varianza común.
Por ello, los investigadores prefieren usar el ACP, ya que presenta menos inconvenientes. Este será
el que nosotros usemos.

• Supuestos del ACP. (Son específicos del ACP)


♦ Supuestos generales: Normalidad, Linealidad y Homocedasticidad. −−>[Author:RGM]
♦ Supuesto específico: Se asume que existe un nivel suficientemente elevado de correlación
entre las variables (En caso contrario, no podemos extraer factores). Este nivel de correlación
se puede examinar de tres maneras:
! Examen visual de la matriz de correlaciones:

Seleccionamos las correlaciones altas. Para considerar una correlación alta, esta tiene que ser >
0,30.

! Contraste de esfericidad de Bartlett: −−>[Author:RGM]

Esta prueba es más objetiva y eficaz. Es una prueba estadística para examinar la existencia de
correlaciones significativas. El resultado a esta prueba sería Significativo o No significativo.

La prueba de Bartlett sólo prueba la presencia de relaciones significativas, pero no indica el nivel de
correlación. Esto se consigue con el tercer análisis: Índice KMO

! Índice K−M−O (la adecuación muestral de Kaiser−Meyer−Olkin): −−>[Author:RGM]

Es una prueba más completa aún que la anterior.

Se trata de cuantificar, mediante un índice estadístico, el grado de intercorrelación entre variables, y


la conveniencia del Análisis de Componentes Principales (ACP). Examina la presencia de
correlaciones significativas indicando solamente si existen, no cuales son.

Los índices obtenidos pueden ser:

♦ Si KMO es mayor que 0,80: Sobresaliente


♦ Si KMO está entre 0,70 y 0,80: Regular
♦ Si KMO está entre 0,60 y 0,70: Mediocre
♦ Si KMO está entre 0,50 y 0,60: Despreciable, y
♦ Si KMO es menor que 0,50: Inaceptable
Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP.

• Diseño del ACP. (Procedimientos)


♦ Selección de variables
Seleccionamos variables métricas. En caso contrario, necesitamos realizar una transformación de no
métricas a métricas.

♦ Tamaño muestral
El criterio a seguir para determinar el tamaño muestral óptimo a utilizar con ACP, la muestra no

11
debe ser inferior a 50 observaciones. Lo aconsejable es que sea >= 100.

♦ Examen de los supuestos generales (y específicos)


Concepto: Consistencia Interna. Está relacionado con la fiabilidad y se utiliza para asegurar la
fiabilidad de la escala que estamos utilizando. Asegura que los items de las escalas o las preguntas
de la escala están midiendo las mismas contrucciones y éstas están altamente intercorrelacionadas
entre sí. Por ej: En el comportamiento de compra hacia una marca determinada, examinamos la
actitud hacia el producto, precio, establecimiento, etc. Para ello creamos una serie de preguntas para
cada dimensión. Estas preguntas deben estar altamente correlacionadas entre sí. La consistencia
interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0,60.
Este test aparece en DYANE.

♦ Matriz de correlaciones
Como ya se ha comentado, se considera que existen correlaciones altas cuando éstas son > 0,30.

♦ Test de Bartlett
Aplicamos el test de Bartlett y el índice KMO.

♦ Estimación del número de factores a ser extraídos


Ver página siguiente.

♦ Rotación de factores
Ver gráfico.

♦ Interpretación de los factores


Proceso de etiquetación de factores. Atribuir un significado a cada factor, es decir: poner un patrón
de cargas a cada factor.

♦ Validación
Un método para efectuar una validación a nuestro ACP es dividir la muestra en dos partes
independientes y aplicar a cada una de ellas el ACP. Si obtenemos los mismos factores/dimensiones,
es decir: si coinciden ambas la muestra sería representativa y por tanto, el ACP sería válido.

♦ Usos adicionales de los factores


Regresión múltiple o Cluster.

◊ Estimación del número de factores a ser extraídos


Con el fin de decidir cuántos factores se deben extraer, el investigador empieza generalmente con
alguno de los siguientes criterios predeterminados.

Criterio de raíz latente


Sólo se consideran los factores que tienen autovalores mayores que
!DYANE 1, ya que cualquier factor individual debería explicar por lo menos
una variable.
AUTOVALOR
Ya se sabe de antemano cuántos factores hay que extraer sobre la
Criterio a priori
base de un estudio previo. Resultado del Pre−Test.
Se obtienen los factores que representan un porcentaje acumulado
Criterio de porcentaje de la especificado de la varianza total extraída (aproximadamente un 60%
varianza de la varianza total en las ciencias sociales). Se suelen utilizar cargas
y estas deben ser >50% del factor.
Criterio de contraste de caída

12
Se identifica el número óptimo de factores que contienen una
proporción de la varianza común sustancialmente alta.

CRITERIO DE CONTRATE DE CAIDA (Gráfico realizado con SPSS)

◊ Métodos de rotación de los factores.


Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrón de factores más
simple y más significativo.

♦ Rotación ortogonal: Es una rotación ortogonal ya que se realiza en un ángulo de 90º


(tipos)

♦ QUARTIMAX
♦ VARIMAX!DYANE (utilizada en el curso)
♦ EQUIMAX

13
♦ Rotación oblicua: Cuando nos es una rotación con un ángulo de referencia de 90º
♦ Criterios para determinar el nivel de significación de las cargas factoriales.
(Interpretación de los factores)

Al interpretar los factores, se debe determinar qué cargas factoriales merece la pena considerar. Para
ello hay dos criterios importantes.

a) Asegurar la significación práctica.

Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55

14
Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75

b) Valorar la significación estadística.

Utilizar un nivel de significación de 0,5 y potencia de 0,8.

• Caso practico.

El caso TeleSake

X1 : Velocidad de entrega

X2 : Nivel de precios

X3 : Presentación de la comida

X4 : Imagen del logotipo

X5 : Eficacia del servicio

X6 : Atención al cliente

X7 : Calidad de la comida

El punto 6, Caso práctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7 quedará
cubierto. El punto 7 lo trataremos primero, pero sólo con el Dyane y simplemente para ver los
criterios a utilizar y la interpretación y el análisis de los datos.

Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicación del AFC:

(1) módulo de tablas de frecuencias,

(2) módulo de tablas de medios, y

(3) módulo de tablas específicas (DYANE, pp.318−337).

Si vuestros cuestionarios se basan en variables categóricas, normalmente es recomendable utilizar el


primer módulo (es decir, las variables tanto filas como columnas son categóricas). Sin embargo, si
los cuestionarios usan variables numéricas con escalas de Likert, podríamos elegir el segundo
módulo (es decir, las variables filas son numéricas mientras que las variables columnas son
categóricas). Si tenéis alguna duda o pregunta, mandad un mensaje al foro o pasad por mi despacho
con vuestros datos.

Haremos otra práctica con la BD de Telesake:

• Con Dyane.

−−>[Author:RGM]

ANÁLISISDECOMPONENTESPRINCIPALES

=====================================================================

15
IDENTIFICACIÓN DE LAS VARIABLES

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

VARIABLE 1 : X1 − X1

VARIABLE 2 : X2 − X2

VARIABLE 3 : X3 − X3

VARIABLE 4 : X4 − X4

VARIABLE 5 : X5 − X5

VARIABLE 6 : X6 − X6

VARIABLE 7 : X7 − X7

Matriz de coeficientes de correlación simple

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

X1 X2 X3 X4 X5 X6 X7

−−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−

X1 1,0000 −0,3492 0,5093 0,0504 0,6119 0,0771 −0,4826

X2 −0,3492 1,0000 −0,4872 0,2722 0,5130 0,1862 0,4697

X3 0,5093 −0,4872 1,0000 −0,1161 0,0666 −0,0343 −0,4481

X4 0,0504 0,2722 −0,1161 1,0000 0,2987 0,7882 0,2000

X5 0,6119 0,5130 0,0666 0,2987 1,0000 0,2408 −0,0552

X6 0,0771 0,1862 −0,0343 0,7882 0,2408 1,0000 0,1773

X7 −0,4826 0,4697 −0,4481 0,2000 −0,0552 0,1773 1,0000

Test de Bartlett

−−−−−−−−−−−−−−−−

Determinante de la matriz de correlación = 0,002679

Ji cuadrado con 21 grados de libertad = 567,5407 (p = 0,0000)

Según el test de Bartlett me sale significativo

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7

16
−−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−

VALOR PROPIO: 2,5258 2,1204 1,1811 0,5412 0,4180 0,2044 0,0092

% DE VARIANZA: 36,08% 30,29% 16,87% 7,73% 5,97% 2,92% 0,13%

% VAR.ACUMUL.: 36,08% 66,37% 83,25% 90,98% 96,95% 99,87% 100,00%

CARGAS DE

LOS FACTORES: COMUNALIDAD

−−−−−−−−−−−

X1 −0,5280 0,7515 −0,2024 −0,0312 −0,3340 −0,0047 0,0541 1,0000

X2 0,7924 0,0931 −0,5081 −0,0055 0,3195 −0,0255 0,0508 1,0000

X3 −0,6920 0,3745 0,1727 −0,4761 0,3512 0,0320 0,0010 1,0000

X4 0,5640 0,6020 0,4524 0,1014 0,0243 0,3225 0,0025 1,0000

X5 0,1858 0,7789 −0,5949 −0,0283 −0,0197 −0,0075 −0,0604 1,0000

X6 0,4921 0,6040 0,5418 0,0248 0,0238 −0,3135 −0,0009 1,0000

X7 0,7386 −0,2698 0,0054 −0,5494 −0,2820 0,0185 −0,0009 1,0000

También tenemos 7 factores con valores propios. En esta matriz consideramos todos los factores, por
lo que tenemos la Comunalidad igual a 1

COEFICIENTES DE

PUNTUACIÓN DE

LOS FACTORES:

X1 −0,2090 0,3544 −0,1714 −0,0576 −0,7991 −0,0231 5,9081

X2 0,3137 0,0439 −0,4302 −0,0101 0,7643 −0,1246 5,5418

X3 −0,2740 0,1766 0,1462 −0,8798 0,8401 0,1566 0,1133

X4 0,2233 0,2839 0,3830 0,1873 0,0582 1,5778 0,2730

X5 0,0736 0,3673 −0,5037 −0,0522 −0,0470 −0,0368 −6,5904

X6 0,1948 0,2848 0,4587 0,0459 0,0569 −1,5340 −0,0946

X7 0,2924 −0,1272 0,0046 −1,0151 −0,6746 0,0905 −0,1034

Esta matriz, de momento, no tiene importancia

17
Cargas de los factores retenidos:

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD

−−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−−−−

X1 −0,5280 0,7515 −0,2024 0,8845

X2 0,7924 0,0931 −0,5081 0,8947

X3 −0,6920 0,3745 0,1727 0,6490

X4 0,5640 0,6020 0,4524 0,8851

X5 0,1858 0,7789 −0,5949 0,9951

X6 0,4921 0,6040 0,5418 0,9005

X7 0,7386 −0,2698 0,0054 0,6183

VARIANZA: 2,5258 2,1204 1,1811

% DE VARIANZA: 36,08% 30,29% 16,87%

% VAR.ACUMUL.: 36,08% 66,37% 83,25%

Hemos obtenido 3 factores más importantes. Ahora la Comunalidad es menor que 1, pero bastante
alta. Pero con esta matriz es difícil distinguir que variable es más importante que las otras.

Lo que podremos saber es cuanto varianza está explicada con el análisis de componentes principales.
Podemos ver que es muy elevada, y se pueden explicar casi todos los factores.

ROTACIÓN VARIMAX:

−−−−−−−−−−−−−−−−−

Cargas de los factores retenidos (después de la rotación):

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD

−−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−−−−

X1 −0,7524* 0,0711 0,5598 0,8845

X2 0,7539* 0,1081 0,5609 0,8947

X3 −0,8055* 0,0063 0,0095 0,6490

18
X4 0,1167 0,9210* 0,1525 0,8851

X5 −0,0620 0,1763 0,9799* 0,9951

X6 0,0341 0,9452* 0,0766 0,9005

X7 0,7596* 0,1930 −0,0644 0,6183

VARIANZA: 2,3788 1,8269 1,6215

% DE VARIANZA: 33,98% 26,10% 23,16%

% VAR.ACUMUL.: 33,98% 60,08% 83,25%

La interpretación es mucho más fácil y significativa. −−>[Author:RGM]

La varianza explicada no ha cambiado. Se mantiene.

COEFICIENTES DE

PUNTUACIÓN DE

LOS FACTORES:

X1 −0,3037 0,0039 0,3262

X2 0,3452 −0,0997 0,3953

X3 −0,3487 0,0694 −0,0349

X4 −0,0189 0,5227 −0,0598

X5 0,0073 −0,0665 0,6242

X6 −0,0604 0,5582 −0,1194

X7 0,3094 0,0657 −0,0407

Ahora tendremos que interpretar los factores. Tendremos que poner nombre o etiqueta a cada factor.
Esto dependerá. Hay una regla general para atribuir significado a cada factor:

Siempre hay que considerar las variables con mayores cargas.

−−>[Author:RGM]

Al final tenemos la interpretación gráfica.

REPRESENTACIÓN GRÁFICA DE LOS FACTORES

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

VARIABLES:

19
Código Significado

−−−−−− −−−−−−−−−−−−−−−−

A X1

B X2

C X3

D X4

E X5

F X6

G X7

FACTORES 1 y 2:

FACTOR 2

1,0 + + |

| |F |

0,9 + + D |

|||

0,8 + + |

|||

0,7 + + |

|||

0,6 + + |

|||

0,5 + + |

|||

0,4 + + |

|||

20
0,3 + + |

|||

0,2 + E + G |

|||

0,1 + + B |

|A||

0,0
+−−−−+−−−C−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−
1

|||

−0,1 + + |

|||

−0,2 + + |

|||

−0,3 + + |

|||

−0,4 + + |

|||

−0,5 + + |

|||

−0,6 + + |

|||

−0,7 + + |

|||

−0,8 + + |

|||

−0,9 + + |

21
|||

−1,0 + + |

|+++++++++++++++++++

−1,0 −0,8 −0,6 −0,4 −0,2 0,0 0,2 0,4 0,6 0,8 1,0

• Con SPSS.

Ahora veremos las opciones en el SPSS. Usaremos los mismos datos que antes, para el análisis con el
SPSS.

Seleccionamos el elemento de menú Analizar/Reducción de datos/Análisis Factorial

22
Y nos aparecerá una ventana como la siguiente:

23
−−>[Author:RGM]

Ahora pulsamos Descriptivos

Matriz de correlaciones dependerá de lo que queramos, pero chequearemos KMO y prueba de


esfericidad de Bartlett para asegurarnos un grado de significación de variables

Pulsamos ahora Extracción:

24
−−>[Author:RGM]

Autovalores mayores que: podemos cambiarlo a 0,8 por ejemplo. −−>[Author:RGM]

También podemos cambiar el criterio a Número de factores, porque sepamos el número de factores
que queremos extraer. −−>[Author:RGM]

Nosotros usaremos el primer criterio

Nos interesa seleccionar también el Gráfico de sedimentación, y la Solución factorial sin rotar.

Seleccionamos ahora Rotación:

Seleccionamos ahora Puntuaciones:

Guardar las puntuaciones factoriales para análisis posteriores. −−>[Author:RGM]

25
En botón opciones:

Para ACP podemos seleccionar varios métodos para sustituir o tratar los valores ausentes. Nosotros
usaremos Reemplazar por la media ya que es el valor teóricamente mas representativo.

En formato de utilización, usaremos ordenados por tamaño, para ayudar en la visualización

Suprimir valores absolutos menores que: Opción muy importante a seleccionar. −−>[Author:RGM]

Pulsaremos Continuar y Aceptar, para pasar al análisis de los resultados

6.2.1 Análisis de los datos con SPSS.

A. factorial

Notas

Resultados creados 05−MAR−2004 17:48:02


Comentarios
C:\Documents and
Datos
Settings\ecolab\Escritorio\Rafa\TeleSake.sav
Filtro <ninguna>
Peso <ninguna>
Segmentar archivo <ninguna>
Núm. de filas del archivo de trabajo 100
Entrada Manipulación Definición de los perdidos MISSING=EXCLUDE:
de los valores Los valores definidos
perdidos como perdidos por el

26
usuario son
considerados como
perdidos.
MEAN
SUBSTITUTION: Para
cada variable utilizada,
Casos utilizados.
los valores perdidos
son sustituidos por la
media de las variables.
FACTOR /VARIABLES x1 x2 x3 x4 x5 x6
x7 /MISSING MEANSUB /ANALYSIS x1
x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO
EXTRACTION ROTATION /FORMAT
Sintaxis SORT BLANK(.50) /PLOT EIGEN
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC /CRITERIA
ITERATE(25) /ROTATION VARIMAX
/METHOD=CORRELATION .
Tiempo
0:00:00,16
Recursos transcurrido
Memoria máxima necesaria 7204 (7,035K) bytes

KMO y prueba de Bartlett

Medida de adecuación muestral de


,446
Káiser−Meyer−Olkin.
Chi−cuadrado
Prueba de 567,541
aproximado
esfericidad de
Bartlett gl 21
Sig. ,000

Vemos que es inaceptable: según KMO sale 0,446. Según nuestro criterio, si KMO < 0,5 es
inaceptable.

Sin embargo la segunda prueba, Test de Bartlett, sale significativo. −−>[Author:RGM]

−−>[Author:RGM]

Para un estudio exploratorio, podemos aceptar este test, puesto que ha salido significativo para el
test de Bartlett.

Comunalidades

Inicial Extracción
Velocidad de entrega 1,000 ,884
Nivel de precios 1,000 ,895
Presentación de la
1,000 ,649
comida
Imagen del logotipo 1,000 ,885

27
Eficacia del servicio 1,000 ,995
Atención al cliente 1,000 ,901
Calidad de la comida 1,000 ,618

Método de extracción: Análisis de Componentes principales.

Este cuadro muestra cuanta varianza esta explicada con este modelo. Inicialmente está a 1, porque
tiene todos los factores. Después de la extracción, baja; pero podemos ver que estamos con niveles
muy altos.

Varianza total explicada

Sumas de las saturaciones al Suma de las saturaciones al


cuadrado de la extracción cuadrado de la rotación
Componente Autovalores iniciales

28

Вам также может понравиться