You are on page 1of 14

La varianza es una medida de tendencia central.

Esto quiere decir que te ayuda a determinar qué tan


alejados o cercanos están tus datos del centro; es decir, del promedio o de la media.

Mira, trata de darle una interpretación a los cálculos que se hacen para sacar la varianza: se calcula la
diferencia de cada uno de los datos con respecto a la media. Y esta diferencia se eleva al cuadrado, para
hacer más notoria esa diferencia entre datos.

Como los datos arrojados por la varianza están elevados al cuadrado, a veces, cuando los datos tienen
unidades pues resulta difícil darles una interpretación física real. Por eso es que existe la desviación
estándar, que no es más que la raíz cuadrada de la varianza.

DEFINICIÓN DE VARIANZA
La noción de varianza se suele emplear en el ámbito de la estadística. Se trata de una
palabra impulsada por el matemático y científico inglés Ronald Fisher (1890–1962) y
sirve para identificar a la media de las desviaciones cuadráticas de una variable de
carácter aleatorio, considerando el valor medio de ésta. Lo que hace la varianza
es establecer la variabilidad de la variable aleatoria. Es importante tener en cuenta
que, en ciertos casos, es preferible emplear otras medidas de dispersión ante
las características de las distribuciones.
Se denomina varianza muestral cuando se calcula la varianza de una comunidad, grupo
o población en base a una muestra. La covarianza, por otra parte, es la medida de
dispersión conjunta de un par de variables.
Los expertos hablan de análisis de la varianza para nombrar a la colección de modelos
estadísticos y sus procedimientos asociados en la cual la varianza aparece particionada en
distintos componentes.

5.1 Análisis de la Varianza con un sólo factor.


Esta es una prueba generalizada del contraste de medias para muestras con datos independiente.
Se comparan tres o más muestras independientes cuya clasificación viene dada por la variable
llamada Factor. La base de este procedimiento consiste en estudiar si el Factor influye sobre
la Variable Respuesta, y la forma de hacerlo es analizando como varían los datos dentro de
cada uno de los grupos en que clasifica el Factor a la observaciones de la Variable Respuesta.

Ejemplo 5.1. Supongamos que estamos interesados en conocer si existen diferencias


significativas entre el tiempo diario de dedicación a la investigación de los profesores, en
función de la categoría que tienen. Para ello, elegiremos las siguientes opciones desde el menú
principal:
y con esto se abre un cuadro de diálogo con los siguientes campos:

Dependientes: en este campo se introduce la variable respuesta a analizar. En el Ejemplo


5.1 sería Tinvest (tiempo diario para la investigación).
Factor: aquí se introduce la variable de clasificación, que ha de ser categórica. Para el
ejemplo, se considera la Categoría de los profesores.

Además de los campos anteriores existen tres botones cuya utilidad es la siguiente:

CONTRASTES. Con este botón se trata de averiguar si los valores promedios de la


variable dependiente para cada nivel del factor, siguen o no alguna tendencia
determinada, lineal, cuadrática, cúbica, de grado 4 ó 5. Además de poder realizar
cualquier tipo de comparación a priori, entre las medias de la variable respuesta para los
niveles del factor que se elijan. Permite realizar hasta 10 contrastes diferentes, con 50
coeficientes en cada uno de ellos. Para excluir algún grupo se le asigna el coeficiente 0.
POST HOC. Este tiene como finalidad averiguar cuál o cuáles de los diferentes grupos o
niveles del factor son los que difieren entre sí, a través de una serie de pruebas diferentes
(Contrastes a posteriori).
OPCIONES. Este botón permite mostrar una serie de estadísticos descriptivos para cada
grupo de la muestra o nivel del factor, el test de Levene para comprobar la homogeneidad
de varianzas entre los distintos grupos, un gráfico de las medias de cada grupo y la forma
de tratar los valores perdidos.

Ejecutamos el procedimiento con las variables indicadas anteriormente y elegimos dentro de


OPCIONES la prueba de homogeneidad de varianzas, obteniéndose los siguientes resultados.

Tabla 5: Análisis de la Varianza con 1 Factor


ANOVA de un factor

Prueba de homogeneidad de varianzas


Tiempo diario para la investigación
Estadístico
de Levene gl1 gl2 Sig.
1,713 5 74 0,142
ANOVA

Tiempo diario para la investigación

Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 190239,152 5 38047,830 47,177 ,000
Intra-grupos 59680,480 74 806,493
Total 249919,632 79

En la Tabla 5 aparecen los resultados sobre la homogeneidad de varianzas y el Anova. Como se


puede apreciar en la homogeneidad de varianzas, el p-valor es de 0.142 que es mayor que 0.05,
luego podemos aceptar la igualdad de varianzas entre los grupos. Mientras que en el Anova,
podemos ver que el estadístico es bastante grande 47.177 y el p-valor vale 0, lo que nos conduce
a rechazar el que los tiempos medios dedicados a la investigación sean iguales según la
categoría que tiene el profesor.

Example 5.2. Puesto que el análisis ha dado significativo, veamos cuáles de los niveles del
factor difieren entre sí. Para ello, volvemos a entrar en el procedimiento Anova de un factor, y
con las mismas variables seleccionadas pulsamos en el botón POST HOC. Se muestra a
continuación otro cuadro donde aparece una serie de posibles constrastes a posteriori. Supuestas
las varianzas iguales, están el de Bonferroni, Scheffe, Tuckey, Duncan, etc., y entre los que se
asume varianzas distintas el T2 de Tamnhane, el T3 de Dunnett, etc. Elegimos el test
de Tuckey y pulsamos CONTINUAR y ACEPTAR.

Los resultados obtenidos indican que los tiempos medios dedicados a la investigación para los
catedráticos de escuela, los titulares de universidad y los titulares de escuela se pueden
considerar iguales, y por otro lado, también ocurre lo mismo con los de los profesores asociados
y los de los ayudantes.

5.2 Análisis de la Varianza Multifactorial


El procedimiento Modelo Lineal General Univariante proporciona un Análisis de Regresión y
un Análisis de la Varianza para una variable dependiente (respuesta) con uno o más factores, o
covariables. Los factores dividen la población en grupos. Con este procedimiento se pueden
investigar las interacciones entre los factores, así como los efectos de los factores individuales,
algunos de los cuales pueden ser aleatorios. Además se pueden incluir los efectos de las
covariables y las interacciones de las covariables con los factores. Para el Análisis de Regresión,
las variables independientes (predictoras) se especifican como covariables.

Se consideran tanto los modelos balanceados como los que no. Esto es, un diseño es balanceado
si cada casilla del modelo contiene el mismo número de casos. Además de contrastar las
hipótesis el procedimiento MLGU genera las estimaciones de los parámetros.

También están disponibles en esta opción los contrastes a priori de uso más habitual. Por otra
parte, si en el análisis de la varianza global la F ha mostrado cierta significación, se pueden
emplear las pruebas Post Hoc para evaluar las diferencias entre las medias especificadas. Las
medias marginales estimadas ofrecen estimaciones de los valores de las medias pronosticadas
para las casillas del modelo; los Gráficos de Perfil de estas medias (gráficos de interacciones)
permiten observar fácilmente algunas de las relaciones entre los factores.

Calcula los residuos, valores pronosticados, distancia de Cook, y valores de influencia como
variables nuevas para comprobar los supuestos, información toda ella que permite guardar en un
archivo de datos.

Para seleccionar este procedimiento elegimos de forma seguida las siguientes opciones desde el
menú principal:

Entonces se abre un cuadro de diálogo con una serie de campos y botones. Entre los campos nos
encontramos con:

Dependientes: se recoge aquí la variable respuesta que se desea analizar.


Factores Fijos: se introducen aquellos factores cuyos efectos de los niveles se quieren
estudiar de manera precisa.
Factores Aleatorios: en este campo se colocan aquellos factores donde se selecciona de
forma aleatoria los niveles a estudiar, y luego se extrapolan los resultados al resto.
Covariables: se introducen las covariables, esto es, aquellas otras variables que guardan
relación con la variable respuesta y están medidas como la misma, en escala de intervalo
o de razón.
Ponderación MCP: permite especificar una variable para ponderar las observaciones de
forma diferente en un análisis de mínimos cuadrados ponderados (MCP). Esto se suele
hacer para compensar la distinta precisión de las medidas.

En cuanto a los botones, se tienen los siguientes:


a) MODELO. Este botón esconde un cuadro con las siguientes opciones:

Especificar modelo. Por defecto está activa la opción Factorial Completo, la cual considera los
efectos principales de todos los factores, los efectos principales de todas las covariables y todas
las interacciones entre los factores. No contempla las interacciones entre las covariables, ni de
los factores con las covariables. Para especificar un determinado conjunto de interacciones se ha
de seleccionar el campo Personalizado. En este caso se activan los campos:

Factores y Covariables: muestra una lista de los factores y las covariables, etiquetando con F a
los factores fijos, con C a las covariables y con R a los factores aleatorios.

Modelo: depende de la naturaleza de los datos. Aquí mediante el campo Construir término, se
pueden elegir los efectos principales y las interacciones que sean de interés en el análisis, y que
se quieren contemplar en el modelo.

Suma de Cuadrados. Aquí se indica el método para calcular las sumas de cuadrados, que por
defecto es el Tipo III. Los otros tipos de sumas de cuadrados se utilizan según sea un modelo
balanceado o no, anidado o no, con o sin categorías o combinación de categorías vacías. Así por
ejemplo, si para alguna combinación de niveles el grupo está vacío se recomienda utilizar la
suma de cuadrados Tipo IV.

Incluir la intersección en el modelo. La intersección se incluye normalmente en el modelo. Si se


supone que los datos pasan por el origen se puede excluir ésta.

b) CONTRASTES. Este botón se usa para contrastar las diferencias entre los niveles de un factor.
A los contrastes de este tipo se les denomina Contrastes Planificados o a Priori. Se puede
especificar un contraste para cada factor en el modelo. Los contrastes representan las
combinaciones lineales de los parámetros.

El contraste de hipótesis se basa en la hipótesis nula , donde es la matriz de


coeficientes del contraste y es el vector de parámetros. Cuando se especifica un contraste, el
SPSS crea una matriz en la que las columnas correspondientes al factor coinciden con el
contraste. El resto de las columnas se corrigen para que la matriz sea estimable.

Los contrastes disponibles son:

Desviación. Compara las medias de los distintos niveles del factor, excepto la media de la
categoría de referencia, con la media global de la variable dependiente de todos los
niveles.
Simples. Compara la media de cada nivel, excepto la del nivel de referencia con la media
del nivel de referencia.
Diferencia. Compara la media de cada nivel (excepto la del primero) con la media de
todos los niveles que le preceden.
Helmet. Compara la media de cada nivel (excepto la del último) con la media del resto de
los niveles que le siguen.
Repetida. Se compara la media de cada nivel del factor con la media del nivel que le
precede.
Polinomial. Cada fator es contrastado a través de un polinomio lineal, cuadrático, cúbico,
etc.

En los contrastes de desviación y contrastes simples, se puede determinar la categoría de


referencia pudiendo ser la primera o la última.

c) GRÁFICOS DE PERFIL. Son gráficos de líneas en el que cada punto indica la media marginal
estimada de una variable dependiente (corregida respecto a las covariables) en un nivel de un
factor. Los niveles de un segundo factor se pueden utilizar para generar líneas diferentes,
mientras que cada nivel de un tercer factor se utilizaría para crear gráficos distintos. Permiten
visualizar la posible interacción entre factores. Si las líneas en el gráfico se cruzan existe
interacción, si por el contrario, las líneas son paralelas no la hay. También con ellos, se puede
observar la tendencia de los valores promedios de la variable dependiente para los distintos
niveles de cada factor.

Una vez se ha elegido los factores a representar, se debe pulsar el botón AÑADIR para incluirlos
en la lista de gráficos. En caso contrario, el sistema muestra un aviso.

d) POST HOC. Tras saber que existen diferencias entre las medias, las pruebas de rango Post
Hoc y las comparaciones múltiples por parejas permiten determinar las medias que difieren. Las
comparaciones se realizan sobre valores sin corregir, y sólo se utilizan tales pruebas para
factores de efectos fijos.

e) GUARDAR. Este botón nos abre un cuadro que nos permite guardar los valores pronosticados
por el modelo, los residuos y las medidas relacionadas como variables nuevas en el editor de
datos. Muchas veces, estas variables se pueden utilizar para examinar supuestos sobre los datos.
Dentro de este cuadro se tiene:

Valores pronosticados: nos referimos a los pronosticados no tipificados y los errores tipificados
de los valores pronosticados. Si ha seleccionado una variable de ponderación MCP, dispondrá
así mismo de los valores pronosticados no tipificados ponderados.

Diagnósticos: son medidas para identificar casos con combinaciones pocos usuales de valores
para las variables independientes, y casos que puedan tener un gran impacto en el modelo. Las
opciones disponibles incluyen la distancia de Cook y los valores de influencia no centrados.
Residuos: un residuo no tipificado es el valor real de la variable dependiente menos el valor
pronosticado por el modelo. También se encuentran disponibles residuos eliminados,
estudentizados y tipificados. Si ha seleccionado una variable de ponderación MCP, contará
además con residuos no tipificados ponderados.

Guardar en archivo nuevo: las estimaciones del modelo. Para cada variable dependiente habrá
una fila de las estimaciones de los parámetros, una fila de valores de significación para los
estadísticos t de Student correspondientes a las estimaciones de los parámetros, y una fila de
grados de libertad.

f) OPCIONES. El cuadro de diálogo que se abre al pulsar este botón contiene estadísticos
opcionales. Tales estadísticos se calculan utilizando un modelo de efectos fijos.

- Medias marginales estimadas. Se trata de las medias marginales para cada grupo. Estas medias
se corrigen respecto a las covariables, si las hay.

Comparar los efectos principales: lleva a cabo comparaciones por parejas no corregidas,
entre las medias marginales estimadas para cualquier efecto principal del modelo, tanto para los
factores entre sujetos como para los de dentro de los sujetos. Este elemento sólo se encuentra
disponible si los efectos principales están seleccionados en la lista de Mostrar las medias para.

Ajuste del Intervalo de Confianza: nos permite seleccionar un ajuste de menor diferencia
significativa (DMS), Bonferroni o Sidak para los intervalos de confianza y la significación. Este
elemento sólo estará disponible si se selecciona Comparar los efectos principales.

- Mostrar. Dentro de este cuadro se recogen las siguientes opciones:

Estadísticos Descriptivos: entre los que se encuentran medias muestrales, desviaciones típicas y
frecuencias para cada variable dependiente en todos los grupos.

Estimaciones del tamaño del efecto: ofrece un valor parcial de eta-cuadrado para cada efecto y
cada estimación de los parámetros. El estadístico eta-cuadrado describe la proporción de
variabilidad total atribuible a un factor.

Potencia observada: produce la potencia de la prueba cuando la hipótesis alternativa se ha


establecido basándose en el valor observado.

Estimaciones de los parámetros: genera las estimaciones de los parámetros, los errores típicos,
las pruebas t de Student donde se contrastan los parámetros con el valor 0, los intervalos de
confianza y la potencia observada de la prueba.

Matriz de coeficientes de contraste: con ella se obtiene la matriz .

Las pruebas de homogeneidad: realiza el test de Levene para contrastar la igualdad de varianzas
para cada variable dependiente en todas las combinaciones de niveles de los factores entre
sujetos.

Diagramas de dispersión por nivel y Gráfico de los residuos: son útiles para comprobar los
supuestos sobre los datos. Estos elementos no están activos si no hay factores.

Gráficos de los residuos: produce un gráfico de los residuos observados respecto a los
pronosticados, y respecto a los tipificados para cada variable dependiente. Estos gráficos son
útiles para investigar el supuesto de varianzas iguales.

Falta de ajuste: para comprobar si el modelo puede describir de forma adecuada la relación
entre la variable dependiente y las variables independientes.

Función estimable general: permite construir pruebas de hipótesis personales basadas en la


función estimable general. Las filas en las matrices de coeficientes de contraste son
combinaciones lineales de la función estimable general.

- Nivel de significación. Para indicar el nivel de significación usado en las pruebas Post Hoc y el
nivel de confianza empleado para construir intervalos de confianza. El valor especificado
también se utiliza para calcular la potencia observada para la prueba. Si especifica un nivel de
significación, el cuadro de diálogo mostrará el nivel asociado de los intervalos de confianza.

Ejemplo 5.3. Veamos la influencia sobre el tiempo dedicado a la docencia (variable respuesta)
de los factores Categoría y Número de Asignaturas que imparte el profesor. Para ello
seleccionamos:
Entonces se abre el cuadro de diálogo en el que se introduce la variable Tiemdoc
como Variable Dependiente, y las variables Categoría y Numasig como Factores de Efectos
Fijos.

A continuación seleccionamos el botón GRÁFICOS y elegimos las variables Categoría para


el Eje horizontal y Numasig para Líneas distintas. Presionamos AÑADIR y CONTINUAR para
volver al cuadro principal. Con esto podemos ver si existe o no interacción.

Pulsamos también el botón OPCIONES y elegimos la Prueba de Homogeneidad y el Gráfico


de los Residuos.

Volviendo al cuadro principal, pulsamos el botón de ACEPTAR para ejecutar el procedimiento.


Con ello se obtienen tres tablas:

- En la primera se muestra un simple resumen del número de profesores de cada categoría y del
número de profesores según el número de asignaturas que imparte.

- La segunda tabla se refiere al constraste de Levene sobre la igualdad de varianzas, cuyo


resultado aparece en la Tabla 6. Como se puede ver, el p-valor 0.003 es menor que 0.05, luego
se rechaza que las varianzas sean iguales.

Tabla 6: Contraste de Homogeneidad de Varianzas


Contraste de Levene sobre la igualdad de las varianzas error

Variable dependiente: Tiempo diario para la docencia

F gl1 gl2 Significación.


2,737 15 64 0,003

Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los
grupos.
a.Diseño: Intercept + Categoría + Numasig + Categoría*Numasig

- La última tabla que muestra 7 recoge el Anova. En ella, los p-valores son todos menores que
0.05, salvo el de la interacción que es de 0.685. Esto quiere decir, que tanto la categoría del
profesor como el número de asignaturas que imparte influyen en el tiempo que dedica a la
docencia, pero la interacción no. El sistema también muestra el R cuadrado que vale en este
caso, 0.789, lo que indica que el 78.9% del tiempo dedicado a la docencia por los profesores es
explicado por el modelo.

Tabla 7: Análisis de la Varianza con Dos Factores


Pruebas de los efectos inter-sujetos
Variable dependiente: Tiempo diario para la docencia

Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación

Modelo corregido 15 8670,273 16,890 ,000

Intercept 1305242,259 1 1305242,26 2542,707 ,000


Categoría 21788,020 5 4357,604 8,489 ,000
Numasig 8343,455 4 2085,864 4,063 ,005
Categoría * 2022,901 6 337,150 ,657 ,685
Numasig
Error 32852,977 64 513,328
Total 3785312,102 80
Total Corregida 162907,072 79

. R cuadrado =,789 (R cuadrado corregida = ,751)

Dentro de los resultados también se encuentran los siguientes gráficos. El Gráfico de los
Residuos que muestra la Figura 7 y el Gráfico de Perfil que recoge la Figura 8. A partir del
Gráfico de los Residuos se puede concluir que el modelo es relativamente bueno, ya que el
gráfico de observados frente a pronosticados tiene una tendencia a estar sobre una recta
creciente. Mientras que en los gráficos de los residuos frente a observados, y residuos frente a
pronosticados, los puntos están al azar sin haber un patrón definido. Tal vez un poco menos en
el gráfico de residuos frente a observados.
En el Gráfico de Perfil, se puede apreciar que existe cierta interacción entre los factores, ya que
las rectas no son paralelas, y algunas se intersectan.

Ya que el Anova nos da que los tiempos medios difieren, podemos saber que grupos tienen
medias iguales o distintas. Para ello, entramos de nuevo en el procedimiento MLGU y con las
mismas variables seleccionadas, pulsamos el botón POST HOC. Entonces elegimos la variable
Categoría y el Test de Duncan. Tras esto, el sistema mostrará dos tablas: en la primera de ellas
se muestra las diferencias de medias, el error típico de tal diferencia, el p-valor para el contraste
de cada par de medias y el intervalo de confianza. Mientras que en la segunda se recogen los
subconjuntos homogéneos.

Las conclusiones que se obtienen es que hay dos grupos homogéneos, en cuanto al tiempo
medio dedicado a la docencia, el de profesores ayudante y asociados; y el de titulares de
universidad, de escuela y catedráticos de escuela.

Figura 7: Gráfico de los Residuos

Figura 8: Gráfico de Perfil


ANÁLISIS DE LA VARIANZA

V. Abraira

Bibliografía:

V. Abraira, A. Pérez de Vargas


Métodos Multivariantes en Bioestadística.
Ed. Centro de Estudios Ramón Areces. 1996.

Análisis de la varianza

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias,
que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente
el contraste basado en la t de Student. por dos motivos:

En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la


probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t
supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad a. Si se realizan m contrastes
independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 -
a)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para valores de a próximos a 0
es aproximadamente igual a a m. Una primera solución, denominada método de Bonferroni, consiste en
bajar el valor de a, usando en su lugar a/m, aunque resulta un método muy conservador.

Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma
población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las
muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la
varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.

El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que
permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y,
de alguna manera, es la base del análisis multivariante