Вы находитесь на странице: 1из 6

ANOVA

La técnica del Análisis de la Varianza (ANOVA o AVAR) es una de las técnicas más
utilizadas en los análisis de los datos de los diseños experimentales. Se establece un
estudio para evaluar comparativamente unos resultados en distintas clasificaciones o
grupos. De esta manera, es posible calcular si los valores medios son iguales en los
distintos grupos estudiados. (Navarro, 2016)
Características de ANOVA

 Útil para eliminar heterogeneidad de la varianza.


 Sólo es efectivo si la media tiene una relación constante con la varianza.
 La transformación debe ser monotónica.
 Deben mantenerse las medias en el mismo orden.
 La transformación debe utilizarse únicamente para evitar el problema de
 heterogeneidad de la varianza.
 Transformaciones sistemáticas son perjudiciales.

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:
(Valor observado) =∑ (efectos atribuibles) + ∑ (efectos no atribuibles o residuales)

El valor observado se refiere al que se obtiene en la variable cuantitativa dependiente.


Los efectos atribuibles son parámetros o variables aleatorias que son el resultado de
cambios en los factores o variables independientes y, por tanto, atribuibles a ellos.
Aquellos efectos no atribuibles a ningún factor controlado se denominan efectos
residuales o variables aleatorias residuales.

El ANOVA está basado en ciertos supuestos, unos más plausibles que otros, acerca de
dichas variables aleatorias. Es evidente que cuantos más factores introduzcamos menos
cantidad de variación residual (error) quedará por explicar. Los supuestos en los que está
basado respecto a la variación residual se resumen en los siguientes:

1. El valor esperado de cada variable aleatoria residual es cero. Esto significa que
toda la variación de los valores esperados es debida a los parámetros (y/o variables
aleatorias) que representan efectos atribuibles. En la mayor parte de las
situaciones este supuesto no es incorrecto.
2. Las variables aleatorias residuales son mutuamente independientes. Significa que
entre las observaciones no existe nexo alguno que no sea explicado por los
factores controlados. El supuesto no es tan claramente correcto como el primero,
pero se puede mantener razonablemente si los individuos se eligen al azar y la
medición se hace separadamente para cada uno.
3. Todas las variables aleatorias residuales tienen la misma desviación típica. Es el
llamado supuesto de homoscedasticidad o de igualdad de varianzas. Es el menos
viable, pues los métodos de medida producen variaciones de diferente magnitud
y sabemos que los valores esperados están relacionados con las desviaciones
típicas.
4. Toda variable aleatoria residual se distribuye normalmente. Es probablemente, el
menos válido de los cuatro. Sin embargo, se puede tolerar cierto alejamiento de la
normalidad con mínimo efecto práctico sobre las propiedades del ANOVA.
(Tamayo , s.f.)

Análisis simple de la varianza


El objetivo principal de muchos experimentos consiste en determinar el efecto que
sobre alguna variable dependiente Y tienen distintos niveles de algún factor X
(variable independiente y discreta). El factor puede ser la temperatura, la empresa que
ha producido el bien, el día de la semana, etc. Esencialmente, el diseño para el análisis
simple de la varianza consistirá en obtener muestras aleatorias e independientes del
valor de Y asociado a cada uno de los distintos niveles del factor X1, X2,..., Xn .
Entonces podremos determinar si los diferentes niveles del factor tienen un efecto
significativo sobre el valor de la variable dependiente.

El funcionamiento de la técnica ANOVA simple es, a grandes rasgos, el siguiente: a


fin de comparar las medias de Y asociadas a los distintos niveles del factor (X1, X2,...,
Xn), compararemos una medida de la variación entre diferentes niveles (MS-factor)
con una medida de la variación dentro de cada nivel (MS-error). Si el MS-factor es
significativamente mayor que el MS-error, concluiremos que las medias asociadas a
diferentes niveles del factor son distintas. Esto significa que el factor influye
significativamente sobre la variable dependiente Y. Si, por el contrario, el MS-factor
no es significativamente mayor que el MS-error, no rechazaremos la hipótesis nula de
que todas las medias, asociadas a diferentes niveles del factor, coinciden. (Terrádez
& Juan, s.f.)
El modelo asociado al i-ésimo nivel del factor X será:
Y= µ + ε

Análisis multifactorial de la varianza


Estudia los posibles efectos causados por diferentes niveles de factores sobre la
variable dependiente. Así, por ejemplo, en agricultura estaremos interesados en
estudiar qué efectos tendrán, sobre el crecimiento de las patatas, variaciones en los
niveles de potasio y nitrógeno de la tierra; en medicina, estaremos interesados en
estudiar los efectos, sobre el dolor de cabeza, del medicamento y de la dosis
empleados; en educación, buscaremos conocer qué efectos, sobre el tiempo necesario
para adquirir unos conocimientos, tendrán los factores nivel de estudios y sexo; en
una campaña de marketing, estaremos interesados en conocer los efectos del
presupuesto y del medio usado (televisión, revistas, ...) sobre las ventas; etc.
 Factores significativos: plantear que factores tienen influencia sobre la
variable respuesta, o, equivalentemente, en cuáles se observan diferencias
significativas entre los distintos niveles. Es “similar” a realizar varios
ANOVAS simples (aunque no equivalente, ya que el procedimiento maten
ático es diferente en uno y otro caso; más concretamente, este método permite
detectar influencias que en un ANOVA simple podrían pasar desapercibidas).
 Interacción: pregunta si la conclusión sobre el efecto que cada factor tiene
sobre la variable respuesta, se mantiene independientemente de los niveles que
se consideren para los factores restantes. Si sucede esto último (y por lo tanto,
la respuesta a la primera pregunta es “no”), decimos que no existe interacción
entre los factores; en caso contrario, que sí existe. Por ejemplo, podría suceder
que un cierto medicamento, teniendo un buen efecto en general (es decir,
proporcionando un tiempo medio de cura menor que otros), fuera sin embargo
muy poco efectivo o incluso nocivo para los pacientes de un cierto grupo
sanguíneo. En ese caso, fijado un cierto nivel para uno de los factores (el grupo
sanguíneo “anómalo”), se observaría un comportamiento diferente al del resto
de los niveles (los restantes grupos sanguíneos): en ese caso sí existiría
interacción

Si hay evidencia de que la interacción no es relevante, utilizaremos un modelo de


ANOVA multifactorial sin interacción. En caso contrario, utilizaremos un modelo con
interacción. Este último es el más completo. A cambio, requiere en general de más
observaciones que el modelo sin interacción.

Modelo de ANOVA multifactorial sin interacción:


(Suponemos una sola variable respuesta Y, y dos factores F1, F2; se generaliza fácilmente
para el caso en que hay más de dos factores)
Cada observación (dato) la notaremos como Yijk, entendiendo que en dicha observación
el factor F1 está en el nivel i, el factor F2 está en el nivel j, y que dentro de las que tienen
dichas características, nuestra observación ocupa el lugar k. Si representamos la media
global como µ, el modelo de ANOVA sin interacción supone que:
Yijk = µ + αi + βj + εijk

Donde αi es el efecto del factor F1 en nivel i, βj es el efecto del factor F2 en nivel j, y εijk
es el residuo, que entendemos debido al azar. Si representamos por µi a la media de todas
las observaciones que tienen F1 en nivel i, y por µj a la media de todas las observaciones
que tienen F2 en nivel j, entonces αi = µi − µ, βj = µj − µ.
Para ver si F1 es un factor significativo, realizaremos el contraste de hipótesis:
Si H0 es rechazada, decimos que F1 es significativo. Igualmente, para ver si F2 es un
factor significativo,

Modelo de ANOVA multifactorial con interacción


En este caso, para cada observación Yijk suponemos:
Yijk = µ + αi + βj + (αβ)ij + εijk

Donde αi, βj tienen el mismo sentido que en el modelo anterior, (αβ)ij es el efecto de
interacción entre F1 en nivel i, y F2 en nivel j, y εijk es el residuo, que entendemos debido
al azar. Los contrastes sobre la significatividad de F1 y de F2 son análogos al modelo
anterior. Aquí, además, debemos comprobar si existe interacción entre los factores, lo
cual supone contrastar la siguiente hipótesis:
Bibliografía

(s.f.). Obtenido de
http://www3.uah.es/juange_alcazar/Estadistica%20Alcala/ANOVA%20multifactorial.p
df

Navarro, J. (2016). DefinicionABC. Obtenido de


https://www.definicionabc.com/economia/anova.php

Tamayo , I. (s.f.). Obtenido de http://www.ugr.es/~imartin/TEMA5_ANOVA.pdf

Terrádez, M., & Juan, Á. (s.f.). Obtenido de https://www.uoc.edu/in3/emath/docs/ANOVA.pdf