Вы находитесь на странице: 1из 43

Anlisis de la varianza

(ANOVA)
ESTADSTICA INFERENCIAL
Ing. Jos Mara Velsquez
Anlisis de la varianza
Conceptos Importantes
Anlisis de la varianza
Definiciones importantes
Anlisis de la varianza
Anlisis de la varianza
Por lo general, el inters del experimentador est centrado en comparar los tratamientos
en cuanto a sus medias poblacionales, sin olvidar que tambin es importante compararlos
con respecto a sus varianzas. As, desde el punto de vista estadstico, la hiptesis
fundamental a probar cuando se comparan varios tratamientos es:

con la cual se quiere decidir si los tratamientos son iguales estadsticamente en cuanto a sus
medias, frente a la alternativa de que al menos dos de ellos son diferentes. La estrategia
natural para resolver este problema es obtener una muestra representativa de mediciones
en cada uno de los tratamientos, y construir un estadstico de prueba para decidir el
resultado de dicha comparacin. El estadstico a utilizar es un estadstico F.
Anlisis de la varianza
Se podra pensar que una forma de probar la hiptesis nula de la expresin es mediante
pruebas T de Student aplicadas a todos los posibles pares de medias; sin embargo, esta
manera de proceder incrementara de manera considerable el error tipo I (rechazar 0
siendo verdadera). Por ejemplo, supongamos que se desea probar la igualdad de cuatro
medias a travs de pruebas T de Student. En este caso se tienen seis posibles pares de
medias, y si la probabilidad de aceptar la hiptesis nula para cada prueba individual es de
1 = 0.95, entonces la probabilidad de aceptar las seis hiptesis nulas es de 0.956 =
0.73, lo cual representa un aumento considerable del error tipo I. Aunque se utilice un
nivel de confianza tal que 1 6 = 0.95, el procedimiento resulta inapropiado porque
se pueden producir sesgos por parte del experimentador. Por otra parte, existe un mtodo
capaz de probar la hiptesis de igualdad De las k medias con un solo estadstico de prueba,
ste es el denominado anlisis de varianza.
Anlisis de la varianza
ANOVA para el diseo completamente al azar (DCA)
El anlisis de varianza (ANOVA) es la tcnica central en el anlisis de datos experimentales. La
idea general de esta tcnica es separar la variacin total en las partes con las que contribuye
cada fuente de variacin en el experimento. En el caso del DCA se separan la variabilidad debida
a los tratamientos y la debida al error. Cuando La primera predomina claramente sobre la
segunda, es cuando se concluye que los tratamientos tienen efecto, o dicho de otra manera, las
medias son diferentes. Cuando los tratamientos no dominan contribuyen igual o menos que el
error, por lo que se concluye que las medias son iguales.
Anlisis de la varianza
Modelo del Anlisis de la Varianza
= 1, 2, ,
= + +
= 1, 2, ,
es un parmetro comn a todos los tratamientos al que se le llama media global, y es un
parmetro nico del tratamiento i-simo al que se le llama efecto del tratamiento i-simo y
es un componente del error aleatorio que incorpora todas las dems fuentes de variabilidad del
experimento, incluyendo las mediciones, la variabilidad que surge de factores no controlados,
las diferencias entre las unidades experimentales (como los materiales de la prueba, etc.)a las
que se aplican los tratamientos, y el ruido de donde general en el proceso (ya sean la
variabilidad con el tiempo, los efectos de variables ambientales, etc.)
En base al modelo del anlisis de la varianza, las hiptesis se pueden plantear de forma alterna
como:
0 : 1 = 2 = = = 0
1 : 0
Anlisis de la varianza
Suposiciones para el anlisis de la varianza
La validez de los resultados obtenidos en cualquier anlisis de varianza queda supeditado a que los supuestos
del modelo se cumplan. Estos supuestos son: normalidad, varianza constante (igual varianza de los
tratamientos) e independencia. Esto es, la Respuesta (Y) se debe distribuir de manera normal, con la misma
varianza en cada tratamiento y las mediciones deben ser independientes. Estos supuestos sobre Y Se
traducen en supuestos sobre el trmino error ( e) en el modelo.
Es una prctica comn utilizar la muestra de residuos para comprobar los supuestos del modelo, ya que si los
supuestos se cumplen, los residuos o residuales se pueden ver como una muestra aleatoria de una
distribucin normal con media cero y varianza constante. Los residuos, , se definen como la diferencia
entre la respuesta observada y la respuesta predicha por el modelo, o cual permite hacer un diagnstico ms
directo de la calidad del modelo, ya que su magnitud seala qu tan bien describe a los datos el modelo.
Anlisis de la varianza

Los supuestos del modelo lineal, en trminos de los residuos,


son:
1. Los siguen una distribucin normal con media cero
2. Los son independientes entre s.
3. Los residuos de cada tratamiento tienen la misma varianza
2.
Anlisis de la varianza
Clculos en el anlisis de la varianza
Notacin de puntos
Sirve para representar de manera abreviada cantidades numricas que se pueden calcular a
partir de los datos experimentales, donde representa la j-sima observacin en el
tratamiento i, con i = 1, 2, , k y j = 1, 2, , . Las cantidades de inters son las siguientes:
= .
= .
= = 1 + 2 + + .
= .
Anlisis de la varianza
Clculos en el anlisis de la varianza

=
=1


1
=

=1

=
=1 =1



= ; = 1, 2, , ; =

=1
Anlisis de la varianza

Para probar la hiptesis dada lo primero es descomponer la variabilidad total de los datos en sus
dos componentes: la variabilidad debida a tratamientos y la que corresponde al error aleatorio,
como se hace a continuacin.
Una medida de la variabilidad total presente en las observaciones de la tabla es la suma total de
cuadrados dada por,

En donde la suma de cuadrados de los tratamientos, viene dada por:


Anlisis de la varianza
Tabla ANOVA para el DCA
Anlisis de la varianza
Ejemplo
Un fabricante de televisores est interesado en el efecto de cuatro tipos de recubrimientos para
cinescopios de color sobre la conductividad de un cinescopio. Se realiza un muestreo y se obtienen los
siguientes datos de la conductividad:
Tipo de Recubrimiento Conductividad
1 143 141 150 146
2 152 149 137 143
3 134 136 132 127
4 129 127 132 129

(a) Hay alguna diferencia en la conductividad debida al tipo de recubrimiento? Utilizar = 0.05
Anlisis de la varianza

# de tratamientos

Los tratamientos se
ingresan por columnas
Anlisis de la varianza
Anlisis de la varianza
Anlisis de la varianza
Comparaciones o pruebas de rango mltiples
Si se rechaza la hiptesis nula, nos interesa conocer en dnde se encuentran las diferencias entre los
diversos tratamientos. Para encontrar dichas diferencias existen diversos mtodos, pero el que detecta
las mnimas diferencias presentes es el llamado Mtodo LSD de Fisher (diferencia mnima
significativa). Ahora entonces el problema es probar la igualdad de todos los posibles pares de medias
con la hiptesis:
0 : =
1 :
1
para toda . Para k tratamientos se tienen en total pares de medias. Por ejemplo, si = 4
2
existen 6 posibles pares de medias. El estadstico de prueba para cada una de las hiptesis dadas es la
correspondiente diferencia en valor absoluto entre sus medias muestrales . Se rechaza la
hiptesis nula, si ocurre que:
1 1
> 2, + =

Anlisis de la varianza

si el diseo es balanceado, el clculo del LSD se simplifica, y se tiene que:

= 2, 2

En caso de rechazar 0 se acepta la hiptesis alterna 1 : , la cual nos


dice que las medias de los tratamientos i y j son diferentes. El mtodo LSD tiene
una potencia importante, por lo que en ocasiones declara significativas an
pequeas diferencias.
Anlisis de la varianza
Grfico de Medias (Means Plot)
El grfico de medias, muestra grficamente los resultados obtenidos con el
mtodo LSD. Los intervalos necesarios se obtienen con:

2,

De esta forma, si dos intervalos se traslapan, entonces no habr diferencias
entre las medias de los tratamientos correspondientes. Note que se
est considerando como el error estndar o desviacin estndar de la
correspondiente media muestral.
Anlisis de la varianza
Verificacin de los supuestos: Normalidad
Consideremos los N residuos ei que resultan del anlisis de una varianza, o cualquier conjunto de N datos de
los cuales se quiere verificar su procedencia de una distribucin normal. Los pasos en la construccin de la
grfica de probabilidad normal para los residuos son los siguientes:
1. Ordenar los N valores del menor al mayor y asignarles los rangos de 1 a N. Sean ri, i = 1, 2,, N, los datos en
orden creciente.
2. Calcular una posicin de graficacin para cada dato en funcin de su rango y del total de observaciones
como (i 0.5)/N, i = 1, 2,, N.
3. El papel de probabilidad normal es un formato para realizar una grfica del tipo X-Y, donde una de las
escalas es lineal y la otra es logartmica. Sobre el papel de probabilidad normal se dibujan las parejas (ri, (i
0.5)/N).
4. Dibujar una lnea recta sobre los puntos para tratar de dilucidar si se ajustan a ella o no. La interpretacin
de la grfica es subjetiva, pero muchas veces es suficiente para llegar a una conclusin razonable sobre la
distribucin que siguen los datos.
Anlisis de la varianza
Verificacin de los supuestos: Normalidad
Anlisis de la varianza
Se calculan los residuos como:
= =
Para el ejemplo desarrollado, se tiene que:
Rango 0.5
Observacin Residuos Residuos Oredenados
i

143 145 -2 -8.25 1 0.03125 -1.86


Recubrimiento 141 145 -4 -5.25 2 0.09375 -1.32
1 150 145 5 -4 3 0.15625 -1.01
146 145 1 -2.25 4 0.21875 -0.78
152 145.25 6.75 -2.25 5 0.28125 -0.58
Recubrimiento 149 145.25 3.75 -2 6 0.34375 -0.40
2 137 145.25 -8.25 -0.25 7 0.40625 -0.24
143 145.25 -2.25 -0.25 8 0.46875 -0.08
134 132.25 1.75 -0.25 9 0.53125 0.08
Recubrimiento 136 132.25 3.75 1 10 0.59375 0.24
3 132 132.25 -0.25 1.75 11 0.65625 0.40
127 132.25 -5.25 2.75 12 0.71875 0.58
129 129.25 -0.25 3.75 13 0.78125 0.78
Recubrimiento 127 129.25 -2.25 3.75 14 0.84375 1.01
4 132 129.25 2.75 5 15 0.90625 1.32
129 129.25 -0.25 6.75 16 0.96875 1.86
Anlisis de la varianza

En papel normal se grafican los pares ordenados:

0.5
,

En papel ordinario se grafican los pares ordenados:

,
Anlisis de la varianza
Anlisis de la varianza
Verificacin de los supuestos: Varianza constante -
Homocedasticidad
Una forma de verificar el supuesto de varianza constante (o que los
tratamientos tienen la misma varianza) es graficando los predichos contra los
residuos. Por lo general va en el eje horizontal y los residuos en el eje
vertical. Si los puntos en esta grfica se distribuyen de manera aleatoria en una
banda horizontal (sin ningn patrn claro y contundente), entonces es seal de
que se cumple el supuesto de que los tratamientos tienen igual varianza. Por el
contrario, si se distribuyen con algn patrn claro y contundente, como por
ejemplo una forma de cono o embudo, entonces es seal de que no se est
cumpliendo el supuesto de varianza constante.
Anlisis de la varianza
Cuando se realiza el ANOVA, y slo cuando ste resulta significativo, entonces se
procede a estimar el modelo ajustado o modelo de trabajo dado por:
= +
donde es la respuesta predicha, es la media global estimada y es el efecto
estimado del tratamiento i; recordamos que los gorros indican que son estimadores, es
decir, valores calculados a partir del experimento. El trmino del error desaparece del
modelo estimado, por el hecho de que su valor esperado es igual a cero ( = 0).
Como la media global se estima con y el efecto del tratamiento con el modelo
ajustado del DCA se puede escribir como:
= + =
Con lo que se observa que la prediccin de cada dato es la media correspondiente por
tratamiento.
Anlisis de la varianza
Anlisis de la varianza
Anlisis de la varianza
Prueba de Barlett para la homogeneidad de varianzas
Supongamos que se tienen k poblaciones o tratamientos independientes, cada uno con distribucin normal (( , 2 ), i = 1, 2, , k),
donde las varianzas son desconocidas. Se quiere probar la hiptesis de igualdad de varianzas dada por:
0 : 12 = 22 = 2 = 2
1 : 2 2
Mediante un diseo completamente al azar se obtienen k muestras aleatorias de tamaos ni ( i = 1, 2, , k) de dichas poblaciones, de
modo que el total de mediciones es N = n1 + n2 + + nk. El estadstico de prueba para la hiptesis est dado por:

02 = 23026

donde:

= ( ) log10 2 ( 1) log10 2
=1

1 1 1
=1+ 1
3( 1)
=1

2 = ( 1)2 ( )
=1
Anlisis de la varianza
Bajo la hiptesis nula de igualdad de varianza, el estadstico 02 sigue una distribucin ji-
cuadrada con k-1 grados de libertad, por lo que se rechaza 0 cuando 02 es ms grande que
2
(1,1) . La prueba de Bartlett que acabamos de describir es sensible a la falta de normalidad
de las poblaciones de inters, por lo que debe comprobarse el cumplimiento de este supuesto.
Para nuestros datos:
= 12 log10 1968752 3 log10 15.33 44.25 14.92 4.25 = 17.1597
1 1 1
41
=1+ 4 3 12 =
9 36
1.1597
02 = 23026 = 34.6934
41 36
2
095,3 = 7.8147

Anlisis de la varianza
Verificacin de los supuestos: Independencia
La suposicin de independencia en los residuos puede verificarse si se grafica el orden en que se
colect un dato contra el residuo correspondiente. De esta manera, si al graficar en el eje
horizontal el tiempo (orden de corrida) y en el eje vertical los residuos, se detecta una tendencia
o patrn no aleatorio claramente definido, esto es evidencia de que existe una correlacin entre
los errores y, por lo tanto, el supuesto de independencia no se cumple. Si el comportamiento de
los puntos es aleatorio dentro de una banda horizontal, el supuesto se est cumpliendo. La
violacin de este supuesto generalmente indica deficiencias en la planeacin y ejecucin del
experimento; asimismo, puede ser un indicador de que no se aplic En forma correcta el
principio de aleatorizacin, o de que conforme se fueron realizando las pruebas experimentales
aparecieron factores que afectaron la respuesta observada. Por ello, en caso de tener problemas
con este supuesto, las conclusiones que se obtienen del anlisis son endebles y por ello es mejor
revisar lo hecho y tratar de Investigar por qu no se cumpli con ese supuesto de
independencia, a fin de reconsiderar la situacin.
Anlisis de la varianza
Anlisis de la varianza
Anlisis de la varianza
ANOVA en Minitab
Anlisis de la varianza
Anlisis de la varianza
Anlisis de la varianza
Grfica de caja de Observacin
155

150

145
Observacin

140

135

130

1 2 3 4
Recubrimiento
Anlisis de la varianza
Grficas de residuos para Observacin
Grfica de probabilidad normal vs. ajustes
99
5
90
Porcentaje

Residuo
0
50

-5
10

1 -10
-10 -5 0 5 10 130 135 140 145
Residuo Valor ajustado

Histograma vs. orden


3
5
Frecuencia

Residuo
0

1 -5

0 -10
-8 -6 -4 -2 0 2 4 6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Residuo Orden de observacin
Anlisis de la varianza

0 :
1 :
Anlisis de la varianza
Anlisis de la varianza

0 :
1 :

Вам также может понравиться