Академический Документы
Профессиональный Документы
Культура Документы
ANOVA
Análisis de la Varianza
EAAA 1
Comprender la noción general del análisis de
variancia (ANOVA).
Realizar una prueba de hipótesis para determinar
si dos variancias muestrales provienen de las
mismas poblaciones o de poblaciones iguales.
Establecer y organizar datos en una tabla de
ANOVA.
Realizar una prueba para determinar si existe
diferencia entre tres o más medias de tratamiento.
Realizar una prueba de hipótesis para determinar
si hay alguna diferencia entre medias de bloques.
EAAA 2
EXPERIMENTOS FACTORIALES
EAAA 3
ANÁLISIS DE LA VARIANZA (ANOVA)
EAAA 4
Aplicación:
-Para la comparación de múltiples columnas de datos
EAAA 5
EAAA 6
Comparación de múltiples poblaciones
La comparación de diversos conjuntos de resultados es habitual en los:
Laboratorios analíticos. Así, por ejemplo, puede interesar comparar diversos métodos de
análisis con diferentes características, diversos analistas entre sí, o una serie de
laboratorios que analizan una misma muestra con el mismo método (ensayos
colaborativos).
También sería el caso cuando queremos analizar una muestra que ha estado sometida a
diferentes tratamientos o ha estado almacenada en diferentes condiciones. En todos
estos ejemplos hay dos posibles fuentes de variación: una es el error aleatorio en la
medida y la otra es lo que se denomina factor controlado (tipo de método, diferentes
condiciones, analista o laboratorio,...).
EAAA 7
EAAA 8
EAAA 9
EAAA 10
EAAA 11
EAAA 12
EAAA 13
EAAA 14
EAAA 15
EAAA 16
EAAA 17
EAAA 18
EAAA 19
EAAA 20
EAAA 21
EAAA 22
EAAA 23
EAAA 24
EAAA 25
EAAA 26
EAAA 27
EAAA 28
EAAA 29
EAAA 30
EAAA 31
EAAA 32
Cuando tengamos un factor, controlado o aleatorio, aparte del error propio de
la medida, hablaremos del ANOVA de un factor.
En los casos donde tenemos dos o más factores que influyen, se realizan los
experimentos para todas las combinaciones de los factores estudiados,
seguido del ANOVA. Se puede deducir entonces si cada uno de los factores o
una interacción entre ellos tienen influencia significativa en el resultado.
EAAA 33
Para utilizar el ANOVA de forma satisfactoria deben
cumplirse tres tipos de hipótesis, aunque se aceptan ligeras
desviaciones de las condiciones ideales:
EAAA 34
EAAA 35
El análisis de la varianza (ANOVA) de un conjunto de muestras
consiste en contrastar:
Contra
EAAA 36
La lógica del ANOVA
w El contraste de hipótesis del ANOVA se basaen comprobar si las medias de
las muestras difieren más de lo que cabe esperar cuando es cierta, la hipótesis
nula.
w Esta cuestión acerca de las medias se responde analizando las varianzas.
Nos fijamos en las varianzas, porque, cuando queremos saber si algunas medias
difieren entre sí, tenemos que valorar la varianza entre estas medias.
EAAA 37
Dos Fuentes de Variabilidad
w En ANOVA, un estimador de la variabilidad entre grupos se
compara con la variabilidad dentro de los grupos.
1- La variación Entre Grupos es la variacion entre las medias de los
diferentes tratamientos debidas al azar (error de muestreo ) y al
efecto de los tratamientos, si es que existe.
2. La variación Dentro de los Grupos es la variacion debida al azar
(error de muestreo) entre individuos a los que se ha dado el mismo
tratamiento.
EAAA 38
Variabilidad Entre Grupos
w Hay mucha variabilidad entre las medias.
w Las diferencias entre las medias de los grupos son
demasiado grandes para atribuirlas al azar.
w Es difícil imaginar que los seis grupos son muestras
aleatorias tomadas de la misma población.
w Se rechaza la hipótesis nula, es decir, existe efecto
del tratamiento al menos en uno de los grupos.
EAAA 39
EAAA 40
ANOVA de un factor
El objetivo del ANOVA aquí es comparar los errores sistemáticos con los
aleatorios obtenidos al realizar diversos análisis en cada laboratorio.
EAAA 41
RESULTAD LABORAT LABORAT LABORAT LABORAT LABORAT
OS 1 2 3 4 5
1 2.3 6.5 1.7 2.1 8.5
2 4.1 4.0 2.7 3.8 5.5
3 4.9 4.2 4.1 4.8 6.1
4 2.5 6.3 1.6 2.8 8.2
5 3.1 4.4 4.1 4.8 --
6 3.7 -- 2.8 3.7 --
7 -- -- -- 4.2 --
VALOR 3.4 5.1 2.8 3.7 7.1
MEDIO x
n 6 5 6 7 4
k
suma 20.6 25.4 17.0 26.2 28.3
Aritmetica De todos Resultados X= 4.2
Media los X 42
EAAA
Observando los valores medios todo parece indicar que existen
diferencias entre los laboratorios. Ahora bien, ¿son dichas diferencias
significativas? El ANOVA responde a esta cuestión.
Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
EAAA 44
CONDICIONES
EAAA 45
ANOVA – Suma de cuadrados total
SStotal x
x 2
2
EAAA
46
suma de los cuadrados de los tratamientos
x
2
T 2
SCTr r
nr n
EAAA 47
SUMA DE LOS CUADRADOS DEL ERROR SSE
Cuando se divide SSE por los correspondientes grados de libertad, (N - K), se obtiene el
cuadrado medio "dentro de los laboratorios", MSE.MSE = SSE/(N – K)
EAAA 48
PROCEDIMIENTO DE ANOVA
Paso 1: Plantear (H0) y la (H1)
H0 expresa que no hay diferencias significativas entre las
ventas medias de los tres vendedores; es decir,
Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
EAAA 49
Fuente Suma de Grados Cuadrado Fcal p
cuadrado de medio
s libertad
Entre 53.13 4 13.28 10.30 0.3
laboratori
o
Dentro 29.64 23 1.29
de los
laboratori
o
Total 82.77 27 Ftab = 2.80 (a = 0.05, 4, 23, 1 cola)
Como Fcal > Ftab, en este caso se podría concluir que al menos uno de los
.
laboratorios ha producido resultados la media de los cuales difiere de forma
estadísticamente significativa del resto de laboratorios. El valor de
probabilidad que aparece en la Tabla 3 indica aquel valor de alfa a partir del
cual el ANOVA no detectaría ninguna diferencia significativa. Así pues, a menor
valor de probabilidad, mayor seguridad de que existen diferencias
significativas.
EAAA 50
Ejemplo : Se quiere evaluar la eficacia de distintas dosis de un fármaco
contra la hipertensión arterial, comparándola con la de una dieta sin sal.
Para ello se seleccionan al azar 25 hipertensos y se distribuyen
aleatóriamente en 5 grupos. Al primero de ellos no se le suministra ningún
tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero
una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto
el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25
sujetos al finalizar los tratamientos son:
Grupo
1 2 3 4 5
EAAA 51
La tabla de anova es:
Fuente de variación GL SS MS F
Tratamiento 4 2010.64 502.66 11.24
Error 20 894.40 44.72
Total 24 2905.04
Como
ComoF0,05(4,20) =2,87 y y11,24>2,87
F0,05(4,20) =2,87 11,24>2,87 rechazamos
rechazamos la hipótesis
la hipótesis nula ynula y
concluimos
concluimosqueque
loslos
resultados de los
resultados detratamientos son diferentes.
los tratamientos son diferentes.
EAAA 52
Un fabricante de papel para hacer bolsas para comestibles, se encuentra interesado en
mejorarla resistencia a la tensión del producto. El departamento de ingeniería del producto
piensa que la resistencia a la tensión es una función de la concentración de madera dura en
la pulpa y que el rango de las concentraciones de madera dura de interés práctico está entre
5% y 20%. El equipo de ingenieros responsable del estudio decide investigar cuatro niveles
de concentración de madera dura: 5%, 10%, 15% y 20%. Deciden hacer seis ejemplares de
prueba con cada nivel de concentración, utilizando una planta piloto. Las 24 muestras se
prueban, en orden aleatorio, con una máquina de laboratorio para probar la resistencia. En la
tabla 12-1 se muestran los datos de este experimento.
EAAA 53
a ) Diagramas de caja de los datos de la concentración de madera dura,
b) Gráfica del modelo de la ecuación 12-1 para el experimento completamente autorizado con
un solo factor.
EAAA 54
HIPOTESIS NULA
Puede usarse el análisis de varianza para probar la hipótesis de que diferentes
concentraciones de madera dura no afectan la resistencia a la tensión media del papel.
Las hipótesis son;
Las formulas para calcular las sumas de cuadrados para el análisis de varianza con
tamaños de las muestras n1 diferentes en cada tratamiento son:
Solución a a
y2
SS T = yij2 −
N
i=j i=j
a
yi2 yi2
SS Tratamient os = −
n1 N
i=j
EAAA 55
EAAA 56
Tabla 12-4 Análisis de varianza para los datos de la resistencia a la tensión
Puesto que el valor P = 3.59 x 10-6 es considerablemente más pequeño que α = 0.01,
se cuenta con evidencia sólida para concluir que Ho no es verdadera.
EAAA 57
Un intervalo de confianza del 100(1 - a) por ciento para la media del tratamiento , p es:
EAAA 58
Un intervalo de confianza del 100(1 - a) por ciento para la diferencia de las medias
de dos tratamientos i, - i, es:
Un intervalo de confianza de 95% para la diferencia de las medias 3, - 2, se calcula con
la ecuación 12-13 como sigue:
EAAA 60
Análisis de residuales y verificación del modelo
En el análisis de varianza del modelo simple o de un solo factor, se supone que las
observaciones siguen una distribución normal e independiente con la misma
varianza para cada tratamiento o nivel del factor.
EAAA 61
En la tabla 12-6 se muestran los residuales para el experimento del porcentaje de madera dura. Al
utilizar yj. para calcular cada residual en esencia, se elimina el efecto de la concentración de
madera dura de esos datos; por consiguiente, los residuales contienen información acerca de la
variabilidad no explicada.
Concentración
de madera dura Residuales
5% -3.00 -2.00 5.00 1.00 -1.00 0.00
10% -3.67 1.33 -2.67 2.33 3.33 -0.67
15% -3.00 1.00 2.00 0.00 -1.00 1.00
20% -2.17 3.83 0.83 1.83 -3.17 -1.17
Tabla 1
EAAA 64
El modelo para esta estimación se puede considerar como sigue. Hay 6
observaciones que se toman cada una de las cinco poblaciones con medias
m1, m2,..m5 respectivamente y deseamos probar
H0 : m1 = m2 = m3 = m4 = m5
EAAA 65
Formulas para el cálculo de sumas de cuadrados.
A continuación presentamos un conjunto de formulas mas simples para calcular la suma de cuadra
2
k
n
yij
SST yij2
k n
i 1 j 1
i 1 j 1 nk
2
k n
yij
SSA n yi
k
2 i 1 j 1
i 1 nk
SSE SST SSA
EAAA 66
ANALISIS DE VARIANZA DE DOS VÍAS o
DIRECCIONES (ANOVA 2 VIAS)
1. Introducción En este caso las fórmulas son parecidas a la del ANOVA de una
vía pero ahora agregando el cálculo por renglones adicional al de columnas
donde se incluye la variable de bloqueo.
EAAA 67
LAS HIPÓTESIS SON:
EAAA 68
La SSTotales y SSTr (columnas)se determina
de la misma forma que para la ANOVA de una
dirección o factor
EAAA 69
B x
2
2
SSBi
i
ni n
gl.SSBi b 1
MSB SSB /(b 1
EAAA 70
SSE SST SSTr SSBi
gl.MSE (n k )( n b)
MSE MSBi /( n k )( n b)
EAAA 71
MSTr
Fc
MSE
MSBi
Fc
MSE
EAAA 72
FUENTE DE VARIACIÓN SUMA DE GRADOS DE CUADRADO VALOR F
CUADRADOS LIBERTAD MEDIO
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
EAAA 73
Tabla de Análisis de varianza para dos criterios de
clasificación
EAAA 74
Si Fc (Tr o Bi) es mayor que F del nivel de
confianza se rechaza Ho Aceptando Ha donde
las medias son diferentes
EAAA 75
Un químico desea probar el efecto que tienen cuatro agentes químicos sobre la
resistencia de un tipo particular de tela. Como puede existir variación entre un rollo de
tela y otro, decide utilizar un diseño aleatorizado por bloques, considerando los rollos de
telas como bloques. El químico dispone de cinco rollos y les aplica los cuatro agentes
químicos a sendas porciones de cada rollo, en un orden aleatorio. A continuación se
proporcionan los resultados de la resistencia a la tensión:
Rollos de Tela
Agente Químico 1 2 3 4 5
1 64 68 67 67 67
2 73 67 75 72 70
3 75 78 68 73 68
4 73 71 75 75 69
EAAA 76
Las hipótesis son:
i
y 2
y2 (333) 2 (352) 2 (362) 2 (363) 2 (1410) 2
SC A i 1
= 116,20
ni n 5 20
k
j
y 2
y2 (285) 2 (284) 2 (280) 2 (287) 2 (274) 2 (1410) 2
SC B i 1
= 26,50
k n 5 20
donde n = ni
k
y2
ni
(1410) 2
SCT y (64) (68) ..... (69)
2
ij
2 2 2
251,00
i 1 j 1 n 20
EAAA 77
Grados Suma de Cuadrados
Fuente de Variación de Cuadrados Medios Fobserv Ftabla
Libertad (SC) (CM)
Tipo de circuito (k - 1) 3 116,20 38,73 *3,93 3,59 F(0,05; 3, 11)
Bloques (b – 1) 4 26,50 6,62 0,67 3,36 F(0,05; 4, 11)
Error (k - 1) (b – 1)-1 11 108,30 9,84
Total (n - 1)-1 18 251,00
Como Fo > Ftabla, entonces, se rechaza Ho, existen diferencias significativas en las
resistencias de las telas, con un 95 % de confianza, los agentes químicos tienen
influencia sobre las telas seleccionadas
EAAA 78
Suponiendo que se quiere investigar si la producción de tres diferentes
máquinas es igual, tomando en cuenta la experiencia de los operadores a un
nivel de significancia del 5%.
Experiencia Máquinas
de ops. En
años Maq 1 Maq 2 Maq 3 Promedios
1 27 21 25 24.33333
2 31 33 35 33
3 42 39 39 40
4 38 41 37 38.66667
5 45 46 45 45.33333
Promedios 36.6 36 36.2 36.26667
EAAA 79
TABLA ANOVA
Conclusión: No hay diferencia entre máquinas a pesar de la diferencia en experiencia
de los operadores.
SS GL CM Fc Falfa
EAAA 80
Ejemplo: Para el ensamble de un artículo se considera comparar 4 máquinas
diferentes. Como la operación de las máquinas requiere cierta destreza se
anticipa que habrá una diferencia entre los operarios en cuanto a la velocidad
con la cual operen la maquinaria. Se decide que se requerirán 6 operarios
diferentes en un experimento de bloques aleatorizado para comparar las
máquinas.
Tiempo en segundos para el ensamble del producto
Operario
Máquina 1 2 3 4 5 6 Total Medias
1 42,5 39,3 39,6 39,9 42,9 43,6 247,8 41,3
2 39,8 40,1 40,5 42,3 42,5 43,1 248,3 41,4
3 40,2 40,5 41,3 43,4 44,9 45,1 255,4 42,6
4 42,3 43,2 44,5 45,2 46,9 43,3 265,4 44,2
Total 164,8 163,1 165,9 170,8 177,2 175,1 1016,9
Medias 41,2 40,775 41,475 42,7 44,3 43,775 254,225 42,4
EAAA 81
Si las máquinas no difieren en cuanto a la velocidad de
ensamblado de la pieza, tendrían igual velocidad promedio y las
curvas se superpondrían exactamente.
H0 : µ1= µ2 = µ3= µ4 ó H0 =
α1=α2=α3=α4=0
µ
Pero si las máquinas difieren en cuanto a la velocidad de ensamblado
de la pieza, pensaríamos que las muestras provienen de poblaciones
diferentes, e
H1: algún promedio es
distinto de los
restantes
EAAA 82
EAAA 83
EL MODELO (DE EFECTOS FIJOS)
Yij = µ + αi + βj + eij
EAAA 84
Consideremos que se lleva a cabo un experimento para comparar el
tiempo que tardan tres marcas de ordenadores de diferente marca en
cargar un mismo sistema operativo. Se toma una muestra de cuatro
ordenadores de la marca A, es decir, se mide el tiempo (ensegundos) que
tardan en cargar el sistema operativo cuatro ordenadores de esta marca.
De la marca B se toman seis medidas y cinco de la marca C. La tabla
siguiente registra los resultados del experimento:
EAAA 85
Muestra j = 1 Muestra j = 2 Muestra j = 3
x 11 = 10,7 x12 = 13,4 x13 = 11,5
x 21 = 11,2 x22 = 11,5 x23 = 12,7
x31 = 12,0 x32 = 11,2 x33 = 15,4
x41 = 15,5 x42 = 15,1 x43 = 16,1
x52 = 13,3 x53 = 15,2
x62 = 12,9
Media = 12,35 = 12,90 = 14,18
Varianza = 4,70 = 2,02 = 3,90
x1 x2 x3
s1 2 s2 2 s3
EAAA 86
EAAA 87
Es posible representar esta situación mediante los diagramas de caja de las tres
muestras:
EAAA 88
Un experimento en el que se prepararon nudos de soldadura con diferentes
composiciones químicas. Se hicieron varias soldaduras utilizando cada flujo
sobre metal con base de acero AISI-1018. La tabla 9.1 presenta los resultados
de las mediciones de la dureza, en la escala de Brinell, de cinco soldaduras
que usan cada uno de los cuatro flujos.
Se puede concluir que hay diferencias en las medias poblacionales entre los
cuatro tipos de flujos?
Determine un intervalo de confianza del 95% para la media de la dureza de
soldaduras producidas con el flujo A.
EAAA 89
EXPERIMENTOS DE DOS FACTORES
EAAA 90
Un ingeniero químico está estudiando los efectos de varios reactivos y
catalizadores en la producción de cierto proceso. Esta última se expresa como
un porcentaje de un máximo teórico. Se hicieron cuatro operaciones del
proceso para cada combinación de tres reactivos y cuatro catalizadores. Los
resultados se presentan en la tabla 9.2. En este experimento hay dos factores,
el catalizador y el reactivo. El primero se llama factor renglón, ya que su valor
varía de renglón a renglón en la tabla; el segundo se denomina factor columna.
Estas designaciones son arbitrarias, en la tabla se podía haber presentado tan
fácilmente como que los renglones representen los reactivos y las columnas,
los catalizadores
A 86.8 82.4 86.7 83.5 93.4 85.2 94.8 83.1 77.9 89.6 89.9 83.7
B 71.9 72.1 80.0 77.4 74.5 87.1 71.9 84.1 87.5 82.7 78.3 90.1
C 65.5 72.4 76.6 66.7 66.7 77.1 76.7 86.1 72.7 77.8 83.5 78.8
D 63.9 70.4 77.2 81.2 73.7 81.6 84.2 84.9 79.8 75.7 80.5 72.9
EAAA 91
TABLA Promedio de las producciones ij para operaciones de un proceso
químico utilizando diferentes combinaciones de reactivos y catalizadores
Reactivo
Catalizador Media del renglón X,..
1 2 3
A 84.85 89.13 85.28 86.42
B 75.35 79.40 84.65 79.80
C 70.30 76.65 78.20 75.05
D 73.18 81.10 77.23 77.17
Media de la 75.92 81.57 81.34 Gran media muestral
columna X, X... =79.61
2Para probar si la media del resultado es igual para todos los niveles del factor renglón,
se prueba la hipótesis nula de que todos los efectos renglón son iguales a 0:
Si esta hipótesis nula es verdadera, entonces la media del resultado es igual para todos
los niveles del factor renglón.
3Para probar si la media del resultado es igual para todos los niveles del factor
columna, se prueba la hipótesis nula de que todos los efectos columna son iguales a 0:
Si esta hipótesis nula es verdadera, entonces la media del resultado es igual para todos
los niveles del factor columna
EAAA 93
Igual que con un ANOVA de un sentido, las pruebas usuales
para estas hipótesis nulas están basadas en las sumas de los
cuadrados.
EAAA 94
El siguiente resultado de MI-NITAB presenta la tabla ANOVA para los datos de
la tabla 9.2.
EAAA 96