Вы находитесь на странице: 1из 35

ANOVA

Experimento Factorial
En general, un experimento factorial implica varias variables.

Una de éstas es la variable respuesta, que en ocasiones se llama variable de salida o variable
dependiente.

Las otras se denominan factores

La pregunta indicada por un experimento factorial es si la variación de los niveles de los factores produce
una diferencia en la media de la variable respuesta.
En el experimento descrito en la tabla , la dureza es la respuesta, y hay un factor: tipo de flujo.

Hay cuatro valores diferentes para el factor tipo de flujo en este experimento.

Estos valores diferentes se denominan niveles del factor y también tratamientos.

Hay cuatro valores diferentes para el factor tipo de flujo en este experimento.

Estos valores diferentes se denominan niveles del factor y también tratamientos.

¿Se puede concluir que hay diferencias en las medias poblacionales


entre los cuatro tipos de flujos?
Análisis de varianza de un sentido

La determinación formal respecto a si las medias del tratamiento son diferentes requiere una
prueba de hipótesis. Se inicia introduciendo la notación. Se tienen I muestras, cada una proveniente
de un tratamiento diferente. Las medias del tratamiento se denotan por

No es necesario que los tamaños de muestra sean iguales, aunque es deseable, como se analizará
posteriormente en esta sección. Los tamaños de muestra se denotan por

El número total en todas las muestras combinadas se denota por N.


Las hipótesis que se desea probar son

Si había solamente dos muestras, se podría utilizar la prueba t de dos muestras para probar la hipótesis nula.

Debido a que hay más de dos muestras, se utiliza un método conocido como análisis de varianza de un sentido
(ANOVA, por sus siglas en inglés).

Para definir el estadístico de prueba de un ANOVA, primero se desarrolla la notación para las observaciones
muestrales. Debido a que hay varias muestras, se usa un subíndice doble para denotar las observaciones.
Específicamente, sea Xij la j-ésima observación en la i-ésima muestra.

La media de la i-ésima muestra se denota por Xi


La gran media muestral, denotada por X– .., es el promedio de todos los elementos que se
muestrean tomados en conjunto:
EJ: Respecto a los datos en la tabla , determine I, J1, . . . , JI, N, X23, X–3., X–...
Hay cuatro muestras, por lo que I = 4.
Cada muestra contiene cinco observaciones, así J1 =J2 =J3 =J4 =5.

El número total de observaciones es N =20.

La cantidad X23 es la tercera observación en la segunda muestra, es 267.

La cantidad X–3. es la media muestral de la tercera muestra. Este valor es X–3. =271.0

se calcula la gran media muestral X–


...
La variación de las medias muestrales alrededor de la gran media muestral se mide por una cantidad
que se llama suma total de cuadrados del tratamiento (SSTr, por sus siglas en inglés), que está
dada por

La SSTr indica cómo son diferentes las medias del tratamiento entre sí.

Si la SSTr es grande, entonces las medias muestrales están muy dispersas, y es razonable concluir que las medias
del tratamiento son diferentes y se rechaza H0.
Para determinar si la SSTr es suficientemente grande para rechazar H0, se compara con otra suma de cuadrados,
que se llama suma de los cuadrados del error (SSE, por sus siglas en inglés).

Las cantidades Xij X–i. se llaman residuos, por lo que la SSE representa la suma de los cuadrados
de los residuos
EJ: Para los datos en la tabla , calcule la SSTr y la SSE.
Supuestos para el ANOVA de un sentido

Las pruebas de hipótesis usuales del ANOVA de un sentido son válidas en las condiciones
siguientes:

1. Las poblaciones en tratamiento deben ser normales.


2. Las poblaciones en tratamiento deben tener todas la misma varianza, que se denota
por s2.
Sean las cantidades I - 1 y N - I los grados de libertad para a SSTr y la SSE, respectivamente.

La media cuadrática de tratamiento se denota por MSTr

La media cuadrática del error se denota por MSE.

Cuando H0 es verdadera, el numerador y el denominador de F son, en promedio, del mismo


tamaño, por lo que F tiende a estar cerca de l.
Ej: Para los datos en la tabla 9.1, calcule la MSTr, la MSE y F. Determine el P-valor para probar
la hipótesis nula de que todas las medias son iguales. ¿Qué concluye?
I = 4 muestras y N = 20 observaciones en todas las muestras tomadas en conjunto

Los grados de libertad son 4 – 1 = 3 para el numerador y 20 - 4 = 16 para el denominador.

Bajo H0, F tiene una distribución F3, 16.


Por tanto, el P-valor se encuentra entre 0.01 y 0.05

Es razonable concluir que las medias poblacionales no son todas iguales, y, por consiguiente, la
composición del flujo afecta la dureza.
Anova en R
Datos: El archivo Diet.csv contiene información de 78 persona que se sometieron a tres
dietas diferentes. Contiene variables como la edad, genero (Female=0, Male=1) y estatura. El
objetivo del studio es conocer la major dieta para perder peso. Por lo atanto, la variable
independiente es la dieta.
dietR<-read.csv("D:\\diet.csv",header=T,sep=",")

Podemos usar attach(dataset) para usar 'Height’ en lugar de dietR$Height.

Y convertimos 'Diet’ como factor

attach(dietR)

Diet<-as.factor(Diet)

gender<-factor(gender,c(0,1),labels=c('Female','Male'))

Calculamos la pérdida de peso por persona y agregamos la variable a los datos

dietR$weightlost<-pre.weight-weight6weeks
attach(dietR)
Antes de hacer el análisis, reumimos la Perdida de peso por dieta usando graficas y estadisticos.

Calculamos las medias y desviaciones standard para la Perdida de peso por dieta usando
tapply(dependent, independent, summary statistic required, na.rm=T)

La function na.rm=T elimina renglones que no tiene valor asignado

mean<-tapply(weightlost,Diet,mean,na.rm=T)

sd<-tapply(weightlost,Diet,sd,na.rm=T)

results1<-cbind(mean,sd)

rownames(results1)<-paste("Diet",1:3,sep=" ")

round(results1,2)

boxplot(weightlost~Diet,main='Weight Lost by Diet',xlab='Diet',ylab='Weight Lost')


La Dieta 3 paraece ser major que las otras dietas debido que la perdidad de peso es mayor.
Las Desv. Estandard son similares por lo que la Perdida de peso entre cada grupo tine la misma
dispersion.
Para hacer ANOVA usamos aov(dependent~independent), le asignamos un nombre
al modelo ANOVA (anovaD ) y usamos summary() para ver la salida

anovaD<-aov(weightlost~Diet)

summary(anovaD)
Podemos reporter que existe una diferencia significativa entre la media del peso
perdido [F(2,75)=6.197, p = 0.003] entre las dietas.
En un ANOVA de un sentido se utiliza una prueba F para probar la hipótesis nula de que todas las medias de
tratamiento son iguales.

Si ésta es rechazada se puede concluir que las medias de tratamiento no son todas iguales.

Pero esta prueba no indica cuáles son diferentes del resto.

A veces un experimentador considera dos tratamientos específicos, i y j, y quiere estudiar la diferencia


mi - mj

Otras veces, un experimentador tal vez desee determinar todos los pares de medias que se pueda
concluir que difieren de otro.

En este caso se debe utilizar otro tipo de procedimiento que se llama método de comparaciones
múltiples.

Dos métodos: Bonferroni y el de Tukey-Kramer


El P-valor para cada prueba se encuentra al consultar la tabla de la distribución de
rango studentizado con I y N- I grados de libertad.

la hipótesis nula H0 : mi -mj 0 se rechaza con un nivel de alfa

cuando el diseño es balanceado, con todos los tamaños de muestra iguales a J, la cantidad

es igual a

Es el método de Tukey.
Para los datos de la tabla ¿cuáles pares de flujos, si hay, se puede concluir, con un nivel de 5%, que difieren en
su efecto en la dureza?
Hay I = 4 niveles, con J = 5 observaciones en cada nivel, para un total de N =20 observaciones
en total.

Con el propósito de probar con un nivel de a=0.05, se consulta la tabla de


rango studentizado

El valor de MSE es 63.975


Las cuatro medias muestrales son

Hay solamente un par de medias muestrales, 271.0 y 253.8, cuya diferencia es mayor a 14.49.

Por tanto, se concluye que las soldaduras producidas con el flujo A tienen una media de dureza
diferente que las soldaduras producidas con el flujo C.

Ninguna de las otras diferencias son importantes con un nivel de 5%.


Post Hoc Tests

El método de Tukey’ es uno de las proebas post hoc más usados.

Para realizarlo usamos la function TukeyHSD(anovaD).

TukeyHSD(anovaD)
Los resultados indicant que existe diferencia significativa entre la dieta 3 y la dieta 1 (p = 0.02) y
entre la dieta 3 y 2 (p=0.004).

La diferencia entre cada par indica por ejemplo que las personas con dieta 3 perdieron en promedio
1.85 kg más que las sometidas a la dieta 1.

Вам также может понравиться