ANOVA

ANOVA
Experimento Factorial
En general, un experimento factorial implica varias variables.
Una de éstas es la variable respuesta, que en ocasiones se llama variable de salida o variable
dependiente.
Las otras se denominan factores
La pregunta indicada por un experimento factorial es si la variación de los niveles de los factores produce
una diferencia en la media de la variable respuesta.
En el experimento descrito en la tabla , la dureza es la respuesta, y hay un factor: tipo de flujo.
Hay cuatro valores diferentes para el factor tipo de flujo en este experimento.
Estos valores diferentes se denominan niveles del factor y también tratamientos.
Hay cuatro valores diferentes para el factor tipo de flujo en este experimento.
Estos valores diferentes se denominan niveles del factor y también tratamientos.
¿Se puede concluir que hay diferencias en las medias poblacionales

entre los cuatro tipos de flujos?
Análisis de varianza de un sentido
La determinación formal respecto a si las medias del tratamiento son diferentes requiere una
prueba de hipótesis. Se inicia introduciendo la notación. Se tienen I muestras, cada una proveniente
de un tratamiento diferente. Las medias del tratamiento se denotan por
No es necesario que los tamaños de muestra sean iguales, aunque es deseable, como se analizará
posteriormente en esta sección. Los tamaños de muestra se denotan por
El número total en todas las muestras combinadas se denota por N.

Las hipótesis que se desea probar son
Si había solamente dos muestras, se podría utilizar la prueba t de dos muestras para probar la hipótesis nula.
Debido a que hay más de dos muestras, se utiliza un método conocido como análisis de varianza de un sentido
(ANOVA, por sus siglas en inglés).
Para definir el estadístico de prueba de un ANOVA, primero se desarrolla la notación para las observaciones
muestrales. Debido a que hay varias muestras, se usa un subíndice doble para denotar las observaciones.
Específicamente, sea Xij la j-ésima observación en la i-ésima muestra.
La media de la i-ésima muestra se denota por Xi

La gran media muestral, denotada por X– .., es el promedio de todos los elementos que se
muestrean tomados en conjunto:
EJ: Respecto a los datos en la tabla , determine I, J1, . . . , JI, N, X23, X–3., X–...
Hay cuatro muestras, por lo que I = 4.
Cada muestra contiene cinco observaciones, así J1 =J2 =J3 =J4 =5.
El número total de observaciones es N =20.
La cantidad X23 es la tercera observación en la segunda muestra, es 267.
La cantidad X–3. es la media muestral de la tercera muestra. Este valor es X–3. =271.0
se calcula la gran media muestral X–

...
La variación de las medias muestrales alrededor de la gran media muestral se mide por una cantidad
que se llama suma total de cuadrados del tratamiento (SSTr, por sus siglas en inglés), que está
dada por
La SSTr indica cómo son diferentes las medias del tratamiento entre sí.
Si la SSTr es grande, entonces las medias muestrales están muy dispersas, y es razonable concluir que las medias
del tratamiento son diferentes y se rechaza H0.
Para determinar si la SSTr es suficientemente grande para rechazar H0, se compara con otra suma de cuadrados,
que se llama suma de los cuadrados del error (SSE, por sus siglas en inglés).
Las cantidades Xij X–i. se llaman residuos, por lo que la SSE representa la suma de los cuadrados
de los residuos
EJ: Para los datos en la tabla , calcule la SSTr y la SSE.
Supuestos para el ANOVA de un sentido
Las pruebas de hipótesis usuales del ANOVA de un sentido son válidas en las condiciones
siguientes:
1. Las poblaciones en tratamiento deben ser normales.

2. Las poblaciones en tratamiento deben tener todas la misma varianza, que se denota
por s2.
Sean las cantidades I - 1 y N - I los grados de libertad para a SSTr y la SSE, respectivamente.
La media cuadrática de tratamiento se denota por MSTr
La media cuadrática del error se denota por MSE.
Cuando H0 es verdadera, el numerador y el denominador de F son, en promedio, del mismo

tamaño, por lo que F tiende a estar cerca de l.
Ej: Para los datos en la tabla 9.1, calcule la MSTr, la MSE y F. Determine el P-valor para probar
la hipótesis nula de que todas las medias son iguales. ¿Qué concluye?
I = 4 muestras y N = 20 observaciones en todas las muestras tomadas en conjunto
Los grados de libertad son 4 – 1 = 3 para el numerador y 20 - 4 = 16 para el denominador.
Bajo H0, F tiene una distribución F3, 16.

Por tanto, el P-valor se encuentra entre 0.01 y 0.05
Es razonable concluir que las medias poblacionales no son todas iguales, y, por consiguiente, la
composición del flujo afecta la dureza.
Anova en R
Datos: El archivo Diet.csv contiene información de 78 persona que se sometieron a tres
dietas diferentes. Contiene variables como la edad, genero (Female=0, Male=1) y estatura. El
objetivo del studio es conocer la major dieta para perder peso. Por lo atanto, la variable
independiente es la dieta.
dietR<-read.csv("D:\\diet.csv",header=T,sep=",")
Podemos usar attach(dataset) para usar 'Height’ en lugar de dietR$Height.
Y convertimos 'Diet’ como factor
attach(dietR)
Diet<-as.factor(Diet)
gender<-factor(gender,c(0,1),labels=c('Female','Male'))
Calculamos la pérdida de peso por persona y agregamos la variable a los datos
dietR$weightlost<-pre.weight-weight6weeks
attach(dietR)
Antes de hacer el análisis, reumimos la Perdida de peso por dieta usando graficas y estadisticos.
Calculamos las medias y desviaciones standard para la Perdida de peso por dieta usando
tapply(dependent, independent, summary statistic required, na.rm=T)
La function na.rm=T elimina renglones que no tiene valor asignado
mean<-tapply(weightlost,Diet,mean,na.rm=T)
sd<-tapply(weightlost,Diet,sd,na.rm=T)
results1<-cbind(mean,sd)
rownames(results1)<-paste("Diet",1:3,sep=" ")
round(results1,2)
boxplot(weightlost~Diet,main='Weight Lost by Diet',xlab='Diet',ylab='Weight Lost')

La Dieta 3 paraece ser major que las otras dietas debido que la perdidad de peso es mayor.
Las Desv. Estandard son similares por lo que la Perdida de peso entre cada grupo tine la misma
dispersion.
Para hacer ANOVA usamos aov(dependent~independent), le asignamos un nombre
al modelo ANOVA (anovaD ) y usamos summary() para ver la salida
anovaD<-aov(weightlost~Diet)
summary(anovaD)
Podemos reporter que existe una diferencia significativa entre la media del peso
perdido [F(2,75)=6.197, p = 0.003] entre las dietas.
En un ANOVA de un sentido se utiliza una prueba F para probar la hipótesis nula de que todas las medias de
tratamiento son iguales.
Si ésta es rechazada se puede concluir que las medias de tratamiento no son todas iguales.
Pero esta prueba no indica cuáles son diferentes del resto.
A veces un experimentador considera dos tratamientos específicos, i y j, y quiere estudiar la diferencia

mi - mj
Otras veces, un experimentador tal vez desee determinar todos los pares de medias que se pueda
concluir que difieren de otro.
En este caso se debe utilizar otro tipo de procedimiento que se llama método de comparaciones
múltiples.
Dos métodos: Bonferroni y el de Tukey-Kramer

El P-valor para cada prueba se encuentra al consultar la tabla de la distribución de
rango studentizado con I y N- I grados de libertad.
la hipótesis nula H0 : mi -mj 0 se rechaza con un nivel de alfa
cuando el diseño es balanceado, con todos los tamaños de muestra iguales a J, la cantidad
es igual a
Es el método de Tukey.
Para los datos de la tabla ¿cuáles pares de flujos, si hay, se puede concluir, con un nivel de 5%, que difieren en
su efecto en la dureza?
Hay I = 4 niveles, con J = 5 observaciones en cada nivel, para un total de N =20 observaciones
en total.
Con el propósito de probar con un nivel de a=0.05, se consulta la tabla de

rango studentizado
El valor de MSE es 63.975

Las cuatro medias muestrales son
Hay solamente un par de medias muestrales, 271.0 y 253.8, cuya diferencia es mayor a 14.49.
Por tanto, se concluye que las soldaduras producidas con el flujo A tienen una media de dureza
diferente que las soldaduras producidas con el flujo C.
Ninguna de las otras diferencias son importantes con un nivel de 5%.

Post Hoc Tests
El método de Tukey’ es uno de las proebas post hoc más usados.
Para realizarlo usamos la function TukeyHSD(anovaD).
TukeyHSD(anovaD)
Los resultados indicant que existe diferencia significativa entre la dieta 3 y la dieta 1 (p = 0.02) y
entre la dieta 3 y 2 (p=0.004).
La diferencia entre cada par indica por ejemplo que las personas con dieta 3 perdieron en promedio
1.85 kg más que las sometidas a la dieta 1.

ANOVA

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

ANOVA

Загружено:

Авторское право:

Доступные форматы

ANOVA

Las otras se denominan factores

Estos valores diferentes se denominan niveles del factor y también tratamientos.

Estos valores diferentes se denominan niveles del factor y también tratamientos.

¿Se puede concluir que hay diferencias en las medias poblacionales

El número total en todas las muestras combinadas se denota por N.

La media de la i-ésima muestra se denota por Xi

El número total de observaciones es N =20.

La cantidad X23 es la tercera observación en la segunda muestra, es 267.

se calcula la gran media muestral X–

1. Las poblaciones en tratamiento deben ser normales.

La media cuadrática de tratamiento se denota por MSTr

La media cuadrática del error se denota por MSE.

Cuando H0 es verdadera, el numerador y el denominador de F son, en promedio, del mismo

Los grados de libertad son 4 – 1 = 3 para el numerador y 20 - 4 = 16 para el denominador.

Bajo H0, F tiene una distribución F3, 16.

Podemos usar attach(dataset) para usar 'Height’ en lugar de dietR$Height.

Y convertimos 'Diet’ como factor

Calculamos la pérdida de peso por persona y agregamos la variable a los datos

La function na.rm=T elimina renglones que no tiene valor asignado

boxplot(weightlost~Diet,main='Weight Lost by Diet',xlab='Diet',ylab='Weight Lost')

Pero esta prueba no indica cuáles son diferentes del resto.

A veces un experimentador considera dos tratamientos específicos, i y j, y quiere estudiar la diferencia

Dos métodos: Bonferroni y el de Tukey-Kramer

la hipótesis nula H0 : mi -mj 0 se rechaza con un nivel de alfa

Con el propósito de probar con un nivel de a=0.05, se consulta la tabla de

El valor de MSE es 63.975

Ninguna de las otras diferencias son importantes con un nivel de 5%.

El método de Tukey’ es uno de las proebas post hoc más usados.

Para realizarlo usamos la function TukeyHSD(anovaD).

Вам также может понравиться