Вы находитесь на странице: 1из 7

ANOVA ONEWAY

(Módulo práctico con STATA)


Basados en el material elaborado por el profesor Juan Carlos Bazo Álvarez - UPCH - Facultad de Ciencias y Filosofía

Contenido del Módulo Práctico


1. ANOVA Oneway: Ejemplo explicativo (manual)
2. ANOVA Oneway: Ejemplo STATA
3. Supuestos del ANOVA Oneway (STATA)
4. Tamaño del efecto (manual)
5. Pruebas Post-Hoc (STATA)
6. Ejercicios propuestos
7. Referencias bibliográficas

1. ANOVA Oneway1: Ejemplo explicativo (manual2)


Se llevó a cabo un estudio para comparar el contenido promedio de nicotina (en miligramos) de cuatro marcas de
cigarrillos. Se eligen aleatoriamente muestras de cada marca y se obtienen los siguientes resultados:

Marcas de cigarrillo
A B C D
14 18 11 17
15 20 13 16
Niveles de 13 18 12 15
nicotina 14 19 11 18
13 21 16
20
Totales 69 116 47 82 314
Medias 13.8 19.33 11.75 16.4 15.17
Tamaño muestral 5 6 4 5 20

Lo primero que debemos tomar en cuenta es que el ANOVA Oneway puede ser expresado a través de un modelo lineal
tal como sigue:

𝑌𝑖𝑗 = 𝜇 + 𝑇𝑗 + 𝐸𝑖𝑗
𝑖 = 1, 2, … , 𝑛
𝑗 = 1, 2, … , 𝑘
Donde:
Yij = contenido de nicotina del i-ésimo cigarrillo de la j-ésima marca
Tj = efecto verdadero de la j-ésima marca
u = es el contenido general de la nicotina
Eij = es el error aleatorio correspondiente a la observación

En general, la “marca” viene a ser el “tratamiento” o “factor” a evaluar, en este caso sólo uno (por eso es “Oneway” o “una
vía”). La u también es conocida como “gran media” (parámetro). El error aleatorio (E) contiene todos los factores que el
investigador no puede controlar.

Se puede demostrar que de ese modelo se desprende la siguiente relación3:

𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = 𝑆𝐶𝐸𝑛𝑡𝑟𝑒 + 𝑆𝐶𝐷𝑒𝑛𝑡𝑟𝑜

1
También llamado análisis de varianza de un factor en grupos independientes o ANOVA de diseño completamente
aleatorio de un factor.
2
Tomado de Bejarano, Mormontoy y Tipacti (2006), tanto en planteamiento como en desarrollo manual.
3
El detalle puede verse en Bejarano, Mormontoy y Tipacti (2006)
Página 1 de 7
JOEL CHRISTIAN ROQUE HENRIQUEZ
MÉDICO EPIDEMIÓLOGO
SEGUNDA ESPECIALIZACIÓN EN ESTADÍSTICA EN INVESTIGACIÓN
ANOVA ONEWAY
(Módulo práctico con STATA)
Basados en el material elaborado por el profesor Juan Carlos Bazo Álvarez - UPCH - Facultad de Ciencias y Filosofía

Donde SC simboliza la Suma de Cuadrados. Como el ANOVA Oneway procura analizar la variabilidad en función a la SC
total, la SC entre grupos y la SC dentro de los grupos (o error), el procedimiento gira en torno a estos valores. Una tabla
valiosa que ayuda a visualizar el procedimiento es la siguiente:

Tabla ANOVA

Fuente de variación Suma de cuadrados Grados de libertad Cuadrado de la media Razón de la varianza
Entre los grupos 𝑘
𝑇.𝑗2 k-1 𝑆𝐶𝐸𝑛𝑡𝑟𝑒 𝐶𝑀𝐸𝑛𝑡𝑟𝑒
𝑇..2 𝐹𝑐 =
∑ − 𝑘−1 𝐶𝑀𝐷𝑒𝑛𝑡𝑟𝑜
𝑛𝑗 𝑁
𝑗=1
Dentro de los 𝑘 𝑛𝑗 𝑘 n-k 𝑆𝐶𝐷𝑒𝑛𝑡𝑟𝑜
𝑇.𝑗2
grupos o error ∑ ∑ 𝑦𝑖𝑗 2
− ∑ 𝑛−𝑘
𝑛𝑗
𝑗=1 𝑖=1 𝑗=1
Total 𝑘 𝑛𝑗 n-1
2 𝑇..2
∑ ∑ 𝑦𝑖𝑗 −
𝑁
𝐽=1 𝐼=1

Para entender el sentido de las fórmulas es útil la siguiente tabla:

Tratamiento o factor (VI)


1 2 … J … K
y11 y12 … y1j … y1k
Medición . . .
VD . . .
(intervalo o . . .
razón) . . .
yn11 yn22 … ynjj … ynkk
Total T.1 T.2 … T.j … T.k T..
Media 𝑦̅.1 𝑦̅.2 … 𝑦̅.j … 𝑦̅.k 𝑦̅..
Tamaño n1 n2 … nj … nk n..
muestral

En un sentido práctico general, el ANOVA Oneway permite contrastar la siguiente hipótesis nula:

𝐻0 = 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
Para nuestro ejemplo específicamente:

𝐻0 = 𝜇𝐴 = 𝜇𝐵 = 𝜇𝐶 = 𝜇𝐷
Esto mediante la contrastación de dos estimaciones de la varianza poblacional (entre grupos y dentro de los grupos)
haciendo uso de la distribución F. En resumen, el procedimiento de cálculo consiste en llenar todas las celdas de la Tabla
ANOVA mostrada líneas arriba, luego contrastar el valor F obtenido con el F crítico para un alfa determinado (0.05
generalmente). Continuemos con el desarrollo del ejemplo para ver con detalle el procedimiento referido, recordando los
datos del ejemplo:

Marcas de cigarrillo
A B C D
14 18 11 17
15 20 13 16
Niveles de 13 18 12 15
nicotina 14 19 11 18
13 21 16
20

Página 2 de 7
JOEL CHRISTIAN ROQUE HENRIQUEZ
MÉDICO EPIDEMIÓLOGO
SEGUNDA ESPECIALIZACIÓN EN ESTADÍSTICA EN INVESTIGACIÓN
ANOVA ONEWAY
(Módulo práctico con STATA)
Basados en el material elaborado por el profesor Juan Carlos Bazo Álvarez - UPCH - Facultad de Ciencias y Filosofía

Totales 69 116 47 82 314


Medias 13.8 19.33 11.75 16.4 15.17
Tamaño muestral 5 6 4 5 20

Primero, determinamos la suma de cuadrados entre grupos (tabla ANOVA: fila 2 columna 2):
𝑘
𝑇.𝑗2 𝑇..2 692 1162 472 822 3142
𝑆𝐶𝐸𝑛𝑡𝑟𝑒 = ∑ − + + + + − = 162.12
𝑛𝑗 𝑁 5 6 4 5 20
𝑗=1

Segundo, determinamos la suma de cuadrados dentro de los grupos (tabla ANOVA: fila 3 columna 2):
𝑘 𝑛𝑗 𝑘
𝑇.𝑗2 692 1162 472 822
𝑆𝐶𝐷𝑒𝑛𝑡𝑟𝑜 = ∑ ∑ 𝑦𝑖𝑗2 − ∑ = [142 + 152 + ⋯ + 182 + 162 ] − [ + + + ] = 18.08
𝑛𝑗 5 6 4 5
𝑗=1 𝑖=1 𝑗=1

Tercero, determinamos la suma de cuadrados total (tabla ANOVA: fila 4 columna 2):
𝑘 𝑛𝑗
2 𝑇..2 3142
𝑆𝐶𝑇𝑜𝑡𝑎𝑙 = ∑ ∑ 𝑦𝑖𝑗 − = [142 + 152 + ⋯ + 182 + 162 ] − = 180.20
𝑁 20
𝐽=1 𝐼=1

Cuarto, determinamos los grados de libertad (tabla ANOVA: filas 2, 3 y 4 columna 3):
𝑔𝑙𝐸𝑛𝑡𝑟𝑒 = 𝑘 − 1 = 4 − 1 = 3
𝑔𝑙𝐷𝑒𝑛𝑡𝑟𝑜 = 𝑛 − 𝑘 = 20 − 4 = 16
𝑔𝑙 𝑇𝑜𝑡𝑎𝑙 = 𝑛 − 1 = 20 − 1 = 19

Quinto, determinamos el cuadrado de la media entre grupos (tabla ANOVA: fila 2 columna 4):
𝑆𝐶𝐸𝑛𝑡𝑟𝑒 162.12
𝐶𝑀𝐸𝑛𝑡𝑟𝑒 = = = 54.04
𝑘−1 4−1

Sexto, determinamos el cuadrado de la media dentro de los grupos (tabla ANOVA: fila 3 columna 4):
𝑆𝐶𝐷𝑒𝑛𝑡𝑟𝑜 18.08
𝐶𝑀𝐷𝑒𝑛𝑡𝑟𝑜 = = = 1.13
𝑛−𝑘 20 − 4

Séptimo, determinamos el valor de nuestro F muestral (tabla ANOVA: fila 2 columna 5):
𝐶𝑀𝐸𝑛𝑡𝑟𝑒 54.04
𝐹𝑐 = = = 47.82
𝐶𝑀𝐷𝑒𝑛𝑡𝑟𝑜 1.13

En este momento ya podemos llenar nuestra tabla ANOVA con los resultados de todos los cálculos realizados:
Fuente de variación Suma de cuadrados Grados de libertad Cuadrado de la media Razón de la varianza
Entre los grupos 162.12 3 54.04 𝐹𝑐 = 47.82
Dentro de los 18.08 16 1.13
grupos o error
Total 180.20 19

Página 3 de 7
JOEL CHRISTIAN ROQUE HENRIQUEZ
MÉDICO EPIDEMIÓLOGO
SEGUNDA ESPECIALIZACIÓN EN ESTADÍSTICA EN INVESTIGACIÓN
ANOVA ONEWAY
(Módulo práctico con STATA)
Basados en el material elaborado por el profesor Juan Carlos Bazo Álvarez - UPCH - Facultad de Ciencias y Filosofía

A efectos del contraste de nuestra Ho, lo que nos interesa finalmente es el Fc=47.82. El valor crítico es FT (tabla distribución
F) con k-1, N-k grados de libertad y 𝛼 = 0.05 estando k-1 ubicado en el numerador de la tabla y N-k en el denominador.
El contraste es siempre con la cola por la derecha. Para el ejemplo será:
𝐹𝑇[𝑘−1,𝑁−𝑘] = 𝐹𝑇[4−1,20−4] = 𝐹𝑇[3,16] = 3.24
La regla de decisión indica que si p<0.05 se rechaza Ho (prueba unilateral). Como FT = 3.24 es menor que Fc = 47.82 (∝
= 0.05) se rechaza Ho. Luego se concluye que “los contenidos de nicotina entre las cuatro marcas de cigarrillos no son
iguales entre sí”. En este sentido, cabe aclarar que la Ha indica que “al menos una de las marcas tiene una media de
nicotina diferente”, no obstante, el ANOVA Oneway por sí mismo no especifica las diferencias entre medias una a una4.

2. ANOVA Oneway: Ejemplo STATA


Ahora desarrollaremos el mismo ejemplo pero con STATA. Para ello debemos ingresar al “Data Editor” los datos de la
siguiente manera:
nicotina marca
14 A
15 A
13 A
14 A
13 A
18 B
20 B
18 B
19 B
21 B
20 B
11 C
13 C
12 C
11 C
17 D
16 D
15 D
18 D
16 D
La variable “nicotina” representan los miligramos encontrados en cada cigarrillo (VD). La variable “marca” representa el
“tratamiento”, “vía” o “factor”. Cada caso (fila=cigarrillo) tiene asignado un tratamiento al que pertenece (marca) y la
medición de nicotina obtenida. Ahora usemos el comando que nos permitirá hacer los mismos cálculos que realizamos a
mano:
oneway nicotina marca
Analysis of Variance
Source SS df MS F Prob > F
------------------------------------------------------------------------
Between groups 162.116667 3 54.0388889 47.81 0.0000
Within groups 18.0833333 16 1.13020833
------------------------------------------------------------------------
Total 180.2 19 9.48421053

Bartlett's test for equal variances: chi2(3) = 0.6154 Prob>chi2 = 0.893

Nótese que la salida STATA nos ofrece una tabla ANOVA similar a la que desarrollamos a mano líneas arriba. No
obstante, los cálculos STATA son más finos y nos proporciona un valor de p para nuestro Fc. En este sentido, la decisión
y conclusión con el STATA es la misma que obtuvimos manualmente.

4
Esto se logra con las pruebas de diferencias significativas (post-hoc) que veremos más adelante.
Página 4 de 7
JOEL CHRISTIAN ROQUE HENRIQUEZ
MÉDICO EPIDEMIÓLOGO
SEGUNDA ESPECIALIZACIÓN EN ESTADÍSTICA EN INVESTIGACIÓN
ANOVA ONEWAY
(Módulo práctico con STATA)
Basados en el material elaborado por el profesor Juan Carlos Bazo Álvarez - UPCH - Facultad de Ciencias y Filosofía

Adicionalmente y por defecto, STATA nos ofrece una “prueba de homogeneidad de varianzas” con Ho: varianzas iguales.
Como el p de esta “prueba de Bartlett”5 es igual a 0.893, no se rechaza Ho y se concluye que las varianzas son iguales.
Esta prueba es importante; toda vez, que es un supuesto del ANOVA Oneway, como veremos a continuación.

3. Supuestos del ANOVA Oneway


Para realizar un ANOVA Oneway debemos confirmar que6:
 Las observaciones son medidas, por lo menos, en una escala de intervalo.
 Cada una de las poblaciones de las cuales provienen las muestras están distribuidas normalmente.
 Cada una de las poblaciones tienen la misma varianza.
El primer supuesto es algo que el investigador debe conocer. El tercer supuesto supone la realización de una prueba
estadística, en este caso la “prueba de Bartlett” que hemos obtenido con el STATA por defecto al aplicar el comando
oneway. Si deseamos revisar el segundo supuesto, podemos utilizar los siguientes comandos:
swilk nicotina if marca==1
Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
nicotina | 5 0.88315 1.379 0.457 0.32382

swilk nicotina if marca==2


Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
nicotina | 6 0.86238 1.704 0.851 0.19748

swilk nicotina if marca==3


Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
nicotina | 4 0.96093 0.451 -0.788 0.78479

swilk nicotina if marca==4


Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
nicotina | 5 0.98685 0.155 -1.846 0.96753

Hemos utilizado una prueba de normalidad Shapiro-Wilk7 realizada al interior de cada grupo. La Ho indica normalidad. En
este caso, podemos apreciar que todas las distribuciones de nuestro ejemplo son normales, cumpliendo con el supuesto.
Frente al no cumplimiento de alguno de los supuestos, ANOVA Oneway tiene alternativas no paramétricas. No obstante,
es importante mencionar que, al igual que la prueba t, el ANOVA es una prueba robusta frente a la violación de supuestos:
“Esta se afecta en forma mínima por las violaciones a la normalidad poblacional. También es relativamente insensible a
las violaciones de la homogeneidad de la varianza, siempre que las muestras sean del mismo tamaño”8.

5
Bejarano, Mormontoy y Tipacti (2006) enseñana su procedimiento manual.
6
Bejarano, Mormontoy y Tipacti (2006)
7
Esta prueba trabaja con un mínimo de 4 elementos por muestra, a diferencia de Shapiro-Francia que requiere 5 o el
sktest que requiere 8.
8
Pagano (2006)
Página 5 de 7
JOEL CHRISTIAN ROQUE HENRIQUEZ
MÉDICO EPIDEMIÓLOGO
SEGUNDA ESPECIALIZACIÓN EN ESTADÍSTICA EN INVESTIGACIÓN
ANOVA ONEWAY
(Módulo práctico con STATA)
Basados en el material elaborado por el profesor Juan Carlos Bazo Álvarez - UPCH - Facultad de Ciencias y Filosofía

4. Tamaño del efecto


Cuando estamos utilizando ANOVA para evaluar los efectos de una VI sobre una VD, es útil determinar la “magnitud o
tamaño del efecto” encontrado. Para ello, podemos utilizar la siguiente fórmula9:
𝑆𝐶𝐸𝑛𝑡𝑟𝑒 − (𝑘 − 1)𝐶𝑀𝐷𝑒𝑛𝑡𝑟𝑜
̂2 =
𝑤
𝑆𝐶𝑇𝑜𝑡𝑎𝑙 + 𝐶𝑀𝐷𝑒𝑛𝑡𝑟𝑜
Para el ejemplo que venimos desarrollando sería:
𝑆𝐶𝐸𝑛𝑡𝑟𝑒 − (𝑘 − 1)𝐶𝑀𝐷𝑒𝑛𝑡𝑟𝑜 162.12 − (4 − 1) ∗ 1.13 158.73
̂2 =
𝑤 = = = 0.8754
𝑆𝐶𝑇𝑜𝑡𝑎𝑙 + 𝐶𝑀𝐷𝑒𝑛𝑡𝑟𝑜 180.20 + 1.13 181.33

Lo que, a efectos del ejemplo, puede ser interpretado como la diferencia de marca de cigarrillo representa un 87.54% de
la variabilidad en la cantidad de nicotina en cigarrillos.

5. Prueba post-hoc
Como habíamos mencionado líneas arriba, el ANOVA Oneway proporciona un contraste de hipótesis que, al concluir
diferencia de medias entre grupos solo puede precisar que “al menos la media de uno de los grupos es significativamente
diferente de las demás”. En este sentido, al no disponer de una información clara de entre cuales medias se produce tal
diferencia, requerimos de un tipo de prueba adicional comúnmente llamada “post-hoc” o de “comparaciones múltiples”.
La más conocida es la prueba de Scheffe que es válida para el caso en que las k muestras no tengan todas ellas el mismo
tamaño10. Las alternativas a esta prueba son la de Bonferroni y la de Sidak, ambas con sustrato común y fácil de obtener
mediante el STATA. A continuación, las revisaremos la prueba de Sheffe para nuestro ejemplo11.
oneway nicotina marca, noanova scheffe
Comparison of nicotina by marca
(Scheffe)
Row Mean-|
Col Mean | A B C
---------+---------------------------------
B | 5.53333
| 0.000
|
C | -2.05 -7.58333
| 0.077 0.000
|
D | 2.6 -2.93333 4.65
| 0.012 0.003 0.000

Para todas las celdas, el valor de arriba representa la diferencia entre las medias de nicotina para cada par de grupos. El
valor de abajo es p para la hipótesis de diferencia significativa en cada par de grupos comparados (según marca en este
caso). La Ho indica igualdad de medias. Como se aprecia, todos los valores de p son menores a 0.05 menos el par de
marcas A y C. Esto implica que hay diferencias entre todos los pares de marcas, salvo entre el par A-C.
El siguiente comando proporciona una tabla que puede ser útil:
oneway nicotina marca, noanova tabulate
| Summary of nicotina
marca | Mean Std. Dev. Freq.
------------+------------------------------------
A | 13.8 .83666003 5
B | 19.333333 1.2110601 6
C | 11.75 .95742711 4
D | 16.4 1.1401754 5
------------+------------------------------------
Total | 15.7 3.0796445 20

9
Pagano (2006)
10
Pagano (2006)
11
Bejarano, Mormontoy y Tipacti (2006) desarrollan el procedimiento manual.
Página 6 de 7
JOEL CHRISTIAN ROQUE HENRIQUEZ
MÉDICO EPIDEMIÓLOGO
SEGUNDA ESPECIALIZACIÓN EN ESTADÍSTICA EN INVESTIGACIÓN
ANOVA ONEWAY
(Módulo práctico con STATA)
Basados en el material elaborado por el profesor Juan Carlos Bazo Álvarez - UPCH - Facultad de Ciencias y Filosofía

Aquí vemos que la media de A (13.8) y la media de C (11.75) son diferentes, pero por Scheffe advertimos que no lo
suficiente como para señalar diferencia significativa. De la salida anterior (Scheffe) y de esta, es fácil concluir que la mayor
cantidad de nicotina la tiene la Marca B y que esta es significativamente distinta a todas las demás, incluso la D.

6. Ejercicios propuestos
a. Se llevó a cabo un experimento para comparar tres dietas diferentes en relación a la ganancia de peso (en gramos) al
alimentar a 15 conejos de un laboratorio. Se obtuvieron los siguientes resultados12:
Dietas
A B C
4 8 7
5 10 6
Ganancia de 3 8 5
peso (gramos) 4 9 8
3 11 6

Totales 19 46 32 97
Medias 3.8 9.2 6.4 6.47
Tamaño muestral 5 5 5 15
 ¿Cuál es su conclusión respecto de la ganancia de peso de las tres dietas? (𝛼 = 0.05). Hacerlo manualmente y
con el STATA.
 Comprobar los supuestos, calcular el tamaño del efecto y realizar e interpretar las comparaciones múltiples
(manualmente o con STATA, según prefiera).
b. Un profesor requiere encontrar la mejor forma de presentar un importante tema frente al grupo que tiene a su cargo.
Para eso puede escoger una de las tres opciones siguientes: 1) dar clase, 2) dar clase y asignar una lectura
complementaria, 3) proyectar una película y asignar una lectura complementaria. El decide hacer un experimento para
evaluar las tres opciones. Entonces solicita 27 voluntarios de su grupo y asigna aleatoriamente 9 a cada una de las tres
condiciones…después se aplica a los alumnos un examen sobre el material. Se obtuvieron los siguientes datos
(porcentaje de respuestas correctas):
Clase tipo
1 2 3
92 86 81
86 93 80
Conocimientos 87 97 72
sobre el material 76 81 82
80 94 83
87 89 89
92 98 76
83 90 88
84 91 83
 ¿Cuál es su conclusión? (𝛼 = 0.05). Hacerlo manualmente y con el STATA.
 Comprobar los supuestos, calcular el tamaño del efecto y realizar e interpretar las comparaciones múltiples
(manualmente o con STATA, según prefiera).

7. Referencias bibliográficas
Bejarano L., Mormontoy W., Tipacti C. (2006). Muestreo e inferencia estadística en ciencias de la salud. Lima: Universidad
Peruana Cayetano Heredia.
Pagano R. (2006). Estadística para las ciencias del comportamiento. Séptima edición. México: Thomson.

12
Tomado de Bejarano, Mormontoy y Tipacti (2006).
Página 7 de 7
JOEL CHRISTIAN ROQUE HENRIQUEZ
MÉDICO EPIDEMIÓLOGO
SEGUNDA ESPECIALIZACIÓN EN ESTADÍSTICA EN INVESTIGACIÓN

Вам также может понравиться