Вы находитесь на странице: 1из 6

Análisis de varianza 1

ANÁLISIS DE VARIANZA. (Con un criterio de clasificación).

Investigue sobre los diseños experimentales, sus ventajas y limitaciones.

El análisis de varianza es un procedimiento aritmético mediante el cual la


variación total de un conjunto de datos se divide en dos o más componentes
cada uno de los cuales se puede atribuir a una fuente identificable.

En esta clase estudiaremos el análisis de varianza con un criterio de


clasificación o clasificación simple. Supondremos que el experimento cuenta con
los resultados de k muestras aleatorias independientes, cada una de un tamaño
nj de k métodos productivos (datos relativos a k tratamientos, k grupos, k
métodos productivos, etc); y interesa probar la hipótesis de que las medias de
esas k poblaciones son todas iguales. Para esas k poblaciones con i-ésimas
observaciones (medidas, etc) en la j-ésima muestras por tanto y ij , en el
esquema general para un criterio de clasificación es como sigue:

MUESTRAS (TRATAMIENTOS)
1 2 3……. k
y11 y12 y13 y1k
y 21 y 22 y 23 y 2k
. . . .
. . . .
. . . .
y i1 yi2 y i3 y ik
. . . .
. . . .
. . . .
y n11 y n2 2 yn 3 y nk k
3

Total T*1 T*2 T*3 T*k T**

Media y*1 y*2 y*3 y*k y**


Varianzas S12 S22 S32 Sk2 S*2

Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con


medias iguales, se realizaran varias suposiciones, tales como que trabajamos
con poblaciones normales con varianzas iguales.
Análisis de varianza 2

Si µ j denota la media de la j-ésima población y σ 2 indica la varianza común de


las k poblaciones, podemos expresar cada observación y ij como µ j mas el
valor de un componente aleatorio, es decir:

y ij = µ j + ε ij para j = 1,2….k; i=1,2,3…n

De acuerdo con las suposiciones anteriores, los ε ij son valores aleatorios


independientes, distribuidos normalmente con medias cero y la varianza común
σ 2.
Para lograr uniformidad en las ecuaciones correspondientes a clases de diseños
más complicados, se acostumbra remplazar µ j por µ + α j donde µ es la
media de las µ j y α J es el efecto del j-ésimo tratamiento de ahí que
k
∑ α j = 0 . Con estos nuevos parámetros, podemos escribir la ecuación para
j =1
el criterio de clasificación:

y ij = µ + α j + ε ij para j=1,2,3…k; i=1,2,3….n

La hipótesis nula de que las medias de las k poblaciones son iguales puede
reemplazar con la hipótesis nula de que α1 = α 2 = .......α k = 0 la hipótesis
alternativa de que al menos dos de las medias son distintas equivale a que
α J ≠ 0 para alguna j.

Para probar la hipótesis nula de que las medias de las k poblaciones son
2
iguales, comparemos dos estimaciones de σ (una con base en la variación
entre las medias muéstrales, es decir entre los tratamientos y la otra con base
en la varianza dentro de las muestras o dentro del tratamiento).

Dado que, como se ha supuesto, cada muestra proviene de una población que
2
tiene la varianza σ , la varianza puede estimarse por cualquiera de las
varianzas muestrales.

nj
2
∑ ( y ij − y* j )
j =1
S 2j =
n j −1
Análisis de varianza 3

Y entonces también por su media

k k nj
2 2
∑S j ∑ ∑ ( y ij − y* j )
j =1 i =1
σˆ w2 = i =1
=
k n −1

k
n= ∑ nj
j =1

2
Se puede observar que cada una de las varianzas maestrales S j está basada
en n j − 1 grados de libertad ( n j − 1 desviación independiente de y* j ) y
2
entonces σˆ w está basada en n-1 grados de libertad.

Ahora bién, la varianza de las k medias maestrales está dada por:

k 2
∑ ( y* j − y** )
j =1
S2 =
X k −1

Si la hipótesis nula es verdadera está expresión nos da una estimación de


σ 2 . Así una estimación de σ 2 basada en las diferencias entre las medias
n
maestrales esta da por:

k 2
∑ ( y * j − y** )
j =1
σˆ B2 = n ⋅ S 2 = n ⋅
X k −1

y esta basada en k-1 grados de libertad.

Si la hipótesis nula es verdadera, puede demostrarse que σˆ w2 y σˆ B2 son


estimaciones independientes de σ 2 , y se sigue de ello que:
Análisis de varianza 4

2
B σˆ
F =
2
w σˆ
Es un valor de una variable aleatoria que tiene distribución F de Fisher con k-1 y
2
n-1 grados de libertad. Cabe esperar que la varianza entre muestras σˆ B ,
2
exceda a la varianza dentro de la muestra σˆ w , cuando la hipótesis nula es falsa
por eso la hipótesis nula será rechazada si F excede a Fα donde Fα se obtiene
de la tabla correspondiente.

El argumento anterior ha indicado cómo la prueba de la igualdad de las k


muestras puede fundamentarse en la comparación de dos estimaciones en
cuestión pueden obtenerse partiendo o analizando la varianza total de las n
observaciones en dos partes. La varianza muestral de las n observaciones está
dada por:

k nj
2
∑ ∑ ( y ij − y** )
j =1 i =1
S2 = .
n −1
Que llamaremos suma total de cuadrado (SCT) y podemos plantear la identidad
para el análisis con un criterio de clasificación como sigue:

k nj 2 k nj 2 k 2
∑ ∑ ( y ij − y ** ) = ∑ ∑ ( y ij − y * j ) + ∑ n j ( y * j − y ** )
j =1 i =1 j =1 i =1 j =1

La demostración de este teorema se basa en la siguiente identidad:

y ij − y ** = ( y ij − y * j ) + ( y * j − y ** )

En este curso no es objetivo obtener dicha demostración por lo que


continuaremos con el desarrollo de otros aspectos. Recordemos del teorema
anterior los aspectos siguientes. El término:

k nj 2
∑ ∑ ( y ij − y ** ) Suma total de cuadrados. (SCT).
j =1 i =1

2
En el Teorema analizado el primer término de la derecha el σˆ w veces sus
grados de libertad; y a esta suma la llamaremos suma cuadrado del error (SCE)
Análisis de varianza 5

y expresa la idea de que la cantidad estima errores aleatorios, dicho de otra


forma expresa la variación dentro del tratamiento.
k nj
2
∑ ∑ ( y ij − y * j )
j =1 i =1
2
El segundo miembro de la derecha es σˆ B veces sus grados de libertad y se le
llama suma cuadrado entre tratamientos o entre muestras (SCTR) y será.

k 2
∑ n j ( y* j − y** )
j =1

Representa la variación entre los tratamientos.

En este momento podemos plantear que:

SCTR
F= k −1
SCE
n −1

Las sumas requeridas para calcular esta ultima formula suelen obtenerse por
medio de las siguientes expresiones que ahorran bastante trabajo.

SCT = SCE + SCTR

k nj 2
SCT = ∑ ∑ yij − C
j =1i =1

El término C se denomina termino de corrección y esta dado por:

2
 k nj 
 ∑ ∑y 
2 ij
T**  j =1i =1 
C= = .
n n

k 2
∑ T* j
j =1 k T*2j
SCTR = −C = ∑ −C
n j =1 n j

SCE = SCT – SCTR.


Análisis de varianza 6

Los resultados obtenidos al analizar la suma total de cuadrados en sus


componentes son resumidos de manera conveniente por medio de la siguiente
tabla de análisis de varianza.

Fuente de Suma de Grados de Media cuadrada F


variación cuadrados libertad
SCTR MCTR
Tratamiento SCTR k-1 (v1) MCTR =
k −1 MCE
SCE
Error SCE n-k (v2) MCE =
n−k
Total SCT n-1

Nótese que cada cuadrado medio se obtuvo dividiendo la suma de cuadrado


correspondiente entre el número de grados de libertad.

Nota importante: el análisis de varianza es básicamente el mismo para tamaño


de muestras iguales que para desiguales y lo mismo ocurre para la
interpretación de los resultados. Recordemos que tener tamaño de muestras
iguales da una protección contra los malos efectos que causa no ser verdadera
la suposición de que las varianzas poblacionales sean homogéneas.