Вы находитесь на странице: 1из 78

1

ANALISIS DE LA VARIANZA

1.0 Introduccin
El anlisis de la varianza se utiliza para probar las diferencias entre diversas medias. Se
supone que las diversas medias muestrales se obtienen a partir de poblaciones con
distribucin normal y con la misma varianza.

Como la hiptesis nula consiste en que las medias poblacionales son iguales, la
suposicin de igualdad de varianzas (homogeneidad de la varianza), tambin implica
que, para propsitos prcticos, la prueba se ocupa de la hiptesis de que las medias
provienen de la misma poblacin
Las hiptesis son:

H 0 : 1 = 2 = 3 = ... = k

H 1 : , 2 , 3 ,..., k No son todas iguales

El anlisis de la varianza ANOVA (Anlisis of Variance) permite contrastar


simultneamente la igualdad de las k medias 1,..., o que supone una gran ventaja
para reducir las operaciones y los posibles errores acumulativos que cometeramos
realizando contrastes para todas las parejas posibles de medias con el modelo de la t
de Student.

La terminologa empleada ser la siguiente:

- Factor es cada una de las causas que influyen en la heterogeneidad de las


poblaciones.

Ejemplo 0:
El uso de analgsicos en el bienestar de unos enfermos. Si hay un solo factor lo
representamos por A.

- Tratamiento o niveles del factor son cada uno de los valores posibles del factor A, y
los representamos por Ai para i = 1,, k.

Ejemplo 1
En el ejemplo 0 los tratamientos son las distintas marcas de analgsicos.

Las variables poblacionales estn asociadas a los conjuntos (grupos) de valores que se
obtienen aplicando los tratamientos Ai. Por ello podemos hablar de variables de
tratamiento o grupos de tratamiento. Ntese que la media del tratamiento A i es

SMC
2
El anlisis de la varianza supone mantener la independencia de las variables de
tratamiento

- Efectos son la medida de la influencia del factor en la heterogeneidad.

Concretamente el efecto es la medida de la influencia del tratamiento Ai del factor A


en la heterogeneidad. Esto es i sera la diferencia que la media del tratamiento Ai
presenta respecto a la media general de todos los tratamientos:
=

- Error muestral (o residuo) es el error debido a la aleatoriedad muestral, es decir a


que sea ese elemento y no otro el observado. Por tanto, ser la diferencia que el
elemento muestral presenta respecto a la media de la poblacin de la que proceda:

ij = xij i ij ,
Siendo xij el elemento muestral j-simo del la poblacin i-sima

La tcnica del anlisis de la varianza se inicia descomponiendo la varianza total de las


observaciones xij como la media de la heterogeneidad total. Esta descomposicin la
hacemos teniendo encuenta que si los tratamientos Ai fueran homogneos y la
aleatoriedad muestral no produjera heterogeneidad, las observaciones xij seran
homogneas y la varianza de las xij sera cero. Ahora bien, s la varianza de los
elementos xij no es cero, es porque no son homogneos los elementos xij lo que
significa que hay una posible heterogeneidad de las poblaciones de las que proceden; o
bien la causa de la heterogeneidad es la aleatoriedad muestral.

Por ello descomponemos la varianza total de los xij en una suma de diferencias al
cuadrado en dos trminos:

1) Suma de cuadrados que mide la heterogeneidad debida a la influencia de los


tratamientos o variabilidad explicada por el factor

2) Suma de cuadrados que mide la heterogeneidad debida al error muestral, es


decir, la variabilidad no explicada por el factor o residual.

SMC
3
Conviene aclarar que la variable independiente (cualitativa) es el factor con k niveles
independientes, es decir los tratamientos Ai, que el caso del ANOVA acta sobre una
variable dependiente (cuantitativa).

Ejemplo: en el ejemplo 0 se tiene

- el factor ser el uso de analgsicos

- los tratamientos o niveles del factor son las distintas marcas de analgsicos

- y las variables los valores que sobre la variable dependiente, o variable respuesta, se
obtienen aplicando los tratamientos.

Si tenemos una sola variable respuesta trabajaremos con un ANOVA.

En ejemplo 0 la variable respuesta sera el nmero de horas de bienestar de los


enfermos a los que se han aplicado los tratamientos Ai. Esta variable se concreta para
los tratamientos Ai (i = 1,,k) en las variables.

Si tenemos dos o ms variables respuestas utilizaremos la tcnica MANOVA


(multivariante Anlisis of Variance). En este caso queremos medir varias variables
dependientes en cada unidad experimental, por ejemplo, si al aplicar los tratamientos
analgsicos nos interesa medir el nmero de horas de bienestar de los enfermos con
esos tratamientos y el nmero de horas de sueo.

En la tabla siguiente recogemos todas las variables dependientes con cada tratamiento.

Niveles del factor Variables dependientes


1 " p
A1 11 " 1 p
Ai i1 " ip
# #
Ak k 1 " kp


En caso de tener una variable dependiente 1 , las variables 11 ,..., 1l ,..., kl que
corresponden a las respuestas de la variable dependiente con cada uno de los
tratamientos equivalen a las 1 ,..., k . Estas variables son independientes entre s
puesto que los tratamientos lo son. Con esta notacin, una observacin muestral sera:

xijr = observacin muestral j-sima de la poblacin (o grupo de tratamiento) i-sima


para la variable dependiente r-sima.

SMC
4

Estas variables dependientes se suponen relacionadas entre s, pues, si no es as, no


habra inters en aplicar un anlisis multivariado, sino un anlisis univariante de la
varianza para cada una de las variables estudiadas.

Siempre hay que tener en cuenta los supuestos de partida que han de cumplirse para
aplicar correctamente el ANOVA. Estos supuestos son:

1) Normalidad de las poblaciones, que probaremos con el test de Kolmogorov


Smirnov u otra prueba. Sin embargo, la falta de normalidad de las observaciones,
si las poblaciones son normales las observaciones tambin lo son, no tiene
consecuencia graves en el contraste de la F si el tamao de la muestra es
suficiente grande (teorema del lmite central). En este sentido podemos decir que
el ANOVA es una tcnica robusta frente a las desviaciones de la normalidad.
La falta de normalidad o heterocedasticidad (que suelen ir asociadas) se corrige
aplicando una transformacin conveniente

2) Independencia de las observaciones muestrales. Esta condicin debe


asegurarse inicialmente en la recogida de la informacin. Si no se cumpliera
este supuesto las consecuencias pueden ser muy graves ya que las
distribuciones muestrales de los estadsticos no seran correctas. Se consigue
mayor aleatoriedad transformando los datos mediante el logaritmo y haciendo el
ANOVA con los datos transformados.

3) Homocedasticidad, esto es, las varianzas poblaciones han de ser homogneas.


Se contrasta con cualquier test de igualdad de varianzas, por ejemplo Bartlett,
Cochran, Harley o Levene

Uno de los casos ms comunes de heterocedasticidad es cuando la varianza crece con


la media. En estos casos las transformaciones ms utilizadas para estabilizar las
varianzas son el logaritmo y la funcin inversa. Posteriormente, se repetir el anlisis
con los datos transformados y las conclusiones del anlisis se referiran a los nuevos
datos

Con este supuesto ocurre, como con el de normalidad, que si no se cumple no tiene
consecuencias graves, pues al aplicar el test de la F el que es robusto frente a la
heterogeneidad.

Si todos los grupos tienen el mismo nmero de observaciones, el contraste de la F es


igualmente exacto. El efecto de varianzas desiguales en los grupos depende de la
heterogeneidad entre el nmero de observaciones de cada grupo.

Por tanto, conviene utilizar muestras del mismo tamao (o aproximadamente iguales),
sobre todo cuando hay diferencias grandes entre las varianzas.

SMC
5
2.0 Razonamiento conceptual

1) Se debe calcular la media para cada grupo muestral, y despus determinar el error

estndar de la media Sx con base slo en las diversas medias muestrales

2) Se sabe que:
S
Sx = S 2 = nS x
2

A esta relacin se le llama el error estndar de la media. Puede utilizarse para estimar
la varianza de la poblacin.

A esta estimacin de la varianza poblacional se le denomina:

Cuadrado medio entre tratamientos y se denotar por CMET

3) Calcular la varianza de cada grupo muestral por separado con respecto a la media
de cada uno.

Despus se combinan estas varianzas ponderndolas con (n 1) correspondiente a


cada muestra.

La estimacin resultante de la varianza poblacional se denomina:

Cuadrado medio del error y se denota por CME

y se basa slo en las diferencias intergrupales.

La nueva cuenta, se le denomina Cuadrado medio. Por que es una estimacin de


varianza. Se le denomina Error por que las desviaciones dentro de cada uno de los
grupos muestrales pueden deberse solamente a errores de muestreo aleatorio, y no
pueden deberse a diferencias entre medias de los diferentes grupos de la poblacin

4) Si la hiptesis nula H 0 : 1 = 2 = 3 = ... = k es cierta, entonces, se sigue


que cada uno de los dos cuadrados medios que se obtienen en (2) y (3) son un
estimador insesgado e independiente de la misma varianza poblacional .
2

Sin embargo, si la hiptesis nula es falsa, entonces el valor esperado del cuadrado
medio entre tratamientos CMET es mayor que el cuadrado medio del error CME

SMC
6
CMET > CME
En esencia, cualquiera diferencia entre las medias poblacionales, incrementaran el
cuadrado medio entre tratamiento CMET, al tiempo que no tendran ningn efecto
sobre el cuadrado medio del error CME, que se basa slo en las diferencias
intergrupales.

5) Se puede utilizar la distribucin F para probar la diferencia entre las dos varianzas.
Se trata de una prueba de un solo extremo, y la forma general de la prueba F en
anlisis de varianza es

CMET
Fv1,v 2 =
CME
Si el cociente F se encuentra en la regin de rechazo para el nivel de significancia
especificado, entonces, se rechaza la hiptesis nula de que las diversas medias
muestrales provienen de la misma poblacin

Ejemplo 1: 15 estudiantes son asignados aleatoriamente a tres mtodos de instruccin.


Los datos de la tabla siguiente corresponden a las calificaciones al trmino de la unidad
de instruccin. Se pide probar la hiptesis nula de que las tres medias muestrales se
obtienen de la misma poblacin, Utilizando = 0,05

Mtodos de Calificaciones de
instruccin las pruebas
A1 86 79 81 70 84
A2 90 76 88 82 89
A3 82 68 73 71 81

Solucin:
H 0 : 1 = 2 = 3

H 1 : 1 , 2 , 3 No todas iguales

Mtodos de Calificaciones de Calificaciones Calificaciones


instruccin las pruebas Totales promedio

A1 86 79 81 70 84 400 80
A2 90 76 88 82 89 425 85
A3 82 68 73 71 81 375 75
= 1200

SMC
7
1) La media global de las 15 calificaciones es:

86 + 79 + ... + 71 + 81
XT = = 80
15

1200
XT = = 80
15

El error estndar de las medias, con base en las tres medias es:

( )
2
X XT (80 80 ) + ( 85 80 ) + ( 75 80 )
2 2 2

SX = = = 5, 0
n 1 3 1

Donde n es el nmero de medias (mtodos de instruccin)

2) Se sabe que S2 = CMET (Cuadrado medio entre tratamientos) es:

CMET = nS X 2 , entonces

CMET = 5( 5 ) = 125
2

3) Clculo del cuadrado medio del error: CME

(x x)
2

Como S 2 =
n 1

Entonces la varianza para cada mtodo de instruccin es:

SMC
8
(86 80) + (79 80) + (81 80) + (70 80) + (84 80)
2 2 2 2 2
S12 = = 38,5
5 1

(90 85) 2 + (76 85) 2 + (88 85) 2 + (85 85) 2 + (89 85) 2
S2 2 = = 35, 0
5 1

(82 75) 2 + (68 75) 2 + (73 75) 2 + (71 75) 2 + (81 75) 2
S3 =
2
= 38,5
5 1

Luego, el cuadrado medio del error (CME) es:

( n 1) S 1 + ( n 2 1) S 2 + ( n 3 1) S 3 438,5 + 435 + 438,5


2 2 2

CME = 1 = = 37,3
n1 + n 2 + n 3 3 5+5+53

4) Como CMET > CME (125 > 37,3) resulta apropiada la prueba

La estadstica de prueba es:

Fp, k-1, n

k k
N
v1 v2

Donde:

k = 3 (mtodos instruccin, n de filas)


n = 5 (n calificaciones por mtodo)

Por lo tanto:

F .95, (3-1), (35-3) = 3,89 Valor crtico

CMET 125
5) FObs. = FObs = = 3,35
CME 37,3
SMC
9

Por lo tanto, como F observado no es mayor que el valor crtico no es posible rechazar
H0, es decir, no se puede rechazar que las calificaciones promedio para los tres
mtodos de instruccin de la poblacin son iguales entre s.

3.0 Anlisis de la varianza con un factor e informacin completamente aleatoria:


Modelos I y II

3.1 Modelo I: Anova de un factor, completamente aleatorio y efectos fijos

En el ANOVA con un factor tenemos una variable dependiente cuantitativa, en


ejemplo 0 es el nmero de horas de bienestar de los enfermos, determinada por un
factor como variable independiente cualitativa, que en el ejemplo es el uso de
analgsicos con k niveles de tratamientos A1,,Ak (marcas de analgsicos) a los que
corresponden los valores de las variables; estos valores de las variables se obtienen
aplicando el tratamiento Ai

Este procedimiento se ocupa de probar la diferencia entre k medias muestrales,


cuando se asignan los elementos en forma aleatoria a cada uno de los diversos grupo
de tratamiento.

La ecuacin lineal que representa este diseo es:

X ik = + k + ik
Donde:

: Media global de todas las poblaciones sometidas al tratamiento k

k : Efecto del tratamiento de un grupo k de donde el valor se obtuvo por muestreo


ik : Error asociado al proceso de muestreo.
Tabla resumen para el anlisis de varianza con un criterio de clasificacin
Fuente de Grados de Suma de Cuadrado Coeficiente
Variacin Libertad (gl) cuadrado (SC) Medio (CM) F
Entre grupos de k 1 SCA CMA=SCA/(k-1) CMA
Tratamientos (A) F=
CME
Error de Nk SCE CME=SCE/(N-k)
Muestreo (E)
Total (T) N -1 SCT

SMC
10

Donde:
Tk 2 T 2
k
SCA =
k =1 n k N

SCE = SCT SCA

n k T2
SCT = x 2
i =1 k =1 N

SCA
CMA =
k 1

SCE
CME =
N 1

CMA
F=
CME

N: Tamao total de la muestra para la totalidad de los grupos de tratamientos juntos

Tk: Suma total de los valores en un determinado grupo de tratamiento

T: Suma de los valores muestreados en todos los grupos combinados

k : N de grupos de tratamiento

SCA: Suma de cuadrados entre grupos de tratamiento

CMA: Cuadrado medio entre grupos de tratamientos

SCE: Suma de cuadrados de error de muestreo

SCT: Suma de cuadrados de los valores muestreados en todos los grupos


combinados

CME: Cuadrado medio de error de muestreo

SMC
11
x : valor de la variable

Planteamiento de hiptesis nula y alternativa

H 0 : 1 = 2 = 3 = ... = k

H1 : 1 , 2 ,..., k No todas iguales

Otra forma de escribir las hiptesis es

H 0 : k = 0 . Para todos los tratamientos (niveles de factor)

H 1 : k 0 . Para algunos tratamientos

Cuando se rechaza la hiptesis nula significa que existen r s ; esto es, al menos
existe una pareja de medias que son distintas. Lo que rechazamos es la igualdad
simultnea de medias

1 =,..., = k
Para averiguar que parejas de medias son distintas hacemos contrastes dos a dos con
la "t" de Student.

Ejemplo 2: Resolver el ejemplo 1 utilizando la tabla de anlisis de la varianza con un


solo factor

Solucin:

Mtodos de Calificaciones de Calificaciones Calificaciones


Instruccin Las pruebas Totales promedio

A1 86 79 81 70 84 T1 = 400 80
A2 90 76 88 82 89 T2 = 425 85
A3 82 68 73 71 81 T3 = 375 75

De la tabla anterior tenemos

SMC
12
n1 = 5 n2 = 5 n3 = 5 N = 15
T1 = 400 T2 = 425 T3 = 375 T = 400 + 425 + 375 = 1200
T12 = 160000 T22 = 180625 T32 = 140625 T2 = 1440000

3
T 2k T 2 160000 180625 140625 1440000
SCA =
k =1 nk

N
SCA =
5
+
5
+
5
15
= 250

5 3

x
i =1 k =1
2
= 86 2 + 79 2 + ... + 712 + 812 = 96698

5 3 T2 1440000
SCT = x 2 = 96698 = 698
i =1 k =1 N 15

SCE = SCT SCA = 698 250 = 448

Por lo tanto la tabla de la Anova es


Fuente Grados de Suma de Cuadrado Coeficiente
Variacin Libertad (gl) Cuadrados (SC) Medio (CM) F
Entre grupos de k = 3 SCA = 250 CMA =
Tratamientos k 1 = 3 1 = 2 250
(A) = 125
2
Error de k = 3 y N = 15 SCE = SCT-SCA SCE CMA 125
F= = = 3,35
Muestreo (E) N-k = 15-3 =12 CME= CME 37,33
SCE = 698-250=448 N k
=
448
= 37,33
12
Total N = 15 5 3 T2
N-1 = 15-1=14 SCT = x 2
i =1 k =1 N
SCT = 698

Como el valor critico es F.95, 2, 12 = 3,89 y el observado F = 3,35, entonces se


concluye que existe efecto entre los niveles de tratamientos (mtodos de instruccin).

Por lo tanto, las diferencias entre las medias no son significativas al 5% de significancia,
es decir, no se rechaza la hiptesis nula

SMC
13
3.1.1 Clasificacin con grupos desiguales
Recordemos que es conveniente utilizar muestras del mismo tamao o
aproximadamente iguales, sobre todo cuando las varianzas tienen diferencias grandes

Ejemplo 3: En la tabla se reportan los puntajes obtenidos en tres test, las personas
fueron asignadas aleatoriamente. Probar las siguientes hiptesis
H0 : de que el promedio de los puntajes no es distinto, utilizando el 5% como nivel de
significancia

Test Puntajes Total Promedio


puntajes puntajes
A1 79 83 62 51 77 T1=352 70.4
A2 74 85 72 T2=231 77.0
A3 81 65 79 55 T3=280 70.0
Total 234 233 213 106 77 = 863

H 0 : 1 = 2 = 3 = ... = k

H1 : 1 , 2 ,..., k No todas iguales

De otra forma

H 0 : k = 0 . Para todos los tratamientos (niveles de factor)

H 1 : k 0 : Para algunos tratamientos

n1 = 5 n2 = 3 n3 = 4 N = 12
T1 = 352 T2 = 231 T3 = 280 T = 863
T12 = 123904 T22 = 53361 T32 = 78400 T2 = 744769

T 2 k T 2 123904 53361 78400 744769


3
SCA =
k =1 n k
=
N 5
+
3
+
4

12
= 103.7

5 3

x
i =1 k =1
2
= 79 2 + 83 2 + ... + 79 2 + 55 2 = 63441

SMC
14
5
T
3 2
744769
SCT = x 2 SCT = 63441 = 1376.9
i =1 k =1 N 12

SCE = SCT SCA = 1376.9 103.7 = 1273.2

La tabla de la Anova es
Fuente Grados de Suma de Cuadrado Coeficiente
variacin Libertad Cuadrados (SC) Medio (CM) F
Entre grupos (A) k=3 SCA = 103.7 CMA =
k 1 = 3 1 = 2
Procesadores 103.7
= 51.2 CMA 51.8
2 F= = = 0.37
CME 141.5
Error de K = 3 y N = 12 SCE
Muestreo (E) N-k = 12 -3 = 9 CME=
SCE = 1273.2 N k
=
1273.2
= 141.5
9
Total N = 12
5 3 T2
N-1 = 12-1=11 SCT = x 2
i =1 k =1 N

SCT = 1376.2

Como:

F.95;2,9 = 4,26 y FObs = 0,37

Es decir, el F (calculado) se encuentra en la regin de no rechazo de H0 y se concluye


que no existe diferencia entre las tres test.

2.1.2 Relacin del diseo completamente aleatorio de un factor con la prueba t


para probar la diferencia entre las medias de dos muestras independientes

Se debe suponer que las dos muestras se obtienen de la misma poblacin con
distribucin normal, y que se desconoce la varianza 2 poblacional ( 2 )

SMC
15
Ejemplo 4: Retomemos el ejercicio n 3

Test Puntajes Total Promedio


puntajes puntajes
A1 79 83 62 51 77 T1=352 70.4
A2 74 85 72 T2=231 77.0

H0 : 1 2 = 0 H0 : 1 = 2

H1 : 1 2 0 H1 : 1 2

x1 = 70, 4; x 2 = 77

n1 = 5; n2 = 3

v = n1 + n2 2 => v = 5 + 3 2 = 6

t = 0, 05, 6 = 2,447

(x x )
2
( 79 70, 4 ) + (83 70, 4 ) + ( 62 70, 4 ) + ( 51 70, 4 ) + ( 77 70, 4 )
2 2 2 2 2
1
S 21 = = = 180,8
n1 1 5 1

(x x )
2
( 74 77 ) + ( 85 77 ) + ( 72 77 )
2 2 2
2
S 2
= = = 49
n2 1 3 1
2

2 =
( n1 1) S 21 + ( n2 1) S 2 2 =
4180,8 + 249
= 136,8667
n1 + n2 2 5+ 3 2

2 2 136,8667 136,8667
x x = + = + = 8,54
1 2
n1 n2 5 3

x1 x 2 70, 4 77
t= = = 0, 77
x1 x2 8,54

SMC
16
Como tObs. = -0,77 y t (critica) = 2,447, entonces no se rechaza la hiptesis nula.

3.1.3 Modelo II: Anova con un factor, completamente aleatorio y efectos aleatorios

Supongamos ahora que las poblaciones correspondientes a los tratamientos A1,,Ak


son parte de un colectivo de poblaciones ms amplio.

Si tenemos que contrastar la homogeneidad de un nmero de poblaciones grande y


queremos hacer menos costosa la experimentacin, elegiremos al azar una muestra de
poblaciones de ese colectivo y las conclusiones de la experimentacin se inducen sobre
el total de poblaciones.

Las medias de las poblaciones con las que vamos hacer la experimentacin son
1 ,..., k por tanto:

H 0 : 1 = ... = k
Ahora bien, como las poblaciones se han elegido de un colectivo mayor de manera
aleatoria, las medias i son aleatorias y, por lo tanto, los efectos

i = i

Definidos en funcin de las medias i tambin seran aleatorios.

Como las i son variables, entonces

E ( i ) = , E ( i ) = E ( i ) = E ( i ) = = 0

La dispersin de las medias i se medir con su varianza:

V ( i ) = E ( i ) = E ( 2i ) = E ( i E ( i ) ) = V ( i ) = 2
2 2

El esquema aditivo de trabajo sera:

xij = + i + ij

SMC
17
Pero 2 mide la dispersin de los efectos i y la dispersin de las medias i
respecto de , es decir la variabilidad de las i , esto significa que cuanto menor sea
2 ms homognea son las medias i

S i = i V ( i ) = 2 = 0

Por tanto, en este caso de efectos variables, las hiptesis a contrastar sera:

H 0 : 2 = 0 frente a H 1 : 2 0

La igualdad del anlisis de varianza es la misma que para el modelo I, por tanto, los
clculos abreviados son iguales

SMC
18
n

x
j =1
ij

x=
n

S A = n x knx
2 2

i

SA = n x N x ;
2 2
con N = k n
i

S E = x 2ij n x
2

ST = xij 2 N x
2

Si los tamaos muestrales fuesen distintos:

S A = ni x i N x ; con N = ni
2 2

k n
S E = xij 2 ni x i
i= j =1

ST = S A + S E
Teniendo en cuenta que

SMC
19
Suma de cuadrados
Cuadrados medios =
Grados de libertad

y que

g.l (SA) = k 1

g.l (SE) = N k

g.l (ST) = N 1

Los cuadrados medios seran:

SA
S "A =
k 1

SE
S "E =
N k

ST
S "T =
N 1

Los cuadrados medios esperados seran

E ( S " A ) = 2 + n 2
E ( S "E ) = 2

Por lo tanto, la tabla de la anova es:

SMC
20
Fuente de Sumas de g.l Cuadrado Cuadrado medio Estadstico : F
variacin Cuadrados Medio : esperado : CME
CM
Factor : A SA k-1 E ( S " A ) = 2 + n 2 S "A
SA = Fk 1, N k
S "A = S "E
k 1 Si H0 cierta
Error :E SE N-k E ( S "E = 2 )
SE
S "E =
N k
Total ST N-1

Si los tamaos muestrales son distintos sera:

k
N ni 2
2

E ( S "A ) = 2 + 1
2
N ( k 1)

La regla de decisin para contrastar H0 sera anloga a la del modelo I

S" A
Si "
> F se rechaza H0 : 2 = 0
SB

S" A
Si "
F no se rechaza H0 : 2 = 0
SB

Si se rechaza H0, entonces


2
0 , lo que significa que las medias i son
heterogneas.

En este caso no tiene sentido hacer contrastes dos a dos para detectar cuales son las
parejas de medias distintas, porque estos contrastes slo valdran para las poblaciones
observadas, pero como no son fijas, nos interesa medir la dispersin que presentan las
medias en su totalidad.

SMC
21

Ahora bien, como 2 es un valor poblacional que hay que estimarlo. Un estimador

insesgado de 2

Para tamaos muestrales iguales sera:

2* = (
1 "
n
S A S "E )

Para tamaos muestrales distintos:

N ( k 1)
2* = k (S "
A S "E )
N 2 n 2i
1

En este caso

2* = 2* + 2

2* = 2* + S "E

Y que 2* es estimador insesgado de 2 y SE es estimador insesgado de

Entonces cada uno de estos trminos 2* y S"E representa un porcentaje de

influencia respecto de la medida de variacin total 2*T


Por tanto, tenemos:

SMC
22
2*
% de influencia del factor A en la variacin total = 2* 100
T
S "E
% de influencia del error muestral E en la variacin total = 100
2*T
Ejemplo 5:
Supongamos que queremos contrastar si el nmero promedio de artculos vendidos
diariamente de un producto es homogneo dependiendo del supermercado en que se
vende. Para ello elegimos al azar cuatro supermercados entre un colectivo de
supermercados. A continuacin, observamos el nmero de artculos vendidos en esos
supermercados en cinco das, elegidos aleatoriamente, obteniendo los siguientes
resultados:

Tratamientos Observaciones (das)


(Supermercados) Primero:1 Segundo:2 Tercero:3 Cuarto:4 Quinto:5
A1 8 9 10 7 6
A2 4 5 6 2 3
A3 7 9 6 4 4
A4 5 9 10 6 5

Solucin:

Tenemos que utilizar un modelo de clasificacin simple, completamente aleatorio y


efectos variables, ya que el nmero de poblaciones (los supermercados) observadas es
una muestra del nmero total de poblaciones. Las conclusiones del contraste realizado
para los cuatro supermercados observados, se inducirn sobre todos los
supermercados.

El cuadro de datos para elaborar el estadstico del contraste sera el siguiente:

Tratamientos Observaciones (das) 2


(Supermercados) 1 2 3 4 5 x i. x i.
A1 8 9 10 7 6 8 64
A2 4 5 6 2 3 4 16
A3 7 9 6 4 4 6 36
A4 5 9 10 6 5 7 49

x x
2
i. = 25 i.
= 165

Por lo tanto:

SMC
23

x=
x i .1
x=
25
= 6,25
4 4

x=
x ij
x=
125
= 6,25
20 20

SMC
24
2
x = 6, 2 5 2 = 3 9, 0 6 2 5

com o

n x
2
i .1 = 5(8 2 + 4 2 + 6 2 + 7 2 ) = 8 2 5 y
2
Nx = 2 0 6, 2 5 2 = 7 8 1, 2 5

e n to n c e s

S A = n x n i .1 N x
2 2
= 8 2 5 7 8 1, 2 5 = 4 3, 7 5

Com o x 2
ij = 82 + 92 + " + 62 + 52 = 885

E n to n c e s

x n x
2
SE = 2
i. = 885 825 = 60
ij

S ie n d o N = n k = 2 0
k = 4 y n =5

4 3, 7 5
" 3
= = 3, 8 8 8 9
SA
FO b s =
S "E 60
16

E l v a lo r d e la F p a ra d e te rm in a r la re g i n c rtic a e s :

Fp ; k -1 , N -k = F.9 5 ;3 ,1 6 = 3, 2 3 8 9

Por lo tanto:

3,8889 (F0bs.) > 3,2389

Entonces, se rechaza la hiptesis de homogeneidad de la venta diaria en el colectivo de


supermercados:
SMC
25

Como no tiene sentido realizar contrastes por parejas de las medias elegidas, puesto
2
que son variables, veamos la variabilidad de estas medias i con ya que
2 = v ( i ) mide la dispersin de las i, por tanto, su homogeneidad. Pero 2 es un
valor poblacional que hemos de estimar con valores muestrales. Este estimador sera:

Como

43,75
S"A = = 14,5833 y
3

60
S" E = = 3,75
16

Entonces, se tiene que:

2* =
n
(
1 "
S A S " E ) = (14,5833 3, 75 ) = 2,1667
1
5

Veamos la influencia porcentual que tienen el factor y error aleatorio en la


heterogeneidad total
Como:

2T = 2* + S " E = 2,1667 + 3, 75 = 5,9167

La influencia porcentual del factor A (el supermercado donde se realiza la venta) en la


variacin total es:

2* 2,1667
100 = = 36, 62%
T
2*
5,9167

SMC
26
De la misma forma, la influencia porcentual del error aleatorio en la heterogeneidad
total es:

S "E 3, 75
100 = 100 = 63,38%
S 2*T 5,9167

Por tanto, en la heterogeneidad total influye sobre todo el error aleatorio en un 63,38%,
es decir la aleatoriedad muestral, esto es, los das elegidos para tomar las
observaciones y no tanto el supermercado de venta (en un 36,62%).

3.2 Anlisis de la varianza con un factor e informacin aleatoria en Bloques:


Modelos III (con efectos fijos) y IV (con efectos aleatorio)

3.2.1 Modelo III: Anova con un factor, aleatorio en bloques y efectos fijos
En el modelo III se supondr la existencia de un segundo factor implcito, que no se
plantea como factor principal, pero que puede influir en la heterogeneidad de las
poblaciones.

Este caso trataremos de explicarlo con el siguiente ejemplo

Ejemplo 6:
Queremos contrastar si el consumo medio de combustible de tres modelos de vehculos
A1, A2 y A3 es homogneo. Para ello se realizan pruebas con cuatro conductores B1, B2,
B3 y B4 de los que sospechamos que pueden influir en la heterogeneidad de los
consumos. El objeto del estudio es el factor A, pero se debe tener encuenta el bloque B,
para eliminar la influencia que sobre las conclusiones de la homogeneidad de los
factores A pudiera tener.

En el siguiente cuadro figuran los consumos de litros de gasolina por cada cien
kilmetros

Vehculos Conductores
B1 B2 B3 B4
x i.
A1 7,0 7,0 7,5 10,5 8,0
A2 6,0 6,5 7,0 6,5
A3 6,5 7,0 7,5 7,0

SMC
27
Como el conductor B4 slo ha realizado la prueba con el automvil A1 y este
conductor es el que produce mayor consumo, esto podra llevarnos a conclusiones
errneas sobre el consumo de A1 respecto de A2 y A3.

Para evitarlo, el conductor B4 debera realizar pruebas con A2 y A3. Es decir, la tabla de
datos con factor de bloqueo sera de la forma:

B1 B2 B3 B4
A1 x x x x
A2 x x x x
A3 x x x x

Es decir, todas las muestras de las poblaciones correspondientes a cada nivel


Ai han de tener b elementos
Tambin se podra hacer la experimentacin con los mismos sujetos (conductores)
tomando medidas repetidas. Tendramos, por lo tanto, la siguiente tabla de medias:

Vehculo Conductores
s B1 B2 B3 B4 i.

A1 11 12 13 14 1.
A2 21 22 23 24 2.
A3 31 32 33 34 3.
.j .1 .2 .3 .4

Siendo:

SMC
28
1 b
i. =
b
j =1
ij ; m e d ia d e la fila i

1 a
. j =
a
i =1
ij ; m e d ia d e la c o lu m n a j

1 a b
=
ab

i =1 j =1
ij m e d ia g lo b a l

i
= i =1
m e d ia g lo b a l
a


j =1
j

= m e d ia g lo b a l
b

Los efectos de los Ai seran i = i. y los efectos de los Bj son Bj = . j

Las hiptesis a contrastar para el factor A sera:

H 0( A) : i. = i contra H1( A) : r . s.

Las hiptesis a contrastar para el bloque B sera:

H 0( B ) : . j = j contra H1( B ) : .r .s

Si no rechazamos H0(A) quiere decir que no hay diferencias significativas entre los
tratamientos Ai. Si no rechazamos H0(B) quiere decir que no hay diferencias
significativas entre los bloques Bj.

SMC
29
La hiptesis global sera:

H 0 : ij = ij contra H 1 : rs rs
Por lo tanto:

i) Si no rechazamos H0(A) y no rechazamos H0(B), entonces no rechazamos H0

ii) Si rechazamos H0(A) o rechazamos H0(B), entonces rechazamos H0

Las observaciones muestrales xij se pueden descomponer aditivamente as:

xij = + i + j + ij

Siendo ij = xij ij

El clculo abreviado de las sumas de cuadrados es:

S A = b x
2 2
i. ab x

SB = a x
2 2
.j ab x

x 2 ij b x a x
2 2 2
SE = i. .j + ab x

Siendo:
N (nmero total de datos) = ab
a = nmero de filas y
b = nmero de columnas

SMC
30
ST = S A + S B + S E

ST = x 2ij abx
2

SA mide la influencia de i en la heterogeneidad total


SB mide la influencia de j en la heterogeneidad total
SE mide la influencia del error muestral en la heterogeneidad total
Donde:

li =
m
i.
l = xi. x

mj =
l
.j
l = x. j x

 ij = xij
l = x x i . x. j + x
ij ij

SMC
31
La tabla del anlisis de la varianza para los modelos III y IV es:

Fuentes g.l Cuadrado medio: Cuadrado medio error: Estadstico: F


SC CM CME
E ( S "A ) = 2 +
SA b S "A
a-1 S "A =
a 1 a 1
2i FA =
S "E
A SA
F(a-1),(a-1)(b-1)
Si H0(A) es cierta
E ( S "B ) = 2 +
a S"
b1 S "B =
SB
b 1
2j FB = " B
B SB b 1 SE
F(b-1),(a-1)(b-1)
Si H0(B) es cierta
E ( S "E ) = 2
SE
(a 1)(b -1) S "E =
E SE ( a 1)( b 1)
Total ST ab - 1

Finalmente, dado se tiene que

F( );(a 1),(a 1)( b 1)

Si

i)
S "A
FA = " F ( ) se rechaza H 0(A)
SE

S "A
FA = " F ( ) no se rechaza H 0(A)
SE
iii) Siendo

F( ) = F( b 1),(a 1)( b 1)

SMC
32
S "B
FB = " > F ( ) se rechaza H 0(B)
SE

S "B
FB = " F ( ) no se rechaza H 0(B)
SE
Ejercicio 7:
Supongamos que queremos contrastar si los consumos medios de combustible de
cuatro modelos de automviles son homogneos. Para ello realizamos pruebas con tres
conductores que podran influir en la heterogeneidad de los consumos por cada 100
kilmetros, por lo que se recoge la informacin en bloques

Automviles Conductores
B1 B2 B3
A1 8 6 7
A2 7 5 6
A3 6 6 5
A4 8 5,5 6

Contrastar con un nivel de significancia de 0.05, las siguientes hiptesis

a) La hiptesis de igualdad de consumos medios con los cuatro automviles

b) La hiptesis de igualdad de consumos medios de los tres conductores.

Solucin: Completando la tabla de datos

Automviles Conductores 2

B1 B2 B3 xi. x i.

A1 8 6 7 7 49
A2 7 5 6 6 36
A3 6 6 5 5,6667 32,1115
A4 8 5,5 6 6,5 42,25
7,25 5,625 6,0
x
2
x. j x =6,2917 =159,3615
i.

52,5625 31,6406 36
x
2 2
=120,2031
x .j .j

Siendo:
SMC
33

x
j =1
ij

xi. = , media de la fila


b

x ij
x. j = i =1
, media de la columna
a

1 1 1
x=
a
x i . = x. j =
b ab
xij = 6.2917, media global

2
x = 6, 2917 2 = 39,5855

a (n de filas) = 4

b (n de columnas) = 3

N(n total de elementos muestrales) = a b = 12

Suma de cuadrados

Como

b x
2
i. = 3 159,3615 = 478,0845

2
abx = 4 3 6,29172 = 475,0259

a x
2
.j = 4 120,2031 = 480,8124

x 2
ij =82 + 62 + " + 5,52 + 62 = 486,25

Entonces, se tiene que


SMC
34

S A = b x i. abx = 478, 0845 475, 026 = 3, 0585


2 2

SB = a x
2 2
.j abx = 480,8124 475, 026 = 5, 7864

2
S E = x 2ij b x i. a x
2 2
.j + abx = 486, 25 478, 0845 480,8124 + 475, 026 = 2,3791

La tabla de anlisis de la Anova es:


Fuente SC g.l CM F(observada)
3, 0585 1, 0195
S "A = = 1, 0195 FA = = 2,5712
SA =3,0585 a-1=3 3 0,3965
A
F3,6,0.05 = 4.76
FA < FCrit
5, 7864 2,8932
S "B = = 2,8932 FB = = 7, 2968
SB =5,7864 b-1=2 2 0,3965
B
F2,6,0.05 = 5,14
FB > FCrit
SE =2,3791 (a-1)(b-1)=6 2,3791
S "E = = 0,3965
E 6
Total ST =11,224 N-1=11

Por lo tanto:

a) No rechazamos que los consumos medios de los automviles sean iguales

b) Rechazamos que los consumos medios con los distintos conductores sean
homogneos.

Esto indica que era necesario repartir la informacin por bloques para evitar la influencia
de los conductores en la valoracin de la homogeneidad de los consumos de los
automviles
Para detectar que conductores tienen conduccin heterognea, deberamos realizar
contrastes dos a dos utilizando la distribucin t

SMC
35
3.2.2 Modelo IV: Anova con un factor, aleatorio en bloques y efectos aleatorios

El planteamiento de este modelo es inicialmente como el del modelo anterior en el que


los niveles Ai observados son parte de un colectivo mayor y los bloques Bj de la
experimentacin son tambin parte de un colectivo mayor.
Por lo tanto, las medias de esos niveles i. y .j son aleatorias y los efectos i y j
tambin son aleatorios, ya que i = i. y j = . j

La descomposicin aditiva es:

xij = + i + j + ij

La formulacin del contraste, por lo tanto, quedara as:

Contraste para H0(A)

En este caso decir que i . = i , equivale a decir que = 0 . Es decir, las


2

hiptesis a contrastar seran:

H 0( A) : 2 = 0 contra H1( A) : 2 0

Y el estadstico del contraste sera:

S "A
F( A) = "
SE

F( a 1),( a 1)( b 1) , si H 0( A) es cierta

Si es el nivel de significancia, F( a 1),( a 1)( b 1) ( ) = valor critico , entonces:

SMC
36
"
SA
i ) Si "
F ( ) se rechaza H 0( A) : 2 = 0
SE

S "A
ii ) Si "
F ( ) no se rechaza H 0( A) : 2 = 0
SE

Contraste para H0(B)

De forma anloga contrastamos:

H 0( B ) : 2 = 0 contra H1( B ) : 2 0

El estadstico de contraste sera:

S "B
FB = "
= F(b 1),( a 1)(b 1) , si H B es cierta
SE

Por lo tanto, dado , entonces:

S "B
i ) Si FB = "
F ( ) se rechaza H 0( B ) : 2 = 0 las medias . j son heterogeneas
SE

S "B
ii ) Si FB = F ( ) no se rechaza H 0( B ) : 2 = 0 consideramos las medias .j homogneas
S "E

SMC
37
La tabla del ANOVA para el modelo IV sera
Fuentes SC g.l CM CME Estadstico F
S "A = A
S E ( S A ) = + b
" 2 2
S"
A SA a-1 FA = " A = F( a 1),( a 1)(b 1)
a 1 SE
Si H0(A) es cierta
S "B = B
S E ( S B ) = + a
" 2 2
S"
B SB b-1 FB = " B = F(b 1),( a 1)( b 1)
b 1 SE
Si H 0(B) es cierta
(
S "E =
S E E (S E ) =
" 2
SE a-1)(b-1)
E ( )( )
a 1 b 1

Total ST

La hiptesis global sera:

H 0 : 2 = 0 contra H1 : 2 0

H0 : 2 = 0 contra H1 : 2 0

Por lo tanto:

i) Si se rechaza H0(A) o se rechaza H0(B), entonces se rechaza H0

ii) Si no se rechaza H0(A) y no se rechaza H0(B), entonces no se rechaza H0

iii) Si se rechaza H0(A) medimos la heterogeneidad de las i. con el estimador


insesgado

2* = (
1 "
b
S A S "E )

iv) Si se rechaza H0(B) medimos la heterogeneidad de la . j con el estimador


insesgado

SMC
38

2* = (
1 "
a
S B S "E )

Y, teniendo encuenta que:

2*T = 2* + 2* + 2*

2*T = 2* + 2* + S "E
Cada una de las componentes tiene su porcentaje de influencia en la heterogeneidad
total medida por 2T . Estos seran:

2*
i) % de influencia del factor A en la variacin total = 100
2*T

2*
ii) % de influencia del factor B en la variacin total = 100
2*T

S "E
iii) % de influencia del error aleatorio E en la variacin total = 100
2*T
Ejemplo 8:
Se quiere contrastar si el consumo medio de combustible de los vehculos de un
determinado segmento es homogneo. Para ello se eligen cuatro vehculos al azar y se
realizan pruebas experimentales con tres conductores distintos, elegidos tambin al
azar de un colectivo mayor de conductores.

En la tabla siguiente se recoge dicha informacin

Vehculos Conductores
B1 B2 B3
A1 8 7 6
A2 7 6 5
A3 5 6 4
A4 6 7 5

Contrastar con un nivel de significancia del 0,05

SMC
39
a) la hiptesis de homogeneidad de consumo de los automviles del segmento
considerado

b) la hiptesis de homogeneidad de los consumos del conjunto de conductores

c) ordenar la influencia de los factores en la homogeneidad de los consumos

Solucin:

La experimentacin del modelo IV (con efectos aleatorios) es igual que el modelo III
(con efectos fijos), lo que cambia es que las conclusiones se proyectan a las
poblaciones de automviles y conductores

Vehculos Conductores xi. x


2
i.
B1 B2 B3
A1 8 7 6 7 49
A2 7 6 5 6 36
A3 5 6 4 5 25
A4 6 7 5 6 36
6,5 6,5 5 x =6 x
2
x. j i. = 146
42,25 42,5 25
x
2 2
x .j .j = 109,5

Como

S A = b x i. abx S A = 3 146 3 4 62 = 6
2 2

SB = a x
2 2
.j abx S B = 4 109,5 3 4 62 = 6

S E = x 2ij b x i. a x. j + abx = 446 4 109,5 3 146 + 3 4 62 = 2


2 2

SMC
40
Por lo tanto, la tabla de la ANOVA sera:
Fuentes SC g.l CM Estadstico F
6 2
S " A = = 2 FA = = 6 > F.95;3,6 = 4, 7571
A SA = 6 a-1 =3 3 1

3
6 2
S " B = = 3 FA = = 6 > F.95;3,6 = 4, 7571
B SB = 6 b-1 =2 2 1

3
E SE = 2 (a-1)(b-1) 2 1
S "E = =
6 3

Por lo tanto:

a) Como FA es mayor que F3,6(0,05), entonces se rechaza H0(A): 2 = 0 , lo que


significa que las medias i. son heterogneas. Los consumos medios de los
vehculos del segmento considerado son heterogneos

b) Como FB es mayor F2,6 (0,05), entonces se rechaza H0(B) : 2 = 0 , lo que


significa que las medias . j son heterogneas. Los consumos medios del
conjunto de conductores son heterogneos

c) Se mide la heterogeneidad de las i . y .j con su varianza V ( i. ) = 2 y la de


las . j con su varianza V ( . j ) = 2

Puesto que 2 y 2 son valores poblacionales, calculamos sus


estimaciones muestrales:

( S "A S "E ) = 2 = 0,5556


1 1 1
2* =
b 3 3

( S "B S "E ) = 3 = 0, 6667


1 1 1
2* =
a 4 3

2*T = 2* + 2* + S "E = 0,5556 + 0, 6667 + 0,3333 = 1,5556

SMC
41
Por lo tanto, tenemos que:

2*
i) % de influencia del factor A en la variacin total = 100 = 35, 7%
2*T

2*
ii) % de influencia del factor B en la variacin total = 100 = 42,8%
2*T

S "E
iii) % de influencia del error aleatorio E en la variacin total = 100 = 21,5%
2*T

Se concluye que con estos datos lo que ms influye en la heterogeneidad de los


consumos es, en primer lugar, la conduccin realizada, en segundo lugar, el modelo de
automviles de ese segmento, y, finalmente, la aleatoriedad, es decir el que sean esos
elementos muestrales y no otros los elegidos.

3.3 Varianza con dos criterios de clasificacin

Este anlisis de varianza est basada en dos dimensiones de clasificacin o


tratamientos.

Supongamos que al analizar el nivel de aprovechamiento en un programa de


capacitacin, podra considerarse tanto el efecto de un mtodo de instruccin como el
efecto de la escolaridad previa.

La interaccin en un experimento de dos factores significa que los tratamientos no son


independientes, y que el efecto de un tratamiento determinado sobre otro difiere segn
niveles del otro factor.

Por ejemplo, puede diferir la efectividad de diversos mtodos de instruccin segn los
niveles de habilidad de los estudiantes.

Para probar la interaccin, debe incluirse en cada una de las celdas de una tabla de
datos de dos sentidos ms de una observacin o medicin muestreada (Replicas)

Cuando se utiliza este tipo de diseo, pueden probarse, con anlisis de varianza, tres
hiptesis nulas distintas:

SMC
42

1) Que no existen efectos por columna, es decir, los promedios por columna no
difieren en forma significativa.

2) Que no existen efectos por regln, es decir, las medias por regln no difieren
en forma significativa

3) Que no existe interaccin entre los factores, es decir, los dos factores son
independientes

Un efecto de interaccin significativo indica que el efecto de los tratamientos de un


factor vara de acuerdo con los niveles del otro factor

3.3.1 Anlisis de la varianza con dos factores e informacin completamente


aleatoria

Modelo V: Anlisis de la varianza con dos factores, informacin completamente


aleatoria y efectos fijos

El modelo lineal para el anlisis de varianza con dos criterios de clasificacin, con
replicas, es:

X ijk = + j + k + jk + ijk
A continuacin, presentamos una tabla de datos muestrales simplificada con

n = 3 elementos por casilla

a = 3 (numero de niveles del factor A)

b = 3 (nmero de niveles del factor B), sera:

SMC
43

B1 B2 B3

A1 X111 X121 X131

X112 X122 X132

X113 X123 X133

A2 X211 X221 X231

X212 X222 X232

X213 X223 X233

A3 X311 X321 X331

X312 X322 X332

X313 X323 X333

Xijk procede de la poblacin (Ai, Bj) que es N ( ij , ) , por lo tanto, el error


aleatorio es:

ijk = xijk ij .

No se cumple la aditividad, es decir ij = + i + j , donde adems entre los


factores puede existir interaccin:

I ij = ij ( + i + j )

Siendo:

ij : media real de la poblacin (A i , B j )

+ i + j : valor terico del nmero poblacional si los efectos son aditivos

El esquema de trabajo para las observaciones xijk sera:

SMC
44
xijk = ijk + ijk = + i + j + I ij + ijk .

Las hiptesis a contrastar seran:

- Si no se rechazan H 0(A), H 0(B) y H 0(AB), entonces no se rechaza H0: ij = ij

- Si se rechaza H 0(A) o H 0(B) o H 0(AB), entonces se rechaza H0: ij = ij

Para realizar este contraste necesitamos formular el estadstico que define la regin
crtica, es decir la descomposicin es la siguiente:

Igualdad fundamental del anlisis de la varianza para el modelo V

Los valores que aparecen en ella son los de la tabla siguiente:

B1 B2 B3 xi..

A1
x 11. x 12. x 13. x 1..

A2
x 21. x 22. x 23. x 2..

x. j . x .1. x.2. x .3. x...


Siendo:

l i = x i.. x, l j = x . j . x, I ij = x ij . x i.. x. j . + x

SMC
45
ST = xijk x ( ) = ( x ) (
x + x. j . x +)
2 2 2
i ..

( )
+ xij . xi.. x. j . + x + xijk xij . ( )
2 2

ST = S A + S B + S AB + S E

ST = STR + S E

Siendo

STR = SA + SB + SAB Suma de cuadrados debida a todos los tratamientos.

El clculo abreviado de estas sumas de cuadrados es:

SMC
46
T 2...
C=
abn

S T =
ijk
x 2
ijk C

1
S TR =
n
ij
T 2
ij . C

S E = S T S TR

1
S A =
nb
i
T 2
i .. C

1
S B =
na
j
T 2
. j. C

S AB = S TR S A S B

Siendo:

Tij.= Total muestral de la casilla ij


Ti.. = Total de la fila i-sima
T.j.= Total de la columna j-sima

T = Total de todos los datos xijk

SMC
47

Que quedaran as en una tabla

B1 B2 B3 Ti..

A1 T11. T12. T13. T1..

A2 T21. T22. T23. T2..

A3 T31. T32. T33. T3..

T.j. T.1. T.2. T.3. T

El cuadro de la anova para el modelo V sera:

Fuentes g.l SC CM CME Estadstico: F

A SA
E ( S "A ) = 2 +
nb S "A

a 1 i
2i FA =
S "E
= F( a 1), ab( n 1)
a-1 SA
Si H0(A) es cierta

B b-1 SB SB na S "B
E ( S "B ) = 2 + 2j
b 1 j
FB =
S "E
= F(b 1),ab( n 1)

Si H0(B) es cierta

AB (a-1)(b-1) SAB SAB n S "AB


( a 1)( b 1)
E ( S "AB ) = 2 + I 2
ij FAB = = F( a 1)(b 1),ab( n 1)
ij S "E

Si H0(AB) es cierta

E ab(n-1) SE SE E ( S "E ) = 2

Total abn-1 ST

Los contrastes se resuelven as:

SMC
48
S "A
1. S F( a 1),ab( n 1) ( ) se rechaza H 0(A)
S "E

S "B
2. S F( b 1),ab( n 1) ( ) se rechaza H 0(B)
S "E

S"AB
3. S F( a 1)(b 1),ab( n 1) ( ) se rechaza H 0(AB)
S"E
Los contrastes posteriores para el caso en que se rechace H0 son similares a los de los
modelos anteriores

Ejercicio 10:

Supongamos que deseamos contrastar si el promedio de horas de sueo de unos


pacientes que estn sometidos a un tratamiento conjunto de dos factores, A: uso de
analgsicos y B: uso de somnferos, es homogneo para todos los tratamientos. Para
ello obtenemos las siguientes observaciones

B1 B2 B3

5 6 6

A1 6 6 7

6 7 7

7 8 6

A2 6 7 7

6 6 6

7 6 7

A3 5 7 8

6 7 5

Contrastar con = 1% las siguientes hiptesis

SMC
49

a) Si el promedio de horas de sueo es homogneo con los distintos tratamientos Ai


de analgsicos

b) Si el promedio de horas de sueo es homogneo con los distintos tratamientos Bj


de somnferos.

c) Si existe interaccin entre ellos

d) S el promedio de horas de sueo es homogneo con los distintos tratamientos


conjuntos (Ai, Bj)

n de niveles del factor A: a =3


n de niveles del factor B: b =3
n de elementos muestrales por casilla: n = 3

La tabla siguiente contiene los datos que se necesitan para calcular las sumas de
cuadrados

Tij. Ti..
17 19 20 56

19 21 19 59

18 20 20 58

T.j. 54 60 59 T = 173

Por lo tanto, las sumas de cuadrados son las siguientes

T 2... 1732
C= C = = 1.108, 4815
abn 333

SMC
50
Como

x 2
ijk = 52 + " + 72 + 72 + " + 62 + 72 + " 52 = 1125

Entonces, se tiene que:

ST = x 2ijk C = 1.125 1.108, 4815 = 16,5185


ijk

Como

T 2
ij = 172 + 192 + " + 202 + 202 = 3337

T 2
i .. = 562 + 592 + 582 = 9981

T 2
. j. = 542 + 602 + 592 =9997

Entonces, se tiene que:

1 1
STR =
n ij
T 2ij . C STR = 3.337 1.108, 4815 = 3,8518
3

1 1
SA =
nb i
T 2i.. C S A = 9.981 1.108, 4815 = 0,5185
9

1 1
SB =
na j
T 2. j . C S B = 9.997 1.108, 4815 = 2, 2963
9

S AB = STR S A S B 3,8518 0,5185 2, 2963 = 1, 0370

S E = ST STR S E = 16,5185 3,8518 = 12, 6667

SMC
51

El cuadro de la anova sera:

Fuente SC g.l CM Estadstica F

A SA = 0,5185 2 SA=0,2593 S "A


FA = = 0,3685 observada
S "E
F.99;2,18=6,01

B SB = 2,2963 2 SB=1,1482 S "B


FB = = 1, 6317
S "E
F.99;2,18=6,01

AB SAB=1,0370 4 SAB=0,2593 S "AB


FAB = = 0,3685
S "E
F.99;4,18=4,58

E SE =1,6667 18 SE=0,7037

Total ST=16,5185

Por tanto:

a) El promedio de horas de sueo es homogneo con los distintos tratamientos de


analgsicos

b) El promedio de horas de sueo es homogneo con los distintos tratamientos de


somnferos

c) No existe interaccin entre los tratamientos de analgsicos y los somnferos

d) El promedio de horas de sueo es homogneo con los tratamientos combinados,


(Ai, Bj), puesto que s no se rechazan H0(A), H0(B) y H0(AB), entonces no
se rechaza H 0 : ij = ij

Modelo VI: Anlisis de la varianza con dos criterios, informacin completamente


aleatoria y efectos aleatorios

Este modelo es similar, en cuanto a los trminos de las sumas de cuadrados, al modelo
V, y a los modelos II y IV de efectos aleatorios, en cuanto al tratamiento.

SMC
52
El esquema de trabajo aditivo para las observaciones, xijk , la igualdad fundamental y
el calculo abreviado es igual que en el modelo V

Los contrastes seran:

1. H 0( A) : 2 = 0 contra H1( A) : 2 0

2. H 0( B ) : 2 = 0 contra H1( B ) : 2 B 0

3. H 0( AB ) : 2 = 0 contra H1( AB ) : 2 0

El contraste global sera:

H 0 : 2 = 0 2 = 0 2 = 0

H1 : 2 0 2 0 2 0

El cuadro de la anova sera:

Fuente SC g.l CM CME Estadstico F

A SA a-1
S "A =
SA E ( S "A ) = 2 + n 2 + nb 2 FA =
S "A
a 1 S "AB

F(a-1),(a-1)(b-1)

B SB b-1
S "B =
SB E ( S "B ) = 2 + n 2 + na 2 FB =
S "B
b 1 S "AB

F(b-1),(a-1)(b-1)

AB SAB (a-1)(b-1)
S "AB =
S AB E ( S "AB ) = 2 + n 2 FAB =
S "AB
( a 1)( b 1) S "E

F(a-1)(b-1),ab(b-1)

E SE ab(n-1)
S "E =
SE E ( S "E ) = 2
ab ( n 1)

SMC
53
Los contrastes seran:

1) Para contrastar H0(A)

S "A
S FA = F( a 1),( a 1)(b 1) ( ) se rechaza H 0( A)
S "E

2) Para contrastar H 0(B)

S "B
S FB = F(b 1),( a 1)(b 1) ( ) se rechaza H 0( B )
S "E
3) Para contrastar H 0(AB)

S "AB
S FAB = F( a 1)(b 1), ab( n 1) ( ) se rechaza H 0( AB )
S "E

Los estimadores insesgados de las varianzas que miden la heterogeneidad de los


i , j I ij seran:

1
2* = ( S "A S "AB )
nb

1
2* = ( S "B S "AB )
na

1
2* = ( S "AB S "E )
n
Y como

2*T = 2* + 2* + 2* + S "E

Los porcentajes de influencia de cada factor en la variacin total, estimada por 2*T ,
seran:

2*
% de influencia del factor A en la heterogeneidad total = 100
2*T

SMC
54

2*

% de influencia del factor B en la heterogeneidad total = 100


2*T

2*
% de influencia de la interaccin AB en la heterogeneidad total = 100
2*T

S "E
% de influencia del error aleatorio E en la heterogeneidad total = 100
2*T

Ejercicio 11

Supongamos que deseamos contrastar si el promedio de horas de sueo de unos


pacientes que estn sometidos a un tratamiento conjunto de dos factores, A: uso de
analgsicos y B: uso de somnferos, es homogneo para todos los tratamientos. Donde
los nivele Ai de A son parte de una poblacin y los niveles Bj son tambin parte de una
poblacin. Para ello obtenemos las siguientes observaciones:

B1 B2 B3

A1 8 6 6

7 7 7

7 7 7

A2 8 8 6

9 7 7

10 6 6

A3 7 6 7

5 7 8

6 7 5

SMC
55

Contrastar con un nivel de significancia del 5% s:

a) El promedio de horas de sueo es homogneo con todos los tratamientos de


analgsicos

b) El promedio de horas de sueo es homogneo con todos los tratamientos de


somnferos

c) Si existe interaccin significativa de los factores

d) Si el promedio de horas de sueo es homogneo con todos los tratamientos


combinados (Ai, Bj)

e) Si se rechazan algunas hiptesis, ordenar la influencia de los factores en la


heterogeneidad total.

La tabla de los totales muestrales (Tij.), totales por fila (Ti..), totales por columnas
(T.j.) y sus correspondientes cuadrados es:

Tij. B1 B2 B3 Ti.. T2i..


A1 22 20 20 62 3.844

A2 27 21 19 67 4.489

A3 18 20 20 58 3.364

T.j. 67 61 59 T=187 T 2
i .. = 11.697

T2.j. 4.489 3.721 3.481 T 2


. j. = 11.691

2
El cuadro de los T ij. Es:

SMC
56

T2ij.
484 400 400

729 441 361

324 400 400

T 2
ij . = 3.939

Y las sumas de los cuadrados de las observaciones muestrales xijk

x
ijk
2
ijk = 82 + " 7 2 + 82 + " + 62 + 7 2 + " + 52 = 1.327

La suma de cuadrados sera:

T 2 ... 34.969
C= = = 1.295,1481
abn 27

ST = x 2ijk C = 1.327 1.295,1481 = 31,8519


ijk

1 1
SA =
nb
T 2i.. C = 11.697 1.295,1481 = 4,5186
9

1 1
SB =
na j
T 2. j . C = 11.691 1.295,1481 = 3,8519
9

S AB = STR S A S B = 17,8519 4,5186 3,8519 = 9, 4814

1 1
STR =
n ij
T 2ij C = 3.939 1.295,1481 = 17,8519
3

SMC
57
El cuadro de la anova sera:

Fuente SC g.l CM Estadstico F

A SA = 4,5186 2 SA=2,2593 S "A


FA = = 0,9531
S "AB

F.95;2,4 = 6,94

B SB = 3,8519 2 SB=1,926 S "B


FB = = 0,8126
S "AB

F.95;2,4=6,94

AB SAP=9,4814 4 SAB=2,3704 S "AB


FAB = = 3, 0476
S "E

F.95;4,18 = 2,93

E SE =14 18 SE=0,7778

Como:

- FA < Fcrit, entonces No se rechaza H0(A)

es decir, no se rechaza H 0( A) : 2 = 0

- FB < Fcrit, entonces No se rechaza H0(B)

es decir, no se rechaza H 0( B ) : 2 = 0

- FAB > Fcrit, entonces se rechaza H0(AB),

es decir, se rechaza H 0( AB ) : 2 = 0

Entonces:

a) No rechazamos que el promedio de horas de sueos con los distintos


analgsicos sea homogneo

b) No rechazamos que el promedio de horas de sueo con los distintos somnferos


sea homogneo.

SMC
58
c) Existe una interaccin significativa entre los dos factores

d) El promedio de horas de sueo no son homogneas con todos los tratamientos


combinados debido a la interaccin.

e) Para calcular la influencia en la variacin total medimos la heterogeneidad de


cada uno de los factores y del error aleatorio muestral con sus correspondientes:

2 , 2 , 2 , 2
Como las varianzas son poblacionales y, por ello, no las podemos calcular vamos a
estimarlas.

1
2* = ( S "A S "AB ) 0
nb

ya que no rechazamos que 2 = 0, tomamos 2 = 0

1
2* = ( S "B S "AB ) 0
na

ya que no rechazamos que 2 = 0, tomamos 2 = 0


Como rechazamos H0 (AB), entonces:

1 1
2* = ( S "AB S "E ) = ( 2,3704 0, 7778) = 0,5309 y
n 3

2* = S "E = 0, 7778
La heterogeneidad total estimada es:

2*T = 2* + 2* + 2* + S "E = 0 + 0 + 0,5309 + 0,7778 = 1,3087

2*
% de influencia de la interaccin AB en la heterogeneidad total = 100 = 40,57%
2*T

S "E
% de influencia del error aleatorio E en la heterogeneidad tota = 100 = 59, 43%
2*T

SMC
59
En conclusin, la heterogeneidad del nmero de horas de sueo, depende, en primer
lugar, del error aleatorio en un 59,43%, y luego de la interaccin entre los dos
tratamientos en un 40,57%. La influencia en la heterogeneidad total del error muestral
es debida a los elementos elegidos para las observaciones.

3.3.2 Anlisis de la varianza con dos factores e informacin aleatoria en bloques

En este punto se trataran dos modelos similares a los modelos V y VI, pero incluidas un
tercer factor de bloqueo que puede influir en la heterogeneidad, aunque no sea un
factor principal.

Modelo VII: Anova con dos factores, informacin aleatoria en bloques y factores
fijos

En a siguiente tabla se expresan sus promedios

C1 C2 C3 ij .

A 1B 1 111 112 113 11.


A 1B 2 121 122 123 12.
A 1B 3
131 132 133 13.

A 2B 1 211 212 213 21.


A 2B 2 221 222 223 22.
A 2B 3
231 232 233 23.

..k ..1 ..2 ..3

Este modelo se explicar con el siguiente ejemplo.

Ejemplo:

Consideremos la venta de refrescos como variable dependiente y como factores el


sabor (A) y la zona de venta (B). Si tenemos la sospecha de que el mes de la
observacin puede influir en la heterogeneidad de las ventas, entonces recogemos la
informacin por bloques, de tal manera que en cada mes de observacin se recojan
datos de todas las combinaciones posibles (Ai, Bj). Si dejramos de recoger
informacin para una combinacin determinada (Ai, Bj) en un mes de ms ventas de
refrescos, puede parecer que las otras combinaciones (Ai, Bj) tienen mayores ventas
por trmino medio, y en esto ha influido que la combinacin mencionada no se ha
SMC
60
observado en ese mes. Para evitar estas conclusiones falsas, todas las parejas (Ai,
Bj) han de ser observadas en cada bloque Ck siendo i =1,,a; j = 1,,b y k = 1,, n.

La siguiente tabla (abreviada) contiene todas las medias poblacionales de todas las
combinaciones posibles para i = 1, 2; j = 1, 2, 3 y k = 1, 2, 3

C1 C2 C3 xij .

A 1B 1 x111 x112 x113 x11.


A 1B 2 x121 x122 x123
x12.
A 1B 3 x131 x132 x133
x13.

Las variables poblacionales corresponden a cada combinacin (Ai, Bj, Ck), y sus
variables representan al nmero de refrescos vendidos por sabor, zona y mes. Estas
variables son ( )
N ( ijk , ) . Las observaciones muestrales xijk son N ijk , , y el
error aleatorio ijk = xijk ijk . Las medias de cada bloque son:

ijk

..k = i j

ab

El cuadro de datos muestrales, abreviado es:

SMC
61

Las medias por casilla ( ) , por filas ( ) y por columnas ( . j. ) seran:


ij . i ..

A2B1 x211 x212 x213 x 21.


A2B2 x221 x222 x223
x 22.
A2B3 x231 x232 x233
x 23.

x..k x..1 x..2 x..3 x...

B1 B2 B3 i..
A1 11. 12. 13. 1..

A2 21. 22. 23. 2..

. j . .1. .2. .3.

Los efectos de los niveles Ai, Bj y Ck se definen de la siguiente manera, y sus


estimadores seran:

l i =
l
i ..
l = xi.. x Para A
i

l j =
l
. j.
l = x. j . x Para B
j

 k =
l
..k
l = x..k x Para C
k

(
I ij = xij . x i.. + x. j . x )
SMC
62

Las observaciones muestrales se pueden descomponer as:

xijk = + i + j + I ij + k + ijk
Las hiptesis a contrastar seran:

1. H 0( A) : i.. = i H 0( A) : i = 0 i.

2. H 0( B ) : . j . = j H 0( B ) : j = 0 j.

3. H 0( AB ) : I ij = 0 ij H 0( AB ) : ij . = + i + j ij .

4. H 0( BL ) : .k = k H 0( BL ) : k = 0 k .

La igualdad fundamental para el anlisis de la varianza para los modelos VII y VIII
consiste en descomponer la suma total de cuadrados ST en suma de trminos, de tal
manera que, cada uno mide la heterogeneidad debida a los i , j , Iij , k y ijk . Esto es:

( ) ( ) ( )
2
ST = x i.. x + x. j . x + xij . xi.. x. j . + x +
2 2

ijk ijk ijk

( ) (
+ x.k x + x ijk x ij . x.k + x )
2 2

ijk ijk

ST = S A + S B + S AB + S BL + S E

Siendo

(
STR = x ij . x )
2
= S A + S B + S AB
ijk

SMC
63

Los clculos abreviados de las sumas de cuadrados son:

T 2...
C=
abn

ST = ijk
x 2 ijk C

1
S TR =
n
T
ij
2
ij . C

1
SA =
nb
T i
2
i .. C

1
SB =
na
T j
2
. j. C

S AB = S TR S A S B

1
S BL =
ab
T k
2
.k C

Los totales Tij., Ti.. y T.j. ya estn definidos en los modelos V y VI, y los totales

SMC
64
T.k = ( xijk )
ijk

Figuran en la tabla siguiente

C1 C2 C3

A1B1 x111 x112 x113

A1B2 x121 x122 x123

A1B3 x131 x132 x133

A2B1 x211 x212 x213

A2B2 x221 x222 x223

A2B3 x231 x232 x233

T..1 T...2 T3

SE = ST STR SBL
Teniendo en cuenta que

ST = STR + SBL + SE

El cuadro de anlisis de la anova sera el siguiente

SMC
65
SC g.l CM CME Estadstico F

SA bn
SA a-1 S "A =
a 1
E ( S "A ) = 2 +
a 1 i
2i S "A
FA =
S "E
F(a-1), (ab-1)(n-1)

Si H0(A) es cierta
S an S"
SB b-1 S "B = B
b 1
E ( S "B ) = 2 +
b 1 j
2j FB = B
S "E
F(b-1), (ab-1)(n-1)

Si H0(B) es cierta
S AB n S"
( a 1)( b 1)
S "AB = E ( S "AB ) = 2 + I 2
S "AB = AB
SAB
(a-1)(b-1) ( a 1) (b 1) i j
ij
S "E
F(a-1)(b-1), (ab-1)(n-1)

Si H0(AB) es cierta
S ab S "BL
SBL
S "BL = BL
n 1
E ( S "BL ) = 2 + 2k
n 1 k S "E
n-1
F(n-1), (ab- 1)(n-1)

si H0(BL) es cierta
S "E =
SE S ( S "E ) = 2

SE
(ab-1)(n-1) ( ab 1)( n 1)
Abn-1
ST

Para comparar las cuatro hiptesis se compran los valores empricos de los estadsticos
FA, FB, FAB y FBL con los valores crticos de F( ), cada uno con sus grados de libertad.
Por lo tanto, si es el nivel de significacin, entonces se tiene:

1) S FA > F(a-1),(ab-1)(n-1) ( ) se rechaza H0(A)

2) Si FB > F(b-1),(ab-1)(n-1) ( ) se rechaza H0(B)


3) S FAB > F(a-1)(b-1), (ab-1)(n-1) se rechaza H0(AB)

4) S FBL > F(n-1), (ab-1)(n-1) se rechaza Ho(BL)

SMC
66
Si no se rechazan H0(A), H0 (B), H0 (AB) y H0(BL), entonces no se rechaza H 0 : ijk =

H0 es la hiptesis global sobre la homogeneidad de todas las poblaciones


correspondientes a los niveles (Ai, Bj, Ck).

Si se rechaza H0(A) o H0 (B) o H0(AB) o H0(BL), entonces se rechaza H0

Ejercicio 12
Supongamos que deseamos contrastar si la venta de refrescos es homogneo como
variable dependiente de dos factores (A: el sabor; B: el tipo de punto de venta).
Recogemos la informacin en dos meses que pueden influir en la heterogeneidad de las
ventas. Los datos observados de las ventas en millones de pesos son los siguientes:

C1 C2
A 1B 1 8 10
A 1B 2 4 6
A 1B 3 5 10
A 2B 1 8 7
A 2B 2 6 8
A 2B 3 5 9
A 3B 1 7 8
A 3B 2 7 9
A 3B 3 6 8

Siendo:
A1: sabor cola
A2: sabor naranja
A3: sabor limn
B1: cafeteras;
B2: bares;
B3: supermercados
C1: mes de junio
C2: mes de julio

Contrastar con un nivel de significancia de 5%

a) S el promedio de ventas de refrescos de los tres sabores es homogneo

b) S el promedio de ventas de refrescos en los tres tipos de puntos de venta es


homogneo

c) S existe interaccin entre ellos

d) S el promedio de ventas en los dos meses en los que se realizan las


observaciones presentas diferencias significativas
SMC
67

e) S el promedio de refrescos vendidos por (sabor, punto de venta, mes) es


homogneo para todas las combinaciones posibles.

La siguiente tabla indica el tratamiento de los datos por filas y columnas

B1 B2 B3
A1 (8) (4) (5)
[10] [6] [10]
A2 (8) (6) (5)
[7] [8] [9]
A3 (7) (7) (6)
[8] [9] [8]

Donde:
( ) Son datos del bloque C1 (mes de junio)

[ ] Son los datos del bloque C2 (mes de julio)

Los totales de las casillas Tij, para cada (Ai, Bj), los totales de las filas Ti.. y los totales
de las columnas T.j. figuran en la siguiente tabla:

B1 B2 B3 Ti.. T2i..
A1 18 10 15 43 1.849
A2 15 14 14 43 1.849
A3 15 16 14 45 2.025
T.j. 48 40 43 T=131 T 2i.. = 5.723
T2.j. 2.304 1.600 1.849 T 2
. j. = 5.753

T 2... 17.161
T ... = 131 = 17.161 C =
2 2
= = 953,3889
abn 3 3 2

x = 82 + 102 + 4 2 + 6 2 + " + 6 2 + 82 = 1.003; a = 3; b = 3; n = 2


2

ijk

Las sumas de cuadrados seran:

SMC
68

ST = ( x 2ijk ) C = 1.003 953,3889 = 49, 611


ijk

STR =
1

n ij
( T 2ij . ) C = (182 + 102 + " + 162 + 142 ) 953,3889 = 18,1111
1
2

SA =
1

nb i
( T 2i.. ) C = 5.723 953,3889 = 0, 4444
1
6

SB =
1

na j
( T 2. j . ) C = 5.753 953,3889 = 5, 4444
1
6

S AB = STR S A S B = 18,1111 0, 4444 5, 4444 = 12, 2223

T..1 = ( 8 + 4 + 5 + 8 + 6 + 5 + 7 + 7 + 6 ) = 56 Datos del bloque C1 (mes de junio)

T..2 = (10 + 6 + 10 + 7 + 8 + 9 + 8 + 9 + 8 ) = 75 Datos del bloque C2 (mes de julio)

S BL =
1

ab k
( T 2.k ) C = (T 2..1 + T 2..2 ) C = ( 562 + 752 ) 953,3889 = 20, 0555
1
ab
1
9

SE = ST SBL- STR = 49,6111 - 20,055 18,1111= 11, 4445

Por lo tanto la tabla de la anova es:

SMC
69
SC g.l CM FObs
A SA = 0,4444 2 SA = 0,2222 S "A
FA = = 0,1553
S "E
F.95,2,18=3,55
B SB = 5,4444 2 SB = 2,7222 S"
FB = B = 1,9028
S "E
F.95,2,18=3,55
AB SAB=12,2223 4 SAB =3,0556 S"
FAB = AB = 2,1359
S "E
F.95,4,8=3,84
BL SBL =20,055 1 SBL=20,0555 S"
FBL = BL = 14, 0189
S "E
F.95,1,8=5,32
Error SE =11,4445 8 SE =1,4306
Total ST = 49,6111 17

Por tanto:

a) No se rechaza H0(A), esto es, el promedio de refrescos de los tres sabores es


homogneo

b) No se rechaza H0(B), esto es, que el promedio de refrescos vendidos en los tres
puntos de venta es homogneo

c) No se rechaza H0(AB), es decir, que no existe interaccin

d) Se rechaza H0(BL), es decir, que la ventas promedios de los dos meses son
heterogneas

e) Se rechaza la hiptesis global, lo que indica que las ventas medias de las
combinaciones (sabor, punto de venta, mes) son heterogneas, siendo la
heterogeneidad debida a la influencia del mes en que se realizan las
observaciones.

Modelo VIII: Anova con dos factores, informacin aleatoria en bloques y


efectos aleatorios

El esquema de trabajo y la igualdad fundamental del anlisis de la varianza es como


en el modelo VII. La diferencia radica en que i , j , I ij y k son variables. Esto
ocurre por que los niveles Ai, Bj y Ck (bloques) son parte de un colectivo mayor.
La experimentacin se realiza de la misma forma que en el modelo de efectos fijos,
por lo tanto la tabla de datos es la misma, pero las conclusiones se extensivas a la
poblacin
SMC
70

Las hiptesis a contrastar seran:

1. H 0( A) : 2 = 0 frente a H1( A) : 2 0

2. H 0( B ) : 2 = 0 frente a H 0( B ) : 2 0

3. H 0( AB ) : 2 = 0 frente a H 0( AB ) : 2 0

4. H 0( BL ) : 2C = 0 frentae a H 0( BL ) : 2C 0

La tabla de la anova es:


SC g.l CM CME F
S
S "A = A E ( S "A ) = 2 + n 2 + nb 2 S "A
SA a-1 FA = =
a 1 S "AB
F( a 1),( a 1)(b 1)

S "B =
SB E ( S "B ) = 2 + n 2 + na 2 S "B
SB b-1 FB = =
b 1 S "AB
F( b 1),( a 1)(b 1)

S "AB =
S AB E ( S "AB ) = 2 + n 2 S "AB
SAB (a-1)(b-1) FAB = =
( a 1)( b 1) S "E
F( a 1)( b 1),( ab 1)( b 1)

S "BL =
S BL E ( S "BL ) = 2 + n 2 + ab 2C S "BL
SBL (n-1) FBL = =
n 1 S "AB
F( n 1),( a 1)( b 1)

S "E =
S "E E ( S "E ) = 2
SE (ab-1)(n-1)
( ab 1)( n 1)

SMC
71
Los contrastes son:

1 Para contrastar H0(A

S FA F( a 1),( a 1)( b 1) ( ) no se rechaza H 0(A)

2 Para contrastar H0(B)

S FB F(b 1),( a 1)(b 1) ( ) no se rechaza H 0( B)

3. Para contrastar H0(AB)

S FAB F( a 1)(b 1),( ab 1)( n 1) ( ) no se rechaza H 0(AB)

4. Para contrastar H0(BL)

S FBL F( n 1),( a 1)(b 1) ( ) No se rechaza H 0(BL)

La hiptesis global es:

H 0 : 2 = 0 H 0 : 2 = 0 H 0 : 2 = 0 H 0 : 2C = 0

Frente a:

H1 : 2 0 H1 : 2 0 H1 : 2 0 H1 : 2C 0

Si se rechazan H0(A) o H 0(B) o H0 (AB) o H0(BL), entonces se rechaza H0

S no se rechaza H0 (A), H0 (B), H0 (AB) y H0(BL), entonces no se rechaza H0

Si se rechaza H0, mediremos la variabilidad o heterogeneidad de los efectos


correspondientes estimando las varianzas 2 , 2 , 2 2C . Estos estimadores,
teniendo encuenta las expresiones de los cuadrados medios esperados, seran:

SMC
72
1
2*
= (S " A S " AB )
nb

2*
=
1
na
(S "
B S " AB )

1
2*
= (S " AB S "E )
n

1
2*
C = (S "BL S " AB )
ab

Y, como 2*T = 2* + 2* + 2* + 2*C + S "E

Por lo tanto, se tiene:

2*
% de influencia del factor A = 100
2*T

2*
% de influencia del factor B = 100
2*T

2*
% de influencia de la interaccin AB = 100
2*T

SMC
73
2*C
% de influencia del bloque C = 100
2*T

S "E
% de influencia del error aleatorio E = 100
2*T

Ejercicio 13:
Supongamos que queremos contrastar si el promedio de pantalones confeccionados,
por jornada de trabajo, es homogneo dependiendo de la mquina que realiza la
confeccin y del tejido empleado. Para realizar la experimentacin se responsabilizan
del proceso operarios distintos de los que sospecha que tambin pueden influir en la
heterogeneidad de la produccin. Se toman tres mquinas de un poblacin, tres tipos
de tejido de una poblacin y dos operarios de una poblacin.
Tenemos el siguiente conjunto de datos

C1 C2
A 1B 1 8 10
A 1B 2 6 6
A 1B 3 5 10
A 2B 1 5 7
A 2B 2 4 6
A 2B 3 3 5
A 3B 1 10 15
A 3B 2 9 12
A 3B 3 8 14

Contrastar con un nivel de significancia del 1%

a) Si el promedio de pantalones confeccionados por jornada es homogneo con


todas las mquinas

b) S el promedio de pantalones confeccionados por jornada es homogneo para


todos los tejidos

c) S el promedio de pantalones confeccionados es homogneo para todos los


operarios

d) Si existe interaccin entre los factores mquina y tejido empleados

e) Si son homogneas las producciones medias para cada combinacin (mquina,


tejido, operario) de manera conjunta

SMC
74

f) Si se rechazan algunas de las hiptesis, ordenar la influencia de stas en la


heterogeneidad total.

Al reordenar los datos de la tabla anterior en una tabla de doble entrada para (Ai, Bj) y
los datos de los bloques, as:

( ): Los datos del primer bloque

[ ]: Los datos del segundo bloque

B1 B2 B3
A1 (8) (6) (5)
[10] [6] [10]
A2 (5) (4) (3)
[7] [6] [5]
A3 (10) (9) (8)
[15] [8] [14]

La tabla de los totales es.

B1 B2 B3 Ti.. T2i..
A1 18 12 15 45 2.025
A2 12 10 8 30 900
A3 25 17 22 64 4.096
T.j. 55 39 45 T=139 T 2i.. = 7.021
T2.j. 3.025 1.521 2.025 T 2
. j. = 6.571

T 2... 19.321
T 2... = 193.211 C = = = 1.073,3889
abn 3 3 2

x 2
ijk = ( 82 + 102 + " + 82 + 142 ) = 1331, a = 3, b = 3, n = 2

La suma de cuadrados es:

SMC
75
ST = x 2
ijk C = 1.331 1037,3889 = 257, 611
ijk

1 1
SA =
nb i
T 2i.. C = 7.021 1073,3889 = 96, 7778
6

1 1
SB =
na j
T 2. j . C = 6.571 1.073,3889 = 21, 7778
6

T 2ij . C = (182 + 122 + " + 17 2 + 222 ) 1.073,3889 = 126,1111


1 1
STR =
n ij 2

S AB = STR S A S B = 126,1111 96, 7778 21, 7778 = 7,5555

T..1 = 8 + 6 + 5 + 5 + 4 + 3 + 10 + 9 + 8 = 58

T..2 = 10 + 6 + 10 + 7 + 6 + 5 + 15 + 12 + 14 = 85

T 2.k C = (T 2..1 + T 2..2 ) C = ( 582 + 852 ) 1.073,3889 = 103,1667


1 1 1
S BL =
ab k ab 9

S E = ST S BL STR = 257, 6111 103,1667 126,1111 = 28,3333

SMC
76

Por lo tanto la tabla de la Anova es:

SC g.l CM FObs
SA = 96,7778 2 SA=48,3889 S "A
FA = = 25, 6175
S "AB
F0.99,2,4=18,00
SB = 21,7778 2 SB=10,8889 S "B
FB = = 5, 7647
S "AB
F0.99,2,4=18,00
SAB = 7,5555 4 SAB=1,8889 S"
FAB = AB = 0,5333
S "E
F0.99,4,8=7,01
SBL = 103,1667 1 SBL=103,1667 S"
FBL = BL = 54.6173
S "AB
F0.99,1,8=11,3
SE = 28,3333 8 SE=3,5417
ST =257,1111 17

Por lo tanto:

a) Se rechaza H0(A), esto es, las diferencias entre los valores medios del nmero de
pantalones producidos por las distintas mquinas son significativas. Las
mquinas influyen en la produccin

b) No se rechaza H0 (B), esto es, las diferencias entre el nmero medio de


pantalones confeccionados por jornada con distinto tipos de tejidos son no
significativas. Los tejidos no influyen en la produccin

c) No existe interaccin entre las mquinas y los tejidos

d) Se rechaza H0 (BL), esto es, que los operarios influyen en el nmero medio de
pantalones producidos en cada jornada.

e) Se rechaza, por tanto, la hiptesis global de que el nmero medio de pantalones


producidos sea homogneo por mquina, tejido y operario de manera conjunta.

f) La influencia de cada uno de estos factores tiene en la heterogeneidad total es:

SMC
77
1 1
2* = ( S "A S "AB ) = ( 48,3889 1,8889 ) = 7, 75
nb 23

1 1
2* = ( S "B S "AB ) = (10,8889 1,8889 ) = 1,5
na 23

Como no hemos rechazado H 0(AB) , es decir, 2* = 0 (no existe interaccin)


por lo tanto, 2* = 0

1 1
2*C = ( S "BL S "AB ) = (103,1667 1,8889 ) = 11, 2539
ab 9

2*T = 2* + 2* + 2* + 2*C + S "E = 7, 75 + 1,5 + 0 + 11, 2531 + 3,5417 = 24, 0448

Por lo tanto:

2*
% de influencia del factor A = 100 = 32, 23%
2*T

2*C
% de influencia del bloque C = 2* 100 = 46,80%
T

S "E
% de influencia del error aleatorio E = 100 = 14, 73%
2*T

Por lo que son los operarios los que en mayor medida influyen en la heterogeneidad, en
segundo lugar las mquinas, en tercer lugar la aleatoriedad muestral, es decir, que sean
esas las observaciones y no otras las tomadas, y por ltimo los tejidos.

SMC
78

SMC

Вам также может понравиться