Академический Документы
Профессиональный Документы
Культура Документы
ANALISIS DE LA VARIANZA
1.0 Introduccin
El anlisis de la varianza se utiliza para probar las diferencias entre diversas medias. Se
supone que las diversas medias muestrales se obtienen a partir de poblaciones con
distribucin normal y con la misma varianza.
Como la hiptesis nula consiste en que las medias poblacionales son iguales, la
suposicin de igualdad de varianzas (homogeneidad de la varianza), tambin implica
que, para propsitos prcticos, la prueba se ocupa de la hiptesis de que las medias
provienen de la misma poblacin
Las hiptesis son:
H 0 : 1 = 2 = 3 = ... = k
Ejemplo 0:
El uso de analgsicos en el bienestar de unos enfermos. Si hay un solo factor lo
representamos por A.
- Tratamiento o niveles del factor son cada uno de los valores posibles del factor A, y
los representamos por Ai para i = 1,, k.
Ejemplo 1
En el ejemplo 0 los tratamientos son las distintas marcas de analgsicos.
Las variables poblacionales estn asociadas a los conjuntos (grupos) de valores que se
obtienen aplicando los tratamientos Ai. Por ello podemos hablar de variables de
tratamiento o grupos de tratamiento. Ntese que la media del tratamiento A i es
SMC
2
El anlisis de la varianza supone mantener la independencia de las variables de
tratamiento
ij = xij i ij ,
Siendo xij el elemento muestral j-simo del la poblacin i-sima
Por ello descomponemos la varianza total de los xij en una suma de diferencias al
cuadrado en dos trminos:
SMC
3
Conviene aclarar que la variable independiente (cualitativa) es el factor con k niveles
independientes, es decir los tratamientos Ai, que el caso del ANOVA acta sobre una
variable dependiente (cuantitativa).
- los tratamientos o niveles del factor son las distintas marcas de analgsicos
- y las variables los valores que sobre la variable dependiente, o variable respuesta, se
obtienen aplicando los tratamientos.
En la tabla siguiente recogemos todas las variables dependientes con cada tratamiento.
En caso de tener una variable dependiente 1 , las variables 11 ,..., 1l ,..., kl que
corresponden a las respuestas de la variable dependiente con cada uno de los
tratamientos equivalen a las 1 ,..., k . Estas variables son independientes entre s
puesto que los tratamientos lo son. Con esta notacin, una observacin muestral sera:
SMC
4
Siempre hay que tener en cuenta los supuestos de partida que han de cumplirse para
aplicar correctamente el ANOVA. Estos supuestos son:
Con este supuesto ocurre, como con el de normalidad, que si no se cumple no tiene
consecuencias graves, pues al aplicar el test de la F el que es robusto frente a la
heterogeneidad.
Por tanto, conviene utilizar muestras del mismo tamao (o aproximadamente iguales),
sobre todo cuando hay diferencias grandes entre las varianzas.
SMC
5
2.0 Razonamiento conceptual
1) Se debe calcular la media para cada grupo muestral, y despus determinar el error
2) Se sabe que:
S
Sx = S 2 = nS x
2
A esta relacin se le llama el error estndar de la media. Puede utilizarse para estimar
la varianza de la poblacin.
3) Calcular la varianza de cada grupo muestral por separado con respecto a la media
de cada uno.
Sin embargo, si la hiptesis nula es falsa, entonces el valor esperado del cuadrado
medio entre tratamientos CMET es mayor que el cuadrado medio del error CME
SMC
6
CMET > CME
En esencia, cualquiera diferencia entre las medias poblacionales, incrementaran el
cuadrado medio entre tratamiento CMET, al tiempo que no tendran ningn efecto
sobre el cuadrado medio del error CME, que se basa slo en las diferencias
intergrupales.
5) Se puede utilizar la distribucin F para probar la diferencia entre las dos varianzas.
Se trata de una prueba de un solo extremo, y la forma general de la prueba F en
anlisis de varianza es
CMET
Fv1,v 2 =
CME
Si el cociente F se encuentra en la regin de rechazo para el nivel de significancia
especificado, entonces, se rechaza la hiptesis nula de que las diversas medias
muestrales provienen de la misma poblacin
Mtodos de Calificaciones de
instruccin las pruebas
A1 86 79 81 70 84
A2 90 76 88 82 89
A3 82 68 73 71 81
Solucin:
H 0 : 1 = 2 = 3
H 1 : 1 , 2 , 3 No todas iguales
A1 86 79 81 70 84 400 80
A2 90 76 88 82 89 425 85
A3 82 68 73 71 81 375 75
= 1200
SMC
7
1) La media global de las 15 calificaciones es:
86 + 79 + ... + 71 + 81
XT = = 80
15
1200
XT = = 80
15
El error estndar de las medias, con base en las tres medias es:
( )
2
X XT (80 80 ) + ( 85 80 ) + ( 75 80 )
2 2 2
SX = = = 5, 0
n 1 3 1
CMET = nS X 2 , entonces
CMET = 5( 5 ) = 125
2
(x x)
2
Como S 2 =
n 1
SMC
8
(86 80) + (79 80) + (81 80) + (70 80) + (84 80)
2 2 2 2 2
S12 = = 38,5
5 1
(90 85) 2 + (76 85) 2 + (88 85) 2 + (85 85) 2 + (89 85) 2
S2 2 = = 35, 0
5 1
(82 75) 2 + (68 75) 2 + (73 75) 2 + (71 75) 2 + (81 75) 2
S3 =
2
= 38,5
5 1
CME = 1 = = 37,3
n1 + n 2 + n 3 3 5+5+53
4) Como CMET > CME (125 > 37,3) resulta apropiada la prueba
Fp, k-1, n
k k
N
v1 v2
Donde:
Por lo tanto:
CMET 125
5) FObs. = FObs = = 3,35
CME 37,3
SMC
9
Por lo tanto, como F observado no es mayor que el valor crtico no es posible rechazar
H0, es decir, no se puede rechazar que las calificaciones promedio para los tres
mtodos de instruccin de la poblacin son iguales entre s.
X ik = + k + ik
Donde:
SMC
10
Donde:
Tk 2 T 2
k
SCA =
k =1 n k N
n k T2
SCT = x 2
i =1 k =1 N
SCA
CMA =
k 1
SCE
CME =
N 1
CMA
F=
CME
k : N de grupos de tratamiento
SMC
11
x : valor de la variable
H 0 : 1 = 2 = 3 = ... = k
Cuando se rechaza la hiptesis nula significa que existen r s ; esto es, al menos
existe una pareja de medias que son distintas. Lo que rechazamos es la igualdad
simultnea de medias
1 =,..., = k
Para averiguar que parejas de medias son distintas hacemos contrastes dos a dos con
la "t" de Student.
Solucin:
A1 86 79 81 70 84 T1 = 400 80
A2 90 76 88 82 89 T2 = 425 85
A3 82 68 73 71 81 T3 = 375 75
SMC
12
n1 = 5 n2 = 5 n3 = 5 N = 15
T1 = 400 T2 = 425 T3 = 375 T = 400 + 425 + 375 = 1200
T12 = 160000 T22 = 180625 T32 = 140625 T2 = 1440000
3
T 2k T 2 160000 180625 140625 1440000
SCA =
k =1 nk
N
SCA =
5
+
5
+
5
15
= 250
5 3
x
i =1 k =1
2
= 86 2 + 79 2 + ... + 712 + 812 = 96698
5 3 T2 1440000
SCT = x 2 = 96698 = 698
i =1 k =1 N 15
Por lo tanto, las diferencias entre las medias no son significativas al 5% de significancia,
es decir, no se rechaza la hiptesis nula
SMC
13
3.1.1 Clasificacin con grupos desiguales
Recordemos que es conveniente utilizar muestras del mismo tamao o
aproximadamente iguales, sobre todo cuando las varianzas tienen diferencias grandes
Ejemplo 3: En la tabla se reportan los puntajes obtenidos en tres test, las personas
fueron asignadas aleatoriamente. Probar las siguientes hiptesis
H0 : de que el promedio de los puntajes no es distinto, utilizando el 5% como nivel de
significancia
H 0 : 1 = 2 = 3 = ... = k
De otra forma
n1 = 5 n2 = 3 n3 = 4 N = 12
T1 = 352 T2 = 231 T3 = 280 T = 863
T12 = 123904 T22 = 53361 T32 = 78400 T2 = 744769
5 3
x
i =1 k =1
2
= 79 2 + 83 2 + ... + 79 2 + 55 2 = 63441
SMC
14
5
T
3 2
744769
SCT = x 2 SCT = 63441 = 1376.9
i =1 k =1 N 12
La tabla de la Anova es
Fuente Grados de Suma de Cuadrado Coeficiente
variacin Libertad Cuadrados (SC) Medio (CM) F
Entre grupos (A) k=3 SCA = 103.7 CMA =
k 1 = 3 1 = 2
Procesadores 103.7
= 51.2 CMA 51.8
2 F= = = 0.37
CME 141.5
Error de K = 3 y N = 12 SCE
Muestreo (E) N-k = 12 -3 = 9 CME=
SCE = 1273.2 N k
=
1273.2
= 141.5
9
Total N = 12
5 3 T2
N-1 = 12-1=11 SCT = x 2
i =1 k =1 N
SCT = 1376.2
Como:
Se debe suponer que las dos muestras se obtienen de la misma poblacin con
distribucin normal, y que se desconoce la varianza 2 poblacional ( 2 )
SMC
15
Ejemplo 4: Retomemos el ejercicio n 3
H0 : 1 2 = 0 H0 : 1 = 2
H1 : 1 2 0 H1 : 1 2
x1 = 70, 4; x 2 = 77
n1 = 5; n2 = 3
v = n1 + n2 2 => v = 5 + 3 2 = 6
t = 0, 05, 6 = 2,447
(x x )
2
( 79 70, 4 ) + (83 70, 4 ) + ( 62 70, 4 ) + ( 51 70, 4 ) + ( 77 70, 4 )
2 2 2 2 2
1
S 21 = = = 180,8
n1 1 5 1
(x x )
2
( 74 77 ) + ( 85 77 ) + ( 72 77 )
2 2 2
2
S 2
= = = 49
n2 1 3 1
2
2 =
( n1 1) S 21 + ( n2 1) S 2 2 =
4180,8 + 249
= 136,8667
n1 + n2 2 5+ 3 2
2 2 136,8667 136,8667
x x = + = + = 8,54
1 2
n1 n2 5 3
x1 x 2 70, 4 77
t= = = 0, 77
x1 x2 8,54
SMC
16
Como tObs. = -0,77 y t (critica) = 2,447, entonces no se rechaza la hiptesis nula.
3.1.3 Modelo II: Anova con un factor, completamente aleatorio y efectos aleatorios
Las medias de las poblaciones con las que vamos hacer la experimentacin son
1 ,..., k por tanto:
H 0 : 1 = ... = k
Ahora bien, como las poblaciones se han elegido de un colectivo mayor de manera
aleatoria, las medias i son aleatorias y, por lo tanto, los efectos
i = i
E ( i ) = , E ( i ) = E ( i ) = E ( i ) = = 0
V ( i ) = E ( i ) = E ( 2i ) = E ( i E ( i ) ) = V ( i ) = 2
2 2
xij = + i + ij
SMC
17
Pero 2 mide la dispersin de los efectos i y la dispersin de las medias i
respecto de , es decir la variabilidad de las i , esto significa que cuanto menor sea
2 ms homognea son las medias i
S i = i V ( i ) = 2 = 0
Por tanto, en este caso de efectos variables, las hiptesis a contrastar sera:
H 0 : 2 = 0 frente a H 1 : 2 0
La igualdad del anlisis de varianza es la misma que para el modelo I, por tanto, los
clculos abreviados son iguales
SMC
18
n
x
j =1
ij
x=
n
S A = n x knx
2 2
i
SA = n x N x ;
2 2
con N = k n
i
S E = x 2ij n x
2
ST = xij 2 N x
2
S A = ni x i N x ; con N = ni
2 2
k n
S E = xij 2 ni x i
i= j =1
ST = S A + S E
Teniendo en cuenta que
SMC
19
Suma de cuadrados
Cuadrados medios =
Grados de libertad
y que
g.l (SA) = k 1
g.l (SE) = N k
g.l (ST) = N 1
SA
S "A =
k 1
SE
S "E =
N k
ST
S "T =
N 1
E ( S " A ) = 2 + n 2
E ( S "E ) = 2
SMC
20
Fuente de Sumas de g.l Cuadrado Cuadrado medio Estadstico : F
variacin Cuadrados Medio : esperado : CME
CM
Factor : A SA k-1 E ( S " A ) = 2 + n 2 S "A
SA = Fk 1, N k
S "A = S "E
k 1 Si H0 cierta
Error :E SE N-k E ( S "E = 2 )
SE
S "E =
N k
Total ST N-1
k
N ni 2
2
E ( S "A ) = 2 + 1
2
N ( k 1)
S" A
Si "
> F se rechaza H0 : 2 = 0
SB
S" A
Si "
F no se rechaza H0 : 2 = 0
SB
En este caso no tiene sentido hacer contrastes dos a dos para detectar cuales son las
parejas de medias distintas, porque estos contrastes slo valdran para las poblaciones
observadas, pero como no son fijas, nos interesa medir la dispersin que presentan las
medias en su totalidad.
SMC
21
Ahora bien, como 2 es un valor poblacional que hay que estimarlo. Un estimador
insesgado de 2
2* = (
1 "
n
S A S "E )
N ( k 1)
2* = k (S "
A S "E )
N 2 n 2i
1
En este caso
2* = 2* + 2
2* = 2* + S "E
SMC
22
2*
% de influencia del factor A en la variacin total = 2* 100
T
S "E
% de influencia del error muestral E en la variacin total = 100
2*T
Ejemplo 5:
Supongamos que queremos contrastar si el nmero promedio de artculos vendidos
diariamente de un producto es homogneo dependiendo del supermercado en que se
vende. Para ello elegimos al azar cuatro supermercados entre un colectivo de
supermercados. A continuacin, observamos el nmero de artculos vendidos en esos
supermercados en cinco das, elegidos aleatoriamente, obteniendo los siguientes
resultados:
Solucin:
x x
2
i. = 25 i.
= 165
Por lo tanto:
SMC
23
x=
x i .1
x=
25
= 6,25
4 4
x=
x ij
x=
125
= 6,25
20 20
SMC
24
2
x = 6, 2 5 2 = 3 9, 0 6 2 5
com o
n x
2
i .1 = 5(8 2 + 4 2 + 6 2 + 7 2 ) = 8 2 5 y
2
Nx = 2 0 6, 2 5 2 = 7 8 1, 2 5
e n to n c e s
S A = n x n i .1 N x
2 2
= 8 2 5 7 8 1, 2 5 = 4 3, 7 5
Com o x 2
ij = 82 + 92 + " + 62 + 52 = 885
E n to n c e s
x n x
2
SE = 2
i. = 885 825 = 60
ij
S ie n d o N = n k = 2 0
k = 4 y n =5
4 3, 7 5
" 3
= = 3, 8 8 8 9
SA
FO b s =
S "E 60
16
E l v a lo r d e la F p a ra d e te rm in a r la re g i n c rtic a e s :
Fp ; k -1 , N -k = F.9 5 ;3 ,1 6 = 3, 2 3 8 9
Por lo tanto:
Como no tiene sentido realizar contrastes por parejas de las medias elegidas, puesto
2
que son variables, veamos la variabilidad de estas medias i con ya que
2 = v ( i ) mide la dispersin de las i, por tanto, su homogeneidad. Pero 2 es un
valor poblacional que hemos de estimar con valores muestrales. Este estimador sera:
Como
43,75
S"A = = 14,5833 y
3
60
S" E = = 3,75
16
2* =
n
(
1 "
S A S " E ) = (14,5833 3, 75 ) = 2,1667
1
5
2* 2,1667
100 = = 36, 62%
T
2*
5,9167
SMC
26
De la misma forma, la influencia porcentual del error aleatorio en la heterogeneidad
total es:
S "E 3, 75
100 = 100 = 63,38%
S 2*T 5,9167
Por tanto, en la heterogeneidad total influye sobre todo el error aleatorio en un 63,38%,
es decir la aleatoriedad muestral, esto es, los das elegidos para tomar las
observaciones y no tanto el supermercado de venta (en un 36,62%).
3.2.1 Modelo III: Anova con un factor, aleatorio en bloques y efectos fijos
En el modelo III se supondr la existencia de un segundo factor implcito, que no se
plantea como factor principal, pero que puede influir en la heterogeneidad de las
poblaciones.
Ejemplo 6:
Queremos contrastar si el consumo medio de combustible de tres modelos de vehculos
A1, A2 y A3 es homogneo. Para ello se realizan pruebas con cuatro conductores B1, B2,
B3 y B4 de los que sospechamos que pueden influir en la heterogeneidad de los
consumos. El objeto del estudio es el factor A, pero se debe tener encuenta el bloque B,
para eliminar la influencia que sobre las conclusiones de la homogeneidad de los
factores A pudiera tener.
En el siguiente cuadro figuran los consumos de litros de gasolina por cada cien
kilmetros
Vehculos Conductores
B1 B2 B3 B4
x i.
A1 7,0 7,0 7,5 10,5 8,0
A2 6,0 6,5 7,0 6,5
A3 6,5 7,0 7,5 7,0
SMC
27
Como el conductor B4 slo ha realizado la prueba con el automvil A1 y este
conductor es el que produce mayor consumo, esto podra llevarnos a conclusiones
errneas sobre el consumo de A1 respecto de A2 y A3.
Para evitarlo, el conductor B4 debera realizar pruebas con A2 y A3. Es decir, la tabla de
datos con factor de bloqueo sera de la forma:
B1 B2 B3 B4
A1 x x x x
A2 x x x x
A3 x x x x
Vehculo Conductores
s B1 B2 B3 B4 i.
A1 11 12 13 14 1.
A2 21 22 23 24 2.
A3 31 32 33 34 3.
.j .1 .2 .3 .4
Siendo:
SMC
28
1 b
i. =
b
j =1
ij ; m e d ia d e la fila i
1 a
. j =
a
i =1
ij ; m e d ia d e la c o lu m n a j
1 a b
=
ab
i =1 j =1
ij m e d ia g lo b a l
i
= i =1
m e d ia g lo b a l
a
j =1
j
= m e d ia g lo b a l
b
H 0( A) : i. = i contra H1( A) : r . s.
H 0( B ) : . j = j contra H1( B ) : .r .s
Si no rechazamos H0(A) quiere decir que no hay diferencias significativas entre los
tratamientos Ai. Si no rechazamos H0(B) quiere decir que no hay diferencias
significativas entre los bloques Bj.
SMC
29
La hiptesis global sera:
H 0 : ij = ij contra H 1 : rs rs
Por lo tanto:
xij = + i + j + ij
Siendo ij = xij ij
S A = b x
2 2
i. ab x
SB = a x
2 2
.j ab x
x 2 ij b x a x
2 2 2
SE = i. .j + ab x
Siendo:
N (nmero total de datos) = ab
a = nmero de filas y
b = nmero de columnas
SMC
30
ST = S A + S B + S E
ST = x 2ij abx
2
li =
m
i.
l = xi. x
mj =
l
.j
l = x. j x
ij = xij
l = x x i . x. j + x
ij ij
SMC
31
La tabla del anlisis de la varianza para los modelos III y IV es:
Si
i)
S "A
FA = " F ( ) se rechaza H 0(A)
SE
S "A
FA = " F ( ) no se rechaza H 0(A)
SE
iii) Siendo
F( ) = F( b 1),(a 1)( b 1)
SMC
32
S "B
FB = " > F ( ) se rechaza H 0(B)
SE
S "B
FB = " F ( ) no se rechaza H 0(B)
SE
Ejercicio 7:
Supongamos que queremos contrastar si los consumos medios de combustible de
cuatro modelos de automviles son homogneos. Para ello realizamos pruebas con tres
conductores que podran influir en la heterogeneidad de los consumos por cada 100
kilmetros, por lo que se recoge la informacin en bloques
Automviles Conductores
B1 B2 B3
A1 8 6 7
A2 7 5 6
A3 6 6 5
A4 8 5,5 6
Automviles Conductores 2
B1 B2 B3 xi. x i.
A1 8 6 7 7 49
A2 7 5 6 6 36
A3 6 6 5 5,6667 32,1115
A4 8 5,5 6 6,5 42,25
7,25 5,625 6,0
x
2
x. j x =6,2917 =159,3615
i.
52,5625 31,6406 36
x
2 2
=120,2031
x .j .j
Siendo:
SMC
33
x
j =1
ij
x ij
x. j = i =1
, media de la columna
a
1 1 1
x=
a
x i . = x. j =
b ab
xij = 6.2917, media global
2
x = 6, 2917 2 = 39,5855
a (n de filas) = 4
b (n de columnas) = 3
Suma de cuadrados
Como
b x
2
i. = 3 159,3615 = 478,0845
2
abx = 4 3 6,29172 = 475,0259
a x
2
.j = 4 120,2031 = 480,8124
x 2
ij =82 + 62 + " + 5,52 + 62 = 486,25
SB = a x
2 2
.j abx = 480,8124 475, 026 = 5, 7864
2
S E = x 2ij b x i. a x
2 2
.j + abx = 486, 25 478, 0845 480,8124 + 475, 026 = 2,3791
Por lo tanto:
b) Rechazamos que los consumos medios con los distintos conductores sean
homogneos.
Esto indica que era necesario repartir la informacin por bloques para evitar la influencia
de los conductores en la valoracin de la homogeneidad de los consumos de los
automviles
Para detectar que conductores tienen conduccin heterognea, deberamos realizar
contrastes dos a dos utilizando la distribucin t
SMC
35
3.2.2 Modelo IV: Anova con un factor, aleatorio en bloques y efectos aleatorios
xij = + i + j + ij
H 0( A) : 2 = 0 contra H1( A) : 2 0
S "A
F( A) = "
SE
SMC
36
"
SA
i ) Si "
F ( ) se rechaza H 0( A) : 2 = 0
SE
S "A
ii ) Si "
F ( ) no se rechaza H 0( A) : 2 = 0
SE
H 0( B ) : 2 = 0 contra H1( B ) : 2 0
S "B
FB = "
= F(b 1),( a 1)(b 1) , si H B es cierta
SE
S "B
i ) Si FB = "
F ( ) se rechaza H 0( B ) : 2 = 0 las medias . j son heterogeneas
SE
S "B
ii ) Si FB = F ( ) no se rechaza H 0( B ) : 2 = 0 consideramos las medias .j homogneas
S "E
SMC
37
La tabla del ANOVA para el modelo IV sera
Fuentes SC g.l CM CME Estadstico F
S "A = A
S E ( S A ) = + b
" 2 2
S"
A SA a-1 FA = " A = F( a 1),( a 1)(b 1)
a 1 SE
Si H0(A) es cierta
S "B = B
S E ( S B ) = + a
" 2 2
S"
B SB b-1 FB = " B = F(b 1),( a 1)( b 1)
b 1 SE
Si H 0(B) es cierta
(
S "E =
S E E (S E ) =
" 2
SE a-1)(b-1)
E ( )( )
a 1 b 1
Total ST
H 0 : 2 = 0 contra H1 : 2 0
H0 : 2 = 0 contra H1 : 2 0
Por lo tanto:
2* = (
1 "
b
S A S "E )
SMC
38
2* = (
1 "
a
S B S "E )
2*T = 2* + 2* + 2*
2*T = 2* + 2* + S "E
Cada una de las componentes tiene su porcentaje de influencia en la heterogeneidad
total medida por 2T . Estos seran:
2*
i) % de influencia del factor A en la variacin total = 100
2*T
2*
ii) % de influencia del factor B en la variacin total = 100
2*T
S "E
iii) % de influencia del error aleatorio E en la variacin total = 100
2*T
Ejemplo 8:
Se quiere contrastar si el consumo medio de combustible de los vehculos de un
determinado segmento es homogneo. Para ello se eligen cuatro vehculos al azar y se
realizan pruebas experimentales con tres conductores distintos, elegidos tambin al
azar de un colectivo mayor de conductores.
Vehculos Conductores
B1 B2 B3
A1 8 7 6
A2 7 6 5
A3 5 6 4
A4 6 7 5
SMC
39
a) la hiptesis de homogeneidad de consumo de los automviles del segmento
considerado
Solucin:
La experimentacin del modelo IV (con efectos aleatorios) es igual que el modelo III
(con efectos fijos), lo que cambia es que las conclusiones se proyectan a las
poblaciones de automviles y conductores
Como
S A = b x i. abx S A = 3 146 3 4 62 = 6
2 2
SB = a x
2 2
.j abx S B = 4 109,5 3 4 62 = 6
SMC
40
Por lo tanto, la tabla de la ANOVA sera:
Fuentes SC g.l CM Estadstico F
6 2
S " A = = 2 FA = = 6 > F.95;3,6 = 4, 7571
A SA = 6 a-1 =3 3 1
3
6 2
S " B = = 3 FA = = 6 > F.95;3,6 = 4, 7571
B SB = 6 b-1 =2 2 1
3
E SE = 2 (a-1)(b-1) 2 1
S "E = =
6 3
Por lo tanto:
SMC
41
Por lo tanto, tenemos que:
2*
i) % de influencia del factor A en la variacin total = 100 = 35, 7%
2*T
2*
ii) % de influencia del factor B en la variacin total = 100 = 42,8%
2*T
S "E
iii) % de influencia del error aleatorio E en la variacin total = 100 = 21,5%
2*T
Por ejemplo, puede diferir la efectividad de diversos mtodos de instruccin segn los
niveles de habilidad de los estudiantes.
Para probar la interaccin, debe incluirse en cada una de las celdas de una tabla de
datos de dos sentidos ms de una observacin o medicin muestreada (Replicas)
Cuando se utiliza este tipo de diseo, pueden probarse, con anlisis de varianza, tres
hiptesis nulas distintas:
SMC
42
1) Que no existen efectos por columna, es decir, los promedios por columna no
difieren en forma significativa.
2) Que no existen efectos por regln, es decir, las medias por regln no difieren
en forma significativa
3) Que no existe interaccin entre los factores, es decir, los dos factores son
independientes
El modelo lineal para el anlisis de varianza con dos criterios de clasificacin, con
replicas, es:
X ijk = + j + k + jk + ijk
A continuacin, presentamos una tabla de datos muestrales simplificada con
SMC
43
B1 B2 B3
ijk = xijk ij .
I ij = ij ( + i + j )
Siendo:
SMC
44
xijk = ijk + ijk = + i + j + I ij + ijk .
Para realizar este contraste necesitamos formular el estadstico que define la regin
crtica, es decir la descomposicin es la siguiente:
B1 B2 B3 xi..
A1
x 11. x 12. x 13. x 1..
A2
x 21. x 22. x 23. x 2..
l i = x i.. x, l j = x . j . x, I ij = x ij . x i.. x. j . + x
SMC
45
ST = xijk x ( ) = ( x ) (
x + x. j . x +)
2 2 2
i ..
( )
+ xij . xi.. x. j . + x + xijk xij . ( )
2 2
ST = S A + S B + S AB + S E
ST = STR + S E
Siendo
SMC
46
T 2...
C=
abn
S T =
ijk
x 2
ijk C
1
S TR =
n
ij
T 2
ij . C
S E = S T S TR
1
S A =
nb
i
T 2
i .. C
1
S B =
na
j
T 2
. j. C
S AB = S TR S A S B
Siendo:
SMC
47
B1 B2 B3 Ti..
A SA
E ( S "A ) = 2 +
nb S "A
a 1 i
2i FA =
S "E
= F( a 1), ab( n 1)
a-1 SA
Si H0(A) es cierta
B b-1 SB SB na S "B
E ( S "B ) = 2 + 2j
b 1 j
FB =
S "E
= F(b 1),ab( n 1)
Si H0(B) es cierta
Si H0(AB) es cierta
E ab(n-1) SE SE E ( S "E ) = 2
Total abn-1 ST
SMC
48
S "A
1. S F( a 1),ab( n 1) ( ) se rechaza H 0(A)
S "E
S "B
2. S F( b 1),ab( n 1) ( ) se rechaza H 0(B)
S "E
S"AB
3. S F( a 1)(b 1),ab( n 1) ( ) se rechaza H 0(AB)
S"E
Los contrastes posteriores para el caso en que se rechace H0 son similares a los de los
modelos anteriores
Ejercicio 10:
B1 B2 B3
5 6 6
A1 6 6 7
6 7 7
7 8 6
A2 6 7 7
6 6 6
7 6 7
A3 5 7 8
6 7 5
SMC
49
La tabla siguiente contiene los datos que se necesitan para calcular las sumas de
cuadrados
Tij. Ti..
17 19 20 56
19 21 19 59
18 20 20 58
T.j. 54 60 59 T = 173
T 2... 1732
C= C = = 1.108, 4815
abn 333
SMC
50
Como
x 2
ijk = 52 + " + 72 + 72 + " + 62 + 72 + " 52 = 1125
Como
T 2
ij = 172 + 192 + " + 202 + 202 = 3337
T 2
i .. = 562 + 592 + 582 = 9981
T 2
. j. = 542 + 602 + 592 =9997
1 1
STR =
n ij
T 2ij . C STR = 3.337 1.108, 4815 = 3,8518
3
1 1
SA =
nb i
T 2i.. C S A = 9.981 1.108, 4815 = 0,5185
9
1 1
SB =
na j
T 2. j . C S B = 9.997 1.108, 4815 = 2, 2963
9
SMC
51
E SE =1,6667 18 SE=0,7037
Total ST=16,5185
Por tanto:
Este modelo es similar, en cuanto a los trminos de las sumas de cuadrados, al modelo
V, y a los modelos II y IV de efectos aleatorios, en cuanto al tratamiento.
SMC
52
El esquema de trabajo aditivo para las observaciones, xijk , la igualdad fundamental y
el calculo abreviado es igual que en el modelo V
1. H 0( A) : 2 = 0 contra H1( A) : 2 0
2. H 0( B ) : 2 = 0 contra H1( B ) : 2 B 0
3. H 0( AB ) : 2 = 0 contra H1( AB ) : 2 0
H 0 : 2 = 0 2 = 0 2 = 0
H1 : 2 0 2 0 2 0
A SA a-1
S "A =
SA E ( S "A ) = 2 + n 2 + nb 2 FA =
S "A
a 1 S "AB
F(a-1),(a-1)(b-1)
B SB b-1
S "B =
SB E ( S "B ) = 2 + n 2 + na 2 FB =
S "B
b 1 S "AB
F(b-1),(a-1)(b-1)
AB SAB (a-1)(b-1)
S "AB =
S AB E ( S "AB ) = 2 + n 2 FAB =
S "AB
( a 1)( b 1) S "E
F(a-1)(b-1),ab(b-1)
E SE ab(n-1)
S "E =
SE E ( S "E ) = 2
ab ( n 1)
SMC
53
Los contrastes seran:
S "A
S FA = F( a 1),( a 1)(b 1) ( ) se rechaza H 0( A)
S "E
S "B
S FB = F(b 1),( a 1)(b 1) ( ) se rechaza H 0( B )
S "E
3) Para contrastar H 0(AB)
S "AB
S FAB = F( a 1)(b 1), ab( n 1) ( ) se rechaza H 0( AB )
S "E
1
2* = ( S "A S "AB )
nb
1
2* = ( S "B S "AB )
na
1
2* = ( S "AB S "E )
n
Y como
2*T = 2* + 2* + 2* + S "E
Los porcentajes de influencia de cada factor en la variacin total, estimada por 2*T ,
seran:
2*
% de influencia del factor A en la heterogeneidad total = 100
2*T
SMC
54
2*
2*
% de influencia de la interaccin AB en la heterogeneidad total = 100
2*T
S "E
% de influencia del error aleatorio E en la heterogeneidad total = 100
2*T
Ejercicio 11
B1 B2 B3
A1 8 6 6
7 7 7
7 7 7
A2 8 8 6
9 7 7
10 6 6
A3 7 6 7
5 7 8
6 7 5
SMC
55
La tabla de los totales muestrales (Tij.), totales por fila (Ti..), totales por columnas
(T.j.) y sus correspondientes cuadrados es:
A2 27 21 19 67 4.489
A3 18 20 20 58 3.364
T.j. 67 61 59 T=187 T 2
i .. = 11.697
2
El cuadro de los T ij. Es:
SMC
56
T2ij.
484 400 400
T 2
ij . = 3.939
x
ijk
2
ijk = 82 + " 7 2 + 82 + " + 62 + 7 2 + " + 52 = 1.327
T 2 ... 34.969
C= = = 1.295,1481
abn 27
1 1
SA =
nb
T 2i.. C = 11.697 1.295,1481 = 4,5186
9
1 1
SB =
na j
T 2. j . C = 11.691 1.295,1481 = 3,8519
9
1 1
STR =
n ij
T 2ij C = 3.939 1.295,1481 = 17,8519
3
SMC
57
El cuadro de la anova sera:
F.95;2,4 = 6,94
F.95;2,4=6,94
F.95;4,18 = 2,93
E SE =14 18 SE=0,7778
Como:
es decir, no se rechaza H 0( A) : 2 = 0
es decir, no se rechaza H 0( B ) : 2 = 0
es decir, se rechaza H 0( AB ) : 2 = 0
Entonces:
SMC
58
c) Existe una interaccin significativa entre los dos factores
2 , 2 , 2 , 2
Como las varianzas son poblacionales y, por ello, no las podemos calcular vamos a
estimarlas.
1
2* = ( S "A S "AB ) 0
nb
1
2* = ( S "B S "AB ) 0
na
1 1
2* = ( S "AB S "E ) = ( 2,3704 0, 7778) = 0,5309 y
n 3
2* = S "E = 0, 7778
La heterogeneidad total estimada es:
2*
% de influencia de la interaccin AB en la heterogeneidad total = 100 = 40,57%
2*T
S "E
% de influencia del error aleatorio E en la heterogeneidad tota = 100 = 59, 43%
2*T
SMC
59
En conclusin, la heterogeneidad del nmero de horas de sueo, depende, en primer
lugar, del error aleatorio en un 59,43%, y luego de la interaccin entre los dos
tratamientos en un 40,57%. La influencia en la heterogeneidad total del error muestral
es debida a los elementos elegidos para las observaciones.
En este punto se trataran dos modelos similares a los modelos V y VI, pero incluidas un
tercer factor de bloqueo que puede influir en la heterogeneidad, aunque no sea un
factor principal.
Modelo VII: Anova con dos factores, informacin aleatoria en bloques y factores
fijos
C1 C2 C3 ij .
Ejemplo:
La siguiente tabla (abreviada) contiene todas las medias poblacionales de todas las
combinaciones posibles para i = 1, 2; j = 1, 2, 3 y k = 1, 2, 3
C1 C2 C3 xij .
Las variables poblacionales corresponden a cada combinacin (Ai, Bj, Ck), y sus
variables representan al nmero de refrescos vendidos por sabor, zona y mes. Estas
variables son ( )
N ( ijk , ) . Las observaciones muestrales xijk son N ijk , , y el
error aleatorio ijk = xijk ijk . Las medias de cada bloque son:
ijk
..k = i j
ab
SMC
61
B1 B2 B3 i..
A1 11. 12. 13. 1..
l i =
l
i ..
l = xi.. x Para A
i
l j =
l
. j.
l = x. j . x Para B
j
k =
l
..k
l = x..k x Para C
k
(
I ij = xij . x i.. + x. j . x )
SMC
62
xijk = + i + j + I ij + k + ijk
Las hiptesis a contrastar seran:
1. H 0( A) : i.. = i H 0( A) : i = 0 i.
2. H 0( B ) : . j . = j H 0( B ) : j = 0 j.
3. H 0( AB ) : I ij = 0 ij H 0( AB ) : ij . = + i + j ij .
4. H 0( BL ) : .k = k H 0( BL ) : k = 0 k .
La igualdad fundamental para el anlisis de la varianza para los modelos VII y VIII
consiste en descomponer la suma total de cuadrados ST en suma de trminos, de tal
manera que, cada uno mide la heterogeneidad debida a los i , j , Iij , k y ijk . Esto es:
( ) ( ) ( )
2
ST = x i.. x + x. j . x + xij . xi.. x. j . + x +
2 2
( ) (
+ x.k x + x ijk x ij . x.k + x )
2 2
ijk ijk
ST = S A + S B + S AB + S BL + S E
Siendo
(
STR = x ij . x )
2
= S A + S B + S AB
ijk
SMC
63
T 2...
C=
abn
ST = ijk
x 2 ijk C
1
S TR =
n
T
ij
2
ij . C
1
SA =
nb
T i
2
i .. C
1
SB =
na
T j
2
. j. C
S AB = S TR S A S B
1
S BL =
ab
T k
2
.k C
Los totales Tij., Ti.. y T.j. ya estn definidos en los modelos V y VI, y los totales
SMC
64
T.k = ( xijk )
ijk
C1 C2 C3
T..1 T...2 T3
SE = ST STR SBL
Teniendo en cuenta que
ST = STR + SBL + SE
SMC
65
SC g.l CM CME Estadstico F
SA bn
SA a-1 S "A =
a 1
E ( S "A ) = 2 +
a 1 i
2i S "A
FA =
S "E
F(a-1), (ab-1)(n-1)
Si H0(A) es cierta
S an S"
SB b-1 S "B = B
b 1
E ( S "B ) = 2 +
b 1 j
2j FB = B
S "E
F(b-1), (ab-1)(n-1)
Si H0(B) es cierta
S AB n S"
( a 1)( b 1)
S "AB = E ( S "AB ) = 2 + I 2
S "AB = AB
SAB
(a-1)(b-1) ( a 1) (b 1) i j
ij
S "E
F(a-1)(b-1), (ab-1)(n-1)
Si H0(AB) es cierta
S ab S "BL
SBL
S "BL = BL
n 1
E ( S "BL ) = 2 + 2k
n 1 k S "E
n-1
F(n-1), (ab- 1)(n-1)
si H0(BL) es cierta
S "E =
SE S ( S "E ) = 2
SE
(ab-1)(n-1) ( ab 1)( n 1)
Abn-1
ST
Para comparar las cuatro hiptesis se compran los valores empricos de los estadsticos
FA, FB, FAB y FBL con los valores crticos de F( ), cada uno con sus grados de libertad.
Por lo tanto, si es el nivel de significacin, entonces se tiene:
SMC
66
Si no se rechazan H0(A), H0 (B), H0 (AB) y H0(BL), entonces no se rechaza H 0 : ijk =
Ejercicio 12
Supongamos que deseamos contrastar si la venta de refrescos es homogneo como
variable dependiente de dos factores (A: el sabor; B: el tipo de punto de venta).
Recogemos la informacin en dos meses que pueden influir en la heterogeneidad de las
ventas. Los datos observados de las ventas en millones de pesos son los siguientes:
C1 C2
A 1B 1 8 10
A 1B 2 4 6
A 1B 3 5 10
A 2B 1 8 7
A 2B 2 6 8
A 2B 3 5 9
A 3B 1 7 8
A 3B 2 7 9
A 3B 3 6 8
Siendo:
A1: sabor cola
A2: sabor naranja
A3: sabor limn
B1: cafeteras;
B2: bares;
B3: supermercados
C1: mes de junio
C2: mes de julio
B1 B2 B3
A1 (8) (4) (5)
[10] [6] [10]
A2 (8) (6) (5)
[7] [8] [9]
A3 (7) (7) (6)
[8] [9] [8]
Donde:
( ) Son datos del bloque C1 (mes de junio)
Los totales de las casillas Tij, para cada (Ai, Bj), los totales de las filas Ti.. y los totales
de las columnas T.j. figuran en la siguiente tabla:
B1 B2 B3 Ti.. T2i..
A1 18 10 15 43 1.849
A2 15 14 14 43 1.849
A3 15 16 14 45 2.025
T.j. 48 40 43 T=131 T 2i.. = 5.723
T2.j. 2.304 1.600 1.849 T 2
. j. = 5.753
T 2... 17.161
T ... = 131 = 17.161 C =
2 2
= = 953,3889
abn 3 3 2
ijk
SMC
68
STR =
1
n ij
( T 2ij . ) C = (182 + 102 + " + 162 + 142 ) 953,3889 = 18,1111
1
2
SA =
1
nb i
( T 2i.. ) C = 5.723 953,3889 = 0, 4444
1
6
SB =
1
na j
( T 2. j . ) C = 5.753 953,3889 = 5, 4444
1
6
S BL =
1
ab k
( T 2.k ) C = (T 2..1 + T 2..2 ) C = ( 562 + 752 ) 953,3889 = 20, 0555
1
ab
1
9
SMC
69
SC g.l CM FObs
A SA = 0,4444 2 SA = 0,2222 S "A
FA = = 0,1553
S "E
F.95,2,18=3,55
B SB = 5,4444 2 SB = 2,7222 S"
FB = B = 1,9028
S "E
F.95,2,18=3,55
AB SAB=12,2223 4 SAB =3,0556 S"
FAB = AB = 2,1359
S "E
F.95,4,8=3,84
BL SBL =20,055 1 SBL=20,0555 S"
FBL = BL = 14, 0189
S "E
F.95,1,8=5,32
Error SE =11,4445 8 SE =1,4306
Total ST = 49,6111 17
Por tanto:
b) No se rechaza H0(B), esto es, que el promedio de refrescos vendidos en los tres
puntos de venta es homogneo
d) Se rechaza H0(BL), es decir, que la ventas promedios de los dos meses son
heterogneas
e) Se rechaza la hiptesis global, lo que indica que las ventas medias de las
combinaciones (sabor, punto de venta, mes) son heterogneas, siendo la
heterogeneidad debida a la influencia del mes en que se realizan las
observaciones.
1. H 0( A) : 2 = 0 frente a H1( A) : 2 0
2. H 0( B ) : 2 = 0 frente a H 0( B ) : 2 0
3. H 0( AB ) : 2 = 0 frente a H 0( AB ) : 2 0
4. H 0( BL ) : 2C = 0 frentae a H 0( BL ) : 2C 0
S "B =
SB E ( S "B ) = 2 + n 2 + na 2 S "B
SB b-1 FB = =
b 1 S "AB
F( b 1),( a 1)(b 1)
S "AB =
S AB E ( S "AB ) = 2 + n 2 S "AB
SAB (a-1)(b-1) FAB = =
( a 1)( b 1) S "E
F( a 1)( b 1),( ab 1)( b 1)
S "BL =
S BL E ( S "BL ) = 2 + n 2 + ab 2C S "BL
SBL (n-1) FBL = =
n 1 S "AB
F( n 1),( a 1)( b 1)
S "E =
S "E E ( S "E ) = 2
SE (ab-1)(n-1)
( ab 1)( n 1)
SMC
71
Los contrastes son:
H 0 : 2 = 0 H 0 : 2 = 0 H 0 : 2 = 0 H 0 : 2C = 0
Frente a:
H1 : 2 0 H1 : 2 0 H1 : 2 0 H1 : 2C 0
SMC
72
1
2*
= (S " A S " AB )
nb
2*
=
1
na
(S "
B S " AB )
1
2*
= (S " AB S "E )
n
1
2*
C = (S "BL S " AB )
ab
2*
% de influencia del factor A = 100
2*T
2*
% de influencia del factor B = 100
2*T
2*
% de influencia de la interaccin AB = 100
2*T
SMC
73
2*C
% de influencia del bloque C = 100
2*T
S "E
% de influencia del error aleatorio E = 100
2*T
Ejercicio 13:
Supongamos que queremos contrastar si el promedio de pantalones confeccionados,
por jornada de trabajo, es homogneo dependiendo de la mquina que realiza la
confeccin y del tejido empleado. Para realizar la experimentacin se responsabilizan
del proceso operarios distintos de los que sospecha que tambin pueden influir en la
heterogeneidad de la produccin. Se toman tres mquinas de un poblacin, tres tipos
de tejido de una poblacin y dos operarios de una poblacin.
Tenemos el siguiente conjunto de datos
C1 C2
A 1B 1 8 10
A 1B 2 6 6
A 1B 3 5 10
A 2B 1 5 7
A 2B 2 4 6
A 2B 3 3 5
A 3B 1 10 15
A 3B 2 9 12
A 3B 3 8 14
SMC
74
Al reordenar los datos de la tabla anterior en una tabla de doble entrada para (Ai, Bj) y
los datos de los bloques, as:
B1 B2 B3
A1 (8) (6) (5)
[10] [6] [10]
A2 (5) (4) (3)
[7] [6] [5]
A3 (10) (9) (8)
[15] [8] [14]
B1 B2 B3 Ti.. T2i..
A1 18 12 15 45 2.025
A2 12 10 8 30 900
A3 25 17 22 64 4.096
T.j. 55 39 45 T=139 T 2i.. = 7.021
T2.j. 3.025 1.521 2.025 T 2
. j. = 6.571
T 2... 19.321
T 2... = 193.211 C = = = 1.073,3889
abn 3 3 2
x 2
ijk = ( 82 + 102 + " + 82 + 142 ) = 1331, a = 3, b = 3, n = 2
SMC
75
ST = x 2
ijk C = 1.331 1037,3889 = 257, 611
ijk
1 1
SA =
nb i
T 2i.. C = 7.021 1073,3889 = 96, 7778
6
1 1
SB =
na j
T 2. j . C = 6.571 1.073,3889 = 21, 7778
6
T..1 = 8 + 6 + 5 + 5 + 4 + 3 + 10 + 9 + 8 = 58
T..2 = 10 + 6 + 10 + 7 + 6 + 5 + 15 + 12 + 14 = 85
SMC
76
SC g.l CM FObs
SA = 96,7778 2 SA=48,3889 S "A
FA = = 25, 6175
S "AB
F0.99,2,4=18,00
SB = 21,7778 2 SB=10,8889 S "B
FB = = 5, 7647
S "AB
F0.99,2,4=18,00
SAB = 7,5555 4 SAB=1,8889 S"
FAB = AB = 0,5333
S "E
F0.99,4,8=7,01
SBL = 103,1667 1 SBL=103,1667 S"
FBL = BL = 54.6173
S "AB
F0.99,1,8=11,3
SE = 28,3333 8 SE=3,5417
ST =257,1111 17
Por lo tanto:
a) Se rechaza H0(A), esto es, las diferencias entre los valores medios del nmero de
pantalones producidos por las distintas mquinas son significativas. Las
mquinas influyen en la produccin
d) Se rechaza H0 (BL), esto es, que los operarios influyen en el nmero medio de
pantalones producidos en cada jornada.
SMC
77
1 1
2* = ( S "A S "AB ) = ( 48,3889 1,8889 ) = 7, 75
nb 23
1 1
2* = ( S "B S "AB ) = (10,8889 1,8889 ) = 1,5
na 23
1 1
2*C = ( S "BL S "AB ) = (103,1667 1,8889 ) = 11, 2539
ab 9
Por lo tanto:
2*
% de influencia del factor A = 100 = 32, 23%
2*T
2*C
% de influencia del bloque C = 2* 100 = 46,80%
T
S "E
% de influencia del error aleatorio E = 100 = 14, 73%
2*T
Por lo que son los operarios los que en mayor medida influyen en la heterogeneidad, en
segundo lugar las mquinas, en tercer lugar la aleatoriedad muestral, es decir, que sean
esas las observaciones y no otras las tomadas, y por ltimo los tejidos.
SMC
78
SMC