Академический Документы
Профессиональный Документы
Культура Документы
ANALISIS DE LA VARIANZA
1.0 Introducción
El análisis de la varianza se utiliza para probar las diferencias entre diversas medias. Se
supone que las diversas medias muestrales se obtienen a partir de poblaciones con
distribución normal y con la misma varianza.
Como la hipótesis nula consiste en que las medias poblacionales son iguales, la
suposición de igualdad de varianzas (homogeneidad de la varianza), también implica
que, para propósitos prácticos, la prueba se ocupa de la hipótesis de que las medias
provienen de la misma población
Las hipótesis son:
H 0 : µ 1 = µ 2 = µ 3 = ... = µ k
H 1 : µ , µ 2 , µ 3 ,..., µ k No son todas iguales
Ejemplo 0:
El uso de analgésicos en el bienestar de unos enfermos. Si hay un solo factor lo
representamos por A.
- Tratamiento o niveles del factor son cada uno de los valores posibles del factor A, y
los representamos por A i para i = 1,…, k.
Las variables poblacionales están asociadas a los conjuntos (grupos) de valores que se
obtienen aplicando los tratamientos A i. Por ello podemos hablar de variables de
tratamiento o grupos de tratamiento. Nótese que la media del tratamiento A i es µ ι
ε ij = xij − µ i ∀ij ,
Siendo xij el elemento muestral j-ésimo del la población i-ésima
Por ello descomponemos la varianza total de los xij en una suma de diferencias al
cuadrado en dos términos
- los tratamientos o niveles del factor son las distintas marcas de analgésicos
- y las variables los valores que sobre la variable dependiente, o variable respuesta, se
obtienen aplicando los tratamientos.
En la tabla siguiente recogemos todas las variables dependientes con cada tratamiento.
ε
En caso de tener una variable dependiente 1 , las variables ε11 ,..., ε1l ,..., ε kl que
corresponden a las respuestas de la variable dependiente con cada uno de los
tratamientos equivalen a las ε1 ,..., ε k . Estas variables son independientes entre sí
puesto que los tratamientos lo son. Con esta notación, una observación muestral sería:
Siempre hay que tener en cuenta los supuestos de partida que han de cumplirse para
aplicar correctamente el ANOVA. Estos supuestos son:
4
1) Normalidad de las poblaciones, que probaremos con el test de Kolmogorov –
Smirnov u otra prueba. Sin embargo, la falta de normalidad de las observaciones,
si las poblaciones son normales las observaciones también lo son, no tiene
consecuencia graves en el contraste de la F si el tamaño de la muestra es
suficiente grande (teorema del limite central). En este sentido podemos decir que
el ANOVA es una técnica robusta frente a las desviaciones de la normalidad.
Uno de los casos más comunes de heterocedasticidad es cuando la varianza crece con
la media. En estos casos las transformaciones más utilizadas para estabilizar las
varianzas son el logaritmo y la función inversa. Posteriormente, se repetirá el análisis
con los datos transformados y las conclusiones del análisis se referirían a los nuevos
datos
Con este supuesto ocurre como con el de normalidad, que si no se cumple no tiene
consecuencias graves, pues al aplicar el test de la F el que es robusto frente a la
heterogeneidad.
Por tanto, conviene utilizar muestras del mismo tamaño (o aproximadamente iguales),
sobre todo cuando hay diferencias grandes entre las varianzas.
5
2.0 Razonamiento conceptual
1) Se debe calcular la media para cada grupo muestral, y después determinar el error
estándar de la media S x con base sólo en las diversas medias muestrales
2) Se sabe que:
S
Sx = ⇒ S 2 = n·S x
2
n
Esto es, el error estándar de la media. Puede utilizarse para estimar la varianza de la
población.
3) Calcular la varianza de cada grupo muestral por separado con respecto a la media
de cada uno.
Sin embargo, si la hipótesis nula es falsa, entonces el valor esperado del cuadrado
medio entre tratamientos CMET es mayor que el cuadrado medio del error CME
5) Se puede utilizar la distribución F para probar la diferencia entre las dos varianzas.
Se trata de una prueba de un solo extremo, y la forma general de la prueba F en
análisis de varianza es
CMET
Fgl1, gl 2 =
CME
Métodos de Calificaciones de
instrucción las pruebas
A1 86 79 81 70 84
A2 90 76 88 82 89
A3 82 68 73 71 81
Solución:
H 0 : µ1 = µ 2 = µ 3
H 1 : µ1 , µ 2 , µ 3 No todas iguales
A1 86 79 81 70 84 400 80
A2 90 76 88 82 89 425 85
A3 82 68 73 71 81 375 75
∑ = 1200
7
1) La media global de las 15 calificaciones es:
86 + 79 + ... + 71 + 81 1200
XT = = = 80
15 15
El error estándar de las medias, con base en las tres medias es:
∑( )
2
X −XT (80 − 80 ) + ( 85 − 80 ) + ( 75 − 80 )
2 2 2
SX = = = 5, 0
n −1 3 −1
∑ (x − x )
2
Como S
2
=
n −1
(90 − 85) 2 + (76 − 85) 2 + (88 − 85) 2 + (85 − 85) 2 + (89 − 85) 2
S2 = 2
= 35, 0
5 −1
(82 − 75) 2 + (68 − 75) 2 + (73 − 75) 2 + (71 − 75) 2 + (81 − 75) 2
S3 = 2
= 38,5
5 −1
CME = 1 = = 37,3
n1 + n 2 + n 3 − 3 5+5+5−3
4) Como CMET > CME (125 > 37,3) resulta apropiada la prueba de H0
Fp, k −1, k ·n − k
Donde:
Por lo tanto:
CMET 125
5) FObs. = ⇒F = = 3,35
CME 37,3
9
Por lo tanto, como F observado no es mayor que el valor crítico no es posible rechazar
H0, es decir, no se puede rechazar que las calificaciones promedio para los tres
métodos de instrucción de la población son iguales entre sí
X ik = µ + α k + ε ik
Donde:
Donde:
10
k
⎛T ⎞ T
2 2
SCA = ∑ ⎜ k ⎟ −
k =1 ⎝ nk ⎠ N
⎛ n k 2⎞ T2
SCT = ⎜ ∑∑ x ⎟ −
⎝ i =1 k =1 ⎠ N
SCA
CMA =
k −1
SCE
CME =
N −1
CMA
F=
CME
k : Nº de grupos de tratamiento
x : valor de la variable
11
Planteamiento de hipótesis nula y alternativa
H0 : µ1 = µ2 = µ3 = ... = µk
Cuando se rechaza la hipótesis nula significa que ∃ µ r ≠ µ s ; esto es, al meno existe
una pareja de medias que son distintas. Lo que rechazamos es la igualdad simultánea
de medias
µ1 =,..., = µ k
Para averiguar que parejas de medias son distintas hacemos contrastes dos a dos con
la "t" de Student.
Solución:
A1 86 79 81 70 84 T1 = 400 80
A2 90 76 88 82 89 T2 = 425 85
A3 82 68 73 71 81 T3 = 375 75
n1 = 5 n2 = 5 n3 = 5 N = 15
T1 = 400 T2 = 425 T3 = 375 T = 400 + 425 + 375 = 1200
T12 = 160000 T22 = 180625 T32 = 140625 T2 = 1440000
12
2 2
3
T T ⎛ 160000 180625 140625 ⎞ 1440000
SCA = ∑n
k =1
k
−
N
⇒ SCA = ⎜
⎝ 5
+
5
+
5 ⎟−
⎠ 15
= 250
k
5 3
∑∑ x
i =1 k =1
2
= 86 2 + 79 2 + ... + 712 + 812 = 96698
⎛ 5 3 2⎞ T2 1440000
SCT = ⎜ ∑∑ x ⎟ − = 96698 − = 698
⎝ i =1 k =1 ⎠ N 15
Por lo tanto, las diferencias entre las medias no son significativas al 5% de significancia,
es decir, no se rechaza la hipótesis nula
Ejemplo 3: En la tabla se reportan los puntajes obtenidos en tres test, las personas
fueron asignadas aleatoriamente.
Probar:
13
H0: de que el promedio de los puntajes no es distinto, utilizando el 5% como nivel de
significancia
H0 : µ1 = µ2 = µ3 = ... = µk
De otra forma
n1 = 5 n2 = 3 n3 = 4 N = 12
T1 = 352 T2 = 231 T3 = 280 T = 863
T12 = 123904 T22 = 53361 T32 = 78400 T2 = 744769
5 3
∑∑ x
i =1 k =1
2
= 79 2 + 83 2 + ... + 79 2 + 55 2 = 63441
⎛ 5 3 ⎞ T2 744769
SCT = ⎜ ∑∑ x 2 ⎟ − ⇒ SCT = 63441 − = 1376.9
⎝ i =1 k =1 ⎠ N 12
La tabla de la Anova es
Fuente Grados de Suma de Cuadrado Coeficiente
variación Libertad Cuadrados (SC) Medio (CM) F
Entre grupos (A) k=3 SCA = 103.7 103.7
Procesadores k –1 = 3 – 1 = 2 CMA = = 51.2
2
CMA 51.8
Error de K = 3 y N = 12 1273.2 F= = = 0.37
Muestreo (E) N-k = 12 -3 = 9
SCE = 1273.2 CME= = 141.5 CME 141.5
9
Total N = 12 SCT = 1376.2
N-1 = 12-1=11
Como:
2.1.2 Relación del diseño completamente aleatorio de un factor con la prueba “t”
para probar la diferencia entre las medias de dos muestras independientes
Se debe suponer que las dos muestras se obtienen de la misma población con
distribución normal, y que se desconoce la varianza σ 2 poblacional
H0 : µ1 − µ2 = 0 ó H0 : µ1 = µ2
H1 : µ1 − µ2 ≠ 0 ó H1 : µ1 ≠ µ2
15
x1 = 70, 4; x 2 = 77
n1 = 5; n2 = 3
v = n1 + n2 –2 => v = 5 + 3 –2 = 6
t α = 0, 05, 6 = ±2,447
∑(x − x )
2
( 79 − 70, 4 ) + (83 − 70, 4 ) + ( 62 − 70, 4 ) + ( 51 − 70, 4 ) + ( 77 − 70, 4 )
2 2 2 2 2
1
S 2
= = = 180,8
n1 − 1 5 −1
1
∑(x − x )
2
( 74 − 77 ) + (85 − 77 ) + ( 72 − 77 )
2 2 2
2
S 2
= = = 49
n2 − 1 3 −1
2
σˆ 2 =
( n1 − 1) S 21 + ( n2 − 1) S 2 2 =
4·180,8 + 2·49
= 136,8667
n1 + n2 − 2 5+3− 2
σˆ 2 σˆ 2 136,8667 136,8667
σˆ x − x = + = + = 8,54
1 2
n1 n2 5 3
x1 − x 2 70, 4 − 77
t= = = −0, 77
σˆ x1 − x2 8,54
3.1.3 Modelo II: Anova con un factor, completamente aleatorio y efectos aleatorios
Las medias de las poblaciones con las que vamos hacer la experimentación son
µ1 ,..., µ k por tanto:
16
H 0 : µ1 = ... = µk
Ahora bien, como las poblaciones se han elegido de un colectivo mayor de manera
aleatoria, las medias µ i son aleatorias y, por lo tanto, los efectos
α i = µi − µ
E ( µi ) = µ , E (α i ) = E ( µi − µ ) = E ( µi ) − µ = µ − µ = 0
V ( µi ) = E ( µi − µ ) = E (α 2i ) = E (α i − E (α i ) ) = V (α i ) = σ 2α
2 2
xij = µ + α i + ε ij
Sí µi = µ ∀ i ⇒ V ( µi ) = σ 2α = 0
Por tanto, en este caso de efectos variables, las hipótesis a contrastar sería:
17
H 0 : σ 2α = 0 frente a H 1 : σ 2α ≠ 0
La igualdad del análisis de varianza es la misma que para el modelo I, por tanto, los
cálculos abreviados son iguales
∑x
j =1
ij
x=
n
S A = n∑ x − knx
2 2
ó
i
SA = n∑ x − N x ;
2 2
con N = k ⋅ n
i
S E = ∑∑ x 2ij − n∑ x
2
ST = ∑ xij 2 − N x
2
S A = ∑ ni x i⋅ − N x ; con N = ∑ ni
2 2
k n
S E = ∑∑ xij 2 − ∑ ni x i⋅
i= j =1
ST = S A + S E
Teniendo en cuenta que
Suma de cuadrados
Cuadrados medios =
Grados de libertad
y que
g.l (SA) = k – 1
g.l (SE) = N – k
g.l (ST) = N – 1
SA
S "A =
k −1
SE
S "E =
N −k
ST
S "T =
N −1
E ( S " A ) = σ 2 + nσ 2α
E ( S "E ) = σ 2
k
N − ∑ ni 2
2
E ( S "A ) = σ 2 + 1
σ 2α
N ( k − 1)
SA"
Si "
> Fα ⇒ se rechaza H0 : σ α2 = 0 ⇒ σ α2 ≠ 0
SE
S"A
Si "
≤ Fα ⇒ H0 : σ α2
SE
20
Si se rechaza H0, entonces, σ 2
α ≠ 0 , lo que significa que las medias µ i son
heterogéneas.
En este caso no tiene sentido hacer contrastes dos a dos para detectar cuales son las
parejas de medias distintas, porque estos contrastes sólo valdrían para las poblaciones
observadas, pero como no son fijas, nos interesa medir la dispersión que presentan las
medias en su totalidad.
Ahora bien, como σ 2α es un valor poblacional que hay que estimarlo. Un estimador
insesgado de σ 2α
σ 2*α = (
1 "
n
S A − S "E )
N ( k − 1)
σ 2*α = k (S "
A − S "E )
N 2 − ∑ n 2i
1
En este caso
S "E
% de influencia del error muestral "E" en la variación total = 100
σ 2*T
Ejemplo 5:
Supongamos que queremos contrastar si el número promedio de artículos vendidos
diariamente de un producto es homogéneo dependiendo del supermercado en que se
vende. Para ello elegimos al azar cuatro supermercados entre un colectivo de
supermercados. A continuación, observamos el número de artículos vendidos en esos
supermercados en cinco días, elegidos aleatoriamente, obteniendo los siguientes
resultados:
Solución:
∑x ∑x
2
i. = 25 i. = 165
Por lo tanto:
22
x=
∑x i .1
⇒x=
25
= 6,25
4 4
x=
∑∑ x ij
⇒x=
125
= 6,25
20 20
2
x = 39,0625
SA = n ∑ x
2 2
i .1 − N x = 825 − 781,25 = 43,75
SE = ∑∑ x 2 − n ∑ x
2
i. = 885 − 825 = 60
ij
Siendo N = n ⋅ k = 20
k = 4 y n =5
⎛ 43,75 ⎞
" ⎜ 3 ⎟
=⎝ ⎠ = 3,8889
SA
FObs =
S "E ⎛ 60 ⎞
⎜ 16 ⎟
⎝ ⎠
Por lo tanto:
σ 2*α =
n
(
1 "
S A − S "E ) = (14,5833 − 3, 75 ) = 2,1667
1
5
σ 2*α 2,1667
100 = = 36, 62%
σ T
2*
5,9167
S "E 3, 75
2*
100 = 100 = 63,38%
S T 5,9167
Por tanto, en la heterogeneidad total influye sobre todo el error aleatorio en un 63,38%,
es decir la aleatoriedad muestral, esto es, los días elegidos para tomar las
observaciones y no tanto el supermercado de venta (en un 36,62%).
24
3.2 Análisis de la varianza con un factor e información aleatoria en Bloques:
Modelos III (con efectos fijos) y IV (con efectos aleatorio)
3.2.1 Modelo III: Anova con un factor, aleatorio en bloques y efectos fijos
En el modelo III se supondrá la existencia de un segundo factor implícito, que no se
plantea como factor principal, pero que puede influir en la heterogeneidad de las
poblaciones.
Ejemplo 6:
Queremos contrastar si el consumo medio de combustible de tres modelos de vehículos
A1, A2 y A3 es homogéneo. Para ello se realizan pruebas con cuatro conductores B1, B2,
B3 y B4 de los que sospechamos que pueden influir en la heterogeneidad de los
consumos. El objeto del estudio es el factor A, pero se debe tener encuenta el bloque B,
para eliminar la influencia que sobre las conclusiones de la homogeneidad de los
factores A pudiera tener.
En el siguiente cuadro figuran los consumos de litros de gasolina por cada cien
kilómetros
Vehículos Conductores
B1 B2 B3 B4
xi.
A1 7,0 7,0 7,5 10,5 8,0
A2 6,0 6,5 7,0 6,5
A3 6,5 7,0 7,5 7,0
Para evitarlo, el conductor B4 debería realizar pruebas con A2 y A3. Es decir, la tabla de
datos con factor de bloqueo sería de la forma:
B1 B2 B3 B4
A1 x x x x
A2 x x x x
A3 x x x x
Vehículo Conductores
s B1 B2 B3 B4 µi.
A1 µ11 µ12 µ13 µ14 µ1.
A2 µ21 µ22 µ23 µ24 µ2.
A3 µ31 µ32 µ33 µ34 µ3.
µ.j µ.1 µ.2 µ.3 µ.4 µ
Siendo:
1 b
µi . = ∑ µij ; media de la fila i
b j =1
1 a
µ. j = ∑ µij ; media de la columna j
a i =1
1 a b
µ= ∑∑ µij media global
ab i =1 j =1
∑µ i⋅
µ= i =1
media global
a
∑µ j =1
⋅j
µ= media global
b
Si no rechazamos H0(A) quiere decir que no hay diferencias significativas entre los
tratamientos Ai. Si no rechazamos H0(B) quiere decir que no hay diferencias
significativas entre los bloques Bj.
H 0 : µ ij = µ ∀ij contra H1 : ∃µ rs ≠ µ rs
Por lo tanto:
xij = µ + α i + β j + ε ij
S A = b∑ x
2 2
i. − ab x
SB = a∑ x
2 2
.j − ab x
∑∑ x 2 ij − b ∑ x − a∑ x
2 2 2
SE = i. .j + ab x
27
Siendo:
N (número total de datos) = a·b
a = número de filas y
b = número de columnas
ST = S A + S B + S E
ST = ∑∑ x 2ij − abx
2
Donde:
αli = µ
m −µ
i.
l = xi. − x
βmj = µ
l −µ
.j
l = x. j − x
ε ij = xij − µ
l = x − x i . − x. j + x
ij ij
28
La tabla del análisis de la varianza para los modelos III y IV es:
Si
i)
S "A
FA = " 〉 F (α ) se rechaza H 0(A)
SE
S "A
FA = " ≤ F (α ) no se rechaza H 0(A)
SE
iii) Siendo
S "B
FB = " ≤ F (α ) no se rechaza H 0(B)
SE
Ejercicio 7:
Supongamos que queremos contrastar si los consumos medios de combustible de
cuatro modelos de automóviles son homogéneos. Para ello realizamos pruebas con tres
conductores que podrían influir en la heterogeneidad de los consumos por cada 100
kilómetros, por lo que se recoge la información en bloques
Automóviles Conductores
B1 B2 B3
A1 8 6 7
A2 7 5 6
A3 6 6 5
A4 8 5,5 6
52,5625 31,6406 36
∑x
2 2
x .j
.j
=120,2031
30
Siendo:
∑x
j =1
ij
∑x ij
x. j = i =1
, media de la columna
a
1 1 1
x=
a
∑ x i . = ∑ x. j =
b ab
∑∑ xij = 6.2917, media global
2
x = 39,5855
a (nº de filas) = 4
b (nº de columnas) = 3
Suma de cuadrados
SB = a∑ x
2 2
.j − abx = 480,8124 − 475, 026 = 5, 7864
2
S E = ∑∑ x 2ij − b∑ x i. − a ∑ x
2 2
.j + abx = 486, 25 − 478, 0845 − 480,8124 + 475, 026 = 2,3791
31
Por lo tanto:
b) Rechazamos que los consumos medios con los distintos conductores sean
homogéneos.
Esto indica que era necesario repartir la información por bloques para evitar la influencia
de los conductores en la valoración de la homogeneidad de los consumos de los
automóviles
Para detectar que conductores tienen conducción heterogénea, deberíamos realizar
contrastes dos a dos utilizando la distribución “t”
3.2.2 Modelo IV: Anova con un factor, aleatorio en bloques y efectos aleatorios
xij = µ + α i + β j + ε ij
H 0( A) : σ 2α = 0 contra H1( A) : σ 2α ≠ 0
S "A
F( A) = " = F( a −1),( a −1)(b −1) , si H 0( A) es cierta
SE
S "A
i ) Si " 〉 F (α ) ⇒ se rechaza H 0( A) : σ 2α = 0
SE
S "A
ii ) Si " ≤ F (α ) ⇒ no se rechaza H 0( A) : σ 2α = 0
SE
H 0( B ) : σ 2 β = 0 contra H1( B ) : σ 2 β ≠ 0
S "B
i ) Si FB = " 〉 F (α ) ⇒ se rechaza H 0( B ) : σ 2 β = 0 ⇒ las medias µ. j son heterogeneas
SE
S "B
ii ) Si FB = " ≤ F (α ) ⇒ no se rechaza H 0( B ) : σ 2 β = 0 ⇒ consideramos las medias µ.j homogéneas
SE
( a − 1)( b − 1)
Total ST
H 0 : σ 2α = 0 contra H1 : σ 2α ≠ 0
H0 : σ 2β = 0 contra H1 : σ 2 β ≠ 0
Por lo tanto:
σ 2*α = (
1 "
b
S A − S "E )
σ 2*β = (
1 "
a
S B − S "E )
σ 2*α
i) % de influencia del factor A en la variación total = 100
σ 2*T
σ 2* β
ii) % de influencia del factor B en la variación total = 100
σ 2*T
S "E
iii) % de influencia del error aleatorio E en la variación total = 100
σ 2*T
35
Ejemplo 8:
Se quiere contrastar si el consumo medio de combustible de los vehículos de un
determinado segmento es homogéneo. Para ello se eligen cuatro vehículos al azar y se
realizan pruebas experimentales con tres conductores distintos, elegidos también al
azar de un colectivo mayor de conductores.
Vehículos Conductores
B1 B2 B3
A1 8 7 6
A2 7 6 5
A3 5 6 4
A4 6 7 5
Solución:
La experimentación del modelo IV (con efectos aleatorios) es igual que el modelo III
(con efectos fijos), lo que cambia es que las conclusiones se proyectan a las
poblaciones de automóviles y conductores
Como
36
S A = b∑ x i. − abx ⇒ S A = 3 ⋅146 − 3 ⋅ 4 ⋅ 6 = 6
2 2 2
SB = a∑ x
2 2
.j − abx ⇒ S B = 4 ⋅109,5 − 3 ⋅ 4 ⋅ 62 = 6
Por lo tanto:
σ 2*α
i) % de influencia del factor A en la variación total = 100 = 35, 7%
σ 2*T
σ 2*β
ii) % de influencia del factor B en la variación total = 100 = 42,8%
σ 2*T
S "E
iii) % de influencia del error aleatorio E en la variación total = 100 = 21,5%
σ 2*T
Se concluye que con estos datos lo que más influye en la heterogeneidad de los
consumos es, en primer lugar, la conducción realizada, en segundo lugar, el modelo de
automóviles de ese segmento, y, finalmente, la aleatoriedad, es decir el que sean esos
elementos muestrales y no otros los elegidos.
Para probar la interacción, debe incluirse en cada una de las celdas de una tabla de
datos de dos sentidos más de una observación o medición muestreada (Replicas)
Cuando se utiliza este tipo de diseño, pueden probarse, con análisis de varianza, tres
hipótesis nulas distintas:
1) Que no existen efectos por columna, es decir, los promedios por columna no
difieren en forma significativa.
2) Que no existen efectos por reglón, es decir, las medias por reglón no difieren
en forma significativa
3) Que no existe interacción entre los factores, es decir, los dos factores son
independientes
El modelo lineal para el análisis de varianza con dos criterios de clasificación, con
replicas, es:
X ijk = µ + β j + α k + τ jk + ε ijk
B1 B2 B3
Xijk procede de la población (Ai, Bj) que es N (µ ij , σ ) , por lo tanto, el error aleatorio es:
ε ijk = xijk − µ ij .
I ij = µ ij − ( µ + α i + β j )
Siendo:
SB = a∑ x
2 2
.j − abx = 480,8124 − 475, 026 = 5, 7864
2
S E = ∑∑ x 2ij − b∑ x i. − a ∑ x
2 2
.j + abx = 486, 25 − 478, 0845 − 480,8124 + 475, 026 = 2,3791
Para realizar este contraste necesitamos formular el estadístico que define la región
crítica, es decir la descomposición es la siguiente:
B1 B2 B3 x i..
A1
x 11. x 12. x 13. x 1..
A2
x 21. x 22. x 23. x 2..
( )
+∑∑∑ x ij . − x i.. − x. j . + x + ∑∑∑ xijk − x ij .( )
2 2
ST = S A + S B + S AB + S E ó
ST = STR + S E
Siendo
STR = SA + SB + SAB
Suma de cuadrados debida a todos los tratamientos.
S T = ∑
ijk
x 2
ijk − C
1
S TR =
n
∑ij
T 2
ij . − C
S E = S T − S TR
1
S A =
nb
∑ i
T 2
i .. − C
1
S B =
na
∑ j
T 2
. j. − C
S AB = S TR − S A − S B
Siendo:
B1 B2 B3 Ti..
A a-1 SA S”A
E ( S "A ) = σ 2 +
nb S "A
∑ α 2i
a −1 i
FA =
S "E
= F( a −1),ab( n −1)
Si H0(A) es cierta
Si H0(B) es cierta
Si H0(AB) es cierta
Total abn-1 ST
S "B
2. Sí 〉 F(b −1),ab( n −1) (α ) se rechaza H 0(B)
S "E
S"AB
3. Sí 〉 F( a −1)( b −1),ab( n −1) (α ) se rechaza H 0(AB)
S"E
Los contrastes posteriores para el caso en que se rechace H0 son similares a los de los
modelos anteriores
Ejercicio 10:
B1 B2 B3
5 6 6
A1 6 6 7
6 7 7
7 8 6
A2 6 7 7
6 6 6
7 6 7
A3 5 7 8
6 7 5
La tabla siguiente contiene los datos que se necesitan para calcular las sumas de
cuadrados
Tij. Ti..
17 19 20 56
19 21 19 59
18 20 20 58
T.j. 54 60 59 T… = 173
T 2... 1732
C= ⇒C = = 1.108, 4815
abn 27
1 1
SA = ∑
nb i
T 2i.. − C ⇒ S A = 9.981 − 1.108, 4815 = 0,5185
9
1 1
SB = ∑
na j
T 2. j . − C ⇒ S B = 9.997 − 1.108, 4815 = 2, 2963
9
E SE =1,6667 18 S”E=0,7037
Total ST=16,5185
Por tanto:
47
a) El promedio de horas de sueño es homogéneo con los distintos tratamientos
de analgésicos
Este modelo es similar, en cuanto a los términos de las sumas de cuadrados, al modelo
V, y a los modelos II y IV de efectos aleatorios, en cuanto al tratamiento.
1. H 0( A) : σ 2α = 0 contra H1( A) : σ 2α ≠ 0
2. H 0( B ) : σ 2 β = 0 contra H1( B ) : σ 2 B ≠ 0
H 0 : σ α 2 = 0 ∨ σ 2 β = 0 ∨ σ 2αβ = 0
H1 : σ 2α ≠ 0 ∨ σ 2 β ≠ 0 ∨ σ 2αβ ≠ 0
48
El cuadro de la anova sería:
F(a-1),(a-1)(b-1)
F(b-1),(a-1)(b-1)
F(a-1)(b-1),ab(b-1)
E SE ab(n-1) SE E ( S "E ) = σ 2
S "E =
ab ( n − 1)
S "A
Sí FA = 〉 F( a −1),( a −1)( b −1) (α ) ⇒ se rechaza H 0( A)
S "E
S "B
Sí FB = 〉 F(b −1),( a −1)( b −1) (α ) ⇒ se rechaza H 0( B )
S "E
3) Para contrastar H 0(AB)
S "AB
Sí FAB = 〉 F( a −1)( b −1),ab( n −1) (α ) ⇒ se rechaza H 0( AB )
S "E
1
σ 2*β = ( S "B − S "AB )
na
1
σ 2*αβ = ( S "AB − S "E )
n
Y como
Los porcentajes de influencia de cada factor en la variación total, estimada por σ 2*T ,
serían:
σ 2*α
% de influencia del factor A en la heterogeneidad total = 100
σ 2*T
σ 2*β
% de influencia del factor B en la heterogeneidad total = 100
σ 2*T
σ 2*αβ
% de influencia de la interacción AB en la heterogeneidad total = 100
σ 2*T
S "E
% de influencia del error aleatorio E en la heterogeneidad total = 100
σ 2*
T
50
Ejercicio 11
B1 B2 B3
A1 8 6 6
7 7 7
7 7 7
A2 8 8 6
9 7 7
10 6 6
A3 7 6 7
5 7 8
6 7 5
La tabla de los totales muestrales (Tij.), totales por fila (Ti..), totales por columnas
(T.j.) y sus correspondientes cuadrados es:
51
A2 27 21 19 67 4.489
A3 18 20 20 58 3.364
T.j. 67 61 59 T…=187 ∑T 2
i .. = 11.697
2
El cuadro de los T ij. Es:
T2ij.
484 400 400
∑T 2
ij . = 3.939
∑x ijk
2
ijk = 1.327
1 1
SA =
nb
∑ T 2i.. − C = 11.697 − 1.295,1481 = 4,5186
9
1 1
SB = ∑
na j
T 2. j . − C = 11.691 − 1.295,1481 = 3,8519
9
1 1
STR = ∑
n ij
T 2ij − C = 3.939 − 1.295,1481 = 17,8519
3
F.95;2,4 = 6,94
F.95;2,4=6,94
F.95;4,18 = 2,93
E SE =14 18 S”E=0,7778
53
Como:
es decir, no se rechaza H 0( A) : σ 2α = 0
es decir, no se rechaza H 0( B ) : σ 2 β = 0
Entonces:
σ 2α , σ 2 β , σ 2αβ , σ 2
Como las varianzas son poblacionales y, por ello, no las podemos calcular vamos a
estimarlas.
1
σ 2*α = ( S "A − S "AB ) 〈 0
nb
1 1
σ 2*αβ = ( S "AB − S "E ) = ( 2,3704 − 0, 7778) = 0,5309, entonces
n 3
σ 2* = S "E = 0, 7778
La heterogeneidad total estimada es:
σ 2*αβ
% de influencia de la interacción AB en la heterogeneidad total = 100 = 40,57%
σ 2*T
S "E
% de influencia del error aleatorio E en la heterogeneidad tota = 100 = 59, 43%
σ 2*T
En este punto se trataran dos modelos similares a los modelos V y VI, pero incluidas un
tercer factor de bloqueo que puede influir en la heterogeneidad, aunque no sea un
factor principal.
55
Modelo VII: Anova con dos factores, información aleatoria en bloques y factores
fijos
C1 C2 C3 µij .
La siguiente tabla (abreviada) contiene todas las medias poblacionales de todas las
combinaciones posibles para i = 1, 2; j = 1, 2, 3 y k = 1, 2, 3
56
C1 C2 C3 xij .
Las variables poblacionales corresponden a cada combinación (Ai, Bj, Ck), y sus
variables representan al número de refrescos vendidos por sabor, zona y mes. Estas
variables son ( )
N ( µ ijk , σ ) . Las observaciones muestrales xijk son N µ ijk , σ , y el
error aleatorio ε ijk = xijk − µijk . Las medias de cada bloque son:
∑∑ µ ijk
µ..k = i j
ab
B1 B2 B3 µi..
A1 µ11. µ12. µ13. µ1..
αl i = µ
l −µ
i ..
l = x i.. − x Para A
i
βl j = µ
l −µ
. j.
l = x. j . − x Para B
j
γ k = µ
l −µ
..k
l = x..k − x Para C
k
(
I ij = xij . − xi.. + x. j . − x )
Las observaciones muestrales se pueden descomponer así:
xijk = µ + α i + β j + I ij + γ k + ε ijk
58
Las hipótesis a contrastar serían:
1. H 0( A) : µi.. = µ ∀i ∨ H 0( A) : α i = 0 ∀i.
2. H 0( B ) : µ. j . = µ ∀j ∨ H 0( B ) : β j = 0 ∀j.
4. H 0( BL ) : µ.k = µ ∀k ∨ H 0( BL ) : γ k = 0 ∀k .
La igualdad fundamental para el análisis de la varianza para los modelos VII y VIII
consiste en descomponer la suma total de cuadrados ST en suma de términos, de tal
manera que, cada uno mide la heterogeneidad debida a los α i , β j , Iij , γ k y ε ijk . Esto es:
( ) ( ) ( )
2
ST = ∑ xi.. − x + ∑ x. j . − x + ∑ xij . − xi.. − x. j . + x +
2 2
( ) (
+∑ x.k − x + ∑ xijk − x ij . − x.k + x )
2 2
ijk ijk
ST = S A + S B + S AB + S BL + S E
Siendo
STR = ∑ xij . − x( )
2
= S A + S B + S AB
ijk
T 2...
C=
abn
ST = ∑ijk
x 2 ijk − C
1
S TR =
n
∑T
ij
2
ij . −C
1
SA =
nb
∑T i
2
i .. −C
1
SB =
na
∑T j
2
. j. −C
S AB = S TR − S A − S B
1
S BL =
ab
∑T k
2
.k −C
Los totales Tij., Ti.. y T.j. ya están definidos en los modelos V y VI, y los totales
T.k = ∑ ( xijk )
ijk
60
Figuran en la tabla siguiente
C1 C2 C3
SE = ST – STR – SBL
Teniendo en cuenta que
ST = STR + SBL + SE
SA bn
SA a-1 S "A =
a −1
E ( S "A ) = σ 2 + ∑
a −1 i
α 2i S "A
FA =
S "E
F(a-1), (ab-1)(n-1)
Si H0(A) es cierta
SB an S"
SB b-1 S "B =
b −1
E ( S "B ) = σ 2 + ∑β2j
b −1 j
FB = B
S "E
F(b-1), (ab-1)(n-1)
Si H0(B) es cierta
S AB n S"
( a − 1)( b − 1) ∑∑
S "AB = E ( S "AB ) = σ 2 + I 2ij S "AB = AB
SAB
(a-1)(b-1) ( a − 1) (b − 1) i j S "E
F(a-1)(b-1), (ab-1)(n-1)
Si H0(AB) es cierta
S BL ab S "BL
SBL S "BL =
n −1
E ( S "BL ) = σ 2 + ∑ γ 2k
n −1 k S "E
n-1
F(n-1), (ab- 1)(n-1)
si H0(BL) es cierta
SE S ( S "E ) = σ 2
S "E =
SE
(ab-1)(n-1) ( ab − 1)( n − 1)
Abn-1
ST
Para comparar las cuatro hipótesis se compran los valores empíricos de los estadísticos
FA, FB, FAB y FBL con los valores críticos de F( α ), cada uno con sus grados de libertad.
Por lo tanto, si es α el nivel de significación, entonces se tiene:
Ejercicio 12
Supongamos que deseamos contrastar si la venta de refrescos es homogéneo como
variable dependiente de dos factores (A: el sabor; B: el tipo de punto de venta).
Recogemos la información en dos meses que pueden influir en la heterogeneidad de las
ventas. Los datos observados de las ventas en millones de pesos son los siguientes:
C1 C2
A1B1 8 10
A1B2 4 6
A1B3 5 10
A2B1 8 7
A2B2 6 8
A2B3 5 9
A3B1 7 8
A3B2 7 9
A3B3 6 8
Siendo:
A1: sabor cola
A2: sabor naranja
A3: sabor limón
B1: cafeterías;
B2: bares;
B3: supermercados
C1: mes de junio
C2: mes de julio
B1 B2 B3
A1 (8) (4) (5)
[10] [6] [10]
A2 (8) (6) (5)
[7] [8] [9]
A3 (7) (7) (6)
[8] [9] [8]
Donde:
( ) Son datos del bloque C1 (mes de junio)
Los totales de las casillas Tij, para cada (Ai, Bj), los totales de las filas Ti.. y los totales
de las columnas T.j. figuran en la siguiente tabla:
B1 B2 B3 Ti.. T2i..
A1 18 10 15 43 1.849
A2 15 14 14 43 1.849
A3 15 16 14 45 2.025
T.j. 48 40 43 T…=131 ∑ T 2i.. = 5.723
T2.j. 2.304 1.600 1.849 ∑T 2
. j. = 5.753
T 2... 17.161
T ... = 131 = 17.161 ⇒ C =
2 2
= = 953,3889
abn 3 ⋅ 3 ⋅ 2
∑x = 1.003; a = 3; b = 3; n = 2
2
ijk
STR =
1
∑
n ij
( T 2ij . ) − C = 1.943 − 953,3889 = 18,1111
1
2
SA =
1
∑
nb i
( T 2i.. ) − C = 5.723 − 953,3889 = 0, 4444
1
6
SB =
1
∑
na j
( T 2. j . ) − C = 5.753 − 953,3889 = 5, 4444
1
6
S BL =
1
∑
ab k
( T 2. k ) − C =
1
ab
( T 2..1 + T 2..2 ) − C = ( 562 + 752 ) − 953,3889 = 20, 0555
1
9
Por tanto:
b) No se rechaza H0(B), esto es, que el promedio de refrescos vendidos en los tres
puntos de venta es homogéneo
d) Se rechaza H0(BL), es decir, que la ventas promedios de los dos meses son
heterogéneas
e) Se rechaza la hipótesis global, lo que indica que las ventas medias de las
combinaciones (sabor, punto de venta, mes) son heterogéneas, siendo la
heterogeneidad debida a la influencia del mes en que se realizan las
observaciones.
1. H 0( A) : σ 2α = 0 frente a H1( A) : σ 2α ≠ 0
2. H 0( B ) : σ 2 β = 0 frente a H 0( B ) : σ 2 β ≠ 0
4. H 0( BL ) : σ 2C = 0 frentae a H 0( BL ) : σ 2C ≠ 0
H 0 : σ 2α = 0 ∨ H 0 : σ 2 β = 0 ∨ H 0 : σ 2αβ = 0 ∨ H 0 : σ 2C = 0
Frente a:
H1 : σ 2α ≠ 0 ∨ H1 : σ 2 β ≠ 0 ∨ H1 : σ 2αβ ≠ 0 ∨ H1 : σ 2C ≠ 0
σ 2*
β =
1
na
(S "
B − S " AB )
1
σ 2*
αβ = (S " AB − S "E )
n
1
σ 2*
C = (S "BL − S " AB )
ab
σ 2*α
% de influencia del factor A = 100
σ 2*T
σ 2*β
% de influencia del factor B = 100
σ 2*T
σ 2*αβ
% de influencia de la interacción AB = 100
σ 2*T
69
σ 2*
C
% de influencia del bloque C = 100
σ 2*
T
S "E
% de influencia del error aleatorio E = 100
σ 2*T
Ejercicio 13:
Supongamos que queremos contrastar si el promedio de pantalones confeccionados,
por jornada de trabajo, es homogéneo dependiendo de la máquina que realiza la
confección y del tejido empleado. Para realizar la experimentación se responsabilizan
del proceso operarios distintos de los que sospecha que también pueden influir en la
heterogeneidad de la producción. Se toman tres máquinas de un población, tres tipos
de tejido de una población y dos operarios de una población.
Tenemos el siguiente conjunto de datos
C1 C2
A1B1 8 10
A1B2 6 6
A1B3 5 10
A2B1 5 7
A2B2 4 6
A2B3 3 5
A3B1 10 15
A3B2 9 12
A3B3 8 14
Al reordenar los datos de la tabla anterior en una tabla de doble entrada para (Ai, Bj) y
los datos de los bloques, así:
B1 B2 B3
A1 (8) (6) (5)
[10] [6] [10]
A2 (5) (4) (3)
[7] [6] [5]
A3 (10) (9) (8)
[15] [8] [14]
B1 B2 B3 Ti.. T2i..
A1 18 12 15 45 2.025
A2 12 10 8 30 900
A3 25 17 22 64 4.096
T.j. 55 39 45 T…=139 ∑ T 2... = 7.021
T2.j. 3.025 1.521 2.025 ∑T 2
. j. = 6.571
T 2... 19.321
T 2
= 193.211 ⇒ C = = = 1.073,3889
abn 3 ⋅ 3 ⋅ 2
...
∑x 2
ijk = 1.331, a = 3, b = 3, n = 2
1 1
SA = ∑
nb i
T 2i.. − C = 7.021 − 1073,3889 = 96, 7778
6
1 1
SB = ∑
na j
T 2. j . − C = 6.571 − 1.073,3889 = 21, 7778
6
1 1
STR = ∑
n ij
T 2ij . − C = 2.399 − 1.073,3889 = 126,1111
2
S BL =
1
∑
ab k
T 2. k − C =
1
ab
( T 2..1 + T 2..2 ) − C = ( 582 + 852 ) − 1.073,3889 = 103,1667
1
9
SC g.l CM FObs
SA = 96,7778 2 S”A=48,3889 S "A
FA = = 25, 6175
S "AB
F0.99,2,4=18,00
SB = 21,7778 2 S”B=10,8889 S "B
FB = = 5, 7647
S "AB
F0.99,2,4=18,00
SAB = 7,5555 4 S”AB=1,8889 S"
FAB = AB = 0,5333
S "E
F0.99,4,8=7,01
SBL = 103,1667 1 S”BL=103,1667 S"
FBL = BL = 54.6173
S "AB
F0.99,1,8=11,3
SE = 28,3333 8 S”E=3,5417
ST =257,1111 17
Por lo tanto:
a) Se rechaza H0(A), esto es, las diferencias entre los valores medios del número de
pantalones producidos por las distintas máquinas son significativas. Las
máquinas influyen en la producción
d) Se rechaza H0 (BL), esto es, que los operarios influyen en el número medio de
pantalones producidos en cada jornada.
1 1
σ 2*β = ( S "B − S "AB ) = (10,8889 − 1,8889 ) = 1,5
na 2⋅3
1 1
σ 2*C = ( S "BL − S "AB ) = (103,1667 − 1,8889 ) = 11, 2539
ab 9
σ 2*T = σ 2*α + σ 2*β + σ 2*αβ + σ 2*C + S "E = 7, 75 + 1,5 + 0 + 11, 2531 + 3,5417 = 24, 0448
Por lo tanto:
σ 2*α
% de influencia del factor A = 2* 100 = 32, 23%
σ T
σ 2*C
% de influencia del bloque C = 2* 100 = 46,80%
σ T
S "E
% de influencia del error aleatorio E = 100 = 14, 73%
σ 2*T
Por lo que son los operarios los que en mayor medida influyen en la heterogeneidad, en
segundo lugar las máquinas, en tercer lugar la aleatoriedad muestral, es decir, que sean
esas las observaciones y no otras las tomadas, y por último los tejidos.
74