Вы находитесь на странице: 1из 74

1

ANALISIS DE LA VARIANZA

1.0 Introducción
El análisis de la varianza se utiliza para probar las diferencias entre diversas medias. Se
supone que las diversas medias muestrales se obtienen a partir de poblaciones con
distribución normal y con la misma varianza.

Como la hipótesis nula consiste en que las medias poblacionales son iguales, la
suposición de igualdad de varianzas (homogeneidad de la varianza), también implica
que, para propósitos prácticos, la prueba se ocupa de la hipótesis de que las medias
provienen de la misma población
Las hipótesis son:

H 0 : µ 1 = µ 2 = µ 3 = ... = µ k
H 1 : µ , µ 2 , µ 3 ,..., µ k No son todas iguales

El análisis de la varianza ANOVA (Análisis of Variance) permite contrastar


simultáneamente la igualdad de las k medias µ1,...,µκ o que supone una gran ventaja
para reducir las operaciones y los posibles errores acumulativos que cometeríamos
realizando contrastes para todas las parejas posibles de medias con el modelo de la “t”
de Student.

La terminología empleada será la siguiente:

- Factor es cada una de las causas que influyen en la heterogeneidad de las


poblaciones.

Ejemplo 0:
El uso de analgésicos en el bienestar de unos enfermos. Si hay un solo factor lo
representamos por A.

- Tratamiento o niveles del factor son cada uno de los valores posibles del factor A, y
los representamos por A i para i = 1,…, k.

En el ejemplo 0, los tratamientos serían las distintas marcas de analgésicos.

Las variables poblacionales están asociadas a los conjuntos (grupos) de valores que se
obtienen aplicando los tratamientos A i. Por ello podemos hablar de variables de
tratamiento o grupos de tratamiento. Nótese que la media del tratamiento A i es µ ι

El análisis de la varianza supone mantener la independencia de las variables de


tratamiento
2
- Efectos son la medida de la influencia del factor en la heterogeneidad.

Concretamente el efecto αι  es la medida de la influencia del tratamiento Ai del factor A


en la heterogeneidad. Esto es αi sería la diferencia que la media µι del tratamiento A i
presenta respecto a la media general µ de todos los tratamientos:
αι = µι − µ

- Error muestral (o residuo) es el error debido a la aleatoriedad muestral, es decir a


que sea ese elemento y no otro el observado. Por tanto, será la diferencia que el
elemento muestral presenta respecto a la media de la población de la que proceda:

ε ij = xij − µ i ∀ij ,
Siendo xij el elemento muestral j-ésimo del la población i-ésima

La técnica del análisis de la varianza se inicia descomponiendo la varianza total de las


observaciones xij como la media de la heterogeneidad total. Esta descomposición la
hacemos teniendo encuenta que si los tratamientos Ai fueran homogéneos y la
aleatoriedad muestral no produjera heterogeneidad, las observaciones xij serían
homogéneas y la varianza de las xij sería cero. Ahora bien, sí la varianza de los
elementos xij no es cero, es porque no son homogéneos los elementos xij lo que
significa que hay una posible heterogeneidad de las poblaciones de las que proceden; o
bien la causa de la heterogeneidad es la aleatoriedad muestral.

Por ello descomponemos la varianza total de los xij en una suma de diferencias al
cuadrado en dos términos

1) Suma de cuadrados que mide la heterogeneidad debida a la influencia de los


tratamientos o variabilidad explicada por el factor

2) Suma de cuadrados que mide la heterogeneidad debida al error muestral, es


decir, la variabilidad no explicada por el factor o residual.

Conviene aclarar que la variable independiente (cualitativa) es el factor con k niveles


independientes, es decir los tratamientos Ai, que el caso del ANOVA actúa sobre una
variable dependiente (cuantitativa).
3
En el ejemplo 0:
- el factor será el uso de analgésicos

- los tratamientos o niveles del factor son las distintas marcas de analgésicos

- y las variables los valores que sobre la variable dependiente, o variable respuesta, se
obtienen aplicando los tratamientos.

Si tenemos una sola variable respuesta trabajaremos con un ANOVA.

En ejemplo 0 la variable respuesta sería el número de horas de bienestar de los


enfermos a los que se han aplicado los tratamientos Ai. Esta variable se concreta para
los tratamientos Ai (i = 1,…,k) en las variables.

Si tenemos dos o más variables respuestas utilizaremos la técnica MANOVA


(multivariante Análisis of Variance). En este caso queremos medir varias variables
dependientes en cada unidad experimental, por ejemplo, si al aplicar los tratamientos
analgésicos nos interesa medir el número de horas de bienestar de los enfermos con
esos tratamientos y el número de horas de sueño.

En la tabla siguiente recogemos todas las variables dependientes con cada tratamiento.

Niveles del factor Variables dependientes


ε1...............ε p
A1 ε11..........ε1 p
Ai ε i1..........ε ip
# #
Ak ε k 1..........ε kp

ε
En caso de tener una variable dependiente 1 , las variables ε11 ,..., ε1l ,..., ε kl que
corresponden a las respuestas de la variable dependiente con cada uno de los
tratamientos equivalen a las ε1 ,..., ε k . Estas variables son independientes entre sí
puesto que los tratamientos lo son. Con esta notación, una observación muestral sería:

xijr = observación muestral j-ésima de la población (o grupo de tratamiento) i-ésima para


la variable dependiente r-ésima.

Estas variables dependientes se suponen relacionadas entre sí, pues, si no es así, no


habría interés en aplicar un análisis multivariado, sino un análisis univariante de la
varianza para cada una de las variables estudiadas.

Siempre hay que tener en cuenta los supuestos de partida que han de cumplirse para
aplicar correctamente el ANOVA. Estos supuestos son:
4
1) Normalidad de las poblaciones, que probaremos con el test de Kolmogorov –
Smirnov u otra prueba. Sin embargo, la falta de normalidad de las observaciones,
si las poblaciones son normales las observaciones también lo son, no tiene
consecuencia graves en el contraste de la F si el tamaño de la muestra es
suficiente grande (teorema del limite central). En este sentido podemos decir que
el ANOVA es una técnica robusta frente a las desviaciones de la normalidad.

2) Independencia de las observaciones muestrales. Esta condición debe


asegurarse inicialmente en la recogida de la información. Si no se cumpliera
este supuesto las consecuencias pueden ser muy graves ya que las
distribuciones muestrales de los estadísticos no serían correctas. Se consigue
mayor aleatoriedad transformando los datos mediante el logaritmo y haciendo el
ANOVA con los datos transformados.

3) Homocedasticidad, esto es, las varianzas poblaciones han de ser homogéneas.


Se contrasta con cualquier test de igualdad de varianzas, por ejemplo Bartlett,
Cochran, Harley o Levene

La falta de normalidad o heterocedasticidad (que suelen ir asociadas) se corrige


aplicando una transformación conveniente.

Uno de los casos más comunes de heterocedasticidad es cuando la varianza crece con
la media. En estos casos las transformaciones más utilizadas para estabilizar las
varianzas son el logaritmo y la función inversa. Posteriormente, se repetirá el análisis
con los datos transformados y las conclusiones del análisis se referirían a los nuevos
datos

Con este supuesto ocurre como con el de normalidad, que si no se cumple no tiene
consecuencias graves, pues al aplicar el test de la F el que es robusto frente a la
heterogeneidad.

“Si todos los grupos tienen el mismo número de observaciones, el contraste de la F es


igualmente exacto. El efecto de varianzas desiguales en los grupos depende de la
heterogeneidad entre el número de observaciones de cada grupo”.

Por tanto, conviene utilizar muestras del mismo tamaño (o aproximadamente iguales),
sobre todo cuando hay diferencias grandes entre las varianzas.
5
2.0 Razonamiento conceptual

1) Se debe calcular la media para cada grupo muestral, y después determinar el error
estándar de la media S x con base sólo en las diversas medias muestrales

2) Se sabe que:
S
Sx = ⇒ S 2 = n·S x
2

n
Esto es, el error estándar de la media. Puede utilizarse para estimar la varianza de la
población.

A esta estimación de la varianza poblacional se le denomina:

Cuadrado medio entre tratamientos y se denotará por CMET

3) Calcular la varianza de cada grupo muestral por separado con respecto a la media
de cada uno.

Después se combinan estas varianzas ponderándolas con (n –1) correspondiente a


cada muestra.

La estimación resultante de la varianza poblacional se denomina:

Cuadrado medio del error y se denota por CME

y se basa sólo en las diferencias intergrupales.

La nueva cuenta, se le denomina Cuadrado medio. Por que es una estimación de


varianza. Se le denomina Error por que las desviaciones dentro de cada uno de los
grupos muestrales pueden deberse solamente a errores de muestreo aleatorio, y no
pueden deberse a diferencias entre medias de los diferentes grupos de la población

4) Si la hipótesis nula H 0 : µ 1 = µ 2 = µ 3 = ... = µ k es cierta, entonces, se sigue


que cada uno de los dos cuadrados medios que se obtienen en (2) y (3) son un
estimador insesgado e independiente de la misma varianza poblacional σ .
2

Sin embargo, si la hipótesis nula es falsa, entonces el valor esperado del cuadrado
medio entre tratamientos CMET es mayor que el cuadrado medio del error CME

CMET > CME


En esencia, cualquiera diferencia entre las medias poblacionales, incrementarían el
cuadrado medio entre tratamiento CMET, al tiempo que no tendrían ningún efecto
6
sobre el cuadrado medio del error CME, que se basa sólo en las diferencias
intergrupales.

5) Se puede utilizar la distribución F para probar la diferencia entre las dos varianzas.
Se trata de una prueba de un solo extremo, y la forma general de la prueba F en
análisis de varianza es

CMET
Fgl1, gl 2 =
CME

Si el cuociente F se encuentra en la región de rechazo para el nivel de


significancia especificado, entonces, se rechaza la hipótesis nula de que las
diversas medias muestrales provienen de la misma población

Ejemplo 1: 15 estudiantes son asignados aleatoriamente a tres métodos de instrucción.


En la tabla siguiente se presentan las calificaciones al término de la unidad de
instrucción.
Probar la hipótesis nula de que las tres medias muestrales se obtienen de la misma
población, Utilizando α = 0,05

Métodos de Calificaciones de
instrucción las pruebas
A1 86 79 81 70 84
A2 90 76 88 82 89
A3 82 68 73 71 81

Solución:
H 0 : µ1 = µ 2 = µ 3

H 1 : µ1 , µ 2 , µ 3 No todas iguales

Métodos de Calificaciones de Calificaciones Calificaciones


instrucción las pruebas Totales promedio

A1 86 79 81 70 84 400 80
A2 90 76 88 82 89 425 85
A3 82 68 73 71 81 375 75
∑ = 1200
7
1) La media global de las 15 calificaciones es:

86 + 79 + ... + 71 + 81 1200
XT = = = 80
15 15

El error estándar de las medias, con base en las tres medias es:

∑( )
2
X −XT (80 − 80 ) + ( 85 − 80 ) + ( 75 − 80 )
2 2 2

SX = = = 5, 0
n −1 3 −1

Donde n es el número de medias (métodos de instrucción)

2) Se sabe que S2 = CMET (Cuadrado medio entre tratamientos)

CMET = n·S X 2 = 5·( 5 ) = 125


2

3) Cálculo del cuadrado medio del error: CME

∑ (x − x )
2

Como S
2
=
n −1

Entonces la varianza para cada método de instrucción es:


8
(86 − 80) + (79 − 80) + (81 − 80) + (70 − 80) + (84 − 80)
2 2 2 2 2
S12 = = 38,5
5 −1

(90 − 85) 2 + (76 − 85) 2 + (88 − 85) 2 + (85 − 85) 2 + (89 − 85) 2
S2 = 2
= 35, 0
5 −1

(82 − 75) 2 + (68 − 75) 2 + (73 − 75) 2 + (71 − 75) 2 + (81 − 75) 2
S3 = 2
= 38,5
5 −1

Entonces, el cuadrado medio del error (CME) es:

(n − 1) S 1 + ( n 2 − 1) S 2 + (n 3 − 1) S 3 4·38,5 + 4·35 + 4·38,5


2 2 2

CME = 1 = = 37,3
n1 + n 2 + n 3 − 3 5+5+5−3

4) Como CMET > CME (125 > 37,3) resulta apropiada la prueba de H0

La estadística de prueba es:

Fp, k −1, k ·n − k
Donde:

k = 3 (métodos instrucción, nº de filas)


n = 5 (nº calificaciones por método)

Por lo tanto:

F .95, (3-1), (3·5-3) = 3,89 Valor crítico

CMET 125
5) FObs. = ⇒F = = 3,35
CME 37,3
9
Por lo tanto, como F observado no es mayor que el valor crítico no es posible rechazar
H0, es decir, no se puede rechazar que las calificaciones promedio para los tres
métodos de instrucción de la población son iguales entre sí

3.0 Análisis de la varianza con un factor e información completamente aleatoria:


Modelos I y II

3.1 Modelo I: Anova de un factor, completamente aleatorio y efectos fijos

En el ANOVA con un factor tenemos una variable dependiente cuantitativa, en


ejemplo 0 es el “número de horas de bienestar de los enfermos”, determinada por un
factor como variable independiente cualitativa, que en el ejemplo es el “uso de
analgésicos” con k niveles de tratamientos A1,…,Ak (marcas de analgésicos) a los que
corresponden los valores de las variables; estos valores de las variables se obtienen
aplicando el tratamiento Ai

Este procedimiento se ocupa de probar la diferencia entre k medias muestrales,


cuando se asignan los elementos en forma aleatoria a cada uno de los diversos grupo
de tratamiento.

La ecuación lineal que representa este diseño es:

X ik = µ + α k + ε ik

Donde:

µ: Media global de todas las poblaciones sometidas al tratamiento k

αk : Efecto del tratamiento de un grupo k de donde el valor se obtuvo por muestreo

εik : Error asociado al proceso de muestreo.

Tabla resumen para el análisis de varianza con un criterio de clasificación


Fuente de Grados de Suma de Cuadrado Coeficiente
Variación Libertad (gl) cuadrado (SC) Medio (CM) F
Entre grupos de k –1 SCA CMA CMA
Tratamientos (A) F=
CME
Error de N–k SCE CME
Muestreo (E)
Total (T) N -1 SCT

Donde:
10
k
⎛T ⎞ T
2 2
SCA = ∑ ⎜ k ⎟ −
k =1 ⎝ nk ⎠ N

SCE = SCT − SCA

⎛ n k 2⎞ T2
SCT = ⎜ ∑∑ x ⎟ −
⎝ i =1 k =1 ⎠ N

SCA
CMA =
k −1

SCE
CME =
N −1

CMA
F=
CME

N: Tamaño total de la muestra para la totalidad de los grupos de tratamientos juntos

Tk: Suma total de los valores en un determinado grupo de tratamiento

T: Suma de los valores muestreados en todos los grupos combinados

k : Nº de grupos de tratamiento

SCA: Suma de cuadrados entre grupos de tratamiento

CMA: Cuadrado medio entre grupos de tratamientos

SCE: Suma de cuadrados de error de muestreo

SCT: Suma de cuadrados de los valores muestreados en todos los grupos


combinados

CME: Cuadrado medio de error de muestreo

x : valor de la variable
11
Planteamiento de hipótesis nula y alternativa

H0 : µ1 = µ2 = µ3 = ... = µk

H1 : µ1, µ2 ,..., µk No todas iguales

Otra forma de escribir las hipótesis es

H 0 : α k = 0 . Para todos los tratamientos (niveles de factor)

H 1 : α k ≠ 0 . Para algunos tratamientos

Cuando se rechaza la hipótesis nula significa que ∃ µ r ≠ µ s ; esto es, al meno existe
una pareja de medias que son distintas. Lo que rechazamos es la igualdad simultánea
de medias

µ1 =,..., = µ k

Para averiguar que parejas de medias son distintas hacemos contrastes dos a dos con
la "t" de Student.

Ejemplo 2: Resolver el ejemplo 1 utilizando la tabla de análisis de la varianza con un


solo factor

Solución:

Métodos de Calificaciones de Calificaciones Calificaciones


Instrucción Las pruebas Totales promedio

A1 86 79 81 70 84 T1 = 400 80
A2 90 76 88 82 89 T2 = 425 85
A3 82 68 73 71 81 T3 = 375 75

De la tabla anterior tenemos

n1 = 5 n2 = 5 n3 = 5 N = 15
T1 = 400 T2 = 425 T3 = 375 T = 400 + 425 + 375 = 1200
T12 = 160000 T22 = 180625 T32 = 140625 T2 = 1440000
12
2 2
3
T T ⎛ 160000 180625 140625 ⎞ 1440000
SCA = ∑n
k =1
k

N
⇒ SCA = ⎜
⎝ 5
+
5
+
5 ⎟−
⎠ 15
= 250
k

5 3

∑∑ x
i =1 k =1
2
= 86 2 + 79 2 + ... + 712 + 812 = 96698

⎛ 5 3 2⎞ T2 1440000
SCT = ⎜ ∑∑ x ⎟ − = 96698 − = 698
⎝ i =1 k =1 ⎠ N 15

SCE = SCT –SCA = 698 – 250 = 448

Por lo tanto la tabla de la Anova es


Fuente Grados de Suma de Cuadrado Coeficiente
Variación Libertad (gl) Cuadrados (SC) Medio (CM) F
Entre grupos de k = 3 SCA = 250 CMA =
Tratamientos k –1 = 3 – 1 = 2 250
(A) = 125
2
Error de k = 3 y N = 15 SCE = SCT-SCA SCE CMA 125
F= = = 3,35
Muestreo (E) N-k = 15-3 =12 CME= CME 37,33
SCE = 698-250=448 N −k
448
= = 37,33
12
Total N = 15 ⎛ 5 3 ⎞ T2
N-1 = 15-1=14 SCT = ⎜ ∑ ∑ x 2 ⎟ −
⎝ i =1 k =1 ⎠ N
SCT = 698

Como el valor critico es F.95, 2, 12 = 3,89 y el observado F = 3,35, entonces se


concluye que existe efecto entre los niveles de tratamientos (métodos de instrucción).

Por lo tanto, las diferencias entre las medias no son significativas al 5% de significancia,
es decir, no se rechaza la hipótesis nula

3.1.1 Clasificación con grupos desiguales


Recordemos que es conveniente utilizar muestras del mismo tamaño o
aproximadamente iguales, sobre todo cuando las varianzas tienen diferencias grandes

Ejemplo 3: En la tabla se reportan los puntajes obtenidos en tres test, las personas
fueron asignadas aleatoriamente.
Probar:
13
H0: de que el promedio de los puntajes no es distinto, utilizando el 5% como nivel de
significancia

Test Puntajes Total Promedio


puntajes puntajes
A1 79 83 62 51 77 T1=352 70.4
A2 74 85 72 T2=231 77.0
A3 81 65 79 55 T3=280 70.0
Total 234 233 213 106 77 ∑ = 863

H0 : µ1 = µ2 = µ3 = ... = µk

H1 : µ1, µ2 ,..., µk No todas iguales

De otra forma

H 0 : α k = 0 . Para todos los tratamientos (niveles de factor)

H 1 : α k ≠ 0 : Para algunos tratamientos

n1 = 5 n2 = 3 n3 = 4 N = 12
T1 = 352 T2 = 231 T3 = 280 T = 863
T12 = 123904 T22 = 53361 T32 = 78400 T2 = 744769

T 2 k T 2 ⎛ 123904 53361 78400 ⎞ 744769


3
SCA = ∑
k =1 n k
− =⎜
N ⎝ 5
+
3
+
4 ⎠
⎟−
12
= 103.7

5 3

∑∑ x
i =1 k =1
2
= 79 2 + 83 2 + ... + 79 2 + 55 2 = 63441

⎛ 5 3 ⎞ T2 744769
SCT = ⎜ ∑∑ x 2 ⎟ − ⇒ SCT = 63441 − = 1376.9
⎝ i =1 k =1 ⎠ N 12

SCE = SCT – SCA = 1376.9 – 103.7 = 1273.2


14

La tabla de la Anova es
Fuente Grados de Suma de Cuadrado Coeficiente
variación Libertad Cuadrados (SC) Medio (CM) F
Entre grupos (A) k=3 SCA = 103.7 103.7
Procesadores k –1 = 3 – 1 = 2 CMA = = 51.2
2
CMA 51.8
Error de K = 3 y N = 12 1273.2 F= = = 0.37
Muestreo (E) N-k = 12 -3 = 9
SCE = 1273.2 CME= = 141.5 CME 141.5
9
Total N = 12 SCT = 1376.2
N-1 = 12-1=11

Como:

F.95;2,9 = 4,26 y FObs = 0,37

Es decir, el F (calculado) se encuentra en la región de no rechazo de H0 y se concluye


que no existe diferencia entre las tres test.

2.1.2 Relación del diseño completamente aleatorio de un factor con la prueba “t”
para probar la diferencia entre las medias de dos muestras independientes

Se debe suponer que las dos muestras se obtienen de la misma población con
distribución normal, y que se desconoce la varianza σ 2 poblacional

Ejemplo 4: Retomemos el ejercicio nº 3

Test Puntajes Total Promedio


puntajes puntajes
A1 79 83 62 51 77 T1=352 70.4
A2 74 85 72 T2=231 77.0

H0 : µ1 − µ2 = 0 ó H0 : µ1 = µ2

H1 : µ1 − µ2 ≠ 0 ó H1 : µ1 ≠ µ2


15

x1 = 70, 4; x 2 = 77

n1 = 5; n2 = 3

v = n1 + n2 –2 => v = 5 + 3 –2 = 6
t α = 0, 05, 6 = ±2,447

∑(x − x )
2
( 79 − 70, 4 ) + (83 − 70, 4 ) + ( 62 − 70, 4 ) + ( 51 − 70, 4 ) + ( 77 − 70, 4 )
2 2 2 2 2
1
S 2
= = = 180,8
n1 − 1 5 −1
1

∑(x − x )
2
( 74 − 77 ) + (85 − 77 ) + ( 72 − 77 )
2 2 2
2
S 2
= = = 49
n2 − 1 3 −1
2

σˆ 2 =
( n1 − 1) S 21 + ( n2 − 1) S 2 2 =
4·180,8 + 2·49
= 136,8667
n1 + n2 − 2 5+3− 2

σˆ 2 σˆ 2 136,8667 136,8667
σˆ x − x = + = + = 8,54
1 2
n1 n2 5 3

x1 − x 2 70, 4 − 77
t= = = −0, 77
σˆ x1 − x2 8,54

Como tObs. = -0,77 y t (critica) = ± 2,447, entonces, no se rechaza la hipótesis nula.

3.1.3 Modelo II: Anova con un factor, completamente aleatorio y efectos aleatorios

Supongamos ahora que las poblaciones correspondientes a los tratamientos A1,…,Ak


son parte de un colectivo de poblaciones más amplio.

Si tenemos que contrastar la homogeneidad de un número de poblaciones grande y


queremos hacer menos costosa la experimentación, elegiremos al azar una muestra de
poblaciones de ese colectivo y las conclusiones de la experimentación se inducen sobre
el total de poblaciones.

Las medias de las poblaciones con las que vamos hacer la experimentación son
µ1 ,..., µ k por tanto:
16

H 0 : µ1 = ... = µk

Ahora bien, como las poblaciones se han elegido de un colectivo mayor de manera
aleatoria, las medias µ i son aleatorias y, por lo tanto, los efectos

α i = µi − µ

Definidos en función de las medias µi también serían aleatorios.

Como las µi son variables, entonces

E ( µi ) = µ , E (α i ) = E ( µi − µ ) = E ( µi ) − µ = µ − µ = 0

La dispersión de las medias µi se medirá con su varianza:

V ( µi ) = E ( µi − µ ) = E (α 2i ) = E (α i − E (α i ) ) = V (α i ) = σ 2α
2 2

El esquema aditivo de trabajo sería:

xij = µ + α i + ε ij

Pero σ 2α mide la dispersión de los efectos αi y la dispersión de las medias µi


respecto de µ , es decir la variabilidad de las µ i , esto significa que cuanto menor sea
σ 2α más homogénea son las medias µi

Sí µi = µ ∀ i ⇒ V ( µi ) = σ 2α = 0

Por tanto, en este caso de efectos variables, las hipótesis a contrastar sería:
17

H 0 : σ 2α = 0 frente a H 1 : σ 2α ≠ 0

La igualdad del análisis de varianza es la misma que para el modelo I, por tanto, los
cálculos abreviados son iguales

∑x
j =1
ij

x=
n

S A = n∑ x − knx
2 2
ó
i

SA = n∑ x − N x ;
2 2
con N = k ⋅ n
i

S E = ∑∑ x 2ij − n∑ x
2

ST = ∑ xij 2 − N x
2

Si los tamaños muestrales fuesen distintos:


18

S A = ∑ ni x i⋅ − N x ; con N = ∑ ni
2 2

k n
S E = ∑∑ xij 2 − ∑ ni x i⋅
i= j =1

ST = S A + S E
Teniendo en cuenta que

Suma de cuadrados
Cuadrados medios =
Grados de libertad

y que

g.l (SA) = k – 1

g.l (SE) = N – k

g.l (ST) = N – 1

Los cuadrados medios serían:

SA
S "A =
k −1

SE
S "E =
N −k

ST
S "T =
N −1

Los cuadrados medios esperados serían


19

E ( S " A ) = σ 2 + nσ 2α
E ( S "E ) = σ 2

Por lo tanto, la tabla de la anova es:

Fuente de Sumas de g.l Cuadrado Cuadrado medio Estadístico : F


variación Cuadrados Medio : CM esperado : CME
Factor : A SA k-1 S
S "A = A E ( S " A ) = σ 2 + nσ 2α S "A
= Fk −1, N −k
k −1 S "E
Si H0 cierta
Error :E SE N-k
S "E =
SE E ( S "E = σ 2 )
N −k
Total ST N-1

Si los tamaños muestrales son distintos sería:

k
N − ∑ ni 2
2

E ( S "A ) = σ 2 + 1
σ 2α
N ( k − 1)

La regla de decisión para contrastar H0 sería análoga a la del modelo I

SA"
Si "
> Fα ⇒ se rechaza H0 : σ α2 = 0 ⇒ σ α2 ≠ 0
SE

S"A
Si "
≤ Fα ⇒ H0 : σ α2
SE
20
Si se rechaza H0, entonces, σ 2
α ≠ 0 , lo que significa que las medias µ i son
heterogéneas.

En este caso no tiene sentido hacer contrastes dos a dos para detectar cuales son las
parejas de medias distintas, porque estos contrastes sólo valdrían para las poblaciones
observadas, pero como no son fijas, nos interesa medir la dispersión que presentan las
medias en su totalidad.

Ahora bien, como σ 2α es un valor poblacional que hay que estimarlo. Un estimador

insesgado de σ 2α

Para tamaños muestrales iguales sería:

σ 2*α = (
1 "
n
S A − S "E )

Para tamaños muestrales distintos:

N ( k − 1)
σ 2*α = k (S "
A − S "E )
N 2 − ∑ n 2i
1

En este caso

σ 2*α = σ 2*α + σ 2 = σ 2*α + S " E

Y que σ 2*α es estimador insesgado de σ 2α y S”E es estimador insesgado de αα

Entonces cada uno de estos términos σ 2*α y S" E representa un porcentaje de

influencia respecto de la medida de variación total σ 2*T


Por tanto, tenemos:
21
σ α
2*
% de influencia del factor "A" en la variación total = 100
σ 2*T

S "E
% de influencia del error muestral "E" en la variación total = 100
σ 2*T

Ejemplo 5:
Supongamos que queremos contrastar si el número promedio de artículos vendidos
diariamente de un producto es homogéneo dependiendo del supermercado en que se
vende. Para ello elegimos al azar cuatro supermercados entre un colectivo de
supermercados. A continuación, observamos el número de artículos vendidos en esos
supermercados en cinco días, elegidos aleatoriamente, obteniendo los siguientes
resultados:

Tratamientos Observaciones (días)


(Supermercados) 1 2 3 4 5
A1 8 9 10 7 6
A2 4 5 6 2 3
A3 7 9 6 4 4
A4 5 9 10 6 5

Solución:

Tenemos que utilizar un modelo de clasificación simple, completamente aleatorio y


efectos variables, ya que el número de poblaciones (los supermercados) observadas es
una muestra del número total de poblaciones. Las conclusiones del contraste realizado
para los cuatro supermercados observados, se inducirán sobre todos los
supermercados.

El cuadro de datos para elaborar el estadístico del contraste sería el siguiente:

Tratamientos Observaciones (días) 2


(Supermercados) 1 2 3 4 5 x i.
xi.
A1 8 9 10 7 6 8 64
A2 4 5 6 2 3 4 16
A3 7 9 6 4 4 6 36
A4 5 9 10 6 5 7 49

∑x ∑x
2
i. = 25 i. = 165

Por lo tanto:
22

x=
∑x i .1
⇒x=
25
= 6,25
4 4

x=
∑∑ x ij
⇒x=
125
= 6,25
20 20

2
x = 39,0625

SA = n ∑ x
2 2
i .1 − N x = 825 − 781,25 = 43,75

SE = ∑∑ x 2 − n ∑ x
2
i. = 885 − 825 = 60
ij

Siendo N = n ⋅ k = 20
k = 4 y n =5

⎛ 43,75 ⎞
" ⎜ 3 ⎟
=⎝ ⎠ = 3,8889
SA
FObs =
S "E ⎛ 60 ⎞
⎜ 16 ⎟
⎝ ⎠

El valor de la F para determinar la región crítica es:

Fp; k-1, N-k = F.95;3,16 = 3,2389

Por lo tanto:

3,8889 (F0bs.) > 3,2389

Entonces, se rechaza la hipótesis de homogeneidad de la venta diaria en el colectivo de


supermercados:
23
Como no tiene sentido realizar contrastes por parejas de las medias elegidas, puesto
2
que son variables, veamos la variabilidad de estas medias µi con σ α ya que
σ 2α = v ( µi ) mide la dispersión de las µi, por tanto, su homogeneidad. Pero σ2α es un
valor poblacional que hemos de estimar con valores muestrales. Este estimador sería:

σ 2*α =
n
(
1 "
S A − S "E ) = (14,5833 − 3, 75 ) = 2,1667
1
5

Veamos la influencia porcentual que tienen el factor y error aleatorio en la


heterogeneidad total
Como:

σ 2T = σ 2*α + S " E = 2,1667 + 3, 75 = 5, 9167

La influencia porcentual del factor A (el supermercado donde se realiza la venta) en la


variación total es:

σ 2*α 2,1667
100 = = 36, 62%
σ T
2*
5,9167

De la misma forma, la influencia porcentual del error aleatorio en la heterogeneidad total


es:

S "E 3, 75
2*
100 = 100 = 63,38%
S T 5,9167

Por tanto, en la heterogeneidad total influye sobre todo el error aleatorio en un 63,38%,
es decir la aleatoriedad muestral, esto es, los días elegidos para tomar las
observaciones y no tanto el supermercado de venta (en un 36,62%).
24
3.2 Análisis de la varianza con un factor e información aleatoria en Bloques:
Modelos III (con efectos fijos) y IV (con efectos aleatorio)

3.2.1 Modelo III: Anova con un factor, aleatorio en bloques y efectos fijos
En el modelo III se supondrá la existencia de un segundo factor implícito, que no se
plantea como factor principal, pero que puede influir en la heterogeneidad de las
poblaciones.

Este caso trataremos de explicarlo con el siguiente ejemplo

Ejemplo 6:
Queremos contrastar si el consumo medio de combustible de tres modelos de vehículos
A1, A2 y A3 es homogéneo. Para ello se realizan pruebas con cuatro conductores B1, B2,
B3 y B4 de los que sospechamos que pueden influir en la heterogeneidad de los
consumos. El objeto del estudio es el factor A, pero se debe tener encuenta el bloque B,
para eliminar la influencia que sobre las conclusiones de la homogeneidad de los
factores A pudiera tener.

En el siguiente cuadro figuran los consumos de litros de gasolina por cada cien
kilómetros

Vehículos Conductores
B1 B2 B3 B4
xi.
A1 7,0 7,0 7,5 10,5 8,0
A2 6,0 6,5 7,0 6,5
A3 6,5 7,0 7,5 7,0

Como el conductor B4 sólo ha realizado la prueba con el automóvil A1 y este conductor


es el que produce mayor consumo, esto podría llevarnos a conclusiones erróneas sobre
el consumo de A1 respecto de A2 y A3.

Para evitarlo, el conductor B4 debería realizar pruebas con A2 y A3. Es decir, la tabla de
datos con factor de bloqueo sería de la forma:

B1 B2 B3 B4
A1 x x x x
A2 x x x x
A3 x x x x

Es decir, todas las muestras de las poblaciones correspondientes a cada nivel


Ai han de tener b elementos
25
También se podría hacer la experimentación con los mismos sujetos (conductores)
tomando medidas repetidas. Tendríamos, por lo tanto, la siguiente tabla de medias:

Vehículo Conductores
s B1 B2 B3 B4 µi.
A1 µ11 µ12 µ13 µ14 µ1.
A2 µ21 µ22 µ23 µ24 µ2.
A3 µ31 µ32 µ33 µ34 µ3.
µ.j µ.1 µ.2 µ.3 µ.4 µ

Siendo:

1 b
µi . = ∑ µij ; media de la fila i
b j =1

1 a
µ. j = ∑ µij ; media de la columna j
a i =1

1 a b
µ= ∑∑ µij media global
ab i =1 j =1

∑µ i⋅
µ= i =1
media global
a

∑µ j =1
⋅j

µ= media global
b

Los efectos de los Ai serían αi = µi. − µ y los efectos de los Bj son Bj = µ. j − µ

Las hipótesis a contrastar para el factor A sería:

H 0( A) : µi. = µ ∀i contra H1( A) : ∃µ r . ≠ µ s.


26

Las hipótesis a contrastar para el bloque B sería:

H 0( B ) : µ. j = µ ∀j contra H1( B ) : ∃µ.r ≠ µ.s

Si no rechazamos H0(A) quiere decir que no hay diferencias significativas entre los
tratamientos Ai. Si no rechazamos H0(B) quiere decir que no hay diferencias
significativas entre los bloques Bj.

La hipótesis global sería:

H 0 : µ ij = µ ∀ij contra H1 : ∃µ rs ≠ µ rs
Por lo tanto:

i) Si no rechazamos H0(A) y no rechazamos H0(B), entonces no rechazamos H0

ii) Si rechazamos H0(A) o rechazamos H0(B), entonces rechazamos H0

Las observaciones muestrales xij se pueden descomponer aditivamente así:

xij = µ + α i + β j + ε ij

Siendo ε ij = xij − µij

El cálculo abreviado de las sumas de cuadrados es:

S A = b∑ x
2 2
i. − ab x

SB = a∑ x
2 2
.j − ab x

∑∑ x 2 ij − b ∑ x − a∑ x
2 2 2
SE = i. .j + ab x
27

Siendo:
N (número total de datos) = a·b
a = número de filas y
b = número de columnas

ST = S A + S B + S E

ST = ∑∑ x 2ij − abx
2

SA mide la influencia de αi en la heterogeneidad total

SB mide la influencia de βj en la heterogeneidad total

SE mide la influencia del error muestral en la heterogeneidad total

Donde:

αli = µ
m −µ
i.
l = xi. − x

βmj = µ
l −µ
.j
l = x. j − x

ε ij = xij − µ
l = x − x i . − x. j + x
ij ij
28
La tabla del análisis de la varianza para los modelos III y IV es:

Fuentes g.l Cuadrado medio: Cuadrado medio error: Estadístico: F


SC CM CME
E ( S "A ) = σ 2 +
SA b S "A
a-1 S "A =
a −1 a −1
∑ α 2i FA =
S "E
A SA
F(a-1),(a-1)(b-1)
Si H0(A) es cierta
E ( S "B ) = σ 2 +
a S"
b–1 S "B =
SB
b −1
∑ β2j FB = " B
B SB b −1 SE
F(b-1),(a-1)(b-1)
Si H0(B) es cierta
E ( S "E ) = σ 2
SE
S "E =
E SE (a – 1)(b - ( a − 1)( b − 1)
1)
Total ST a·b - 1

Finalmente, dado α, entonces:

F(α );(a −1),(a −1)( b −1)

Si

i)
S "A
FA = " 〉 F (α ) se rechaza H 0(A)
SE

S "A
FA = " ≤ F (α ) no se rechaza H 0(A)
SE

iii) Siendo

F(α ) = F( b −1),(a −1)( b −1)


29
"
SB
FB = > F (α ) se rechaza H 0(B)
S "E

S "B
FB = " ≤ F (α ) no se rechaza H 0(B)
SE

Ejercicio 7:
Supongamos que queremos contrastar si los consumos medios de combustible de
cuatro modelos de automóviles son homogéneos. Para ello realizamos pruebas con tres
conductores que podrían influir en la heterogeneidad de los consumos por cada 100
kilómetros, por lo que se recoge la información en bloques

Automóviles Conductores
B1 B2 B3
A1 8 6 7
A2 7 5 6
A3 6 6 5
A4 8 5,5 6

Contrastar con un nivel de significancia de 0.05, las siguientes hipótesis

a) La hipótesis de igualdad de consumos medios con los cuatro automóviles

b) La hipótesis de igualdad de consumos medios de los tres conductores.

Solución: Completando la tabla de datos

Automóviles Conductores xi. x


2
i.
B1 B2 B3
A1 8 6 7 7 49
A2 7 5 6 6 36
A3 6 6 5 5,6667 32,1115
A4 8 5,5 6 6,5 42,25
7,25 5,625 6,0
∑x
2
x. j x =6,2917 =159,3615
i.

52,5625 31,6406 36
∑x
2 2
x .j
.j
=120,2031
30
Siendo:

∑x
j =1
ij

xi. = , media de la fila


b

∑x ij
x. j = i =1
, media de la columna
a

1 1 1
x=
a
∑ x i . = ∑ x. j =
b ab
∑∑ xij = 6.2917, media global

2
x = 39,5855

a (nº de filas) = 4

b (nº de columnas) = 3

N(nº total de elementos muestrales) = a · b = 12

Suma de cuadrados

S A = b∑ x i. − abx = 478, 0845 − 475, 026 = 3, 0585


2 2

SB = a∑ x
2 2
.j − abx = 480,8124 − 475, 026 = 5, 7864

2
S E = ∑∑ x 2ij − b∑ x i. − a ∑ x
2 2
.j + abx = 486, 25 − 478, 0845 − 480,8124 + 475, 026 = 2,3791
31

La tabla de análisis de la Anova es:


Fuente SC g.l CM F(observada)
A SA =3,0585 a-1=3 3, 0585 1, 0195
S "A = = 1, 0195 FA = = 2,5712
3 0,3965
F3,6,0.05 = 4.76
FA < FCrit
B SB =5,7864 b-1=2 5, 7864 2,8932
S "B = = 2,8932 FB = = 7, 2968
2 0,3965
F2,6,0.05 = 5,14
FB > FCrit
E SE =2,3791 (a-1)(b-1)=6 2,3791
S "E = = 0,3965
6
Total ST =11,224 N-1=11

Por lo tanto:

a) No rechazamos que los consumos medios de los automóviles sean iguales

b) Rechazamos que los consumos medios con los distintos conductores sean
homogéneos.

Esto indica que era necesario repartir la información por bloques para evitar la influencia
de los conductores en la valoración de la homogeneidad de los consumos de los
automóviles
Para detectar que conductores tienen conducción heterogénea, deberíamos realizar
contrastes dos a dos utilizando la distribución “t”

3.2.2 Modelo IV: Anova con un factor, aleatorio en bloques y efectos aleatorios

El planteamiento de este modelo es inicialmente como el del modelo anterior en el que


los niveles Ai observados son parte de un colectivo mayor y los bloques Bj de la
experimentación son también parte de un colectivo mayor.
Por lo tanto, las medias de esos niveles µi. y µ.j son aleatorias y los efectos α i y β j
también son aleatorios, ya que α i = µi. − µ y β j = µ. j − µ

La descomposición aditiva es:

xij = µ + α i + β j + ε ij

La formulación del contraste, por lo tanto, quedaría así:


32

Contraste para H0(A)

En este caso decir que µ i. = µ ∀i , equivale a decir que σ 2α = 0 . Es decir, las


hipótesis a contrastar serían:

H 0( A) : σ 2α = 0 contra H1( A) : σ 2α ≠ 0

Y el estadístico del contraste sería:

S "A
F( A) = " = F( a −1),( a −1)(b −1) , si H 0( A) es cierta
SE

Si α es el nivel de significancia, F( a −1),( a −1)( b −1) (α ) = valor critico , entonces:

S "A
i ) Si " 〉 F (α ) ⇒ se rechaza H 0( A) : σ 2α = 0
SE

S "A
ii ) Si " ≤ F (α ) ⇒ no se rechaza H 0( A) : σ 2α = 0
SE

Contraste para H0(B)

De forma análoga contrastamos:

H 0( B ) : σ 2 β = 0 contra H1( B ) : σ 2 β ≠ 0

El estadístico de contraste sería:


33
S "B
FB = = F(b −1),( a −1)(b −1) , si H B es cierta
S "E

Por lo tanto, dado α , entonces:

S "B
i ) Si FB = " 〉 F (α ) ⇒ se rechaza H 0( B ) : σ 2 β = 0 ⇒ las medias µ. j son heterogeneas
SE

S "B
ii ) Si FB = " ≤ F (α ) ⇒ no se rechaza H 0( B ) : σ 2 β = 0 ⇒ consideramos las medias µ.j homogéneas
SE

La tabla del ANOVA para el modelo IV sería


Fuentes SC g.l CM CME Estadístico F
A SA a-1
S "A = A
S E ( S A ) = σ + bσ α
" 2 2
S"
FA = " A = F( a −1),( a −1)( b −1)
a −1 SE
Si H0(A) es cierta
B SB b-1
S "B = B
S E ( S B ) = σ + aσ β
" 2 2
S"
FB = " B = F(b −1),( a −1)( b −1)
b −1 SE
Si H 0(B) es cierta
E SE (a-1)(b-1)
S "E =
SE E (S E ) = σ
" 2

( a − 1)( b − 1)
Total ST

La hipótesis global sería:

H 0 : σ 2α = 0 contra H1 : σ 2α ≠ 0

H0 : σ 2β = 0 contra H1 : σ 2 β ≠ 0

Por lo tanto:

i) Si se rechaza H0(A) o se rechaza H0(B), entonces se rechaza H0

ii) Si no se rechaza H0(A) y no se rechaza H0(B), entonces no se rechaza H0

iii) Si se rechaza H0(A) medimos la heterogeneidad de las µi. con el estimador


insesgado
34

σ 2*α = (
1 "
b
S A − S "E )

iv) Si se rechaza H0(B) medimos la heterogeneidad de la µ. j con el estimador


insesgado

σ 2*β = (
1 "
a
S B − S "E )

Y, tendiendo encuenta que:

σ 2*T = σ 2*α + σ 2*β + σ 2*

σ 2*T = σ 2*α + σ 2*β + S "E

Cada una de las componentes tiene su porcentaje de influencia en la heterogeneidad


total medida por σ 2T . Estos serían:

σ 2*α
i) % de influencia del factor A en la variación total = 100
σ 2*T

σ 2* β
ii) % de influencia del factor B en la variación total = 100
σ 2*T

S "E
iii) % de influencia del error aleatorio E en la variación total = 100
σ 2*T
35
Ejemplo 8:
Se quiere contrastar si el consumo medio de combustible de los vehículos de un
determinado segmento es homogéneo. Para ello se eligen cuatro vehículos al azar y se
realizan pruebas experimentales con tres conductores distintos, elegidos también al
azar de un colectivo mayor de conductores.

En la tabla siguiente se recoge dicha información

Vehículos Conductores
B1 B2 B3
A1 8 7 6
A2 7 6 5
A3 5 6 4
A4 6 7 5

Contrastar con un nivel de significancia del 0,05

a) la hipótesis de homogeneidad de consumo de los automóviles del segmento


considerado

b) la hipótesis de homogeneidad de los consumos del conjunto de conductores

c) ordenar la influencia de los factores en la homogeneidad de los consumos

Solución:

La experimentación del modelo IV (con efectos aleatorios) es igual que el modelo III
(con efectos fijos), lo que cambia es que las conclusiones se proyectan a las
poblaciones de automóviles y conductores

Vehículos Conductores xi. x


2
i.
B1 B2 B3
A1 8 7 6 7 49
A2 7 6 5 6 36
A3 5 6 4 5 25
A4 6 7 5 6 36
6,5 6,5 5 x =6 ∑x
2
x. j i. = 146
42,25 42,5 25
∑x
2 2
x .j .j = 109,5

Como
36
S A = b∑ x i. − abx ⇒ S A = 3 ⋅146 − 3 ⋅ 4 ⋅ 6 = 6
2 2 2

SB = a∑ x
2 2
.j − abx ⇒ S B = 4 ⋅109,5 − 3 ⋅ 4 ⋅ 62 = 6

S E = ∑∑ x 2ij − b∑ x i. − a ∑ x. j + abx = 446 − 4 ⋅109,5 − 3 ⋅146 + 3 ⋅ 4 ⋅ 62 = 2


2 2

Por lo tanto, la tabla de la ANOVA sería:


Fuentes SC g.l CM Estadístico F
A SA = 6 a-1 =3 6 2
S " A = = 2 FA = = 6 > F.95;3,6 = 4, 7571
3 ⎛1⎞
⎜ ⎟
⎝3⎠
B SB = 6 b-1 =2 6 2
S "B = = 3 FA = = 6 > F.95;3,6 = 4, 7571
2 ⎛1⎞
⎜ ⎟
⎝3⎠
E SE = 2 (a-1)(b-1) 2 1
S "E = =
6 3

Por lo tanto:

a) Como FA es mayor que F3,6(0,05), entonces se rechaza H0(A): σ 2α = 0 , lo que


significa que las medias µi. son heterogéneas. Los consumos medios de los
vehículos del segmento considerado son heterogéneos

b) Como FB es mayor F2,6 (0,05), entonces se rechaza H0(B) : σ 2 β = 0 , lo que significa


que las medias µ. j son heterogéneas. Los consumos medios del conjunto de
conductores son heterogéneos

c) Se mide la heterogeneidad de las µi. y µ.j con su varianza V ( µi. ) = σ 2α y la de


las µ. j con su varianza V ( µ. j ) = σ 2 β

Puesto que σ 2α y σ 2 β son valores poblacionales, calculamos sus


estimaciones muestrales:
37

( S "A − S "E ) = ⎛⎜ 2 − ⎞⎟ = 0,5556


1 1 1
σ 2*α =
b 3⎝ 3⎠

( S "B − S "E ) = ⎛⎜ 3 − ⎞⎟ = 0, 6667


1 1 1
σ 2*β =
a 4 ⎝ 3⎠

σ 2*T = σ 2*α + σ 2*β + S "E = 0,5556 + 0, 6667 + 0,3333 = 1,5556

Por lo tanto, tenemos que:

σ 2*α
i) % de influencia del factor A en la variación total = 100 = 35, 7%
σ 2*T

σ 2*β
ii) % de influencia del factor B en la variación total = 100 = 42,8%
σ 2*T

S "E
iii) % de influencia del error aleatorio E en la variación total = 100 = 21,5%
σ 2*T

Se concluye que con estos datos lo que más influye en la heterogeneidad de los
consumos es, en primer lugar, la conducción realizada, en segundo lugar, el modelo de
automóviles de ese segmento, y, finalmente, la aleatoriedad, es decir el que sean esos
elementos muestrales y no otros los elegidos.

3.3 Varianza con dos criterios de clasificación

Este análisis de varianza esta basada en dos dimensiones de clasificación o


tratamientos.

Supongamos que al analizar el nivel de aprovechamiento en un programa de


capacitación, podría considerarse tanto el efecto de un método de instrucción como el
efecto de la escolaridad previa.

La interacción en un experimento de dos factores significa que los tratamientos no son


independientes, y que el efecto de un tratamiento determinado sobre otro difiere según
niveles del otro factor.
38
Por ejemplo, puede diferir la efectividad de diversos métodos de instrucción según los
niveles de habilidad de los estudiantes.

Para probar la interacción, debe incluirse en cada una de las celdas de una tabla de
datos de dos sentidos más de una observación o medición muestreada (Replicas)

Cuando se utiliza este tipo de diseño, pueden probarse, con análisis de varianza, tres
hipótesis nulas distintas:

1) Que no existen efectos por columna, es decir, los promedios por columna no
difieren en forma significativa.

2) Que no existen efectos por reglón, es decir, las medias por reglón no difieren
en forma significativa

3) Que no existe interacción entre los factores, es decir, los dos factores son
independientes

Un efecto de interacción significativo indica que el efecto de los tratamientos de un


factor varía de acuerdo con los niveles del otro factor

3.3.1 Análisis de la varianza con dos factores e información completamente


aleatoria

Modelo V: Análisis de la varianza con dos factores, información completamente


aleatoria y efectos fijos

El modelo lineal para el análisis de varianza con dos criterios de clasificación, con
replicas, es:

X ijk = µ + β j + α k + τ jk + ε ijk

A continuación, presentamos una tabla de datos muestrales simplificada con

n = 3 elementos por casilla

a = 3 (numero de niveles del factor A)

b = 3 (número de niveles del factor B), sería:


39

B1 B2 B3

A1 X111 X121 X131

X112 X122 X132

X113 X123 X133

A2 X211 X221 X231

X212 X222 X232

X213 X223 X233

A3 X311 X321 X331

X312 X322 X332

X313 X323 X333

Xijk procede de la población (Ai, Bj) que es N (µ ij , σ ) , por lo tanto, el error aleatorio es:

ε ijk = xijk − µ ij .

No se cumple la aditividad, es decir µ ij = µ + α i + β j , donde además entre los


factores puede existir interacción:

I ij = µ ij − ( µ + α i + β j )

Siendo:

µij : media real de la población (A i , B j )

µ + α i + β j : valor teórico del número poblacional si los efectos son aditivos

El esquema de trabajo para las observaciones xijk sería:


40
xijk = µijk + ε ijk = µ + α i + β j + I ij + ε ijk .

Las hipótesis a contrastar serían:

S A = b∑ x i. − abx = 478, 0845 − 475, 026 = 3, 0585


2 2

SB = a∑ x
2 2
.j − abx = 480,8124 − 475, 026 = 5, 7864

2
S E = ∑∑ x 2ij − b∑ x i. − a ∑ x
2 2
.j + abx = 486, 25 − 478, 0845 − 480,8124 + 475, 026 = 2,3791

Si no se rechazan H 0(A), H 0(B) y H 0(AB), entonces no se rechaza H0: µij = µ∀ij

Si se rechaza H 0(A) o H 0(B) o H 0(AB), entonces se rechaza H0: µij = µ∀ij

Para realizar este contraste necesitamos formular el estadístico que define la región
crítica, es decir la descomposición es la siguiente:

Igualdad fundamental del análisis de la varianza para el modelo V

Los valores que aparecen en ella son los de la tabla siguiente:

B1 B2 B3 x i..

A1
x 11. x 12. x 13. x 1..

A2
x 21. x 22. x 23. x 2..

x. j . x .1. x.2. x .3. x...


Siendo:

αl i = x i.. − x, βl j = x . j . − x, I ij = xij . − x i.. − x. j . + x


41
ST = ∑∑∑ xijk − x ( ) = ∑∑∑ ( x ) (
− x + ∑∑∑ x. j . − x +)
2 2 2
i ..

( )
+∑∑∑ x ij . − x i.. − x. j . + x + ∑∑∑ xijk − x ij .( )
2 2

ST = S A + S B + S AB + S E ó

ST = STR + S E

Siendo

STR = SA + SB + SAB
Suma de cuadrados debida a todos los tratamientos.

El cálculo abreviado de estas sumas de cuadrados sería:


42
2
T ...
C=
abn

S T = ∑
ijk
x 2
ijk − C

1
S TR =
n
∑ij
T 2
ij . − C

S E = S T − S TR

1
S A =
nb
∑ i
T 2
i .. − C

1
S B =
na
∑ j
T 2
. j. − C

S AB = S TR − S A − S B

Siendo:

Tij.= Total muestral de la casilla ij

Ti.. = Total de la fila i-ésima

T.j.= Total de la columna j-ésima

T… = Total de todos los datos xijk


43

Que quedarían así en una tabla

B1 B2 B3 Ti..

A1 T11. T12. T13. T1..

A2 T21. T22. T23. T2..

A3 T31. T32. T33. T3..

T.j. T.1. T.2. T.3. T…

El cuadro de la anova para el modelo V sería:

Fuentes g.l SC CM CME Estadístico: F

A a-1 SA S”A
E ( S "A ) = σ 2 +
nb S "A
∑ α 2i
a −1 i
FA =
S "E
= F( a −1),ab( n −1)

Si H0(A) es cierta

B b-1 SB S”B na S "B


E ( S "B ) = σ 2 + ∑β2j
b −1 j
FB =
S "E
= F( b −1),ab( n −1)

Si H0(B) es cierta

AB (a-1)(b-1) SAB S”AB n S "AB


( a − 1)( b − 1) ∑
E ( S "AB ) = σ 2 + I 2
ij FAB = = F( a −1)( b −1), ab( n −1)
ij S "E

Si H0(AB) es cierta

E ab(n-1) SE S”E E ( S "E ) = σ 2

Total abn-1 ST

Los contrastes se resuelven así:


44
S "A
1. Sí 〉 F( a −1),ab( n −1) (α ) se rechaza H 0(A)
S "E

S "B
2. Sí 〉 F(b −1),ab( n −1) (α ) se rechaza H 0(B)
S "E

S"AB
3. Sí 〉 F( a −1)( b −1),ab( n −1) (α ) se rechaza H 0(AB)
S"E
Los contrastes posteriores para el caso en que se rechace H0 son similares a los de los
modelos anteriores

Ejercicio 10:

Supongamos que deseamos contrastar si el promedio de horas de sueño de unos


pacientes que están sometidos a un tratamiento conjunto de dos factores, A: uso de
analgésicos y B: uso de somníferos, es homogéneo para todos los tratamientos. Para
ello obtenemos las siguientes observaciones

B1 B2 B3

5 6 6

A1 6 6 7

6 7 7

7 8 6

A2 6 7 7

6 6 6

7 6 7

A3 5 7 8

6 7 5

Contrastar con α = 1% las siguientes hipótesis


45
a) Si el promedio de horas de sueño es homogéneo con los distintos tratamientos
Ai de analgésicos

b) Si el promedio de horas de sueño es homogéneo con los distintos tratamientos Bj


de somníferos.

c) Si existe interacción entre ellos

d) Sí el promedio de horas de sueño es homogéneo con los distintos tratamientos


conjuntos (Ai, Bj)

nº de niveles del factor A: a = 3

nº de niveles del factor B: b = 3

nº de elementos muestrales por casilla: n = 3

La tabla siguiente contiene los datos que se necesitan para calcular las sumas de
cuadrados

Tij. Ti..
17 19 20 56

19 21 19 59

18 20 20 58

T.j. 54 60 59 T… = 173

Por lo tanto, las sumas de cuadrados son las siguientes

T 2... 1732
C= ⇒C = = 1.108, 4815
abn 27

ST = ∑ x 2ijk − C = 1.125 − 1.108, 4815 = 16,5185


ijk
46
1 1
STR = ∑
n ij
T 2ij . − C ⇒ STR = 3.337 − 1.108, 4815 = 3,8518
3

1 1
SA = ∑
nb i
T 2i.. − C ⇒ S A = 9.981 − 1.108, 4815 = 0,5185
9

1 1
SB = ∑
na j
T 2. j . − C ⇒ S B = 9.997 − 1.108, 4815 = 2, 2963
9

S AB = STR − S A − S B ⇒ 3,8518 − 0,5185 − 2, 2963 = 1, 0370

S E = ST − STR ⇒ S E = 16,5185 − 3,8518 = 12, 6667

El cuadro de la anova sería:

Fuente SC g.l CM Estadística F

A SA = 0,5185 2 S”A=0,2593 S "A


FA = = 0,3685 observada
S "E
F.99;2,18=6,01

B SB = 2,2963 2 S”B=1,1482 S "B


FB = = 1, 6317
S "E
F.99;2,18=6,01

AB SAB=1,0370 4 S”AB=0,2593 S "AB


FAB = = 0,3685
S "E
F.99;4,18=4,58

E SE =1,6667 18 S”E=0,7037

Total ST=16,5185

Por tanto:
47
a) El promedio de horas de sueño es homogéneo con los distintos tratamientos
de analgésicos

b) El promedio de horas de sueño es homogéneo con los distintos tratamientos de


somníferos

c) No existe interacción entre los tratamientos de analgésicos y los somníferos

d) El promedio de horas de sueño es homogéneo con los tratamientos combinados,


(Ai, Bj), puesto que sí no se rechazan H0(A), H0(B) y H0(AB), entonces no se rechaza
H 0 : µij = µ ∀ij

Modelo VI: Análisis de la varianza con dos criterios, información completamente


aleatoria y efectos aleatorios

Este modelo es similar, en cuanto a los términos de las sumas de cuadrados, al modelo
V, y a los modelos II y IV de efectos aleatorios, en cuanto al tratamiento.

El esquema de trabajo aditivo para las observaciones, xijk , la igualdad fundamental y el


calculo abreviado es igual que en el modelo V

Los contrastes serían:

1. H 0( A) : σ 2α = 0 contra H1( A) : σ 2α ≠ 0

2. H 0( B ) : σ 2 β = 0 contra H1( B ) : σ 2 B ≠ 0

3. H 0( AB ) : σ 2αβ = 0 contra H1( AB ) : σ 2αβ ≠ 0

El contraste global sería:

H 0 : σ α 2 = 0 ∨ σ 2 β = 0 ∨ σ 2αβ = 0

H1 : σ 2α ≠ 0 ∨ σ 2 β ≠ 0 ∨ σ 2αβ ≠ 0
48
El cuadro de la anova sería:

Fuente SC g.l CM CME Estadístico F

A SA a-1 SA E ( S "A ) = σ 2 + nσ 2αβ + nbσ 2α S "A


S "A = FA =
a −1 S "AB

F(a-1),(a-1)(b-1)

B SB b-1 SB E ( S "B ) = σ 2 + nσ 2αβ + naσ 2 β S "B


S "B = FB =
b −1 S "AB

F(b-1),(a-1)(b-1)

AB SAB (a-1)(b-1) S AB E ( S "AB ) = σ 2 + nσ 2αβ S "AB


S "AB = FAB =
( a − 1)( b − 1) S "E

F(a-1)(b-1),ab(b-1)

E SE ab(n-1) SE E ( S "E ) = σ 2
S "E =
ab ( n − 1)

Los contrastes serían:

1) Para contrastar H0(A)

S "A
Sí FA = 〉 F( a −1),( a −1)( b −1) (α ) ⇒ se rechaza H 0( A)
S "E

2) Para contrastar H 0(B)

S "B
Sí FB = 〉 F(b −1),( a −1)( b −1) (α ) ⇒ se rechaza H 0( B )
S "E
3) Para contrastar H 0(AB)

S "AB
Sí FAB = 〉 F( a −1)( b −1),ab( n −1) (α ) ⇒ se rechaza H 0( AB )
S "E

Los estimadores insesgados de las varianzas que miden la heterogeneidad de los


α i , β j ∨ I ij serían:
49
1
σ 2*α = ( S "A − S "AB )
nb

1
σ 2*β = ( S "B − S "AB )
na

1
σ 2*αβ = ( S "AB − S "E )
n
Y como

σ 2*T = σ 2*α + σ 2*β + σ 2*αβ + S "E

Los porcentajes de influencia de cada factor en la variación total, estimada por σ 2*T ,
serían:

σ 2*α
% de influencia del factor A en la heterogeneidad total = 100
σ 2*T

σ 2*β
% de influencia del factor B en la heterogeneidad total = 100
σ 2*T

σ 2*αβ
% de influencia de la interacción AB en la heterogeneidad total = 100
σ 2*T

S "E
% de influencia del error aleatorio E en la heterogeneidad total = 100
σ 2*
T
50
Ejercicio 11

Supongamos que deseamos contrastar si el promedio de horas de sueño de unos


pacientes que están sometidos a un tratamiento conjunto de dos factores, A: uso de
analgésicos y B: uso de somníferos, es homogéneo para todos los tratamientos. Donde
los nivele Ai de A son parte de una población y los niveles Bj son también parte de una
población

Para ello obtenemos las siguientes observaciones:

B1 B2 B3

A1 8 6 6

7 7 7

7 7 7

A2 8 8 6

9 7 7

10 6 6

A3 7 6 7

5 7 8

6 7 5

Contrastar con un nivel de significancia del 5% sí:

a) El promedio de horas de sueño es homogéneo con todos los tratamientos de


analgésicos

b) El promedio de horas de sueño es homogéneo con todos los tratamientos de


somníferos

c) Si existe interacción significativa de los factores

d) Si el promedio de horas de sueño es homogéneo con todos los tratamientos


combinados (Ai, Bj)

e) Si se rechazan algunas hipótesis, ordenar la influencia de los factores en la


heterogeneidad total.

La tabla de los totales muestrales (Tij.), totales por fila (Ti..), totales por columnas
(T.j.) y sus correspondientes cuadrados es:
51

Tij. B1 B2 B3 Ti.. T2i..


A1 22 20 20 62 3.844

A2 27 21 19 67 4.489

A3 18 20 20 58 3.364

T.j. 67 61 59 T…=187 ∑T 2
i .. = 11.697

T2.j. 4.489 3.721 3.481 ∑T 2


. j. = 11.691

2
El cuadro de los T ij. Es:

T2ij.
484 400 400

729 441 361

324 400 400

∑T 2
ij . = 3.939

Y las sumas de los cuadrados de las observaciones muestrales xijk

∑x ijk
2
ijk = 1.327

La suma de cuadrados sería:


52
2
T ... 34.969
C= = = 1.295,1481
abn 27

ST = ∑ x 2ijk − C = 1.327 − 1.295,1481 = 31,8519


ijk

1 1
SA =
nb
∑ T 2i.. − C = 11.697 − 1.295,1481 = 4,5186
9

1 1
SB = ∑
na j
T 2. j . − C = 11.691 − 1.295,1481 = 3,8519
9

S AB = STR − S A − S B = 17,8519 − 4,5186 − 3,8519 = 9, 4814

1 1
STR = ∑
n ij
T 2ij − C = 3.939 − 1.295,1481 = 17,8519
3

El cuadro de la anova sería:

Fuente SC g.l CM Estadístico F

A SA = 4,5186 2 S”A=2,2593 S "A


FA = = 0,9531
S "AB

F.95;2,4 = 6,94

B SB = 3,8519 2 S”B=1,926 S "B


FB = = 0,8126
S "AB

F.95;2,4=6,94

AB SAP=9,4814 4 S”AB=2,3704 S "AB


FAB = = 3, 0476
S "E

F.95;4,18 = 2,93

E SE =14 18 S”E=0,7778
53

Como:

FA < Fcrit, entonces No se rechaza H0(A)

es decir, no se rechaza H 0( A) : σ 2α = 0

FB < Fcrit, entonces No se rechaza H0(B)

es decir, no se rechaza H 0( B ) : σ 2 β = 0

FAB > Fcrit, entonces se rechaza H0(AB),

es decir, se rechaza H 0( AB ) : σ 2αβ = 0

Entonces:

a) No rechazamos que el promedio de horas de sueños con los distintos


analgésicos sea homogéneo

b) No rechazamos que el promedio de horas de sueño con los distintos somníferos


sea homogéneo.

c) Existe una interacción significativa entre los dos factores

d) El promedio de horas de sueño no son homogéneas con todos los tratamientos


combinados debido a la interacción.

e) Para calcular la influencia en la variación total medimos la heterogeneidad de


cada uno de los factores y del error aleatorio muestral con sus correspondientes:

σ 2α , σ 2 β , σ 2αβ , σ 2
Como las varianzas son poblacionales y, por ello, no las podemos calcular vamos a
estimarlas.

1
σ 2*α = ( S "A − S "AB ) 〈 0
nb

ya que no rechazamos que σ 2α = 0, tomamos σ 2α = 0


54
1
σ 2* β = ( S "B − S "AB ) 〈 0
na

ya que no rechazamos que σ 2 β = 0, tomamos σ 2 β = 0


Como rechazamos H0 (AB), entonces:

1 1
σ 2*αβ = ( S "AB − S "E ) = ( 2,3704 − 0, 7778) = 0,5309, entonces
n 3

σ 2* = S "E = 0, 7778
La heterogeneidad total estimada es:

σ 2*T = σ 2*α + σ 2*β + σ 2*αβ + S "E = 0 + 0 + 0,5309 + 0, 7778 = 1,3087

σ 2*αβ
% de influencia de la interacción AB en la heterogeneidad total = 100 = 40,57%
σ 2*T

S "E
% de influencia del error aleatorio E en la heterogeneidad tota = 100 = 59, 43%
σ 2*T

En conclusión, la heterogeneidad del número de horas de sueño, depende, en primer


lugar, del error aleatorio en un 59,43%, y luego de la interacción entre los dos
tratamientos en un 40,57%. La influencia en la heterogeneidad total del error muestral
es debida a los elementos elegidos para las observaciones.

3.3.2 Análisis de la varianza con dos factores e información aleatoria en bloques

En este punto se trataran dos modelos similares a los modelos V y VI, pero incluidas un
tercer factor de bloqueo que puede influir en la heterogeneidad, aunque no sea un
factor principal.
55
Modelo VII: Anova con dos factores, información aleatoria en bloques y factores
fijos

En a siguiente tabla se expresan sus promedios

C1 C2 C3 µij .

A1B1 µ111 µ112 µ113 µ11.


A1B2 µ121 µ122 µ123 µ12.
A1B3
µ131 µ132 µ133 µ13.

A2B1 µ 211 µ 212 µ 213 µ 21.


A2B2 µ 221 µ 222 µ 223 µ 22.
A2B3
µ 231 µ 232 µ 233 µ 23.

µ..k µ..1 µ..2 µ..3 µ

Este modelo se explicará con un ejemplo.

Consideremos la venta de refrescos como variable dependiente y como factores el


sabor (A) y la zona de venta (B). Si tenemos la sospecha de que el mes de la
observación puede influir en la heterogeneidad de las ventas, entonces recogemos la
información por bloques, de tal manera que en cada mes de observación se recojan
datos de todas las combinaciones posibles (Ai, Bj). Si dejáramos de recoger
información para una combinación determinada (Ai, Bj) en un mes de más ventas de
refrescos, puede parecer que las otras combinaciones (Ai, Bj) tienen mayores ventas
por término medio, y en esto ha influido que la combinación mencionada no se ha
observado en ese mes. Para evitar estas conclusiones falsas, todas las parejas (Ai, Bj)
han de ser observadas en cada bloque Ck siendo i =1,…,a; j = 1,…,b y k = 1,…, n.

La siguiente tabla (abreviada) contiene todas las medias poblacionales de todas las
combinaciones posibles para i = 1, 2; j = 1, 2, 3 y k = 1, 2, 3
56
C1 C2 C3 xij .

A1B1 x111 x112 x113 x11.


A1B2 x121 x122 x123
x12.
A1B3 x131 x132 x133
x13.

A2B1 x211 x212 x213 x 21.


A2B2 x221 x222 x223
x 22.
A2B3 x231 x232 x233
x 23.

x..k x..1 x..2 x..3 x...

Las variables poblacionales corresponden a cada combinación (Ai, Bj, Ck), y sus
variables representan al número de refrescos vendidos por sabor, zona y mes. Estas
variables son ( )
N ( µ ijk , σ ) . Las observaciones muestrales xijk son N µ ijk , σ , y el
error aleatorio ε ijk = xijk − µijk . Las medias de cada bloque son:

∑∑ µ ijk

µ..k = i j

ab

El cuadro de datos muestrales, abreviado es:


57

Las medias por casilla ( µ ) , por filas ( µ ) y por columnas ( µ. j. ) serían:


ij . i ..

B1 B2 B3 µi..
A1 µ11. µ12. µ13. µ1..

A2 µ 21. µ 22. µ 23. µ 2..

µ. j . µ.1. µ.2. µ.3. µ

Los efectos de los niveles Ai, Bj y Ck se definen de la siguiente manera, y sus


estimadores serían:

αl i = µ
l −µ
i ..
l = x i.. − x Para A
i

βl j = µ
l −µ
. j.
l = x. j . − x Para B
j

γ k = µ
l −µ
..k
l = x..k − x Para C
k

(
I ij = xij . − xi.. + x. j . − x )
Las observaciones muestrales se pueden descomponer así:

xijk = µ + α i + β j + I ij + γ k + ε ijk
58
Las hipótesis a contrastar serían:

1. H 0( A) : µi.. = µ ∀i ∨ H 0( A) : α i = 0 ∀i.

2. H 0( B ) : µ. j . = µ ∀j ∨ H 0( B ) : β j = 0 ∀j.

3. H 0( AB ) : I ij = 0 ∀ij ∨ H 0( AB ) : µij . = µ + α i + β j ∀ij .

4. H 0( BL ) : µ.k = µ ∀k ∨ H 0( BL ) : γ k = 0 ∀k .

La igualdad fundamental para el análisis de la varianza para los modelos VII y VIII
consiste en descomponer la suma total de cuadrados ST en suma de términos, de tal
manera que, cada uno mide la heterogeneidad debida a los α i , β j , Iij , γ k y ε ijk . Esto es:

( ) ( ) ( )
2
ST = ∑ xi.. − x + ∑ x. j . − x + ∑ xij . − xi.. − x. j . + x +
2 2

ijk ijk ijk

( ) (
+∑ x.k − x + ∑ xijk − x ij . − x.k + x )
2 2

ijk ijk

ST = S A + S B + S AB + S BL + S E

Siendo

STR = ∑ xij . − x( )
2
= S A + S B + S AB
ijk

Los cálculos abreviados de las sumas de cuadrados son:


59

T 2...
C=
abn

ST = ∑ijk
x 2 ijk − C

1
S TR =
n
∑T
ij
2
ij . −C

1
SA =
nb
∑T i
2
i .. −C

1
SB =
na
∑T j
2
. j. −C

S AB = S TR − S A − S B

1
S BL =
ab
∑T k
2
.k −C

Los totales Tij., Ti.. y T.j. ya están definidos en los modelos V y VI, y los totales

T.k = ∑ ( xijk )
ijk
60
Figuran en la tabla siguiente

C1 C2 C3

A1B1 x111 x112 x113

A1B2 x121 x122 x123

A1B3 x131 x132 x133

A2B1 x211 x212 x213

A2B2 x221 x222 x223

A2B3 x231 x232 x233

T..1 T...2 T…3

SE = ST – STR – SBL
Teniendo en cuenta que

ST = STR + SBL + SE

El cuadro de análisis de la anova sería el siguiente


61

SC g.l CM CME Estadístico F

SA bn
SA a-1 S "A =
a −1
E ( S "A ) = σ 2 + ∑
a −1 i
α 2i S "A
FA =
S "E
F(a-1), (ab-1)(n-1)

Si H0(A) es cierta
SB an S"
SB b-1 S "B =
b −1
E ( S "B ) = σ 2 + ∑β2j
b −1 j
FB = B
S "E
F(b-1), (ab-1)(n-1)

Si H0(B) es cierta
S AB n S"
( a − 1)( b − 1) ∑∑
S "AB = E ( S "AB ) = σ 2 + I 2ij S "AB = AB
SAB
(a-1)(b-1) ( a − 1) (b − 1) i j S "E
F(a-1)(b-1), (ab-1)(n-1)

Si H0(AB) es cierta
S BL ab S "BL
SBL S "BL =
n −1
E ( S "BL ) = σ 2 + ∑ γ 2k
n −1 k S "E
n-1
F(n-1), (ab- 1)(n-1)

si H0(BL) es cierta
SE S ( S "E ) = σ 2
S "E =
SE
(ab-1)(n-1) ( ab − 1)( n − 1)
Abn-1
ST

Para comparar las cuatro hipótesis se compran los valores empíricos de los estadísticos
FA, FB, FAB y FBL con los valores críticos de F( α ), cada uno con sus grados de libertad.
Por lo tanto, si es α el nivel de significación, entonces se tiene:

1) Sí FA > F(a-1),(ab-1)(n-1) ( α ) se rechaza H0(A)

2) Si FB > F(b-1),(ab-1)(n-1) ( α ) se rechaza H0(B)


3) Sí FAB > F(a-1)(b-1), (ab-1)(n-1) se rechaza H0(AB)

4) Sí FBL > F(n-1), (ab-1)(n-1) se rechaza Ho(BL)


62
Si no se rechazan H0(A), H0 (B), H0 (AB) y H0(BL), entonces no se rechaza H 0 : µ ijk = µ

H0 es la hipótesis global sobre la homogeneidad de todas las poblaciones


correspondientes a los niveles (Ai, Bj, Ck).

Si se rechaza H0(A) o H0 (B) o H0(AB) o H0(BL), entonces se rechaza H0

Ejercicio 12
Supongamos que deseamos contrastar si la venta de refrescos es homogéneo como
variable dependiente de dos factores (A: el sabor; B: el tipo de punto de venta).
Recogemos la información en dos meses que pueden influir en la heterogeneidad de las
ventas. Los datos observados de las ventas en millones de pesos son los siguientes:

C1 C2
A1B1 8 10
A1B2 4 6
A1B3 5 10
A2B1 8 7
A2B2 6 8
A2B3 5 9
A3B1 7 8
A3B2 7 9
A3B3 6 8

Siendo:
A1: sabor cola
A2: sabor naranja
A3: sabor limón
B1: cafeterías;
B2: bares;
B3: supermercados
C1: mes de junio
C2: mes de julio

Contrastar con un nivel de significancia de 5%

a) Sí el promedio de ventas de refrescos de los tres sabores es homogéneo

b) Sí el promedio de ventas de refrescos en los tres tipos de puntos de venta es


homogéneo

c) Sí existe interacción entre ellos

d) Sí el promedio de ventas en los dos meses en los que se realizan las


observaciones presentas diferencias significativas
63
e) Sí el promedio de refrescos vendidos por (sabor, punto de venta, mes) es
homogéneo para todas las combinaciones posibles.

La siguiente tabla indica el tratamiento de los datos por filas y columnas

B1 B2 B3
A1 (8) (4) (5)
[10] [6] [10]
A2 (8) (6) (5)
[7] [8] [9]
A3 (7) (7) (6)
[8] [9] [8]

Donde:
( ) Son datos del bloque C1 (mes de junio)

[ ] Son los datos del bloque C2 (mes de julio)

Los totales de las casillas Tij, para cada (Ai, Bj), los totales de las filas Ti.. y los totales
de las columnas T.j. figuran en la siguiente tabla:

B1 B2 B3 Ti.. T2i..
A1 18 10 15 43 1.849
A2 15 14 14 43 1.849
A3 15 16 14 45 2.025
T.j. 48 40 43 T…=131 ∑ T 2i.. = 5.723
T2.j. 2.304 1.600 1.849 ∑T 2
. j. = 5.753

T 2... 17.161
T ... = 131 = 17.161 ⇒ C =
2 2
= = 953,3889
abn 3 ⋅ 3 ⋅ 2

∑x = 1.003; a = 3; b = 3; n = 2
2

ijk

Las sumas de cuadrados serían:


64
ST = ∑ ( x 2
ijk ) − C = 1.003 − 953,3889 = 49, 611
ijk

STR =
1

n ij
( T 2ij . ) − C = 1.943 − 953,3889 = 18,1111
1
2

SA =
1

nb i
( T 2i.. ) − C = 5.723 − 953,3889 = 0, 4444
1
6

SB =
1

na j
( T 2. j . ) − C = 5.753 − 953,3889 = 5, 4444
1
6

S AB = STR − S A − S B = 18,1111 − 0, 4444 − 5, 4444 = 12, 2223

T..1 = ( 8 + 4 + 5 + 8 + 6 + 5 + 7 + 7 + 6 ) = 56 Datos del bloque C1 (mes de junio)

T..2 = (10 + 6 + 10 + 7 + 8 + 9 + 8 + 9 + 8 ) = 75 Datos del bloque C2 (mes de julio)

S BL =
1

ab k
( T 2. k ) − C =
1
ab
( T 2..1 + T 2..2 ) − C = ( 562 + 752 ) − 953,3889 = 20, 0555
1
9

SE = ST – SBL- STR = 49,6111 - 20,055 – 18,1111= 11, 4445

Por lo tanto la tabla de la anova es:


65
SC g.l CM FObs
A SA = 0,4444 2 S”A = 0,2222 S "A
FA = = 0,1553
S "E
F.95,2,18=3,55
B SB = 5,4444 2 S”B = 2,7222 S"
FB = B = 1,9028
S "E
F.95,2,18=3,55
AB SAB=12,2223 4 S”AB =3,0556 S"
FAB = AB = 2,1359
S "E
F.95,4,8=3,84
BL SBL =20,055 1 S”BL=20,0555 S"
FBL = BL = 14, 0189
S "E
F.95,1,8=5,32
Error SE =11,4445 8 S”E =1,4306
Total ST = 49,6111 17

Por tanto:

a) No se rechaza H0(A), esto es, el promedio de refrescos de los tres sabores es


homogéneo

b) No se rechaza H0(B), esto es, que el promedio de refrescos vendidos en los tres
puntos de venta es homogéneo

c) No se rechaza H0(AB), es decir, que no existe interacción

d) Se rechaza H0(BL), es decir, que la ventas promedios de los dos meses son
heterogéneas

e) Se rechaza la hipótesis global, lo que indica que las ventas medias de las
combinaciones (sabor, punto de venta, mes) son heterogéneas, siendo la
heterogeneidad debida a la influencia del mes en que se realizan las
observaciones.

Modelo VIII: Anova con dos factores, información aleatoria en bloques y


efectos aleatorios

El esquema de trabajo y la igualdad fundamental del análisis de la varianza es como


en el modelo VII. La diferencia radica en que α i , β j , I ij y γ k son variables. Esto
ocurre por que los niveles Ai, Bj y Ck (bloques) son parte de un colectivo mayor.

La experimentación se realiza de la misma forma que en el modelo de efectos fijos,


por lo tanto la tabla de datos es la misma, pero las conclusiones se extensivas a la
población
66
Las hipótesis a contrastar serían:

1. H 0( A) : σ 2α = 0 frente a H1( A) : σ 2α ≠ 0

2. H 0( B ) : σ 2 β = 0 frente a H 0( B ) : σ 2 β ≠ 0

3. H 0( AB ) : σ 2αβ = 0 frente a H 0( AB ) : σ 2αβ ≠ 0

4. H 0( BL ) : σ 2C = 0 frentae a H 0( BL ) : σ 2C ≠ 0

La tabla de la anova es:


SC g.l CM CME F
SA a-1 SA E ( S "A ) = σ 2 + nσ 2αβ + nbσ 2 β S "A
S "A = FA = =
a −1 S "AB
F( a −1),( a −1)( b −1)
SB b-1 SB E ( S "B ) = σ 2 + nσ 2αβ + naσ 2 β S "B
S "B = FB = =
b −1 S "AB
F( b −1),( a −1)( b −1)
SAB (a-1)(b-1) S AB E ( S "AB ) = σ 2 + nσ 2αβ S "AB
S "AB = FAB = =
( a − 1)( b − 1) S "E
F( a −1)(b −1),( ab −1)( b −1)
SBL (n-1) S BL E ( S "BL ) = σ 2 + nσ 2αβ + abσ 2C S "BL
S "BL = FBL = =
n −1 S "AB
F( n −1),( a −1)(b −1)
SE (ab-1)(n-1) S "E E ( S "E ) = σ 2
S "E =
( ab − 1)( n − 1)

Los contrastes son:


67
1 Para contrastar H0(A

Sí FA ≤ F( a −1),( a −1)( b −1) (α ) ⇒ no se rechaza H 0(A)

2 Para contrastar H0(B)

Sí FB ≤ F( b −1),( a −1)( b −1) (α ) ⇒ no se rechaza H 0( B)

3. Para contrastar H0(AB)

Sí FAB ≤ F( a −1)(b −1),( ab −1)( n −1) (α ) ⇒ no se rechaza H 0(AB)

4. Para contrastar H0(BL)

Sí FBL ≤ F( n −1),( a −1)(b −1) (α ) ⇒ No se rechaza H 0(BL)

La hipótesis global es:

H 0 : σ 2α = 0 ∨ H 0 : σ 2 β = 0 ∨ H 0 : σ 2αβ = 0 ∨ H 0 : σ 2C = 0

Frente a:

H1 : σ 2α ≠ 0 ∨ H1 : σ 2 β ≠ 0 ∨ H1 : σ 2αβ ≠ 0 ∨ H1 : σ 2C ≠ 0

Si se rechazan H0(A) o H 0(B) o H0 (AB) o H0(BL), entonces se rechaza H0

Sí no se rechaza H0 (A), H0 (B), H0 (AB) y H0(BL), entonces no se rechaza H0

Si se rechaza H0, mediremos la variabilidad o heterogeneidad de los efectos


correspondientes estimando las varianzas σ 2α , σ 2 β , σ 2αβ ∨ σ 2C . Estos estimadores,
teniendo encuenta las expresiones de los cuadrados medios esperados, serían:
68
1
σ 2*
α = (S " A − S " AB )
nb

σ 2*
β =
1
na
(S "
B − S " AB )

1
σ 2*
αβ = (S " AB − S "E )
n

1
σ 2*
C = (S "BL − S " AB )
ab

Y, como σ 2*T = σ 2*α + σ 2*β + σ 2*αβ + σ 2*C + S "E

Por lo tanto, se tiene:

σ 2*α
% de influencia del factor A = 100
σ 2*T

σ 2*β
% de influencia del factor B = 100
σ 2*T

σ 2*αβ
% de influencia de la interacción AB = 100
σ 2*T
69
σ 2*
C
% de influencia del bloque C = 100
σ 2*
T

S "E
% de influencia del error aleatorio E = 100
σ 2*T

Ejercicio 13:
Supongamos que queremos contrastar si el promedio de pantalones confeccionados,
por jornada de trabajo, es homogéneo dependiendo de la máquina que realiza la
confección y del tejido empleado. Para realizar la experimentación se responsabilizan
del proceso operarios distintos de los que sospecha que también pueden influir en la
heterogeneidad de la producción. Se toman tres máquinas de un población, tres tipos
de tejido de una población y dos operarios de una población.
Tenemos el siguiente conjunto de datos

C1 C2
A1B1 8 10
A1B2 6 6
A1B3 5 10
A2B1 5 7
A2B2 4 6
A2B3 3 5
A3B1 10 15
A3B2 9 12
A3B3 8 14

Contrastar con un nivel de significancia del 1%

a) Si el promedio de pantalones confeccionados por jornada es homogéneo con


todas las máquinas

b) Sí el promedio de pantalones confeccionados por jornada es homogéneo para


todos los tejidos

c) Sí el promedio de pantalones confeccionados es homogéneo para todos los


operarios

d) Si existe interacción entre los factores máquina y tejido empleados

e) Si son homogéneas las producciones medias para cada combinación (máquina,


tejido, operario) de manera conjunta
70
f) Si se rechazan algunas de las hipótesis, ordenar la influencia de éstas en la
heterogeneidad total.

Al reordenar los datos de la tabla anterior en una tabla de doble entrada para (Ai, Bj) y
los datos de los bloques, así:

( ): Los datos del primer bloque

[ ]: Los datos del segundo bloque

B1 B2 B3
A1 (8) (6) (5)
[10] [6] [10]
A2 (5) (4) (3)
[7] [6] [5]
A3 (10) (9) (8)
[15] [8] [14]

La tabla de los totales es.

B1 B2 B3 Ti.. T2i..
A1 18 12 15 45 2.025
A2 12 10 8 30 900
A3 25 17 22 64 4.096
T.j. 55 39 45 T…=139 ∑ T 2... = 7.021
T2.j. 3.025 1.521 2.025 ∑T 2
. j. = 6.571

T 2... 19.321
T 2
= 193.211 ⇒ C = = = 1.073,3889
abn 3 ⋅ 3 ⋅ 2
...

∑x 2
ijk = 1.331, a = 3, b = 3, n = 2

La suma de cuadrados es:


71
ST = ∑ x 2
ijk − C = 1.331 − 1037,3889 = 257, 611
ijk

1 1
SA = ∑
nb i
T 2i.. − C = 7.021 − 1073,3889 = 96, 7778
6

1 1
SB = ∑
na j
T 2. j . − C = 6.571 − 1.073,3889 = 21, 7778
6

1 1
STR = ∑
n ij
T 2ij . − C = 2.399 − 1.073,3889 = 126,1111
2

S AB = STR − S A − S B = 126,1111 − 96, 7778 − 21, 7778 = 7,5555

S BL =
1

ab k
T 2. k − C =
1
ab
( T 2..1 + T 2..2 ) − C = ( 582 + 852 ) − 1.073,3889 = 103,1667
1
9

S E = ST − S BL − STR = 257, 6111 − 103,1667 − 126,1111 = 28,3333


72
Por lo tanto la tabla de la anova es:

SC g.l CM FObs
SA = 96,7778 2 S”A=48,3889 S "A
FA = = 25, 6175
S "AB
F0.99,2,4=18,00
SB = 21,7778 2 S”B=10,8889 S "B
FB = = 5, 7647
S "AB
F0.99,2,4=18,00
SAB = 7,5555 4 S”AB=1,8889 S"
FAB = AB = 0,5333
S "E
F0.99,4,8=7,01
SBL = 103,1667 1 S”BL=103,1667 S"
FBL = BL = 54.6173
S "AB
F0.99,1,8=11,3
SE = 28,3333 8 S”E=3,5417
ST =257,1111 17

Por lo tanto:

a) Se rechaza H0(A), esto es, las diferencias entre los valores medios del número de
pantalones producidos por las distintas máquinas son significativas. Las
máquinas influyen en la producción

b) No se rechaza H0 (B), esto es, las diferencias entre el número medio de


pantalones confeccionados por jornada con distinto tipos de tejidos son no
significativas. Los tejidos no influyen en la producción

c) No existe interacción entre las máquinas y los tejidos

d) Se rechaza H0 (BL), esto es, que los operarios influyen en el número medio de
pantalones producidos en cada jornada.

e) Se rechaza, por tanto, la hipótesis global de que el número medio de pantalones


producidos sea homogéneo por máquina, tejido y operario de manera conjunta.

f) La influencia de cada uno de estos factores tiene en la heterogeneidad total es:


73
1 1
σ 2*α = ( S "A − S "AB ) = ( 48,3889 − 1,8889 ) = 7, 75
nb 2⋅3

1 1
σ 2*β = ( S "B − S "AB ) = (10,8889 − 1,8889 ) = 1,5
na 2⋅3

Como no hemos rechazado H 0(AB) , es decir, σ 2*αβ = 0 (no existe interacción)


por lo tanto, σ 2*αβ = 0

1 1
σ 2*C = ( S "BL − S "AB ) = (103,1667 − 1,8889 ) = 11, 2539
ab 9

σ 2*T = σ 2*α + σ 2*β + σ 2*αβ + σ 2*C + S "E = 7, 75 + 1,5 + 0 + 11, 2531 + 3,5417 = 24, 0448

Por lo tanto:

σ 2*α
% de influencia del factor A = 2* 100 = 32, 23%
σ T

σ 2*C
% de influencia del bloque C = 2* 100 = 46,80%
σ T

S "E
% de influencia del error aleatorio E = 100 = 14, 73%
σ 2*T

Por lo que son los operarios los que en mayor medida influyen en la heterogeneidad, en
segundo lugar las máquinas, en tercer lugar la aleatoriedad muestral, es decir, que sean
esas las observaciones y no otras las tomadas, y por último los tejidos.
74

Вам также может понравиться