Вы находитесь на странице: 1из 35

Captulo 1

Diseos completamente
aleatorizados
1.1. Introduccin. Ejemplos
En la investigacin cientca es frecuente encontrarse con la necesidad de comparar
entre s diversas alternativas. Algunas de estas situaciones pueden ser las siguientes:
Una compaa algodonera que emplea diversos fertilizantes desea comprobar si stos
tienen efectos diferentes sobre el rendimiento de la semilla de algodn.
Una profesora de estadstica que imparte en grupos experimentales de alumnos, en
los que explica la misma materia pero siguiendo distintos mtodos de enseanza,
desea comprobar si el mtodo de enseanza utilizado inuye en las calicaciones de
los alumnos.
Una industria qumica, que obtiene un determinado producto, est interesada en
comprobar si los cambios de temperatura inuyen en la cantidad de producto obtenido.
Todas estas situaciones tienen en comn que su inters est centrado en un solo factor
con varios niveles o tratamientos que pueden producir efectos distintos y, por ello, pueden
ser abordadas mediante la tcnica estadstica del Anlisis de la Varianza de un factor o
una va.
El anlisis de la varianza fue desarrollado por Fisher en 1925 con el objetivo de com-
parar entre s varios grupos o tratamientos mediante la descomposicin de la variabilidad
total de un experimento en componentes independientes que puedan atribuirse a distin-
tas causas. Esencialmente este anlisis determina si la discrepancia entre las medias de
1
2 Diseos completamente aleatorizados
los tratamientos es mayor de lo que podra esperarse razonablemente de la discrepancia
existente dentro de los tratamientos.
En los ejemplos anteriores, aparte del factor mencionado, tambin pueden inuir otros
muchos factores que se suponen de poca importancia. Por ejemplo:
En el rendimiento de la planta de algodn, adems del tipo de fertilizante, tambin
pueden inuir, pequeas variaciones en la cantidad de riego, en la pureza de los
insecticidas suministrados, etc.
En las calicaciones de los alumnos, adems del mtodo de enseanza, tambin
pueden inuir, el nivel cultural del alumno, el grado de atencin y de inters del
alumno, etc.
En la cantidad de producto obtenido, adems de la temperatura, tambin pueden
inuir, la pureza de la materia prima, la habilidad de los operarios, etc.
El resultado de todas estas causas o factores no controlados inuyen en la variable re-
spuesta; en el caso concreto de la compaa algodonera, en las diferencias de los rendimien-
tos, en la variabilidad de los rendimientos. El anlisis de esta variabilidad es la base fun-
damental de esta tcnica estadstica.
Rerindonos de nuevo al ejemplo de la compaa algodonera, supongamos que de-
seamos comprobar el efecto del fertilizante en el rendimiento del cultivo de algodn, cuya
variabilidad tambin es debida a la presencia de otros factores. Tericamente es posible
dividir esta variabilidad en dos partes, la originada por el factor de inters, el tipo de
fertilizante, y la producida por los restantes factores que entran en juego, conocidos o no,
controlables o no, que recibe el nombre de perturbacin o error experimental.
En Estadstica Bsica se aborda el problema de contrastar la igualdad de medias de
dos poblaciones. Por ejemplo, comparar entre s dos tipos de fertilizantes, dos mtodos
de enseanza, dos tratamientos mdicos, dos tipos de insecticidas, dos temperaturas em-
pleadas en el proceso de obtencin de un determinado producto, etc. Estos tipos de tests
son de uso muy frecuente y se denominan contrastes para dos muestras independientes.
El Anlisis de la Varianza generaliza estos procedimientos a ms de dos poblaciones.
Para abordar esta situacin, seguiremos la siguiente metodologa:
(i) Establecer un modelo de comportamiento, que podemos formalizar matemtica-
mente.
(ii) Estimar los parmetros del modelo.
(iii) Contrastar la hiptesis de igualdad de medias de los tratamientos.
1.2 Planteamiento del modelo 3
(iv) Comprobar la idoneidad del modelo.
Como hemos dicho anteriormente, presentaremos en este captulo el modelo con un
solo factor y en captulos posteriores generalizaremos esta idea a ms de un factor.
A lo largo de este captulo vamos a considerar algunos de los ejemplos citados en la
introduccin como situaciones ilustrativas de referencia.
1.2. Planteamiento del modelo
Para desarrollar esta seccin consideramos como ejemplo ilustrativo la situacin
de la compaa algodonera. A lo largo de las sucesivas secciones, seguiremos haciendo
referencia a este ejemplo. Dicha situacin dara lugar, con unos datos concretos, al siguiente
enunciado:
Ejemplo 1.1
Una compaa algodonera, interesada en maximizar el rendimiento de la semilla de
algodn, desea comprobar si dicho rendimiento depende del tipo de fertilizante utilizado
para tratar la planta. A su disposicin tiene 5 tipos de fertilizantes. Para comparar su
ecacia fumiga, con cada uno de los fertilizantes, un cierto nmero de parcelas de terreno
de la misma calidad y de igual supercie. Al recoger la cosecha se mide el rendimiento de
la semilla, obtenindose las siguientes observaciones que se muestran en la Tabla 1-1
Tabla 1-1. Rendimiento del algodn
Fertilizantes Rendimiento
1 51 49 50 49 51 50
2 56 60 56 56 57
3 48 50 53 44 45
4 47 48 49 44
5 43 43 46 47 45 46
En este experimento, se han considerado 5 tipos de fertilizantes que se han aplicado,
respectivamente, a 6, 5, 5, 4 y 6 parcelas. La variable de inters o variable respuesta es el
rendimiento de la semilla en peso por unidad de supercie.
Todo este planteamiento se puede formalizar de manera general para cualquier ex-
perimento unifactorial. Supongamos un factor con I niveles y que para el nivel i-simo se
obtienen n
i
observaciones de la variable respuesta. Entonces podemos postular el siguiente
modelo
y
ij
= +
i
+u
ij
, (1.1)
donde
4 Diseos completamente aleatorizados
y
ij
es la variable aleatoria que representa la observacin j-sima del i-simo tratamien-
to (nivel i-simo del factor).
es un efecto constante, comn a todos los niveles, denominado media global.

i
es la parte de y
ij
debida a la accin del nivel i-simo, que ser comn a todos
los elementos sometidos a ese nivel del factor, (aportacin cuantitativa del nivel
i-simo del factor al valor total de la variable y
ij
), llamado efecto del tratamiento
i-simo.
u
ij
son variables aleatorias que engloban un conjunto de factores, cada uno de los
cuales inuye en la respuesta slo en pequea magnitud pero que de forma conjun-
ta debe tenerse en cuenta en la especicacin y tratamiento del modelo; es decir,
las perturbaciones o error experimental pueden interpretarse como las variaciones
causadas por todos los factores no analizados y que dentro del mismo tratamiento
variarn de unos elementos a otros. Estas perturbaciones deben vericar las sigu-
ientes condiciones:
Que tengan media cero
E
[u
ij
] = 0 i, j .
Que tengan varianza constante (hiptesis de homocedasticidad)
Var [u
ij
] =
2
i, j .
Que sean estadsticamente independientes entre s
E
[u
ij
u
rk
] = 0 i = r j = k .
Que su distribucin sea normal.
Nuestro objetivo es estimar los efectos de los tratamientos y contrastar la hiptesis
de que todos los niveles del factor producen el mismo efecto, frente a la alternativa de
que al menos dos dieren signicativamente entre s. Para ello, se supone que los errores
experimentales son variables aleatorias independientes con distribucin normal, con media
cero y varianza constante
2
.
En este modelo, que estudia el efecto que produce un solo factor en la variable respuesta,
la asignacin de las unidades experimentales a los distintos niveles del factor se debe
realizar de forma completamente al azar. Este modelo, junto con este procedimiento de
asignacin, recibe el nombre de Diseo Completamente Aleatorizado y est basado en el
modelo estadstico de Anlisis de Varianza de un Factor o una Va. Para aplicar este
1.2 Planteamiento del modelo 5
diseo adecuadamente las unidades experimentales deben ser lo ms homogneas posible.
En el modelo estadstico dado por la ecuacin (1.1), se distinguen dos situaciones segn
la seleccin de los tratamientos: modelo de efectos jos y modelo de efectos aleatorios.
(i) En el modelo de efectos jos el experimentador decide qu niveles concretos se van
a considerar y las conclusiones obtenidas son aplicables slo a dichos niveles, no
pudindose hacer extensivas a otros niveles no incluidos en el estudio.
En la situacin de referencia, la compaa algodonera decide utilizar unos determi-
nados fertilizantes. Se trata de un modelo de efectos jos y la compaa algodonera
aplicar los resultados de la investigacin exclusivamente a los fertilizantes consid-
erados en el estudio.
El caso de las calicaciones de los alumnos tambin se trata de un modelo unifac-
torial de efectos jos, ya que la profesora slo est interesada en averiguar si unos
determinados mtodos de enseanza inuyen en las calicaciones de los alumnos y
aplicar los resultados de la investigacin exclusivamente a los mtodos de enseanza
empleados.
(ii) En el modelo de efectos aleatorios, los niveles del factor se seleccionan al azar; es
decir, los niveles estudiados son una muestra aleatoria de una poblacin de niveles.
En este modelo se generalizan las conclusiones (basadas en la muestra de niveles),
a todos los posibles niveles del factor, hayan sido explcitamente considerados en el
anlisis o no.
Rerindonos a la situacin de la industria qumica, interesada en la inuencia de
la temperatura en la cantidad de producto obtenido, se podra considerar como un
modelo de efectos aleatorios si las temperaturas comparadas son una muestra entre
las posibles temperaturas que se podran utilizar.
Es importante distinguir claramente las diferencias entre ambos modelos. En el primero,
tanto la compaa algodonera como la profesora podan estudiar un nmero de fertilizantes
y mtodos de enseanza, respectivamente, ms amplio pero slo estn interesados en unos
determinados. El inters se centra en la comparacin de las medias de los niveles consid-
erados, por lo cual los resultados slo pueden aplicarse a dichos niveles. Por el contrario,
en la industria qumica el inters se centra en la variabilidad que produce el cambio de
temperaturas en la cantidad de producto obtenido.
6 Diseos completamente aleatorizados
1.3. Modelo de efectos jos
En este modelo, los efectos
i
son constantes desconocidas que estamos interesados
en estimar y en contrastar determinadas hiptesis relativas a dichos efectos. Para ello, para
cada nivel i del factor, tomamos una muestra aleatoria simple de tamao n
i
. En principio
podemos reescribir el modelo 1.1 en la forma
y
ij
=
i
+u
ij
, (1.2)
donde y
ij
ser la observacin correspondiente al elemento j-simo (j = 1, 2, , n
i
) sujeto
al nivel i-simo del factor (i = 1, 2, , I) y
i
es la media correspondiente al nivel i-simo.
Las condiciones anteriores de este modelo se resumen en:
1
o
) y
ij
=
i
+u
ij
2
o
) u
ij
N(0, )
3
o
) u
ij
son independientes entre s .
Al ser
i
constante para el tratamiento i, toda la fuente de aleatoriedad del modelo
descansa en las variables de perturbacin y la variable y
ij
toma el carcter aleatorio de
ellas; por ello, las hiptesis establecidas para las variables de perturbacin pueden ser
formuladas en trminos de la variable respuesta. En otras palabras las variables y
ij
son
variables aleatorias independientes con distribucin normal, con media
i
y varianza
2
;
es decir:
La esperanza de la variable respuesta en el nivel i-simo es
i
E
[y
ij
] =
i
j .
Esta hiptesis exige que las n
i
observaciones correspondientes al tratamiento i-simo
tengan la misma media
i
.
La varianza de las variables y
ij
es constante
Var [y
ij
] =
2
i, j .
1.3 Modelo de efectos jos 7
Las observaciones y
ij
son independientes entre s
Cov [y
ij
, y
rk
] = 0 i = r j = k .
La variable respuesta tiene distribucin normal.
Si expresamos
i
como suma de dos trminos: , comn a todas las observaciones, y

i
, especca de cada nivel, es decir

i
= +
i
, (1.3)
sustituyendo (1.3) en la ecuacin (1.2), obtenemos la primera expresin del modelo dada
en (1.1), es decir
y
ij
= +
i
+u
ij
,
donde, el efecto producido por el nivel i-simo se dene como la diferencia entre la media

i
, del nivel i, y la media general ; es decir, los efectos de los tratamientos
i
son las
desviaciones de la media de cada nivel con respecto a la media general, por esta razn se
debe vericar la relacin
I

i=1
n
i

i
= 0 . (1.4)
De esta manera el valor esperado de la respuesta en el i-simo tratamiento es,
E[y
ij
]
i
= +
i
,
la suma de la media general y el efecto del i-simo tratamiento.
En este modelo se trata de contrastar si todos los niveles del factor producen el mismo
efecto
H
0
:
i
= 0 i
frente a la alternativa
H
1
:
i
= 0 por lo menos para algn i ,
o, equivalentemente, si todos los tratamientos tienen la misma media
H
0
:
1
=
2
= =
I
=
frente a la alternativa
H
1
:
i
=
j
por lo menos para algn par (i, j) .
8 Diseos completamente aleatorizados
Si H
0
es cierta, todos los tratamientos tienen la misma media, , la pertenencia a un
grupo u otro es irrelevante, y podemos considerar todas las observaciones como prove-
nientes de una nica poblacin.
Hemos introducido dos formas de expresin del modelo:
y
ij
=
i
+u
ij
y
ij
= +
i
+u
ij
,
ambas formas son equivalentes. Para nuestro estudio emplearemos la segunda expresin.
Consideremos un factor con I niveles y que para cada nivel i se toman n
i
observaciones.
Los datos se organizan en forma tabular como se muestra en la Tabla 1-2
Tabla 1-2. Experimento unifactorial
Tratamiento Observaciones N
o
Observ. Totales Promedios
(nivel) n
i
y
i.
y
i.
1 y
11
y
12
y
1j
y
1n
1
n
1
y
1.
y
1.
2 y
21
y
22
y
2j
y
2n
2
n
2
y
2.
y
2.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i y
i1
y
i2
y
ij
y
in
i
n
i
y
i.
y
i.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
I y
I1
y
I2
y
Ij
y
In
I
n
I
y
I.
y
I.
N y
..
y
..
donde utilizamos la siguiente notacin:
N es el nmero total de observaciones, es decir, N =

I
i=1
n
i
y
ij
es la observacin j-sima del tratamiento i-simo; donde el subndice i vara desde
1 hasta I y el subndice j vara desde 1 hasta n
i
y
i.
es el total de las observaciones bajo el i-simo tratamiento, es decir
y
i.
=
n
i

j=1
y
ij
i = 1, , I
1.3 Modelo de efectos jos 9
y
i.
es el promedio de las observaciones bajo el i-simo tratamiento, es decir
y
i.
=
y
i.
n
i
=
1
n
i
n
i

j=1
y
ij
i = 1, , I
y
..
es la suma de todas las observaciones, denominado el total general, es decir
y
..
=
I

i=1
n
i

j=1
y
ij
=
I

i=1
y
i.
y
..
es la media general de las observaciones, es decir
y
..
=
y
..
N
=
1
N
I

i=1
n
i

j=1
y
ij
=
1
N
I

i=1
n
i
y
i.
.
En estas deniciones, la notacin de punto en el subndice indica la suma que se ha
realizado sobre el subndice reemplazado por el punto.
Si los tamaos n
i
de las muestras son distintos, el modelo recibe el nombre de modelo
no-equilibrado o no-balanceado. Si todas las muestras tienen el mismo tamao, n
i
= n, el
modelo se llama modelo equilibrado o balanceado.
En primer lugar, analizaremos el caso ms general, el modelo no-equilibrado.
1.3.1. Estimacin de los parmetros del modelo
Estimacin por mxima verosimilitud
Como ya se ha explicado anteriormente, la hiptesis de normalidad sobre los trmi-
nos de error conlleva el hecho de que las variables y
ij
sean normales e independientes, por
lo que es inmediato construir la funcin de verosimilitud asociada a la muestra y = (y
11
,
, y
1n
1
, y
21
, , y
2n
2
, , y
I1
, , y
In
I
):
L(,
i
,
2
) = (2
2
)

N
2
exp
_
_

1
2
2
I

i=1
n
i

j=1
[y
ij

i
]
2
_
_
(1.5)
Los estimadores mximo-verosmiles para los parmetros ,
i
y
2
son los valores
para los cuales la funcin de verosimilitud alcanza su mximo. Para determinarlos habr
que obtener los puntos crticos de la funcin (1.5). Por conveniencia, en vez de maximizar
10 Diseos completamente aleatorizados
la funcin de verosimilitud, se maximiza el logaritmo, ya que el logaritmo conserva los
puntos crticos por ser una funcin creciente. En este caso,
ln(L(,
i
,
2
)) =
N
2
ln(2)
N
2
ln(
2
)
1
2
2
I

i=1
n
i

j=1
[y
ij

i
]
2
(1.6)
Las derivadas parciales respecto de los parmetros del modelo son las siguientes:
lnL

=
1

2
I

i=1
n
i

j=1
[y
ij

i
]
lnL

i
=
1

2
n
i

j=1
[y
ij

i
] i = 1, , I
lnL

2
=
N
2
2
+
1
2(
2
)
2
I

i=1
n
i

j=1
[y
ij

i
]
2
.
(1.7)
Igualando estas derivadas parciales a cero, se obtiene un sistema de ecuaciones que
proporciona los estimadores mximo verosmiles.
Veamos las ecuaciones y las soluciones que vamos obteniendo.
(i) De la primera ecuacin, obtenemos
I

i=1
n
i

j=1
y
ij
N
I

i=1
n
i

j=1

i
= 0 . (1.8)
Teniendo en cuenta que

i
n
i

i
= 0, de la ecuacin (1.8) se obtiene
=
I

i=1
n
i

j=1
y
ij
N
= y
..
(1.9)
1.3 Modelo de efectos jos 11
(ii) Para
i
, obtenemos
n
i

j=1
y
ij
n
i

n
i

j=1

i
= 0 i = 1, 2, , I (1.10)
De las ecuaciones (1.10) se obtienen los siguientes estimadores mximo-verosmiles
para los parmetros
i

i
=
1
n
i
n
i

j=1
y
ij
= y
i.
y
..
. (1.11)
Estas soluciones
= y
..

i
= y
i.
y
..
i = 1, 2, , I ,
(1.12)
se pueden intuir fcilmente, ya que indican que la media general se puede estimar utilizando
el promedio de todas las observaciones y cualquiera de los efectos de los tratamientos
usando la diferencia entre el promedio correspondiente al tratamiento y el promedio total.
Finalmente, sustituyendo y
i
en la ltima ecuacin de (1.7), obtenemos el estimador
de mxima verosimilitud para la varianza poblacional

2
=
1
N
I

i=1
n
i

j=1
[y
ij

i
]
2
=
1
N
I

i=1
n
i

j=1
[y
ij
y
i.
]
2
=
1
N
I

i=1
n
i
s
2
i
, (1.13)
donde s
2
i
es la varianza muestral del nivel i-simo.
Residuos
Los residuos se denen como las diferencias entre los valores observados y
ij
y los
valores previstos por el modelo y
ij
y los denotamos por e
ij
,
e
ij
= y
ij
y
ij
= y
ij

i
= y
ij
y
i.
.
Por lo tanto, el estimador mximo-verosmil,
2
, se puede escribir como

2
=
I

i=1
n
i

j=1
e
2
ij
N
.
12 Diseos completamente aleatorizados
Los residuos son los estimadores de los errores aleatorios u
ij
= y
ij

i
, los cuales
son variables aleatorias no observables. Se verica que la suma de los residuos es cero, en
efecto
I

i=1
n
i

j=1
e
ij
=
I

i=1
n
i

j=1
(y
ij
y
i.
) =
I

i=1
n
i

j=1
y
ij

i=1
n
i
y
i.
=
I

i=1
n
i

j=1
y
ij

i=1
n
i

j=1
y
ij
= 0 .
Propiedades de los estimadores mximo verosmiles
A continuacin vamos a ver algunas propiedades que verican los estimadores del
modelo. Concretamente, vamos a determinar su esperanza, su varianza y su distribucin
en el muestreo.
1) Propiedades de
a) es un estimador centrado de , puesto que
E[ ] = E[ y
..
] =
1
N

i,j
E[y
ij
] =
1
N

i,j
( +
i
) =
1
N
_
N +

i
n
i

i
_
=
b) La varianza de es
2
/N, puesto que al ser independientes las observaciones se
verica:
Var [ ] = Var
_
_

i,j
y
ij
N
_
_
=

i,j
Var
_
y
ij
N
_
=

i,j
Var [y
ij
]
N
2
=

i,j

2
N
2
=

2
N
(1.14)
c) se distribuye segn una Normal, puesto que dicho estimador es combinacin lineal
de las variables y
ij
y stas son variables aleatorias independientes con distribucin
Normal.
2) Propiedades de
i
a)
i
es un estimador centrado de
i
, puesto que
E
[
i
] =
E
[ y
i.
]
E
[ y..] =
E
_
_
1
n
i

j
y
ij
_
_
=
1
n
i
E
_
_

j
( +
i
+u
ij
)
_
_
=
1
n
i
_
_
n
i
+n
i

i
+

j
E[u
ij
]
_
_
=
i
(1.15)
1.3 Modelo de efectos jos 13
b) La varianza de
i
es (N n
i
)

2
Nn
i
, puesto que
Var [
i
] = Var [ y
i.
y
..
] = Var
_
_
1
n
i

j
y
ij

1
N

i,j
y
ij
_
_
=
1
n
2
i

j
Var [y
ij
] +
1
N
2

i,j
Var [y
ij
]
2
Nn
i
Cov
_
_

j
y
ij
,

i,j
y
ij
_
_
=
1
n
2
i

2
+
1
N
2

i,j

2
Nn
i
n
i

2
=
1
n
i

2
+
1
N

2
2
N
=

2
n
i


2
N
= (N n
i
)

2
Nn
i
(1.16)
En el caso del modelo equilibrado se deduce fcilmente que la varianza de
i
es
(I 1)
2
/N.
c)
i
se distribuye segn una Normal, puesto que dicho estimador est expresado como
funcin lineal de variables aleatorias con distribucin Normal.
3) Propiedades de
2

2
no es un estimador insesgado de
2
. Para demostrarlo veamos en primer lugar
que
N
2

2
se distribuye segn una
2
con N I grados de libertad.
N

2
=
1

2
I

i=1
n
i

j=1
e
2
ij
=
1

2
I

i=1
n
i

j=1
(y
ij
y
i.
)
2
=
n
1

j=1
_
y
1j
y
1.

_
2
+
n
2

j=1
_
y
2j
y
2.

_
2
+ +
n
I

j=1
_
y
Ij
y
I.

_
2
.
(1.17)
Estos sumandos son estadsticamente independientes entre s al serlo las observaciones
14 Diseos completamente aleatorizados
muestrales. Adems se verica que
n
i

j=1
_
y
ij
y
i.

_
2
=
n
i
s
2
i

2
,
se distribuye segn una
2
con n
i
1 grados de libertad.
Por tanto,
N
2

2

2

i
(n
i
1)
=
2
NI
. (1.18)
Puesto que la esperanza matemtica de una distribucin
2
coincide con sus grados de
libertad, se concluye que
E
_
N
2

2
_
= N I
E
_

2

=
N I
N

2
luego, como queramos demostrar,

2
no es un estimador insesgado de
2
. Ahora bien,
a partir de este resultado se construye fcilmente un estimador centrado simplemente
considerando

2
=
N
N I

2
y por tanto,
E
_

2

=
2
.
Dicho estimador recibe el nombre de varianza residual, pues da informacin acerca de
cuanta variabilidad deja de explicar el modelo y se acumula en los trminos de error o
residuos. La varianza residual se denota por

S
2
R
y se expresa, por tanto, de la siguiente
forma

2
=

S
2
R
=
I

i=1
n
i

j=1
[y
ij
y
i.
]
2
N I
=
I

i=1
n
i

j=1
e
2
ij
N I
. (1.19)
Tambin se puede determinar el valor esperado de
2
de la siguiente forma:
En primer lugar, calculamos E
_
e
2
ij
_
1.3 Modelo de efectos jos 15
E
_
e
2
ij
_
= Var [e
ij
] = Var [y
ij
y
i.
] =
Var[y
ij
] + Var [ y
i.
] 2 Cov[y
ij
, y
i.
] =

2
+

2
n
i
2 Cov
_
_
y
ij
,
1
n
i
n
i

j=1
y
ij
_
_
=
2
+

2
n
i
2

2
n
i
=


2
n
i
Por lo tanto,
E
_

i,j
e
2
ij
_
=

i,j
E
_
e
2
ij
_
=

i,j
_

2
n
i
_
=
N
2

i,j

2
n
i
= N
2

i
1
n
i
n
i
=
(N I)
2
.
Entonces
E
_

2

= E
_
_

i,j
e
2
ij
N
_
_
=
N I
N

2
.
En resumen,
N
_
,

2
N
_

i
N
_

i
, (N n
i
)

2
Nn
i
_
N

2

2

2
NI
16 Diseos completamente aleatorizados
Estimacin por mnimos cuadrados
Hemos planteado el modelo de efectos jos como
y
ij
= +
i
+u
ij
,
en el supuesto de que las perturbaciones, u
ij
, son variables aleatorias independientes e
idnticamente distribuidas segn una Normal de media 0 y varianza
2
. Las hiptesis de
dicho modelo se pueden relajar en el siguiente sentido:
Las perturbaciones son variables aleatorias que verican
1
o
)
E
[u
ij
] = 0 i, j .
2
o
)
Var [u
ij
] =
2
i, j .
3
o
)
Cov [u
ij
, u
rk
] = E[u
ij
u
rk
] = 0 i = r j = k .
Hay que hacer notar que entre las hiptesis del modelo no se hace ninguna referencia
a la distribucin especca de las perturbaciones. En estas condiciones, la estimacin de
los parmetros se aborda mediante el mtodo de mnimos cuadrados.
Con el n de obtener los estimadores de y
i
mediante el mtodo de mnimos cuadra-
dos, consideremos la suma de cuadrados de los errores, ecuacin (1.20), y determinemos
los valores de y
i
, que notaremos por y
i
, que minimizan dicha expresin
=
I

i=1
n
i

j=1
u
2
ij
=
I

i=1
n
i

j=1
(y
ij

i
)
2
. (1.20)
Para ello, se deriva respecto de y
i
y se particulariza en y
i
obtenindose un
sistema de I + 1 ecuaciones con I + 1 incgnitas

,
i
= 0

,
i
= 0
i = 1, 2, , I
_

_
1.3 Modelo de efectos jos 17
Dichas ecuaciones dan lugar al sistema
2
I

i=1
n
i

j=1
(y
ij

i
) = 0
2
n
i

j=1
(y
ij

i
) = 0
i = 1, 2, , I
_

_
(1.21)
que se denomina sistema de ecuaciones normales de mnimos cuadrados. Este sistema de
ecuaciones coincide con el sistema que verican los estimadores de mxima verosimilitud
de los parmetros y
i
, cuando se impone la hiptesis de normalidad, cuyas soluciones
vienen dadas por las expresiones (1.9) y (1.11), respectivamente. Obsrvese que por este
mtodo no se obtiene ninguna ecuacin para estimar
2
. Por analoga con el caso normal,
se utiliza como estimador de
2
la expresin

2
=

S
2
R
=
I

i=1
n
i

j=1
e
2
ij
N I
. (1.22)
Aunque la hiptesis de normalidad no es necesaria para estimar los parmetros me-
diante el mtodo de mnimos cuadrados, dicha hiptesis resultar imprescindible para
establecer las distribuciones de los estadsticos involucrados en el proceso de contraste de
hiptesis.
Observacin 1.1
Ntese que la inclusin de la hiptesis de normalidad de las perturbaciones conduce a
la independencia entre dichas variables, puesto que en caso de normalidad, incorrelacin
implica independencia.
1.3.2. Descomposicin de la variabilidad
Para comparar los efectos de los distintos niveles de un factor se emplea la tcnica
estadstica denominada anlisis de la varianza, abreviadamente ANOVA, que est basada
en la descomposicin de la variabilidad total de los datos en distintas componentes.
18 Diseos completamente aleatorizados
Se considera la siguiente identidad:
y
ij
= y
..
+ ( y
i.
y
..
) + (y
ij
y
i.
) , (1.23)
que expresa cada variable y
ij
como la suma de tres trminos:
- La media total y
..
, es decir el estimador de
- El efecto producido por el tratamiento i-simo, (desviacin de la media del i-simo
nivel del factor respecto de la media total), y
i.
y
..
, es decir el estimador de
i
- La desviacin entre los valores observados y los valores previstos por el modelo,
y
ij
y
i.
, es decir el estimador de u
ij
.
Por tanto, la expresin (1.23) tambin se puede poner en la forma
y
ij
= +
i
+e
ij
(1.24)
Consideramos esta descomposicin para todas las observaciones, que expresada en
forma vectorial resulta
Y = + +e , (1.25)
siendo
Y = (y
11
, . . . , y
1n
1
, y
21
, . . . , y
2n
2
, . . . , y
I1
, . . . , y
In
I
)

= ( y
..
, . . . . ., y
..
, y
..
, . . . . ., y
..
, . . . . ., y
..
, . . . . ., y
..
)

= ( y
1.
y
..
, . . . . ., y
1.
y
..
, y
2.
y
..,
. . . . ., y
2.
y
..
, . . . . ., y
I.
y
..
, . . . . ., y
I.
y
..
)

e = (y
11
y
1.
, . . . , y
1n
1
y
1.
, y
21
y
2.,
. . . , y
2n
2
y
2.
, . . . ., y
I1
y
I.
, . . . , y
In
I
y
I.
)

donde
Y: Contiene N trminos independientes y
ij
. Tiene, por tanto, N grados de libertad.
: Contiene N coordenadas iguales a y
..
. Tiene, por tanto, un grado de libertad.
: Contiene I valores distintos y
i.
y
..
, cada uno repetido n
i
veces y sujetos a una
ecuacin de restriccin,

i
n
i
( y
i.
y
..
) = 0. Tiene, por tanto, I 1 grados de libertad.
e: Contiene los N residuos sujetos a I ecuaciones de restriccin,

j
(y
ij
y
i.
) = 0
para i = 1, . . . , I. Tiene, por tanto, N I grados de libertad.
1.3 Modelo de efectos jos 19
La descomposicin (1.25) est formada por componentes ortogonales dos a dos, ya que
se verica

= y
..
I

i=1
n
i

j=1

i
= 0

e = y
..
I

i=1
n
i

j=1
e
ij
= 0

e =
I

i=1

i
n
i

j=1
e
ij
= 0
La ecuacin (1.23) tambin se puede expresar de la siguiente forma
y
ij
y
..
= ( y
i.
y
..
) + (y
ij
y
i.
) , (1.26)
si elevamos al cuadrado los dos miembros de la expresin anterior y sumamos para todas
las observaciones, tenemos
I

i=1
n
i

j=1
(y
ij
y
..
)
2
=
I

i=1
n
i

j=1
[( y
i.
y
..
) + (y
ij
y
i.
)]
2
=
I

i=1
n
i
( y
i.
y
..
)
2
+
I

i=1
n
i

j=1
(y
ij
y
i.
)
2
+ 2
I

i=1
n
i

j=1
( y
i.
y
..
) (y
ij
y
i.
) .
(1.27)
Los dobles productos se anulan, ya que los trminos son ortogonales, por lo que dicha
ecuacin queda en la forma
I

i=1
n
i

j=1
(y
ij
y
..
)
2
=
I

i=1
n
i
( y
i.
y
..
)
2
+
I

i=1
n
i

j=1
(y
ij
y
i.
)
2
(1.28)
que representa la ecuacin bsica del anlisis de la varianza, que simblicamente podemos
escribir
SCT = SCTr +SCR ,
donde hemos desglosado la variabilidad total de los datos
SCT =

ij
(y
ij
y
..
)
2
,
denominada suma total de cuadrados, en dos partes:
20 Diseos completamente aleatorizados
1) SCTr =

I
i=1
n
i
( y
i.
y
..
)
2
, la suma de cuadrados de las desviaciones de las medias
de los tratamientos respecto de la media general, denominada suma de cuadrados
entre tratamientos o variabilidad explicada
2) SCR =

I
i=1

n
i
j=1
(y
ij
y
i.
)
2
, la suma de cuadrados de las desviaciones de las
observaciones de cada nivel respecto de su media, denominada suma de cuadrados
dentro de los tratamientos, variabilidad no-explicada o residual.
A partir de las sumas de cuadrados anteriores se pueden construir los denominados
cuadrados medios, denidos como los cocientes entre dichas sumas de cuadrados y sus
correspondientes grados de libertad.
Cuadrado medio total
1

S
2
T
=
I

i=1
n
i

j=1
(y
ij
y
..
)
2
N 1
(1.29)
Cuadrado medio entre tratamientos

S
2
Tr
=
I

i=1
n
i
( y
i.
y
..
)
2
I 1
(1.30)
Cuadrado medio residual

S
2
R
=
I

i=1
n
i

j=1
(y
ij
y
i.
)
2
N I
, (1.31)
Una notacin muy utilizada tambin en la prctica para los cuadrados medios total,
entre tratamientos y residual es, respectivamente, CMT, CMTr y CMR o CME.
A continuacin vamos a calcular las esperanzas matemticas de estos cuadrados medios.
En primer lugar, recordemos la expresin del modelo (1.1)
y
ij
= +
i
+u
ij
.
1
El nmero de grados de libertad asociados a SCT es N 1 ya que

i,j
(yij y
..
) = 0.
1.3 Modelo de efectos jos 21
Consideremos las expresiones de y
i.
, y
i.
, y
..
e y
..
, en funcin de los parmetros del
modelo, con objeto de poder hallar las esperanzas de las varianzas muestrales. Tambin
tengamos en cuenta que

i
n
i

i
= 0. As tenemos:
y
i.
= n
i
+n
i

i
+u
i.
; y
i.
= +
i
+u
i.
y
..
= N +

i
n
i

i
+u
..
; y
..
= +u
..
(1.32)
1
o
) El cuadrado medio entre grupos lo podemos expresar como:

S
2
Tr
=
I

i=1
n
i
( y
i.
y
..
)
2
I 1
=
I

i=1
n
i
[
i
+ (u
i.
u
..
)]
2
I 1
=
I

i=1
n
i

2
i
I 1
+
I

i=1
n
i
(u
i.
u
..
)
2
I 1
+
2
I

i=1
n
i

i
(u
i.
u
..
)
I 1
y su esperanza matemtica ser la suma de las esperanzas matemticas de cada
sumando; es decir,
E
_

S
2
Tr
_
= E
_

_
I

i=1
n
i

2
i
I 1
_

_
+ E
_

_
I

i=1
n
i
(u
i.
u
..
)
2
I 1
_

_
+ E
_

_
2
I

i=1
n
i

i
(u
i.
u
..
)
I 1
_

_
.
(1.33)
Ahora bien, puesto que:
a) El modelo es de efectos jos E[
i
] =
i
, entonces
E
_

_
I

i=1
n
i

2
i
I 1
_

_
=
1
I 1
I

i=1
n
i E
_

2
i

=
1
I 1
I

i=1
n
i

2
i
. (1.34)
b) Como E[
i
E[
i
]]
2
es la Var(
i
), cuya expresin, determinada en la subseccin
1.3.1, es (N n
i
)
2
/(Nn
i
), luego
22 Diseos completamente aleatorizados
E
_

_
I

i=1
n
i
(u
i.
u
..
)
2
I 1
_

_
=
I

i=1
n
i
I 1
E[u
i.
u
..
]
2
=
I

i=1
n
i
I 1
E
[( y
i.
y
..
)
i
]
2
=
I

i=1
n
i
I 1
E
[
i

E
[
i
]]
2
=
I

i=1
n
i
I 1
Var(
i
) =
I

i=1
n
i
I 1
(N n
i
)

2
Nn
i
=

2
N(I 1)
(IN N) =
2
(1.35)
c) Como
E
(u
i.
u
..
) = 0, entonces
E
_

_
2
I

i=1
n
i

i
(u
i.
u
..
)
I 1
_

_
=
2
I 1
I

i=1
n
i

i E[u
i.
u
..
] = 0 . (1.36)
Por lo tanto, sustituyendo las expresiones (1.34), (1.35) y (1.36) en (1.33) tenemos
que el valor esperado del cuadrado medio entre grupos es:
E
_

S
2
Tr
_
=
I

i=1
n
i

2
i
I 1
+
2
. (1.37)
2
o
) Ya hemos visto en la subseccin 1.3.1 que la varianza residual es un estimador ins-
esgado de la varianza poblacional, es decir
E
_

S
2
R
_
=
2
.
1.3 Modelo de efectos jos 23
3
o
) Por ltimo, calculemos el valor esperado del cuadrado medio total. Para ello nos
basaremos en la ecuacin bsica del ANOVA que podemos poner en funcin de los
cuadrados medios de la siguiente forma:
(N 1)

S
2
T
= (I 1)

S
2
Tr
+ (N I)

S
2
R
,
tomando esperanzas matemticas en ambos miembros y aplicando la linealidad del
valor esperado, tenemos
(N 1)
E
_

S
2
T
_
= (I 1)
E
_

S
2
Tr
_
+ (N I)
E
_

S
2
R
_
,
de donde, sustituyendo los valores obtenidos anteriormente para E
_

S
2
Tr
_
y E
_

S
2
R
_
,
obtenemos
E
_

S
2
T
_
=
I

i=1
n
i

2
i
N 1
+
2
. (1.38)
1.3.3. Anlisis estadstico
El contraste estadstico de inters en este modelo, como mencionamos al prin-
cipio de esta seccin, es el que tiene como hiptesis nula la igualdad de medias de los
tratamientos:
H
0

1
=
2
= =
I
=
o equivalentemente
H
0

1
=
2
= =
I
= 0
Como hemos comprobado anteriormente se verica que:
a)

S
2
R
= SCR/(NI) es un estimador insesgado de la varianza
2
independientemente
de que se verique la hiptesis nula.
b) Y si no hay diferencia entre las medias de los I tratamientos; es decir, si es cierta la
hiptesis nula, el primer sumando de E
_

S
2
Tr
_
es nulo, y entonces

S
2
Tr
es un estimador
insesgado de
2
.
Sin embargo, hay que notar que si existe diferencia en las medias de los tratamientos,
el valor esperado del cuadrado medio entre tratamientos es mayor que
2
. De todo sto
podemos deducir que el contraste puede efectuarse comparando

S
2
Tr
y

S
2
R
.
24 Diseos completamente aleatorizados
Para ello, vamos a estudiar la distribucin de SCT, SCTr y SCR en la hiptesis de
que los tratamientos no inuyen, es decir bajo la hiptesis de que las variables aleatorias
y
ij
N(,
2
).
Tipicando las variables aleatorias y
ij
en la descomposicin (1.23) , se tiene
y
ij

=
y
..

+
y
i.
y
..

+
y
ij
y
i.

. (1.39)
Considerando esta descomposicin para todas las observaciones y expresndola en for-
ma vectorial, tenemos
Z = Z
1
+Z
2
+Z
3
(1.40)
siendo
Z =
1

(y
11
, . . . , y
1n
1
, y
21
, . . . , y
2n
2
, . . . , y
I1
, . . . , y
In
I
)

Z
1
=
1

( y
..
, . . . . ., y
..
, y
..
, . . . . ., y
..
, . . . . ., y
..
, . . . . ., y
..
)

Z
2
=
1

( y
1.
y
..
, . . . . ., y
1.
y
..
, y
2.
y
..
, . . . , y
2.
y
..
, . . . , y
I.
y
..
, . . . , y
I.
y
..
)

Z
3
=
1

(y
11
y
1.
, . . . , y
1n
1
y
1.
, y
21
y
2.
, . . . , y
2n
2
y
2.
, . . . ., y
I1
y
I.
, . . . , y
In
I
y
I.
)

donde
Z: Contiene N trminos independientes
1

(y
ij
). Tiene, por tanto, N grados de
libertad.
Z
1
: Contiene N coordenadas iguales a
1

( y
..
). Tiene, por tanto, un grado de
libertad.
Z
2
: Contiene I valores distintos
1

( y
i.
y
..
), cada uno repetido n
i
veces y sujetos a
una ecuacin de restriccin,

i
n
i
( y
i.
y
..
) = 0. Tiene, por tanto, I 1 grados de
libertad.
Z
3
: Contiene N coordenadas
1

(y
ij
y
i.
), sujetas a I ecuaciones de restriccin,

j
(y
ij
y
i.
) = 0 para i = 1, . . . , I. Tiene, por tanto, N I grados de libertad.
Bajo la hiptesis nula hemos realizado una descomposicin del vector Z, de variables
N(0, 1) independientes, en componentes ortogonales. Por lo tanto, podemos aplicar el Teo-
rema de Cochran de descomposicin en formas cuadrticas cuyo enunciado es el siguiente:
1.3 Modelo de efectos jos 25
Teorema 1.1
Consideremos un vector X de dimensin n cuyas coordenadas son variables aleato-
rias independientes con distribucin Normal de media 0 y desviacin tpica 1, N(0, 1).
Supongamos que:
a)
X = X
1
+X
2
+ +X
r
(r n)
donde X
j
tiene n
j
grados de libertad, (j = 1, 2, , r).
b) Los vectores X
j
son ortogonales entre s y por tanto n =

r
j=1
n
j
.
En estas condiciones se verica que los cuadrados de los mdulos de cada uno de
los vectores se distribuyen como variables aleatorias
2
independientes con n
j
grados de
libertad.
Puesto que la descomposicin (1.40) cumple las condiciones del Teorema de Cochran,
se verica que
i)
SCTr

2
=

i
n
i
(y
i.
y
..
)
2

2

2
I1
ii)
SCR

2
=

i,j
(y
ij
y
i.
)
2

2

2
NI
y adems estas dos distribuciones son independientes entre s.
Hay que notar que:
SCR/
2
se distribuye como una
2
con N I grados de libertad, se verique o no
la hiptesis nula, como ya vimos en la subseccin 1.3.1
SCTr/
2
se distribuye como una
2
con I 1 grados de libertad, solamente cuando
se verique la hiptesis nula.
Por consiguiente, bajo la hiptesis nula, el cociente
F =
SCTr/
2
I 1
SCR/
2
N I
=

S
2
Tr

S
2
R
(1.41)
26 Diseos completamente aleatorizados
sigue una distribucin F de Snedecor con I 1 y NI grados de libertad y ser el estads-
tico de contraste para probar dicha hiptesis nula. Por otra parte, si H
0
es cierta, tanto el
numerador como el denominador del estadstico de contraste (1.41) son estimadores inses-
gados de
2
, mientras que si H
0
no es cierta, la esperanza matemtica de

S
2
Tr
ser mayor
que
2
. Por tanto, rechazaremos H
0
cuando el valor de dicho estadstico sea mayor que el
correspondiente valor terico de la distribucin F con I 1 y N I grados de libertad al
nivel de signicacin .
El procedimiento prctico para efectuar el contraste es el siguiente:
1
o
) Se ja un nivel de signicacin
2
o
) Se calcula el valor experimental de F, F
exp
, dado por

S
2
Tr
/

S
2
R
3
o
) Se compara el valor F
exp
con la F terica al nivel de signicacin , tomndose la
siguiente decisin
aceptar H
0
si F
exp
F
;I1,NI
rechazar H
0
si F
exp
> F
;I1,NI
.
La hiptesis H
0
que se contrasta es que simultneamente los
i
= 0, de modo que
rechazar dicha hiptesis quiere decir que al menos uno de los efectos es distinto de cero.
Para una mayor sencillez en el clculo se utilizan las expresiones abreviadas de SCT,
SCTr y SCR
SCT =
I

i=1
n
i

j=1
y
2
ij

y
2
..
N
SCTr =
I

i=1
y
2
i.
n
i

y
2
..
N
SCR =
I

i=1
n
i

j=1
y
2
ij

i=1
y
2
i.
n
i
,
(1.42)
que se obtienen de forma inmediata de la denicin de cada uno de los trminos.
El contraste bsico del anlisis de la varianza utiliza la descomposicin, (1.28), ecuacin
bsica del anlisis de la varianza, cuyos trminos se pueden disponer en forma tabular de
la siguiente manera
1.3 Modelo de efectos jos 27
Tabla 1-3. Tabla ANOVA para el modelo de efectos jos unifactorial
Fuentes de Suma de Grados de Cuadrados
variacin cuadrados libertad medios F
exp
Entre grupos
I

i=1
n
i
( y
i.
y
..
)
2
= SCTr I 1

S
2
Tr

S
2
Tr
/

S
2
R
Dentro de grupos
I

i=1
n
i

j=1
(y
ij
y
i.
)
2
= SCR N I

S
2
R
TOTAL
I

i=1
n
i

j=1
(y
ij
y
..
)
2
= SCT N 1

S
2
T
Alternativamente, utilizando las expresiones abreviadas de SCT, SCTr y SCR, dadas
en (1.42), la Tabla ANOVA se expresa de la siguiente forma
Tabla 1-4. Forma prctica de la tabla ANOVA para
el modelo de efectos jos unifactorial
Fuentes de Suma de Grados de Cuadrados
variacin cuadrados libertad medios F
exp
Entre grupos
I

i=1
y
2
i.
n
i

y
2
..
N
= SCTr I 1

S
2
Tr

S
2
Tr
/

S
2
R
Dentro de grupos
I

i=1
n
i

j=1
y
2
ij

i=1
y
2
i.
n
i
= SCR N I

S
2
R
TOTAL
I

i=1
n
i

j=1
y
2
ij

y
2
..
N
= SCT N 1

S
2
T
Coeciente de determinacin
La adecuacin de los datos al modelo se podra comprobar mediante la varianza
residual, pero esta cantidad tiene el inconveniente de depender de la escala de medida de
los datos. Por ello, una medida ms apropiada es el coeciente de determinacin, denotado
por R
2
y denido como el cociente entre la variabilidad explicada y la variabilidad total
R
2
=
SCTr
SCT
.
28 Diseos completamente aleatorizados
Esta cantidad es adimensional y se interpreta como la proporcin de la variabilidad
total presente en los datos que es explicada por el modelo de anlisis de la varianza.
Para ilustrar el anlisis de la varianza unifactorial de efectos jos (caso no-equilibrado),
vamos a considerar el Ejemplo 1-1, en el que se desea comprobar si se aprecian diferencias
signicativas en el rendimiento de la semilla de algodn con los distintos fertilizantes.
Para ello, construimos la Tabla 1-5, organizando los datos de la siguiente manera
Tabla 1-5. Datos del rendimiento del algodn
Fertiliz. Observaciones n
i
y
i.
y
i.

y
2
ij
y
2
i.
/n
i
1 51 49 50 49 51 50 6 300 50 15004 15000
2 56 60 56 56 57 5 285 57 16257 16245
3 48 50 53 44 45 5 240 48 11574 11520
4 47 48 49 44 4 188 47 8850 8836
5 43 43 46 47 45 46 6 270 45 12164 12150
26 y
..
= 1283 63849 63751
que facilita los clculos del anlisis de la varianza.
Las sumas de cuadrados necesarias para el anlisis de la varianza se calculan como
sigue:
SCT =
5

i=1
n
i

j=1
y
2
ij

y
2
..
N
= 63849
(1283)
2
26
= 537,88
SCTr =
5

i=1
y
2
i.
n
i

y
2
..
N
= 63751
(1283)
2
26
= 439,88
SCR = SCT SCTr = 98
El anlisis de la varianza resultante se presenta en la siguiente tabla.
Tabla 1-6. Anlisis de la varianza para los datos del Ejemplo 1-1
Fuentes de Suma de Grados de Cuadrados
variacin cuadrados libertad medios F
exp
Entre grupos 439.88 4 109.97 23.55
Dentro de grupos 98.00 21 4.67
TOTAL 537.88 25
1.3 Modelo de efectos jos 29
Obsrvese en esta tabla como el cuadrado medio entre tratamientos (109.97) es mucho
mayor que el cuadrado medio dentro de los tratamientos (4.67), entonces debe ser muy
improbable que los efectos de los tratamientos sean iguales. Efectivamente si realizamos
el contraste al 5 % y comparamos el cociente F
exp
= 109,97/4,67 = 23,55 con la F terica
(F
0,05;4,21
= 2,84), se concluye que se rechaza H
0
; en otras palabras, concluimos que, a
un nivel de signicacin del 5 %, el rendimiento de la semilla de algodn diere signica-
tivamente dependiendo del tipo de fertilizante utilizado. Igualmente ocurrira al nivel de
signicacin del 1 %, (F
0,01;4,21
= 4,36) o incluso a un nivel de signicacin mucho ms
pequeo. Ms adelante, veremos otra forma de decidir en un contraste de hiptesis por
medio del nivel mnimo de signicacin.
Comprobamos mediante el coeciente de determinacin, cuyo valor es
R
2
=
SCTr
SCT
=
439,88
537,88
= 0,8178 ,
que el factor tipo de fertilizante explica el 81.78 % de la variabilidad en el rendimiento
de la semilla de algodn.
Para la ejecucin prctica de estos clculos se suele requerir el empleo del ordenador y
el uso de un software apropiado. En la seccin ??, mostraremos la utilizacin del paquete
estadstico S1.1on.iiic.
En el caso de que se rechace la hiptesis nula, resulta de inters estudiar que tratamien-
tos son distintos entre s. Este tema ser tratado con detalle en el Captulo 2. Por otro
lado, se puede ampliar el anlisis estadstico realizado incluyendo intervalos de conanza
para los parmetros del modelo, en especial
i
y
2
.
Intervalos de conanza para
i
y
2
a) En primer lugar construyamos un intervalo de conanza para estimar la media del
i-simo tratamiento,

i
= +
i
.
Como hemos mencionado el estimador puntual de
i
es
i
= +
i
= y
i.
. Al ser
las y
ij
variables aleatorias independientes con distribucin Normal de media
i
y
varianza
2
, entonces las y
i.
son tambin variables aleatorias independientes con
distribucin Normal de media
i
y varianza
2
/n
i
. Por lo tanto, si
2
es conocida,
podra usarse la distribucin normal para construir el intervalo de conanza para

i
. Como generalmente
2
es desconocida, se debe utilizar la varianza residual,

S
2
R
,
como estimador de
2
y el intervalo de conanza, en este caso, se construye a partir
30 Diseos completamente aleatorizados
de la distribucin t de Student. As, un intervalo de conanza al nivel de conanza
(1 ) para la media
i
del i-simo tratamiento, es:
_
y
i.
t
/2;NI
_

S
2
R
/n
i
_
. (1.43)
En efecto, utilizando el resultado N
2
/
2

2
NI
que obtuvimos en la subseccin
1.3.1 y como
2
y

S
2
R
estn relacionadas de la siguiente forma:

S
2
R
=
N
N I

2
,
se deduce que:
(N I)

S
2
R

2

2
NI
, (1.44)
y por tanto
y
i.

i
/

n
i
_
(N I)

S
2
R

2
(N I)
=
y
i.

i
_

S
2
R
/n
i
t
NI
b) A continuacin, construyamos un intervalo de conanza para la varianza poblacional

2
, para ello utilizamos el resultado (1.44), obteniendo el siguiente intervalo para
2
_
(N I)

S
2
R

2
/2;NI
,
(N I)

S
2
R

2
1/2;NI
_
(1.45)
donde
2
1/2
y
2
/2
son, respectivamente, los puntos crticos inferior y superior de
una variable
2
con NI grados de libertad y con una probabilidad de /2 en cada
cola de la distribucin.
Con los datos del Ejemplo 1-1 vamos a obtener intervalos de conanza para la media
de uno de los niveles y para la varianza poblacional.
a) Usando la ecuacin (1.43), un intervalo de conanza al 95 % para la media, por
ejemplo, del tratamiento 5 es
_
45 t
0,025;21
_
4,67/6
_
= (45 1,835) .
Por tanto, el intervalo deseado para
5
es (43,164 , 46,835).
1.3 Modelo de efectos jos 31
b) Usando la ecuacin (1.45), un intervalo de conanza al 95 % para la varianza pobla-
cional es
_
21(4,67)

2
0,025;21
,
21(4,67)

2
0,975;21
_
= (2,764 , 9,539) .
1.3.4. Modelo equilibrado
Un caso muy importante del modelo unifactorial es el modelo equilibrado o bal-
anceado, en el que para cada nivel del factor se toma el mismo nmero de observaciones.
Este modelo presenta las siguientes ventajas sobre el modelo no-equilibrado:
1) Se simplica el proceso de clculo y adems permite hacer la transicin sencilla al
modelo en bloques completos al azar, que estudiaremos en el Captulo 4.
2) La restriccin

i
n
i

i
= 0 del modelo no-equilibrado se simplica a

i

i
= 0, que
resulta mucho ms natural.
3) Los contrastes resultantes son ms robustos, es decir, ms insensibles al incumplim-
iento de las hiptesis de normalidad y homocedasticidad.
4) La potencia del contrate de comparacin de medias es mxima.
5) Las comparaciones mltiples, que veremos en el Captulo 2, se abordan de manera
exacta con cualquiera de los mtodos posibles.
En este modelo, la Tabla ANOVA 1-4 del modelo no-equilibrado se simplica, obtenin-
dose la Tabla 1-7, donde n es el tamao comn de cada muestra y, por tanto, In es el
nmero total de elementos N.
Tabla 1-7. Forma prctica de la tabla ANOVA para el modelo equilibrado
Fuentes de Suma de Grados de Cuadrados
variacin cuadrados libertad medios F
exp
Entre grupos
I

i=1
y
2
i.
n

y
2
..
N
= SCTr I 1

S
2
Tr

S
2
Tr
/

S
2
R
Dentro de grupos
I

i=1
n

j=1
y
2
ij

i=1
y
2
i.
n
= SCR N I

S
2
R
TOTAL
I

i=1
n

j=1
y
2
ij

y
2
..
N
= SCT N 1

S
2
T
32 Diseos completamente aleatorizados
Para ilustrar el anlisis de la varianza unifactorial de efectos jos en el caso equilibrado,
vamos a considerar la segunda situacin con unos datos concretos:
Ejemplo 1.2
Una profesora de estadstica imparte clase en 4 grupos de alumnos, en los que explica la
misma materia pero siguiendo distintos mtodos de enseanza. Desea averiguar si el mto-
do de enseanza utilizado inuye en las calicaciones de los alumnos. Las calicaciones
medias obtenidas por los alumnos correspondientes a los 4 grupos fueron
Tabla 1-8. Datos para el Ejemplo 1-2
Grupos Calicaciones
1 8.2 7.3 7.2 6.1 3.2 8.5 2.5 5.5 5.3 4.4 3.8 10
2 6.4 3.8 3.5 9.1 8.2 7.5 3.6 2.5 6.5 5.3 5.2 5.1
3 9.2 10 8.1 5.3 2.5 2.6 6.1 9.5 10 4.2 2.1 0.0
4 8.4 7.1 6.3 4.1 3.4 5.2 6.1 4.3 3.3 3.5 9.2 8.2
Construimos la Tabla 1-9, organizando los datos de la siguiente manera
Tabla 1-9. Datos del Ejemplo 1-2
Grupos Observaciones n y
i.
y
i.

j
y
2
ij
y
2
i.
1 8.2 10 12 72.0 6.00 490.46 5184.00
2 6.4 5.1 12 66.7 5.55 416.55 4448.88
3 9.2 0.0 12 69.6 5.80 540.86 4844.16
4 8.4 8.2 12 69.1 5.75 446.79 4771.20
48 y
..
= 277.4 1894.66 19248.24
Las sumas de cuadrados necesarias para el anlisis de la varianza se calculan como
sigue:
SCT =
4

i=1
12

j=1
y
2
ij

y
2
..
N
= 1894,66
(277,4)
2
48
= 291,51
SCTr =
4

i=1
y
2
i.
n

y
2
..
N
=
19248,24
12

(277,4)
2
48
= 1,18
1.3 Modelo de efectos jos 33
SCR = SCT SCTr = 290,33 .
El anlisis de la varianza se presenta en la Tabla 1-10.
Tabla 1-10. Anlisis de la varianza para los datos del Ejemplo 1-2
Fuentes de Suma de Grados de Cuadrados
variacin cuadrados libertad medios F
exp
Entre grupos 1.18 3 0.39 0.060
Dentro de grupos 290.33 44 6.59
TOTAL 291.51 47
Al nivel de signicacin del 5 % se debe aceptar la hiptesis H
0
y concluir que las
medias de los tratamientos no dieren signicativamente ya que F
exp
= 0,39/6,59 = 0,060
es menor que la F terica (F
0,05;3,44
= 2,81); en otras palabras, decidimos que, a un nivel
de signicacin del 5 %, las calicaciones obtenidas por los alumnos en los 4 grupos no
dieren signicativamente
2
.
Comportamiento de los datos frente a un cambio de origen y de escala
En esta seccin vamos a comprobar que el anlisis de la varianza se obtiene de
forma equivalente cuando se transforman los datos mediante un cambio de origen y un
cambio de escala. Para ello, utilizaremos los datos del Ejemplo 1-1.
Cambio de origen
Supongamos que se efecta un cambio de origen en las observaciones, como valor
conveniente del origen se debe tomar un valor prximo a la media de los datos; en este
ejemplo podemos tomar 49. Los resultados se presentan en la Tabla 1-11.
2
Al ser Fexp menor que la unidad no es necesario considerar la Fteorica ya que siempre se acepta la
hiptesis nula para cualquier .
34 Diseos completamente aleatorizados
Tabla 1-11. Cambio de origen en los datos del Ejemplo 1-1
Fertiliz. Valores transformados n
i
y
i.
y
i.

j
y
2
ij
y
2
i.
/n
i
1 2 0 1 0 2 1 6 6 1 10 6
2 7 11 7 7 8 5 40 8 332 320
3 1 1 4 5 4 5 5 1 59 5
4 2 1 0 5 4 8 2 30 16
5 6 6 3 2 4 3 6 24 4 110 96
26 y
..
= 9 541 443
Las sumas de cuadrados son:
SCT =
5

i=1
n
i

j=1
y
2
ij

y
2
..
N
= 541
(9)
2
26
= 537,88
SCTr =
5

i=1
y
2
i.
n
i

y
2
..
N
= 443
(9)
2
26
= 439,88
SCR = SCT SCTr = 98 .
Observamos que al hacer un cambio de origen en los datos las sumas de cuadrados
permanecen invariantes.
Cambio de escala
Veamos ahora el comportamiento de los datos frente a un cambio de escala. Para
ello, supongamos que dividimos cada observacin, por simplicidad, por 10. As, se obtiene
la siguiente tabla
1.3 Modelo de efectos jos 35
Tabla 1-12. Cambio de escala en los datos del Ejemplo 1-1
Fertil. Valores transformados n
i
y
i.
y
i.

y
2
ij
y
2
i.
/n
i
1 5.1 4.9 5.0 4.9 5.1 5.0 6 30.0 5.0 150.04 150.00
2 5.6 6.0 5.6 5.6 5.7 5 28.5 5.7 162.57 162.45
3 4.8 5.0 5.3 4.4 4.5 5 24.0 4.8 115.74 115.20
4 4.7 4.8 4.9 4.4 4 18.8 4.7 88.50 88.36
5 4.3 4.3 4.6 4.7 4.5 4.6 6 27.0 4.5 121.64 121.50
26 y
..
= 128,3 638.49 637.51
La correspondiente Tabla ANOVA es
Tabla 1-13.
Fuentes de Suma de Grados de Cuadrados
variacin cuadrados libertad medios F
exp
Entre grupos 4.3988 4 1.0997 23.55
Dentro de grupos 0.9800 21 0.0467
TOTAL 5.3788 25
Comprobamos que la relacin de las sumas de cuadrados en los datos del ejemplo
original, (SCT = 537,88, SCTr = 439,88 y SCR = 98), con los valores transformados es
la unidad de escala al cuadrado. Adems el valor del estadstico de contraste es el mismo.
Todo sto, que hemos visto para casos particulares se puede demostrar que es cierto
para un cambio de origen y escala arbitrario. La nalidad prctica de estas transforma-
ciones es simplicar las operaciones necesarias para obtener la tabla ANOVA.
Bibliografa utilizada
Garca Leal, J. & Lara Porras, A.M. (1998). Diseo Estadstico de Experimentos.
Anlisis de la Varianza. Grupo Editorial Universitario.
Lara Porras, A.M. (2000). Diseo Estadstico de Experimentos, Anlisis de la Vari-
anza y Temas Relacionados: Tratamiento Informtico mediante SPSS Proyecto Sur
de Ediciones.

Вам также может понравиться