Академический Документы
Профессиональный Документы
Культура Документы
Distribuciones Muestrales
1.1.
Introducci
on.
1.2.
Conceptos B
asicos
Denici
on 1.1 (Universo) Es el conjunto de individuos o elementos (Personas,
F
abricas, Familias, etc) que posee caractersticas en com
un que se desean investigar.
Ejemplo 1.1 :
1. Los habitantes de la ciudad de Merida
2. Los estudiantes de la Facultad de Ciencias Econ
omicas y Sociales.
1.2. CONCEPTOS BASICOS
Y = h(X1 , X2 , ...Xn )
Entre los estadsticos mas usados se pueden mencionar:
1.3. MUESTREO
1.3.
Muestreo
1.3. MUESTREO
1.3.1.
Tipos de Muestreo
1.3.2.
M
etodos para seleccionar una muestra aleatoria.
1.3. MUESTREO
1. Metodo del bingo. Consiste en etiquetar N papeles, bolas o cualquier otro objeto
del 1 al N e introducirlas en una urna o bolsa y agitarla hasta que queden bien
mezcladas, luego extraer una a la vez hasta que hayamos seleccionado n artculos
donde n es el tama
no deseado de la muestra. Los miembros de la poblacion que
correspondan a los n
umeros de los artculos extrados se incluidos en la muestra,
y las caractersticas de estas unidades se mide u observan. Si la poblacion es
bastante grande, este metodo mecanico de seleccion aleatoria puede ser difcil o
practicamente imposible de implementar. Esto nos lleva a la consideracion de la
tabla de n
umeros aleatorios.
2. Tabla de N
umeros aleatorios. Las Tablas de N
umeros Aleatorios contienen los
dgitos 0, 1, 2,..., 7, 8, 9. Tales dgitos se pueden leer individualmente o en grupos
y en cualquier orden, en columnas hacia abajo, columnas hacia arriba, en la,
diagonalmente, etc., y es posible considerarlos como aleatorios. Las tablas se
caracterizan por dos cosas que las hacen particularmente u
tiles para el muestreo
al azar. Una caracterstica es que los dgitos estan ordenados de tal manera que
la probabilidad de que aparezca cualquiera en un punto dado de una secuencia
es igual a la probabilidad de que ocurra cualquier otro. La otra es que las
combinaciones de dgitos tienen la misma probabilidad de ocurrir que las otras
combinaciones de un n
umero igual de dgitos. Estas dos condiciones satisfacen
los requisitos necesarios para el muestreo aleatorio, establecidos anteriormente.
La primera condicion signica que en una secuencia de n
umeros, la probabilidad
de que aparezca cualquier dgito en cualquier punto de la secuencia es 1/10.
La segunda condicion signica que todas las combinaciones de dos dgitos son
igualmente probables, del mismo modo que todas las combinaciones de tres
dgitos, y as sucesivamente.
10
1.3. MUESTREO
11
Tabla de Numeros Aleatorios
6017
2438
3828
2161
6601
8762
8166
3756
6483
7405
6595
8695
3268
5788
5965
4427
9227
8468
1298
4343
1346
0861
5400
5286
0632
5878
0726
5624
7813
7905
9611
3839
6226
3452
7352
9818
0372
1222
1781
0216
5798
5805
3719
3155
6336
4710
7311
5553
3132
3375
7801
2782
1500
4249
4702
1799
9587
2788
7421
3631
3213
0670
1158
0562
6208
6641
5057
1747
7559
0548
9614
6265
6075
7161
6505
0599
1398
2947
7797
0038
4414
3904
8021
5093
2009
3799
8336
8189
8441
5748
3587
9128
2088
8840
6838
5810
8964
8261
1914
4651
9081
3202
9692
5605
7902
9525
4932
9719
7080
9448
848
8331
9069
4214
3824
2350
4986
8556
5394
1971
4098
6758
9526
6559
5435
6428
6362
7876
7746
3562
1567
7828
3328
3604
7368
9744
8842
0456
6317
0218
3826
6603
4549
2501
9976
8845
6219
2593
8337
2222
7455
1587
2778
6178
6670
4229
6420
0204
3168
5283
6869
1675
0408
7816
9054
1931
1771
3513
6523
7018
0413
5606
2869
5234
5344
5181
2457
9569
6402
9317
7475
2647
8714
6275
9693
5937
0516
1304
1156
4133
3926
1961
4928
3235
0889
1701
3778
4803
3637
6609
1152
6832
9422
8956
8355
2702
0780
5091
6964
6693
7576
9651
3543
2515
6981
4808
0084
7215
6568
4753
0215
4797
2589
2416
4746
2469
2613
7049
6319
5007
4973
3050
7658
6044
3277
2416
5823
0871
2378
0150
7335
6191
6314
2974
2783
6280
8045
6139
1575
7728
4264
4703
0164
0416
8561
4309
6759
1658
1085
6807
4425
7435
5645
4685
8751
7452
7483
5945
2360
3542
7421
9632
5936
9718
3034
7107
6070
4807
2681
1311
2724
4979
6886
2426
4486
2350
1654
4411
8094
4307
6627
6067
2654
2265
9557
4753
3174
2253
1168
2303
2778
6633
6219
4301
5528
2485
3996
5792
1741
4351
5324
4159
7672
7480
2976
3952
3061
8719
4613
2271
8921
0848
8062
1366
1449
3173
4095
2528
6684
9596
4762
1133
1784
9004
9366
1677
2984
3961
0226
3491
5758
6907
6856
1359
2532
8928
2850
3798
12
Ejemplo 1.4 suponga que tenemos 40 latas de refrescos, y que deseamos tomar
una muestra de tama
no n = 4 para estudiar su condici
on. Nuestro primer paso
es numerar las latas de 1 a 40 o apilarlas en alg
un orden de tal forma que puedan
ser identificadas. En la tabla de n
umeros aleatorios, los dgitos deben escogerse de
a dos a la vez porque la poblaci
on de tama
no N =40 es un n
umero de dos dgitos.
Luego se selecciona arbitrariamente una fila y una columna de la tabla. Suponga
que la seleccion es fila 6, y la columna 4. Leemos los pares de dgitos a partir de
la columna 4 y moviendonos hacia la derecha, ignorando los n
umeros mayores
que 40 y tambien cualquier n
umero repetido cuando aparezca una segunda vez.
Se contin
ua leyendo pares de dgitos hasta que cuatro unidades diferentes hayan
sido seleccionadas, es decir lo numeros 05, 20, 08 y 17. Por lo tanto, las latas
con la etiqueta correspondiente a dichos numeros constituyen la muestra.
3. Generacion de n
umeros pseudoaletorios. Existen metodos mas ecaces para
generar n
umeros aleatorios, en muchos de los cuales se utilizan calculadoras
o computadoras. La mayora de los paquetes estadsticos generan numeros
pseudoaleatorios y en excel usando la funcion aleatorio() se pueden generar dichos
n
umeros.
1.3.3.
Error de Muestreo.
Es el error que se comete debido al hecho dar conclusiones sobre cierta realidad, a partir
de la observacion de solo una parte de ella, es decir, es la diferencia entre el parametro
de la poblacion y el estadstico de la muestra utilizado para estimar el parametro.
1.3. MUESTREO
13
2+4+6+8+10
5
= 6.
La siguiente tabla contiene una lista de todas las muestras ordenadas de tama
no 2 que
es posible seleccionar con reemplazo y tambien contiene las medias muestrales y los
correspondientes errores muestrales.
Muestras X
Error Muestras X
Error Muestras
Error
(2,2)
-4
(6,2)
-2
(10,2)
(2,4)
-3
(6,4)
-1
(10,4)
(2,6)
-2
(6,6)
(10,6)
(2,8)
-1
(6,8)
(10,8)
(2,10)
(6,10)
(10,10)
10
(4,2)
-3
(8,2)
-1
(4,4)
-2
(8,4)
(4,6)
-1
(8,6)
(4,8)
(8,8)
(4,10)
(8,10)
14
1.4.
Distribuciones muestrales
Se ha dicho que uno de los objetivos de la estadstica es saber acerca del comportamiento
de parametros poblacionales tales como: la media (), la varianza ( 2 ) o la proporcion
(). Para ello, Se extrae una muestra aleatoria de la poblacion y se calcula el valor de un
la varianza muestral
estadstico correspondiente, por ejemplo, la media muestral (X),
(S 2 ) o la proporcion muestral (p).
Un estadstico es una variable aleatoria, informalmente esto es cierto, ya que su valor
depende de los elementos elegidos en la muestra seleccionada. La veracidad formal de
esta declaracion se da en el siguiente teorema (sin demostracion).
1.4.1.
Empricamente
15
1
25
2
25
3
25
..
.
= 10) = P {(10, 10)} =
P (X
1
25
10
= x)
P (X
1
25
2
25
3
25
4
25
5
25
4
25
3
25
2
25
1
25
16
1
25
2 ) = 22
E(X
+3
1
25
2
25
+ 32
+4
2
25
3
25
+ ... + 10
+ 42
3
25
1
25
=6
+ ... + 102
1
25
= 44
= E(X
2 ) [E(X)]
2 = 44 36 = 8
V ar(X)
Por lo tanto, se cumple que
=
E(X)
=
V ar(X)
2
n
2
n
17
Emp
Salarios
Suma
Muestra
Emp
Salarios
Suma
1,2
7,7
14
7.0
12
3,4
8,8
16
8.0
1,3
7,8
15
7.5
13
3,5
8,7
15
7.5
1,4
7,8
15
7.5
14
3,6
8,8
16
8.0
1,5
7,7
14
7.0
15
3,7
8,9
17
8.5
1,6
7,8
15
7.5
16
4,5
8,7
15
7.5
1,7
7,9
16
8.0
17
4,6
8,8
16
8.0
2,3
7,8
15
7.5
18
4,7
8,9
17
8.5
2,4
7,8
15
7.5
19
5,6
7,8
15
7.5
2,5
7,7
14
7.0
20
5,7
7,9
16
8.0
10
2,6
7,8
15
7.5
21
6,7
8,9
17
8.5
11
2,7
7,9
16
8.0
18
7.0
7.5
8.0
8.5
=x
P (X
)
0.1429
0.4285
0.2857
0.1429
2
n
Distribuci
on muestral de la proporci
on
Existen ocasiones en las cuales no se esta interesado en la media de la muestra, sino que
se quiere investigar la proporcion de artculos defectuosos o la proporcion de alumnos
aprobados en la muestra. La distribucion muestral de proporciones es la adecuada
para dar respuesta a estas situaciones. Esta distribucion se genera de igual manera
que la distribucion muestral de medias, a excepcion de que al extraer las muestras de
la poblacion se calcula en vez de la media muestral, el estadstico proporcion el cual
esta dado por:
P =
X
n
19
donde X es el n
umero de exitos u observaciones de interes y n el tama
no de la muestra.
Ejemplo 1.8 Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artculos
defectuosos. Se van a seleccionar 5 artculos al azar de ese lote sin reemplazo. Genere
la distribucion muestral de proporciones para el n
umero de piezas defectuosas.
Como se puede observar en este ejercicio la Proporci
on de artculos defectuosos de esta
poblacion es =
4
12
P (x = 0) = P (P = 0) =
7
99
P (x = 1) = P (P = 0,2) =
(5 ) 8
35
99
P (x = 2) = P (P = 0,4) =
(5 ) 8
42
99
P (x = 3) = P (P = 0,6) =
(5 ) 8
14
99
P (x = 4) = P (P = 0,8) =
(5 ) 8
1
99
7 6 54
1 12 11 10 9 8
7 6 43
2 12 11 10 9 8
7 4 32
3 12 11 10 9 8
4 3 21
4 12 11 10 9 8
0.2
0.4
0.6
0.8
P (P = p)
7
99
35
99
42
99
14
99
1
99
14
99
+ 0,8
1
99
7
99
+ 0,2
35
99
+ 0,4
42
99
+ 0,6
1
3
20
1.4.2.
Distribuci
on muestral de la media
En esta seccion vamos a determinar la distribucion muestral de la media solo en el
caso en que la poblacion sea normal, y se tomara en consideracion los casos en que la
varianza es conocida y la varianza es desconocida.
1. Distribuci
on muestral de la media para una poblaci
on normal con
varianza conocida.
Al estudiar la distribucion normal consideramos algunas propiedades que posee
dicha distribucion, una de ellas era referente a la distribucion de una combinacion
lineal de variables aleatorias normales. As pues, sabemos que si X1 , ..., Xn ,
son variables aleatorias independientes distribuidas seg
un una N (i , i2 ), para
i = 1, ..., n y si a1 , ..., an , son n
umeros reales, entonces la variable aleatoria
Y =
i=1
ai Xi = a1 X1 + ... + an Xn
( n
ai i ,
i=1
21
)
a2i i2
i=1
Teorema 1.3 Sea x1 , x2 , ..., xn una muestra aleatoria extrada de una poblacion
que se distribuye N (, 2 ). Entonces la media muestral, x, se distribuye normal
con media x = y varianza x2 =
2
,
n
es decir, x N (, n )
Ejemplo 1.9 Sea x1 , x2 , ..., x8 una muestra aleatoria extrada de una poblacion
que se distribuye N (5, 16), entonces por el teorema (1.3) se tiene que
x = = 5
x2 =
2
n
16
8
=2
2
n
144
100
= 1,44
22
Z=
/ n
(1.1)
x = = 450000
x2 =
2
n
640002
100
= 40960000
x
440000 450000
<
x
6400
23
2. Distribuci
on muestral de la media para una poblaci
on normal con
varianza desconocida.
Hasta ahora estabamos admitiendo que se conoce la varianza de la poblacion de
la que se extrae la muestra, pero esta no sera la situacion general, sino que la
mayora de las veces no conocemos la varianza de la poblacion, entonces como
se dispone de una muestra aleatoria de tama
no n, podemos, calcular la varianza
muestral S 2 y utilizarla en lugar de la varianza poblacional 2 desconocida, pues
S 2 es, como veremos despues, un buen estimador de 2 .
Cuando 2 es desconocido, la distribucion muestral de Z =
/ n
depende del
tama
no de la muestra. Veamos los siguientes dos casos:
a) El tama
no de la muestra es grande (n 30).
Cuando el tama
no de la muestra es grande, es decir,(n 30) la distribucion
del estadstico:
Z=
S/ n
24
S/ n
x
460000 450000
<
P (
x < 460000) = P
S/ n
60000/ 100
= P (Z < 1,67) = 0,9525
b) El tama
no de la muestra es peque
no (n < 30).
Si el tama
no de la muestra es peque
no, n < 30, los valores de la varianza
muestral S 2 varan considerablemente de muestra en muestra, pues S 2
disminuye a medida que n aumenta, y la distribucion del estadstico ya
no sera una distribucion normal.
Este problema fue resuelto en 1908 por el estadstico Gosset a partir del
siguiente teorema.
S/ n
25
S/ n
x
460000 450000
<
P (
x < 460000) = P
S/ n
60000/ 100
= P (T < 1,67) 0,95
Distribuci
on muestral de la proporci
on
La proporcion de la poblacion se dene como =
X
,
N
en donde X es el n
umero de
26
(1 )
n
(1 ) N n
n
N 1
27
(30)7
= 0,2304
10
Distribuci
on muestral de la varianza
La distribucion muestral de la varianza, S 2 tiene pocas aplicaciones practicas
en estadstica, sin embargo, una funcion de dicho estadstico, la cual sigue siendo
un estadstico, si tiene importancia en estadstica. Dicha funcion es
(n1)S 2
2
cuya
(n 1)S
=
2
2
(xi x)2
i=1
28
Ejemplo 1.16 Supongamos que las onzas de lquido que vierte una maquina embotelladora tiene una distribucion normal con 2 = 1. Si se elige una muestra aleatoria de 10
botellas y se mide la cantidad de lquido que contiene cada una,
1. cual es la probabilidad de que la varianza muestral sea mayor que 1.2?
En esta parte debemos hallar P (S 2 > 1,2), para ello usamos el hecho de que
(n1)S 2
2
)
(n 1)S 2
(10 1)1,2
P (S > 1,2) = P
>
2
1
( 2
)
= P > 10,8 0,25(0,2897)
2
(10 1)b1
(n 1)S 2
(10 1)b2
P (b1 S b2 ) = P
<
<
2
1
1
(
)
9b1
9b2
= P
< 2 <
= 0,95
1
1
2
9b2
= 16,919
1
29
Distribuci
on muestral de la diferencia entre 2 medias
En muchas situaciones surge la necesidad de comparar las medias muestrales de
dos poblaciones. Por ejemplo, supongamos que estamos interesados en comparar los
tiempos medios de duracion de dos artefactos electricos. La fabricacion de ambos
marcas de artefactos se realiza por compa
nas distintas y con diferentes procesos
de fabricacion. Por tanto, los artefactos producidos por cada compa
na tendran una
distribucion diferente, una de la otra, en los tiempos de duracion.
Designamos por X1 la variable aleatoria que representa el tiempo de duracion
de la primera marca de artefacto y admitimos que sigue una distribucion N (1 , 12 ).
Analogamente la variable aleatoria X2 representa el tiempo de duracion de la segunda
marca de artefacto que sigue una distribucion N (1 , 12 ). Se selecciona una muestra
aleatoria de tama
no n1 , de la primera marca de artefacto y una muestra aleatoria
de tama
no n2 , de la segunda marca de artefacto, ambas muestras independientes.
Entonces si designamos por x1 y x2 los estadsticos medias muestrales de ambas
muestras, estamos interesados en conocer la distribucion muestral de la diferencia
30
Teorema 1.6 Sean X11 , X12 , ..., X1n1 una muestra aleatoria extrada de una
poblacion que se distribuye N (1 , 12 ) y X21 , X22 , ..., X2n2 una muestra aleatoria
extrada de una poblaci
on que se distribuye N (2 , 22 ), independientes, y
N (, 1 +
X
n1
22
).
n2
12
n1
+ n22 , es decir,
X
Z= 2
N (0, 1)
22
1
+ n2
n1
Aunque no se demostrara el teorema, es facil ver que
= E(
E(X)
x1 x2 ) = E(
x1 ) E(
x2 ) = 1 2
= V ar(
V ar(X)
x1 x2 ) = V ar(
x1 ) + V ar(
x2 ) =
12
n1
22
n2
Ejemplo 1.17 Sean X11 , X12 , ..., X18 una muestra aleatoria extrada de una
poblacion que se distribuye N (5, 16) y X21 , X22 , ..., X25 una muestra aleatoria
extrada de una poblaci
on que se distribuye N (8, 25), entonces por el teorema
(1.6) se tiene que
X = 1 2 = 5 8 = 3
2
=
X
12
n1
22
n2
16
8
25
5
=7
N (3, 7)
Por lo tanto, X
Al igual que para una muestra, el resultado del teorema (1.6), permite hallar
probabilidades sobre la diferencia de medias muestrales, lo cual como se vera mas
adelante ayudara a medir el error al estimar un parametro usando un estadstico.
31
=
X
12
n1
22
n2
640002
100
360002
120
= 51760000
= x1 x2 N (10000, 51760000).
por lo tanto, X
As,
> 0)
P (
x1 > x2 ) = P (
x1 x2 > 0) = P (X
(
)
X
0 10000
= P
>
2
51760000
X
= P (Z > 1,39) = 0,9177
32
a) Tama
no de las muestras son mayores que 30
Si el tama
no de cada muestra es mayor que 30, la distribucion muestral
2
de la diferencia de medias sigue siendo normal pero sustituyendo
por
X
2
S
=
X
S12
n1
S22
.
n2
Es decir,
N (, 2 )
X
X
Ejemplo 1.19 La edad promedio de los estudiantes de la Universidad de
los Andes es 22 a
nos y la de los estudiantes de la Universidad de Oriente es
24 a
nos. Dada una muestra aleatoria de 50 estudiantes de la ULA se obtuvo
que la varianza era 25, y para 60 estudiantes de la UDO se obtuvo que la
varianza era de 16. Su suponemos que las poblaciones son normales.
2
S
=
X
S12 S22
25 16
+
=
+
= 0,77
n1
n2
50 60
33
P (|
x1 x2 | > 2) = P (
x1 x2 > 2) + P (
x1 x2 < 2)
)
(
2 (2)
X
>
= P
2
S
0,77
X
(
)
2 (2)
X
<
+ P
2
S
0,77
X
= P (Z > 4,55) + P (Z < 0) = 0 + 0,50 = 0,50
b) Tama
no de al menos una de las muestras es menor que 30
T =
X
SX
SX =
v = n1 + n2 2
1
1
+
n1 n2
34
S12 S22
+
n1
n2
SX =
S2
v=
S22 2
)
n2
(S 2 /n )2
+ n22 12
( n11 +
(S12 /n1 )2
n1 1
Metodo 1
Metodo 2
N
umero de ni
nos
11
14
Media
64
69
Varianza
52
71
35
SX
Por lo tanto,
< 0)
P (
x1 x2 < 0) = P (X
(
)
X
0 (5)
= P
<
SX
3,19
= P (T < 1,57) 0,95
Distribuci
on muestral del cociente de varianzas
Sean dos poblaciones X1 y X2 , N (1 , 12 ), N (2 , 22 ) e independientes, de las cuales
seleccionamos dos muestras aleatorias simples e independientes, de tama
nos n1 y
n2 , (x11 , ..., x1n1 , ) y (x21 , ..., x2n2 ), entonces pueden presentarse fundamentalmente dos
situaciones:
1. 1 y 2 son conocidas
2. 1 y 2 son desconocidas
1. 1 y 2 son conocidas Al ser conocidas las medias poblacionales 1 y 2 las
podemos utilizar para el calculo de las varianzas muestrales S12 y S22 ; y como
36
S12
n
1
(x1i 1 )2
=
n1 i=1
S22
n
1
=
(x2i 2 )2
n2 i=1
n1 S12 =
i=1
n2 S22
n1 S12 x1i 1 2
=
(
) 2n1
12
1
i=1
n
(x1i 1 )2
n2 S22 x2i 2 2
=
(x2i 2 )
=
(
) 2n2
2
2
2
i=1
i=1
n
F =
2. 1 y 2 son desconocidas
n1 S12
/n1
12
n2 S22
22
/n2
S12 22
Fn1 ,n2
S22 12
37
Al ser desconocidas las medias poblacionales, que sera lo que casi siempre ocurra,
y ser las muestras independientes y ademas procedentes de distintas poblaciones,
entonces los estadsticos:
S12
1
(x1i x1 )2
=
n1 1 i=1
S22
1
=
(x2i x2 )2
n2 1 i=1
(n1 1)S12 =
(x1i x1 )2
(x2i x2 )2
i=1
(n2 1)S22 =
i=1
Analogamente a como ocurra en la situacion anterior, llegaremos a una FSnedecor con n1 1 y n2 1 grados de libertad, en efecto:
F =
(n1 1)S12
/n1
12
(n2 1)S22
/n2
22
S12 22
Fn1 1,n2 1
S22 12
38
supone que las puntuaciones obtenidas por cada metodo son normales cuyas
varianzas poblacionales son 60 y 75 respectivamente, calcule la probabilidad de
que el segundo metodo presente mayor variabilidad que el primero.
Metodo 1
Metodo 2
N
umero de ni
nos
11
14
Media
64
69
Varianza
52
71
P (S12
<
S22 )
Distribuci
on muestral de la Diferencia de Proporciones
Otro problema que se suele presentar es el de comparar las proporciones p1 y p2 , de
dos poblaciones binomiales (si el muestreo es con reemplazo) o hipergeometricas (si
el muestreo es sin reemplazo), basandose en muestras aleatorias simples de tama
no
n1 y n2 , respectivamente, extradas de ambas poblaciones. La comparacion de dichas
proporciones se obtienen a traves del estadstico p = p1 p2 , cuya distribucion no
es conocida, ya que en teora no se conoce cual es la distribucion de la resta de dos
binomiales o de dos hipergeometricas. Por lo tanto, la distribucion de este estadstico
se denira mas adelante.
1.4.3.
39
Distribuciones asint
oticas
Y =
Xi
i=1
Xi N (n; n 2 )
i=1
40
=
X
Xi
i=1
(
)
2
N ;
n
=
X
Xi
i=1
(
)
S2
N ;
n
(n 1)S
=
2
2
(xi x)2
i=1
41
N
X
)
(
S2
;
n
Distribuci
on muestral de la proporci
on
Sea x el numero de exitos en una muestra de tama
no n, extrada de una poblacion
cuya proporcion de exitos es . Por el teorema central del limite, si n 30, se cumple
que
p N (p ; p2 )
donde
x
1
1
p = E(p) = E( ) = E(x) = n =
n
n
n
x
1
1
(1 )
p2 = V ar(p) = V ar( ) = 2 V ar(x) = 2 n(1 ) =
n
n
n
n
Distribuci
on muestral de la diferencia de medias
Si las poblaciones de donde se extraen las muestras no son normales, pero los tama
nos
de ambas muestras son grandes, entonces podemos aplicar el siguiente resultado
Corolario 1.9 Sean x11 , x12 , ..., x1n y x21 , x22 , ..., x2n muestras aleatorias extradas de
poblaciones cuya distribucion no es normal, pero que se sabe que tienen medias 1 y 2
42
N (; 2 )
X
X
donde
= 1 2
=
X
12 22
+
n1 n2
y
Z=
X
N (0, 1)
X
N (; 2 )
X
X
donde
= 1 2
y
Z=
X
N (0, 1)
SX
Distribuci
on muestral del cociente de varianzas
no hay cambios
43
Distribuci
on muestral de la Diferencia de Proporciones
Consideremos dos muestras aleatorias simples e independientes de tama
no n1 y
n2 , procedentes de poblaciones binomiales con parametros 1 y 2 , respectivamente,
entonces la distribucion muestral de la diferencia de proporciones muestrales
p = p1 p2
2
p
=
1 (1 1 ) 2 (1 2 )
n1
n2
es decir,
2
p N (p ; p
)
44
1.5.
Ejercicios.
1. Una poblacion consiste en los cuatro valores siguientes: 12, 12, 14 y 16.
1.5. EJERCICIOS.
45
Empleado Salario (BsF)
Ramon
Juan
Pedro
Luis
10
Victor
2 3 2
46
54
Maria
50
Jose
52
Luis
48
Victor
50
Ana
52
1.5. EJERCICIOS.
47
48
b. n = 2
f. n = 25
g. n = 100
c. n = 4
d. n = 9
e. n = 16
1.5. EJERCICIOS.
49
50
1.5. EJERCICIOS.
51
52
1.5. EJERCICIOS.
53
54
33. La duracion (en meses) de dos marcas de bateras se distribuyen normal con
medias 38 y 35 respectivamente y desviaciones estandar 8 y 6 respectivamente.
Si se selecciona una muestra aleatoria de 36 bateras de cada marca, cual es la
probabilidad de que la duracion promedio de la marca A sea:
a) Superior a la de la marca B en dos meses o mas?
b) Inferior a la de la marca B en 2 meses o menos?.
34. Una tienda por departamentos tiene dos planes de cuentas de cargo disponibles
para sus clientes con cuenta corriente de credito. Los saldos de cada plan se
distribuyen normal con medias 15000 BsF y 18000 Bs, respectivamente. La tienda
selecciono una muestra aleatoria de 40 cuentas del plan A y 40 cuentas del plan
B, obteniendo que las medias y las desviaciones estandar eran 12750 y 2550 para
el plan A y 18700 y 2404 para el plan B. cual es la probabilidad de que los saldos
promedios del plan A sean menor que los del plan B?.
35. Cierta marca de almohadas tienen un peso medio de 15 gramos y una desviacion
estandar de 0.006 gramos. Se toman dos muestras aleatorias incondicionales en
forma independiente de cierto da de produccion, con n1 = 500 y n2 =800. Cual es
la probabilidad de que las medias muestrales dieran en mas de 0.0006 gramos?,
de que dieran en menos de 0.0003 gramos?.
36. Dos marcas de tubos de television, A y B, poseen los siguientes parametros:
A = 1,400 horas, A2 = 40,000 horas2 , B = 1,200 horas y B2 = 10,000
horas2 . Se extrae una muestra aleatoria de 125 tubos de cada marca; determine
la probabilidad de que
a) la marca A tendra una media de vida de por lo menos 160 horas mas que B
1.5. EJERCICIOS.
55
b) La marca A tendra una media de vida de por lo menos 250 hora mas que B
37. El sueldo anual de los profesores en cierta ciudad es de 120000 BsF como
promedio, con una desviacion estandar de 10000 BsF. En la misma ciudad, el
salario anual de los medicos es de 150000 BsF como promedio, con una desviacion
estandar de 15000 BsF. Se toma una muestra aleatoria de 100 de cada poblacion;
cual es la probabilidad de que las medias muestrales dieran en menos de
50000BsF; de que dieran en mas de 60000 BsF?.
38. El alcalde de la ciudad de Merida compra 100 bombillos de luz de la marca A y
otros 100 de la marca B. Al probar estos bombillos, hallo que xA = 1300 horas,
SA = 90 horas, xB = 1250 horas y SA = 100 horas. Cual es la probabilidad de
que la diferencia entre las dos medias de poblacion correspondientes sea mayor
de 40 horas?.
56
Captulo 2
Inferencia Estadstica: Estimaci
on
2.1.
Introducci
on.
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
58
En la estimaci
on, basta seleccionar un estadstico muestral cuyo valor se
utilizara como estimador del valor del parametro poblacional.
En la prueba de hip
otesis, se hace una hipotesis sobre el valor del parametro
y se utiliza la informacion proporcionada por la muestra para decidir si la
hipotesis se acepta o no.
2.2. ESTIMACION
59
2.2.
Estimaci
on
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
60
por una muestra podramos obtener una estimacion puntual del parametro , que lo
denotaremos por
;
= 1250 BsF, sin embargo, el intervalo de estimacion para sera
de la forma (1200, 1300), es decir, de 1200 BsF a 1300 BsF, con un cierto margen de
seguridad.
2.2.1.
Estimaci
on Puntual
2.2. ESTIMACION
61
una ciudad, para ello parece logico utilizar como estimador de la media poblacional la
siendo necesario seleccionar una muestra aleatoria que supondremos
media muestral X
de tama
no n = 80, a partir de la cual obtendramos la renta media de la muestra, por
(2.1)
(xi x)2
S 2 =
i=1
n
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
62
n
S2 =
(xi x)2
i=1
n1
si es insesgado.
2
n
y V (M ed) =
2.2. ESTIMACION
63
0 cuando n
V ()
(2.2)
2
n
lo cual tiende a
Estimadores de Par
ametros usados en este curso
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
64
E()
Par
ametro () Estimador ()
2
2
S
2
2.3.
V ()
2
n
(1)
n
12
n1
1 (11 )
n1
+
+
22
n2
2 (12 )
n2
Estimaci
on por Intervalo
y una medida que nos reeje la conanza que tenemos acerca de que el verdadero
valor del parametro se encuentre dentro del intervalo.
Observemos que los extremos del intervalo variaran de manera aleatoria de una
muestra a otra, pues dependen de las observaciones de la muestra, luego tanto los
extremos del intervalo como la longitud del intervalo seran cantidades aleatorias y,
por tanto, no podremos saber con seguridad si el valor del parametro se encuentre
dentro del intervalo obtenido cuando se selecciona una sola muestra. El objetivo que
POR INTERVALO
2.3. ESTIMACION
65
(2.3)
1 (x, ..., xn ) = a
2 (x, ..., xn ) = b
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
66
ya que no tiene sentido alguno, pues a, b y son tres valores constantes. Sin embargo,
una vez seleccionada la muestra y calculados, los valores de a y b si tiene sentido decir
que
La probabilidad es 1 si [a, b]
La probabilidad es 0 si
/ [a, b]
Luego, no podemos referirnos a la probabilidad del intervalo numerico sino que nos
referiremos al coeciente de conanza del intervalo, y en consecuencia al nivel de
conanza del intervalo, pues la probabilidad ya hemos indicado que, despues de extrada
la muestra, sera 1 o cero.
Para precisar mas sobre la interpretacion del intervalo de conanza, consideramos
un n
umero grande de muestras del mismo tama
no y calculamos los lmites inferior y
superior para cada muestra, es decir a y b, entonces se obtendra que aproximadamente
en el 100(1 ) % de los intervalos resultantes estara en su interior el valor del
parametro , y en el 100 % restante no estara en su interes el valor del parametro
, y en consecuencia al intervalo (a, b) se le llama intervalo de conanza al nivel de
conanza del 100(1 ) %. Es decir, si tomamos 100 muestras aleatorias de tama
no n
de la misma poblacion y calculamos los lmites de conanza 6 y 8 para cada muestra,
entonces esperamos que aproximadamente el 95 % de los intervalos contendran en su
interior el verdadero valor del parametro p, y el 5 % restante no lo contendran. Pero
como nosotros, en la practica, solo tomamos una muestra aleatoria y, por tanto, solo
tendremos un intervalo de conanza, no conocemos si nuestro intervalo es uno del 95 %
o uno del 5 %, y por eso hablamos de que tenemos un nivel de conanza del 95 %.
La precision de la estimacion por intervalos vendra caracterizada por el coeciente
de conanza 1 y por la amplitud del intervalo. As pues, para un coeciente
POR INTERVALO
2.3. ESTIMACION
67
2.3.1.
M
etodos de construcci
on de intervalos de conanza
barX
barX
(n1)S 2
2
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
68
3. T =
X
X
2.3.2.
POR INTERVALO
2.3. ESTIMACION
69
/ n
P (Z/2 Z Z1/2 ) = 1
multiplicando por / n
(
)
Z1/2
P Z/2 X
=1
n
n
restando X
(
)
+ Z/2 X
+ Z1/2
P X
=1
n
n
(2.4)
70
=1
P X Z/2 X Z1/2
n
n
que es equivalente a
(
)
P X Z1/2 X Z/2
=1
n
n
como Z/2 = Z1/2 se tiene
(
)
Z1/2 X
+ Z1/2
P X
=1
n
n
x Z1/2 ; x + Z1/2
n
n
]
(2.5)
POR INTERVALO
2.3. ESTIMACION
71
3
3
25 1,96 ; 25 1,96
16
16
[23,53; 26,47]
b) 2 es desconocida. Cuando la varianza poblaciones es desconocida
debemos tomar en cuenta el tama
no de la muestra. Se el tama
no de la
muestra es mayor o igual que 30 seguimos usando el intervalo de conanza
de la ecuacion 2.5. Si el tama
no de la muestra es menor que 30, usamos el
siguiente estadstico como cantidad pivotal
T =
S/ n
P (t/2 T t1/2 ) = 1
(2.6)
S
S
x t1/2 ; x + t1/2
n
n
]
(2.7)
72
1,06
1,06
19,48 2,015 ; 19,48 + 2,015
6
6
[18,61; 20,35]
2. Intervalo de conanza para la varianza de una poblaci
on normal
Cuando se realizan inferencia sobre la varianza de una poblacion normal se debe
tomar en consideracion si la media poblacional es o no conocida.
a) es desconocida Supongamos una poblacion N (, 2 ), en donde y 2 son
desconocidos y deseamos obtener un intervalo de conanza para la varianza
poblacional 2 al nivel de conanza del 100(1 ) %. Para ello tomamos
una muestra aleatoria de tama
no n, (X,, ..., X,) y utilizaremos un estadstico
(cantidad pivotal o pivote) que dependa del parametro 2 y de su estimador
POR INTERVALO
2.3. ESTIMACION
73
(n 1)S 2
2
P (2n1,/2 W 2n1,1/2 ) = 1
2n1,1/2
1
2
(n 1)S 2
(n 1)S 2
2n1,/2
)
=1
(n 1)S
(n 1)S
2 2
2
n1,1/2
n1,/2
2
)
=1
(2.8)
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
74
(n 1)S 2 (n 1)S 2
;
2n1,1/2 2n1,/2
]
(2.9)
W =
(Xi )2
i=1
n
n
2
2
(Xi )
(Xi )
i=1
i=1
;
2
2
n,/2
n,1/2
(2.10)
POR INTERVALO
2.3. ESTIMACION
75
6,56
6,56
131,75 2,365 ; 131,75 + 2,365
8
8
[126,25; 137,23]
b) El intervalo de confianza para la varianza poblacional cuando es
desconocido y 1 = 0,95 viene dado por:
[
(n 1)S 2 (n 1)S 2
;
2n1,1/2 2n1,/2
(8 1)43,07 (8 1)43,07
;
27,0,975
27,0,025
(7)43,07 (7)43,07
;
16,015
1,690
[18,83; 178,39]
3. Intervalo de conanza para la diferencia de medias en poblaciones
normales: Muestras independientes
76
Z=
X
X
12
n1
22
.
n2
(2.11)
POR INTERVALO
2.3. ESTIMACION
77
cantidad pivotal es
T =
X
SX
SX =
1
1
+
n1 n2
v = n1 + n2 2
Por lo tanto, el intervalo de conanza es
[
]
tv,1/2 SX ; X
+ tv,1/2 SX
X
(2.12)
S12 S22
+
n1
n2
SX =
S2
v=
S22 2
)
n2
(S 2 /n )2
+ n22 12
( n11 +
(S12 /n1 )2
n1 1
(2.13)
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
78
i = 1, 2, ..., n
Sd2 =
siendo
= 1
D
Di
n i=1
n
por D.
POR INTERVALO
2.3. ESTIMACION
79
D
D
SD
Sd
.
n
Sd
Sd
t(n1),1/2
D
; D + t(n1),1/2
n
n
]
(2.14)
5,17
5,17
2 t8,0,995 ; 2 + t8,0,005
9
9
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
80
Tabla 2.1: Consumo de gasolina por 1000 km, para los modelos X e Y
1
2
3
4
5
6
7
8
9
Modelo X
132
139
126
114
122
132
142
119
126
Modelo Y
124
141
118
116
114
132
145
123
121
Diferencias di
8
-2
8
-2
8
0
-3
-4
5
d2i
64
4
64
4
64
0
9
16
25
[3,781; 7,781]
12
.
22
Para
POR INTERVALO
2.3. ESTIMACION
81
desconocidos
sigma21 y 22 y de sus estimadores y cuya distribucion muestral no dependa
de los parametros, el estadstico:
F =
(n1 1)S12
/n1
12
(n2 1)S22
22
/n2 1
S12 22
S22 12
(2.15)
S22
S12
22
S22
S22
F
F1/2;n1 1,n2 1
/2;n1 1,n2 1
S12
12
S12
)
=1
S12
1
S12
1
12
2
2
2
S2 F1/2;n1 1,n2 1
2
S2 F/2;n1 1,n2 1
)
=1
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
82
12
22
S12
1
S12
1
;
2
2
S2 F1/2;n1 1,n2 1 S2 F/2;n1 1,n2 1
]
(2.16)
b) Medias conocidas
En este caso usamos como cantidad pivotal el estadstico
F =
(n1 )S12
/n1
12
(n2 )S22
/n2
22
S12 22
S22 12
S12
1
S12
1
;
2
2
S2 F1/2;n1 ,n2 S2 F/2;n1 ,n2
]
(2.17)
donde
S12
n
1
=
(x1i 1 )2
n1 i=1
S22
n
1
=
(x2i 2 )2
n2 i=1
POR INTERVALO
2.3. ESTIMACION
83
1
F0,05;20,25
= f alta
1250
1
1250
1
;
900 F1/2;n1 1,n2 1 900 F/2;n1 1,n2 1
[0,69; 2,89]
2.3.3.
Z=
/ n
84
se distribuye aproximadamente N (0, 1). Por lo tanto, dicho estadstico sera nuestra
cantidad pivotal, con el cual se tiene que
)
(
X
Z1/2 1
P Z/2
/ n
y de manera analoga a como procedamos anteriormente, llegaremos a que el
intervalo de conanza al nivel del 100(1 ) % sera:
[
x Z1/2 ; x + Z1/2
n
n
]
(2.18)
La diferencia con los intervalos obtenidos anteriormente es que aquellos eran exactos
y ahora son aproximados y solo son validos para muestras grandes, n > 30.
Cuando 2 es desconocida se toma como valor aproximado la varianza muestral S 2 ,
y se obtendra como intervalo de conanza:
[
S
S
x Z1/2 ; x + Z1/2
n
n
]
(2.19)
Ejemplo 2.6 De los examenes realizados a nivel nacional, se extrae una muestra de
75 ejercicios correspondientes a mujeres y otra de 50 ejercicios correspondientes a
hombres, siendo la calificacion media de la muestra de mujeres 82 puntos con una
desviacion tpica muestra1 de 8, mientras que para los hombres la calificaci
on media
fue de 78 con una desviacion tpica de 6. Obtener el intervalo de confianza al nivel
de confianza del 95 % para la diferencia de la puntuacion media de las mujeres y la
puntuacion media de los hombres.
POR INTERVALO
2.3. ESTIMACION
85
Como las muestras son suficientemente grandes, pues son mayores que 30 y las
poblaciones no son normales podemos obtener un intervalo de confianza aproximado
utilizando la expresion 2.11 en donde sustituimos las varianzas poblacionales por las
varianzas muestrales obteniendo el intervalo:
[
]
Z1/2 X ; X
+ Z1/2 X
X
De donde
x1 = 82, S1 = 8 y n1 = 75
x2 = 78, S= 6 y n2 = 50
Por lo tanto,
x = x1 x2 = 82 78 = 4
SX =
S12
n1
S22
n2
64
75
36
50
= 1,25
[4 (1,96)(1,25); 4 + (1,96)(1,25)]
[1,55; 6,45]
2.3.4.
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
86
(2.20)
Z/2
p
(1 )/n
)
Z1/2
=1
(1 )/n, restado despues p
(
)
(2.21)
POR INTERVALO
2.3. ESTIMACION
87
Pero los lmites de la expresion 2.21 dependen del parametro desconocido . Como
n es grande una solucion satisfactoria se obtiene sustituyendo por su estimacion p en
el lmite interior y en el lmite superior, resultando:
(2.22)
(2.23)
Ejemplo 2.7 Se selecciona una muestra aleatoria de 600 familias, a las cuales se
les pregunta si poseen o no computador personal en casa, resultando que 240 de esas
familias contestaron afirmativamente. Obtener un intervalo de confianza al nivel del
95 % para estimar la proporcion real de familias que poseen computador personal en
casa.
x
n
240
600
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
88
Z=
p
1 (11 )
n1
(2.24)
2 (12 )
n2
P Z/2
p
1 (11 )
n1
2 (12 )
n2
Z1/2 = 1
de donde llegaremos a
)
(
P p Z1/2 p p + Z1/2 p = 1
(2.25)
POR INTERVALO
2.3. ESTIMACION
89
donde
p =
1 (1 1 ) 2 (1 2 )
+
n1
n2
Sp =
p1 (1 1 ) p2 (1 p2 )
+
n1
n2
(2.26)
Ejemplo 2.8 En una ciudad A se toma una muestra aleatoria de 98 cabezas de familia,
de los cuales 48 han sido poseedores de acciones de CANTV. Mientras que en otra
ciudad B se selecciona otra muestra aleatoria de tama
no 127 cabezas de familia, de
los cuales 21 han sido poseedores de acciones de CANTV. Obtener un intervalo de
confianza al nivel del 95 % para la diferencia entre las proporciones de cabezas de familia
que han sido poseedores de ese tipo de acciones en ambas ciudades.
De la informacion del enunciado se deduce:
n1 = 98, x1 = 48, p1 =
48
98
= 0,49
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
90
n2 = 127, x2 = 21, p1 =
21
127
= 0,165
Sp =
[0,21; 0,44)]
Como el 0 esta fuera del rango del intervalo, esto nos indica que es bastante mas
probable que un cabeza de familia de la ciudad A haya tenido acciones de CANTV que
un cabeza de familia de la ciudad B.
2.4.
Ejercicios
2.4. EJERCICIOS
91
Que efecto tiene una varianza poblacional mas grande en el margen de error?.
4. Una muestra aleatoria de 50 observaciones produjo x = 56,4 y s2 = 2,6. De la
mejor estimacion para la media poblacional y calcule el margen de error.
5. Estimaciones de la biomasa terrestre, la cantidad total de vegetacion que tienen
los bosques de la Tierra, son importantes para determinar la cantidad de dioxido
de carbono no absorbido que se espera permanezca en la atmosfera de la tierra.
Suponga que una muestra de 75 parcelas de 1 metro cuadrado, elegidas al azr en
los bosques de Merida, produjo una biomasa media de 4.2 kilogramos por metro
cuadrado, con una desviacion estandar de 1.5 kg/m2 . Cual es el mejor estimador
de la biomasa promedio?. Estime la biomasa promedio para los bosques de Merida
y el margen de error para su estimacion.
6. A la mayora de los habitantes de un pas les encanta participar, o por lo menos
ver, un evento deportivo. De una muestra de 1000 personas 780 respondieron que
si les gustaba participar o ver un deporte.
a) Identique el mejor estimador puntual para la proporcionan de personas que
si les gustaba participar o ver un deporte.
b) Encuentre una estimacion puntual para dicha proporcion y el margen del
error.
c) La encuesta produce un margen de error de mas o menos 3.1 %. Esto
concuerda con sus resultados del inciso b? Si no, que valor de p produce el
margen de error dado en la encuesta?.
7. Suponiendo que las poblaciones son normales, encuentre e interprete un intervalo
de conanza del 95 % para la media poblacional para estos valores
92
2.4. EJERCICIOS
93
CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION
94
2.4. EJERCICIOS
95
20. De entre 2000 piezas se eligen 75 y se encuentra que en 30 hay defectos. Calcule
un intervalo de conanza del 90 % para informar a la gerencia.
21. Se tomo una muestra aleatoria de 300 adultos, y 192 de ellos dijeron que siempre
votaban en las elecciones presidenciales.
a) Construya un intervalo de conanza de 95 % para la proporcion de
venezolanos que arman votar siempre en las elecciones presidenciales.
b) Una famosa encuestadora arma que este porcentaje es de 67 %. Con base
en el intervalo construido en el inciso a, estara en desacuerdo con este
porcentaje? Explique.
c) Se puede usar la estimacion del intervalo del inciso a para estimar la
proporcion real de venezolanos adultos que votan en la eleccion presidencial
de 2012? Por que s o por que no?.
96
Captulo 3
An
alisis de Varianza
3.1.
Introducci
on.
CAPITULO 3. ANALISIS
DE VARIANZA
98
3.2.
Qu
e es el An
alisis de Varianza?
Denici
on 3.1 (An
alisis de Varianza) Es una tecnica estadstica que divide y
analiza la variabilidad total observada de una variable en porciones atribuibles a
distintos factores de interes para el investigador.
Para entender mejor la denicion veamos el siguiente ejemplo:
Ejemplo 3.1 Se desea estudiar el efecto que puedan tener 5 tipos de dietas en los
tiempo de coagulacion de la sangre extrada de 24 animales. El analisis de varianza
ES EL ANALISIS
3.2. QUE
DE VARIANZA?
99
supone que cualquier variacion que existe entre los promedios del tiempo de coagulacion
de la sangre se atribuye a:
1. Variacion de los tiempos de coagulaci
on dentro de las dietas.
2. Variacion debido a las dietas, esto es, debido a la composici
on de cada dieta.
La variacion dentro de cada dieta se debe, por supuesto, a diversas causas, tal
vez al tipo de sangre, a la presi
on, o cualquier otro elemento no tomado en cuenta.
De cualquier manera dicha variacion es considerada como una variacion al azar o
aleatoria. En cambio, la variacion debido a la dieta, es una variacion que no depende
de variables asociadas con el animal sino de la composici
on de la dieta. En este caso, el
an
alisis de varianza busca identificar cuanto de la variacion del tiempo de coagulacion
de la sangre se debe a la dieta y cuanto a otros elementos no tomados en cuenta .
3.2.1.
El An
alisis de Varianza en el Dise
no de Experimentos.
Cuando se esta realizando una investigacion el investigador puede bien sea observar
las caractersticas de los datos ya existentes (sin tener participacion en su generacion) o
imponer deliberadamente una o mas condiciones experimentales sobre los elementos en
estudio. En el segundo caso caso, se dice que el experimento fue dise
nado. El principal
proposito del dise
no de un experimento es reducir la variabilidad de las respuestas,
pues previamente se establecen las variables que se piensan inciden sobre el fenomeno
en estudio, as como sus posibles valores.
Algunos conceptos relacionados con el dise
no de experimentos.
Denici
on 3.2 (Variable dependiente o respuesta) Es la variable que nos interesa medir o respuesta que se va estudiar, para determinar el efecto que tiene sobre
ella la o las variables independientes.
CAPITULO 3. ANALISIS
DE VARIANZA
100
Denici
on 3.3 (Variables independientes o factores) Son las variables que pueden influenciar en la variabilidad de la variable respuesta. Estas son controladas completamente por el experimentador.
Denici
on 3.4 (Nivel del Factor) Es un valos de la variable independiente o
factor.
Denici
on 3.5 (Tratamiento) Es un nivel o una combinaci
on de dos o mas niveles
de un factor o factores.
Denici
on 3.6 (Unidad Experimental) Son los objetos sobre los cuales se aplican
los tratamientos para obtener una respuesta.
Denici
on 3.7 (Error Experimental) Es la variacion que no se puede atribuir a un
cambio de tratamiento, es decir, a la que se produce por los factores extra
nos que pueden
influir en la respuesta y que deben ser controlados o eliminados por el investigador.
Denici
on 3.8 (Aleatorizaci
on) Consiste en asignar en forma aleatoria los tratamientos a las unidades experimentales con el prop
osito de eliminar los sesgos que produce dicha asignacion.
Por lo general el dise
no de un experimento comprende:
1. La seleccion de los factores que deben incluirse en el experimento y la
especicacion del o los parametros de interes.
2. Decidir cuanta informacion se debe utilizar para estimar los parametros.
3. Seleccionar los tratamientos que deben utilizarse en el experimento y el n
umero
de unidades experimentales que deben asignarse a cada uno.
ES EL ANALISIS
3.2. QUE
DE VARIANZA?
101
3.2.2.
Supuestos del An
alisis de Varianza
CAPITULO 3. ANALISIS
DE VARIANZA
102
3.3.
3.3.1.
Dise
no Completamente Aleatorizado (DCA)
Introducci
on
103
CAPITULO 3. ANALISIS
DE VARIANZA
104
3.3.2.
El Modelo
La respuesta observada para cada tratamiento, Yij es una variable aleatoria que
puede ser expresada como la suma de dos componentes, a saber:
Un componente que mide la media de tratamientos
Un componente que representa al error aleatorio (termino de error aleatorio)
La media de los tratamientos muestra la inuencia de los tratamientos sonre la
variable respuesta y el error es una cantidad aleatoria que no puede predecirse con
anticipacion, pero cuyo valor esperado es igual a cero.
El modelo matematico apropiado para describir las observaciones, esta dada por:
Yij = j + ij
i = 1, 2, , nj
j = 1, 2, , k
donde:
Yij es la i-esima observacion del j-esimo tratamiento.
(3.1)
105
H0 : 1 = 2 = = k
H1 : i = j para alg
un i = j
(3.2)
CAPITULO 3. ANALISIS
DE VARIANZA
106
k
Y11
Y12
Y1k
Y21
Y22
Y2k
..
..
..
..
.
.
.
.
Yn1 1
Yn2 2
Ynk k
Total
Y,1
Y,2
Y.k
nj
n1
n2
nk
Media
Y,1
Y,2
Y.K
Otra manera de plantear el modelo de un dise
no completamente aleatorizado,
ecuacion ??, se tiene al expresar la media del j-esimo tratamiento, j como
j = + j
donde
es la media general.
j es el efecto del j-esimo tratamiento
de esta manera, el modelo de un DCA se puede escribir como
Yij = + j + ij
i = 1, 2, , nj
(3.3)
j = 1, 2, , k
H0 : 1 = 2 = = k = 0
H1 : i = 0 para alg
un i
(3.4)
107
3.3.3.
An
alisis de Varianza para el DCA
Y.j =
j=1
nj
k
Yij .
j=1 i=1
nj
Yij . Y.j =
Y.j
nj
i=1
El n
umero de observaciones: N =
nj .
j=1
Y..
.
N
Y.j
.
nj
CAPITULO 3. ANALISIS
DE VARIANZA
108
2 =
(Yij Y..)
j=1 i=1
nj
k
2
(Yij barY.j + Y.j Y..)
(3.5)
(3.6)
j=1 i=1
nj
k
j=1 i=1
nj
k
2 =
(Yij Y..)
j=1 i=1
nj
k
2 + 2(Y.j Y..)(Y
2
[(Y.j Y..)
ij Y.j ) + (Yij Y.j ) ]
j=1 i=1
nj
k
+
(Y.j Y..)
2
nj
k
j=1 i=1
j=1 i=1
nj
k
nj
k
2+
(Y.j Y..)
j=1 i=1
2(Y.j Y..)(Y
ij Y.j ) +
nj
k
(Yij Y.j )2
j=1 i=1
(Yij Y.j )2
j=1 i=1
Como las sumatorias que contienen productos cruzados son iguales a cero, se tiene que
nj
k
j=1 i=1
=
(Yij Y..)
2
nj
k
+
(Y.j Y..)
2
j=1 i=1
nj
k
(Yij Y.j )2
(3.7)
j=1 i=1
Esta u
ltima ecuacion es la ecuacion fundamental del Analisis de Varianza.
(3.8)
109
SCT =
nj
k
Yij2
j=1 i=1
SCT r =
Y.j2
j=1
nj
Y..2
N
Y..2
N
CMT r =
SCT r
k1
CME =
SCE
N k
y,
Cuadrado medio del error
E(CME ) = 2
nj
k
j2
E(CMT r ) = +
k1
j=1 i=1
2
CAPITULO 3. ANALISIS
DE VARIANZA
110
Ahora bien, sabemos que SCT = SCT r + SCE y Ademas, puede demostrarse que
SCT
2N 1
2
(3.9)
(3.10)
SCE
2N k
2
(3.11)
F0 =
SCT r
/k
2
SCE
/N
2
1
k
CMT r
CME
(3.12)
Cuadrados
Libertad
Medio
Tratamiento
SCT r
k-1
CMT r
Error
SCE
N-k
CME
Total
SCT
N-1
F0
111
Ejemplo 3.2 Los datos que figuran en la tabla 3.3 son los resultados de un dise
no
completamente aleatorizado para el cual la respuesta son los kilowats hora, empleados
por los sistemas de calentamiento (en cientos de kilowats hora) para casa muy similares
en un lugar dado, como funcion de cinco aislamientos termicos (en pulgadas). Con
base en esta informacion, Existe alguna raz
on para creer que por lo menos algunos
consumos de energa promedio para los cinco niveles de aislamiento son diferentes?.
Suponga un nivel de significaci
on igual a 0.01. Se desea probar la hipotesis
10
12
14.4
14.5
13.8
13.0
13.1
14.8
14.1
14.1
13.4
12.8
15.2
14.6
13.7
13.2
12.9
14.3
14.2
13.6
13.2
14.0
13.3
14.6
12.7
H0 : 1 = 2 = = 5 =
H1 : i = j para alg
un i = j
(3.13)
o de manera equivalente
H0 : 1 = 2 = = 5 = 0
H1 : j = 0 para alg
un j
(3.14)
CAPITULO 3. ANALISIS
DE VARIANZA
112
El n
umero de observaciones y los totales se encuentran en la tabla 3.4.
Tabla 3.4: Calculos del ejemplo 3.2
Tratamiento
1
2
k
14.4
14.5
13.8
13.0
14.8
14.1
14.1
13.4
15.2
14.6
13.7
13.2
14.3
14.2
13.6
14.6
14.0
Total
nj
73.3
n1 = 5
57.4
n2 = 4
69.2
n2 = 5
39.6
n4 = 3
13.1
12.8
12.9
13.2
13.3
12.7
78
n5 = 6
73,32
5
57,42
4
69,22
5
39,62
3
317,52
23
782
6
= 11,05
317,52
23
= 9,836
Suma de
Grado de
Cuadrado
Variacion
Cuadrados
Libertad
Medio
Tratamiento
9.836
2.459
Error
1.214
18
0.0674
Total
11.05
22
36.48
Dado que F = 36,48 > F0,99,4,18 = 4,58 se rechaza la hipotesis nula de que no existe
ning
un efecto debido a los tratamientos. En relaci
on con lo anterior, existe una razon
113
para creer que parte de los consumos promedios de energa son diferentes para los cinco
niveles de aislamiento.
CAPITULO 3. ANALISIS
DE VARIANZA
114
3.4.
M
etodos A posteriori
3.4.1.
3.4. METODOS
A POSTERIORI
115
H0 :
cj j = 0. La ecuacion que se presenta en la hipotesis antes planteada se
j=1
L=
cj j
(3.15)
j=1
donde
cj son n
umeros reales que cumplen con la condici
on
cj = 0
j=1
1 +2
2
1
2
y c3 = 1.
Para probar dichas hipotesis, bajo el supuesto que la distribucion de las poblaciones
m
m
j=1
=
E[L]
cj j
= 2
V ar[L]
j=1
j=1
c2j
n
j=1 j
cj j
L0 = v
u
u 2 m c2j
t
n
j=1 j
(3.16)
CAPITULO 3. ANALISIS
DE VARIANZA
116
sigue una distribucion normal con media igual a cero y varianza igual a 1.
Como por lo general 2 es desconocida, usamos CME como su estimador, de manera
que,
cj j
j=1
L0 = v
u
m
u
c2j
tCME
n
j=1 j
(3.17)
u
c2j
t/2,N k tCME
L
n
j=1 j
(3.18)
M
etodo de Sche
e
Es un metodo alternativo del t-student para probar contrastes. En este caso
Schee propone el siguiente intervalo de conanza para el contraste L.
v
u
m
u
c2j
t
L A CME
n
j=1 j
donde
A = (k 1)F,k1,N k
(3.19)
3.4. METODOS
A POSTERIORI
117
3.4.2.
Comparaciones M
ultiples
M
etodo de la Diferencia Mnima Signicativa (LSD)
Procedimiento propuesto por Fisher en el a
no 1.935 y que consiste en realizar todas
()
las posibles comparaciones entre pares de medias, es decir, todos las k2 pruebas de la
forma:
H0 : i = j
H1 : i = j i = j
(3.20)
Para probar dicha hipotesis se usa como estadstico de prueba la diferencia entre los
valores estimados de las medias (medias muestrales), es decir Y.j Y.k , cuya distribucion
(suponiendo que las poblaciones son N (j , 2 )) es N [j j , 2 (1/nj + 1/nj )]. Por
lo tanto, bajo la hipotesis nula cierta el estadstico
Y.j Y.k
Z=
1/nj + 1/nk
(3.21)
Y.j Y.k
CME (1/nj + 1/nk )
(3.22)
CAPITULO 3. ANALISIS
DE VARIANZA
118
prueba
es
conocida
(3.23)
3.4. METODOS
A POSTERIORI
119
q qk;m .
Para probar H0 , se debe calcular:
T = q;k,N k
CME /n
(3.24)
(3.25)
donde fE son los grados de libertad para el error. Este metodo es referido como el
metodo de Tukey-Kramer.
M
etodo de los Rangos M
ultiples de Duncan
Test dise
nado para comparar todos los posibles pares de medias [k(k 1)/2]. A
diferencia del test de Tukey, este usa diferentes valores crticos, los cuales dependen del
rango de |Y.j y Y.k . Esto es, dependen del n
umero de medias entre ellas, una vez que
han sido ordenadas en forma ascendente.
Sean Y(,1) , ..., Y(.k) las medias de tratamientos ordenadas en forma ascendente. Si
entre Y(.j) y Y(.k) hay p medias, entonces un test rango estudentizado de tamano ,
CAPITULO 3. ANALISIS
DE VARIANZA
120
rango signicativo de la tabla de Duncan para el nivel . Si Y(.j) Y(.k) > Dp , entonces
j y k son signicativamente diferentes.
El procedimiento de Duncan se desarrolla de la siguiente manera:
1. Ordenar las medias en forma ascendente.
2. Obtener las diferencias entre cada par de medias de la siguiente manera:
Y.(k) Y.(1) , Y.(k) Y.(2) , ..., Y.(k) Y.(k1) , ..., Y.(2) Y.(1)
1
n
j=1 j
.c
M
etodo de Newman Keuls
Es un metodo restringido a la comparacion entre pares de medias. Es similar en
cuanto a su procedimiento, al Test de Rangos M
ultiples de Duncan, no as en su
eciencia, ya que la prueba de Duncan es mas ecaz. En este procedimiento las medias
deben ser ordenadas en forma ascendente y se requiere del calculo de todas las posibles
diferencias crticas entre las medias. Estas diferencias crticas estan dadas por:
N Kp = q;p,fE
CM E
n
p = 2, 3, ..., k
(3.26)
3.4. METODOS
A POSTERIORI
121
H0 : S = j
j = 1, ..., k;
j = S
2CME
n
)1/2
dk1,,f si H1 : s > j
)1/2
2CME
D =
dk1,,f si H1 : s < j
n
(
)1/2
2CME
D =
dk1,/2,f si H1 : s = j
n
CAPITULO 3. ANALISIS
DE VARIANZA
122
3.5.
Ejercicios
E(CME ) = 2
nj
k
j2
E(CMT r ) = +
k1
j=1 i=1
2
4. Demuestre que
SCT
2N 1
2
SCT r
2k1
2
SCE
2N k
2
5. Demuestre que
F0 =
CMT r
Fk1,N k .
CME
3.5. EJERCICIOS
123
Metodo II
Metodo III
15
14
13
16
13
12
14
15
11
15
16
14
17
14
11
Proc. II
Proc. III
Proc. IV
11
CAPITULO 3. ANALISIS
DE VARIANZA
124
12 14
18
12
10 12
12
14
14 10
16
16
12 10
9
Al nivel de signicancia de 0,05; existe alguna diferencia entre las cuatro empresas,
en el n
umero medio de meses antes de recibir un aumento de sueldo?
9. Cierta ciudad esta dividida en cuatro distritos. El jefe de policia quiere determinar
si hay alguna diferencia en el n
umero promedio de crmenes cometidos en cada
distrito. Registro el n
umero de crmenes reportados en cada distrito en una
muestra de seis das. Al nivel de signicancia 0,05; puede el funcionario concluir
que hay diferencia en el n
umero promedio de crmenes?
3.5. EJERCICIOS
125
A
13 21
12
16
15 13
14
17
14 18
15
18
15 19
13
15
14 18
12
20
15 19
15
18
10. En una empresa electronica se estudian cuatro tipos de circuitos para comparar la
cantidad de ruido de fondo asociado a cada circuito. Se han obtenido los siguientes
datos:
circuito
Ruido observado
19
20
19
30
80
61
73
56
80
47
26
25
35
50
95
46
83
78
97
126
CAPITULO 3. ANALISIS
DE VARIANZA
Captulo 4
Dise
no de Bloques Aleatorios
4.1.
Introducci
on.
Como se ha dicho antes, uno de los principales objetivos que se persigue al dise
nar
un experimento, es reducir el error aleatorio y de esta forma, incrementar la precision
de los resultados. En el dise
no completamente aleatorio se supone que las unidades
experimentales son relativamente homogeneas con respecto a factores que afectan
la variable respuesta. Sin embargo algunas veces no tenemos disponibles sucientes
unidades experimentales homogeneas. Por lo tanto, cualquier factor que afecte la
variable respuesta y que vare entre las unidades experimentales aumentara la varianza
del error experimental, disminuyendo as la precision de las comparaciones.
Por ejemplo, consideramos el problema de determinar si distintas maquinas exhiben
diferente velocidad en el ensamblaje de un artculo. El gerente de una empresa desea
comparar cuatro maquinas diferentes y tomar alguna decision acerca de cual maquina
adquirir de acuerdo a la velocidad de ensamblaje mostrada. El factor de interes es solo la
maquina, pero es importante tomar en cuenta que la operacion de las maquinas requiere
127
128
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
En el ejemplo anterior se vio que hay dos factores que aportan sobre la variabilidad
de la respuesta, el tipo de maquina y el operador, pero como solo es de interes el
efecto que tiene la maquina, entonces es necesario controlar el efecto producido por
los operadores, esto se logra colocando los operadores como bloques, es decir, cada
operador debe usar las 4 maquinas, de esta manera la variabilidad producida por cada
operario se debera a la diferencia entre las maquinas.
Por lo tanto, los bloques se pueden denir como los valores de un factor que se
piensa inuye sobre la respuesta pero que no es de interes en el estudio.
4.2. TIPOS DE DISENOS
DE BLOQUES
4.2.
129
Tipos de dise
nos de bloques
4.3.
Dise
no de bloques aleatorizados con bloques
completos
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
130
Yij = + i + j + ij
i = 1, 2, , b
j = 1, 2, , k
donde
Yij es la observacion del j-esimo tratamiento en el i-esimo bloque.
es la media general
i es el efecto del i-esimo bloque
j es el efecto de j-esimo tratamiento
ij es el error aleatorio, los cuales se suponen N (0, 2 ) e independientes
En este modelo, i = i. y j = .j
Ademas suponiendo que el modelo es de efectos jos se cumple que
b
i=1
i =
j=1
j = 0
yb1
y,1
yb2
y,2
ybk
y.k
yb.
y..
H0 : 1 = 2 = = k
(4.1)
H1 : i = j para alg
un i = j
H0 : 1 = 2 = = k = 0
H1 : i = 0 para alg
un i
(4.2)
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
132
An
alisis de Varianza
La hipotesis dadas en (4.1) o (4.9) se prueba con un analisis de varianza con dos
criterios de clasificacion; se utilizan los dos criterios porque se controlan dos fuentes
de variacion: el factor de tratamientos y el factor de bloque.
Una medida de la desviacion de las observaciones con respecto a la media esta dada
k
b
por
(yij y..)
2 , la cual restandole y sumandole los promedios de los tratamientos
j=1 i=1
(yij y..)
=
2
j=1 i=1
k
b
[(
yi. y.. ) + (
y.j y.. ) + (yij yi. y.j + y.. )]2
(4.3)
j=1 i=1
(yij y..)
2 =
j=1 i=1
k
b
(
yi. y.. )2 +
j=1 i=1
+ 2
k
b
j=1 i=1
k
b
k
b
k
b
j=1 i=1
(
yi. y.. )(
y.j y.. ) + 2
j=1 i=1
= 2
(
y.j y.. )2 +
k
b
(
yi. y.. )(yij yi. y.j + y.. )
j=1 i=1
(
y.j y.. )(yij yi. y.j + y.. )
j=1 i=1
Se puede probar que las sumatorias que contienen productos cruzados son iguales a
cero. Por lo tanto,
k
b
j=1 i=1
(yij y..)
k
b
j=1 i=1
(
yi. y.. ) +
2
k
b
j=1 i=1
(
y.j y.. ) +
2
k
b
j=1 i=1
(4.4)
SCT =
k
b
yij2
j=1 i=1
SCB =
SCT r =
y2
i.
i=1
k
j=1
y..2
bk
y..2
bk
y.j2
y2
..
b
bk
Ahora bien, si el bloqueo es usado para reducir el error experimental, comparando los
modelos para los dise
nos completamente aleatorizados y de bloques completamente
aleatorizados para la i-esima observacion bajo el j-esimo tratamiento se tiene que:
ij = ij + i
(4.5)
(4.6)
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
134
Las sumas de cuadrados divididas por sus grados de libertad proveen otros estadsticos,
llamados cuadrados medios.
CMT r =
SCT r
k1
CMB =
SCB
b1
CME =
SCE
(k 1)(b 1)
(4.7)
E(CME ) = 2
b
E(CMT r ) = 2 +
j2
j=1
k1
n
k
i2
E(CMB ) = 2 +
i=1
b1
Fc1 =
CMT r
CME
(4.8)
H02 : 1 = 2 = = b = 0
(4.9)
un i
H12 : i = 0 para alg
Al igual que para el desarrollo anterior, si H02 es verdadera, el valor esperado del
cuadrado medio de los bloques esta dado por:
E(CMB ) = 2
CMB
CME
(4.10)
Suma de
Grado de
Cuadrado
Variacion
Cuadrados
Libertad
Medio
Tratamiento
SCT r
k-1
CMT r
Bloque
SCB
b-1
CMB
Error
SCE
(k-1)(b-1)
CME
Total
SCT
N-1
Fc1
Fc2
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
136
Ejemplo 4.1 Se realiza un experimento para determinar el efecto que tiene el grado
de trabajo (vueltas por pulgada) en la resistencia del algod
on. Se decide utilizar cinco
niveles para el grado de trabajo; 150, 163, 169, 178 y 10 vueltas por pulgadas. Se
sabe que ademas de este factor, existen otras posibles fuentes de variacion, como las
m
aquinas, operadores, material experimental, entre otros. Despues de una discusion
se decide ignorar el efecto de estos factores, excepto el factor maquinas, el cual
ser
a controlado. La variable respuesta medida es el n
umero de roturas por cada cien
libras de material. La tabla 3-1 muestra los resultados obtenidos:
Tabla 4.3: N
umero de Rupturas por cada cien libras
Grados de Trabajo
Maquina
10 163
169
178
190
24
42
29
68
12
27
23
49
34
12
22
22
17
60
31
16
47
45
50
22
25
17
39
57
10
24
23
44
37
H01 : 1 = 2 = 3 = 4 = 5 = 0
169
178
190
24
42
29
68
172
12
27
23
49
34
145
12
22
22
17
60
133
31
16
47
45
50
189
22
25
17
39
57
160
10
24
23
44
37
138
Total Tratamiento 96
138
174
224
305
937
Bloque
Ademas,
Total bloque
10
6
5
j=1 i=1
9372
= 7209, 367
30
9372
= 29732, 600
= 466, 967
30
9372
= 33,650, 167
= 4384, 533
30
SCT = 36475
SCB
SCT r
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
138
Suma de
Grado de
Cuadrado
Variacion
Cuadrados
Libertad
Medio
Tratamiento
4384,533
1096,133
Bloque
466,967
93,393
Error
2357,867
20
93,393
Total
7209,367
29
9,298
0,792
4.4.
Preguntas y Ejercicios
1. Que es un dise
no de bloques completamente aleatorios?
2. Cuando es apropiado utilizar un dise
no de bloques completamente aleatorios?.
3. Cual es el modelo de un dise
no de bloques completamente aleatorios?
4. Que diferencia hay entre un dise
no completamente aleatorizado y uno de bloques
completos?.
5. Apoyandose en el modelo estadstico para un dise
no en bloques, por que a traves
de este dise
no se reduce el error aleatorio?.
139
Suma de
Grado de
Cuadrado
Variacion
Cuadrados
Libertad
Medio
calculado
Tratamiento
600
Bloque
850
Error
500
Total
a) Complete la tabla.
b) Escriba el modelo estadstico y las hipotesis pertinentes.
c) Apoyandose en tablas de la distribucion F, decida i se aceptan o se rechazan
las hipotesis.
9. Realice el problema anterior, pero ahora suponga que no se hay bloqueado. Se
hubiese obtenido las mismas conclusiones?. Argumente.
10. Una compa
na farmaceutica realizo un experimento para comprobar los tiempos
promedio (en das) necesarios para que una persona se recupere d elos efectos
y complicaciones que siguen a un resfriado com
un. En este experimento se
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
140
Total bloque
y1. =
y2. =
yb. =
10
yb. =
y,1 =
y,2 =
y,3 =
y.. =
Bloque
Total Trat
141
alg
un efecto importante debido a esta fuente de variacion. Los datos obtenidos
se muestran a continuacion.
N
umero de replica (da)
Marca de atomizador
1
72 65
67
75
62
73
55 59
68
70
53
50
64 74
61
58
51
69
13. En una empresa lechera se tienen varios silos para almacenar leche (ciusternas de
60.000 L). Un aspecto crtico para que se conserve la leche es la temperatura de
almacenamiento. Se sospecha que en algunos silos hay problemas, por ello durante
cinco das se decide registrar la temperatura a cierta hora crtica. Obviamente la
temperatura de un da a otro es una fuente de variabilidad que podra impactar
la variabilidad total.
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
142
Da
Silo
Lunes Martes
4.0
4.0
5.0
0.5
3.0
5.0
6.0
2.0
4.0
4.0
4.5
4.0
3.5
2.0
3.0
2.5
4.0
6.5
4.5
4.0
4.0
4.0
3.5
2.0
4.0
14. Se dise
no un experimento para estudiar el rendimiento de cuatro detergentes. Las
siguientes lecturas de blancurase obtuvieron con un equipo especial dise
nado
para doce cargas de lavado distribuidas en tres modelos de lavadoras.
Detergente Lavadora 1
Lavadora 2
Lavadora 3
45
43
51
47
44
52
50
49
57
42
37
49
a) Se
nale el nombre del dise
no experimental utilizado.
b) Formule la hipotesis que se quiere probar, de acuerdo al problema.
c) Realice el analisis estadstico apropiado a estos datos y obtenga conclusiones.
143
15. Una qumica desea probar el efecto que tienen cuatro agentes qumicos sobre
la resistencia de un tipo particular de tela. Como puede haber variabilidad
entre un rollo de tela y otro, decide utilizar un dise
no aleatorizado por bloques,
considerando los rollos de tela como bloques. Ella selecciona 5 rollos y les aplica
los cuatro agentes qumicos en orden aleatorio. A continuacion, se proporcionan
los resultados de la resistencia a la tension. Analice estos datos y haga las
conclusiones apropiadas.
Rollo de tela
Agente qumico
1
M3
73
68
74
71
67
73
67
75
72
70
75
68
78
73
68
73
71
75
75
69
144
DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO
Captulo 5
Dise
no en Cuadrado Latino
5.1.
Introducci
on.
En la seccion anterior se vio que una manera de reducir el error experimental era
tomando en cuenta otros factores que se piensan inuyen sobre la variable respuesta,
En ese caso, se supuso que solo exista un solo factor al cual se le llamo factor de
bloqueo, pues su funcion era bloquear la variabilidad que se produca sobre la variable
respuesta. En esta seccion vamos a estudiar situaciones en las que consideramos dos
factores de bloqueo, en cuyo caso decimos que se esta realizando un dise
no en cuadrado
latino.
5.2.
Dise
no en Cuadrado Latino
EN CUADRADO LATINO
CAPITULO 5. DISENO
146
en cuenta. Los 2 factores de bloque son conocidos como bloque columna y bloque la, o
simplemente, columna y la, estos deben tener el mismo numero de niveles, es por ello
que se llama cuadrado. Los tratamientos se denotan con las letras latinas, razon por la
cual se llama latino, y solo aparece uno por cada combinacion de la-columna, por lo
tanto el n
umero de tratamientos es igual al n
umero de las y columnas y en cada la
y columna deben estar presentes todos los tratamientos, los mismos son asignados de
manera aleatoria en cada la o columna.
Por lo tanto la variable respuesta, de un dise
no con k tratamientos, k las y k
columnas, puede modelarse de la siguiente manera:
Yijr = + i + j + r ij ; (i, j, r) = 1, 2, , k
donde
Yijr es la observacion del tratamiento i, en la la j y la columna r.
es la media general
i es el efecto de i-esimo tratamiento
j es el efecto del j-esimo nivel del factor la.
r es el efecto del r-esimo nivel del factor columna.
ijr es el error aleatorio, los cuales se suponen N (0, 2 ) e independientes
Suponiendo que el modelo es de efectos jos se cumple que
b
i=1
i =
j=1
j =
j=1
k = 0
(5.1)
EN CUADRADO LATINO
5.2. DISENO
147
Un supuesto adicional a los ya considerados, es que los factores afectan los resultados
en forma independiente, uno de otro. Esto es, la interaccion no es importante o, no
existe.
Ahora bien, los datos observados de un dise
no en el cual los k tratamientos son
arreglados en k las y k columnas pueden presentase como en la tabla 5.1
Tabla 5.1: Aspectos de los datos en un dise
no
Columna
1
2
3
1 A = y111 B = y212 C = y313
2 B = y221 C = y322 D = y423
Fila 3 C = y331 D = y432 E = y533
..
..
..
..
.
.
.
.
k
K = ykk1
A = y1k2
B = y2k3
de cuadrado latino
..
.
k
K = yk1k
A = y12k
B = y23k
..
.
J = yjkk
H0 : 1 = 2 = = k = 0
(5.2)
H1 : i = 0 para alg
un i
(5.3)
An
alisis de Varianza
La hipotesis dada se prueba con un analisis de varianza con tres criterios de
clasificacion; se utilizan los tres criterios porque se controlan tres fuentes de variacion:
el factor de tratamientos y los dos factores de bloque.
Una medida de la desviacion de las observaciones con respecto a la media
EN CUADRADO LATINO
CAPITULO 5. DISENO
148
k
k
k
(yijr y...)
2 , la cual restandole y sumandole los promedios
k
k
k
k
k
k
2
(yijk y...)
=
[(
yi.. y... ) + (
y.j. y... ) + (
y..r y... ) (5.4)
i=1 j=1 r=1
(5.5)
k
k
k
(yijk y...)
k
k
k
(
yi.. y... ) +
2
k
k
k
k
k
k
(
y.j. y... )2
(
y..r y... ) +
k
k
k
(5.6)
EN CUADRADO LATINO
5.2. DISENO
SCT =
149
k
k
k
2
yijr
SCT r =
SCF =
y2
i..
i=1
k
j=1
SCC =
2
y...
N
2
2
y.j.
y...
k
N
y2
..r
r=1
2
y...
N
2
y...
N
GLT = N 1
GLT r = k 1
GLF = k 1
GLC = k 1
GLE = GLT GLT r GLF GLC = (k 2)(k 1)
CMT r =
SCT r
k1
CMF =
SCF
k1
y el estadstico de prueba es
CMC =
SCC
k1
CME =
SCE
(k 2)(k 1)
EN CUADRADO LATINO
CAPITULO 5. DISENO
150
F =
CMT r
CME
(5.7)
H0 : 1 = 2 = = k = 0
(5.8)
H1 : j = 0 para alg
un j
(5.9)
H0 : 1 = 2 = = k = 0
(5.10)
H1 : r = 0 para alg
un r
(5.11)
FF =
CMF
CME
FC =
CMC
CME
(5.12)
y las reglas de decision es rechazar H0 si F F > F;GLF ;GLE y F C > F;GLC ;GLE .
Todo este desarrollo lo podemos resumir como se muestra en la Tabla 5.3. Esta
tabla recibe el nombre de Tabla de Analisis de Varianza para el Dise
no de Cuadrados
Latinos.
Ejemplo 5.1 Se sospecha que cualquier estmulo produce cambios en la sensibilidad del
ojo humano adaptado a la oscuridad. Para investigar esto, se dise
n
o un experimento
EN CUADRADO LATINO
5.2. DISENO
151
Suma de
Grado de
Cuadrado
Variacion
Cuadrados
Libertad
Medio
Tratamiento
SCT r
k-1
CMT r
Fila
SCF
k-1
CMF
Columna
SCC
k-1
CMC
Error
SCE
(k-1)(k-2)
CME
Total
SCT
k2 1
Fc
FcF
FcC
el cual consistio en someter a cinco individuos durante cinco das seguidos a cinco
estmulos diferentes una vez que sus ojos se adaptaron a la oscuridad. Se registr
o como
resultado, sus sensibilidades a la prueba de bajo contraste de Luckiesh-Moss.
Tabla 5.3: Tabla de Analisis de Varianza para el DCL
Das
Sujetos
A=22
B=21
D=22
C=20
E=22
C=23
D=22
A=16
E=23
B=19
3 D=20
A=14
E=14
B=23
C=24
B=28
E=29
D=24
C=24
A=24
E=4
C=2
B=3
A=8
D=8
EN CUADRADO LATINO
CAPITULO 5. DISENO
152
5.3.
Preguntas y Ejercicios
1. Que es un dise
no de cuadrados latinos?
2. Cuando es apropiado utilizar un dise
no de cuadrados latinos ?.
3. Cual es el modelo de un dise
no de de cuadrados latinos?
4. Que diferencia hay entre un dise
no completamente aleatorizado, uno de bloques
completos y uno de cuadrados latinos?.
5. Apoyandose en el modelo estadstico para un dise
no de cuadrados latinos, por
que a traves de este dise
no se reduce el error aleatorio?.
6. Explique por que el el nombre de cuadrados latinos.
7. Demuestre que los productos cruzados obtenidos en la particion de las sumas de
cuadrados son iguales a cero.
8. Una compa
na de mensajera esta interesada en determinar cual marca de llantas
tiene mayor duracion, la medida esta en terminos del desgaste. Para ella se planea
un experimento en el que se comparan las cuatro marcas de llantas sometiendolas
a una prueba de 32.000 kilometros de recorrido, utilizando cuatro diferentes tipos
de auto y las cuatro posiciones posibles de las llantas en el auto.
Carro
Posicion
C=12
D=11
A=13
B=8
B=14
C=12
D=11
A=3
A=17
B=14
C=10
D=9
D=13
A=14
B=13
C=9
153
A=8
B=7
D=1
C=7
E=3
C=11
E=2
A=7
D=3
B=8
Lote 3
B=4
A=9
C=10
E=1
D=5
D=6
C=8
E=6
B=6
A=10
E=4
D=2
B=3
A=8
C=8