Вы находитесь на странице: 1из 153

Captulo 1

Distribuciones Muestrales

1.1.

Introducci
on.

Para el estudio de un fenomeno, se requiere contar con informacion relacionada


con el mismo. Esta informacion obtenida bien sea experimentalmente o, mediante
la observacion, esta dada por datos. Estos datos son el resultado de medir en un
conjunto de elementos o individuos, una o varias caractersticas a ser analizadas en
una investigacion. Ahora bien, el analisis puede llevarse a cabo en base a toda o, a una
parte de la poblacion. Si se hace uso de toda la informacion, se dice que se ha hecho una
investigacion exhaustiva o total. No siempre es posible realizar un censo, por razones
como; costos, tiempo, poco practico, etc. Es necesario entonces, en estos casos, llevar
a cabo una investigacion parcial. La misma consiste en realizar el analisis en base a
la informacion correspondiente a un subconjunto de los elementos o individuos, una
muestra, de forma tal que a un costo y esfuerzo razonable se logren obtener conclusiones
tan validas como las que se obtendran realizando una investigacion exhaustiva o total,
un censo. Considere los siguientes ejemplos:
1

CAPITULO 1. DISTRIBUCIONES MUESTRALES

1. Para conocer la nota promedio de los estudiantes de la Universidad de Los Andes


(N
ucleo Merida), debemos ir a las ocinas de registros estudiantiles de todas
las facultades y solicitar all las notas de los estudiantes, dicha tarea no es facil
por distintas razones, entre las cuales podemos mencionar la condencialidad
de la informacion. Por tal razon, a traves de una encuesta a cierto n
umero de
estudiantes podemos determinar la nota promedio de dicho grupo, y a partir de
ese resultado dar una conclusion sobre la poblacion.
2. Si se quisiera conocer el sueldo promedio del venezolano, sera difcil tener acceso
al sueldo de todos los venezolanos, al igual que en el caso anterior solo se podra
obtener dicha informacion de una parte de los venezolanos.
3. Para determinar el nivel de aceptacion o rechazo que tiene un candidato
a gobernador, no es necesario realizar el sondeo de opinion sobre todos los
habitantes del Estado, a
un queriendo recoger dicha opinion sera muy costosa. Es
por ello que las empresas encuestadoras realizan el sondeo sobre una parte de la
poblacion y a partir de ella interpretar como esta el candidato en dicho Estado.

1.2.

Conceptos B
asicos

Denici
on 1.1 (Universo) Es el conjunto de individuos o elementos (Personas,
F
abricas, Familias, etc) que posee caractersticas en com
un que se desean investigar.
Ejemplo 1.1 :
1. Los habitantes de la ciudad de Merida
2. Los estudiantes de la Facultad de Ciencias Econ
omicas y Sociales.


1.2. CONCEPTOS BASICOS

3. Trabajadores de una empresa.


4. Los animales en un bosque.
5. Los carros que entran en un estacionamiento al da.
Denici
on 1.2 (Poblaci
on) Es el conjunto de todas las posibles mediciones que
pueden hacerse de una o mas caractersticas en estudio de los elementos del universo.
Por lo tanto, la poblacion esta constituida por valores o datos bien sea numericos o no.
Ejemplo 1.2 :
1. El sexo de los habitantes de la ciudad de Merida
2. La edad de los estudiantes de la Facultad de Ciencias Econ
omicas y Sociales.
3. El sueldo de los trabajadores de una empresa.
4. El color de ojos de los animales en un bosque.
5. La marca de los carros que entran en un estacionamiento al da.
Observese que una Poblacion puede ser univariante o multivariante, dependiendo del
n
umero de caractersticas considerada. De acuerdo al n
umero que la constituye, la
poblacion puede ser nita o innita. En el caso de que la poblacion sea nita, se dice
que esta tiene tama
no N.
Denici
on 1.3 (Muestra) Es una parte de una poblaci
on, idealmente representativo
de la misma.
Ejemplo 1.3 :
1. El sexo de 2000 habitantes de la ciudad de Merida mayores a 60 a
nos.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

2. La edad de 150 estudiantes de la Facultad de Ciencias Econ


omicas y Sociales que
tienen un promedio mayor a 15 puntos.
3. El sueldo de 25 trabajadores de una empresa.
4. La marca de los primeros 100 carros tipo sedan que entran en un estacionamiento
un determinado da.
Denici
on 1.4 (Par
ametro) Es una funcion de los valores de la poblaci
on que sirve
para sintetizar alguna caracterstica relevante de la misma. Es una medida resumen
que se calcula para describir una caracterstica de toda una poblaci
on. Ejemplos
de parametros son: La media poblacional, La proporci
on poblacional, la varianza
poblacional, entre otros.
Denici
on 1.5 (Estadstico) Se denomina estadstico a toda funcion medible de los
elementos de una muestra en la que no intervienen par
ametros.
Supongase que se tiene una variable aleatoria, cuya distribucion es f (x) y suponga, por
simplicidad, que obtenemos una muestra aleatoria simple con tama
no n, X1 , X2 , ...Xn .
Entonces, un estadstico es cualquier funcion h denida sobre X1 , X2 , ...Xn y que no
incluye parametro desconocido alguno:

Y = h(X1 , X2 , ...Xn )
Entre los estadsticos mas usados se pueden mencionar:

La media muestral (X)


La varianza muestral (S 2 )

1.3. MUESTREO

La proporcion muestral (p).


El mnimo, el maximo y el rango.
Formalmente, la caracterstica de estudio se dene como una variable aleatoria X
la cual tiene una funcion de distribucion (FD) F, que dene el comportamiento de
dicha caracterstica. Por ejemplo, para el caso de la nota de los estudiantes la variable
aleatoria X representa la nota de los estudiantes de la ULA la cual se distribuye normal
con media 15 y varianza 4. Existen dos posibilidades sobre la FD de X:
1. X tiene una FD F() con una forma funcional conocida, excepto quizas por el
parametro , el cual puede ser un vector. En este caso el trabajo de un estadstico
es decidir sobre la base de una muestra seleccionada cual es el valor de que
representa la FD de X. Por ejemplo, para el caso de la nota promedio se sabe
que X N (, 2 ) con 2 conocida, por lo tanto basandose en una muestra se
puede determinar cual debe ser el valor de y de esta manera queda determinada
completamente la distribucion de probabilidad de X.
2. X tiene una FD F de la cual no se sabe nada (excepto quizas que F es, digamos,
absolutamente continua). Este caso es mas difcil que el anterior y este tipo
de problemas entran en el dominio de la estadstica no parametrica, la cual no
sera estudiada en este curso.

1.3.

Muestreo

En las Ciencias Sociales, las investigaciones consideran, en su mayora, muestras y no


poblaciones. Por lo tanto, la seleccion de muestras es un problema crucial en Estadstica.
Algunas razones que justican el uso del muestreo son:

CAPITULO 1. DISTRIBUCIONES MUESTRALES

1. Naturaleza destructiva del proceso de investigacion


2. Imposibilidad de revisar todos los elementos de la poblacion.
3. Costo. Al obtener los datos de una peque
na porcion del total, los gastos son
menores a los que se tendran si se llevara a cabo un censo.
4. Tiempo. Al considerar solo una parte del total, su recoleccion y resumen se
haran con mayor rapidez. Razon de peso cuando la informacion es requerida
con urgencia.
5. Precision. Las posibilidades de usar personal mas capacitado y supervisar
cuidadosamente el trabajo de campo y el procesamiento de al informacion, inciden
en la obtencion de resultados mas exactos.
Cuando se selecciona una muestra se deben tomar en cuenta las siguientes consideraciones: Elegir el tama
no de la muestra, lo cual depende no solamente de la cantidad de
informacion que se quiere conseguir, y el grado de certeza deseada, sino tambien del
costo del muestreo y la seleccion de los elementos que la constituyen. Cualquiera sea
el metodo elegido, el requisito mas importante es que la muestra obtenida proporcione una imagen tan real como sea posible de aquella poblacion que se ha sometido al
muestreo.
Denici
on 1.6 (Muestreo) Proceso de medici
on de la informacion en solo una
parte de la poblacion estadstica. Se define como el proceso de seleccionar un n
umero
de observaciones (sujetos) de un grupo en particular de la poblaci
on (metodos para
seleccionar muestras), que se utiliza cuando no es posible contar o medir todos los
elementos de la poblacion objeto de estudio.

1.3. MUESTREO

1.3.1.

Tipos de Muestreo

Existen dos metodos para seleccionar muestras de poblaciones:


1. Muestreo no aleatorio o de juicio: Es practica com
un seleccionar una muestra
en forma intencional, de acuerdo a opiniones o criterios personales, fundamentalmente con el objeto de obtener informacion sin mucho costo. A este tipo de
muestreo se le denomina Muestreo no probabilstico, no aleatorio o de juicio.
Este tipo de muestreo como puede observarse, no involucra ning
un elemento
aleatorio en el procedimiento de seleccion. Sin embargo, es importante resaltar
que en condiciones apropiadas estos metodos pueden ofrecer resultados u
tiles,
por ejemplo, cuando solo se necesitan estimaciones gruesas, las cuales no van a
ser utilizadas para tomar decisiones importantes. Son ejemplos de muestreos no
probabilsticos:
a) La muestra es restringida a la parte de la poblacion que es facilmente
accesible.
b) La muestra consiste de los elementos que esten mas a la mano
c) Se selecciona un grupo de unidades tipo.
d ) La muestra esta compuesta por voluntarios.
2. Muestreo aleatorio o probabilstico: En el cual todos los elementos de la poblacion
tienen la oportunidad de ser escogidos para la muestra. Este procedimiento da a
cada elemento de la poblacion una probabilidad de ser seleccionado. Dentro de
este tipo de muestreo se encuentran:
a) Muestreo aleatorio simple: el cual es un metodo de seleccion de muestras
que permite que cada muestra posible pueda ser elegida con la misma

CAPITULO 1. DISTRIBUCIONES MUESTRALES

probabilidad. Por su parte cada elemento de la poblacion tiene la misma


oportunidad igual de ser incluido en la muestra.
b) Muestreo sistematico: metodo en el cual los elementos que se muestrearan
se seleccionan de la poblacion en un intervalo uniforme que se mide con
respecto al tiempo, al orden o al espacio.
c) Muestreo estraticado: metodo en el que la poblacion se divide en grupos
homogeneos, o estratos, y despues se toma una muestra aleatoria simple de
cada estrato. Aqu la variabilidad dentro de cada grupo es peque
na y entre
los grupos es grande.
d ) Muestreo por conglomerados: metodo en el que la poblacion se divide en
grupos o racimos de elementos, y luego se selecciona una muestra aleatoria
de estos racimos. La variabilidad dentro de cada grupo es grande y entre
los grupos es peque
na; es como si cada conglomerado fuese una peque
na
representacion de la poblacion en si mima.

1.3.2.

M
etodos para seleccionar una muestra aleatoria.

Al seleccionar una muestra aleatoria se debe tomar en cuenta si la extraccion se va


realizar con reemplazo o sin reemplazo, en el primer caso, una vez extrada el elemento
de la poblacion este puede ser devuelto a la misma, en el segundo caso esto no es
posible.
Por otro lado, dada una lista de los miembros de la poblacion numerados del 1 al N,
la extraccion de los elementos que conforman la muestra se puede realizar de varias
maneras entre las cuales podemos mencionar: Metodo del bingo, Tabla de N
umeros
aleatorios y generacion de n
umeros pseudoaletorios.

1.3. MUESTREO

1. Metodo del bingo. Consiste en etiquetar N papeles, bolas o cualquier otro objeto
del 1 al N e introducirlas en una urna o bolsa y agitarla hasta que queden bien
mezcladas, luego extraer una a la vez hasta que hayamos seleccionado n artculos
donde n es el tama
no deseado de la muestra. Los miembros de la poblacion que
correspondan a los n
umeros de los artculos extrados se incluidos en la muestra,
y las caractersticas de estas unidades se mide u observan. Si la poblacion es
bastante grande, este metodo mecanico de seleccion aleatoria puede ser difcil o
practicamente imposible de implementar. Esto nos lleva a la consideracion de la
tabla de n
umeros aleatorios.
2. Tabla de N
umeros aleatorios. Las Tablas de N
umeros Aleatorios contienen los
dgitos 0, 1, 2,..., 7, 8, 9. Tales dgitos se pueden leer individualmente o en grupos
y en cualquier orden, en columnas hacia abajo, columnas hacia arriba, en la,
diagonalmente, etc., y es posible considerarlos como aleatorios. Las tablas se
caracterizan por dos cosas que las hacen particularmente u
tiles para el muestreo
al azar. Una caracterstica es que los dgitos estan ordenados de tal manera que
la probabilidad de que aparezca cualquiera en un punto dado de una secuencia
es igual a la probabilidad de que ocurra cualquier otro. La otra es que las
combinaciones de dgitos tienen la misma probabilidad de ocurrir que las otras
combinaciones de un n
umero igual de dgitos. Estas dos condiciones satisfacen
los requisitos necesarios para el muestreo aleatorio, establecidos anteriormente.
La primera condicion signica que en una secuencia de n
umeros, la probabilidad
de que aparezca cualquier dgito en cualquier punto de la secuencia es 1/10.
La segunda condicion signica que todas las combinaciones de dos dgitos son
igualmente probables, del mismo modo que todas las combinaciones de tres
dgitos, y as sucesivamente.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

10

Para utilizar una Tabla de N


umeros Aleatorios:
a) Hacer una lista de los elementos de la poblacion.
b) Numerar consecutivamente los elementos de la lista, empezando con el cero
(0, 00, 000, etc.).
c) Tomar los n
umeros de una Tabla de N
umeros Aleatorios, de manera que la
cantidad de dgitos de cada uno sea igual a la del u
ltimo elemento numerado
de su lista. De ese modo, si el u
ltimo n
umero fue 18, 56 o 72, se debera tomar
un dgito de dos n
umeros.
d ) Omitir cualquier dgito que no corresponda con los n
umeros de la lista o
que repita cifras seleccionadas anteriormente de la tabla. Continuar hasta
obtener el n
umero de observaciones deseado.
e) Utilizar dichos n
umeros aleatorios para identicar los elementos de la lista
que se habran de incluir en la muestra.
La tabla siguiente es un fragmento de una tabla de n
umeros aleatorios.

1.3. MUESTREO

11
Tabla de Numeros Aleatorios

6017

2438

3828

2161

6601

8762

8166

3756

6483

7405

6595

8695

3268

5788

5965

4427

9227

8468

1298

4343

1346

0861

5400

5286

0632

5878

0726

5624

7813

7905

9611

3839

6226

3452

7352

9818

0372

1222

1781

0216

5798

5805

3719

3155

6336

4710

7311

5553

3132

3375

7801

2782

1500

4249

4702

1799

9587

2788

7421

3631

3213

0670

1158

0562

6208

6641

5057

1747

7559

0548

9614

6265

6075

7161

6505

0599

1398

2947

7797

0038

4414

3904

8021

5093

2009

3799

8336

8189

8441

5748

3587

9128

2088

8840

6838

5810

8964

8261

1914

4651

9081

3202

9692

5605

7902

9525

4932

9719

7080

9448

848

8331

9069

4214

3824

2350

4986

8556

5394

1971

4098

6758

9526

6559

5435

6428

6362

7876

7746

3562

1567

7828

3328

3604

7368

9744

8842

0456

6317

0218

3826

6603

4549

2501

9976

8845

6219

2593

8337

2222

7455

1587

2778

6178

6670

4229

6420

0204

3168

5283

6869

1675

0408

7816

9054

1931

1771

3513

6523

7018

0413

5606

2869

5234

5344

5181

2457

9569

6402

9317

7475

2647

8714

6275

9693

5937

0516

1304

1156

4133

3926

1961

4928

3235

0889

1701

3778

4803

3637

6609

1152

6832

9422

8956

8355

2702

0780

5091

6964

6693

7576

9651

3543

2515

6981

4808

0084

7215

6568

4753

0215

4797

2589

2416

4746

2469

2613

7049

6319

5007

4973

3050

7658

6044

3277

2416

5823

0871

2378

0150

7335

6191

6314

2974

2783

6280

8045

6139

1575

7728

4264

4703

0164

0416

8561

4309

6759

1658

1085

6807

4425

7435

5645

4685

8751

7452

7483

5945

2360

3542

7421

9632

5936

9718

3034

7107

6070

4807

2681

1311

2724

4979

6886

2426

4486

2350

1654

4411

8094

4307

6627

6067

2654

2265

9557

4753

3174

2253

1168

2303

2778

6633

6219

4301

5528

2485

3996

5792

1741

4351

5324

4159

7672

7480

2976

3952

3061

8719

4613

2271

8921

0848

8062

1366

1449

3173

4095

2528

6684

9596

4762

1133

1784

9004

9366

1677

2984

3961

0226

3491

5758

6907

6856

1359

2532

8928

2850

3798

CAPITULO 1. DISTRIBUCIONES MUESTRALES

12

Para ilustrar el uso de la tabla de n


umeros aleatorios se dara el siguiente ejemplo:

Ejemplo 1.4 suponga que tenemos 40 latas de refrescos, y que deseamos tomar
una muestra de tama
no n = 4 para estudiar su condici
on. Nuestro primer paso
es numerar las latas de 1 a 40 o apilarlas en alg
un orden de tal forma que puedan
ser identificadas. En la tabla de n
umeros aleatorios, los dgitos deben escogerse de
a dos a la vez porque la poblaci
on de tama
no N =40 es un n
umero de dos dgitos.
Luego se selecciona arbitrariamente una fila y una columna de la tabla. Suponga
que la seleccion es fila 6, y la columna 4. Leemos los pares de dgitos a partir de
la columna 4 y moviendonos hacia la derecha, ignorando los n
umeros mayores
que 40 y tambien cualquier n
umero repetido cuando aparezca una segunda vez.
Se contin
ua leyendo pares de dgitos hasta que cuatro unidades diferentes hayan
sido seleccionadas, es decir lo numeros 05, 20, 08 y 17. Por lo tanto, las latas
con la etiqueta correspondiente a dichos numeros constituyen la muestra.

3. Generacion de n
umeros pseudoaletorios. Existen metodos mas ecaces para
generar n
umeros aleatorios, en muchos de los cuales se utilizan calculadoras
o computadoras. La mayora de los paquetes estadsticos generan numeros
pseudoaleatorios y en excel usando la funcion aleatorio() se pueden generar dichos
n
umeros.

1.3.3.

Error de Muestreo.

Es el error que se comete debido al hecho dar conclusiones sobre cierta realidad, a partir
de la observacion de solo una parte de ella, es decir, es la diferencia entre el parametro
de la poblacion y el estadstico de la muestra utilizado para estimar el parametro.

1.3. MUESTREO

13

Ejemplo 1.5 Se toman muestras de tama


no 2 de una poblaci
on que tiene cinco
elementos, 2, 4, 6, 8 y 10 para simular una poblaci
on grandede manera que el
muestreo pueda realizarse un gran n
umero de veces, supondremos que este se hace con
reemplazo, es decir, el n
umero elegido se reemplaza antes de seleccionar el siguiente,
ademas, se seleccionan muestras ordenadas. En una muestra ordenada, el orden en que
se seleccionan las observaciones es importante, por tanto, la muestra ordenada (2,4)
es distinta de la muestra ordenada (4,2). En la muestra (4,2), se seleccion
o primero 4
y despues 2.
La media poblacional es igual a =

2+4+6+8+10
5

= 6.

La siguiente tabla contiene una lista de todas las muestras ordenadas de tama
no 2 que
es posible seleccionar con reemplazo y tambien contiene las medias muestrales y los
correspondientes errores muestrales.

Muestras X

Error Muestras X

Error Muestras

Error

(2,2)

-4

(6,2)

-2

(10,2)

(2,4)

-3

(6,4)

-1

(10,4)

(2,6)

-2

(6,6)

(10,6)

(2,8)

-1

(6,8)

(10,8)

(2,10)

(6,10)

(10,10)

10

(4,2)

-3

(8,2)

-1

(4,4)

-2

(8,4)

(4,6)

-1

(8,6)

(4,8)

(8,8)

(4,10)

(8,10)

Se puede observar que la suma de los errores muestrales es cero

CAPITULO 1. DISTRIBUCIONES MUESTRALES

14

1.4.

Distribuciones muestrales

Se ha dicho que uno de los objetivos de la estadstica es saber acerca del comportamiento
de parametros poblacionales tales como: la media (), la varianza ( 2 ) o la proporcion
(). Para ello, Se extrae una muestra aleatoria de la poblacion y se calcula el valor de un
la varianza muestral
estadstico correspondiente, por ejemplo, la media muestral (X),
(S 2 ) o la proporcion muestral (p).
Un estadstico es una variable aleatoria, informalmente esto es cierto, ya que su valor
depende de los elementos elegidos en la muestra seleccionada. La veracidad formal de
esta declaracion se da en el siguiente teorema (sin demostracion).

Teorema 1.1 Sean


X1 , X2 , ..., Xn n variables aleatorias. Definamos Y = f (X1 , X2 , ..., Xn ), entonces Y
es tambien una variable aleatoria.
El teorema anterior establece que una funcion de una o mas variables aleatorias es
tambien una variable aleatoria,, y como un estadstico es una funcion de la muestra
(las cuales son variables aleatorias), entonces un estadstico es una variable aleatoria,
y en consecuencia tiene asociada una distribucion de probabilidad la cual es llamada
la Distribuci
on Muestral del Estadstico.
Veamos a continuacion el calculo de la distribucion muestral de los estadsticos mas
usados.

1.4.1.

Empricamente

Para hallar empricamente la distribucion muestral de un estadstico es necesario


seleccionar todas las muestras de dicha poblacion y a partir de dicha informacion

1.4. DISTRIBUCIONES MUESTRALES

15

construir la distribucion de frecuencia relativa de los valores del estadstico, la cual


es considerada como su distribucion muestral. Veamos a continuacion el calculo de
la distribucion muestral de dos estadsticos muy importantes, la media muestral y la
proporcion.
Distribuci
on muestral de la media
Para hallar la distribucion muestral de la media se procede de la siguiente manera:
1. Se seleccionan desde la poblacion todas las muestras posibles de tama
no n,
2. En cada muestra se calcula la media muestral.
3. A partir de dicha informacion se construye la distribucion de frecuencias relativas
de las medias muestrales, la cual se dene como su distribucion muestral.
toma los valores
Ejemplo 1.6 A partir de la tabla del ejemplo anterior se tiene que X
= {2, 3, 4, 5, 6, 7, 8, 9, 10} con las siguientes probabilidades:
X
= 2) = P {(2, 2)} =
P (X

1
25

= 3) = P {(2, 4)o(4, 2)} =


P (X

2
25

= 4) = P {(2, 6)o(4, 4)o(6, 2)} =


P (X

3
25

..
.
= 10) = P {(10, 10)} =
P (X

1
25

Por lo tanto, la distribucion muestral de la media esta dada en la siguiente tabla:

10

= x)
P (X

1
25

2
25

3
25

4
25

5
25

4
25

3
25

2
25

1
25

CAPITULO 1. DISTRIBUCIONES MUESTRALES

16

Ahora bien, como la poblacion es conocida podemos determinar su media y varianza


las cuales son = 6 y 2 = 4 (comprobar dichos resultados). Y a partir de los datos
muestrales se tiene que:
=2
E(X)

1
25

2 ) = 22
E(X

+3
1
25

2
25

+ 32

+4
2
25

3
25

+ ... + 10

+ 42

3
25

1
25

=6

+ ... + 102

1
25

= 44

= E(X
2 ) [E(X)]
2 = 44 36 = 8
V ar(X)
Por lo tanto, se cumple que
=
E(X)
=
V ar(X)

2
n

Este resultado siempre se cumple y en el siguiente teorema se enuncia sin demostracion.


Teorema 1.2 Sea X1 , X2 , ..., Xn una muestra aleatoria extrada de una poblaci
on cuya
media es y varianza 2 . Entonces
=
E(X)
=
V ar(X)

2
n

Veamos otro ejemplo:

Ejemplo 1.7 Cierta empresa tiene 7 empleados en el area de producci


on (considerados
como la poblacion). El salario por hora de cada trabajador se presenta en la siguiente
tabla

1.4. DISTRIBUCIONES MUESTRALES

17

Empleado Salario (BsF)


1

Como los datos anteriores son considerados la poblaci


on, la media y varianza
poblacional son = 7,71 y 2 = 0,49. Ahora, para determinar la distribucion de la
media muestral, se seleccionaron todas las muestras posibles de tama
no 2 sin reposicion
( )
7
en la poblacion, y se calcularon sus medias. Hay 21 posibles muestras de tama
no 2
.
2
Las 21 medias de todas las muestras de tama
no 2 que pueden tomarse de la poblacion,
se indican en la siguiente tabla:
Muestra

Emp

Salarios

Suma

Muestra

Emp

Salarios

Suma

1,2

7,7

14

7.0

12

3,4

8,8

16

8.0

1,3

7,8

15

7.5

13

3,5

8,7

15

7.5

1,4

7,8

15

7.5

14

3,6

8,8

16

8.0

1,5

7,7

14

7.0

15

3,7

8,9

17

8.5

1,6

7,8

15

7.5

16

4,5

8,7

15

7.5

1,7

7,9

16

8.0

17

4,6

8,8

16

8.0

2,3

7,8

15

7.5

18

4,7

8,9

17

8.5

2,4

7,8

15

7.5

19

5,6

7,8

15

7.5

2,5

7,7

14

7.0

20

5,7

7,9

16

8.0

10

2,6

7,8

15

7.5

21

6,7

8,9

17

8.5

11

2,7

7,9

16

8.0

CAPITULO 1. DISTRIBUCIONES MUESTRALES

18

De acuerdo con esta tabla la media muestral s


olo puede tomar los valores 7.0, 7.5, 8.0 y 8.5,
es decir x
= {7,0, 7,5, 8,0, 8,5}, cuyas probabilidades son las que se muestran en la siguiente
tabla (realizar los c
alculos para comparar los resultados):

7.0

7.5

8.0

8.5

=x
P (X
)

0.1429

0.4285

0.2857

0.1429

A partir de los datos muestrales se tiene que:


= 7,0 0,1429 + 7,5 0,4285 + 8,0 0,2857 + 8,5 0,1429 = 7,71
E(X)
2 ) = 7,02 0,1429 + 7,52 0,4285 + 8,02 0,2857 + 8,52 0,1429 = 59,71
E(X
= E(X
2 ) [E(X)]
2 = 0,20
V ar(X)
Por lo tanto, se cumple que
=
E(X)
=
V ar(X)

2
n

Distribuci
on muestral de la proporci
on
Existen ocasiones en las cuales no se esta interesado en la media de la muestra, sino que
se quiere investigar la proporcion de artculos defectuosos o la proporcion de alumnos
aprobados en la muestra. La distribucion muestral de proporciones es la adecuada
para dar respuesta a estas situaciones. Esta distribucion se genera de igual manera
que la distribucion muestral de medias, a excepcion de que al extraer las muestras de
la poblacion se calcula en vez de la media muestral, el estadstico proporcion el cual
esta dado por:

P =

X
n

1.4. DISTRIBUCIONES MUESTRALES

19

donde X es el n
umero de exitos u observaciones de interes y n el tama
no de la muestra.
Ejemplo 1.8 Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artculos
defectuosos. Se van a seleccionar 5 artculos al azar de ese lote sin reemplazo. Genere
la distribucion muestral de proporciones para el n
umero de piezas defectuosas.
Como se puede observar en este ejercicio la Proporci
on de artculos defectuosos de esta
poblacion es =

4
12

= 13 . Por lo que se puede decir que el 33 % de las piezas de este

lote estan defectuosas.


Si X es el n
umero de artculos defectuosos en la muestra, entonces X puede tomar los
valores 0,1,2,3,4, lo cual es equivalente a que P tome los valores 0, 15 , 25 , 35 , 45 con las
siguientes probabilidades:
8 7 6 54
12 11 10 9 8

P (x = 0) = P (P = 0) =

7
99

P (x = 1) = P (P = 0,2) =

(5 ) 8

35
99

P (x = 2) = P (P = 0,4) =

(5 ) 8

42
99

P (x = 3) = P (P = 0,6) =

(5 ) 8

14
99

P (x = 4) = P (P = 0,8) =

(5 ) 8

1
99

7 6 54
1 12 11 10 9 8
7 6 43
2 12 11 10 9 8
7 4 32
3 12 11 10 9 8
4 3 21
4 12 11 10 9 8

Por lo tanto, la distribucion muestral de la proporci


on esta dada en la siguiente tabla:
P

0.2

0.4

0.6

0.8

P (P = p)

7
99

35
99

42
99

14
99

1
99

14
99

+ 0,8

1
99

Al igual que para la media se tiene que


E(P ) = 0

7
99

+ 0,2

35
99

+ 0,4

42
99

+ 0,6

1
3

CAPITULO 1. DISTRIBUCIONES MUESTRALES

20

1.4.2.

Distribuciones muestrales de poblaciones con distribuci


on conocida.

Se ha visto que para hallar la distribucion muestral de un estadstico es necesario


seleccionar todas las muestras de dicha poblacion y a partir de dicha informacion
construir la distribucion de frecuencia relativa de los valores del estadstico. Otra
manera de hallar la distribucion muestral de un estadstico es basandose en el hecho
de que como un estadstico es funcion de variables aleatorias cuya distribucion es
conocida, excepto quizas por sus parametros, entonces podemos hallar su distribucion
de probabilidad.

Distribuci
on muestral de la media
En esta seccion vamos a determinar la distribucion muestral de la media solo en el
caso en que la poblacion sea normal, y se tomara en consideracion los casos en que la
varianza es conocida y la varianza es desconocida.
1. Distribuci
on muestral de la media para una poblaci
on normal con
varianza conocida.
Al estudiar la distribucion normal consideramos algunas propiedades que posee
dicha distribucion, una de ellas era referente a la distribucion de una combinacion
lineal de variables aleatorias normales. As pues, sabemos que si X1 , ..., Xn ,
son variables aleatorias independientes distribuidas seg
un una N (i , i2 ), para
i = 1, ..., n y si a1 , ..., an , son n
umeros reales, entonces la variable aleatoria

Y =

i=1

ai Xi = a1 X1 + ... + an Xn

1.4. DISTRIBUCIONES MUESTRALES

sigue una distribucion N

( n

ai i ,

i=1

21

)
a2i i2

i=1

Este resultado nos sera de bastante utilidad para obtener la distribucion de la


media muestral, como se ve en el Teorema 1.3

Teorema 1.3 Sea x1 , x2 , ..., xn una muestra aleatoria extrada de una poblacion
que se distribuye N (, 2 ). Entonces la media muestral, x, se distribuye normal
con media x = y varianza x2 =

2
,
n

es decir, x N (, n )

Ejemplo 1.9 Sea x1 , x2 , ..., x8 una muestra aleatoria extrada de una poblacion
que se distribuye N (5, 16), entonces por el teorema (1.3) se tiene que
x = = 5
x2 =

2
n

16
8

=2

Por lo tanto, x N (5, 2)

Ejemplo 1.10 Considere una muestra aleatoria de tama


no 100 extrada de una
poblacion que se distribuye N (20, 144), entonces por el teorema (1.3) se tiene que
x = = 20
x2 =

2
n

144
100

= 1,44

Por lo tanto, x N (20, 1,44)

El resultado del teorema (1.3), permite hallar probabilidades sobre la media


muestral, lo cual como se vera mas adelante ayudara a medir el error al estimar
un parametro usando un estadstico.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

22

Como x N (, 2 ), entonces se dene una nueva variable aleatoria Z, dada por

Z=

/ n

(1.1)

La cual se distribuye Normal Estandar, es decir, Z N (0, 1).

Ejemplo 1.11 El precio de venta de una casa nueva en Merida se distribuye


Normal con media 450000 BsF y desviacion tpica de 64000 BsF. Si se toma una
muestra aleatoria de 100 casas nuevas de esta ciudad.

a) Cual es la probabilidad de que la media muestral de los precios de venta sea


menor de 440000 BsF.? Se sabe que:

x = = 450000
x2 =

2
n

640002
100

= 40960000

Entonces, x N (450000, 40960000). As,


(
P (
x < 440000) = P

x
440000 450000
<
x
6400

= P (Z < 1,56) = 0,0594

b) Cual es la probabilidad de que la media muestral se encuentre a menos de


12000 BsF de la media poblacional?

1.4. DISTRIBUCIONES MUESTRALES

23

Como x N (450000, 40960000), entonces


P (|
x | < 12000) = P (12000 < x < 12000)
)
(
12000
x 12000
= P
<
6400
x
6400
= P (1,88 < Z < 1,88)
= P (Z < 1,88) P (Z < 1,88)
= 0,9700 0,0300 = 0,9400

2. Distribuci
on muestral de la media para una poblaci
on normal con
varianza desconocida.
Hasta ahora estabamos admitiendo que se conoce la varianza de la poblacion de
la que se extrae la muestra, pero esta no sera la situacion general, sino que la
mayora de las veces no conocemos la varianza de la poblacion, entonces como
se dispone de una muestra aleatoria de tama
no n, podemos, calcular la varianza
muestral S 2 y utilizarla en lugar de la varianza poblacional 2 desconocida, pues
S 2 es, como veremos despues, un buen estimador de 2 .
Cuando 2 es desconocido, la distribucion muestral de Z =

/ n

depende del

tama
no de la muestra. Veamos los siguientes dos casos:

a) El tama
no de la muestra es grande (n 30).
Cuando el tama
no de la muestra es grande, es decir,(n 30) la distribucion
del estadstico:
Z=

S/ n

sigue siendo aproximadamente N (0, 1).

CAPITULO 1. DISTRIBUCIONES MUESTRALES

24

Ejemplo 1.12 El precio de venta de una casa nueva en Merida se


distribuye Normal con media 450000 BsF. De una muestra aleatoria de 100
casas nuevas de esta ciudad se obtuvo que la desviacion estandar era de
60000.Cual es la probabilidad de que la media muestral de los precios de
venta sea menor de 460000 BsF.?
Se puede notar que la varianza de la poblaci
on no es conocida, pero como el
tama
no de la muestra es mayor que 30 (n = 100), podemos usar la varianza
muestral en lugar de la varianza poblacional, con lo cual el estadstico
Z=

S/ n

se distribuye N (0, 1). Por lo tanto,


(

x
460000 450000
<

P (
x < 460000) = P
S/ n
60000/ 100
= P (Z < 1,67) = 0,9525

b) El tama
no de la muestra es peque
no (n < 30).
Si el tama
no de la muestra es peque
no, n < 30, los valores de la varianza
muestral S 2 varan considerablemente de muestra en muestra, pues S 2
disminuye a medida que n aumenta, y la distribucion del estadstico ya
no sera una distribucion normal.
Este problema fue resuelto en 1908 por el estadstico Gosset a partir del
siguiente teorema.

Teorema 1.4 Sea x1 , x2 , ..., xn una muestra aleatoria extrada de una


poblacion que se distribuye N (, 2 ) donde 2 es desconocido. Entonces el
estadstico
T =

S/ n

1.4. DISTRIBUCIONES MUESTRALES

25

se distribuye t-Student con n 1 grados de libertad.


La demostracion de este teorema se basa en la denicion de una variable
aleatoria t-Student, la cual como se vera en otro curso, es el cociente entre
una normal estandar y la raz cuadrada de una chi-cuadrado sobre sus grados
de libertad.
Ejemplo 1.13 Consideremos el ejemplo anterior, pero supongamos que
la muestra fue de 20 casas. Entonces, como la varianza poblacional es
desconocida y el tama
no de la muestra es menor que 30, el estadstico
T =

S/ n

se distribuye t-Student con 19 grados de libertad. Por lo tanto,


(

x
460000 450000
<

P (
x < 460000) = P
S/ n
60000/ 100
= P (T < 1,67) 0,95

Distribuci
on muestral de la proporci
on
La proporcion de la poblacion se dene como =

X
,
N

en donde X es el n
umero de

elementos que poseen una cierta caracterstica y N es el n


umero total de elementos de
la poblacion. De igual manera la proporcion muestral se dene como P = nx , en donde
x es el n
umero de elementos de la muestra que poseen cierta caracterstica y n es el
tama
no de la muestra. As, se puede considerar una proporcion como una proporcion
de exitos, lo cual se obtiene dividiendo el n
umero de exitos entre el tama
no muestral
n.
Hemos visto que la distribucion de probabilidad de la variable aleatoria X, n
umero de
exitos, depende de si la muestra se selecciona con o sin reemplazo, en el caso en que s
hace con reemplazo el n
umero de exitos x es una variable aleatoria que se distribuye

CAPITULO 1. DISTRIBUCIONES MUESTRALES

26

binomial con parametros n y , en cambio si el muestreo se hace sin reemplazo el


n
umero de exitos se distribuye hipergeometrica. Vemos cada caso por separado.
1. Muestreo con reemplazo Sea x el n
umero de exitos al seleccionar con
reemplazo n elementos de una poblacion de tama
no N , en la que se sabe que el
% son exitos. La proporcion muestral se distribuye binomial, cuyas esperanzas
y varianzas son:
E(p) =
V ar(p) =

(1 )
n

Ejemplo 1.14 En un salon de clases hay 30 estudiantes de los cuales el 20 %


reprobaron un examen. Si se seleccionan aleatoriamente 10 estudiantes con
reemplazo, cual es la probabilidad de que el 30 % hayan reprobado el examen?
Sea X = {N
umero de estudiantes que reprobaron el examen}. Como la seleccion
se hace con reemplazo, entonces X bin(10; 0,20). Ahora, p = 0,30 es equivalente
a X = 3, por lo tanto,
( )
10
P (p = 0,30) = P (X = 3) =
(0,2)3 (1 0,2)7 = 0,2013
3
2. Muestreo sin reemplazo Sea x el n
umero de exitos al seleccionar sin reemplazo
n elementos de una poblacion en la que se sabe que el % son exitos. La
proporcion muestral se distribuye hipergeometrica, cuyas esperanzas y varianzas
son:
E(p) =
V ar(p) =

(1 ) N n
n
N 1

1.4. DISTRIBUCIONES MUESTRALES

27

Ejemplo 1.15 Supongamos el ejemplo anterior, pero la selecci


on se hace sin
reemplazo
Sea X = {N
umero de estudiantes que reprobaron el examen}. Como la seleccion
se hace sin reemplazo, entonces X Hiperg(30; 6; 10). Por lo tanto,
(6)(24)
P (p = 0,30) = P (X = 3) =

(30)7

= 0,2304

10

Se puede notar que la esperanza en ambos caso es la misma y la varianza es la


misma excepto por el factor que esta a la derecha del segundo caso, el cual se
conoce como factor de correccion por poblacion nita.

Distribuci
on muestral de la varianza
La distribucion muestral de la varianza, S 2 tiene pocas aplicaciones practicas
en estadstica, sin embargo, una funcion de dicho estadstico, la cual sigue siendo
un estadstico, si tiene importancia en estadstica. Dicha funcion es

(n1)S 2
2

cuya

distribucion se establece en el siguiente teorema.


Teorema 1.5 Sea (x1 , ..., xn ) una muestra aleatoria de tama
no n, procedente de una
poblacion N (, 2 ). Entonces se verifica que:
1. Los estadsticos x y S 2 son independientes.
2. El estadstico

(n 1)S
=
2
2

(xi x)2

i=1

sigue una distribucion 2 con n 1 grados de libertad.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

28

Ejemplo 1.16 Supongamos que las onzas de lquido que vierte una maquina embotelladora tiene una distribucion normal con 2 = 1. Si se elige una muestra aleatoria de 10
botellas y se mide la cantidad de lquido que contiene cada una,
1. cual es la probabilidad de que la varianza muestral sea mayor que 1.2?
En esta parte debemos hallar P (S 2 > 1,2), para ello usamos el hecho de que
(n1)S 2
2

2 con n 1 grados de libertad. Entonces


(

)
(n 1)S 2
(10 1)1,2
P (S > 1,2) = P
>
2
1
( 2
)
= P > 10,8 0,25(0,2897)
2

2. Entre que valores simetricos de la varianza se encuentran el 90 % de las


observaciones?. En esta parte debemos hallar dos valores digamos b1 y b2 tales
que
P (b1 S 2 b2 )
Siguiendo el mismo procedimiento que en el inciso 1. se tiene que
(

(10 1)b1
(n 1)S 2
(10 1)b2
P (b1 S b2 ) = P
<
<
2
1

1
(
)
9b1
9b2
= P
< 2 <
= 0,95
1
1
2

lo cual se cumple si,


9b1
= 3,325
1

Por lo tanto, b1 = 0,369 y b2 = 1,88.

9b2
= 16,919
1

1.4. DISTRIBUCIONES MUESTRALES

29

Distribuci
on muestral de la diferencia entre 2 medias
En muchas situaciones surge la necesidad de comparar las medias muestrales de
dos poblaciones. Por ejemplo, supongamos que estamos interesados en comparar los
tiempos medios de duracion de dos artefactos electricos. La fabricacion de ambos
marcas de artefactos se realiza por compa
nas distintas y con diferentes procesos
de fabricacion. Por tanto, los artefactos producidos por cada compa
na tendran una
distribucion diferente, una de la otra, en los tiempos de duracion.
Designamos por X1 la variable aleatoria que representa el tiempo de duracion
de la primera marca de artefacto y admitimos que sigue una distribucion N (1 , 12 ).
Analogamente la variable aleatoria X2 representa el tiempo de duracion de la segunda
marca de artefacto que sigue una distribucion N (1 , 12 ). Se selecciona una muestra
aleatoria de tama
no n1 , de la primera marca de artefacto y una muestra aleatoria
de tama
no n2 , de la segunda marca de artefacto, ambas muestras independientes.
Entonces si designamos por x1 y x2 los estadsticos medias muestrales de ambas
muestras, estamos interesados en conocer la distribucion muestral de la diferencia

x = x1 x2 para las muestras respectivas de tama


no n1 y n2 procedentes de dos
poblaciones normales e independientes. Al igual que para el caso de una poblacion
vamos a estudiar por separado cuando las varianzas poblacionales son conocidas y
cuando son desconocidas.

1. Varianzas Poblacionales conocidas.


De manera analoga al Teorema 1.3 que anunciabamos para la distribucion
muestral de la media, podemos enunciar el siguiente teorema para la diferencia
de medias muestrales.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

30

Teorema 1.6 Sean X11 , X12 , ..., X1n1 una muestra aleatoria extrada de una
poblacion que se distribuye N (1 , 12 ) y X21 , X22 , ..., X2n2 una muestra aleatoria
extrada de una poblaci
on que se distribuye N (2 , 22 ), independientes, y

supongamos que 12 y 12 son conocidas. Entonces la diferencias de medias, X,


2
se distribuye normal con media = 1 2 y varianza
=
X
2

N (, 1 +
X
n1

22
).
n2

12
n1

+ n22 , es decir,

Por lo tanto, el estadstico


X
Z= 2
N (0, 1)
22
1
+ n2
n1
Aunque no se demostrara el teorema, es facil ver que
= E(
E(X)
x1 x2 ) = E(
x1 ) E(
x2 ) = 1 2
= V ar(
V ar(X)
x1 x2 ) = V ar(
x1 ) + V ar(
x2 ) =

12
n1

22
n2

Ejemplo 1.17 Sean X11 , X12 , ..., X18 una muestra aleatoria extrada de una
poblacion que se distribuye N (5, 16) y X21 , X22 , ..., X25 una muestra aleatoria
extrada de una poblaci
on que se distribuye N (8, 25), entonces por el teorema
(1.6) se tiene que
X = 1 2 = 5 8 = 3
2

=
X

12
n1

22
n2

16
8

25
5

=7

N (3, 7)
Por lo tanto, X
Al igual que para una muestra, el resultado del teorema (1.6), permite hallar
probabilidades sobre la diferencia de medias muestrales, lo cual como se vera mas
adelante ayudara a medir el error al estimar un parametro usando un estadstico.

1.4. DISTRIBUCIONES MUESTRALES

31

Ejemplo 1.18 El precio de venta de una casa nueva en Merida se distribuye


Normal con media 450000 BsF y desviacion tpica de 64000 BsF, en cambio en
San Cristobal se distribuye Normal con media 440000 BsF y desviacion tpica de
36000 BsF. Si se toma una muestra aleatoria de 100 casas nuevas en Merida y
120 en San Cristobal . Cual es la probabilidad de que el precio promedio de venta
sea mayor en Merida que en San Cristobal? Consideremos a Merida la poblacion
1 y a San Cristobal la poblaci
on 2, entonces
X = 1 2 = 450000 440000 = 10000
2

=
X

12
n1

22
n2

640002
100

360002
120

= 51760000

= x1 x2 N (10000, 51760000).
por lo tanto, X
As,

> 0)
P (
x1 > x2 ) = P (
x1 x2 > 0) = P (X
(
)
X
0 10000
= P
>
2

51760000

X
= P (Z > 1,39) = 0,9177

2. Varianzas Poblacionales desconocidas.


En general, las varianzas poblacionales no suelen ser conocidas. As pues, ahora
queremos obtener la distribucion de la diferencia de medias muestrales x1 x2
cuando el muestro se realiza sobre dos poblaciones normales, independientes y
con varianzas desconocidas. En estas situaciones, debemos tomar en cuenta el
tama
no de la muestra.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

32

a) Tama
no de las muestras son mayores que 30
Si el tama
no de cada muestra es mayor que 30, la distribucion muestral
2
de la diferencia de medias sigue siendo normal pero sustituyendo
por
X
2
S
=
X

S12
n1

S22
.
n2

Es decir,

N (, 2 )
X
X
Ejemplo 1.19 La edad promedio de los estudiantes de la Universidad de
los Andes es 22 a
nos y la de los estudiantes de la Universidad de Oriente es
24 a
nos. Dada una muestra aleatoria de 50 estudiantes de la ULA se obtuvo
que la varianza era 25, y para 60 estudiantes de la UDO se obtuvo que la
varianza era de 16. Su suponemos que las poblaciones son normales.

1) Cual es la distribucion muestral de la diferencia de las edades de los


estudiantes de la ULA con respecto a los de la UDO?
1 = La edad promedio de los estudiantes de la ULA X
1 = 22
Sea X
2 = La edad promedio de los estudiantes de la UDO X
2 = 24
Sea X
Como las varianzas poblacionales son desconocidas usamos las varianzas muestrales, las cuales son S12 = 25 y S22 = 16. Debido a que los
tama
nos de muestras seleccionados son mayores que 30 (n1 = 50, n2 =
=X
1 X
2 N (; S 2 ), donde
60), entonces X
X
= 1 2 = 22 24 = 2
N (2; 0,77)
Es decir, X

2
S
=
X

S12 S22
25 16
+
=
+
= 0,77
n1
n2
50 60

1.4. DISTRIBUCIONES MUESTRALES

33

2) Cual es la probabilidad de que dicha diferencia sea mayor que 2?

P (|
x1 x2 | > 2) = P (
x1 x2 > 2) + P (
x1 x2 < 2)
)
(
2 (2)
X
>
= P
2
S
0,77

X
(
)
2 (2)
X
<
+ P
2
S
0,77

X
= P (Z > 4,55) + P (Z < 0) = 0 + 0,50 = 0,50

b) Tama
no de al menos una de las muestras es menor que 30

Cuando las varianzas poblacionales son desconocidas y al menos uno de


los tama
nos muestrales es menor que 30, al igual que en el caso de una
poblacion, se tiene que el estadstico

T =


X
SX

se distribuye t-student con v grados de libertad. Donde los valores de SX y


v depende de si las varianzas poblacionales se consideran iguales o diferentes.

1) Si la varianzas se suponen iguales, se tiene que

SX =

(n1 1)S12 + (n2 1)S22


n1 + n2 2

v = n1 + n2 2

1
1
+
n1 n2

CAPITULO 1. DISTRIBUCIONES MUESTRALES

34

2) Si la varianzas se suponen diferentes, se tiene que

S12 S22
+
n1
n2

SX =

S2

v=

S22 2
)
n2
(S 2 /n )2
+ n22 12

( n11 +
(S12 /n1 )2
n1 1

Ejemplo 1.20 Se aplicaron dos metodos para ense


nar a leer a dos grupos
de ni
nos de primaria que se eligieron en forma aleatoria y se realiz
o una
comparacion con base en una prueba de comparaci
on de lectura al final del
perodo de ense
nanza. La siguiente tabla resume los valores de las medias
muestrales y las varianzas calculadas con los resultados de la prueba. Si se
supone que las puntuaciones obtenidas por cada metodos son normales con
media 60 y 65 respectivamente y que las varianzas poblacionales son iguales,
calcule la probabilidad de que el segundo metodo de ense
nanza asegure en
promedio una mayor puntuacion que el primero.

Metodo 1

Metodo 2

N
umero de ni
nos

11

14

Media

64

69

Varianza

52

71

El segundo metodo de ense


nanza asegure en promedio una mayor puntuacion
que el primero, esta representado por el evento x1 x2 < 0. De esta manera
se tiene que
= 1 2 = 64 69 = 5

1.4. DISTRIBUCIONES MUESTRALES

35

SX

(n1 1)S12 + (n2 1)S22 1


1
=
+
n1 + n2 2
n1 n2

(11 1)52 + (14 1)71 1


1
=
+
11 + 14 2
11 14
= 3,19

Por lo tanto,

< 0)
P (
x1 x2 < 0) = P (X
(
)
X
0 (5)
= P
<
SX
3,19
= P (T < 1,57) 0,95

Nota: Hacer el mismo ejemplo suponiendo varianzas diferentes.

Distribuci
on muestral del cociente de varianzas
Sean dos poblaciones X1 y X2 , N (1 , 12 ), N (2 , 22 ) e independientes, de las cuales
seleccionamos dos muestras aleatorias simples e independientes, de tama
nos n1 y
n2 , (x11 , ..., x1n1 , ) y (x21 , ..., x2n2 ), entonces pueden presentarse fundamentalmente dos
situaciones:
1. 1 y 2 son conocidas
2. 1 y 2 son desconocidas
1. 1 y 2 son conocidas Al ser conocidas las medias poblacionales 1 y 2 las
podemos utilizar para el calculo de las varianzas muestrales S12 y S22 ; y como

CAPITULO 1. DISTRIBUCIONES MUESTRALES

36

las muestras son independientes y ademas proceden de distintas poblaciones,


entonces los estadsticos:

S12

n
1
(x1i 1 )2
=
n1 i=1

S22

n
1
=
(x2i 2 )2
n2 i=1

son independientes y podemos expresarlos como:

n1 S12 =

i=1

n2 S22

n1 S12 x1i 1 2
=
(
) 2n1
12

1
i=1
n

(x1i 1 )2

n2 S22 x2i 2 2
=
(x2i 2 )
=
(
) 2n2
2

2
2
i=1
i=1
n

pues la suma de n variables aleatorias N (0, 1), independientes y elevadas al


cuadrado siguen una 2n . Y recordando que la variable aleatoria F de Snedecor
con n1 y n2 grados de libertad, Fn1 ,n2 , se dene como el cociente entre dos
variables aleatorias 2 independientes divididas cada una de ellas por sus grados
de libertad, tenemos que:

F =

2. 1 y 2 son desconocidas

n1 S12
/n1
12
n2 S22
22

/n2

S12 22
Fn1 ,n2
S22 12

1.4. DISTRIBUCIONES MUESTRALES

37

Al ser desconocidas las medias poblacionales, que sera lo que casi siempre ocurra,
y ser las muestras independientes y ademas procedentes de distintas poblaciones,
entonces los estadsticos:

S12

1
(x1i x1 )2
=
n1 1 i=1

S22

1
=
(x2i x2 )2
n2 1 i=1

son independientes y ademas

(n1 1)S12 =

(x1i x1 )2

(n1 1)S12 x1i x1 2


=
(
) 2n1 1
2
1
1
i=1

(x2i x2 )2

(n2 1)S22 x2i x2 2


=
(
) 2n2 1
2
2
2
i=1

i=1

(n2 1)S22 =

i=1

Analogamente a como ocurra en la situacion anterior, llegaremos a una FSnedecor con n1 1 y n2 1 grados de libertad, en efecto:

F =

(n1 1)S12
/n1
12

(n2 1)S22
/n2
22

S12 22
Fn1 1,n2 1
S22 12

Ejemplo 1.21 Se aplicaron dos metodos para ense


nar a leer a dos grupos
de ni
nos de primaria que se eligieron en forma aleatoria y se realiz
o una
comparacion con base en una prueba de comparaci
on de lectura al final del
perodo de ense
nanza. La siguiente tabla resume los valores de las medias
muestrales y las varianzas calculadas con los resultados de la prueba. Si se

CAPITULO 1. DISTRIBUCIONES MUESTRALES

38

supone que las puntuaciones obtenidas por cada metodo son normales cuyas
varianzas poblacionales son 60 y 75 respectivamente, calcule la probabilidad de
que el segundo metodo presente mayor variabilidad que el primero.
Metodo 1

Metodo 2

N
umero de ni
nos

11

14

Media

64

69

Varianza

52

71

El segundo metodo presente mayor variabilidad que el primero, esta representado


por el evento S12 < S22 . Como la medias poblacionales son desconocidas, se tiene
que:
)
S12
>1
= P
S22
( 2 2
)
S1 2
75
= P
>1
S22 12
60
(

P (S12

<

S22 )

= P (F < 1,57) 0,95

Distribuci
on muestral de la Diferencia de Proporciones
Otro problema que se suele presentar es el de comparar las proporciones p1 y p2 , de
dos poblaciones binomiales (si el muestreo es con reemplazo) o hipergeometricas (si
el muestreo es sin reemplazo), basandose en muestras aleatorias simples de tama
no
n1 y n2 , respectivamente, extradas de ambas poblaciones. La comparacion de dichas
proporciones se obtienen a traves del estadstico p = p1 p2 , cuya distribucion no
es conocida, ya que en teora no se conoce cual es la distribucion de la resta de dos
binomiales o de dos hipergeometricas. Por lo tanto, la distribucion de este estadstico
se denira mas adelante.

1.4. DISTRIBUCIONES MUESTRALES

1.4.3.

39

Distribuciones asint
oticas

Existen situaciones en las que la distribucion de la poblacion no es conocida, pero si el


tama
no de la muestra es grande comparado con el tama
no de la poblacion, podemos
usar la distribucion normal como la distribucion del estadstico de manera aproximada.
Dicho resultado se basa en lo que se conoce como el Teorema Central del Limite, el
cual se enuncia a continuacion sin demostracion:
Teorema 1.7 Sea X1 , X2 , ..., Xn una muestra aleatoria de una distribucion con media
y varianza 2 . Entonces, si n es suficientemente grande, la variable aleatoria

Y =

Xi

i=1

tiene aproximadamente una distribucion normal con media n y varianza n 2 , lo cual


se denota como
n

Xi N (n; n 2 )

i=1

Una muestra es sucientemente grande si n 30.


Distribuci
on muestral de la media
En muchas situaciones la poblacion de partida de la cual se extrae la muestra no
es normal. En tales casos la distribucion muestral del estadstico media muestral x,
sera aproximadamente normal. Vease en el siguiente corolario
Corolario 1.8 Sea x1 , x2 , ..., xn una muestra aleatoria extrada de una poblaci
on cuya
distribucion no es normal, pero que se sabe que tiene media y varianza 2 , esta u
ltima
puede ser o no conocida. De acuerdo con el teorema central del lmite

CAPITULO 1. DISTRIBUCIONES MUESTRALES

40

=
X

Xi

i=1

(
)
2
N ;
n

cuando la varianza es conocida, o


n

=
X

Xi

i=1

(
)
S2
N ;
n

cuando la varianza es desconocida.


Ejemplo 1.22 Cierta fabrica produce alambres de acero que tiene una media de
resistencia a la traccion de 500 libras y una desviacion estandar de 20 libras. Si se
extrae una muestra aleatoria de 100 alambres de la lnea de producci
on durante cierta
semana,
1. cual es la probabilidad de que la media muestral difiera de 500 libras en 4 libras?
2. cual es la probabilidad de que la media muestral sea menor de 496 libras?
Se puede notar que no se dice nada sobre la normalidad de la poblaci
on, pero como
el tama
no de la muestra es mayor que 30 (n = 100)
Distribuci
on muestral de la varianza
Se vio que si la poblacion de donde se extraa la muestra se distribua N (; 2 ) entonces
n

(n 1)S
=
2
2

(xi x)2

i=1

sigue una distribucion 2 con n 1 grados de libertad.

1.4. DISTRIBUCIONES MUESTRALES

41

Ahora, si la distribucion de la poblacion no es conocida, pero el tama


no de la muestra
es sucientemente grande, se tiene que

N
X

)
(
S2
;
n

Por lo tanto, se mantiene el resultado anterior.

Distribuci
on muestral de la proporci
on
Sea x el numero de exitos en una muestra de tama
no n, extrada de una poblacion
cuya proporcion de exitos es . Por el teorema central del limite, si n 30, se cumple
que

p N (p ; p2 )
donde
x
1
1
p = E(p) = E( ) = E(x) = n =
n
n
n
x
1
1
(1 )
p2 = V ar(p) = V ar( ) = 2 V ar(x) = 2 n(1 ) =
n
n
n
n
Distribuci
on muestral de la diferencia de medias
Si las poblaciones de donde se extraen las muestras no son normales, pero los tama
nos
de ambas muestras son grandes, entonces podemos aplicar el siguiente resultado
Corolario 1.9 Sean x11 , x12 , ..., x1n y x21 , x22 , ..., x2n muestras aleatorias extradas de
poblaciones cuya distribucion no es normal, pero que se sabe que tienen medias 1 y 2

CAPITULO 1. DISTRIBUCIONES MUESTRALES

42

y varianza 12 22 , respectivamente, estas u


ltimas puede ser o no conocidas. De acuerdo
con el teorema central del limite

N (; 2 )
X
X
donde
= 1 2

=
X

12 22
+
n1 n2

y
Z=


X
N (0, 1)
X

cuando las varianzas son conocidas, o

N (; 2 )
X
X
donde
= 1 2
y
Z=


X
N (0, 1)
SX

cuando la varianzas son desconocidas.

Distribuci
on muestral del cociente de varianzas

no hay cambios

1.4. DISTRIBUCIONES MUESTRALES

43

Distribuci
on muestral de la Diferencia de Proporciones
Consideremos dos muestras aleatorias simples e independientes de tama
no n1 y
n2 , procedentes de poblaciones binomiales con parametros 1 y 2 , respectivamente,
entonces la distribucion muestral de la diferencia de proporciones muestrales

p = p1 p2

tendra aproximadamente (para n1 y n2 , grandes) una distribucion normal con


media
p = 1 2
y varianza

2
p
=

1 (1 1 ) 2 (1 2 )

n1
n2

es decir,

2
p N (p ; p
)

CAPITULO 1. DISTRIBUCIONES MUESTRALES

44

1.5.

Ejercicios.

1. Una poblacion consiste en los cuatro valores siguientes: 12, 12, 14 y 16.

a) Enumere todas las muestras posibles de tama


no 2 y calcule la media de cada
muestra.
b) Determine la distribucion muestral de la media.
c) Determine el valor medio de la distribucion muestral de la media, y la media
de la poblacion. Compare los dos valores.
d ) Determine el valor de la varianza de la distribucion muestral de la media, y
la varianza de la poblacion. Compare los dos valores.

2. Una poblacion esta compuesta de los siguientes cinco valores: 2, 2, 4, 4 y 8

a) Enumere todas las muestras posibles de tama


no 3 y calcule la media de cada
muestra.
b) Determine la distribucion muestral de la media.
c) Determine el valor medio de la distribucion muestral de la media, y la media
de la poblacion. Compare los dos valores.
d ) Determine el valor de la varianza de la distribucion muestral de la media, y
la varianza de la poblacion. Compare los dos valores.

3. Hay cinco representantes de ventas en la agencia Escalante Motors. A


continuacion se listan los cinco representantes y el numero de autos que vendieron
la semana pasada:

1.5. EJERCICIOS.

45
Empleado Salario (BsF)
Ramon

Juan

Pedro

Luis

10

Victor

a) Cuantas muestras de tama


no 2 son posibles?.
b) Enumere todas las muestras posibles de tama
no 2 y calcule la media de cada
muestra.
c) Determine la distribucion muestral de la media.
d ) Determine el valor medio de la distribucion muestral de la media, y la media
de la poblacion. Compare los dos valores.
e) Determine el valor de la varianza de la distribucion muestral de la media, y
la varianza de la poblacion. Compare los dos valores.

4. Empresas POLAR tiene 20 representantes de ventas que venden su producto en


Merida. A continuacion se listan los n
umeros de unidades vendidas (en miles)
durante un mes por cada representante. Supongase que tales cifras son una
poblacion de valores:

2 3 2

a) Elabore un graco de la distribucion de la poblacion.


b) Calcule la media poblacional

CAPITULO 1. DISTRIBUCIONES MUESTRALES

46

c) Seleccione al azar cinco muestras de 5 elementos cada una, y calcule la media


de cada muestra.
d ) Calcule la distribucion de la media muestral.
e) Compare la media de la distribucion de medias muestrales, con la media de
la poblacion. Se esperara que fueran iguales?.
f ) Elabore un graco de las medias muestrales. Observa alguna diferencia
entre la forma de la distribucion de dichas medias y la distribucion de la
poblacion.
5. Una empresa tiene seis representantes de ventas. En la tabla siguiente se indica
la cantidad de cocinas que cada uno vendio el mes pasado.
Vendedor Cocinas
Pedro

54

Maria

50

Jose

52

Luis

48

Victor

50

Ana

52

a) Cuantas muestras de tama


no dos se pueden hacer?.
b) Seleccione todas las muestras posibles de dos elementos y calcule la media
de unidades vendidas.
c) Organice la media muestral en una distribucion de frecuencia.
d ) Cual es la media de la poblacion?, cual es la media de la media muestral?
e) Cual es la forma de la distribucion de la media muestral?.

1.5. EJERCICIOS.

47

f ) Cual es la forma de la distribucion de la poblacion?.

6. Como parte de su servicio al cliente, una empresa aerea selecciona aleatoriamente


10 pasajeros de uno de sus vuelos nacionales de las 9 de la ma
nana. A cada uno de
los pasajeros seleccionados se le pregunta acerca de los servicios en el aeropuerto,
las comidas, los servicios a bordo, etc. Para tomar la muestra, a cada pasajero se
le dio un n
umero conforme abordaba el avion. Los n
umeros empiezan en 001 y
terminan en 250.
a) Seleccione al azar 10 n
umeros adecuados utilizando la tabla de n
umeros
aleatorios.
b) Otra manera de seleccionar los individuos sera a traves de una muestra
sistematica. Seleccione una muestra sistematica usando la tabla de numeros
aleatorios para seleccionar el primer individuo.
c) Para ambas muestras determine la distribucion de probabilidad de la media
muestral, la media y la varianza.
7. De las muestras aleatorias de tama
no n de poblaciones con las medias y
varianzas dadas a continuacion. Encuentre la media y la desviacion estandar
de la distribucion muestral de la media en cada caso.
a) n = 36, = 10, 2 = 9.
b) n = 100, = 5, 2 = 4.
c) n = 8, = 120, 2 = 1.
8. Remtase al ejercicio anterior.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

48

a) Si las poblaciones muestredas son normales, cual es la distribucion muestral


de la media para los incisos a, b, c?
b) Si las poblaciones muestredas no son normales, cual es la distribucion
muestral de la media para los incisos a, b, c?, En que se basa?.
9. Una muestra aleatoria de n observaciones se elige de una poblacion con desviacion
estandar = 1. Calcule el error estandar de la media para estos valores de n
a. n = 1

b. n = 2

f. n = 25

g. n = 100

c. n = 4

d. n = 9

e. n = 16

10. Remtase al ejercicio anterior. Graque el error estandar de la media contra el


tama
no muestral n y una los puntos con una curva uniforme. Cual es el efecto
de aumentar el tama
no de la muestra en el error estandar?.
11. Suponga que se selecciona una muestra aleatoria de n = 25 observaciones de
una poblacion que tiene distribucion normal, con media igual a 106 y desviacion
estandar igual a 12.
a) De la media y la desviacion estandar de la distribucion muestral de la media.
b) Encuentre la probabilidad de que la media muestral sea mayor que 110.
c) Estime la posibilidad de que la media muestral se desve de la media de la
poblacion en no mas de 4.
12. La media de una poblacion normal es 60 y la desviacion estandar es 12. Se toma
una muestra aleatoria de 9. Calcule la probabilidad de que la media muestral
a) sea mayor que 63.
b) menor que 56.

1.5. EJERCICIOS.

49

c) este entre 56 y 63.


13. La vida media de unas bateras para radio portatil es 35 horas. La distribucion de
los tiempos de vida de estas bateras sigue una distribucion normal con desviacion
estandar de 5.5 horas. Como parte del programa de pruebas de sus artculos el
fabricante de radios portatiles prueba una muestra de 25 bateras.
a) Que se puede decir acerca de la forma de la distribucion de la media
muestral?.
b) Cual es el error estandar de la distribucion de la media muestral?.
c) Que fraccion de todas las muestras tendra una vida u
til mayor que 36
horas?.
d ) Que fraccion de todas las muestras tendra una vida u
til mayor que 34.5
horas?.
e) Que fraccion de todas las muestras tendra una vida u
til entre 34.5 y 36
horas?.
14. Seg
un algunos estudios la estatura de los meride
nos se distribuye normal con
media 1.70. De 50 meride
nos seleccionados al azar se obtuvo que la desviacion
estandar era de 0.10, cual es la probabilidad de que la estatura media de los 50
meride
nos este por encima de 1.75?
15. El precio de las hamburguesas en la ciudad de Merida sigue una distribucion
normal cuyo precio promedio es de 20 BsF. Un viernes en la tarde se realizo
un estudio en varios negocios de hamburguesas de donde se registraron el precio
de 35 hamburguesas, encontrandose que las mismas presentaban una desviacion

CAPITULO 1. DISTRIBUCIONES MUESTRALES

50

estandar de 2 BsF. Cual es la probabilidad de que el precio promedio de las 35


hamburguesas sea menor que 21 BsF?.
16. Seg
un algunos estudios la edad de los meride
nos se distribuye normal con media
35 a
nos. De 25 meride
nos seleccionados al azar se obtuvo que la desviacion
estandar era de 5 a
nos, cual es la probabilidad de que la edad media de los
25 meride
nos este por debajo de 38 a
nos?
17. El precio de los perros calientes en cierta ciudad sigue una distribucion normal
cuyo precio promedio es de 10 BsF. Una regulacion del gobierno establece que el
precio de los perros calientes no debe ser mayor a 9 BsF. Un estudio realizado
en varios negocios de comida informal se registro el precio de 22 perros calientes
encontrandose que los mismas presentaban una desviacion estandar de 2 BsF.
Cual es la probabilidad de que el precio promedio de los 10 perros calientes no
viole la regulacion?.
18. Suponga que el profesor universitario en instituciones con carreras de dos a
nos
gana un promedio de 65608 BsF. por a
no con una desviacion estandar de 4000
BsF. En un esfuerzo por vericar este nivel del sueldo, se elige al azar una
muestra aleatoria de 60 profesores de una base de datos del personal para estas
instituciones en Venezuela.
a) Describa la distribucion muestral de la media.
b) Dentro de que lmites esperara usted que se ubicara el promedio muestral
con probabilidad 0.95?
c) Calcule la probabilidad de que la media muestral sea mayor que 67000 BsF.?

1.5. EJERCICIOS.

51

d ) Si su muestra aleatoria produjera en realidad una media muestral de 67000,


considerara esto poco com
un?.
19. De acuerdo con un estudio, un contribuyente necesita 30 minutos para llenar,
copiar y enviar una determinada forma scal. Una agencia de investigacion
encuentra en una muestra de 40 contribuyentes una desviacion estandar de 8
minutos.
a) Que se debe suponer acerca de la forma de la distribucion?.
b) En este ejemplo, cual es el error estandar de la media?.
c) Cual es la probabilidad de tener una media muestral superior a 32 minutos?.
d ) Cual es la probabilidad de tener una media muestral que este entre 32 y
35 minutos?.
e) Cual es la probabilidad de tener una media muestral mayor que 35
minutos?.
20. En Venezuela la edad promedia en la que los hombres se casan por primera vez
es 24.8 a
nos. No se conoce ni la forma ni la desviacion estandar de la poblacion.
Cual es la probabilidad de encontrar en una muestra de 60 hombres que la edad
promedio a la que se casaron sea 25.1 a
nos?. Supongase que la desviacion estandar
muestral es 2.5 a
nos.
21. En un supermercado, la cantidad media de una compra es 23,50 BsF. No se conoce
ni la forma ni la desviacion estandar de la poblacion. Se toma una muestra de 50
clientes,Si la desviacion estandar de la muestra es 5 BsF, entonces:
a) Cual es la probabilidad de que la media muestral sea inferior a 25 BsF?.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

52

b) Cual es la probabilidad de que la media muestral sea mayor que 22.5 y


menor que 25 BsF?.
c) Entre que limites se encuentra el 90 % de las medias muestrales?.
22. La media de una poblacion de forma desconocida es 75. Se toma una muestra de
40. La desviacion estandar de la muestra es 5. Calcule la probabilidad de que la
media muestral
a) sea menor que 74.
b) este entre 74 y 74.
c) este entre 76 y 77.
d ) sea mayor que 77.
23. Se eligen muestras aleatorias de tama
no n de poblaciones binomiales con los
parametros de poblacion dados a continuacion. Encuentre la media y la
desviacion estandar de la distribucion muestral de la proporcion p en cada caso
si el muestreo se hace sin reemplazo.
a) n = 10, p = 0,3
b) n = 15, p = 0,1
c) n = 5, p = 0,7
24. Realice el ejercicio anterior si el muestreo se hace con reemplazo.
25. Determine la distribucion muestral del ejercicio 23
26. Determine la distribucion muestral del ejercicio 24

1.5. EJERCICIOS.

53

27. La mayora de los venezolanos alivian el estres comiendo dulces. Seg


un un
estudio el 46 % de los venezolanos comen en exceso comidas dulces cuando estan
estresados. Si se selecciona una muestra aleatoria sin reemplazo de 10 venezolanos
a) Determine la distribucion de la proporcion muestral.
b) Cual es la probabilidad de que la proporcion muestral sea mayor que 0.5?
c) Cual es la probabilidad de que la proporcion muestral este entre 0.3 y 0.4?

28. Resuelva el ejercicio 27 suponiendo que el muestreo se hace con reemplazo.


29. En una asamblea de deportes hay 4 personas que juegan f
utbol, 3 beisbol y 3
domino. Si se seleccionan 4 personas al azar sin reemplazo
a) Cual es la distribucion muestral de la proporcion de personas que juegan
f
utbol?
b) Cual es la probabilidad de que dicha proporcion sea menor que 0.5?

30. Resuelva el ejercicio 29 suponiendo que el muestreo se hace con reemplazo.


31. La produccion de leche de la compa
na LACTOSA se distribuye normal con una
desviacion estandar de 0.1 litros. De una muestra de 60 litros de leche, cual es
la probabilidad de que la varianza sea mayor a 0.0144 litros2 ?
32. Si cierto proceso productivo de az
ucar presenta una variabilidad mayor a 10000
gramos2 es necesario hacer un ajuste en la maquina. Se sabe por estudios
anteriores que la produccion de az
ucar se distribuye normal con una varianza
de 2500 gramos2 . Si se selecciona una muestra de 30 paquetes de az
ucar, Cual
es la probabilidad de que sea necesario reajustar la maquina?.

CAPITULO 1. DISTRIBUCIONES MUESTRALES

54

33. La duracion (en meses) de dos marcas de bateras se distribuyen normal con
medias 38 y 35 respectivamente y desviaciones estandar 8 y 6 respectivamente.
Si se selecciona una muestra aleatoria de 36 bateras de cada marca, cual es la
probabilidad de que la duracion promedio de la marca A sea:
a) Superior a la de la marca B en dos meses o mas?
b) Inferior a la de la marca B en 2 meses o menos?.
34. Una tienda por departamentos tiene dos planes de cuentas de cargo disponibles
para sus clientes con cuenta corriente de credito. Los saldos de cada plan se
distribuyen normal con medias 15000 BsF y 18000 Bs, respectivamente. La tienda
selecciono una muestra aleatoria de 40 cuentas del plan A y 40 cuentas del plan
B, obteniendo que las medias y las desviaciones estandar eran 12750 y 2550 para
el plan A y 18700 y 2404 para el plan B. cual es la probabilidad de que los saldos
promedios del plan A sean menor que los del plan B?.
35. Cierta marca de almohadas tienen un peso medio de 15 gramos y una desviacion
estandar de 0.006 gramos. Se toman dos muestras aleatorias incondicionales en
forma independiente de cierto da de produccion, con n1 = 500 y n2 =800. Cual es
la probabilidad de que las medias muestrales dieran en mas de 0.0006 gramos?,
de que dieran en menos de 0.0003 gramos?.
36. Dos marcas de tubos de television, A y B, poseen los siguientes parametros:
A = 1,400 horas, A2 = 40,000 horas2 , B = 1,200 horas y B2 = 10,000
horas2 . Se extrae una muestra aleatoria de 125 tubos de cada marca; determine
la probabilidad de que
a) la marca A tendra una media de vida de por lo menos 160 horas mas que B

1.5. EJERCICIOS.

55

b) La marca A tendra una media de vida de por lo menos 250 hora mas que B
37. El sueldo anual de los profesores en cierta ciudad es de 120000 BsF como
promedio, con una desviacion estandar de 10000 BsF. En la misma ciudad, el
salario anual de los medicos es de 150000 BsF como promedio, con una desviacion
estandar de 15000 BsF. Se toma una muestra aleatoria de 100 de cada poblacion;
cual es la probabilidad de que las medias muestrales dieran en menos de
50000BsF; de que dieran en mas de 60000 BsF?.
38. El alcalde de la ciudad de Merida compra 100 bombillos de luz de la marca A y
otros 100 de la marca B. Al probar estos bombillos, hallo que xA = 1300 horas,
SA = 90 horas, xB = 1250 horas y SA = 100 horas. Cual es la probabilidad de
que la diferencia entre las dos medias de poblacion correspondientes sea mayor
de 40 horas?.

56

CAPITULO 1. DISTRIBUCIONES MUESTRALES

Captulo 2
Inferencia Estadstica: Estimaci
on

2.1.

Introducci
on.

En muchas investigaciones se esta interesado en estudiar una o mas poblaciones, las


cuales pueden ser caracterizadas por algunos parametros, es por ello que en m
ultiples
estudios estadsticos se centre la atencion sobre dichos parametros. Por ejemplo,
supongamos que se desea conocer el ingreso promedio de los habitantes del Municipio
Libertador del Estado Merida, en dicho caso el parametro es la media poblacional .
Obtener el valor del parametro en general es difcil, porque para ello sera necesario
tener toda la informacion de la poblacion, por ejemplo, el valor de puede ser
calculado si contamos con el salario de todos los habitantes de la region en estudio,
pero evidentemente eso no es posible, bien sea porque no disponemos del tiempo o del
dinero necesario para recoger la informacion.
En tales situaciones se recomienda seleccionar una muestra aleatoria de dicha
poblacion y a partir de esos datos calcular el smil de la muestra en la poblacion,
conocido como estadstico, el cual es nos da informacion sobre el valor del parametro.
57


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

58

En nuestro ejemplo, seleccionamos una muestra aleatoria de trabajadores de la region


en estudio, a quienes se les tomara el sueldo mensual, y a partir de dichos datos se
el cual como veremos es el mejor estadstico para estimar
calcula la media muestral X,
la media poblacional . Este procedimiento se conoce como Inferencia Estadstica.
Seg
un Casas(), el objetivo basico de la inferencia estadstica es hacer inferencias
o sacar conclusiones sobre la poblacion a partir de la informacion contenida en una
muestra aleatoria de la poblacion. Mas especcamente, podemos decir que la inferencia
estadstica consiste en el proceso de seleccion y utilizacion de un estadstico muestral,
mediante el cual, utilizando la informacion que nos proporciona una muestra aleatoria,
nos permite sacar conclusiones sobre caractersticas poblacionales. Es decir, supongase
que se tiene una poblacion, la cual se representa por su funcion de distribucion
y el parametro poblacional se denota por , que toma valores dentro del espacio
parametrico , el parametro puede ser cualquiera, por ejemplo, la media , la
varianza 2 , o la proporcion poblacional . Seleccionamos una funcion de las variables
aleatorias muestrales X1 , X2 , ..., Xn , que la denotaremos por = g(X1 , X2 , ..., Xn ) y la
utilizaremos para obtener la inferencia sobre el valor del parametro .
Las inferencias sobre el valor de un parametro poblacional se pueden obtener
basicamente de dos maneras: a partir de estimaci
on o bien a partir de la prueba de
hip
otesis.

En la estimaci
on, basta seleccionar un estadstico muestral cuyo valor se
utilizara como estimador del valor del parametro poblacional.
En la prueba de hip
otesis, se hace una hipotesis sobre el valor del parametro
y se utiliza la informacion proporcionada por la muestra para decidir si la
hipotesis se acepta o no.


2.2. ESTIMACION

59

Ambos metodos de inferencia estadstica utilizan las mismas relaciones teoricas


entre resultados muestrales y valores poblacionales. As pues, una muestra es sacada
de la poblacion y un estadstico muestral es utilizado para hacer inferencias sobre
el parametro poblacional. En estimacion, la informacion muestral es utilizada para
estimar el valor del parametro . En la prueba de hipotesis, primero se formula la
hipotesis sobre el valor de y la informacion muestral se utiliza para decidir si la
hipotesis formulada debera ser o no rechazada.
En este captulo nos ocuparemos de la estimacion estadstica y dejaremos para el
captulo siguiente la prueba de hipotesis.

2.2.

Estimaci
on

La estimacion estadstica se divide en dos grandes grupos: la estimaci


on puntual
y la estimaci
on por intervalos.
La estimaci
on puntual consiste en obtener un u
nico n
umero, calculado a partir
de las observaciones muestrales, que es utilizado como estimacion del valor del
parametro . Se le llama estimacion puntual porque a ese n
umero, que se utiliza
como estimacion del parametro , se le puede asignar un punto sobre la recta
real.
En la estimaci
on por intervalos se obtienen dos puntos (un extremo inferior
y un extremo superior) que denen un intervalo sobre la recta real, el cual
contendra con cierta seguridad el valor del parametro .
Por ejemplo, si el parametro poblacional es el salario promedio de los habitantes del
Municipio Libertador del Estado Merida, basandonos en la informacion proporcionada


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

60

por una muestra podramos obtener una estimacion puntual del parametro , que lo
denotaremos por
;
= 1250 BsF, sin embargo, el intervalo de estimacion para sera
de la forma (1200, 1300), es decir, de 1200 BsF a 1300 BsF, con un cierto margen de
seguridad.

2.2.1.

Estimaci
on Puntual

Consideremos una poblacion con funcion de distribucion es F (x; ), donde es


el parametro poblacional desconocido que toma valores en el espacio parametrico .
Sea X1 , X2 , ..., Xn una muestra aleatoria extrada de dicha poblacion. El estimador
puntual o simplemente estimador del parametro poblacional es una funcion
de las variables aleatorias u observaciones muestrales y se representa por =
g(X1 , X2 , ..., Xn ).
Para una realizacion particular de la muestra x1 , x2 , ..., xn se obtiene un valor
especco del estimador que recibe el nombre de estimacion del parametro poblacional
y lo denotaremos por = g(x1 , x2 , ..., xn )
Vemos pues que existe diferencia entre estimador y estimacion. Utilizaremos el
termino estimador cuando nos referimos a la funcion de las variables aleatorias
muestrales X1 , X2 , ..., Xn , y los valores que toma la funcion estimador para las diferentes
realizaciones o muestras concretas seran las estimaciones.
El estimador es un estadstico y, por tanto, una variable aleatoria y el valor de
esta variable aleatoria para una muestra concreta x1 , x2 , ..., xn sera la estimacion
puntual. Ademas como vimos antes, por ser el estimador un estadstico este tiene
una distribucion de probabilidad que es la distribucion muestral del estadstico.
Para claricar la diferencia entre estimador y estimacion consideremos el siguiente
ejemplo: supongamos que pretendemos estimar la renta media de todas las familias de


2.2. ESTIMACION

61

una ciudad, para ello parece logico utilizar como estimador de la media poblacional la
siendo necesario seleccionar una muestra aleatoria que supondremos
media muestral X
de tama
no n = 80, a partir de la cual obtendramos la renta media de la muestra, por

ejemplo, x = 1500 BsF. Entonces el estimador de la media poblacional sera,


= X,
y la estimacion puntual sera
es decir, el estadstico media muestral X
= x = 1500
la variable aleatoria media muestral de las
BsF. Observemos que designamos por X
variables aleatorias muestrales X1 , X2 , , .., Xn , y por x designamos una realizacion para
una muestra especca x1 , x2 , , .., xn , que nos da la correspondiente estimacion puntual
del parametro , es decir,
= x.
Un problema que se consigue un estadstico es que pueden existir varios estimadores
para un parametro, lo que trae como consecuencia que el estadstico tenga que
seleccionar entre ellos el mejor. Una manera de hacer esta eleccion es basandose en
las propiedades deseables que un buen estimador debera tener. Veamos a continuacion
brevemente algunas propiedades que un buen estimados debe poseer.
Propiedades de un Estimador Puntual
1. Insesgado. El estadstico = g(X1 , ..., Xn ) es un estimador insesgado del
parametro , si la esperanza matematica del estimador es igual al parametro ,
esto es:
=
E()

(2.1)

para todos los valores de .


es un estimador insesgado de , pues
Es facil ver que la media muestral X
= . Se deja como ejercicio probar que la varianza muestral dada como
E(X)
n

(xi x)2
S 2 =

i=1
n

no es insesgados y que la varianza muestral dada como


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

62
n

S2 =

(xi x)2

i=1
n1

si es insesgado.

2. Eciente. En algunas situaciones podemos conseguirnos el caso en que dos


estimadores que tenemos a disposicion sean insesgados. En ese caso debemos
recurrir a otra propiedad que permita diferenciar a dichos estimadores. Una
opcion seria medir sus eciencias. Un estimador 1 es mas eciente que otro
estimador 2 si la varianza del primero es menor que la varianza del segundo.
Este criterio parece ser un concepto intuitivamente claro. Evidentemente cuanto
mas peque
na es la varianza de un estimador, mas concentrada esta la distribucion
del estimador alrededor del parametro que se estima y, por lo tanto, es mejor.
La mejor ilustracion de la eciencia es los estimadores es la estimacion de por la
media y la mediana muestrales. Si la poblacion esta distribuida simetricamente,
entonces tanto la media muestral como la mediana muestral son estimadores
insesgados de . Sin embargo podemos decir que la media muestral es mejor que
la media muestral como un estimador de , ya que V (
x) =

2
n

y V (M ed) =

1,57076 n , es decir, la media muestral es mas eciente que la mediana pues


V (
x) < V (M ed). As, concluimos que la media muestral es mejor estimador
que la mediana muestral como un estimador de .
3. Consistente. Hasta ahora hemos considerado propiedades de los estimadores
puntuales basados en muestras aleatorias de tama
no n, pero parece logico esperar
que un estimador sera tanto mejor cuanto mayor sea el tama
no de la muestra.
As pues cuando el tama
no de la muestra aumenta y por tanto la informacion
que nos proporciona esa muestra es mas completa, resulta que la varianza del
estimador suele ser menor y la distribucion muestral de ese estimador tendera a


2.2. ESTIMACION

63

encontrarse mas concentrada alrededor del parametro que pretendemos estimar.


Por lo tanto diremos que un estimador insesgado es consistente si su varianza
tiende a disminuir a medida que el tama
no de la muestra aumenta. Es decir:

0 cuando n
V ()

es un estimador consistente, pues V (X)


=
Es facil ver que X

(2.2)

2
n

lo cual tiende a

cero cuando n es muy grande.

4. Suciente. Una expresion matematica de esta u


ltima propiedad deseable, es
bastante complicada. Por fortuna, encontramos que este concepto implica un
signicado intuitivo preciso. Se dice que un estimador es suciente si toda la
informacion que contiene la muestra sobre el parametro esta contenida en el
estimador. El signicado de la suciencia reside en el hecho de que si existe
un estimador suciente, es absolutamente innecesario considerar cualquier otro
p, S 2 , X
y p son estimadores
estimador. Puede mencionarse ahora que X,
sucientes de los parametros , , 2 , y .

Estimadores de Par
ametros usados en este curso

En la siguiente tabla se muestran los mejores estimadores de los parametros


mas usuales. Dichos estimadores son insesgados, consistentes, ecientes y sucientes.
Ademas se muestra su valor esperado y la varianza.


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

64

E()

Par
ametro () Estimador ()

2
2

S
2

2.3.

V ()
2
n
(1)
n
12
n1
1 (11 )
n1

+
+

22
n2
2 (12 )
n2

Estimaci
on por Intervalo

En la seccion anterior, nos hemos ocupado de denir los estimadores puntuales y


als propiedades que estos deben poseer. Veamos que los estimadores eran funciones
de las observaciones muestrales, y cuando se calcula el valor del estimador ;para una
muestra concreta entonces se tiene la estimacion puntual; valor que generalmente diere
del verdadero valor del parametro y, en consecuencia, no nos proporciona suciente
informacion sobre el parametro, siendo entonces deseable el acompa
nar a la estimacion
del parametro , de alguna medida decl posible error asociado a esta estimacion. Es
decir, asociado a cada estimacion del parametro daremos un intervalo:

[1 (X1 , ..., Xn ); 2 (X1 , ..., Xn )]

y una medida que nos reeje la conanza que tenemos acerca de que el verdadero
valor del parametro se encuentre dentro del intervalo.
Observemos que los extremos del intervalo variaran de manera aleatoria de una
muestra a otra, pues dependen de las observaciones de la muestra, luego tanto los
extremos del intervalo como la longitud del intervalo seran cantidades aleatorias y,
por tanto, no podremos saber con seguridad si el valor del parametro se encuentre
dentro del intervalo obtenido cuando se selecciona una sola muestra. El objetivo que

POR INTERVALO
2.3. ESTIMACION

65

se pretende con los intervalos de conanza es obtener un intervalo de poca amplitud y


con una alta probabilidad de que el parametro se encuentra en su interior. As pues,
elegiremos probabilidades cercanas a la unidad, que se representan por 1 y cuyos
valores mas frecuentes suelen ser 0,90, 0,95 y 0,99.
Luego si deseamos obtener una estimacion por intervalo del parametro poblacional
desconocido, tendremos que obtener dos estadsticos 1 (X1 , ..., Xn ) y 2 (X1 , ..., Xn )
que nos daran los valores extremos del intervalo, tales que

P [1 (X1 , ..., Xn ) 2 (X1 , ..., Xn )] = 1

(2.3)

Al valor 1 se le conoce como coeciente de conanza y al valor 100(1 ) % se


le llama nivel de conanza.
Observando el intervalo dado en la expresion 2.3 se pone de maniesto:
1. Que se trata de un intervalo aleatorio, pues los extremos dependen de la muestra
seleccionada y, por tanto, 1 y 2 son variables aleatorias.
2. Que el parametro es desconocido.
3. En consecuencia y antes de seleccionar una muestra no podemos decir que la
probabilidad de que el parametro tome alg
un valor en el intervalo (1 , 2 ) es
igual a 1 , armacion que no sera correcta despues de seleccionar la muestra.
Para una muestra concreta se tendran unos valores:

1 (x, ..., xn ) = a

2 (x, ..., xn ) = b

y no podemos armar que


P [a b] = 1


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

66

ya que no tiene sentido alguno, pues a, b y son tres valores constantes. Sin embargo,
una vez seleccionada la muestra y calculados, los valores de a y b si tiene sentido decir
que
La probabilidad es 1 si [a, b]
La probabilidad es 0 si
/ [a, b]
Luego, no podemos referirnos a la probabilidad del intervalo numerico sino que nos
referiremos al coeciente de conanza del intervalo, y en consecuencia al nivel de
conanza del intervalo, pues la probabilidad ya hemos indicado que, despues de extrada
la muestra, sera 1 o cero.
Para precisar mas sobre la interpretacion del intervalo de conanza, consideramos
un n
umero grande de muestras del mismo tama
no y calculamos los lmites inferior y
superior para cada muestra, es decir a y b, entonces se obtendra que aproximadamente
en el 100(1 ) % de los intervalos resultantes estara en su interior el valor del
parametro , y en el 100 % restante no estara en su interes el valor del parametro
, y en consecuencia al intervalo (a, b) se le llama intervalo de conanza al nivel de
conanza del 100(1 ) %. Es decir, si tomamos 100 muestras aleatorias de tama
no n
de la misma poblacion y calculamos los lmites de conanza 6 y 8 para cada muestra,
entonces esperamos que aproximadamente el 95 % de los intervalos contendran en su
interior el verdadero valor del parametro p, y el 5 % restante no lo contendran. Pero
como nosotros, en la practica, solo tomamos una muestra aleatoria y, por tanto, solo
tendremos un intervalo de conanza, no conocemos si nuestro intervalo es uno del 95 %
o uno del 5 %, y por eso hablamos de que tenemos un nivel de conanza del 95 %.
La precision de la estimacion por intervalos vendra caracterizada por el coeciente
de conanza 1 y por la amplitud del intervalo. As pues, para un coeciente

POR INTERVALO
2.3. ESTIMACION

67

de conanza jo, cuanto mas peque


nos sea el intervalo de conanza mas precisa
sera la estimacion, o bien para una misma amplitud del intervalo, cuanto mayor sea el
coeciente de conanza mayor sera la precision.

2.3.1.

M
etodos de construcci
on de intervalos de conanza

Basicamente existen dos metodos para la obtencion de intervalos de conanza de


parametros. El primero, el metodo pivotal o metodo del pivote basado en la posibilidad
de obtener una funcion del parametro desconocido y cuya distribucion muestral no
dependa del parametro. El segundo, el metodo general de Neyman, esta basado en la
distribucion de un estimador puntual del parametro. En este curso solo construiremos
intervalos de conanza con el metodo de la cantidad pivotal.
M
etodo de la cantidad pivotal
Antes de ver en que consiste el metodo tenemos que denir cantidad pivotal.
Denici
on 2.1 (Cantidad Pivotal) Una cantidad pivotal o pivote, es una funcion
de las observaciones muestrales y del par
ametro , T (X1 , ..., Xn ; ), cuya distribucion
muestral no depende del parametro .
A continuacion se presentan algunos ejemplos de cantidad pivotal.
1. Z =

barX
barX

es una cantidad pivotal ya que depende de la muestra a traves de

barX y del parametro , cuya distribucion es la normal estandar, la cual no


depende del valor de .
2. W =

(n1)S 2
2

es una cantidad pivotal ya que depende de la muestra a traves de

S 2 y de 2 , cuya distribucion es la chi-cuadrado, la cual no depende del valor de


2.


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

68
3. T =

X
X

es una cantidad pivotal ya que depende de la muestra a traves de

y del parametro , cuya distribucion es la t-student, la cual no depende


X
del valor de .
Ahora que sabemos que es una cantidad pivotal, vemos en que consiste el metodo
de la cantidad pivotal.
1. Denir una cantidad pivotal
2. Como la distribucion de la cantidad pivotal es conocida, dada un nivel de
conanza, se hallan los valores de a y b tales que P (a T (X1 , ..., Xn ; )
b) = 1
3. Como T (X1 , ..., Xn ; ) es una funcion del parametro, se despeja de la desigualdad
dicho valor, con lo cual se obtiene el intervalo de conanza del parametro deseado.

2.3.2.

Intervalos de conanza en poblaciones normales

En esta seccion consideramos que la poblacion sera normal y obtendremos intervalos


de conanza para los parametros poblaciones en el caso de una muestra y de dos
muestras. Aplicaremos el metodo pivotal, pues en estos casos no existe gran dicultad
para obtener una funcion del parametro desconocido cuya distribucion muestral no
dependa del parametro.
1. Intervalo de conanza para la media de una poblaci
on normal
Sea x1 , x2 , ..., xn una muestra aleatoria extrada de una poblacion N (, 2 ), con
desconocido y 2 puede ser o no conocida. Estamos interesados en hallar un
intervalo de conanza para al nivel de conanza 1 . Como 2 puede ser o
no conocida, veamos cada caso por separado.

POR INTERVALO
2.3. ESTIMACION

69

a) 2 es conocida. En principio debemos encontrar un estadstico (cantidad


pivotal o pivote) que dependa del parametro y de su estimador y cuya
distribucion muestral no dependa del parametro . En este caso el estadstico
sera:
Z=

/ n

que se distribuye seg


un una N (0, 1).

Ahora, utilizando la tabla de la distribucion N (0, l), podemos encontrar dos


valores Z/2 y Z1/2 , (la seleccion de estos dos valores garantiza que la
amplitud del intervalo sea mnima) tales que:

P (Z/2 Z Z1/2 ) = 1

de donde se tiene que


(
)

X
Z1/2 = 1
P Z/2
/ n

multiplicando por / n
(
)

Z1/2
P Z/2 X
=1
n
n

restando X
(
)

+ Z/2 X
+ Z1/2
P X
=1
n
n

(2.4)

70

CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION


Multiplicando por -1
)
(

=1
P X Z/2 X Z1/2
n
n
que es equivalente a
(
)

P X Z1/2 X Z/2
=1
n
n
como Z/2 = Z1/2 se tiene
(
)

Z1/2 X
+ Z1/2
P X
=1
n
n

Por lo tanto, el intervalo de conanza para la media de una poblacion


N (, 2 ) con 2 conocida es:

x Z1/2 ; x + Z1/2
n
n

]
(2.5)

Ejemplo 2.1 De una poblaci


on N (, 9) se selecciona una muestra aleatoria
cuya media es 25. Obtener un intervalo de confianza para la media
poblacional . Cuando el tama
no de la muestra es n = 16 y el nivel de
confianza es del 95 %. El intervalo de confianza se obtiene al usar la ecuacion
2.5, donde x = 25, n = 16 y 1 = 0,95, de este ultimo dato se tiene que:

Z1/2 = Z0,975 = 1,96

POR INTERVALO
2.3. ESTIMACION

71

Por lo tanto, el intervalo de conanza es


[

3
3
25 1,96 ; 25 1,96
16
16

[23,53; 26,47]
b) 2 es desconocida. Cuando la varianza poblaciones es desconocida
debemos tomar en cuenta el tama
no de la muestra. Se el tama
no de la
muestra es mayor o igual que 30 seguimos usando el intervalo de conanza
de la ecuacion 2.5. Si el tama
no de la muestra es menor que 30, usamos el
siguiente estadstico como cantidad pivotal

T =

S/ n

que se distribuye seg


un una t-student con n 1 grados de libertad.
Ahora, utilizando la tabla de la distribucion t-student, podemos encontrar
dos valores t/2 y t1/2 , (la seleccion de estos dos valores garantiza que la
amplitud del intervalo sea mnima) tales que:

P (t/2 T t1/2 ) = 1

(2.6)

Procediendo de igual manera al caso anterior se tiene que el intervalo de


conanza con un nivel de conanza 1 para con 2 desconocido es
[

S
S
x t1/2 ; x + t1/2
n
n

]
(2.7)

Ejemplo 2.2 Un fabricante de una determinada marca de vehculos de lujo

72

CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION


sabe que el consumo de gasolina de sus vehculos se distribuye normalmente.
Se selecciona una muestra aleatoria de 6 carros y se observa el consumo
cada 100 km, obteniendo las siguientes observaciones Obtener el intervalo
de confianza para el consumo medio de gasolina de todos los vehculos de
esa marca, a un nivel de confianza del 90 %.
Con los datos de la muestra obtenemos la media y la varianza muestral, los
cuales son x = 19,48 y S 2 = 1,12. El intervalo de confianza para la media
poblacional cuando 2 es desconocida tiene la forma dada por la expresion
2.7, donde x = 19,48, S 2 = 1,06, n = 6 y 1 = 0,90, de este ultimo dato
se tiene que:
T1/2 = T0,95 = 2,015
Por lo tanto, el intervalo de confianza es
[

1,06
1,06
19,48 2,015 ; 19,48 + 2,015
6
6

[18,61; 20,35]
2. Intervalo de conanza para la varianza de una poblaci
on normal
Cuando se realizan inferencia sobre la varianza de una poblacion normal se debe
tomar en consideracion si la media poblacional es o no conocida.
a) es desconocida Supongamos una poblacion N (, 2 ), en donde y 2 son
desconocidos y deseamos obtener un intervalo de conanza para la varianza
poblacional 2 al nivel de conanza del 100(1 ) %. Para ello tomamos
una muestra aleatoria de tama
no n, (X,, ..., X,) y utilizaremos un estadstico
(cantidad pivotal o pivote) que dependa del parametro 2 y de su estimador

POR INTERVALO
2.3. ESTIMACION

73

y cuya distribucion muestral no dependa de los parametros desconocidos.


Ese estadstico sera:
W =

(n 1)S 2
2

el cual se distribuye seg


un una chi-cuadrado con n 1 grados de libertad,
2n1 , siendo S 2 la varianza muestral.

Ahora, utilizando la tabla de la distribucion chi-cuadrado, podemos


encontrar dos valores 2/2 y 21/2 , (la seleccion de estos dos valores
garantiza que la amplitud del intervalo sea mnima) tales que:

P (2n1,/2 W 2n1,1/2 ) = 1

de donde se tiene que


(
)
(n 1)S 2
2
2
P n1,/2
n1,1/2 = 1
2
dividiendo por (n 1)S 2
(
P

2n1,1/2
1
2
(n 1)S 2

(n 1)S 2
2n1,/2

)
=1

Reordenando esta expresion se tiene


(
P

(n 1)S
(n 1)S
2 2
2
n1,1/2
n1,/2
2

)
=1

(2.8)


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

74

y el intervalo de conanza para 2 al nivel de conanza del (1 ) % sera:


[

(n 1)S 2 (n 1)S 2
;
2n1,1/2 2n1,/2

]
(2.9)

b) es conocida En este caso tal estadstico (cantidad pivotal o pivote) que


dependa del parametro 2 y cuya distribucion muestral no dependa de 2
sera:

W =

(Xi )2

i=1

el cual se distribuye seg


un una chi-cuadrado con n grados de libertad, 2n ,
pues al ser la media conocida no hay que estimarla y el n
umero de grados
de libertad es n.

Razonando analogamente al caso anterior, en donde era desconocida,


llegamos a obtener el intervalo de conanza:

n
n

2
2
(Xi )
(Xi )

i=1
i=1

;
2

2
n,/2

n,1/2

(2.10)

Ejemplo 2.3 El precio de un determinado artculo perecedero en los


comercios de alimentacion de una ciudad sigue una distribucion normal.
Se toma una muestra aleatoria de 8 comercios y se observa el precio de ese
artculo, obteniendo las siguientes observaciones:

135, 125, 130, 139, 126, 138, 124, 140

POR INTERVALO
2.3. ESTIMACION

75

Obtener al nivel de confianza del 95 %.


a) Un intervalo de confianza para la media poblacional.
b) Un intervalo de confianza para la varianza poblacional.
A partir de las observaciones muestrales obtenemos que x = 131,75 y
S 2 = 43,07
a) El intervalo de confianza para la media poblacional cuando 2 es
desconocido y 1 = 0,95 viene dado por:
[

6,56
6,56
131,75 2,365 ; 131,75 + 2,365
8
8

[126,25; 137,23]
b) El intervalo de confianza para la varianza poblacional cuando es
desconocido y 1 = 0,95 viene dado por:
[

(n 1)S 2 (n 1)S 2
;
2n1,1/2 2n1,/2

(8 1)43,07 (8 1)43,07
;
27,0,975
27,0,025

donde 27,0,975 = 16,015 y 27,0,025 = 1,690, por lo tanto el intervalo de


confianza es

(7)43,07 (7)43,07
;
16,015
1,690

[18,83; 178,39]
3. Intervalo de conanza para la diferencia de medias en poblaciones
normales: Muestras independientes

76

CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION


Sean X11 , X12 , ..., X1n1 y X21 , X22 , ..., X2n2 dos muestra aleatorias independientes
extradas de poblaciones normales, N (1 , 12 ) y N (1 , 12 ), respectivamente.
Estamos interesados en hallar un intervalo de conanza del 100(1 ) % para la
diferencia de medias entre las dos poblaciones, . Para hallar dicho intervalo de
conanza debemos considerar si las varianzas poblacionales son o no conocidas.

a) Varianzas conocidas En este caso el estadstico (cantidad pivotal o pivote)


y cuya distribucion
que depende del parametro y de su estimador X
muestral no depende del parametro es:

Z=


X
X

que se distribuye seg


un una N (0, 1), donde X =

12
n1

22
.
n2

Procediendo de manera analoga al caso de una poblacion, se tiene que el


intervalo de conanza es
[
]
Z1/2 X ; X
+ Z1/2 X
X

(2.11)

b) Varianzas desconocidas Cuando las varianzas son desconocidas debemos


tomar en cuenta los tama
nos de las muestras. Si los tama
nos de muestras
son mayores que 30, el intervalo de conanza es el de la ecuacion 2.11. Por el
contario si los tama
nos de las muestras son menores que 30, debemos estudiar
por separado el supuesto de que las varianzas sean iguales o diferentes.
1) Suponiendo varianzas iguales. Teniendo en cuenta los resultados
obtenidos en el captulo de distribuciones muestrales, se tiene que una

POR INTERVALO
2.3. ESTIMACION

77

cantidad pivotal es
T =


X
SX

que se distribuye seg


un una t-student con v grados de libertad, donde

SX =

(n1 1)S12 + (n2 1)S22


n1 + n2 2

1
1
+
n1 n2

v = n1 + n2 2
Por lo tanto, el intervalo de conanza es
[
]
tv,1/2 SX ; X
+ tv,1/2 SX
X

(2.12)

2) Suponiendo varianzas diferentes. Si las varianzas se suponen


diferentes el estadstico sigue siendo el mismo, pero en este caso

S12 S22
+
n1
n2

SX =
S2

v=

S22 2
)
n2
(S 2 /n )2
+ n22 12

( n11 +
(S12 /n1 )2
n1 1

Por lo tanto, el intervalo de conanza es


[
]
tv,1/2 SX ; X
+ tv,1/2 SX
X

(2.13)

4. Intervalo de conanza para la diferencia de medias en poblaciones


normales: Muestras dependientes
Ahora tratamos construiremos un intervalo de conanza para la diferencia


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

78

de dos medias cuando las muestras extradas de las poblaciones normales no


son independientes y las varianzas poblacionales no tienen porque ser iguales.
Es decir, supongamos que obtenemos una muestra aleatoria de n pares de
observaciones (X1 , Y1 )...(Xn , Yn ) de poblaciones normales con medias X y Y , en
donde (X1 , ..., Xn ) indica la muestra de la poblacion con media X , y (Y1 , ..., Yn )
indica la muestra de la poblacion con media Y .
En este caso podemos reducir la informacion a una sola muestra (D1 , ..., Dn ) en
donde:
Di = Xi Yi

i = 1, 2, ..., n

y por las propiedades de la distribucion normal, esta muestra (D1 , ..., Dn )


procedera tambien de una poblacion normal de media:

D = E(D) = E(X Y ) = E(X) E(Y ) = X Y


2
y varianza desconocida D
.
2
La varianza poblacional, D
, se puede estimar por la varianza muestral Sd2 que

sera la varianza de las diferencias que constituyen la muestra:


1
2
(Di D)
n 1 i=1
n

Sd2 =

siendo

= 1
D
Di
n i=1
n

Un estimador puntual de la media poblacional de las diferencias, D , viene dado

por D.

POR INTERVALO
2.3. ESTIMACION

79

Como la varianza poblacional es desconocida y pretendemos obtener un intervalo


de conanza, al nivel de conanza del 100(1 ) %, para D procederemos de
manera analoga al cuando se busco el intervalo de conanza para la media de una
poblacion normal cuando 2 era desconocida. As pues, buscaremos un estadstico
(cantidad pivotal o pivote) que depende del parametro D y de su estimador
y cuya distribucion muestral no depende de los parametros desconocidos. Ese
estadstico es:
T =

D
D
SD

que se distribuye seg


un una t-student con n 1 grados de libertad, donde
SD =

Sd

.
n

Por lo tanto, el intervalo de conanza es


[

Sd
Sd
t(n1),1/2
D
; D + t(n1),1/2
n
n

]
(2.14)

Ejemplo 2.4 La tabla siguiente muestra el consumo de gasolina por 1.000 km


de una muestra aleatoria de 9 carros con dos carburantes X e Y . Si admitimos
que los consumos de gasolina se distribuyen normalmente, obtener un intervalo
de confianza al nivel de confianza del 99 % para la diferencia de las medias
poblacionales.

De la tabla ?? obtenemos que d = 2 y Sd2 = 26,75. Por lo tanto el intervalo de


confianza usando la ecuaci
on 2.4 es
[

5,17
5,17
2 t8,0,995 ; 2 + t8,0,005
9
9


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

80

Tabla 2.1: Consumo de gasolina por 1000 km, para los modelos X e Y

1
2
3
4
5
6
7
8
9

Modelo X
132
139
126
114
122
132
142
119
126

Modelo Y
124
141
118
116
114
132
145
123
121

Diferencias di
8
-2
8
-2
8
0
-3
-4
5

d2i
64
4
64
4
64
0
9
16
25

como t8,0,995 = 3,355 se tiene que el intervalo de confianza es

[3,781; 7,781]

5. Intervalo de conanza para el cociente de varianzas en poblaciones


normales Sean X11 , X12 , ..., X1n1 y X21 , X22 , ..., X2n2 dos muestra aleatorias
independientes extradas de poblaciones normales, N (1 , 12 ) y N (1 , 12 ),
respectivamente, cuyas varianzas son desconocidas y las medias pueden ser
o no conocidas. Estamos interesados en hallar un intervalo de conanza del
100(1 ) % para el cociente de as varianzas entre las dos poblaciones,

12
.
22

Para

hallar dicho intervalo de conanza debemos considerar si las medias poblacionales


son o no conocidas.
a) Medias desconocidas Teniendo en cuenta la seccion del captulo anterior
, en donde estudiamos la distribucion del cociente de varianzas cuando las
medias poblacionales eran desconocidas, entonces, aqu podemos utilizar
como estadstico (cantidad pivotal o pivote) que dependa de los parametros

POR INTERVALO
2.3. ESTIMACION

81

desconocidos
sigma21 y 22 y de sus estimadores y cuya distribucion muestral no dependa
de los parametros, el estadstico:

F =

(n1 1)S12
/n1
12
(n2 1)S22
22

/n2 1

S12 22
S22 12

el cual se distribuye F con n1 1 y n2 1 grados de libertad, Fn1 1,n2 1 ,

Ahora, utilizando la tabla de la distribucion F , podemos encontrar dos


valores F/2;n1 1,n2 1 y F1/2;n1 1,n2 1 , (la seleccion de estos dos valores
garantiza que la amplitud del intervalo sea mnima) tales que:

P (F/2;n1 1,n2 1 F F1/2;n1 1,n2 1 ) = 1

(2.15)

de donde se tiene que


(
)
S12 22
P F/2;n1 1,n2 1 2 2 F1/2;n1 1,n2 1 = 1
S2 1
multiplicando por
(
P

S22
S12

22
S22
S22
F

F1/2;n1 1,n2 1
/2;n1 1,n2 1
S12
12
S12

)
=1

Invirtiendo cada termino y cambiando el orden de la desigualdad de tiene


(
P

S12
1
S12
1
12

2
2
2
S2 F1/2;n1 1,n2 1
2
S2 F/2;n1 1,n2 1

)
=1


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

82

y el intervalo de conanza para


[

12
22

al nivel de conanza del (1 ) % sera:

S12
1
S12
1
;
2
2
S2 F1/2;n1 1,n2 1 S2 F/2;n1 1,n2 1

]
(2.16)

b) Medias conocidas
En este caso usamos como cantidad pivotal el estadstico

F =

(n1 )S12
/n1
12
(n2 )S22
/n2
22

S12 22
S22 12

el cual se distribuye F con n1 y n2 grados de libertad, Fn1 1,n2 1 .


Procediendo de manera analoga al caso anterior obtenemos el siguiente
intervalo de conanza:
[

S12
1
S12
1
;
2
2
S2 F1/2;n1 ,n2 S2 F/2;n1 ,n2

]
(2.17)

donde
S12

n
1
=
(x1i 1 )2
n1 i=1

S22

n
1
=
(x2i 2 )2
n2 i=1

Ejemplo 2.5 Supongamos que la distribucion de las notas en la asignatura


de metodos estadsticos II sigue una distribucion normal en los dos grupos
existentes. Seleccionada una muestra aleatoria de 21 alumnos del primer
grupo y otra de 26 alumnos del segundo grupo, ambas independientes, se
obtiene como varianzas 1250 y 900, respectivamente. Obtener un intervalo de
confianza para el cociente de las varianzas poblacionales al nivel de confianza
del 90 %.

POR INTERVALO
2.3. ESTIMACION

83

Como las medias poblacionales son desconocidas utilizaremos la expresion


2.16 para hallar el intervalo de confianza. Donde n1 = 21, n2 = 26,
S12 = 1250 y S22 = 900. Usando la tabla F obtenemos que
F1/2;n1 1,n2 1 = F0,95;20,25 =

1
F0,05;20,25

= f alta

F/2;n1 1,n2 1 = F0,05;20,25 = f alta


Sustituyendo en la expresi
on del intervalo se tiene
[

1250
1
1250
1
;
900 F1/2;n1 1,n2 1 900 F/2;n1 1,n2 1

[0,69; 2,89]

2.3.3.

Intervalos de Conanza para muestras grandes

En la mayora de las situaciones practicas la distribucion de la poblacion resulta


ser desconocida o no es normal, en dicho caso no podramos utilizar directamente los
resultados obtenidos en la seccion anterior. Sin embargo, si el tama
no de la muestra es
sucientemente grande podemos utilizar el teorema central del limite para poder denir
la cantidad pivotal. Consideremos el caso del intervalo de conanza para la media.
Sea X1 , X2 , ..., Xn una muestra aleatoria sucientemente grande procedente de
una poblacion con distribucion desconocida y varianza 2 nita conocida y deseamos
obtener un intervalo de conanza al nivel del 100(1 ) % para la media, desconocida,
de la poblacion. Puesto que se cumplen las condiciones del Teorema Central del
Lmite, podemos decir que el estadstico

Z=

/ n

84

CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

se distribuye aproximadamente N (0, 1). Por lo tanto, dicho estadstico sera nuestra
cantidad pivotal, con el cual se tiene que
)
(

X
Z1/2 1
P Z/2
/ n
y de manera analoga a como procedamos anteriormente, llegaremos a que el
intervalo de conanza al nivel del 100(1 ) % sera:
[

x Z1/2 ; x + Z1/2
n
n

]
(2.18)

La diferencia con los intervalos obtenidos anteriormente es que aquellos eran exactos
y ahora son aproximados y solo son validos para muestras grandes, n > 30.
Cuando 2 es desconocida se toma como valor aproximado la varianza muestral S 2 ,
y se obtendra como intervalo de conanza:
[

S
S
x Z1/2 ; x + Z1/2
n
n

]
(2.19)

Expresiones analogas a las obtenidas anteriormente, se tendra para el caso de la


diferencia de medias poblacionales.

Ejemplo 2.6 De los examenes realizados a nivel nacional, se extrae una muestra de
75 ejercicios correspondientes a mujeres y otra de 50 ejercicios correspondientes a
hombres, siendo la calificacion media de la muestra de mujeres 82 puntos con una
desviacion tpica muestra1 de 8, mientras que para los hombres la calificaci
on media
fue de 78 con una desviacion tpica de 6. Obtener el intervalo de confianza al nivel
de confianza del 95 % para la diferencia de la puntuacion media de las mujeres y la
puntuacion media de los hombres.

POR INTERVALO
2.3. ESTIMACION

85

Como las muestras son suficientemente grandes, pues son mayores que 30 y las
poblaciones no son normales podemos obtener un intervalo de confianza aproximado
utilizando la expresion 2.11 en donde sustituimos las varianzas poblacionales por las
varianzas muestrales obteniendo el intervalo:
[
]
Z1/2 X ; X
+ Z1/2 X
X

De donde
x1 = 82, S1 = 8 y n1 = 75
x2 = 78, S= 6 y n2 = 50
Por lo tanto,

x = x1 x2 = 82 78 = 4

SX =

S12
n1

S22
n2

64
75

36
50

= 1,25

Sustituyendo en la expresion del intervalo tenemos:

[4 (1,96)(1,25); 4 + (1,96)(1,25)]

[1,55; 6,45]

2.3.4.

Intervalo de Conanza para Proporciones

Intervalo de Conanza para una Proporci


on
Sea una poblacion binomial B(1, ) y una muestra aleatoria de tama
no n de esa
poblacion, es decir realizamos n repeticiones del experimento de Bernoulli que estamos


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

86

considerando, y deseamos obtener un intervalo de conanza al nivel del 100(1 ) %


para el parametro poblacional . Solo vamos a considerar el caso en que los tama
nos
de muestras son grandes.
Como se vio antes el mejor estimador puntual de la proporcion poblacional, , es
la proporcion muestral, p. Ademas en el captulo anterior se demostro que de acuerdo
con el Teorema Central del Limite
)
(
(1 )
p N ,
n
Lo que nos permite decir que el estadstico
p
Z=
(1 )/n

(2.20)

se distribuye aproximadamente N (0, 1) cuando n es sucientemente grande.


En consecuencia este estadstico Z lo podemos utilizar como cantidad pivotal o
pivote, pues depende del parametro y de su estimador y su distribucion es independiente
del parametro , pues se trata de una N (0, 1). Por tanto, podremos obtener un intervalo
de conanza para el parametro al nivel del 100(1 ) % a partir de la expresion.
(
P

Z/2

p
(1 )/n

)
Z1/2

Multiplicando cada termino de la desigualdad por

=1
(1 )/n, restado despues p

a cada termino y multiplicando por - 1, se tiene:

(
)

P p Z/2 (1 )/n p + Z/2 (1 )/n = 1

(2.21)

POR INTERVALO
2.3. ESTIMACION

87

Pero los lmites de la expresion 2.21 dependen del parametro desconocido . Como
n es grande una solucion satisfactoria se obtiene sustituyendo por su estimacion p en
el lmite interior y en el lmite superior, resultando:

P p Z1/2 p(1 p)/n p + Z1/2 p(1 p)/n = 1

(2.22)

Luego el intervalo de conanza al nivel de conanza del 100(1 ) % para el


parametro sera:
[
)

p Z1/2 p(1 p)/n; p + Z1/2 p(1 p)/n ]

(2.23)

Ejemplo 2.7 Se selecciona una muestra aleatoria de 600 familias, a las cuales se
les pregunta si poseen o no computador personal en casa, resultando que 240 de esas
familias contestaron afirmativamente. Obtener un intervalo de confianza al nivel del
95 % para estimar la proporcion real de familias que poseen computador personal en
casa.
x
n

y para la muestra concreta de 600

240
600

= 0,40. Utilizando la Tabla de la

El estimador puntual de sabemos que es p =


familias la estimacion correspondiente sera p =

distribucion normal estandar se tiene que Z0,975 = 1,96. Sustituyendo en la expresion


C2.23 tendremos el intervalo de confianza pedido
[

0,40 1,96 0,40(1 0,40)/600; 0,40 + 1,96 0,40(1 0,40)/600


[0,36; 0,44]


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

88

Intervalo de Conanza para la Diferencia de Proporciones


Ahora estamos interesados en estimar la diferencia entre dos parametros poblacionales 1 y 2 , es decir queremos obtener un intervalo de conanza para la diferencia
= 1 2 de los dos parametros poblacionales. Para ello se seleccionan dos muestras aleatorias independientes de tama
no n1 y n2 , de cada una de las dos poblaciones
B(l, 1 ) y B(1, 2 ), respectivamente. Los estimadores puntuales de los parametros 1 y
2 son p1 y p2 . Pero a nosotros nos interesa el intervalo de conanza para la diferencia
= 1 2 , para lo cual utilizamos como estimador de esta diferencia, el estadstico
p = p1 p2 , cuya distribucion para muestras grandes (debido al teorea central del
limite) es aproximadamente normal, es decir,
(
)
1 (1 1 ) 2 (1 2 )
p N ,
+
n1
n2
Lo que nos permite decir que el estadstico

Z=

p
1 (11 )
n1

(2.24)

2 (12 )
n2

se distribuye aproximadamente N (0, 1) cuando n es sucientemente grande.


Por tanto, tambien podemos escribir

P Z/2

p
1 (11 )
n1

2 (12 )
n2

Z1/2 = 1

de donde llegaremos a
)
(
P p Z1/2 p p + Z1/2 p = 1

(2.25)

POR INTERVALO
2.3. ESTIMACION

89

donde

p =

1 (1 1 ) 2 (1 2 )
+
n1
n2

Pero los lmites de la expresion 2.25 dependen de los parametros desconocidos 1 y


2 . Como n1 y n2 son grandes una solucion satisfactoria se obtiene sustituyendo cada
por su estimacion p en el lmite interior y en el lmite superior, resultando:
(
)
P p Z1/2 Sp p + Z1/2 Sp 1
donde

Sp =

p1 (1 1 ) p2 (1 p2 )
+
n1
n2

Luego el intervalo de conanza al nivel de conanza del 100(1 ) % para el


parametro sera:
[
)
p Z1/2 Sp ; p + Z1/2 Sp ]

(2.26)

Ejemplo 2.8 En una ciudad A se toma una muestra aleatoria de 98 cabezas de familia,
de los cuales 48 han sido poseedores de acciones de CANTV. Mientras que en otra
ciudad B se selecciona otra muestra aleatoria de tama
no 127 cabezas de familia, de
los cuales 21 han sido poseedores de acciones de CANTV. Obtener un intervalo de
confianza al nivel del 95 % para la diferencia entre las proporciones de cabezas de familia
que han sido poseedores de ese tipo de acciones en ambas ciudades.
De la informacion del enunciado se deduce:
n1 = 98, x1 = 48, p1 =

48
98

= 0,49


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

90

n2 = 127, x2 = 21, p1 =

21
127

= 0,165

Para el nivel de confianza del 95 %, = 0,05, se tiene Z0,975 = 1,96. Adem


as

Sp =

0,49(1 0,49) 0,165(1 0,165)


+
= 0,118
98
127

Luego sustituyendo en la expresi


on 2.26 se tiene

[0,325 1,96 0,06; 0,325 + 1,96 0,06)]

[0,21; 0,44)]
Como el 0 esta fuera del rango del intervalo, esto nos indica que es bastante mas
probable que un cabeza de familia de la ciudad A haya tenido acciones de CANTV que
un cabeza de familia de la ciudad B.

2.4.

Ejercicios

1. Explique lo que signica margen de error en la estimacion puntual.


2. Cuales son las caractersticas del mejor estimador puntual para un parametro
poblacional?.
3. Calcule el margen de error al estimar una media poblacional para estos valores.
a) n = 30, 2 = 0,2
b) n = 30, 2 = 0,9
c) n = 30, 2 = 1,5

2.4. EJERCICIOS

91

Que efecto tiene una varianza poblacional mas grande en el margen de error?.
4. Una muestra aleatoria de 50 observaciones produjo x = 56,4 y s2 = 2,6. De la
mejor estimacion para la media poblacional y calcule el margen de error.
5. Estimaciones de la biomasa terrestre, la cantidad total de vegetacion que tienen
los bosques de la Tierra, son importantes para determinar la cantidad de dioxido
de carbono no absorbido que se espera permanezca en la atmosfera de la tierra.
Suponga que una muestra de 75 parcelas de 1 metro cuadrado, elegidas al azr en
los bosques de Merida, produjo una biomasa media de 4.2 kilogramos por metro
cuadrado, con una desviacion estandar de 1.5 kg/m2 . Cual es el mejor estimador
de la biomasa promedio?. Estime la biomasa promedio para los bosques de Merida
y el margen de error para su estimacion.
6. A la mayora de los habitantes de un pas les encanta participar, o por lo menos
ver, un evento deportivo. De una muestra de 1000 personas 780 respondieron que
si les gustaba participar o ver un deporte.
a) Identique el mejor estimador puntual para la proporcionan de personas que
si les gustaba participar o ver un deporte.
b) Encuentre una estimacion puntual para dicha proporcion y el margen del
error.
c) La encuesta produce un margen de error de mas o menos 3.1 %. Esto
concuerda con sus resultados del inciso b? Si no, que valor de p produce el
margen de error dado en la encuesta?.
7. Suponiendo que las poblaciones son normales, encuentre e interprete un intervalo
de conanza del 95 % para la media poblacional para estos valores

92

CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION


a) n = 36, x = 13,1, 2 = 3,42
b) n = 64, x = 2,73, s2 = 0,147
8. Encuentre e interprete un intervalo de conanza del 90 % para la media
poblacional para estos valores
a) n = 49, x = 11,5, s2 = 1,64
b) n = 64, x = 15, 2 = 9
9. Una muestra aleatoria de n = 300 observaciones de una poblacion binomial
produjo x = 263 exitos. Encuentre un intervalo de conanza del 90 % para la
proporcion e interprete el resultado.

10. Una maquina de cafe llena los vasos con vol


umenes distribuidos normalmente con
una desviacion estandar de 0.11 oz. Cuando se toma una muestra de 23 vasos,
se encuentra un volumen promedio de 7.85 oz. Estime el verdadero volumen
promedio, de llenado de los vasos con 95 % de conanza.
11. Treinta artculos seleccionados en la produccion tienen un costo medio de 180
Bs. Se conoce que la desviacion estandar de la poblacion es de 14 Bs. Cual es el
intervalo de conanza al 99 % que considere el verdadero costo medio?.
12. De un lote de 680 maquinas, se estudia una muestra de 72 computadoras de
cuarta generacion. Se desea conocer cual puede ser la duracion promedio de
un componente electronico en particular, si su vida promedio en la muestra
resulto ser de 4300 horas con desviacion estandar de 730 horas. Se requiere que
la estimacion proporcione una conanza del 90 %.

2.4. EJERCICIOS

93

13. Cuando un envasador nuevo se empezo a utilizar en una muestra de 40 envases,


se encontro que los frascos de 100 ml eran llenados en promedio con 96 ml con
desviacion estandar de 8 ml.
a) Estime entre cuantos mililitros esta la verdadera cantidad media envasada
con un nivel de conanza del 90 %.
b) Se podra garantizar que ninguno de los frascos contiene menos de 90 ml.?.
14. El departamento de carnes de una cadena de supermercados empaqueta la carne
molida en bandejas de dos tama
nos: una esta dise
nada para contener mas o menos
1 libra de carne, y la otra para casi 3 libras. Una muestra aleatoria de 35 paquetes
de las bandejas mas peque
nas produjo mediciones de peso con un promedio de
1.01 libras y una desviacion estandar de 0.18 libras.
a) Elabore un intervalo de conanza de 99 % para el peso promedio de los
paquetes que vende esta cadena de supermercados en las bandejas de carne
peque
nas.
b) Que signica la frase conanza de 99 %.
c) Suponga que el departamento de control de calidad de esta cadena de
supermercados piensa que la cantidad de carne molida en las bandejas
peque
nas debe ser en promedio 1 libra. Debe preocupar al departamento
de control de calidad el intervalo de conanza del inciso a? Explique.
15. Una muestra aleatoria de 130 temperaturas corporales humanas tuvo una media
de 98.25 grados y una desviacion estandar de 0.73 grados.
a) Construya un intervalo de conanza de 99 % para la temperatura corporal
promedio de personas sanas.


CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

94

b) El intervalo de conanza construido en el inciso a tiene el valor de 98.6


grados, la temperatura promedio usual citada por medicos y otrod? Si no es
as, que conclusiones obtiene?
16. Las especicaciones para una nueva aleacion de alta resistencia al calor establecen
que la cantidad de cobre en la aleacion debe ser menor del 23.2 %. Una muestra
de 10 analisis de un lote del producto presenta una media de contenido de cobre
de 23 % y una desviacion estandar de 0.24 %. Estime el contenido medio de cobre
en este lote, usando un intervalo de conanza del 90 % si se sabe que la cantidad
de cobre se distribuye normal.
17. Un muestreo aleatorio de n = 24 artculos en un supermercado presenta una
diferencia entre el valor real y el valor marcado en este. La media y la desviacion
estandar de las diferencias entre el precio real y el precio marcado en los 24
artculos son -37.14 y 6.42 respectivamente. Encuentre un intervalo de conanza
para la diferencia media entre el valor real y el marcado por artculo en ese
supermercado, suponiendo que dicha diferencia se distribuye normal. Use 1 =
0,05
18. La utilidad por cada auto nuevo vendido por vendedor vara de auto a auto y
se distribuye normal. La utilidad promedio por venta registrada en la semana
pasada fue ( en miles de bolvares ) 21, 30, 12, 62, 45, 51. Calcule un intervalo de
conanza del 90 % para la utilidad promedio por venta.
19. Un investigador, desea estimar la verdadera proporcion de amas de casa que
preeren la marca de detergente Ariel con un nivel de conanza del 95 %. Sabiendo
que de una muestra de 150 amas de casa la proporcion de amas de casa que les
gusta Ariel es 0.47.

2.4. EJERCICIOS

95

20. De entre 2000 piezas se eligen 75 y se encuentra que en 30 hay defectos. Calcule
un intervalo de conanza del 90 % para informar a la gerencia.
21. Se tomo una muestra aleatoria de 300 adultos, y 192 de ellos dijeron que siempre
votaban en las elecciones presidenciales.
a) Construya un intervalo de conanza de 95 % para la proporcion de
venezolanos que arman votar siempre en las elecciones presidenciales.
b) Una famosa encuestadora arma que este porcentaje es de 67 %. Con base
en el intervalo construido en el inciso a, estara en desacuerdo con este
porcentaje? Explique.
c) Se puede usar la estimacion del intervalo del inciso a para estimar la
proporcion real de venezolanos adultos que votan en la eleccion presidencial
de 2012? Por que s o por que no?.

96

CAPITULO 2. INFERENCIA ESTADISTICA: ESTIMACION

Captulo 3
An
alisis de Varianza
3.1.

Introducci
on.

Hasta el momento hemos realizado inferencias con respecto a un parametro


poblacional y a la comparacion de un parametro entre 2 poblaciones. Para ello
hemos usado la distribucion normal, t - student, Chi cuadrado y F. Por lo general,
existen situaciones en las que deseamos comparar un parametro entre tres o mas
poblaciones, como por ejemplo el salario promedio de los trabajadores en 5 estados
de Venezuela. En principio el investigador podra pensar en resolver este problema
haciendo comparaciones dos a dos y usar para ello la distribucion normal o la t - student,
seg
un sea el caso. Dicho procedimiento es inadecuado por las siguientes razones:
1. El procedimiento es muy largo, ya que hay que realizar tantas pruebas como
parejas de tratamientos existan. Por ejemplo, si se desea probar la igualdad
()
de 5 medias poblacionales, usando comparaciones dos a dos, existen 52 = 10
combinaciones posibles, es decir se tendran que realizar 10 pruebas de hipotesis,
usando en cada uno de los casos la distribucion normal o la t - student.
97


CAPITULO 3. ANALISIS
DE VARIANZA

98

2. No se puede generalizar para todas las medias poblacionales, la conclusion se


obtiene por parejas de medias poblacionales.
3. Existe una alta probabilidad de cometer error tipo I, debido a que cuando se
compara una media poblacional con cada una de las otras medias poblacionales
y se realiza una prueba para cada par de medias, es muy probable que se llegue
a concluir que existen diferencias signicativas para algunos pares cuando en
realidad no existe diferencia entre ellas. Por ejemplo, si la probabilidad de no
rechazar H0 en cada prueba es 1 = 0,95, entonces la probabilidad de aceptar
H0 en las 10 pruebas es (0,95)1 0 = 0,6 si las pruebas son independientes, y la
probabilidad de Rechazar H0 en las 10 pruebas ES 1 (0,95)10 = 0,4, el cual es
el error tipo I.
Por estas razones es necesario considerar un metodo que tome en consideracion
todas las medias al mismo tiempo. Una de las aplicaciones del analisis de varianza es
precisamente resolver este problema.

3.2.

Qu
e es el An
alisis de Varianza?

Denici
on 3.1 (An
alisis de Varianza) Es una tecnica estadstica que divide y
analiza la variabilidad total observada de una variable en porciones atribuibles a
distintos factores de interes para el investigador.
Para entender mejor la denicion veamos el siguiente ejemplo:
Ejemplo 3.1 Se desea estudiar el efecto que puedan tener 5 tipos de dietas en los
tiempo de coagulacion de la sangre extrada de 24 animales. El analisis de varianza

ES EL ANALISIS

3.2. QUE
DE VARIANZA?

99

supone que cualquier variacion que existe entre los promedios del tiempo de coagulacion
de la sangre se atribuye a:
1. Variacion de los tiempos de coagulaci
on dentro de las dietas.
2. Variacion debido a las dietas, esto es, debido a la composici
on de cada dieta.
La variacion dentro de cada dieta se debe, por supuesto, a diversas causas, tal
vez al tipo de sangre, a la presi
on, o cualquier otro elemento no tomado en cuenta.
De cualquier manera dicha variacion es considerada como una variacion al azar o
aleatoria. En cambio, la variacion debido a la dieta, es una variacion que no depende
de variables asociadas con el animal sino de la composici
on de la dieta. En este caso, el
an
alisis de varianza busca identificar cuanto de la variacion del tiempo de coagulacion
de la sangre se debe a la dieta y cuanto a otros elementos no tomados en cuenta .

3.2.1.

El An
alisis de Varianza en el Dise
no de Experimentos.

Cuando se esta realizando una investigacion el investigador puede bien sea observar
las caractersticas de los datos ya existentes (sin tener participacion en su generacion) o
imponer deliberadamente una o mas condiciones experimentales sobre los elementos en
estudio. En el segundo caso caso, se dice que el experimento fue dise
nado. El principal
proposito del dise
no de un experimento es reducir la variabilidad de las respuestas,
pues previamente se establecen las variables que se piensan inciden sobre el fenomeno
en estudio, as como sus posibles valores.
Algunos conceptos relacionados con el dise
no de experimentos.
Denici
on 3.2 (Variable dependiente o respuesta) Es la variable que nos interesa medir o respuesta que se va estudiar, para determinar el efecto que tiene sobre
ella la o las variables independientes.


CAPITULO 3. ANALISIS
DE VARIANZA

100

Denici
on 3.3 (Variables independientes o factores) Son las variables que pueden influenciar en la variabilidad de la variable respuesta. Estas son controladas completamente por el experimentador.
Denici
on 3.4 (Nivel del Factor) Es un valos de la variable independiente o
factor.
Denici
on 3.5 (Tratamiento) Es un nivel o una combinaci
on de dos o mas niveles
de un factor o factores.
Denici
on 3.6 (Unidad Experimental) Son los objetos sobre los cuales se aplican
los tratamientos para obtener una respuesta.
Denici
on 3.7 (Error Experimental) Es la variacion que no se puede atribuir a un
cambio de tratamiento, es decir, a la que se produce por los factores extra
nos que pueden
influir en la respuesta y que deben ser controlados o eliminados por el investigador.
Denici
on 3.8 (Aleatorizaci
on) Consiste en asignar en forma aleatoria los tratamientos a las unidades experimentales con el prop
osito de eliminar los sesgos que produce dicha asignacion.
Por lo general el dise
no de un experimento comprende:
1. La seleccion de los factores que deben incluirse en el experimento y la
especicacion del o los parametros de interes.
2. Decidir cuanta informacion se debe utilizar para estimar los parametros.
3. Seleccionar los tratamientos que deben utilizarse en el experimento y el n
umero
de unidades experimentales que deben asignarse a cada uno.

ES EL ANALISIS

3.2. QUE
DE VARIANZA?

101

4. Decidir como deben asignarse los tratamientos a las unidades experimentales.


Por lo tanto, dependiendo del n
umero de factores, seleccion de los tratamientos y
asignacion de los tratamientos a las unidades experimentales existen distintos tipos de
dise
nos de experimentos los cuales estudiaremos algunos de ellos mas adelante.
Una vez dise
nado y el experimento y recolectados los datos, interesa ver que factores
de los que tomaron en cuenta inuyen sobre la variable respuesta. Para ello se realiza el
analisis de varianza, el cual como se vio antes consiste en separar la variacion total en
cada uno de sus tratamientos y as determinar cual de ellos afecta signicativamente
la respuesta.

3.2.2.

Supuestos del An
alisis de Varianza

Independientemente del dise


no experimental usado para generar los datos, para que
el analisis de varianza tenga validez, se deben cumplir los siguientes supuestos:
1. Cada tratamiento representa una poblacion.
2. Normalidad: Las poblaciones de las que se extraen las muestras se distribuyen
normal.
3. Homocedasticidad: Las varianzas poblacionales son iguales.
4. Los errores aleatorios son independientes y se distribuyen normal con media cero
y varianza constante.
Cuando los tama
nos de muestras son grandes e iguales, el analisis de varianza
tiene la propiedad de ser robusta, es decir, la violacion de los supuestos no afecta
signicativamente los resultados. Seg
un Mendenhall, violar el supuesto de una varianza


CAPITULO 3. ANALISIS
DE VARIANZA

102

constante es mas grave, en particular cuando los tama


nos de las muestras no son casi
iguales.

3.3.
3.3.1.

Dise
no Completamente Aleatorizado (DCA)
Introducci
on

Denominado tambien dise


no de una forma o va de clasicacion. Es un dise
no u
til
para describir un experimento en el que se desean comparar k tratamientos (niveles de
un factor), donde las unidades experimentales son homogeneas y los tratamientos son
asignados en forma completamente aleatoria a estas unidades experimentales.
Supongase que tenemos N unidades experimentales homogeneas y k tratamientos.
Sean las N unidades experimentales particionadas aleatoriamente (con igual probabilidad) en k conjuntos de tama
no nj . Sean los k tratamientos asignados a los k
conjuntos de forma tal que el j-esimo tratamiento es aplicado a cada una de las unidades experimentales en el j-esimo conjunto. Este procedimiento dene un dise
no
completamente aleatorizado.
Dentro de las ventajas del dise
no completamente aleatorizado se encuentran:

1. Es completamente exible. Puede usarse con cualquier n


umero de tratamientos y
de replicas. El n
umero de replicaciones puede variar de tratamiento a tratamiento,
aunque esto no se debe hacer sin una buena razon, ya que si el dise
no es
balanceado (el mismo n
umero de replicas por tratamiento), la prueba estadstica
es relativamente insensible a peque
nas violaciones del supuesto de igualdad de
varianzas y por otro lado, la potencia del test esta maximizado si las muestras
son de igual tama
no.

COMPLETAMENTE ALEATORIZADO (DCA)


3.3. DISENO

103

2. El analisis estadstico es facil de llevar a cabo a


un si el dise
no no es balanceado,
si el error diere de tratamiento a tratamiento y si los diversos tratamientos
poseen varianzas distintas, lo cual se conoce como falta de homogeneidad
(heterogeneidad) del error experimental. Bajo estas condiciones, las pruebas de
hipotesis y la construccion del intervalo de conanza deben conducirse con un
cuidado especial cuando hay heterogeneidad de la varianza.
3. La sencillez del analisis no se pierde si algunas unidades experimentales o
tratamientos enteros faltan o se descartan. En este tipo de dise
no, la informacion
que se pierde debido a observaciones faltantes es mnima con relacion a la
sufrida por otros dise
nos. El n
umero de grados de libertad para estimar el
error experimental es maximo, lo que incide en un aumento en la precision
del experimento. Esto resulta signicativamente importante en experimentos
peque
nos, es decir, en aquellos en los que se cuenta con pocos grados de libertad
para el error experimental.

Como la aleatorizacion no tiene restricciones, el error experimental incluye toda


la variacion entre las unidades experimentales excepto, la debida a los tratamientos.
Esto representa la principal desventaja del dise
no completamente aleatorizado, lo cual
se traduce en ineciencia. En muchas situaciones es posible agrupar las unidades
experimentales de modo que la variacion entre las unidades de un mismo grupo sea
menor que la variacion entre las unidades de diferentes grupos. Ciertos dise
nos sacan
ventaja de tal agrupamiento, ya que excluyen la variacion del error experimental entre
grupos y aumentan la precision del experimento.
A pesar de lo expuesto anteriormente, la aleatorizacion completa resulta ser
el procedimiento obvio en muchos tipos de experimentos de laboratorio, en los


CAPITULO 3. ANALISIS
DE VARIANZA

104

que una cantidad de material esta completamente mezclada y luego se divide en


porciones peque
nas para formar las unidades experimentales a los cuales se asignan
los tratamientos en forma aleatoria o, en experimentos con animales y plantas con
condiciones ambientales muy parecidas.
Ejemplo 3.1 Supongamos que deseamos analizar el tiempo de coagulaci
on para
muestras de sangre tomadas de animales sometidos a cuatro diferentes drogas A, B, C
y D. Las drogas fueron aplicadas aleatoriamente a los animales. Queremos entonces,
medir el efecto de las drogas sobre el tiempo de coagulaci
on.

3.3.2.

El Modelo

La respuesta observada para cada tratamiento, Yij es una variable aleatoria que
puede ser expresada como la suma de dos componentes, a saber:
Un componente que mide la media de tratamientos
Un componente que representa al error aleatorio (termino de error aleatorio)
La media de los tratamientos muestra la inuencia de los tratamientos sonre la
variable respuesta y el error es una cantidad aleatoria que no puede predecirse con
anticipacion, pero cuyo valor esperado es igual a cero.
El modelo matematico apropiado para describir las observaciones, esta dada por:

Yij = j + ij

i = 1, 2, , nj
j = 1, 2, , k

donde:
Yij es la i-esima observacion del j-esimo tratamiento.

(3.1)

COMPLETAMENTE ALEATORIZADO (DCA)


3.3. DISENO

105

j es la media del j-esimo tratamiento


ij es el error aleatorio, los cuales se suponen N (0, 2 ) e independientes
El modelo estadstico propuesto en 3.1, describe dos situaciones diferentes con
respecto al efecto de los tratamientos.
Los k tratamientos pueden ser escogidos a criterio o conveniencia del investigador.
En esta situacion, se desea probar hipotesis sobre las medias de los tratamientos,
y las conclusiones solamente pueden ser aplicadas a los niveles del factor
(tratamientos) considerados en el analisis. Este modelo es llamado modelo de
efectos jos.
Si los k tratamientos constituyen una muestra aleatoria de la poblacion de
tratamientos, las conclusiones pueden extenderse a la poblacion de tratamientos.
Aqu los j son considerados variables aleatorias. En este caso, las hipotesis seran
acerca de la variabilidad de los j . Este modelo es llamado modelo de efectos
aleatorios o modelo de componentes de varianza
En este curso solo vamos a desarrollar el modelo de efectos aleatorios. Ahora bien,
los datos observados de un dise
no completamente aleatorizado pueden presentase como
en la tabla 3.1
La hipotesis a probar en este tipo de dise
nos es que la media de los tratamientos
sean iguales, es decir,

H0 : 1 = 2 = = k
H1 : i = j para alg
un i = j

(3.2)


CAPITULO 3. ANALISIS
DE VARIANZA

106

Tabla 3.1: Datos Muestrales de un DCA


Tratamiento
1
2

k
Y11
Y12

Y1k
Y21
Y22

Y2k
..
..
..
..
.
.
.
.
Yn1 1
Yn2 2

Ynk k
Total
Y,1
Y,2

Y.k
nj
n1
n2

nk

Media
Y,1
Y,2

Y.K
Otra manera de plantear el modelo de un dise
no completamente aleatorizado,
ecuacion ??, se tiene al expresar la media del j-esimo tratamiento, j como

j = + j

donde
es la media general.
j es el efecto del j-esimo tratamiento
de esta manera, el modelo de un DCA se puede escribir como

Yij = + j + ij

i = 1, 2, , nj

(3.3)

j = 1, 2, , k

En este caso, la hipotesis a probar se puede plantear como

H0 : 1 = 2 = = k = 0
H1 : i = 0 para alg
un i

(3.4)

COMPLETAMENTE ALEATORIZADO (DCA)


3.3. DISENO

107

Para probar dicha hipotesis se realiza un analisis de varianza, cuyo desarrollo se


vera a continuacion.

3.3.3.

An
alisis de Varianza para el DCA

En el desarrollo analtico del Analisis de varianza (ANDEVA) se necesita calcular:

El gran total: Y.. =

Y.j =

j=1

nj
k

Yij .

j=1 i=1

El total para el tratamiento j: Y.j =

nj

Yij . Y.j =

Y.j
nj

i=1

El n
umero de observaciones: N =

nj .

j=1

La gran media: Y.. =

Y..
.
N

La media del tratamiento j: Y.j =

Y.j
.
nj

Como se dijo antes el analisis de varianza busca separar la variabilidad total en


porciones signicativas de variabilidad, en este caso, que solo hay un factor de interes
ademas del error aleatorio, se busca separar la variabilidad de las observaciones con
respecto a la media en 2 fuentes de variabilidad, una debida a los tratamientos y otra
al error aleatorio.
Una medida de la desviacion de las observaciones con respecto a la media esta dada
k
n

2 , la cual restandole y sumandole los promedios de los tratamientos


por
(Yij Y..)
j=1 i=1


CAPITULO 3. ANALISIS
DE VARIANZA

108

y ordenandolo convenientemente se tiene que


nj
k

2 =
(Yij Y..)

j=1 i=1

nj
k

2
(Yij barY.j + Y.j Y..)

(3.5)

+ (Yij barY.j )]2


[(Y.j Y..)

(3.6)

j=1 i=1

nj
k

j=1 i=1

Al desarrollar el segundo miembro de la ecuacion 3.5, se obtiene

nj
k

2 =
(Yij Y..)

j=1 i=1

nj
k

2 + 2(Y.j Y..)(Y

2
[(Y.j Y..)
ij Y.j ) + (Yij Y.j ) ]

j=1 i=1

nj
k

+
(Y.j Y..)
2

nj
k

j=1 i=1

j=1 i=1

nj
k

nj
k

2+
(Y.j Y..)

j=1 i=1

2(Y.j Y..)(Y
ij Y.j ) +

nj
k

(Yij Y.j )2

j=1 i=1

(Yij Y.j )2

j=1 i=1

Como las sumatorias que contienen productos cruzados son iguales a cero, se tiene que
nj
k

j=1 i=1

=
(Yij Y..)
2

nj
k

+
(Y.j Y..)
2

j=1 i=1

nj
k

(Yij Y.j )2

(3.7)

j=1 i=1

La ecuacion 3.7 representa la descomposicion de la suma de cuadrados total. La cual


se puede expresar de la siguiente manera

SCT = SCT r + SCE

Esta u
ltima ecuacion es la ecuacion fundamental del Analisis de Varianza.

(3.8)

COMPLETAMENTE ALEATORIZADO (DCA)


3.3. DISENO

109

Para efecto de calculos, las formulas anteriores usualmente se desarrollan y se


reescriben de la forma siguiente

SCT =

nj
k

Yij2

j=1 i=1

SCT r =

Y.j2
j=1

nj

Y..2
N

Y..2
N

SCE = SCT SCT r

En base a estos estadsticos, se obtienen dos estadsticos adicionales, usualmente


llamados Medias Cuadraticas o Cuadrados Medios y resultan de dividir cada suma de
cuadrados por su correspondiente grados de libertad.
Cuadrado medio de tratamientos

CMT r =

SCT r
k1

CME =

SCE
N k

y,
Cuadrado medio del error

Cuyos valores esperados estan dados por:

E(CME ) = 2
nj
k

j2
E(CMT r ) = +
k1
j=1 i=1
2

Observemos que si H0 : j = 0j, es verdadera, E(CMT r ) = 2 . Esto es, en este


caso se tienen dos estimadores insesgados e independientes de 2 , el CMT r y el CME .


CAPITULO 3. ANALISIS
DE VARIANZA

110

Ahora bien, sabemos que SCT = SCT r + SCE y Ademas, puede demostrarse que
SCT
2N 1
2

(3.9)

Si H0 es verdadera, y de acuerdo al teorema de Cochran es posible denir dos


estadsticos chi-cuadrados independientes
SCT r
2k1
2

(3.10)

SCE
2N k
2

(3.11)

Por lo tanto, el estadstico

F0 =

SCT r
/k
2
SCE
/N
2

1
k

CMT r
CME

(3.12)

sigue una distribucion F con k 1 y N k grados de libertad.


Estos resultados pueden ser resumidos bajo el formato general de la tabla de
ANDEVA, como se muestra en la tabla 3.2.
Tabla 3.2: Tabla de Analisis de Varianza
Fuente de
Suma de Grado de Cuadrado
Variacion

Cuadrados

Libertad

Medio

Tratamiento

SCT r

k-1

CMT r

Error

SCE

N-k

CME

Total

SCT

N-1

Rechazamos H0 s y solo s: F > F1,k1,N k

F0

COMPLETAMENTE ALEATORIZADO (DCA)


3.3. DISENO

111

Ejemplo 3.2 Los datos que figuran en la tabla 3.3 son los resultados de un dise
no
completamente aleatorizado para el cual la respuesta son los kilowats hora, empleados
por los sistemas de calentamiento (en cientos de kilowats hora) para casa muy similares
en un lugar dado, como funcion de cinco aislamientos termicos (en pulgadas). Con
base en esta informacion, Existe alguna raz
on para creer que por lo menos algunos
consumos de energa promedio para los cinco niveles de aislamiento son diferentes?.
Suponga un nivel de significaci
on igual a 0.01. Se desea probar la hipotesis

Tabla 3.3: Calor empleado para cinco niveles de aislamiento


Espesor del aislamiento del techo (pulgadas)
4

10

12

14.4

14.5

13.8

13.0

13.1

14.8

14.1

14.1

13.4

12.8

15.2

14.6

13.7

13.2

12.9

14.3

14.2

13.6

13.2

14.0

13.3

14.6

12.7

H0 : 1 = 2 = = 5 =
H1 : i = j para alg
un i = j

(3.13)

o de manera equivalente

H0 : 1 = 2 = = 5 = 0
H1 : j = 0 para alg
un j

(3.14)


CAPITULO 3. ANALISIS
DE VARIANZA

112

El n
umero de observaciones y los totales se encuentran en la tabla 3.4.
Tabla 3.4: Calculos del ejemplo 3.2
Tratamiento
1
2

k
14.4
14.5
13.8
13.0
14.8
14.1
14.1
13.4
15.2
14.6
13.7
13.2
14.3
14.2
13.6
14.6
14.0
Total
nj

73.3
n1 = 5

57.4
n2 = 4

69.2
n2 = 5

39.6
n4 = 3

13.1
12.8
12.9
13.2
13.3
12.7
78
n5 = 6

Por lo tanto, las sumas de los cuadrados son las siguientes:


SCT = 14,42 + 14,82 + ... + 12,72
SCT r =

73,32
5

57,42
4

69,22
5

39,62
3

317,52
23

782
6

= 11,05

317,52
23

= 9,836

SCE = 11,05 9,836 = 1,214


La informacion se ha agrupado en una tab;a de analisis de varianza que se muestra en
la tabla 3.5
Tabla 3.5: Tabla de Analisis de Varianza para el ejemplo 3.2
Fuente de

Suma de

Grado de

Cuadrado

Variacion

Cuadrados

Libertad

Medio

Tratamiento

9.836

2.459

Error

1.214

18

0.0674

Total

11.05

22

36.48

Dado que F = 36,48 > F0,99,4,18 = 4,58 se rechaza la hipotesis nula de que no existe
ning
un efecto debido a los tratamientos. En relaci
on con lo anterior, existe una razon

COMPLETAMENTE ALEATORIZADO (DCA)


3.3. DISENO

113

para creer que parte de los consumos promedios de energa son diferentes para los cinco
niveles de aislamiento.


CAPITULO 3. ANALISIS
DE VARIANZA

114

3.4.

M
etodos A posteriori

En algunas investigaciones, sus objetivos o la naturaleza propia del problema


indican que debe someterse a prueba la signicacion de determinados tratamientos o de
una combinacion de los mismos. Esto es, existen situaciones en las que los tratamiento
bajo investigacion tienen alguna relacion lo cual incide en que unas comparaciones
son de mas interes que otras. A esto nos referimos como comparaciones a priori o,
preplaneadas.
Ahora bien, si una vez realizado el experimento y analizada la informacion,
rechazamos la hipotesis nula, signica que por lo menos una de las medias de los
tratamientos es diferente del resto o, que al menos un efecto de tratamiento diere
signicativamente de cero. Sin embargo, el rechazar la hipotesis nula no ofrece ninguna
informacion que permita dar respuesta a la siguiente interrogante; Cual o cuales
medias dieren?
En esta seccion se van a desarrollar procedimientos que permiten probar la
signicacion de algunas comparaciones entre los efectos de tratamientos o entre todas
las posible parejas entre tratamientos, en el primer caso se dice que son comparaciones
por contraste y en el segundo comparaciones m
ultiples. Veamos a continuacion dichos
procedimientos:

3.4.1.

Comparaciones por Contrastes

Aunque por lo general, se esta interesado en la comparacion de los tratamientos


agrupados por parejas, lo que se traduce en contrastar hipotesis del tipo H0 : 1 = 2 ,
()
o de manera equivalente H0 : 1 2 = 0, dando como consecuencia un total de k2
comparaciones, existen situaciones en las que es de interes comparar una combinacion


3.4. METODOS
A POSTERIORI

115

lineal de tratamientos, las cuales se traducen en contrastar hipotesis de la forma


m

H0 :
cj j = 0. La ecuacion que se presenta en la hipotesis antes planteada se
j=1

conoce como contraste.


Denici
on 3.9 (Contraste) Un contraste (L) es una combinaci
on lineal de las
medias poblacionales de interes, es decir,

L=

cj j

(3.15)

j=1

donde
cj son n
umeros reales que cumplen con la condici
on

cj = 0

j=1

j es la media del j-esimo tratamiento.


Por ejemplo, las hipotesis nulas del tipo H0 : i = j , se pueden escribir como
H0 : i j = 0, denen el contraste L = c1 1 c2 2 donde c1 = 1 y c2 = 1. La
hipotesis H0 :

1 +2
2

= 3 dene un contraste con c1 = 12 , c2 =

1
2

y c3 = 1.

Para probar dichas hipotesis, bajo el supuesto que la distribucion de las poblaciones
m
m

son N (j , ), se usa como estimador L =


cj
j =
cj Yj , el cual se distribuye
j=1

j=1

normal con parametros

=
E[L]

cj j

= 2
V ar[L]

j=1

j=1

c2j
n
j=1 j

cj j

L0 = v
u
u 2 m c2j
t
n
j=1 j

(3.16)


CAPITULO 3. ANALISIS
DE VARIANZA

116

sigue una distribucion normal con media igual a cero y varianza igual a 1.
Como por lo general 2 es desconocida, usamos CME como su estimador, de manera
que,

cj j

j=1

L0 = v
u
m

u
c2j
tCME
n
j=1 j

(3.17)

el cual se distribuye t-student con N k grados de libertad. De esta forma la


expresion
v
u
m

u
c2j
t/2,N k tCME
L
n
j=1 j

(3.18)

constituye un intervalo de conanza del 100(1 ) % para L.


Si el intervalo contiene el cero, se concluye que L es estadsticamente igual a cero.
Podemos indicar que rechazamos cuando |L0 | > t/2,N k .

M
etodo de Sche
e
Es un metodo alternativo del t-student para probar contrastes. En este caso
Schee propone el siguiente intervalo de conanza para el contraste L.
v
u
m

u
c2j

t
L A CME
n
j=1 j
donde

A = (k 1)F,k1,N k

(3.19)


3.4. METODOS
A POSTERIORI

117

Nuevamente si el intervalo de conanza no contiene al cero, entonces decimos que


la prueba es signicativa, es decir que se rechaza la hipotesis de que el contraste sea
igual a cero.

3.4.2.

Comparaciones M
ultiples

M
etodo de la Diferencia Mnima Signicativa (LSD)
Procedimiento propuesto por Fisher en el a
no 1.935 y que consiste en realizar todas
()
las posibles comparaciones entre pares de medias, es decir, todos las k2 pruebas de la
forma:

H0 : i = j
H1 : i = j i = j

(3.20)

Para probar dicha hipotesis se usa como estadstico de prueba la diferencia entre los
valores estimados de las medias (medias muestrales), es decir Y.j Y.k , cuya distribucion
(suponiendo que las poblaciones son N (j , 2 )) es N [j j , 2 (1/nj + 1/nj )]. Por
lo tanto, bajo la hipotesis nula cierta el estadstico
Y.j Y.k
Z=
1/nj + 1/nk

(3.21)

se distribvuye normal estandar. Pro como 2 es desconocido, se usa el CME para


estimarlo. asi, el estadstico
T =

Y.j Y.k
CME (1/nj + 1/nk )

(3.22)


CAPITULO 3. ANALISIS
DE VARIANZA

118

se distribuye t-student con N k grados de libertad. Por lo tanto, se rechaza H0 si


|T | > t/2,N k , lo cual es equivalente a rechazar H0 si
|Y.j Y.k | > t/2,N k

CME (1/nj + 1/nk )

Otra manera de contrastar la hipotesis es construyendo el intervalo de conanza


para j k el cual es
|Y.j Y.k | t/2,N k

CME (1/nj + 1/nk )

Si el intervalo no contiene el cero rechazamos H0 .


Esta

prueba

es
conocida

como LSD, pues seg


un Gutierrez(2006), t/2,N k CME (1/nj + 1/nk ) es la mnima
diferencia que debe haber entre dos medias muestrales para poder considerar que los
tratamientos correspondientes son signicativamente diferentes.
M
etodo de los Rangos Estudentizados o M
etodo de Tukey
Procedimiento aplicado para probar hipotesis de la forma H0 : j k = 0,
inicialmente en dise
nos balanceados. Este metodo hace uso de la Distribucion del Rango
Estudentizado, el cual se dene a continuacion.
Denici
on 3.10 Sean Z1 , ..., Zm y U variables aleatorias independientes, tales que
Zi N (0; 1)(i = 1, 2, ...m) y U 2m . Sea ademas,
|Zi Zj |
q = max
i=j
U/m

(3.23)

Decimos que q tiene una distribucion de rango estudentizado , lo que se denota,


3.4. METODOS
A POSTERIORI

119

q qk;m .
Para probar H0 , se debe calcular:

T = q;k,N k

CME /n

(3.24)

donde q;k,N k es el punto superior de la distribucion de rango estudentizado.


Existen tablas de estos valores que pueden ser consultadas en libros de dise
nos de
experimentos o modelos lineales.
Si |Y.j Y.k | > T concluimos que j y k son diferentes, en otro caso, se consideran
iguales.
Para el caso no balanceado, Kramer (1.956) propone el siguiente cambio en 3.24
(
)
1 1
1
T = q;k,fE
+
CME /n
2 nj nk

(3.25)

donde fE son los grados de libertad para el error. Este metodo es referido como el
metodo de Tukey-Kramer.

M
etodo de los Rangos M
ultiples de Duncan
Test dise
nado para comparar todos los posibles pares de medias [k(k 1)/2]. A
diferencia del test de Tukey, este usa diferentes valores crticos, los cuales dependen del
rango de |Y.j y Y.k . Esto es, dependen del n
umero de medias entre ellas, una vez que
han sido ordenadas en forma ascendente.
Sean Y(,1) , ..., Y(.k) las medias de tratamientos ordenadas en forma ascendente. Si
entre Y(.j) y Y(.k) hay p medias, entonces un test rango estudentizado de tamano ,

es conducido comparando Y(.j) Y(.k) con Dp = r (p, f ) CM


, donde r (p, f ) es el
n


CAPITULO 3. ANALISIS
DE VARIANZA

120

rango signicativo de la tabla de Duncan para el nivel . Si Y(.j) Y(.k) > Dp , entonces
j y k son signicativamente diferentes.
El procedimiento de Duncan se desarrolla de la siguiente manera:
1. Ordenar las medias en forma ascendente.
2. Obtener las diferencias entre cada par de medias de la siguiente manera:

Y.(k) Y.(1) , Y.(k) Y.(2) , ..., Y.(k) Y.(k1) , ..., Y.(2) Y.(1)

3. Obtener r (p, f ) y comparar Y.(k) Y.(1) con Dk . Si esta diferencia no es


signicativa, debemos considerar las diferencias Y.(k) Y.(2) y Y.(k1) Y.(1)
y compararlas con Dk1 , y as sucesivamente hasta comparar las diferencias
Y.(k) Y.(k1) , Y.(k1) Y.(k2) con D2 .
Si el modelo es no balanceado, n suele ser reemplazado por nh =

1
n
j=1 j

.c

M
etodo de Newman Keuls
Es un metodo restringido a la comparacion entre pares de medias. Es similar en
cuanto a su procedimiento, al Test de Rangos M
ultiples de Duncan, no as en su
eciencia, ya que la prueba de Duncan es mas ecaz. En este procedimiento las medias
deben ser ordenadas en forma ascendente y se requiere del calculo de todas las posibles
diferencias crticas entre las medias. Estas diferencias crticas estan dadas por:

N Kp = q;p,fE

CM E
n

p = 2, 3, ..., k

(3.26)


3.4. METODOS
A POSTERIORI

121

donde q es el valor critico de la tabla de rango estudentizado. j y k , se consideran


signicativamente diferentes si y solo si (Y(.j) Y(.k) ) > N Kp .
M
etodo de Dunnet
Existen situaciones en las que dentro del grupo de k tratamientos se tiene un
tratamiento control, y el objetivo principal del experimento es comparar a los (k 1)
tratamientos restantes con este. Esto es, si el tratamiento S es el control, entonces
estamos interesados en probar la hipotesis:

H0 : S = j

j = 1, ..., k;

j = S

Para hacer las (k 1) comparaciones se usa el procedimiento desarrollado por


Dunnett y el cual consiste en comparar (Y(.S) Y(.j) ) con el valor crtico
(
D=
(

2CME
n

)1/2
dk1,,f si H1 : s > j

)1/2
2CME
D =
dk1,,f si H1 : s < j
n
(
)1/2
2CME

D =
dk1,/2,f si H1 : s = j
n

Luego, rechazamos H0 s y solo s:


D D si H1 : s > j
D D si H1 : s < j
|D| = D si H1 : s = j


CAPITULO 3. ANALISIS
DE VARIANZA

122

3.5.

Ejercicios

1. Demuestre que la suma de los productos cruzados en la descomposicion de la


suma de cuadrados es cero.
2. Obtenga las formulas usuales del analisis de varianza a partir de las formulas
teoricas.
3. Demuestre que

E(CME ) = 2
nj
k

j2
E(CMT r ) = +
k1
j=1 i=1
2

4. Demuestre que
SCT
2N 1
2
SCT r
2k1
2
SCE
2N k
2
5. Demuestre que
F0 =

CMT r
Fk1,N k .
CME

Nota: Establezca los supuestos necesarios.


6. Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan
con metodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado,
el segundo grupo realiza series cortas de alta intensidad y el tercero trabaja en
el gimnasio con pesas y se ejercita en el pedaleo de alta frecuencia. Despues de

3.5. EJERCICIOS

123

un mes de entrenamiento se realiza un test de rendimiento consistente en un


recorrido cronometrado de 9 Km. Los tiempos empleados fueron los siguientes
Metodo I

Metodo II

Metodo III

15

14

13

16

13

12

14

15

11

15

16

14

17

14

11

A un nivel de conanza del 95 % Puede considerarse que los tres metodos


producen resultados equivalentes? O por el contrario Hay alg
un metodo superior
a los demas?
7. Una lista de palabras sin sentido se presenta en la pantalla del ordenador
con cuatro procedimientos diferentes, asignados al azar a un grupo de sujetos.
Posteriormente se les realiza una prueba de recuerdo de dichas palabras,
obteniendose los siguientes resultados:
Proc. I

Proc. II

Proc. III

Proc. IV

11


CAPITULO 3. ANALISIS
DE VARIANZA

124

Que conclusiones pueden sacarse acerca de las cuatro formas de presentacion,


con un nivel de signicacion del 5

8. Una egresada de contadura tiene ofertas de trabajo de cuatro empresas. Para


examinar un poco mas las propuestas, solicito a una muestra de personas de nuevo
ingreso, decirle cuantos meses trabajaron cada una para su compa
nia, antes de
recibir un aumento de sueldo. La informacion muestral es:

12 14

18

12

10 12

12

14

14 10

16

16

12 10
9

Al nivel de signicancia de 0,05; existe alguna diferencia entre las cuatro empresas,
en el n
umero medio de meses antes de recibir un aumento de sueldo?

9. Cierta ciudad esta dividida en cuatro distritos. El jefe de policia quiere determinar
si hay alguna diferencia en el n
umero promedio de crmenes cometidos en cada
distrito. Registro el n
umero de crmenes reportados en cada distrito en una
muestra de seis das. Al nivel de signicancia 0,05; puede el funcionario concluir
que hay diferencia en el n
umero promedio de crmenes?

3.5. EJERCICIOS

125
A

13 21

12

16

15 13

14

17

14 18

15

18

15 19

13

15

14 18

12

20

15 19

15

18

10. En una empresa electronica se estudian cuatro tipos de circuitos para comparar la
cantidad de ruido de fondo asociado a cada circuito. Se han obtenido los siguientes
datos:
circuito

Ruido observado

19

20

19

30

80

61

73

56

80

47

26

25

35

50

95

46

83

78

97

Es la cantidad media de ruido asociado a cada circuito la misma?, que circuito


seleccionara?

126

CAPITULO 3. ANALISIS
DE VARIANZA

Captulo 4
Dise
no de Bloques Aleatorios

4.1.

Introducci
on.

Como se ha dicho antes, uno de los principales objetivos que se persigue al dise
nar
un experimento, es reducir el error aleatorio y de esta forma, incrementar la precision
de los resultados. En el dise
no completamente aleatorio se supone que las unidades
experimentales son relativamente homogeneas con respecto a factores que afectan
la variable respuesta. Sin embargo algunas veces no tenemos disponibles sucientes
unidades experimentales homogeneas. Por lo tanto, cualquier factor que afecte la
variable respuesta y que vare entre las unidades experimentales aumentara la varianza
del error experimental, disminuyendo as la precision de las comparaciones.
Por ejemplo, consideramos el problema de determinar si distintas maquinas exhiben
diferente velocidad en el ensamblaje de un artculo. El gerente de una empresa desea
comparar cuatro maquinas diferentes y tomar alguna decision acerca de cual maquina
adquirir de acuerdo a la velocidad de ensamblaje mostrada. El factor de interes es solo la
maquina, pero es importante tomar en cuenta que la operacion de las maquinas requiere
127

128

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

determinada destreza, pues operadores mas diestros pueden incidir en la disminucion


del tiempo de ensamblaje del artculo. Esto implica que la velocidad de ensamblaje
no se debe solo a la diferencia entre los cuatro tipos de maquinas sino tambien a la
destreza de los operadores. En terminos de variabilidad, la variacion de los tiempos de
ensamblaje no se debe solo a la variacion producida por las maquinas sino tambien a
la variacion producida por los operadores.

Para disminuir tal variabilidad, su utilizan mecanismos conocidos como control


local. Uno de ellos es, disponer de unidades experimentales en varios grupos
homogeneos, llamados generalmente bloques, los cuales admiten variacion entre ellos.

En el ejemplo anterior se vio que hay dos factores que aportan sobre la variabilidad
de la respuesta, el tipo de maquina y el operador, pero como solo es de interes el
efecto que tiene la maquina, entonces es necesario controlar el efecto producido por
los operadores, esto se logra colocando los operadores como bloques, es decir, cada
operador debe usar las 4 maquinas, de esta manera la variabilidad producida por cada
operario se debera a la diferencia entre las maquinas.

Por lo tanto, los bloques se pueden denir como los valores de un factor que se
piensa inuye sobre la respuesta pero que no es de interes en el estudio.

Usar bloques estratica a las unidades experimentales en grupos homogeneos. Una


buena eleccion del criterio de bloqueo resulta en menor variacion entre las unidades
experimentales dentro de los bloques comparada con la variacion de las unidades
experimentales entre los bloques.


4.2. TIPOS DE DISENOS
DE BLOQUES

4.2.

129

Tipos de dise
nos de bloques

Dependiendo del tama


no del bloque usado, existen dos tipos basicos de dise
nos de
bloques aleatorizados:
1. Dise
no de bloque completo: Cada bloque contiene todos los tratamientos.
Esto es, el material experimental es dividido en b bloques de k unidades
experimentales cada uno, donde k representa el n
umero de tratamientos (Tabla
1)
2. Dise
no de bloque incompleto: El tama
no de al menos un bloque es menor
que el n
umero de tratamientos en el experimento. Existen dos tipos de bloques
aleatorizados incompletos:
a) b.1. Balanceado: Todos los bloques tienen el mismo tama
no y el n
umero de
bloques en el que cualquier par de tratamientos aparece juntos, es constante.
Si ademas, el n
umero de tratamientos es igual al n
umero de bloques, decimos
que el dise
no es simetrico. (Tabla 2)
b) No Balanceado: El n
umero de bloques que contiene cualquier par de
tratamientos no es constante, puede diferir de un par a otro. (Tabla 3)

4.3.

Dise
no de bloques aleatorizados con bloques
completos

Consideremos ahora en detalle el dise


no de bloques aleatorizados con bloques
completos. La aleatorizacion se da de la siguiente manera: Los tratamientos son primero
numerados de 1 a k en cualquier orden. Las unidades en cada bloque son ademas

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

130

numeradas, convenientemente de 1 a k. Los k tratamientos son asignados en forma


aleatoria a las k unidades en cada bloque. La distribucion aleatoria puede ser hecha o
bien, consultando una tabla de n
umeros aleatorios, sorteos de lotes o el lanzamiento
de una moneda como se describe en el dise
no completamente aleatorizado.
En este tipo de dise
no, como se explico antes, sobre la variable respuesta inuyen
tres factores: el factor de interes a traves de sus tratamientos, el factor que no es de
interes estudiar y el error experimental el cual contiene todas aquellas variables que no
han sido tomadas en cuenta. Por lo tanto la variable respuesta puede modelarse de la
siguiente manera:

Yij = + i + j + ij

i = 1, 2, , b
j = 1, 2, , k

donde
Yij es la observacion del j-esimo tratamiento en el i-esimo bloque.
es la media general
i es el efecto del i-esimo bloque
j es el efecto de j-esimo tratamiento
ij es el error aleatorio, los cuales se suponen N (0, 2 ) e independientes
En este modelo, i = i. y j = .j
Ademas suponiendo que el modelo es de efectos jos se cumple que
b

i=1

i =

j=1

j = 0

DE BLOQUES ALEATORIZADOS CON BLOQUES COMPLETOS131


4.3. DISENO
Un supuesto adicional a los ya considerados, es que el efecto de cada tratamiento es
el mismo en todos los bloques. Esto signica que no existe interaccion entre bloques y
tratamientos.
Ahora bien, los datos observados de un dise
no en el cual los tratamientos son
arreglados en b bloques completos pueden presentase como en la tabla 4.1

Tabla 4.1: Datos para un DBCA


Tratamiento
Total
1
2
k bloque
y1.
1 y11 y12 y1k
Bloque 2 y21 y22 y2k
y2.
..
..
..
..
..
.
.
.
.
.
b
Total Trat

yb1
y,1

yb2
y,2

ybk
y.k

yb.
y..

Al igual que en el dise


no completamente aleatorizado la hipotesis a probar es:

H0 : 1 = 2 = = k

(4.1)

H1 : i = j para alg
un i = j

que tambien se puede expresar como

H0 : 1 = 2 = = k = 0
H1 : i = 0 para alg
un i

Para probar dicha hipotesis se realiza un analisis de varianza

(4.2)

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

132
An
alisis de Varianza

La hipotesis dadas en (4.1) o (4.9) se prueba con un analisis de varianza con dos
criterios de clasificacion; se utilizan los dos criterios porque se controlan dos fuentes
de variacion: el factor de tratamientos y el factor de bloque.
Una medida de la desviacion de las observaciones con respecto a la media esta dada
k
b

por
(yij y..)
2 , la cual restandole y sumandole los promedios de los tratamientos
j=1 i=1

y los bloques y el promedio general y ordenandolo convenientemente se tiene que


k
b

(yij y..)
=
2

j=1 i=1

k
b

[(
yi. y.. ) + (
y.j y.. ) + (yij yi. y.j + y.. )]2

(4.3)

j=1 i=1

Al desarrollar el segundo miembro de la ecuacion 4.3, se obtiene


k
b

(yij y..)
2 =

j=1 i=1

k
b

(
yi. y.. )2 +

j=1 i=1

+ 2

k
b

j=1 i=1

k
b

k
b

k
b

(yij yi. y.j + y.. )2

j=1 i=1

(
yi. y.. )(
y.j y.. ) + 2

j=1 i=1

= 2

(
y.j y.. )2 +
k
b

(
yi. y.. )(yij yi. y.j + y.. )

j=1 i=1

(
y.j y.. )(yij yi. y.j + y.. )

j=1 i=1

Se puede probar que las sumatorias que contienen productos cruzados son iguales a
cero. Por lo tanto,
k
b

j=1 i=1

(yij y..)

k
b

j=1 i=1

(
yi. y.. ) +
2

k
b

j=1 i=1

(
y.j y.. ) +
2

k
b

(yij yi. y.j + y.. )2

j=1 i=1

representa la descomposicion de la suma de cuadrados total. La cual se puede expresar

DE BLOQUES ALEATORIZADOS CON BLOQUES COMPLETOS133


4.3. DISENO
de la siguiente manera
SCT = SCB + SCT r + SCE

(4.4)

Para efecto de calculos, las formulas anteriores usualmente se desarrollan y reescriben


de la forma siguiente

SCT =

k
b

yij2

j=1 i=1

SCB =
SCT r =

y2

i.

i=1
k

j=1

y..2
bk

y..2
bk

y.j2
y2
..
b
bk

SCE = SCT SCB SCT r

Ahora bien, si el bloqueo es usado para reducir el error experimental, comparando los
modelos para los dise
nos completamente aleatorizados y de bloques completamente
aleatorizados para la i-esima observacion bajo el j-esimo tratamiento se tiene que:
ij = ij + i

(4.5)

donde ij es el error aleatorio del dise


no completamente aleatorizado, ij el error para
el dise
no de bloques completamente aleatorizado y i el efecto de bloque. Esta igualdad
implica que la suma de cuadrados del Error en el Dise
no Completamente Aleatorizado
es igual a la Suma de Cuadrados de Bloques mas la Suma de Cuadrados del Error en
el Dise
no de Bloques, es decir :

SCE (DCA) = SCB + SCE (DBCA)

(4.6)

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

134

Las sumas de cuadrados divididas por sus grados de libertad proveen otros estadsticos,
llamados cuadrados medios.

CMT r =

SCT r
k1

CMB =

SCB
b1

CME =

SCE
(k 1)(b 1)

(4.7)

Si la varianza de los errores se supone constante, sigma2 , y ademas i y j son jos,


entonces los valores esperados de estos cuadrados medios estan dados por:

E(CME ) = 2
b
E(CMT r ) = 2 +

j2

j=1

k1
n

k
i2

E(CMB ) = 2 +

i=1

b1

Si H0 , en (4.1) o (4.9), es verdadera, el valor esperado del cuadrado medio de los


tratamientos esta dado por:
E(CMT r ) = 2
Por consiguiente, bajo la hipotesis nula cierta, el estadstico

Fc1 =

CMT r
CME

(4.8)

sigue una distribucion F con k 1 y (b 1)(k 1) grados de libertad.


De aqu podemos indicar que cuando la hipotesis nula H0 no es verdadera, se espera
que ocurra un valor grande para Fc1 , es decir, H0 debe ser rechazada. Fc1 es chequeado
contra el valor crtico F,k1,(k1)(b1) ; si Fc1 es mayor que este valor crtico, rechazamos

DE BLOQUES ALEATORIZADOS CON BLOQUES COMPLETOS135


4.3. DISENO
H0 .
Otra hipotesis de interes es medir el efecto del bloque, es decir, medir se el bloque
es o no necesario, la cual puede plantearse de la siguiente manera:

H02 : 1 = 2 = = b = 0

(4.9)

un i
H12 : i = 0 para alg
Al igual que para el desarrollo anterior, si H02 es verdadera, el valor esperado del
cuadrado medio de los bloques esta dado por:

E(CMB ) = 2

Bajo H02 cierta, el cociente


Fc2 =

CMB
CME

(4.10)

y H02 se rechaza si Fc2 es mayor que el valor crtico F,k1,(k1)(b1) .


Todo este desarrollo lo podemos resumir como se muestra en la Tabla 4.2. Esta
tabla recibe el nombre de Tabla de Analisis de Varianza para el Dise
no de Bloques
Completamente Aleatorizado.
Tabla 4.2: Tabla de Analisis de Varianza para el DBCA
Fuente de

Suma de

Grado de

Cuadrado

Variacion

Cuadrados

Libertad

Medio

Tratamiento

SCT r

k-1

CMT r

Bloque

SCB

b-1

CMB

Error

SCE

(k-1)(b-1)

CME

Total

SCT

N-1

Fc1
Fc2

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

136

Ejemplo 4.1 Se realiza un experimento para determinar el efecto que tiene el grado
de trabajo (vueltas por pulgada) en la resistencia del algod
on. Se decide utilizar cinco
niveles para el grado de trabajo; 150, 163, 169, 178 y 10 vueltas por pulgadas. Se
sabe que ademas de este factor, existen otras posibles fuentes de variacion, como las
m
aquinas, operadores, material experimental, entre otros. Despues de una discusion
se decide ignorar el efecto de estos factores, excepto el factor maquinas, el cual
ser
a controlado. La variable respuesta medida es el n
umero de roturas por cada cien
libras de material. La tabla 3-1 muestra los resultados obtenidos:
Tabla 4.3: N
umero de Rupturas por cada cien libras
Grados de Trabajo

Maquina

10 163

169

178

190

24

42

29

68

12

27

23

49

34

12

22

22

17

60

31

16

47

45

50

22

25

17

39

57

10

24

23

44

37

Probar la hipotesis de que no existen efectos de tratamientos a un nivel de


significacion del 5 %.
Soluci
on:
El dise
no utilizado en esta investigacion es un dise
no de bloques completos, donde:
Tratamientos: Grados de Trabajo
Bloques: Maquinas
Variable Respuesta: Numero de roturas por cada cien libras de material

DE BLOQUES ALEATORIZADOS CON BLOQUES COMPLETOS137


4.3. DISENO
La primera hipotesis a probar es:

H01 : 1 = 2 = 3 = 4 = 5 = 0

Bajo el supuesto de normalidad se puede hacer uso de la tecnica de analisis de varianza


para probar dicha hipotesis.
Tabla 4.4: Tabla de totales
Tratamiento
163

169

178

190

24

42

29

68

172

12

27

23

49

34

145

12

22

22

17

60

133

31

16

47

45

50

189

22

25

17

39

57

160

10

24

23

44

37

138

Total Tratamiento 96

138

174

224

305

937

Bloque

Ademas,

Total bloque

10

6
5

Yij2 = 36475. Entonces

j=1 i=1

9372
= 7209, 367
30
9372
= 29732, 600
= 466, 967
30
9372
= 33,650, 167
= 4384, 533
30

SCT = 36475
SCB
SCT r

SCE = 7209, 367 466, 967 4384, 533 = 2357, 867

De aqu se puede construir la siguiente tabla de An


alisis de Varianza: Si se usa un nivel

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

138

Tabla 4.5: Tabla de Analisis de Varianza para el DBCA


Fuente de

Suma de

Grado de

Cuadrado

Variacion

Cuadrados

Libertad

Medio

Tratamiento

4384,533

1096,133

Bloque

466,967

93,393

Error

2357,867

20

93,393

Total

7209,367

29

9,298
0,792

de significacion del 5 %, el valor crtico es F4,20,0,05 = 2, 87 y dado que 9,298 es mayor


que 2,87, entonces se rechaza la hipotesis, es decir, se concluye que existe efectos del
grado de trabajo sobre el n
umero de roturas.
Al observar el valor de la Fc asociada con los bloques, 0.792, podemos concluir que
no existen diferencias significativas entre las maquinas, lo que implica que el dise
no de
bloques no se justifica.

4.4.

Preguntas y Ejercicios

1. Que es un dise
no de bloques completamente aleatorios?
2. Cuando es apropiado utilizar un dise
no de bloques completamente aleatorios?.
3. Cual es el modelo de un dise
no de bloques completamente aleatorios?
4. Que diferencia hay entre un dise
no completamente aleatorizado y uno de bloques
completos?.
5. Apoyandose en el modelo estadstico para un dise
no en bloques, por que a traves
de este dise
no se reduce el error aleatorio?.

4.4. PREGUNTAS Y EJERCICIOS

139

6. Explique por que el adjetivo aleatorios en el nombre del dise


no de bloques
completamente aleatorios
7. Demuestre que los productos cruzados obtenidos en la particion de las sumas de
cuadrados son iguales a cero.
8. A continuacion se muestra una parte del ANOVA para un dise
no en bloques, que
tiene tres tratamientos y cinco bloques, con una sola repeticion en tratamientobloque.
Fuente de

Suma de

Grado de

Cuadrado

Variacion

Cuadrados

Libertad

Medio

calculado

Tratamiento

600

Bloque

850

Error

500

Total
a) Complete la tabla.
b) Escriba el modelo estadstico y las hipotesis pertinentes.
c) Apoyandose en tablas de la distribucion F, decida i se aceptan o se rechazan
las hipotesis.
9. Realice el problema anterior, pero ahora suponga que no se hay bloqueado. Se
hubiese obtenido las mismas conclusiones?. Argumente.
10. Una compa
na farmaceutica realizo un experimento para comprobar los tiempos
promedio (en das) necesarios para que una persona se recupere d elos efectos
y complicaciones que siguen a un resfriado com
un. En este experimento se

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

140

compararon las personas que tomaron distintas dosis diarias de vitamina C.


Para hacer el experimento se contacto a un n
umero determinado de personas,
que en cuanto les daba el resfriado empezaban a recibir alg
un tipo de dosis (las
cuales se iban rotando). Si la edad de estas es una posible fuente de variabilidad,
explique con detalle como aplicara la idea de bloqueo para controlar tal fuente
de variabilidad.
11. A continuacion se muestran los datos para un dise
no en bloques al azar.
Tratamiento

Total bloque

y1. =

y2. =

yb. =

10

yb. =

y,1 =

y,2 =

y,3 =

y.. =

Bloque

Total Trat

a) Complete los totales que se4 piden en la tabla anterior.


b) Calcule las sumas de cuadrados correspondientes.
c) Obtenga la tabla de analisis de varianza y anote las principales conclusiones.
d ) De ser necesario realice el analisis a posteriori usando el metodo de la
diferencia mnima signicativa.
12. Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar
moscas. Para ello, cada atomizador se aplica a un grupo de 100 moscas y se cuenta
el n
umero de moscas muertas, expresado en porcentajes. Se hicieron seis replicas,
pero estas se hicieron en das diferentes, por ello se sospecha que puede haber

4.4. PREGUNTAS Y EJERCICIOS

141

alg
un efecto importante debido a esta fuente de variacion. Los datos obtenidos
se muestran a continuacion.

N
umero de replica (da)
Marca de atomizador
1

72 65

67

75

62

73

55 59

68

70

53

50

64 74

61

58

51

69

a) Formule las hipotesis adecuadas y el modelo estadstico.


b) Existe diferencia entre la efectividad promedio de los atomizadores?.
c) Hay alg
un atomizador mejor?.
d ) Hay diferencias signicativas en los resultados de diferentes das en que se
realizo el experimento?. Argumente.

13. En una empresa lechera se tienen varios silos para almacenar leche (ciusternas de
60.000 L). Un aspecto crtico para que se conserve la leche es la temperatura de
almacenamiento. Se sospecha que en algunos silos hay problemas, por ello durante
cinco das se decide registrar la temperatura a cierta hora crtica. Obviamente la
temperatura de un da a otro es una fuente de variabilidad que podra impactar
la variabilidad total.

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

142

Da
Silo
Lunes Martes

Miercoles Jueves Viernes

4.0

4.0

5.0

0.5

3.0

5.0

6.0

2.0

4.0

4.0

4.5

4.0

3.5

2.0

3.0

2.5

4.0

6.5

4.5

4.0

4.0

4.0

3.5

2.0

4.0

a) En este problema, cual es el factor de tratamiento y cual el factor de bloque?


b) Formule las hipotesis adecuadas y el modelo estadstico
c) Hay diferencia entre los silos?
d ) La temperatura de un da a otro es diferente?

14. Se dise
no un experimento para estudiar el rendimiento de cuatro detergentes. Las
siguientes lecturas de blancurase obtuvieron con un equipo especial dise
nado
para doce cargas de lavado distribuidas en tres modelos de lavadoras.
Detergente Lavadora 1

Lavadora 2

Lavadora 3

45

43

51

47

44

52

50

49

57

42

37

49

a) Se
nale el nombre del dise
no experimental utilizado.
b) Formule la hipotesis que se quiere probar, de acuerdo al problema.
c) Realice el analisis estadstico apropiado a estos datos y obtenga conclusiones.

4.4. PREGUNTAS Y EJERCICIOS

143

15. Una qumica desea probar el efecto que tienen cuatro agentes qumicos sobre
la resistencia de un tipo particular de tela. Como puede haber variabilidad
entre un rollo de tela y otro, decide utilizar un dise
no aleatorizado por bloques,
considerando los rollos de tela como bloques. Ella selecciona 5 rollos y les aplica
los cuatro agentes qumicos en orden aleatorio. A continuacion, se proporcionan
los resultados de la resistencia a la tension. Analice estos datos y haga las
conclusiones apropiadas.
Rollo de tela
Agente qumico
1

M3

73

68

74

71

67

73

67

75

72

70

75

68

78

73

68

73

71

75

75

69

144

DE BLOQUES ALEATORIOS
CAPITULO 4. DISENO

Captulo 5
Dise
no en Cuadrado Latino
5.1.

Introducci
on.

En la seccion anterior se vio que una manera de reducir el error experimental era
tomando en cuenta otros factores que se piensan inuyen sobre la variable respuesta,
En ese caso, se supuso que solo exista un solo factor al cual se le llamo factor de
bloqueo, pues su funcion era bloquear la variabilidad que se produca sobre la variable
respuesta. En esta seccion vamos a estudiar situaciones en las que consideramos dos
factores de bloqueo, en cuyo caso decimos que se esta realizando un dise
no en cuadrado
latino.

5.2.

Dise
no en Cuadrado Latino

En este tipo de dise


no se tiene que sobre la variable respuesta inuyen cuatro
factores: el factor de interes a traves de sus tratamientos, 2 factores de bloqueo y el
error experimental el cual contiene todas aquellas variables que no han sido tomadas
145

EN CUADRADO LATINO
CAPITULO 5. DISENO

146

en cuenta. Los 2 factores de bloque son conocidos como bloque columna y bloque la, o
simplemente, columna y la, estos deben tener el mismo numero de niveles, es por ello
que se llama cuadrado. Los tratamientos se denotan con las letras latinas, razon por la
cual se llama latino, y solo aparece uno por cada combinacion de la-columna, por lo
tanto el n
umero de tratamientos es igual al n
umero de las y columnas y en cada la
y columna deben estar presentes todos los tratamientos, los mismos son asignados de
manera aleatoria en cada la o columna.
Por lo tanto la variable respuesta, de un dise
no con k tratamientos, k las y k
columnas, puede modelarse de la siguiente manera:

Yijr = + i + j + r ij ; (i, j, r) = 1, 2, , k
donde
Yijr es la observacion del tratamiento i, en la la j y la columna r.
es la media general
i es el efecto de i-esimo tratamiento
j es el efecto del j-esimo nivel del factor la.
r es el efecto del r-esimo nivel del factor columna.
ijr es el error aleatorio, los cuales se suponen N (0, 2 ) e independientes
Suponiendo que el modelo es de efectos jos se cumple que
b

i=1

i =

j=1

j =

j=1

k = 0

(5.1)

EN CUADRADO LATINO
5.2. DISENO

147

Un supuesto adicional a los ya considerados, es que los factores afectan los resultados
en forma independiente, uno de otro. Esto es, la interaccion no es importante o, no
existe.
Ahora bien, los datos observados de un dise
no en el cual los k tratamientos son
arreglados en k las y k columnas pueden presentase como en la tabla 5.1
Tabla 5.1: Aspectos de los datos en un dise
no
Columna
1
2
3
1 A = y111 B = y212 C = y313
2 B = y221 C = y322 D = y423
Fila 3 C = y331 D = y432 E = y533
..
..
..
..
.
.
.
.
k

K = ykk1

A = y1k2

B = y2k3

de cuadrado latino

..
.

k
K = yk1k
A = y12k
B = y23k
..
.

J = yjkk

Al igual que en los dise


nos anteriores la hipotesis a probar es:

H0 : 1 = 2 = = k = 0

(5.2)

H1 : i = 0 para alg
un i

(5.3)

Para probar dicha hipotesis se realiza un analisis de varianza.

An
alisis de Varianza
La hipotesis dada se prueba con un analisis de varianza con tres criterios de
clasificacion; se utilizan los tres criterios porque se controlan tres fuentes de variacion:
el factor de tratamientos y los dos factores de bloque.
Una medida de la desviacion de las observaciones con respecto a la media

EN CUADRADO LATINO
CAPITULO 5. DISENO

148

esta dada por

k
k
k

(yijr y...)
2 , la cual restandole y sumandole los promedios

i=1 j=1 r=1

de los tratamientos, de las las, las columnas y el promedio general y ordenandolo


convenientemente se tiene que

k
k
k
k
k
k

2
(yijk y...)

=
[(
yi.. y... ) + (
y.j. y... ) + (
y..r y... ) (5.4)
i=1 j=1 r=1

i=1 j=1 r=1

+ (yij yi.. y.j. y..r + 2


y.. )]2

(5.5)

Al desarrollar el segundo miembro de la ecuacion, y teniendo en cuenta que las


sumatorias que contienen productos cruzados son iguales a cero se obtiene

k
k
k

(yijk y...)

i=1 j=1 r=1

k
k
k

(
yi.. y... ) +
2

i=1 j=1 r=1

k
k
k

k
k
k

(
y.j. y... )2

i=1 j=1 r=1

(
y..r y... ) +

i=1 j=1 r=1

k
k
k

(yij yi.. y.j. y..r + 2


y.. )2

i=1 j=1 r=1

lo cual representa la descomposicion de la suma de cuadrados total. Esta ecuacion


se puede expresar de la siguiente manera

SCT = SCT r + SCF + SCC + SCE

(5.6)

Para efecto de calculos, las formulas anteriores usualmente se desarrollan y


reescriben de la forma siguiente

EN CUADRADO LATINO
5.2. DISENO

SCT =

149

k
k
k

2
yijr

i=1 j=1 r=1

SCT r =
SCF =

y2

i..

i=1
k

j=1

SCC =

2
y...
N

2
2
y.j.
y...

k
N

y2

..r

r=1

2
y...
N

2
y...
N

SCE = SCT SCT r SCF SCC

los grados de libertad estan dados por

GLT = N 1
GLT r = k 1
GLF = k 1
GLC = k 1
GLE = GLT GLT r GLF GLC = (k 2)(k 1)

los cuadrados medios en este caso son

CMT r =

SCT r
k1

CMF =

SCF
k1

y el estadstico de prueba es

CMC =

SCC
k1

CME =

SCE
(k 2)(k 1)

EN CUADRADO LATINO
CAPITULO 5. DISENO

150

F =

CMT r
CME

(5.7)

La regla de decision es rechazar H0 si F > F;GLT r ;GLE .


Otras hipotesis que pueden ser de interes son las siguientes
No existe efecto de la

H0 : 1 = 2 = = k = 0

(5.8)

H1 : j = 0 para alg
un j

(5.9)

No existe efecto de columna

H0 : 1 = 2 = = k = 0

(5.10)

H1 : r = 0 para alg
un r

(5.11)

cuyos estadsticos de prueba son respectivamente

FF =

CMF
CME

FC =

CMC
CME

(5.12)

y las reglas de decision es rechazar H0 si F F > F;GLF ;GLE y F C > F;GLC ;GLE .
Todo este desarrollo lo podemos resumir como se muestra en la Tabla 5.3. Esta
tabla recibe el nombre de Tabla de Analisis de Varianza para el Dise
no de Cuadrados
Latinos.
Ejemplo 5.1 Se sospecha que cualquier estmulo produce cambios en la sensibilidad del
ojo humano adaptado a la oscuridad. Para investigar esto, se dise
n
o un experimento

EN CUADRADO LATINO
5.2. DISENO

151

Tabla 5.2: Tabla de Analisis de Varianza para el DCL


Fuente de

Suma de

Grado de

Cuadrado

Variacion

Cuadrados

Libertad

Medio

Tratamiento

SCT r

k-1

CMT r

Fila

SCF

k-1

CMF

Columna

SCC

k-1

CMC

Error

SCE

(k-1)(k-2)

CME

Total

SCT

k2 1

Fc
FcF
FcC

el cual consistio en someter a cinco individuos durante cinco das seguidos a cinco
estmulos diferentes una vez que sus ojos se adaptaron a la oscuridad. Se registr
o como
resultado, sus sensibilidades a la prueba de bajo contraste de Luckiesh-Moss.
Tabla 5.3: Tabla de Analisis de Varianza para el DCL
Das

Sujetos

A=22

B=21

D=22

C=20

E=22

C=23

D=22

A=16

E=23

B=19

3 D=20

A=14

E=14

B=23

C=24

B=28

E=29

D=24

C=24

A=24

E=4

C=2

B=3

A=8

D=8

EN CUADRADO LATINO
CAPITULO 5. DISENO

152

5.3.

Preguntas y Ejercicios

1. Que es un dise
no de cuadrados latinos?
2. Cuando es apropiado utilizar un dise
no de cuadrados latinos ?.
3. Cual es el modelo de un dise
no de de cuadrados latinos?
4. Que diferencia hay entre un dise
no completamente aleatorizado, uno de bloques
completos y uno de cuadrados latinos?.
5. Apoyandose en el modelo estadstico para un dise
no de cuadrados latinos, por
que a traves de este dise
no se reduce el error aleatorio?.
6. Explique por que el el nombre de cuadrados latinos.
7. Demuestre que los productos cruzados obtenidos en la particion de las sumas de
cuadrados son iguales a cero.
8. Una compa
na de mensajera esta interesada en determinar cual marca de llantas
tiene mayor duracion, la medida esta en terminos del desgaste. Para ella se planea
un experimento en el que se comparan las cuatro marcas de llantas sometiendolas
a una prueba de 32.000 kilometros de recorrido, utilizando cuatro diferentes tipos
de auto y las cuatro posiciones posibles de las llantas en el auto.
Carro
Posicion

C=12

D=11

A=13

B=8

B=14

C=12

D=11

A=3

A=17

B=14

C=10

D=9

D=13

A=14

B=13

C=9

5.3. PREGUNTAS Y EJERCICIOS

153

a) Anote la ecuacion del modelo y las hipotesis estadsticas correspondientes.


b) Existen diferencias entre los tratamientos? Cuales tratamientos son
diferentes entre s?.
c) Los factores de marca de llanta, tipo de auto y posiciones inuyen en la
duracion?
9. Se quiere estudiar el efecto de cinco diferentes catalizadores (A,B,C,D y E) sobre
el tiempo de reaccion de un proceso qumico. Cada lote de material solo permite
cinco corridas y cada corrida requiere aproximadamente de 1.5 horas, por lo que
solo se pueden realizar cinco corridas diarias. El experimentador, decide correr
los experimentos con un dise
no en cuadrado latino, para controlar activamente a
los lotes y das. Los datos obtenidos son:
Da
1

A=8

B=7

D=1

C=7

E=3

C=11

E=2

A=7

D=3

B=8

Lote 3

B=4

A=9

C=10

E=1

D=5

D=6

C=8

E=6

B=6

A=10

E=4

D=2

B=3

A=8

C=8

a) Anote la ecuacion del modelo y las hipotesis estadsticas correspondientes.


b) Existen diferencias entre los tratamientos? Cuales tratamientos son
diferentes entre s?.
c) Los factores de ruido, lote y da afectan el tiempo de reaccion del proceso?

Вам также может понравиться